Statistik: Grundlagen und Methodik 9783110353891

The textbook is a thorough but at the same time understandably written introduction to the fundamentals of statistics. T

291 95 6MB

German Pages 713 [714] Year 2016

Report DMCA / Copyright

DOWNLOAD PDF FILE

Table of contents :
Inhaltsverzeichnis
1 Einführung in die Statistik
1.1 Eingrenzungen des Begriffs„Statistik“
1.1.1 Komprimierende Kennwerte
1.1.2 Staatswissenschaftliche Disziplin
1.1.3 Wahrscheinlichkeitstheoretisch fundierte Datenwissenschaft
1.2 Grundzüge statistischer Methoden
1.2.1 System und Zufall
1.2.2 Irrtums- und Sicherheitswahrscheinlichkeiten
1.2.3 Deskription und Induktion
1.2.4 Empirischer und theoretischer Kalkül
1.3 Teilbereiche, Spezialgebiete und Grundlagen
1.3.1 Datengewinnung und Aufbereitung
1.3.2 Spezielle Analysemethoden und Instrumente
1.3.3 Wissenschaftsspezifische Ausrichtungen
1.3.4 Mathematische und technische Grundlagen
Teil 1: Deskriptive Statistik – Empirischer Kalkül
2 Einführung in die deskriptive Statistik
2.1 Daten, Datensätze und Variablen
2.2 Grundgesamtheit, Merkmalstypen und Skalierungsarten
2.3 Empirische Verteilungen und Zusammenhänge
3 Gesamtbeschreibung empirischer Verteilungen
3.1 Tabellarische Darstellungsmöglichkeiten
3.1.1 Elementare Begriffe und Notation
3.1.2 Häufigkeitstabellen bei Urlisten
3.1.3 Häufigkeitstabellen bei klassierten Daten
3.2 Grafische Darstellungsmöglichkeiten
3.2.1 Kreis-, Säulen- und Balkendiagramme
3.2.2 Stamm-Blatt-Diagramme
3.2.3 Histogramme (Häufigkeitsdichten)
3.2.4 Boxplots
3.3 Empirische Verteilungsfunktion (EVF)
3.3.1 Häufigkeitsfunktion und EVF bei Urlisten
3.3.2 Häufigkeitsdichtefunktion und EVF bei klassierten Daten
4 Spezifizierende Beschreibung empirischer Verteilungen
4.1 Spezifika empirischer Verteilungen
4.2 Lagekennwerte
4.2.1 Arithmetisches Mittel
4.2.2 Median
4.2.3 Modalwert
4.2.4 Fechner'sche Lageregeln
4.3 Spezielle Lagekennwerte
4.3.1 Arithmetisches Mittel bei gruppierten Daten
4.3.2 Quantile
4.3.3 Geometrisches Mittel
4.4 Streuungskennwerte
4.4.1 Spannweite
4.4.2 Mittlere absolute Abweichungen
4.4.3 Median absoluter Abweichungen
4.4.4 Varianz, Standardabweichung und Schwankungsintervalle
4.5 Spezielle Streuungskennwerte
4.5.1 Varianz bei gruppierten Daten
4.5.2 Quantilsabstände
4.5.3 Variationskoeffizient
4.6 Standardisierung mittels Lage und Streuung
4.7 Messung von Schiefe
4.8 Darstellung und Messung von Konzentration
4.8.1 Lorenz-Kurve
4.8.2 Gini-Koeffzient
4.9 Spezifische Eigenschaften empirischer Kennwerte
4.9.1 Minimumeigenschaft des arithmetischen Mittels
4.9.2 Minimumeigenschaft des Medians
4.9.3 Transformationseigenschaften
4.9.4 Robustheit
5 Beschreibung und Analyse empirischer Zusammenhänge
5.1 Zusammenhänge zwischen kategorialen Merkmalen
5.1.1 Kontingenztabellen
Verteilungen in Kontingenztabellen
Empirische Abhängigkeit und Unabhängigkeit
Konzeptionelle Vorüberlegungen für ein Zusammenhangsmaß
5.1.2 Zusammenhangsmaße für Kontingenztabellen
Chi-Quadrat-Koeffzient
Mittlere quadratische Kontingenz
Kontingenzkoeffzient nach Pearson
Transformationseigenschaften der Zusammenhangsmaße
5.1.3 Grafische Analysemöglichkeiten
Gestapelte und gruppierte Säulendiagramme
Segmentierte Säulen- und Balkendiagramme
Assoziationsplots
Mosaikplots
Spineplots
5.2 Zusammenhänge zwischen metrischen Merkmalen
5.2.1 Grafische Analysemöglichkeiten
Streudiagramme
Streudiagramm-Matrizen
Hexagonalplots
5.2.2 Zusammenhangsmaße für metrische Merkmale
Empirische Kovarianz
Empirischer Korrelationskoeffizient nach Pearson
Empirische Kovarianz- und Korrelationsmatrizen
Korrelationskoeffizient nach Spearman
5.2.3 Einfache lineare Regression
Zweck und allgemeine Vorgehensweise
KQ-Methode (L2-Regression)
LAD-Methode (L1-Regression)
Kritische Punkte und Alternativen
5.3 Ergänzende und vertiefende Themen
5.3.1 Zusammenhänge in anderen Skalierungsfällen
Grafische Analysemöglichkeiten
Zusammenhangsmaße
Spezielle Regressionsmodelle
5.3.2 Grafische Darstellung höherdimensionaler Daten
Höherdimensionale Mosaikplots
3D-Punktwolken
Biplots
5.3.3 Wichtige Aspekte bei der Analyse empirischer Zusammenhänge
Empirische Zusammenhänge und Kausalität
Spezielle Formen von Kausalität
Systematische Verzerrungen
Zufällige Schwankungen
Teil 2: Wahrscheinlichkeitsrechnung – Theoretischer Kalkül
6 Einführung in die Wahrscheinlichkeitsrechnung
6.1 Wichtige Grundbegriffe und Regeln
6.1.1 Interpretation von Zufall und Wahrscheinlichkeiten
6.1.2 Elementare Mengenlehre
6.1.3 Axiomatischer Wahrscheinlichkeitsbegriff und Regeln
6.2 Rechnen mit abhängigen und unabhängigen Ereignissen
6.2.1 Bedingte Wahrscheinlichkeiten und Rechenregeln
6.2.2 Stochastische Unabhängigkeit von Ereignissen
6.2.3 Kalkül nach der Formel von Bayes
7 Theoretische Verteilungen und Abhängigkeiten
7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen
7.1.1 Eindimensionale Zufallsvariablen
Konzept und Ausblick
Diskrete Zufallsvariablen und Additionskalkül
Stetige Zufallsvariablen und Integrationskalkül
Theoretische Verteilungsfunktion
Wahrscheinlichkeitsverteilung
7.1.2 Mehrdimensionale Zufallsvariablen
Konzept und Ausblick
Zweidimensionale diskrete Zufallsvariablen
Zweidimensionale stetige Zufallsvariablen
Stochastische Abhängigkeit und Unabhängigkeit
Höherdimensionale Wahrscheinlichkeitsverteilungen
7.1.3 Verteilung von Funktionen von Zufallsvariablen
Funktionen einer Zufallsvariable
Funktionen aus mehreren Zufallsvariablen
7.2 Theoretische Kennwerte
7.2.1 Kennwerte in Bezug auf Lage und Streuung
Erwartungswert
Theoretische Varianz und Standardabweichung
Theoretische Quantile und theoretischer Median
7.2.2 Kennwerte in Bezug auf Abhängigkeiten
Bedingte Erwartungswerte und Varianzen
Theoretische Kovarianz und Korrelation
Theoretische Regressionskoeffzienten
7.2.3 Spezifische Eigenschaften theoretischer Kennwerte
Minimumeigenschaften von Lagekennwerten
Wichtige Transformationseigenschaften
Endliche und nicht endliche theoretische Momente
7.3 Spezielle eindimensionale Verteilungen
7.3.1 Spezielle diskrete Verteilungen
Elementare Kombinatorik
Einpunktverteilung
Bernoulli-Verteilung
Binomialverteilung
Poisson-Verteilung
7.3.2 Spezielle stetige Verteilungen
Stetige Gleichverteilung
Exponentialverteilung
Normalverteilung
7.4 Verteilung stochastischer Summen und Mittelwerte
7.4.1 Exakte Aussagen
Erwartungswerte und Varianzen
Verteilungen unter bestimmten Ausgangsverteilungen
7.4.2 Asymptotische und approximative Aussagen
Gesetz der großen Zahlen (GGZ)
Zentraler Grenzwertsatz (ZGWS)
8 Ergänzungen und Verallgemeinerungen
8.1 Weitere eindimensionale Verteilungen
8.1.1 Weitere diskrete Verteilungen
8.1.2 Weitere stetige Verteilungen
8.1.3 Sonstige eindimensionale Verteilungen
8.2 Ergänzungen zu asymptotischen Aussagen
8.2.1 Alternative GGZ- und ZGWS-Varianten
8.2.2 Stochastische Konvergenz und Verteilungskonvergenz
8.3 Einige multivariate Verallgemeinerungen
8.3.1 Multivariate Abhängigkeiten
Abhängigkeit und Unabhängigkeit von Zufallsvektoren
Bedingte Abhängigkeit und Unabhängigkeit
8.3.2 Kenngrößen multivariater Abhängigkeiten
Theoretische Kovarianz- und Korrelationsmatrix
Bedingte Kennwerte für n > 2
8.3.3 Sonstige Verallgemeinerungen
Teil 3: Induktive Statistik – Verbindung von Empirie und Theorie
9 Einführung in die induktive Statistik
9.1 Modellierung und Handhabung von Schätz- und Testproblemen
9.2 Was versteht man unter einer Stichprobe?
9.3 Formale Unterscheidungsebenen
10 Statistisches Schätzen
10.1 Punktschätzung
10.1.1 Schätzer und ihre Gütekriterien
10.1.2 Erwartungstreue
10.1.3 Erwartete quadratische Abweichung (MSE)
10.1.4 Konsistenz
10.1.5 Effzienz
10.2 Intervallschätzung
10.2.1 Was versteht man unter einem Konfidenzintervall?
10.2.2 Konfidenzintervalle für Erwartungswerte
10.2.3 Konfidenzintervalle für Erwartungswertdifferenzen
10.2.4 Weitere Konfidenzintervalle
10.2.5 Adäquatheit bestimmter Modellannahmen
10.3 Schätzmethoden
10.3.1 Momentenmethode
10.3.2 Maximum-Likelihood-Methode
10.3.3 Weitere Schätzmethoden
11 Statistisches Testen
11.1Was versteht man unter einem Test?
11.1.1 Einführende Beispiele
11.1.2 Grundstruktur und Durchführung
11.1.3 Zusammenhang zur Intervallschätzung
11.2 Wichtige Aspekte beim Testen
11.2.1 Hypothesenwahl und Fehlerarten
11.2.2 Irrtumswahrscheinlichkeiten und Güte
11.2.3 p-Werte
11.2.4 Signifikanz vs. Relevanz
11.3 Ausgewählte Testverfahren
11.3.1 Tests über Erwartungswerte
11.3.2 Tests über Erwartungswertdifferenzen
11.3.3 Nichtparametrische 2-Tests
Allgemeiner überblick
X2-Anpassungstest
X2-Unabhängigkeitstest
11.3.4 Weitere Tests
Tests über Anteilswerte
Tests auf Unkorreliertheit und Unabhängigkeit
Sonstige Tests und Testmethoden
11.3.5 Allgemein zu beachtende Punkte
12 Das lineare Regressionsmodell
12.1 Einfaches lineares Regressionsmodell
12.1.1 Grundmodell und KQ-Methode
Statistisches Grundmodell
Herleitung der KQ-Schätzer
Eigenschaften der empirischen KQ-Regression
Bestimmtheitsmaß und Standardfehler der Regression
12.1.2 Modellannahmen und theoretische KQ-Regression
Ensembles von Modellannahmen
Theoretische KQ-Regression
12.1.3 Verteilungstheoretische Grundlagen
Verteilungen der KQ-Schätzer
Konsistenz und Effzienz der KQ-Schätzer
Schätzung der Varianzen der KQ-Schätzer
Verteilungen der Inferenzstatistiken
12.1.4 Schätzen und Testen
Konfidenzintervalle und Tests
Spezialfall: Binärer Regressor
Adäquatheit bestimmter Modellannahmen
Fallbeispiel 1: Bewässerung und Wachstum
Fallbeispiel 2: Klassengröße und Lernerfolg
12.2 Einführung in das multiple lineare Regressionsmodell
12.2.1 Partielle lineare KQ-Regression
Empirische partielle Regression
Theoretische partielle Regression
Verbindung von Empirie und Theorie
12.2.2 Multiple lineare KQ-Regression
Empirische multiple Regression
Theoretische multiple Regression
Verbindung von Empirie und Theorie
Statistische Modelle und Inferenz
12.2.3 Fallbeispiele
Fallbeispiel 2 fortgesetzt: Determinanten des Lernerfolgs
Fallbeispiel 3: Gewicht und Geschlecht
Fallbeispiel 4: Binäre Regressoren und ANOVA-Modelle
Anhang: Tabellen
Stichwortverzeichnis
Literaturverzeichnis
Recommend Papers

Statistik: Grundlagen und Methodik
 9783110353891

  • 0 0 0
  • Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up
File loading please wait...
Citation preview

Toni C. Stocker und Ingo Steinke Statistik

Toni C. Stocker und Ingo Steinke

Statistik

Grundlagen und Methodik

ISBN 978-3-11-035388-4 e-ISBN (PDF) 978-3-11-035389-1 e-ISBN (EPUB) 978-3-11-039763-5 Library of Congress Cataloging-in-Publication Data A CIP catalog record for this book has been applied for at the Library of Congress. Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen National­ bibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.dnb.de abrufbar. © 2017 Walter de Gruyter GmbH, Berlin/Boston Einbandabbildung: Toni C. Stocker, Ingo Steinke Druck und Bindung: CPI books GmbH, Leck ♾ Gedruckt auf säurefreiem Papier Printed in Germany www.degruyter.com

Vorwort In nahezu allen empirisch orientierten Wissenschaften nehmen statistische Methoden zur Auswertung und Interpretation von Daten einen unverzichtbaren Platz ein. Diese stellen nicht nur wegen ihrer teils erheblichen Komplexit¨at, sondern h¨aufig auch aufgrund unzureichender Grundkenntnisse potenzieller Anwender eine große Verst¨andnish¨ urde dar. Das vorliegende Lehrbuch soll diesem Umstand Rechnung tragen und eine ausf¨ uhrliche und verst¨ andliche Einf¨ uhrung in die mathematisch-methodischen Grund¨ lagen des Faches Statistik bieten. Dies soll auch einen relativ nahtlosen Ubergang zu m¨oglichen weiterf¨ uhrenden Lehrveranstaltungen im quantitativen Bereich sicherstellen. Zum einen geschieht dies durch eine tief gehende Behandlung zahlreicher Standardthe” men“, zum anderen durch Hinzunahme von Themen und Aspekten, die trotz ihrer N¨ utzlichkeit und Wichtigkeit nach unserer Beobachtung h¨aufig vernachl¨assigt oder g¨anzlich unbehandelt bleiben. Hierzu z¨ ahlen beispielsweise fortgeschrittene grafische Methoden zur Darstellung h¨ oherdimensionaler Daten, die ausf¨ uhrliche Behandlung bedingter Verteilungen und Erwartungswerte, n¨ utzliche Erg¨anzungen und Alternativen in Bezug auf asymptotische S¨ atze, die Unterscheidung statistischer Signifikanz von inhaltlicher Relevanz, die Pr¨ ufung der Ad¨ aquatheit von Modellannahmen, die Problematisierung (oder u ¨berhaupt erst Thematisierung) des Kausalit¨atsbegriffs oder die Kl¨arung von Zusammenhangsverzerrungen im Mehrvariablenkontext, um nur einige zu nennen. Der noch unbedarfte Leser sei an dieser Stelle darauf hingewiesen, dass sich all die hier verwendeten Begrifflichkeiten im Rahmen dieses Lehrbuchs noch kl¨aren werden. Die dargebotene Ausf¨ uhrlichkeit ist dabei stets als Angebot zu verstehen, das je nach Bedarf und Interesse von Studierenden und Dozenten unterschiedlich angenommen werden kann. Einerseits werden viele theoretische Resultate, wenn es machbar und zumutbar erscheint, im Detail hergeleitet, andererseits k¨onnen solche Herleitungen auch einfach u uhrli¨bersprungen werden. Zusammenfassungen, Merkk¨asten, S¨atze und ausf¨ che Beispiele r¨ ucken wesentliche Resultate, Methoden und Anwendungsm¨oglichkeiten in den Fokus und erm¨ oglichen auch ein relativ z¨ ugiges Durcharbeiten. Durchg¨angig haben wir besonderen Wert auf eine integrierte und in sich konsistente Darstellung und Ausdeutung der drei eng miteinander verbundenen Teile Deskriptive Statistik“, ” Wahrscheinlichkeitsrechnung“ und Induktive Statistik“ gelegt. Abbildungen und Ta” ” bellen sind, sofern nicht anders gekennzeichnet, Eigendarstellungen. Die Z¨ahlweise f¨ ur Formeln, S¨atze, Definitionen, Abbildungen und Tabellen richtet sich an der zweiten Untergliederungsebene aus. So findet sich beispielsweise Abbildung 1.2.1 als erste Abbildung in Unterkapitel 1.2 und Tabelle 12.2.2 als zweite Tabelle in Unterkapitel 12.2. Wie h¨aufig in der statistischen Literatur u ¨blich, werden bei der Dezimalstellenschreibweise Punkte anstelle von Kommata verwendet. Das Lehrbuch eignet sich wahlweise als Prim¨ar- oder Sekund¨arliteratur f¨ ur alle Studieng¨ange, in denen solide statistische Kenntnisse unentbehrlich sind. Gleichwohl

orientiert sich die Auswahl konkreter Themen und Beispiele vor allem an den Bed¨ urfnissen wirtschafts- und sozialwissenschaftlicher Studieng¨ange. Je nach Vorkenntnissen kann das Buch sowohl im Bachelor- als auch im Masterbereich eingesetzt werden. In Bezug auf die mathematischen Vorkenntnisse setzen wir dabei neben der gymnasialen Schulmathematik lediglich Grundkenntnisse im Bereich der (mehrdimensionalen) Differential- und Integralrechnung voraus. F¨ ur einige wenige Themen erweisen sich gewisse matrixalgebraische Grundkenntnisse (elementares Rechnen mit Vektoren und Matrizen) als vorteilhaft. Zahlreiche f¨ ur Studierende wie Dozenten interessante Erg¨anzungsmaterialien wie Abbildungen, Datens¨ atze oder Vorlesungsfolien finden sich auf den Webseiten der Autoren und des Verlags unter http://statistik.vwl.uni-mannheim.de/ bzw. http://www.degruyter.com/view/product/361480 Hier findet sich auch eine Einf¨ uhrung in das frei verf¨ ugbare statistische Softwareprogramm R, mit dessen Hilfe sich viele Grafiken und Berechnungen in diesem Buch reproduzieren lassen. Begleitend zum vorliegenden Lehrbuch ist außerdem das darauf ¨ abgestimmte Ubungsbuch Statistik“ mit thematisch geordneten Aufgaben, inklusive ” vollst¨andiger und ausf¨ uhrlicher L¨ osungen, als eBook und als Taschenbuch erh¨altlich. F¨ ur umfangreiches Korrekturlesen danken wir den studentischen Hilfskr¨aften Timo Schenk und Frederick Zadow. Alle verbleibenden Fehler und Unzul¨anglichkeiten sind ausschließlich uns zuzuschreiben. Diesbez¨ uglich sind wir f¨ ur Hinweise und Ratschl¨age immer sehr dankbar. Danken m¨ochten wir außerdem Herrn Dr. S. Giesen und Frau J. Conrad vom Verlag De Gruyter f¨ ur die angenehme Zusammenarbeit.

Mannheim, im Juli 2016

Toni C. Stocker und Ingo Steinke

¨ Begleitendes Ubungsbuch ¨ Stocker, T.C. und Steinke, I. (2017): Ubungsbuch Statistik. M¨ unchen: De Gruyter Oldenbourg, ISBN: 978-3-11-035390-7. Hinweis Die Autoren spenden ihr Honorar dem Bundesverband von MENTOR – Die Leselern” helfer“. Webseite: http://www.mentor-bundesverband.de.

Inhaltsverzeichnis 1 Einf¨ uhrung in die Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1.1 Eingrenzungen des Begriffs Statistik“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ” 1.1.1 Komprimierende Kennwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.2 Staatswissenschaftliche Disziplin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.3 Wahrscheinlichkeitstheoretisch fundierte Datenwissenschaft . . . . . . . .

1 1 2 2

1.2 Grundz¨ uge statistischer Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2.1 System und Zufall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2.2 Irrtums- und Sicherheitswahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . 6 1.2.3 Deskription und Induktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.2.4 Empirischer und theoretischer Kalk¨ ul . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.3 Teilbereiche, Spezialgebiete und Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1 Datengewinnung und Aufbereitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.2 Spezielle Analysemethoden und Instrumente . . . . . . . . . . . . . . . . . . . . . . 1.3.3 Wissenschaftsspezifische Ausrichtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.4 Mathematische und technische Grundlagen . . . . . . . . . . . . . . . . . . . . . . .

11 11 14 17 18

Teil 1: Deskriptive Statistik – Empirischer Kalk¨ ul . . . . . . . . . . . . . . . . . . . . . . . . . 19 2 Einf¨ uhrung in die deskriptive Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.1 Daten, Datens¨ atze und Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.2 Grundgesamtheit, Merkmalstypen und Skalierungsarten . . . . . . . . . . . . . . . . . . 22 2.3 Empirische Verteilungen und Zusammenh¨ange . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3 Gesamtbeschreibung empirischer Verteilungen. . . . . . . . . . . . . . . . . . . . . . . . . 27 3.1 Tabellarische Darstellungsm¨ oglichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Elementare Begriffe und Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.2 H¨ aufigkeitstabellen bei Urlisten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.3 H¨ aufigkeitstabellen bei klassierten Daten . . . . . . . . . . . . . . . . . . . . . . . . . .

27 27 29 31

3.2 Grafische Darstellungsm¨ oglichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Kreis-, S¨ aulen- und Balkendiagramme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2 Stamm-Blatt-Diagramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3 Histogramme (H¨ aufigkeitsdichten) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.4 Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

32 32 34 35 39

viii

INHALTSVERZEICHNIS 3.3 Empirische Verteilungsfunktion (EVF) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.3.1 H¨ aufigkeitsfunktion und EVF bei Urlisten . . . . . . . . . . . . . . . . . . . . . . . . 43 3.3.2 H¨ aufigkeitsdichtefunktion und EVF bei klassierten Daten . . . . . . . . . 45

4 Spezifizierende Beschreibung empirischer Verteilungen . . . . . . . . . . . . . . . 49 4.1 Spezifika empirischer Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.2 Lagekennwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Arithmetisches Mittel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Median . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.3 Modalwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.4 Fechner’sche Lageregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

52 52 56 59 59

4.3 Spezielle Lagekennwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Arithmetisches Mittel bei gruppierten Daten . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.3 Geometrisches Mittel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

61 61 62 65

4.4 Streuungskennwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.1 Spannweite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.2 Mittlere absolute Abweichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.3 Median absoluter Abweichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.4 Varianz, Standardabweichung und Schwankungsintervalle . . . . . . . . .

69 69 70 72 73

4.5 Spezielle Streuungskennwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.1 Varianz bei gruppierten Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.2 Quantilsabst¨ ande . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.3 Variationskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

76 76 80 81

4.6 Standardisierung mittels Lage und Streuung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.7 Messung von Schiefe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 4.8 Darstellung und Messung von Konzentration . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 4.8.1 Lorenz-Kurve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 4.8.2 Gini-Koeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 4.9 Spezifische Eigenschaften empirischer Kennwerte . . . . . . . . . . . . . . . . . . . . . . . . . 4.9.1 Minimumeigenschaft des arithmetischen Mittels . . . . . . . . . . . . . . . . . . . 4.9.2 Minimumeigenschaft des Medians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.9.3 Transformationseigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.9.4 Robustheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

94 94 96 98 103

5 Beschreibung und Analyse empirischer Zusammenh¨ ange . . . . . . . . . . . . . 105 5.1 Zusammenh¨ ange zwischen kategorialen Merkmalen . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 Kontingenztabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Verteilungen in Kontingenztabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Empirische Abh¨ angigkeit und Unabh¨angigkeit. . . . . . . . . . . . . . . . . . . . . Konzeptionelle Vor¨ uberlegungen f¨ ur ein Zusammenhangsmaß . . . . . .

105 105 105 110 114

INHALTSVERZEICHNIS

ix

5.1.2 Zusammenhangsmaße f¨ ur Kontingenztabellen . . . . . . . . . . . . . . . . . . . . . Chi-Quadrat-Koeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mittlere quadratische Kontingenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kontingenzkoeffizient nach Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Transformationseigenschaften der Zusammenhangsmaße . . . . . . . . . . . 5.1.3 Grafische Analysem¨ oglichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gestapelte und gruppierte S¨ aulendiagramme . . . . . . . . . . . . . . . . . . . . . . Segmentierte S¨ aulen- und Balkendiagramme . . . . . . . . . . . . . . . . . . . . . . Assoziationsplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mosaikplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Spineplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

116 116 119 120 122 124 124 125 126 127 128

5.2 Zusammenh¨ ange zwischen metrischen Merkmalen . . . . . . . . . . . . . . . . . . . . . . . . 5.2.1 Grafische Analysem¨ oglichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Streudiagramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Streudiagramm-Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Hexagonalplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2 Zusammenhangsmaße f¨ ur metrische Merkmale . . . . . . . . . . . . . . . . . . . . Empirische Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Empirischer Korrelationskoeffizient nach Pearson . . . . . . . . . . . . . . . . . . Empirische Kovarianz- und Korrelationsmatrizen . . . . . . . . . . . . . . . . . . Korrelationskoeffizient nach Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.3 Einfache lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zweck und allgemeine Vorgehensweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . KQ-Methode (L2 -Regression) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . LAD-Methode (L1 -Regression) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kritische Punkte und Alternativen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

129 129 129 131 132 132 132 137 145 146 150 150 153 158 163

5.3 Erg¨anzende und vertiefende Themen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.1 Zusammenh¨ ange in anderen Skalierungsf¨allen . . . . . . . . . . . . . . . . . . . . . Grafische Analysem¨ oglichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zusammenhangsmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Spezielle Regressionsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.2 Grafische Darstellung h¨ oherdimensionaler Daten . . . . . . . . . . . . . . . . . . H¨oherdimensionale Mosaikplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3D-Punktwolken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Biplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.3 Wichtige Aspekte bei der Analyse empirischer Zusammenh¨ange . . . Empirische Zusammenh¨ ange und Kausalit¨at . . . . . . . . . . . . . . . . . . . . . . Spezielle Formen von Kausalit¨ at . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Systematische Verzerrungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zuf¨ allige Schwankungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

166 166 166 169 171 174 174 176 176 183 183 186 188 198

x

INHALTSVERZEICHNIS

Teil 2: Wahrscheinlichkeitsrechnung – Theoretischer Kalk¨ ul . . . . . . . . . . . . . . 203 6 Einf¨ uhrung in die Wahrscheinlichkeitsrechnung . . . . . . . . . . . . . . . . . . . . . . . . 204 6.1 Wichtige Grundbegriffe und Regeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.1 Interpretation von Zufall und Wahrscheinlichkeiten. . . . . . . . . . . . . . . . 6.1.2 Elementare Mengenlehre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.3 Axiomatischer Wahrscheinlichkeitsbegriff und Regeln . . . . . . . . . . . . . .

204 204 209 216

6.2 Rechnen mit abh¨ angigen und unabh¨ angigen Ereignissen . . . . . . . . . . . . . . . . . . 6.2.1 Bedingte Wahrscheinlichkeiten und Rechenregeln . . . . . . . . . . . . . . . . . . 6.2.2 Stochastische Unabh¨ angigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . . 6.2.3 Kalk¨ ul nach der Formel von Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

226 226 233 241

7 Theoretische Verteilungen und Abh¨ angigkeiten . . . . . . . . . . . . . . . . . . . . . . . . 245 7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . 7.1.1 Eindimensionale Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Konzept und Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diskrete Zufallsvariablen und Additionskalk¨ ul . . . . . . . . . . . . . . . . . . . . . Stetige Zufallsvariablen und Integrationskalk¨ ul . . . . . . . . . . . . . . . . . . . . Theoretische Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wahrscheinlichkeitsverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.2 Mehrdimensionale Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Konzept und Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zweidimensionale diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . Zweidimensionale stetige Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . Stochastische Abh¨ angigkeit und Unabh¨angigkeit . . . . . . . . . . . . . . . . . . H¨oherdimensionale Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . 7.1.3 Verteilung von Funktionen von Zufallsvariablen . . . . . . . . . . . . . . . . . . . Funktionen einer Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Funktionen aus mehreren Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . .

245 245 245 247 250 255 259 260 260 262 268 274 278 287 287 293

7.2 Theoretische Kennwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.1 Kennwerte in Bezug auf Lage und Streuung . . . . . . . . . . . . . . . . . . . . . . . Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Theoretische Varianz und Standardabweichung . . . . . . . . . . . . . . . . . . . . Theoretische Quantile und theoretischer Median . . . . . . . . . . . . . . . . . . 7.2.2 Kennwerte in Bezug auf Abh¨ angigkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . Bedingte Erwartungswerte und Varianzen . . . . . . . . . . . . . . . . . . . . . . . . . Theoretische Kovarianz und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . Theoretische Regressionskoeffizienten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.3 Spezifische Eigenschaften theoretischer Kennwerte . . . . . . . . . . . . . . . . Minimumeigenschaften von Lagekennwerten . . . . . . . . . . . . . . . . . . . . . . . Wichtige Transformationseigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . Endliche und nicht endliche theoretische Momente . . . . . . . . . . . . . . . .

296 297 297 312 316 319 319 327 333 334 334 335 338

7.3 Spezielle eindimensionale Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340 7.3.1 Spezielle diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341 Elementare Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341

INHALTSVERZEICHNIS

xi

Einpunktverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bernoulli-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.2 Spezielle stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Stetige Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

344 344 346 350 354 354 356 361

7.4 Verteilung stochastischer Summen und Mittelwerte . . . . . . . . . . . . . . . . . . . . . . 7.4.1 Exakte Aussagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Erwartungswerte und Varianzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Verteilungen unter bestimmten Ausgangsverteilungen . . . . . . . . . . . . . 7.4.2 Asymptotische und approximative Aussagen . . . . . . . . . . . . . . . . . . . . . . Gesetz der großen Zahlen (GGZ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zentraler Grenzwertsatz (ZGWS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

369 370 370 373 379 379 384

8 Erg¨ anzungen und Verallgemeinerungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394 8.1 Weitere eindimensionale Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.1.1 Weitere diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.1.2 Weitere stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.1.3 Sonstige eindimensionale Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . .

394 394 396 400

8.2 Erg¨anzungen zu asymptotischen Aussagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402 8.2.1 Alternative GGZ- und ZGWS-Varianten . . . . . . . . . . . . . . . . . . . . . . . . . . 403 8.2.2 Stochastische Konvergenz und Verteilungskonvergenz. . . . . . . . . . . . . . 407 8.3 Einige multivariate Verallgemeinerungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3.1 Multivariate Abh¨ angigkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abh¨ angigkeit und Unabh¨ angigkeit von Zufallsvektoren . . . . . . . . . . . . Bedingte Abh¨ angigkeit und Unabh¨angigkeit . . . . . . . . . . . . . . . . . . . . . . . 8.3.2 Kenngr¨ oßen multivariater Abh¨ angigkeiten . . . . . . . . . . . . . . . . . . . . . . . . . Theoretische Kovarianz- und Korrelationsmatrix . . . . . . . . . . . . . . . . . . Bedingte Kennwerte f¨ ur n > 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3.3 Sonstige Verallgemeinerungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

411 411 411 414 415 415 416 419

Teil 3: Induktive Statistik – Verbindung von Empirie und Theorie . . . . . . . 427 9 Einf¨ uhrung in die induktive Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428 9.1 Modellierung und Handhabung von Sch¨atz- und Testproblemen . . . . . . . . . . 428 9.2 Was versteht man unter einer Stichprobe? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432 9.3 Formale Unterscheidungsebenen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442

xii

INHALTSVERZEICHNIS

10 Statistisches Sch¨ atzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446 10.1 Punktsch¨ atzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.1.1 Sch¨ atzer und ihre G¨ utekriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.1.2 Erwartungstreue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.1.3 Erwartete quadratische Abweichung (MSE) . . . . . . . . . . . . . . . . . . . . . . . 10.1.4 Konsistenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.1.5 Effizienz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

446 446 453 457 459 466

10.2 Intervallsch¨ atzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2.1 Was versteht man unter einem Konfidenzintervall? . . . . . . . . . . . . . . . . 10.2.2 Konfidenzintervalle f¨ ur Erwartungswerte . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2.3 Konfidenzintervalle f¨ ur Erwartungswertdifferenzen . . . . . . . . . . . . . . . . 10.2.4 Weitere Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2.5 Ad¨ aquatheit bestimmter Modellannahmen . . . . . . . . . . . . . . . . . . . . . . . .

469 469 474 480 490 494

10.3 Sch¨atzmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.3.1 Momentenmethode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.3.2 Maximum-Likelihood-Methode. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.3.3 Weitere Sch¨ atzmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

500 500 503 509

11 Statistisches Testen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 511 11.1 Was versteht man unter einem Test? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1.1 Einf¨ uhrende Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1.2 Grundstruktur und Durchf¨ uhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1.3 Zusammenhang zur Intervallsch¨atzung . . . . . . . . . . . . . . . . . . . . . . . . . . . .

511 511 523 526

11.2 Wichtige Aspekte beim Testen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2.1 Hypothesenwahl und Fehlerarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2.2 Irrtumswahrscheinlichkeiten und G¨ ute . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2.3 p-Werte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2.4 Signifikanz vs. Relevanz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

528 529 532 543 546

11.3 Ausgew¨ahlte Testverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.3.1 Tests u ¨ber Erwartungswerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.3.2 Tests u ¨ber Erwartungswertdifferenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.3.3 Nichtparametrische χ2 -Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ¨ Allgemeiner Uberblick ............................................ χ2 -Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . χ2 -Unabh¨ angigkeitstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.3.4 Weitere Tests. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tests u ¨ber Anteilswerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tests auf Unkorreliertheit und Unabh¨angigkeit . . . . . . . . . . . . . . . . . . . . Sonstige Tests und Testmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.3.5 Allgemein zu beachtende Punkte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

548 548 552 556 556 557 565 570 570 576 580 583

INHALTSVERZEICHNIS

xiii

12 Das lineare Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 585 12.1 Einfaches lineares Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.1.1 Grundmodell und KQ-Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Statistisches Grundmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Herleitung der KQ-Sch¨ atzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Eigenschaften der empirischen KQ-Regression . . . . . . . . . . . . . . . . . . . . . Bestimmtheitsmaß und Standardfehler der Regression . . . . . . . . . . . . . 12.1.2 Modellannahmen und theoretische KQ-Regression . . . . . . . . . . . . . . . . . Ensembles von Modellannahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Theoretische KQ-Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.1.3 Verteilungstheoretische Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Verteilungen der KQ-Sch¨ atzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Konsistenz und Effizienz der KQ-Sch¨atzer . . . . . . . . . . . . . . . . . . . . . . . . . Sch¨ atzung der Varianzen der KQ-Sch¨atzer . . . . . . . . . . . . . . . . . . . . . . . . Verteilungen der Inferenzstatistiken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.1.4 Sch¨ atzen und Testen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Konfidenzintervalle und Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Spezialfall: Bin¨ arer Regressor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ad¨ aquatheit bestimmter Modellannahmen . . . . . . . . . . . . . . . . . . . . . . . . Fallbeispiel 1: Bew¨ asserung und Wachstum . . . . . . . . . . . . . . . . . . . . . . . Fallbeispiel 2: Klassengr¨ oße und Lernerfolg . . . . . . . . . . . . . . . . . . . . . . . .

585 585 585 587 590 594 598 598 605 610 610 619 620 623 624 624 626 629 636 640

12.2 Einf¨ uhrung in das multiple lineare Regressionsmodell . . . . . . . . . . . . . . . . . . . . 12.2.1 Partielle lineare KQ-Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Empirische partielle Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Theoretische partielle Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Verbindung von Empirie und Theorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.2.2 Multiple lineare KQ-Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Empirische multiple Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Theoretische multiple Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Verbindung von Empirie und Theorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Statistische Modelle und Inferenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.2.3 Fallbeispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fallbeispiel 2 fortgesetzt: Determinanten des Lernerfolgs . . . . . . . . . . Fallbeispiel 3: Gewicht und Geschlecht . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fallbeispiel 4: Bin¨ are Regressoren und ANOVA-Modelle . . . . . . . . . . .

646 646 646 652 654 656 656 659 661 661 670 670 672 674

Anhang: Tabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 678 Stichwortverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 681 Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 690

Kapitel 1: Einfu ¨ hrung in die Statistik In diesem einf¨ uhrenden Kapitel geht es zun¨ achst darum, die verschiedenen Interpretationsm¨oglichkeiten f¨ ur den Begriff bzw. das Fach Statistik aufzuzeigen und die f¨ ur dieses Lehrbuch haupts¨ achlich relevante Deutung und Eingrenzung vorzunehmen. Dazu werden die wesentlichen Grundz¨ uge und Verfahrensweisen statistischer Methoden vorgestellt und anhand von Beispielen erl¨ autert. Zentrale Begriffe und Unterscheidungen werden dabei sukzessive eingef¨ uhrt. Der letzte Abschnitt 1.3 bietet schließlich einen ¨ fachlichen Uberblick u ¨ber verschiedene Teilbereiche und Spezialgebiete mit ihren jeweiligen Zielsetzungen.

1.1 Eingrenzungen des Begriffs Statistik“ ” Der Begriff Statistik kann auf verschiedene Weisen verstanden werden. Zum einen sind Statistiken zusammenfassende Kennwerte, mit denen man gr¨oßere Datenmengen zu charakterisieren versucht. Zum anderen wird unter (der) Statistik h¨aufig entweder eine staatswissenschaftliche Disziplin verstanden oder eine Wissenschaft, die sich mit der Gewinnung, Auswertung und Interpretation von Daten befasst und dabei maßgeblich auf Wahrscheinlichkeitsrechnung basierende Methoden verwendet.

1.1.1 Komprimierende Kennwerte Zun¨achst einmal kann man unter einer Statistik einen zusammenfassenden“ Kenn” wert einer gr¨oßeren Menge von Zahlen (Daten) verstehen. In diesem Sinne ist das Wort Statistik sowohl in der Singular- als auch in der Pluralform verwendbar. Mittelwerte und prozentuale Anteilswerte sind einfache Beispiele f¨ ur solche Statistiken. So lassen sich z.B. die individuellen Geh¨ alter von Angeh¨origen einer bestimmten Berufsgruppe zu einem einzigen Durchschnittsgehalt zusammenfassen. Die individuellen Parteipr¨aferenzen von W¨ahlern werden gew¨ ohnlich in prozentualen Anteilen festgehalten. F¨ ur die Literpreise von Superkraftstoff an Tankstellen einer Region k¨onnte man zusammenfassend den Durchschnittspreis oder alternativ auch eine Preisspanne mit minimalem und maximalem Preis angeben. Derartige Statistiken dienen zur Komprimierung von Information. Eine Bewertung vorliegender Sachverhalte wird dadurch erleichtert und damit einhergehende Entscheidungen werden beschleunigt. So werden beispielsweise Zulassungsstellen f¨ ur Studieng¨ange an Hochschulen h¨ aufig nur die Abiturdurchschnittsnote eines Bewerbers als zun¨achst entscheidendes Kriterium heranziehen, ohne sich mit dem gesamten Notenbild eines Bewerbers detailliert zu befassen. Dies spart Zeit und Kosten. Andererseits birgt der mit solchen Komprimierungen verbundene Informationsverlust aber auch stets die Problematik einer nicht gen¨ ugend differenzierenden Bewertung.

2

1 Einf¨ uhrung in die Statistik

1.1.2 Staatswissenschaftliche Disziplin Die eigentliche Wortherkunft von Statistik ist wohl im lateinischen Wort status (Zustand) zu suchen. Tats¨ achlich hat man lange Zeit unter Statistik eine Art Lehre von der zahlenm¨aßigen Zustandsbeschreibung des Staates verstanden. So wurden Bev¨olkerung, Nahrungsvorr¨ ate, Gewerbe und Best¨ ande des Milit¨ars bereits zu antiken Zeiten summarisch erfasst. Als staatswissenschaftliche Teildisziplin verstanden taucht der Begriff im deutschsprachigen Raum um die Mitte des 18. Jahrhunderts in Werken des Historikers und Juristen Gottfried Achenwall vermutlich erstmalig auf (Hartung et al. [2009, S. 12–13]). Die Vorstellungen breiter Bev¨olkerungsschichten dar¨ uber, womit sich Statistik als Wissenschaft in erster Linie befasst und welche Statistiken dabei konkret erstellt werden, sind nach wie vor stark von einem solchen Begriffsverst¨andnis gepr¨agt. ¨ Man denke heute nur an die von den statistischen Amtern, der EZB bzw. der Deutschen Bundesbank, der Bundesagentur f¨ ur Arbeit und vielen anderen Institutionen regelm¨aßig und in großer Ausf¨ uhrlichkeit ver¨ offentlichten Statistiken zu Bev¨olkerung, Wirtschaft und Finanzen. Dabei scheint das Sammeln solcher Daten und das Zusammenfassen und Darstellen dieser in Form von Tabellen und Grafiken stets im Vordergrund zu stehen. So k¨onnte man annehmen, dass das Hauptaugenmerk einer Lehre in Statistik vor allem darauf l¨ age, hierf¨ ur notwendige fachspezifische Kenntnisse u ¨ber inhaltliche Definitionen, Bedeutungen und Probleme zu vermitteln. Beispielsweise w¨are eine notwendige Voraussetzung daf¨ ur, eine f¨ ur das Bundesgebiet ermittelte Arbeitslosenquote sachgerecht beurteilen zu k¨ onnen, zun¨ achst die Kenntnis dar¨ uber, wie diese u ¨berhaupt definiert ist. Ob und wie genau sich dann eine solche Quote u ¨berhaupt messen l¨asst, ¨ w¨ aren dann schon die n¨ achsten Fragen. Ahnliches trifft auf die f¨ ur private Verbraucher postulierte j¨ ahrliche Inflationsrate zu, mit der man versucht, den unterschiedlichen Preisentwicklungen von Tausenden von Produkten bei sich stets ver¨andernden individuellen Verbrauchsgewohnheiten von Millionen von B¨ urgern gerecht zu werden. Wie kann das funktionieren? Welche spezifischen Schwierigkeiten treten dabei auf? Die ad¨aquate Operationalisierung von Statistiken (im vorhergehenden Sinne) zur Untersuchung realer Ph¨anomene in Wirtschaft und Gesellschaft wird insbesondere im Bereich der amtlichen Statistik allgemein als Ad¨ aquationsproblem bezeichnet (Grohmann [1985]). Um solche und ¨ahnliche Fragen und Probleme wird es in diesem Buch jedoch nicht gehen, auch wenn deren Wichtigkeit niemals in Abrede gestellt werden soll.

1.1.3 Wahrscheinlichkeitstheoretisch fundierte Datenwissenschaft • Charakterisierung und Definition • In einem umfassenderen Sinn kann man heute unter Statistik eine Wissenschaft verstehen, die sich mit allen praktischen und theoretischen Aspekten befasst, die bei der Gewinnung (Messung, Sammlung, Erhebung, ...), Aufbereitung, Analyse und Interpretation von Daten eine Rolle spielen. Jede vollst¨andige statistische Untersuchung wird in der Regel einen solchen mehrstufigen Prozess umfassen (Abb. 1.1.1), wobei die einzelnen Stufen stets ineinander u ¨bergreifen und sich gegenseitig bedingen. Sie sind deshalb weder als chronologisch noch als voneinander unabh¨ angig zu betrachten. Eine sachgerechte Interpretation kann am Ende nur erfolgen, falls bekannt ist, wie die Daten gewonnen wurden. Dies setzt außerdem eine geeignete Aufbereitung dieser

1.1 Eingrenzungen des Begriffs Statistik“ ”

3

Abb. 1.1.1: Verlaufsstufen statistischer Untersuchungen von Daten Gewinnung und Aufbereitung

Analyse

Interpretation

voraus. Es ist beispielsweise zu kl¨ aren, wie mit fehlenden oder fehlerhaften Daten umzugehen ist, k¨onnen solche doch zu verf¨ alschenden Ergebnissen f¨ uhren. Daten werden außerdem nach bestimmten Kriterien geordnet und sortiert. Zur Analyse der Daten verschafft man sich mithilfe mehr oder weniger komplexer Grafiken und Berechnungen einen Einblick in grundlegende Eigenschaften und Zusammenh¨ange, die es anschließend zu interpretieren gilt. Umgekehrt dienen verschiedene Analyseverfahren dazu, Fehler und auff¨allige Abweichungen innerhalb der Daten zu identifizieren oder wesentliche Schlussfolgerungen und Interpretationen zu untermauern. Entscheidend und kennzeichnend f¨ ur die Statistik ist, dass sich ein Teil ihrer Verfahren auf einen methodischen Apparat zur Analyse zufallsabh¨ angiger Daten st¨ utzt. Deshalb bildet die Wahrscheinlichkeitsrechnung ein wichtiges Grundlagenfach der Statistik. Insgesamt ist es schwierig, in einem Satz allen Aspekten des Faches Statistik gerecht zu werden, sofern diesem u ¨berhaupt eine gewisse wissenschaftliche Eigenst¨andigkeit zuerkannt wird. Halten wir zumindest eine f¨ ur uns zweckm¨aßige Definition fest, die zum Großteil dem entspricht, wie Statistik in den meisten Fachgebieten einf¨ uhrend unterrichtet wird. Statistik ist die Wissenschaft von der Gewinnung, Aufbereitung, Analyse und Interpretation von Daten unter besonderer Verwendung der Wahrscheinlichkeitsrechnung. • Historischer Abriss • Nachdem bereits im 19. Jahrhundert in England und in den USA weltweit die ersten statistischen Fachgesellschaften gegr¨ undet worden waren (1834 die Royal Statistical Society in London, 1839 die American Statistical Association in Boston), entstand die moderne auf Wahrscheinlichkeitsrechnung basierende Statistik in wichtigen Grundz¨ ugen erst im ausgehenden 19. und beginnenden 20. Jahrhundert. Hier waren zu Anfang vor allem Arbeiten englischer Statistiker wie Francis Galton (1822– 1911), Karl Pearson (1857–1936) und Ronald A. Fisher (1890–1962) von entscheidender Bedeutung. In dem wohl ersten Statistik-Lehrbuch im modernen Sinne An Introducti” on to the Theory of Statistics“ fasste der Schotte George Udny Yule (1871–1951) bereits im Jahr 1911 die bis dato kulminierten Erkenntnisse seiner Zeit zusammen. Ein genauer Blick in sein etwa 400-seitiges Werk verr¨ at, dass ein erheblicher Teil davon samt Terminologie und Notation sich bis heute in einf¨ uhrenden Lehrveranstaltungen erhalten hat, auch wenn zu diesem Zeitpunkt noch nicht alle methodischen Prinzipien ausgereift waren. Yule definierte damals: By statistics we mean quantitative data affected to a ” marked extent by a multiplicity of causes. By statistical methods we mean methods specifically adapted to the elucidation of quantitative data affected by a multiplicity of causes.“ Unter Statistik“ verstand er also in erster Linie Daten, welche durch vielfa” ” che Einfl¨ usse“ zustande kommen. Zielsetzung statistischer Methoden“ in einem solchen ” Kontext sei es dann, entsprechende Hilfsmittel zur Analyse und Kl¨arung beizusteuern.

4

1 Einf¨ uhrung in die Statistik

Tats¨achlich charakterisiert diese Beschreibung auch heute noch die Hauptintention der meisten statistischen Methoden. Mathematisch war im weiteren Verlauf die Fundierung und Weiterentwicklung der Wahrscheinlichkeitsrechnung wie etwa durch den russischen Mathematiker Andrei N. Kolmogoroff (1903–1987) in den 1930er Jahren sehr entscheidend. Bereits fr¨ uh setzte mit dem Einzug der modernen Statistik außerdem eine immer st¨arkere Ausdifferenzierung statistischer Methoden f¨ ur unterschiedliche Fachwissenschaften wie Biologie, Me¨ dizin, Okonomie oder Psychologie ein (Abschnitt 1.3.3). Als eigenst¨andige wissenschaftliche Disziplin ist Statistik im deutschsprachigen Raum bis heute nicht in dem Maße wahrnehmbar wie es z.B. im angels¨ achsischen Raum der Fall ist. W¨ahrend dort bereits ab dem Jahr 1911 nahezu an allen gr¨ oßeren Universit¨aten Statistics Departments gegr¨ undet wurden (das weltweit erste am University College London, gegr¨ undet von Karl Pearson), entwickelte sich in Deutschland solch eine eigene Fachkultur vergleichsweise kaum. Statistik wird hierzulande meist entweder als ein Teilgebiet der Mathematik oder eine Art Hilfsfach im Rahmen einer empirischen Wissenschaft verstanden. Historisch mag dies sicherlich auch auf die Tatsache zur¨ uckzuf¨ uhren sein, dass die moderne Statistik mit ihrem entsprechenden Methodenapparat zun¨achst im angels¨achsischen Raum entwickelt wurde. In Deutschland besaß das Fach dagegen noch l¨angere Zeit nur“ ” staatswissenschaftlichen Charakter, ¨ offentlich getragen und vertreten vor allem durch die amtliche Statistik. Eine ausf¨ uhrliche Abhandlung zur Geschichte der Statistik, insbesondere in den fr¨ uhen Anf¨angen, bietet beispielsweise Stigler [1986, 1999]. In David [1995] findet man ¨ einen kompakten Uberblick u ¨ber das erstmalige Auftauchen allgemein wichtiger Begriffe in der Statistik bis in die 2. H¨ alfte des 20. Jahrhunderts hinein. Die Urspr¨ unge ¨alterer Begriffe k¨onnen teils auch schon den Literaturhinweisen in Yule’s Lehrbuch entnommen werden. Eine umfassende historische Abhandlung zur Geschichte der Statistik in Deutschland bieten beispielsweise Grohmann, Kr¨amer und Steger [2011].

1.2 Grundzu ¨ ge statistischer Methoden Von zentraler Bedeutung f¨ ur die moderne Statistik ist die Zuhilfenahme der Wahrscheinlichkeitsrechnung bei der Analyse und Interpretation zufallsabh¨ angiger Daten. Damit k¨ onnen im Kontext statistischer Probleme bestehende Unsicherheiten durch geeignete statistische Modellierung in Form von Irrtums- und Sicherheitswahrscheinlichkeiten quantifiziert werden. Wertm¨aßige Gr¨oßen von Statistiken, zeitliche Entwicklungen und Zusammenh¨ange lassen sich auf diese Weise ¨ besser einsch¨atzen und beurteilen. Zur Uberpr¨ ufung und Quantifizierung kausaler Effekte zielen statistische Methoden h¨ aufig darauf ab, die Gesamtstreuung der Daten in einen systematischen (erkl¨ arten) und einen zuf¨ alligen (nicht erkl¨arten) Anteil zu zerlegen (Streuungszerlegung ). Deskriptive und induktive statistische Methoden bilden die beiden Grundbausteine statistischer Methoden.

1.2.1 System und Zufall • Zufallsvorg¨ ange • Jeder Vorgang mit mehreren m¨oglichen Ergebnissen, dessen Ausgang (konkretes Ergebnis) nicht exakt vorhersagbar (erkl¨arbar) ist, kann als Zufalls-

1.2 Grundz¨ uge statistischer Methoden

5

vorgang aufgefasst werden. So gesehen leben wir in einer Welt voller Zuf¨alle. Daten sind zufallsabh¨ angig (stochastisch), falls deren Zustandekommen in gewisser Weise einem Zufallsvorgang unterworfen ist. Ein simples Beispiel w¨are der W¨ urfelwurf, bei dem 6 verschiedene Zahlen als Ergebnisse m¨ oglich sind. Von solch offensichtlichen Beispielen abgesehen, treten jedoch auch in vielen anderen Situationen Zufallsvorg¨ange auf. Werden Studierende an einer Hochschule zu ihrer Zufriedenheit mit dem Mensaessen befragt, so ist das Ergebnis der Befragung mehr oder weniger zuf¨allig, je nachdem, welche Studierenden befragt werden bzw. in die Befragung geraten. Denn nur selten d¨ urfte es hier gelingen, alle f¨ ur diese Fragestellung relevanten Studierenden zu befragen. Vielmehr muss man sich mit einer Stichprobe, also einer zuf¨alligen Teilauswahl, begn¨ ugen. Gleiches trifft auf Telefonumfragen von Meinungsforschungsinstituten zu, mithilfe derer Tendenzen in Verbrauchsgewohnheiten oder politischen Haltungen festgestellt werden sollen. Auch Daten der amtlichen Statistik in Deutschland beruhen keineswegs nur auf vollst¨ andigen Erfassungen. Ein erheblicher Teil wird aus Stichproben gewonnen. Aber auch die Abfertigungszeiten einzelner Kunden an einem Gep¨ackschalter, das Verkehrsaufkommen an einem Autobahnabschnitt, der Stromverbrauch einer Großstadt in einem bestimmten Zeitfenster, die Anzahl von Eins¨atzen eines Notarztes w¨ahrend einer Nachtschicht, der Brustumfang eines F¨ otus im Mutterleib zu einer bestimmten Schwangerschaftswoche oder die Anzahl von Arbeitslosen im n¨achsten Quartal, all diese Quantit¨aten sind nicht genau vorhersagbar und deshalb immer auch zuf¨allig. Die Ergebnisse bei der Messung schulischer Leistungen im Rahmen gr¨oßerer Studien, wie z.B. PISA, sind nicht nur deshalb zuf¨ allig, weil es sich um Stichprobenergebnisse handelt, sondern auch weil individuelle Tagesform und Leistungsf¨ahigkeit eines jeden Sch¨ ulers von vielf¨altigen Faktoren abh¨ angen und damit zuf¨alligen Schwankungen unterliegen. Abb. 1.2.1: Streuungszerlegung – Anbaumethoden und Ertrag von Pflanzen zufällig systematisch zufällig

Methode 1

Methode 2

• Streuungszerlegung • Ein wichtiges statistisches Grundprinzip besteht darin, die Gesamtschwankungen (Gesamtstreuung ) in den Daten in einen systematischen und einen zuf¨alligen Anteil zu zerlegen (Streuungszerlegung ), um auf diese Weise Bedeutsamkeit und St¨ arke kausaler Effekte absch¨atzen zu k¨onnen. Der systematische Anteil ist dabei jener, der durch ber¨ ucksichtigte und beobachtete Einfl¨ usse erkl¨art werden kann, w¨ahrend der zuf¨ allige Anteil von allen restlichen nicht ber¨ ucksichtigten Ein-

6

1 Einf¨ uhrung in die Statistik

fl¨ ussen abh¨angt. Stellen wir uns beispielsweise vor, mehrere Exemplare einer Nutzpflanze w¨ urden in einem Experiment unter v¨ ollig identischen Bedingungen zwei unterschiedlichen Behandlungsmethoden ausgesetzt, um daraus resultierende Effekte auf das Wachstum zu messen (Abb. 1.2.1). Dann werden, vereinfacht gesagt, die durchschnittlichen Ertragsunterschiede der beiden Gruppen durch die Behandlungsmethoden erkl¨art und gelten als systematisch, w¨ ahrend die innerhalb der beiden Gruppen auftretenden Schwankungen nicht erkl¨ arbar sind und als zuf¨ allig erachtet werden.

1.2.2 Irrtums- und Sicherheitswahrscheinlichkeiten • Statistische Probleme • Zum Wesenskern der Statistik geh¨ort es, stochastische Eigenschaften von Daten mit zu ber¨ ucksichtigen. Ausgangspunkt ist dabei in der Regel ein statistisches Problem, das eine Situation zufallsbedingter Unsicherheit erzeugt. Ein statistisches Problem liegt vor, falls ein Zufallsvorgang potenziell zu stochastischen Schwankungen von Daten und Statistiken f¨ uhrt und dadurch bedingt interpretatorische Unsicherheiten entstehen. • Beispiel • Stellen wir uns vor, vier Studierende stimmen dar¨ uber ab, ob sie zum Mittagessen gemeinsam in die Mensa oder lieber in die Stadt gehen sollen. Dabei gibt es nun drei Stimmen f¨ ur die Mensa und eine Stimme f¨ ur die Stadt. Die Entscheidung steht damit fest. Es entsteht kein statistisches Problem. Anders s¨ahe es aus, wenn mittels einer stichprobenhaften Befragung von Studierenden festgestellt werden soll, ob eine Mehrheit der Studierenden an einer Hochschule den Gang in die Mensa anderen Alternativen vorzieht oder nicht. Da die Ergebnisse von Stichproben zufallsabh¨angig sind, liegt jetzt ein statistisches Problem vor. Angenommen von 50 befragten Studierenden pr¨aferieren 30 Studierende die Mensa und 20 Studierende die Stadt. Dann sollte einleuchten, dass exakt dieses Mehrheitsverh¨ altnis von 60% zu 40% nicht zwingend f¨ ur die gesamte Studierendenschaft gelten muss. Geht man beispielsweise von insgesamt 20 000 Studierenden aus, w¨ are es sogar extrem unwahrscheinlich, dass bei einer Befragung aller Studierenden exakt 12 000 Studierende f¨ ur die Mensa und 8000 f¨ ur die Stadt votieren w¨ urden, was dann genau einem Verh¨altnis von 60% zu 40% entspr¨ache. Es w¨are nicht einmal auszuschließen, dass das Mehrheitsverh¨altnis in Wirklichkeit sogar umgekehrt ist und sich eben nur durch Zufall ein derartiges Pr¨aferenzbild ergeben hat. Bei einem Verh¨ altnis von 40 zu 10 Stimmen f¨ ur die Mensa w¨are die Sachlage dann schon deutlich klarer. Wiederum ginge man zwar nicht davon aus, dass unter Einbezug aller Studierenden genau 16 000 f¨ ur und 4000 gegen die Mensa votieren w¨ urden, man w¨ are aber schon eher dazu geneigt, zumindest auf eine mehrheitliche Pr¨aferenz f¨ ur die Mensa zu schließen. Ab welchem Mehrheitsverh¨altnis kann man eine solche nun aber postulieren? Sprechen 35 zu 15 oder erst 36 zu 14 f¨ ur klare Verh¨altnisse? Wie und wo l¨ asst sich hier eine sinnvolle Entscheidungsgrenze ziehen? Von welchem konkreten prozentualen Anteil an Zustimmung zur Mensa kann man ausgehen? L¨asst sich hier ein sinnvolles Intervall angeben? Es wird sich zeigen, dass die Konstruktion genau solcher Entscheidungsgrenzen bzw. solcher Intervalle einen wesentlichen Bestandteil statistischer Methodik ausmacht.

1.2 Grundz¨ uge statistischer Methoden

7

• Reale und hypothetische Stichproben • Statistische Probleme treten automatisch immer im Kontext von Stichproben auf, beschr¨anken sich aber bei Weitem nicht nur auf solche. Dazu betrachte man nur einmal das Pflanzenbeispiel“ des vorherge” henden Abschnitts. Es ist klar, dass man selbst bei scheinbar v¨ollig identischen Wiederholungen des Experiments stets mehr oder weniger verschiedene Messergebnisse erhalten w¨ urde. Insofern stellen die gewonnenen Daten eine Art abstrakte Stichprobe aus einem u oglichkeiten“ dar. Bei der Auswertung und ¨bergeordneten Potential an M¨ ” Interpretation ergeben sich Unsicherheiten, da die gewonnenen Messergebnisse potenziell schwanken und allzu determinierte Schlussfolgerungen deshalb nicht ableitbar sind. ¨ Ahnliches trifft in vielen anderen Situationen zufallsabh¨angiger Daten zu. Steigt etwa der Kurs eines Wertpapiers von einem Tag auf den anderen an, so besteht Unsicherheit dar¨ uber, ob vor dem Hintergrund allgemein u ¨blicher Tagesschwankungen von einer systematischen und bedeutsamen oder nur von einer zuf¨alligen allt¨aglichen Schwankung auszugehen ist. In diesem Lehrbuch werden wir sp¨ater zwischen realen und hypothetischen Stichproben unterscheiden, um statistische Probleme echter Stichproben“ ” von denen anderweitiger Zufallsvorg¨ ange zu unterscheiden (Abschnitt 9.2). • Statistisches Modell • Ein statistisches Modell (Abschnitt 9.1) ist eine geeignete, maßgeblich auf Wahrscheinlichkeitsrechnung basierende, mathematische Beschreibung, wie zufallsabh¨ angige Daten in einer bestimmten Situation zustande kommen. Dabei werden sowohl systematische als auch zuf¨allige Einfl¨ usse ber¨ ucksichtigt. Daraus l¨ asst sich dann ableiten, mit welchen Wahrscheinlichkeiten bestimmte Ergebnisse eintreten k¨onnen. Der Zugewinn einer solchen Modellierung besteht darin, dass f¨ ur bestimmte Entscheidungen und Aussagen nun konkrete Irrtums- oder Sicherheitswahrscheinlichkeiten angegeben werden k¨ onnen. Die Plausibilit¨at empirischer Befunde wird sozusagen theoretisch untermauert. Unsicherheiten statistischer Probleme k¨onnen damit zwar nicht beseitigt, wohl aber quantifiziert und kontrolliert werden. Abb. 1.2.2: Statistische Modellierung Zufallsvorgang

Statistisches Modell

Daten

Interpretation mit Angabe von Irrtums− oder Sicher− heitswahrscheinlichkeiten

Folgendes einfache Beispiel soll diese Vorgehensweise ein wenig n¨aher bringen. Das Wahrscheinlichkeitskalk¨ ul muss an dieser Stelle noch nicht im Detail verstanden werden. Dieses wird in Teil 2 und Teil 3 dieses Buches ausf¨ uhrlich behandelt. Beispiel 1.2.1: Irrtums- und Sicherheitswahrscheinlichkeiten Im Beispiel der Mensabefragung zu Beginn dieses Abschnitts k¨onnte man z.B. ab einem Mehrheitsverh¨ altnis von 31 zu 19 eine mehrheitliche Pr¨aferenz unter allen Studierenden f¨ ur die Mensa unterstellen. Basierend auf einem bestimmten Wahrscheinlichkeitskalk¨ ul unterl¨ age diese Behauptung dann einer maximalen Irrtumswahrscheinlichkeit von etwa 6%. Dieser Wert ergibt sich aus folgender hypothetischer ¨ Uberlegung (Modellvorstellung): Angenommen, unter allen Studierenden l¨age die Zustimmung zur Mensa tats¨ achlich bei genau 50%. Dann kann unter Zuhilfenahme der

8

1 Einf¨ uhrung in die Statistik

Wahrscheinlichkeitsrechnung ermittelt werden, mit welchen Wahrscheinlichkeiten bestimmte Ergebnisse bei einer zuf¨ alligen Befragung von genau 50 Studierenden eintreten k¨onnen (Abb. 1.2.3). So erh¨ alt man bei einer solchen Konstellation beispielsweise mit einer Wahrscheinlichkeit von knapp 5% genau 30 Stimmen f¨ ur die Mensa und 20 Stimmen gegen diese. Ebenso l¨ asst sich die Wahrscheinlichkeit ermitteln, dass mehr als 30 Studierende f¨ ur die Mensa stimmen w¨ urden. Dazu werden die Wahrscheinlichkeiten f¨ ur die Werte 31 bis 50 summiert, was einen Wert von ca. 6% ergibt. Nach Wahrscheinlichkeit w¨ are es somit plausibel, ab 31 Bef¨ urwortern in der Stichprobe auf eine mehrheitliche Bef¨ urwortung der Mensa unter allen Studierenden zu schließen. Denn es w¨are ansonsten sehr unwahrscheinlich (max. 6%) bei 50 Befragten mehr als 30 Bef¨ urworter zu erhalten, wenn dem tats¨ achlich nicht so w¨are.

15 94%

10

Wahrscheinlichkeit in %

Wahrscheinlichkeit in %

Abb. 1.2.3: 50% Zustimmung zur Mensa bzw. 80% Zustimmung zur Mensa

6%

5 0 10

15

20

25

30

35

40

Stimmenanzahl für Mensa

95%

15 10 5 0 25

30

35

40

45

50

55

Stimmenanzahl für Mensa

Angenommen, bei einer Befragung sprechen sich 40 von 50 Studierenden f¨ ur das Mensaessen aus. Dies entspricht einem Anteilswert von 80%. Geht man nun davon aus, dass die Zustimmung zur Mensa in der gesamten Studierendenschaft tats¨achlich bei exakt 80% liegt, so betr¨ agt die Wahrscheinlichkeit daf¨ ur, dass genau 40 von 50 befragten Studierenden f¨ ur die Mensa votieren, wie es in der Stichprobe ja der Fall ist, knapp 15% (Abb. 1.2.3, rechts). Symmetrisch um den Wert 40 l¨asst sich nun ein sog. Konfidenzintervall (Sicherheitsintervall ) legen, das eine relativ hohe Wahrscheinlichkeitsmasse (Sicherheitswahrscheinlichkeit) umfasst. Bei einer Masse von 95% erh¨alt man z.B. ein Intervall von 35 bis 45. In Anteilswerten von 50 gerechnet, entspricht dies einem Intervall von 70% bis 90%. Es w¨are folglich plausibel davon auszugehen, den wahren Anteilswert irgendwo zwischen 70% und 90% zu vermuten.

1.2.3 Deskription und Induktion • Methodik empirischer Wissenschaften • Jede empirische Wissenschaft verf¨ ugt u arung der Realit¨ at von Natur, Umwelt oder Gesellschaft, die sich ¨ber Theorien zur Erkl¨ niemals in G¨anze erschließen l¨ asst. Lediglich einen Teil der Realit¨at k¨onnen wir empirisch (erfahrbar) erfassen und beschreiben. Weitergehend entwickeln wir auf Basis solcher Erfahrungen vereinfachende Modelle, mit denen wir komplexe Ph¨anomene und Zusammenh¨ange zu erkl¨ aren versuchen. So geben wir uns etwa nicht mit der bloßen Beschreibung zufrieden, dass die Erdanziehungskraft auf einen K¨orper mit zunehmender H¨ohe abnimmt, sondern wir m¨ ochten auch die genauen Gesetzm¨aßigkeiten dahinter

1.2 Grundz¨ uge statistischer Methoden

9

verstehen, um dies gegebenenfalls auf andere Himmelsk¨orper und Objekte u ¨bertragen zu k¨onnen. Andererseits dient die Empirie dann wieder dazu, bestehende Modelle und Theorien auf ihre G¨ ultigkeit hin zu u ufen, n¨aher zu spezifizieren oder gegebe¨berpr¨ nenfalls zu korrigieren. So oder zumindest so ¨ahnlich d¨ urfte sich in vielen empirischen Wissenschaften ein fortw¨ ahrend erkenntnisgewinnender Kreisprozess“ (Sachs und Hed” derich [2012, S. 3]) vollziehen. Abb. 1.2.4: Methodik empirischer Wissenschaften Erklärung

Spezifikation / Überprüfung

Theorie (Modell)

Realität

Empirie

Teilinformation

Rückschluss | Beschreibung

Abb. 1.2.5: Statistische Methodik Erklärung

Grundgesamtheit

Schätzen / Testen

Statistisches Modell

Daten

Stichprobe

Induktion | Deskription

• Statistische Methodik • In der Statistik wird die empirische Seite durch die vorliegenden Daten einer Stichprobe repr¨ asentiert. Die Realit¨at bzw. der interessierende Teil davon wird als Grundgesamtheit bezeichnet. Dabei kann es sich um eine konkrete u ¨bergeordnete Zielmenge interessierender Objekte oder Personen handeln (real) oder um ein u oglichkeiten“ (hypothetisch), wie es im ¨bergeordnetes Potential an M¨ ” vorhergehenden Abschnitt erl¨ autert wurde (siehe auch Abschnitt 9.1). Anhand der Daten werden nun statistische Modelle entwickelt, welche das Zustandekommen der Daten vereinfachend erkl¨ aren sollen. Der R¨ uckschluss, der aufgrund der Daten auf die Grundgesamtheit gezogen werden kann, heißt in der Statistik Induktion. Statistische Methoden, die u ¨ber eine derartige Zwischenschaltung eines statistischen Modells Aussagen u oglichen, werden als induktiv bezeichnet. Die Spe¨ber die Grundgesamtheit erm¨

10

1 Einf¨ uhrung in die Statistik

¨ zifikation und Uberpr¨ ufung der Modelle erfolgt durch die beiden statistischen Schlussweisen, dem Sch¨ atzen und dem Testen. Das dazu geh¨orige theoretische Fundament liefern die statistische Sch¨ atz- und Testtheorie, die zusammen die induktive Statistik (schließende Statistik ) konstituieren. Im Kontext statistischer Probleme befasst sich die Sch¨ atztheorie beispielsweise damit, wie sich anhand vorliegender Daten theoretisch fundierte Konfidenzintervalle f¨ ur unbekannte Quantit¨aten einer Grundgesamtheit konstruieren lassen. In der Testtheorie geht es dagegen vor allem um die Herleitung sinnvoller Entscheidungsregeln in Situationen zufallsbedingter Unsicherheiten (Abschnitt 1.2.2). Statistische Methoden, die auf keinem Wahrscheinlichkeitskalk¨ ul basieren und die Daten prim¨ ar deskriptiv (beschreibend) zusammenfassen, werden der deskriptiven Statistik zugeordnet. Hierzu geh¨ort beispielsweise das Ermitteln von H¨ aufigkeiten, Minimal- und Maximalwerten, die Berechnung von Mittelwerten, prozentualen Anteilen und vielen anderen Statistiken ebenso wie die Erstellung von Grafiken zur Visualisierung statistischer Sachverhalte.

1.2.4 Empirischer und theoretischer Kalku ¨l • Hintergrund • Deskription und Induktion m¨ ussen einerseits auseinander gehalten, andererseits aber auch als sich gegenseitig erg¨ anzend verstanden werden. Dies f¨ uhrt insbesondere am Anfang h¨ aufig zu Verst¨ andnisproblemen. Im Kern ist es wichtig, zwischen datengest¨ utztem (empirischem) und stochastischem (theoretischem) Kalk¨ ul zu unterscheiden, was sich auch in unterschiedlichen Begrifflichkeiten und Notationen a¨ußert. Zum datengest¨ utzten Kalk¨ ul z¨ ahlen wir alle Berechnungen, welche auf konkret vorliegenden Daten beruhen, wie es z.B. bei der Berechnung von Mittelwerten oder prozentualen Anteilen der Fall ist. Deskriptive Methoden sind in irgendeiner Form immer datenbasiert und z¨ ahlen zum datengest¨ utzten Kalk¨ ul. Zum stochastischen Kalk¨ ul geh¨oren dagegen all jene Berechnungen, welche sich durch ein Wahrscheinlichkeitskalk¨ ul ¨ ergeben und auf theoretischen Uberlegungen beruhen. Induktive Methoden kombinieren Empirie und Theorie, also Daten und Stochastik. In gewisser Weise kann die induktive Statistik deshalb auch als Erweiterung der deskriptiven Statistik verstanden werden. Genau diese Dualit¨ at bzw. Erweiterung ist es auch, die h¨aufig zu Verwechslungen und Verst¨andnisproblemen f¨ uhrt. • Beispiel 1.2.1 fortgesetzt • Wir betrachten dazu nochmals Beispiel 1.2.1 (Abschnitt 1.2.2). Pr¨ aferieren 40 von 50 zuf¨ allig befragten Studierenden das Mensaessen, so entspricht dies einem Anteil von 80% in der Stichprobe. Dieser Wert ist zun¨achst einmal ein empirisches Resultat. Die Angabe 80%“ wird als relative H¨aufigkeit (in Prozent ” ausgedr¨ uckt) bezeichnet. Der Begriff Wahrscheinlichkeit“ w¨are in diesem Fall weni” ger angebracht. Die rein deskriptive Aussage 80% der befragten Studierenden pr¨ afe” rieren die Mensa“ ist der Aussage Die Befragung ergab, dass Studierende mit 80% ” Wahrscheinlichkeit die Mensa pr¨ aferieren“ auf jeden Fall vorzuziehen. Unterstellt man dagegen hypothetisch, dass der wahre Anteil von Mensabef¨ urwortern unter allen Studierenden genau 80% betr¨ agt, und wird diese Annahme auch explizit kommuniziert, so w¨ are auch eine Aussage der Form Die Wahrscheinlichkeit, dass ein zuf¨ allig befragter ” Student die Mensa pr¨ aferiert, betr¨ agt 80%“ zul¨assig. Die Angabe 80%“ resultiert jetzt ” aus einer zuvor beschriebenen konkreten Vorstellung (einem unterstellten Modell), ist

1.3 Teilbereiche, Spezialgebiete und Grundlagen

11

damit theoretischer Natur und prinzipiell auch ohne Vorliegen konkreter Daten m¨oglich. Auch die Aussage die Wahrscheinlichkeit daf¨ ur, dass von 50 zuf¨ allig Befragten ge” nau 40 die Mensa bef¨ urworten, betr¨ agt etwa 15%“ resultiert aus einem stochastischen Kalk¨ ul im Rahmen dessen wiederum unterstellt wird, dass die wahre Zustimmung in der Grundgesamtheit genau 80% betr¨ agt. Wie in Beispiel 1.2.1 ausgef¨ uhrt, l¨asst sich auch ein Konfidenzintervall konstruieren. Sofern z.B. 40 von 50 Befragten die Mensa bef¨ urworten, sollte der wahre Anteil in der Grundgesamtheit, d.h. in der gesamten Studierendenschaft, irgendwo zwischen 70% und 90% liegen. Wie aus der Erl¨auterung zur Konstruktion dieses Intervalls hervorgeht, wird dazu wieder hypothetisch angenommen, dass der wahre Anteil in der Grundgesamtheit 80% betr¨agt, sprich dem Anteil in der Stichprobe genau entspricht. Symmetrisch um diesen Wert werden dann Sicherheitsb¨ander der Breite von 10 Prozentpunkten gelegt, sodass ein Sicherheitsintervall mit ca. 95% Wahrscheinlichkeitsmasse entsteht. Es l¨asst sich (theoretisch) zeigen, dass mit einer solchen Konstruktionsweise die Wahrscheinlichkeit daf¨ ur, den wahren Anteil an Zustimmung in der Grundgesamtheit mit dem Intervall zu erfassen, tats¨achlich etwa 95% betr¨agt. Die Konstruktion dieses Sicherheitsintervalls, wie auch die damit einhergehende Sicherheitswahrscheinlichkeit, beruht also einerseits auf einem stochastischen Kalk¨ ul, andererseits aber auch auf konkret vorliegenden Daten.

1.3 Teilbereiche, Spezialgebiete und Grundlagen Je nach Verlaufsstufe und Fragestellung einer statistischen Untersuchung (Abschnitt 1.1.3) u ¨berwiegen eher deskriptive oder eher induktive Methoden. So wird die Datenge¨ winnung meist von induktionstheoretischen Uberlegungen bestimmt, w¨ahrend bei der Aufbereitung und Exploration deskriptive Methoden u ¨berwiegen. Bei der letztlichen Auswertung und Interpretation der Daten werden sich jedoch beide Seiten gegenseitig erg¨anzen. Dies trifft im Prinzip auf alle Spezialgebiete und s¨amtliche wissenschaftsspezifische Ausrichtungen statistischer Methoden zu. Hierbei sollte beachtet werden, dass Spezialgebiete stets ineinander u ¨bergreifen und nicht als isoliert voneinander betrachtet werden sollten. Das wichtigste mathematische Grundlagenfach bildet die Stochastik mit der Wahrscheinlichkeitsrechnung im Zentrum. Daneben nimmt die computergest¨ utzte Statistik f¨ ur rechenintensive Verfahren eine sehr wichtige Rolle ein, was durch die Verf¨ ugbarkeit immer gr¨ oßerer Datenbest¨ ande heute zunehmend verst¨arkt wird.

1.3.1 Datengewinnung und Aufbereitung • Statistische Versuchsplanung • Im naturwissenschaftlich-technischen Bereich oder in diesen hineinragenden Gebieten wie z.B. der Medizin oder der Psychologie befasst sich die (statistische) Versuchsplanung mit Fragen zur Planung und Durchf¨ uhrung von Experimenten, welche statistischen Charakter aufweisen. Anhand eines sog. Versuchsdesigns wird ein Experiment in der Weise optimal geplant, dass alle interessierenden Fragestellungen m¨ oglichst kosteng¨ unstig und effizient mit zuvor meist detailliert festgelegten Methoden untersucht werden k¨onnen.

12

1 Einf¨ uhrung in die Statistik Tabelle 1.3.1: Statistische Methoden – Spezialgebiete und Grundlagen Statistik

Methodik

Deskriptiv

Induktiv

Einige Spezialgebiete Explorative Datenanalyse Data Mining

Statistische Versuchsplanung Stichprobentheorie

Multivariate Statistik Lineare Modelle Zeitreihenanalyse Nichtparametrische Statistik Bayes−Statistik Wissenschaftsspezifische Ausrichtungen Metrien−Fächer" wie z.B.

"

Biometrie,Ökonometrie Psychometrie oder Technometrie

Mathematische und technische Grundlagen Analysis und Lineare Algebra Wahrscheinlichkeitstheorie Mathematische Statistik

Stochastik

Theorie stochastischer Prozesse Computergestützte Statistik

Im Zusammenhang klinischer oder pharmazeutischer Studien geht es beispielsweise ¨ um die Uberpr¨ ufung und Validierung neuer Medikamente hinsichtlich ihrer Wirksamkeit und Risiken. Dazu d¨ urfen zugeh¨ orige biometrische Daten niemals beliebig gewonnen, ausgewertet und interpretiert werden. Stattdessen sind strenge gesetzliche Vorschriften zu beachten. Den zur Anwendung kommenden statistischen Testverfahren kommt hier eine außerordentlich wichtige Bedeutung zu, da diese dar¨ uber mitentscheiden, ob ein Medikament u ¨berhaupt auf den Markt gebracht werden kann oder nicht. Im Rahmen psychologischer oder ¨ okonomischer Experimente werden Versuchspersonen h¨aufig verschiedenen Behandlungsmethoden“ ausgesetzt werden, um deren ” Auswirkungen auf das menschliche Verhalten zu untersuchen. Derartige Experimente werden oft am Computer mithilfe von Simulationen durchgef¨ uhrt. F¨ uhrte man in der Psychologie schon seit langem solche Experimente durch, hat sich in den Wirt¨ schaftswissenschaften mit der experimentellen Okonomik ein noch relativ junges Gebiet etabliert. Hier k¨onnte man beispielsweise verschiedenen Probanden unterschiedlich hohe Geldbudgets zuordnen, um mithilfe simulierter Situationen zu untersuchen, in welcher Weise sich die Risikobereitschaft mit der H¨ ohe des Verm¨ogens ¨andert. • Stichprobentheorie • Die Stichprobentheorie befasst sich mit der Planung, ¨ Durchf¨ uhrung und Auswertung realer Stichproben (Abschnitt 9.2). Ahnlich wie bei

1.3 Teilbereiche, Spezialgebiete und Grundlagen

13

der statistischen Versuchsplanung gilt es hierbei die Daten so zu erheben, dass bestimmte Fragestellungen unter m¨ oglichst geringem Kosten- und Zeitaufwand untersucht ¨ werden k¨onnen. Bei den von statistischen Amtern und anderen nationalen oder internationalen Institutionen regelm¨ aßig durchgef¨ uhrten Stichprobenerhebungen stehen Sch¨atzprobleme im Vordergrund. Hierbei geht es zun¨achst einmal darum, eine Vielzahl von Gr¨oßen einer u ¨bergeordneten Grundgesamtheit m¨oglichst genau zu sch¨atzen. Vorgegebene Fragestellungen sind hier meist weiter und weniger konkret gefasst als beispielsweise bei Stichprobenerhebungen von Markt- oder Meinungsforschungsinstituten. ¨ Zu den regelm¨ aßig von den statistischen Amtern in Deutschland durchgef¨ uhrten Stichproben z¨ahlen beispielsweise der Mikrozensus, die Einkommens- und Verbrauchsstichprobe (EVS) oder das Sozio¨ okonomische Panel (SOEP). Zu den bekannteren internationalen Stichprobenerhebungen z¨ ahlen die von der OECD durchgef¨ uhrten PISAStudien. Solche von o ¨ffentlichen Institutionen erhobenen Daten werden meist kostenlos bereitgestellt und im Internet ¨ offentlich zug¨anglich gemacht. Damit k¨onnen sie in vielerlei Hinsicht untersucht und ausgewertet werden. Dabei gilt es den stochastischen Charakter der Daten aufgrund der Stichprobe bei der Interpretation zu ber¨ ucksichtigen. • Prim¨ ar- und Sekund¨ arstatistiken • Amtliche oder nichtamtliche Daten werden h¨aufig allein schon der Erfassung wegen und ohne Vorgabe konkreter (wissenschaftlicher) Fragestellungen erhoben. Man denke dabei nur an das Flensburger Fahreignungsregister ( Verkehrss¨ underkartei“), die bei Banken und Versicherungen anfallen” den Datenbest¨ande der Kunden oder das bei Finanz¨amtern gef¨ uhrte Steuerregister. Im Internet wird jede Sekunde eine riesige Datenmenge u ¨ber ausgetauschte Kommunikati¨ on, aufgerufene Webseiten und erfolgte Suchanfragen gespeichert. Ahnliches gilt f¨ ur die sek¨ undlich aktualisierten Daten an den Wertpapierb¨orsen. Statistiken, die aus solchen Daten errechnet werden, bezeichnet man auch als Sekund¨ arstatistiken, da die Daten nicht eigens zur Erstellung solcher Statistiken erhoben wurden. Vielmehr fielen sie ohnehin an. Prim¨ arstatistiken resultieren dagegen aus einer gezielten Datengewinnung anhand eines Versuchs- oder Stichprobenplans. Konkret vorgegebene Fragestellungen sollen damit untersucht werden. Gewinnt man beispielsweise anhand der bei einem Finanzamt eingehenden Steuererkl¨arungen verschiedene Statistiken zur Einkommensverteilung der privaten Haushalte einer Stadt, so w¨ urde es sich dabei um Sekund¨arstatistiken handeln. Resultieren diese dagegen aus Befragungen des Mikrozensus, so handelt es sich um Prim¨arstatistiken. Schließlich z¨ ahlt es zu den Kernanliegen des Mikrozensus, ein statistisches Bild von der wirtschaftlichen und sozialen Lage der privaten Haushalte zu liefern. Die Problematik sekund¨ arstatistischer Daten liegt vor allem darin, dass sich viele statistische Verfahren und methodische Ans¨ atze zur Interpretation nicht ohne Weiteres anwenden lassen, da diese bestimmte Rahmenbedingungen (Modellannahmen) bez¨ uglich der Datengewinnung voraussetzen. Diese sind in der Regel jedoch nicht erf¨ ullt, da die Daten eben nicht gezielt zum Zwecke einer statistischen Untersuchung erhoben wurden. • Datenaufbereitung • Nach der Gewinnung der Daten steht deren Aufbereitung an. Die Daten werden geordnet, tabelliert, eingehend auf Fehlerhaftigkeit und Vollst¨andigkeit gepr¨ uft, korrigiert und erg¨ anzt. Fehlende Daten nehmen dabei h¨aufig eine be-

14

1 Einf¨ uhrung in die Statistik

sondere Wichtigkeit ein, da sie die Ergebnisse deskriptiver und induktiver Analysemethoden betr¨achtlich verf¨ alschen k¨ onnen. Eine ausf¨ uhrliche Behandlung von statistischen Analysen im Kontext fehlender Daten bieten beispielsweise Little und Rubin [2002].

1.3.2 Spezielle Analysemethoden und Instrumente • Deskriptive und induktive Methoden • Mit grafischen und rechnerischen Hilfsmitteln verschafft man sich einen Einblick in das Datenmaterial. Dazu werden einfach interpretierbare Statistiken wie Summen, Mittelwerte und H¨aufigkeiten ermittelt oder auch komplexere Berechnungen durchgef¨ uhrt, wie sie teils in diesem Lehrbuch oder etwa in einem der nachfolgend skizzierten Spezialgebiete behandelt werden. Zur Visualisierung eignen sich mehr oder weniger anspruchsvolle Grafiken wie sie etwa dem deskriptiven Teil dieses Buches entnommen werden k¨onnen. Weisen die Daten stochastischen Charakter auf, sind sie also zufallsabh¨angig, kommen die auf Wahrscheinlichkeitsrechnung basierenden induktiven Methoden zum Einsatz, welche als Erweiterung und Erg¨ anzung der deskriptiven Methoden verstanden werden k¨onnen (vgl. Abschnitt 1.2.4). Je nach Problemstellung finden diese in mehr oder weniger komplexen statistischen Modellen ihre Anwendung. • Explorative Datenanalyse und Data Mining • H¨aufig sind Untersuchungsziele und Fragestellungen bei einer Untersuchung nur teilweise festgelegt und noch wenig konkret. Dann verschafft man sich mit umfangreichen deskriptiven Mitteln zun¨achst ¨ einen Uberblick dar¨ uber, welche besonderen Eigenheiten und Strukturen in den Daten auftreten, um sich Anregungen und Hypothesen u ¨ber m¨ogliche Zusammenh¨ange zu verschaffen. Die mit einer solchen Vorgehensweise verbundenen und entwickelten deskriptiven Verfahren werden h¨ aufig auch unter dem Begriff explorative Datenanalyse (EDA) zusammengefasst. Dieser Begriff geht auf den amerikanischen Statistiker John. W. Tukey (1915–2000) zur¨ uck, der dieses Gebiet durch seine wissenschaftlichen Beitr¨age entscheidend pr¨ agte. Gerade auch im Zusammenhang nichtwissenschaftlicher oder sekund¨arstatistischer Daten spielt die EDA eine wichtige vorbereitende Rolle. Die Erschließung und Exploration extrem großer Datenbest¨ande auf bedeutsame und ver” wertbare“ Strukturen hin ist Gegenstand des sog. Data Mining . Dieses Gebiet wird h¨aufig eher der Informatik als der Statistik zugeordnet. Methoden und Inhalte von EDA und Data Mining sind teils u ¨berlappend. • Korrelations- und Regressionsanalyse • Zu den ureigensten Fragen einer jeden empirischen Wissenschaft z¨ ahlen sicherlich solche wie Gibt es einen Zusammenhang ” zwischen X und Y?“ oder Wie stark h¨ angt X mit Y zusammen?“. Ist unter Rauchern ” die Wahrscheinlichkeit einer Krebserkrankung h¨oher als unter Nichtrauchern? Welche unterschiedlichen Einfl¨ usse spielen hier eine Rolle? In welchem Zusammenhang stehen die Einkommen von Angestellten einer bestimmten Branche zu Alter, Geschlecht, Ausbildung und Dauer der Betriebszugeh¨ origkeit? Welche Faktoren sind wichtiger, welche weniger ausschlaggebend? Werden M¨ anner selbst bei Gleichheit aller anderen Einflussgr¨ oßen besser bezahlt als Frauen? In welchem Zusammenhang stehen die Konsumausgaben eines privaten Haushalts zu seinem Einkommen?

1.3 Teilbereiche, Spezialgebiete und Grundlagen

15

F¨ ur solche Fragestellungen sind die statistischen Modelle der Korrelations- und Regressionsanalyse n¨ utzliche und viel verwendete Instrumente. Insbesondere das lineare Regressionsmodell (allgemeiner das lineare Modell ) ist hierbei von herausragender Bedeutung. Im Rahmen dessen wird der systematisch bedingte Teil der Gesamtstreuung einer Zielgr¨ oße auf eine oder mehrere linear eingehende Einflussgr¨oßen zur¨ uckgef¨ uhrt. Der zuf¨ allige Streuungsanteil ergibt sich nach Abzug dieses systematischen linearen Einflusses (zur Streuungszerlegung siehe auch Abschnitt 1.2.1). So mag beispielsweise das Gewicht einer Person maßgeblich (systematisch) von ihrer Gr¨oße abh¨angen. Daneben gibt es jedoch noch viele weitere (eher zuf¨allige) das Gewicht beeinflussende Faktoren (Abb. 1.3.1). Modelle der Varianzanalyse, die vor allem in der statistischen Versuchsplanung verwendet werden, und viele weitere Modelltypen stellen lediglich Sonderformen linearer Modelle dar. Abb. 1.3.1: Lineare Regression – Gewicht und Gr¨ oße von Personen 140 120 kg

systematisch zufällig

100 80 60 40 140

150

160

170

180

190

200

210

cm

• Multivariate Statistik • Je mehr Beobachtungswerte und Merkmale in Betracht gezogen werden, d.h. je h¨ oher die Dimension der Daten ist, desto n¨ utzlicher erweisen sich die Verfahren der multivariaten Statistik . Sie ist insbesondere auf die Entwicklung geeigneter deskriptiver und induktiver Verfahren im Zusammenhang hochdimensionaler Daten spezialisiert. Zahlreiche ihrer Verfahren werden auch der EDA oder dem Data Mining zugeordnet. • Zeitreihenanalyse • Spezielle Instrumente sind ebenso erforderlich, wenn Daten u ¨ber verschiedene Zeitpunkte hinweg erhoben werden. Dann erh¨alt man sog. Zeitreihen. Der besondere stochastische Charakter von Zeitreihen hat zur Entwicklung sehr spezieller Modelle und Analyseverfahren gef¨ uhrt, die im Rahmen der Zeitreihenanalyse meist gesondert behandelt werden Beispielsweise besitzen ¨ okonomische Daten h¨aufig Zeitreihencharakter. Man denke nur an die j¨ahrlich oder quartalsm¨ aßig ermittelten volkswirtschaftlich Aggregatsgr¨oßen wie Einkommen, Konsum oder Investition, an die Arbeitsmarktdaten oder die schon sek¨ undlich aktualisierten Finanzmarktdaten. Aber auch in den Naturwissenschaften, in der Medizin oder im technischen Bereich k¨ onnen Zeitreihendaten im Rahmen von l¨ angeren Experimenten oder Verlaufsstudien anfallen. Wie zuvor ergeben sich auch hier

16

1 Einf¨ uhrung in die Statistik

wieder statistische Probleme bei der Interpretation einzelner Statistiken oder bei der Untersuchung m¨ oglicher Einfl¨ usse und Zusammenh¨ange. Wie h¨angen Aktienkurse untereinander oder mit der gesamtwirtschaftlichen Entwicklung zusammen? Gibt es einen Zusammenhang zwischen der weltweiten Anzahl verheerender Wirbelst¨ urme und der globalen Erw¨armung? Zur Untersuchung solcher Fragen werden zeitreihenanalytische Verfahren meist mit Methoden aus der Korrelations- und Regressionsanalyse kombiniert. Hierbei gilt es nun auch zeitliche Verlaufsmuster wie etwa globale Trends, saisonale, zyklische oder konjunkturelle Effekte mit zu ber¨ ucksichtigen. Abb. 1.3.2: Zeitreihen – Aktienindizes 1994–2013 (monatlich, Jan. 1994 = 100) (nachgestellt) 450

EURO STOXX Nikkei 225 Standard and Poor’s 500

400 350 300 250 200 150 100 50 0 1995

1997

1999

2001

2003

2005

2007

2009

2011

2013

Daten: Europ¨ aische Zentralbank [2014a] Eine andere wichtige Zielsetzung in der Zeitreihenanalyse ist die Erstellung modellgest¨ utzter Prognosen. Mit welchem Wirtschaftswachstum ist im n¨achsten Quartal zu rechnen? Werden die Verbraucherpreise steigen oder sinken? Mit welcher Netzauslastung m¨ ussen die Energieversorger morgen oder innerhalb der n¨achsten Stunde rechnen? ¨ Ahnlich wie bei Sch¨ atzproblemen l¨ asst sich die Unsicherheit solcher Prognosewerte mithilfe von Intervallangaben (Prognoseintervalle) zu vorgegebenen Sicherheitswahrscheinlichkeiten quantifizieren. Dies setzt genaue Kenntnisse u ¨ber systematische und zuf¨allige Strukturen einer Zeitreihe sowie eine geeignete statistische Modellierung voraus. • Nichtparametrische Statistik • Die auf statistischen Modellen (Abschnitt 9.1) beruhenden induktiven Verfahren stellen gewisse Voraussetzungen in Form von Modellannahmen an die Daten. In diesem Zusammenhang spielt die sog. Parametrisierung eines Modells eine entscheidende Rolle. Dies beinhaltet die Art und Weise, wie bekannte und unbekannte Kenngr¨ oßen, die als Parameter bezeichnet werden, in ein Modell einfließen. Hinsichtlich solcher Parameter besonders sparsame“ Modelle und Methoden ” werden h¨aufig als nichtparametrisch bezeichnet. Nichtparametrische Methoden finden sich im Prinzip in allen Spezialgebieten der Statistik. Da sich deren mathematische Grundlagen jedoch von denen klassischer (parametrischer ) Modelle und Methoden teils absetzen, werden sie manchmal auch als eigenes Spezialgebiet behandelt. ¨ • Bayes-Statistik • Ahnliches gilt f¨ ur die sog. Bayes-Statistik . Modellparameter werden hier grunds¨ atzlich anders interpretiert als bei klassischen“ Verfahren. Die”

1.3 Teilbereiche, Spezialgebiete und Grundlagen

17

se werden nicht mehr als feste (deterministische), sondern als stochastische Gr¨oßen aufgefasst. Bayes-Statistik stellt damit quasi eine alternative Form dar, wie Statistik grunds¨atzlich betrieben werden kann. Bayesianische Verfahren erg¨anzen und erweitern heute das Spektrum statistischer Analysem¨ oglichkeiten in unterschiedlichen Gebieten, sind in der Praxis jedoch vergleichsweise gering verbreitet. Dies mag sicherlich auch auf ihre relativ hohe Rechenintensit¨ at selbst bei einfachen Fragestellungen zur¨ uckzuf¨ uhren sein.

1.3.3 Wissenschaftsspezifische Ausrichtungen In allen empirisch orientierten Wissenschaften nehmen heute statistische Methoden zur Auswertung und Interpretation von Daten einen unverzichtbaren Platz ein. Metrien” ¨ F¨acher“ wie etwa Biometrie, Okonometrie, Psychometrie oder Technometrie stellen wissenschaftsspezifische Ausrichtungen statistischer Methoden dar. Fr¨ uh mit dem Aufkommen moderner statistischer Methoden Ende des 19. und Anfang des 20. Jahrhunderts kam es auch bereits zur Gr¨ undung eigener Fachgesellschaften mit zugeh¨origen Zeitschriften wie etwa Biometrika (1901), Econometrica (1933), Psychometrika (1936) oder Technometrics (1956). Vor dieser Zeit wurden statistische Fachartikel theoretischer und anwendungsbezogener Art aus unterschiedlichen Disziplinen in allgemeinen Zeitschriften wie dem britischen Journal of the Royal Statistical Society (1838) oder dem Journal of the American Statistical Association (1888) ver¨offentlicht. Die stark forcierte mathematische Fundierung der Statistik ab der 1. H¨alfte des 20. Jahrhunderts ließ außerdem eine deutlichere Absetzung mathematischer Beitr¨age von eher anwendungsbezogenen Artikeln notwendig erscheinen. In diesem Zusammenhang wurden beispielsweise die Annals of Mathematical Statistics (heute Annals of Statistics und Annals of Probability) bereits im Jahr 1930 ins Leben gerufen. Die fachspezifische Diversifikation statistischer Methoden wurde notwendig, um fachtypische Problemstellungen und Rahmenbedingungen besser ber¨ ucksichtigen zu ¨ k¨ onnen. So dominieren beispielsweise in der Okonometrie vor allem regressionsanalytische Verfahren, w¨ ahrend in der Psychometrie multivariate statistische Verfahren traditionell eine bedeutende Rolle einnehmen. In einer biometrischen oder technometrischen Lehrveranstaltung geh¨ oren dagegen Grundlagen der statistischen Versuchsplanung mit varianzanalytischen Modellen zu unverzichtbaren Elementen. Bei all diesen Spezialisierungen sollte dennoch nicht u ¨bersehen werden, dass die methodischen Grundlagen im Prinzip immer die gleichen sind. Die Inhalte einf¨ uhrender Lehrveranstaltungen unter¨ schiedlicher Disziplinen u ange ¨berlappen sich deshalb teils erheblich. Selbst die Uberg¨ zwischen einzelnen Fachwissenschaften werden zunehmend fließender. Neuere interdisziplin¨are Gebiete wie etwa die Neuro¨ okonomie, die Neurowissenschaften, Psychologie und ¨ Okonomie verbindet, verst¨ arken diese Konvergenz. In der experimentellen Wirtschaftsforschung werden sozio¨ okonomische Fragestellungen quasi mit naturwissenschaftlichen Herangehensweisen untersucht. Spezielle statistische Verfahren lassen sich also nur noch selten ausschließlich einzelnen Fachwissenschaften zuordnen. Vielmehr werden sie zusehends u ¨ber solche hinweg ausgetauscht und diskutiert.

18

1 Einf¨ uhrung in die Statistik

1.3.4 Mathematische und technische Grundlagen Zu den mathematischen Grundlagenf¨ achern z¨ahlen die Analysis und die lineare Algebra. Letzteres Fach ist mit der Vektor- und Matrizenrechnung vor allem f¨ ur die Behandlung linearer Regressionsmodelle unentbehrlich. Allen voran besitzt aber die Wahrscheinlichkeitsrechnung die gr¨ oßte und alles entscheidende Bedeutung. Sie erm¨oglicht erst die statistische Modellierung stochastischer Vorg¨ange und stellt das zugeh¨orige Rechenkalk¨ ul zur Verf¨ ugung. Sofern Wahrscheinlichkeitsrechnung auf h¨oherem mathematischem Niveau betrieben wird, verwendet man eher die Bezeichnung Wahrscheinlichkeitstheorie. Die mathematische Statistik ist das mathematische Grundlagenfach der induktiven Statistik, das sich vor allem mit der Entwicklung und Optimierung von Sch¨ atz- und Testverfahren befasst. In der Theorie stochastischer Prozesse geht es um die Modellierung zeitabh¨angiger Zufallsprozesse jedweder Art. Typische Zeitreihen stellen hier lediglich Spezialf¨alle dar. Stochastik kann schließlich als Sammelbegriff aller mathematischen F¨ acher verwendet werden, welche sich in irgendeiner Form mit zuf¨ alligen Ereignissen und Wahrscheinlichkeiten befassen. Insbesondere in der EDA, im Data Mining , in der nichtparametrischen Statistik und in der Bayes-Statistik werden h¨aufig sehr computerintensive Verfahren eingesetzt, die teils auf ausgefeilten numerischen Prozeduren basieren. Auch die Erschließung extrem großer Datens¨ atze, wie sie typischerweise in der Genetik, im Bereich der Telekommunikation oder an den Finanzm¨ arkten anfallen, stellt neue Anforderungen an statistische Verfahren und forciert einen zunehmenden Austausch mit der Informatik. Unter den Begriffen Computational Statistics oder Statistical Computing verbergen sich Schnittgebiete zwischen Statistik, Informatik und Numerik. Wir verwenden hier den Sammelbegriff computergest¨ utzte Statistik . Als technisches Grundlagenfach betrachtet befasst sich dieses vor allem mit der Implementierung statistischer Verfahren in m¨oglichst effiziente Programme.

Teil 1: Deskriptive Statistik – Empirischer Kalku ¨l Deskriptive Methoden zielen darauf ab, konkret vorliegende Daten hinsichtlich wesentlicher Eigenschaften mit grafischen und rechnerischen Mitteln zu beschreiben. Im Gegensatz zu den induktiven Analysemethoden, die in Teil 3 behandelt werden, beruhen diese auf keinem Wahrscheinlichkeitskalk¨ ul, sondern sind in erster Linie datengest¨ utzt. Nach der Einf¨ uhrung einiger grundlegender Begriffe in Kapitel 2, befassen sich Kapitel 3 und 4 mit der Beschreibung empirischer Verteilungen einzelner Merkmale (univariat). Dabei geht es zun¨ achst um die Frage, wie sich das zahlenm¨aßige Auftreten bestimmter Werte innerhalb einer gr¨ oßeren Datenmenge tabellarisch und grafisch zusammenfassen l¨ asst. Danach werden M¨ oglichkeiten vorgestellt, wie bestimmte Spezifika von Verteilungen mithilfe empirischer Kennwerte quantifiziert werden k¨onnen. In Kapitel 5 werden schließlich grafische und rechnerische Verfahren zur Untersuchung von Zusammenh¨angen zwischen mehreren Merkmalen vorgestellt (multivariat).

Kapitel 2: Einfu ¨ hrung in die deskriptive Statistik In diesem Kapitel werden einige grundlegende Begriffe im Zusammenhang deskriptiver Methoden gekl¨art.

2.1 Daten, Datens¨ atze und Variablen In der Statistik versteht man unter Daten in der Regel eine auf in einem bestimmten Kontext wesentliche Merkmale (Variablen) verk¨ urzte Information u ¨ber Personen, Objekte oder Vorg¨ ange mittels Quantifizierung und Kategorisierung. Die in der Statistik am h¨aufigsten verwendete Organisationsstruktur solcher Daten sind Datens¨ atze. Diese weisen unmittelbar schon eine f¨ ur statistische Verfahren besonders geeignete Strukturierung auf. Die Erstellung eines Datensatzes im Zusammenhang prim¨ ar- oder sekund¨ arstatistischer Daten ist h¨aufig mit dem Problem verbunden, die Vergleichbarkeit der Untersuchungseinheiten zu gew¨ahrleisten und sinnvolle Skalierungen f¨ ur die Variablen zu definieren. • Daten in der Statistik • Statistische Methoden befassen sich mit der Analyse von Daten. Doch was genau versteht man unter Daten? Dazu gibt es keine einheitliche und auf einen gemeinsamen Punkt zu bringende Definition. Die Singularform zu diesem Wort lautet Datum, worunter gew¨ ohnlich ein bestimmter Kalendertag verstanden wird. Aus dem lateinischen dare (geben) abgeleitet, heißt es w¨ortlich u ¨bersetzt das Gegebe” ne“. Insofern k¨onnte man Datum“ oder Daten“ auch mit Angabe“ bzw. Angaben“ ” ” ” ” u ¨bersetzen. In der Statistik zeichnen sich Daten insbesondere dadurch aus, dass in relativ kompakter Form spezifische Merkmale von Personen, Objekten oder Vorg¨angen zusammengefasst werden. So umfassen beispielsweise die bei einem Telekommunikationsunternehmen gespeicherten Daten von Telefongespr¨achen in der Regel Nummern von anrufenden und angerufenen Personen, Zeiten und Dauern von Gespr¨achen und dabei angefallene Kosten. Die Daten von Lehrveranstaltungen in einem Vorlesungsverzeichnis, k¨onnen Namen von Lehrenden, Semesterwochenstunden, ECTS -Punkte, Zeiten und R¨aume oder Arten und Dauern von Pr¨ ufungen beinhalten. Im Zusammenhang solcher Daten geht es also immer um eine Art Komprimierung von Information auf in einem bestimmten Kontext wichtige und relevante Aspekte. Dies geschieht entweder durch Quantifizierung in Form von Zahlen (Dauer, Umfang, Anzahl, Kosten, usw.) oder durch eine bestimmte Art von Kategorisierung (Name, Ort, Sprache, Geschlecht, usw.). • Allgemeinere Formen von Daten • Insbesondere in der Informatik und Nachrichtentechnik ist der Begriff Daten“ wesentlich allgemeiner gefasst. Beispielsweise w¨ urde ” man dort auch s¨amtliche auf einem Computer oder einem USB-Stick abgespeicherte

2.1 Daten, Datens¨ atze und Variablen

21

Dateien, seien es nun Programme, Texte oder Grafiken oder s¨amtliche u ¨ber ein Glasfaserkabel u ¨bertragenen optischen Signale als Daten bezeichnen. Daten in einem solchen Sinne, sozusagen nur als kodierte Information“ verstanden, weisen jedoch eine f¨ ur sta” tistische Verfahren noch viel zu geringe Strukturierung und Komprimierung auf, um unmittelbar schon mit u ¨blichen statistischen Verfahren erschlossen werden zu k¨onnen. • Datens¨ atze, Variablen und Dimension • In der Statistik werden Daten am h¨aufigsten in Form von Datens¨ atzen organisiert. Die Grundstruktur eines Datensatzes besteht dabei aus einer Rechteckanordnung von Zahlen und Kategorien in Form von Zeilen und Spalten gem¨ aß einer Tabelle. So sind beispielsweise Veranstaltungsdaten eines typischen Vorlesungsverzeichnisses in der Regel schon so weit vorstrukturiert, dass sie sich auch ohne weiteres in Form eines Datensatzes organisieren lassen (Tab. 2.1.1). Tabelle 2.1.1: Datensatz von Lehrveranstaltungen (fiktiv) SWS

Prüfungsdauer (in Minuten)

ECTS

Sprache

Gasthörer

Statistik 2

6

120

7

Deutsch

nein

Multivariate Statistics

4

120

7

Englisch

ja

Versuchsplanung

2

NA

4

Deutsch

nein

Computergestützte Statistik

4

90

6

Deutsch

beschränkt

Econometrics I

4

90

6

Englisch

nein

Veranstaltung

Jedem Datensatz liegt immer eine Menge vergleichbarer Objekte zugrunde, die hinsichtlich der gleichen Merkmale quantifiziert und kategorisiert werden. Dabei kann es sich um eine Menge von Personen, Gegenst¨ anden, geographische Orten, Vorg¨angen oder Ereignissen handeln. Diese Objekte heißen in der Statistik Untersuchungseinheiten oder auch Merkmalstr¨ ager (Abschnitt 2.2). Um sinnvolle statistische Aussagen aus einem Datensatz ableiten zu k¨ onnen, muss neben der Einheitlichkeit der Objekte auch das den Merkmalen jeweils zugrundeliegende Bewertungssystem, die sog. Skalierung , sinnvoll und einheitlich gew¨ ahlt werden. Im vorliegenden Fall wird z.B. das Merkmal Pr¨ ufungsdauer“ einheitlich in Minuten festgehalten. Die Zulassung von ” Gasth¨orern wird u ¨ber die Kategorien ja“, nein“ und beschr¨ankt“ deklariert und nicht ” ” ” u andig wechselnde Formen wie etwa sehr willkommen“, ja“, auf ¨ber beliebige und st¨ ” ” ” Nachfrage“, nein“, beschr¨ ankt“, oder bitte den Dozenten kontaktieren!“. Genauso ” ” ” muss die Behandlung fehlender Werte einheitlich deklariert werden. Handelt es sich bei der Veranstaltung Versuchsplanung“ beispielsweise um eine projektorientierte prakti” sche Lehrveranstaltung, im Rahmen derer haupts¨achlich schriftliche Hausarbeiten und m¨ undliche Vortr¨age benotet werden, ist das Merkmal Pr¨ ufungsdauer“ nicht relevant. ” Eine Bewertung mit dem Wert 0, falls tats¨ achlich keine schriftliche Klausur erfolgt, w¨ are zwar durchaus logisch, aber dennoch nicht sinnvoll. Fehlende Werte k¨onnen beispielsweise mit der international g¨ angigen Abk¨ urzung NA (Not Available) deklariert werden, wobei, wie im vorliegenden Fall, eine Nichtverf¨ ugbarkeit nicht immer der Grund

22

2 Einf¨ uhrung in die deskriptive Statistik

f¨ ur einen fehlenden Wert sein muss. Vielmehr kann es auch sein, dass eine Variable unter bestimmten Gegebenheiten einfach nur nicht sinnvoll bewertet werden kann. ¨ Ublicherweise korrespondieren die Zeilen eines Datensatzes mit den Untersuchungseinheiten und die Spalten mit den Merkmalen. Anstelle von Merkmalen spricht man auch h¨aufig von Variablen, um die Variabilit¨at der einzelnen Merkmale hinsichtlich ihrer verschiedenen Auspr¨ agungsm¨ oglichkeiten herauszustellen. Die erste Spalte enth¨alt h¨aufig Namen, Bezeichnungen oder zumindest Nummerierungen der einzelnen Untersu¨ chungseinheiten. Ubersteigt die Spaltenanzahl (Variablenanzahl) die Zeilenanzahl (Anzahl der Beobachtungen), wird die Zuordnung von Zeilen und Spalten aus Darstellungsgr¨ unden h¨aufig auch vertauscht. Zeilen- und Spaltenanzahl werden auch als Dimensionen des Datensatzes bezeichnet. In der Singularform versteht man unter der Dimension oder der Dimensionalit¨ at der Daten prim¨ar die Anzahl der Variablen. • Probleme bei der Erstellung von Datens¨ atzen • Gerade im Zusammenhang schwach strukturierter Daten, deren Erhebung und Verwendung nicht prim¨ar statistischen Auswertungszwecken dient (Sekund¨ arstatistiken), erweist sich die Transkription von Daten in konkrete Datens¨ atze h¨ aufig als problematischer Schritt. Hierbei unterlaufene Fehler und Ungenauigkeiten lassen sich sp¨ater unter Umst¨anden kaum mehr korrigieren, sofern sie u ¨berhaupt noch erkannt werden. Angenommen im vorliegenden Beispiel soll unter anderem untersucht werden, wie hoch der Anteil der in Englisch abgehaltenen Vorlesungen an einer Hochschule ist. Die Datengrundlage bilde hierbei das offizielle Vorlesungsverzeichnis. In Bezug auf die Untersuchungseinheiten muss nun klar geregelt werden, was eine Vorlesung“ eigentlich ist und was nicht. Unter Umst¨anden ” l¨ asst sich dies aber nicht immer eindeutig beurteilen. So mag es z.B. Veranstaltungen ¨ geben, bei denen die Trennung zwischen Ubung und Vorlesung nicht deutlich erkennbar ist. Bei der Variable Sprache“ kann es wichtig sein, zwischen optional und zwingend in ” Englisch abgehaltenen Vorlesungen zu unterscheiden. Bei der konkreten Erstellung eines Datensatzes treten also stets Ungenauigkeiten und Zweideutigkeiten auf. Auch wenn solche Probleme eher nichtstatistischer Natur sein m¨ogen, k¨onnen solche vorbereitenden ¨ Uberlegungen eine sp¨ atere Auswertung und Interpretation mitunter st¨arker beeinflussen als die Wahl eines geeigneten statistischen Analyseverfahrens. Werden Daten dagegen gezielt f¨ ur einen bestimmten statistischen Untersuchungszweck erhoben (Prim¨ arstatistiken), werden diese bereits bei ihrer Erhebung mehr oder weniger direkt schon in eine Datensatzstruktur eingetragen. Dennoch sind auch hier Eindeutigkeitsprobleme und Ungenauigkeiten nicht auszuschließen, wie es z.B. h¨aufig bei Befragungen von Personen (unklare Antworten) oder Messungen bei Experimenten (Messfehler) der Fall ist.

2.2 Grundgesamtheit, Merkmalstypen und Skalierungsarten Jede statistische Untersuchung bezieht sich auf eine bestimmte Zielmenge von Personen, Objekten oder Vorg¨ angen, die sich durch eindeutige Identifikationskriterien abgrenzt und allgemein als Grundgesamtheit bezeichnet wird. Die Elemente dieser Menge werden als Untersuchungseinheiten oder Merkmalstr¨ ager bezeichnet. Diese enthalten die f¨ ur eine Fragestellung relevanten Merkmale (Variablen), die

2.2 Grundgesamtheit, Merkmalstypen und Skalierungsarten

23

durch Beobachtung, Befragung oder Messung erhoben werden. Dabei kann zwischen verschiedenen Merkmalstypen und Skalierungsarten unterschieden werden. • Grundgesamtheit • Wie im vorhergehenden Abschnitt erl¨autert wurde, liegt jedem Datensatz stets eine bestimmte Menge von Personen, Objekten oder Vorg¨angen zugrunde, die in gewisser Weise vergleichbar sein m¨ ussen, um statistisch sinnvolle Aussagen ableiten zu k¨onnen. So wird beispielsweise bei einer Telefonumfrage wie dem bekannten Politbarometer des ZDF vor der Befragung genau festgelegt, wer, wann, wo und auf welche Weise befragt werden soll. Eine u ¨ber solche sachliche, r¨aumliche und zeitliche Identifikationskriterien abgrenzbare Zielmenge wird in der Statistik als Grundgesamtheit bezeichnet. Die interessierenden Personen, Objekte oder Vorg¨ange einer Grundgesamtheit, heißen Untersuchungseinheiten oder auch Merkmalstr¨ ager . Die Grundgesamtheit ist nicht mit der Menge aller Untersuchungseinheiten eines Datensatzes gleichzusetzen! Vielmehr ist sie die Menge aller potenziell in Frage kommenden Objekte. Sp¨ater wird in diesem Lehrbuch noch zwischen realer und hypothetischer Grundgesamtheit differenziert werden (Abschnitt 9.2). • Merkmalstypen • Merkmale lassen sich in qualitative (auch kategoriale) und quantitative Merkmale einteilen. Bei qualitativen Merkmalen sind die Merkmalsauspr¨agungen artm¨ aßig“ (kategorial) und werden durch Namen oder Kategorien aus” gedr¨ uckt. Dazu geh¨ ort beispielsweise der Name einer Person, einer Stadt oder einer Lehrveranstaltung, Geschlecht, Konfession und Familienstand oder die Tatsache, ob jemand Vegetarier ist oder nicht (Ja vs. Nein). Bei quantitativen Merkmalen werden die Auspr¨agungen dagegen durch Zahlen ausgedr¨ uckt. Hier sei beispielsweise das Alter eines Kraffahrzeugs, das Jahreseinkommen eines Angestellten oder die monatliche Anzahl von Todesf¨allen in einem Pflegeheim zu nennen. Quantitative Merkmale lassen sich wiederum in diskrete und stetige Merkmale einteilen. Diskrete Merkmale besitzen nur endlich oder abz¨ ahlbar unendlich (Abschnitt 6.1.2) viele verschiedene Auspr¨ agungsm¨oglichkeiten wie z.B. die Anzahl von Personen in einem Haushalt oder die Anzahl von Unternehmensinsolvenzen innerhalb eines Jahres. Die Auspr¨ agungen stetiger Merkmale erstrecken sich dagegen auf ein Kontinuum m¨oglicher Werte, ausgedr¨ uckt h¨ aufig durch ein Intervall, innerhalb dessen sich Werte realisieren k¨ onnen. Typische Beispiele f¨ ur stetige Merkmale w¨aren Geschwindigkeit, zeitliche Dauer, Gr¨ oße und Gewicht oder Energieverbrauch. Die Eigenschaft der Stetigkeit gilt auch dann, falls die Auspr¨ agungen nur bis zu einer bestimmten Genauigkeit erfasst oder angegeben werden. Wenn also beispielsweise die K¨orpergr¨oße einer Person nur zentimetergenau gemessen oder angegeben wird, ¨andert dies nichts an der Tatsache, dass das Merkmal K¨ orpergr¨ oße an sich stetig ist. Diskrete Merkmale, f¨ ur die es relativ viele“ Auspr¨agungsm¨oglichkeiten gibt und ” die sich deshalb wie stetige Merkmale behandeln lassen, werden als quasistetig bezeichnet. Als Beispiel sei hier die Gr¨ oße einer auf einem Computer gespeicherten Datei genannt. Typischerweise werden Dateigr¨ oßen in Gigabyte, Megabyte oder Kilobyte angegeben. Tats¨achlich existiert aber auch hier eine genaueste diskrete Angabe, die in der kleinsten Informationseinheit eines Bit erfolgt.

24

2 Einf¨ uhrung in die deskriptive Statistik Abb. 2.2.1: Merkmalstypen und Skalierungsarten Merkmal Qualitativ

Typ

Quantitativ

Namen und Kategorien

Ausprägungsform

Zahlen (diskret oder stetig)

nominal oder ordinal

Skalierung

metrisch (kardinal)

• Skalierungsarten • Unter der Skalierung eines Merkmals versteht man die Art und Weise, wie unterschiedliche Auspr¨ agungen bewertet oder kategorisiert werden. Werden die Auspr¨agungen auf einer Zahlenskala gemessen, m¨oglicherweise in Verbindung mit einer bestimmten Maßeinheit wie Minuten, Zentimeter oder Kilowattstunde, so spricht man von kardinal oder metrisch skalierten Merkmalen. Quantitative Merkmale sind prinzipiell immer metrisch skaliert. Sie lassen sich gr¨oßenm¨aßig ordnen und vergleichen. Auspr¨agungen und Kategorien nominal skalierter Merkmale k¨onnen dagegen nur in Bezug auf Gleichheit oder Ungleichheit miteinander verglichen werden. Es existiert keine nat¨ urliche Wertigkeits- oder Pr¨ aferenzordnung. Typische Beispiele hierf¨ ur w¨aren Namen und Bezeichnungen von Personen, Orten oder Objekten. Ordinal skalierten Merkmalen liegt dagegen eine nat¨ urliche Rangordnung zugrunde. Beispiele hierf¨ ur w¨aren die Schulbildung (Hauptschulabschluss, Mittlere Reife, Abitur, usw.), die Kreditw¨ urdigkeit eines Staates nach einer Ratingagentur (AAA, AA, A, usw.) oder die Kategorie eines Flugtickets (Economy, Business, First, usw.). Qualitative Merkmale sind entweder nominal oder ordinal skaliert. Ferner ist zu beachten, dass sich Auspr¨ agungen qualitativer Merkmale metrisch kodieren lassen, wovon die eigentliche Skalierung jedoch unber¨ uhrt bleibt. Deklariert man beispielsweise die Auspr¨ agungen des Merkmals Geschlechts mit 1 f¨ ur weiblich“ ” und 0 f¨ ur m¨annlich“, so bleibt Geschlecht an sich unver¨andert ein nominal skaliertes ” Merkmal.

2.3 Empirische Verteilungen und Zusammenh¨ ange Deskriptive Methoden zielen darauf ab, empirische Verteilungen und Zusammenh¨ ange von bzw. zwischen Merkmalen zu analysieren und zu erschließen. Zwischen zwei Merkmalen besteht immer dann ein empirischer Zusammenhang (empirische Abh¨ angigkeit), wenn die Verteilung des einen Merkmals von Werten des anderen Merkmals abh¨ angt. Ansonsten sprechen wir von empirischer Unabh¨ angigkeit. Davon deutlich zu unterscheiden sind die mithilfe der Wahrscheinlichkeitstheorie ableitbaren theoretischen (stochastischen) Verteilungen von Zufallsvariablen, die sp¨ ater in Teil 2 eingef¨ uhrt werden. Zwischen Zufallsvariablen k¨ onnen stochastische Abh¨ angigkeiten bestehen. • Ein- und mehrdimensionale Verteilungen • Unter der empirischen Verteilung eines Merkmals oder mehrerer Merkmale (Variablen) verstehen wir die Art und Weise, wie einzelne Merkmalsauspr¨ agungen in einem vorliegenden Datensatz auftreten, sprich wie sich die Werte im Einzelnen auf die einzelnen Auspr¨agungsm¨oglichkeiten verteilen. Die Beschreibung einer empirischen Verteilung erfolgt in der Regel u ¨ber summari-

2.3 Empirische Verteilungen und Zusammenh¨ange

25

sche Angaben einzelner H¨ aufigkeiten z.B. im Rahmen von Tabellen oder u ¨ber grafische Darstellungen solcher. Wird nur die Verteilung eines einzelnen Merkmals betrachtet, spricht man von einer eindimensionalen oder univariaten Verteilung . Werden die Auspr¨agungskombinationen von zwei oder mehr Merkmalen gleichzeitig betrachtet, spricht man dagegen von einer mehrdimensionalen oder multivariaten Verteilung oder auch von der gemeinsamen Verteilung der betreffenden Merkmale. Beispiel 2.3.1: Ein- und mehrdimensionale empirische Verteilung Angenommen im Rahmen einer Studie werden 100 Personen in einer Stadt zu deren Rauchverhalten befragt. Dabei ergibt sich, dass unter diesen Personen 16 regelm¨aßige Raucher, 20 Gelegenheitsraucher und 64 Nichtraucher sind. Die Beschreibung der Verteilung des Merkmals Raucherstatus“ kann dann beispielsweise u ¨ber eine Darstellung ” wie in Abb. 2.3.1 erfolgen. Abb. 2.3.1: Verteilung des Raucherstatus (fiktiv)

Abs. Häufigkeit

80 60 40 20 0 Raucher

Gelegenheitsraucher

Nichtraucher

Wird neben dem Raucherstatus noch das Geschlecht der befragten Person mit erhoben, so kann die gemeinsame Verteilung der beiden Merkmale Raucherstatus“ und ” Geschlecht“ beispielsweise mithilfe einer sog. Kontingenztabelle dargestellt werden ” (Abb. 2.3.2). Es handelt sich dabei um eine zweidimensionale Verteilungsdarstellung, aus der hervorgeht, wie h¨ aufig welche Auspr¨agungskombinationen beider Merkmale auftreten. Abb. 2.3.2: Gemeinsame Verteilung von Raucherstatuts und Geschlecht (fiktiv) Raucherstatus

Raucher

Gelegenheits− raucher

Nichtraucher

weiblich

4

8

28

männlich

12

12

36

Geschlecht

• Empirische Zusammenh¨ ange • Die tabellarische oder grafische Deskription einer multivariaten Verteilung zielt h¨ aufig darauf ab, Zusammenh¨ange zwischen einzelnen Merkmalen feststellen zu k¨ onnen. Doch was genau versteht man unter einem Zusammenhang ? Wann genau h¨ angen zwei Merkmale zusammen und wann nicht? In der Statistik spricht man immer dann von einem Zusammenhang, wenn die relative Verteilung des einen Merkmals innerhalb der Unterkategorien des anderen Merkmals unterschiedlich ist, also von den Auspr¨ agungen des anderen Merkmals abh¨angt. Aus Abbildung

26

2 Einf¨ uhrung in die deskriptive Statistik

2.3.2 geht z.B. hervor, dass insgesamt 40 Frauen und 60 M¨anner befragt wurden. Von den M¨annern waren 36 Nichtraucher, was einem Anteil von 100 × 36/60 = 60% entspricht. Bei den Frauen betr¨ agt dieser Anteil dagegen 70% und ist damit um 10 Prozentpunkte h¨oher. Damit besteht im vorliegenden Fall ein empirischer Zusammenhang (eine empirische Abh¨ angigkeit). Das segmentierte S¨ aulendiagramm in Abbildung 2.3.3 illustriert die unterschiedliche Verteilung des Raucherstatus innerhalb der beiden Geschlechter. Abb. 2.3.3: Zusammenhang von Raucherstatus und Geschlecht (fiktiv) 100 80 %

60

Nichtraucher

40 20 0

Gelegenheitsraucher Raucher weiblich

Nichtraucher

Gelegenheitsraucher Raucher männlich

Zwischen Raucherstatus und Geschlecht w¨ urde hingegen kein Zusammenhang (keine Abh¨angigkeit) bestehen, falls die relativen Anteile von Rauchern, Gelegenheitsrauchern und Nichtrauchern bei M¨ annern und Frauen jeweils exakt u ¨bereinstimmen w¨ urden. Eine Pr¨ azisierung des Abh¨ angigkeits- bzw. Unabh¨angigkeitsbegriffs erfolgt sp¨ater in Abschnitt 5.1.1. Im Falle zweier metrisch skalierter Merkmale wie z.B. Gr¨oße und Gewicht einer Person besteht ein u ¨bliches Verfahren darin, die Auspr¨agungen beider Merkmale in einem zweidimensionalen Streudiagramm abzutragen (vgl. Abschnitt 1.3.2). Damit l¨ asst sich die Richtung des Zusammenhangs, ob nun positiv (je gr¨oßer, desto schwerer) oder negativ (je gr¨ oßer, desto leichter), aber auch die Art (linear, nichtlinear, exponentiell, usw.) bereits visuell einsch¨ atzen. • Wahrscheinlichkeitstheoretische Gegenst¨ ucke • Zu den empirischen Verteilungsbegriffen des datengest¨ utzten Kalk¨ uls korrespondieren die theoretischen Gegenst¨ ucke des stochastischen Kalk¨ uls, die im Rahmen der Wahrscheinlichkeitsrechnung in Teil 2 vorgestellt werden. Unter einer theoretischen oder stochastischen (auch statistischen) Verteilung versteht man die Verteilung bestimmter Ergebnisse eines Zufallsvorgangs nach Wahrscheinlichkeit. Dabei geht es darum zu beschreiben“, mit ” welchen Wahrscheinlichkeiten bestimmte Werte oder Kategorien als Ergebnisse eines Zufallsvorgangs eintreten. Die Ermittlung solcher Wahrscheinlichkeiten basiert dabei auf einem theoretischen Wahrscheinlichkeitskalk¨ ul und nicht auf Ausz¨ahlungen vorliegender Daten. In Beispiel 1.2.1 (Abschnitt 1.2.2) finden sich grafische Darstellungen zweier solcher theoretischer Verteilungen. Im Allgemeinen spricht man dann nicht mehr von der Verteilung eines Merkmals, sondern von der Verteilung einer Zufallsvariable. Im mehrdimensionalen Rahmen kann korrespondierend zum Zusammenhang zwischen Merkmalen ein Zusammenhang zwischen Zufallsvariablen definiert werden. Zur deutlicheren Unterscheidung spricht man dann von einem stochastischen Zusammenhang bzw. von stochastischer Abh¨ angigkeit .

Kapitel 3: Gesamtbeschreibung empirischer Verteilungen Die einfachste M¨ oglichkeit, vorliegendes Datenmaterial zu beschreiben, besteht darin, die H¨aufigkeiten einzelner Auspr¨ agungen auszuz¨ahlen. Die Gesamtheit aller ermittelten H¨ aufigkeiten gibt uns dann an, wie sich die einzelnen Beobachtungswerte auf die unterschiedlichen Auspr¨ agungsm¨ oglichkeiten aufteilen, oder kurz wie diese verteilt sind. Wir sprechen in diesem Zusammenhang auch von der H¨ aufigkeitsverteilung oder auch einfach nur von der Verteilung der Daten.

3.1 Tabellarische Darstellungsm¨ oglichkeiten Die H¨aufigkeitsverteilung eines Merkmals kann tabellarisch entweder in absoluter oder relativer Form dargestellt werden. Dabei werden die H¨aufigkeiten entweder f¨ ur einzelne Auspr¨agungen oder zusammenfassend f¨ ur bestimmte Gr¨oßenklassen aufgelistet. Eine Klassierung ist meist dann angezeigt, wenn die Zahl unterschiedlicher Auspr¨agungen sehr hoch ist und eine Auflistung und Ausz¨ahlung dieser im Einzelnen nicht mehr sinnvoll erscheint.

3.1.1 Elementare Begriffe und Notation • Urliste und Stichprobenumfang • Die Urliste enth¨alt s¨amtliche Beobachtungswerte einer Studie in ihrer urspr¨ unglichen Form ohne gr¨oßere Aufbereitung und Manipulation. Man spricht in diesem Zusammenhang auch von den sog. Rohdaten. Angenommen im Rahmen einer kommunalen Erhebung werde eine kleine Stichprobe aus der Grundgesamtheit aller Privathaushalte einer Stadt gezogen. Dabei interessiere man sich f¨ ur die Verteilung des Merkmals Personenanzahl im Haushalt“. Zur Vereinfachung neh” men wir an, dass lediglich 8 Haushalte zuf¨ allig gezogen werden. Die Stichprobe liefert nun als Ergebnis: 4, 2, 1, 2, 3, 3, 1, 1. Dann bilden diese 8 Werte die Urliste bzw. Rohdaten dieser Erhebung. Die Anzahl aller Beobachtungswerte, welche auch Stichprobenumfang heißt, wird u ¨blicherweise mit n (engl. number ) notiert. Im vorliegenden Fall etwa gilt n = 8. • Merkmale und Auspr¨ agungsm¨ oglichkeiten • Die bei einer statistischen Untersuchung interessierenden Eigenschaften von Personen, Objekten oder Vorg¨angen werden als Merkmale oder als Variablen (Abschnitt 2.1) bezeichnet und meist mit lateinischen Großbuchstaben abgek¨ urzt. Die korrespondierenden Beobachtungswerte werden

28

3 Gesamtbeschreibung empirischer Verteilungen

hingegen mit entsprechenden Kleinbuchstaben notiert. Verwendet man im vorliegenden Beispiel f¨ ur das Merkmal Personenanzahl im Haushalt“ etwa den Buchstaben X, so ” werden die Beobachtungswerte mit x1 , x2 , . . . , xn notiert. Hier gilt also: x1 = 4, x2 = 2, . . . , x8 = 1. L¨age noch ein weiteres Merkmal Y vor, so w¨ urde man dessen Beobachtungswerte konsequenterweise mit y1 , y2 , . . . , yn notieren. Sofern man sich nur allgemein auf die Werte eines Merkmals bezieht, schreibt man z.B. x1 , . . . , xn“ oder xi , f¨ ur i = 1, . . . , n“. In letzterer Variante bezeichnet i eine ” ” Indexvariable, welche stellvertretend f¨ ur die Menge der Werte von 1 bis n steht. Ist diese sog. Indexmenge im Kontext ohnehin klar, so kann abk¨ urzend auch nur von den xi ’s“ oder den x-Werten“ gesprochen werden. ” ” Abb. 3.1.1: Beispiel einer eindimensionalen Stichprobe X : Anzahl der Personen in einem Haushalt Grundgesamtheit 3 3 1 1

1 2

4 1 1

2 1

Stichprobe vom Umfang n=8 2 3

4

2

1

2

3

3

1

1

1 2 1

3

Beobachtungswerte des Merkmals X : x 1=4,x 2=2,x 3=1,x 4=2,x 5=3,x 6=3,x 7=1,x 8=1 Urliste (Rohdaten)

Unter den Auspr¨ agungsm¨ oglichkeiten eines Merkmals verstehen wir die Menge aller Werte oder Kategorien, welche potenziell angenommen werden k¨onnen. Die Auspr¨agungsm¨oglichkeiten diskreter und qualitativer Merkmale werden in diesem Buch stets mit aj , f¨ ur j = 1, . . . , k notiert und, sofern relevant, gem¨aß ihrer Gr¨oße oder ihrer nat¨ urlichen Ordnung (bei ordinaler Skalierung) geordnet. Der Wert k entspricht dabei entweder der Anzahl ber¨ ucksichtigter oder der Anzahl m¨oglicher Auspr¨agungen, je nachdem wie es gerade sinnvoller erscheint. Im vorliegenden Fall beispielsweise ist X ein diskretes Merkmal, dessen Auspr¨ agungsm¨ oglichkeiten sich auf die nat¨ urlichen Zahlen erstrecken, wobei in der Praxis eine obere Grenze angenommen werden kann. F¨ ur k = 4 erh¨alt man beispielsweise a1 = 1, a2 = 2, a3 = 3, a4 = 4 und f¨ ur k > 4 entsprechend a1 = 1, a2 = 2, a3 = 3, a4 = 4, a5 = 5, a6 = 6, . . . , ak = k, oder eben a1 = 1, a2 = 2, a3 = 3, a4 = 4 und aj = j f¨ ur j = 5, 6, . . . , k.

3.1 Tabellarische Darstellungsm¨ oglichkeiten

29

Im Falle von Klausurnoten k¨ onnte z.B. gelten a1 = 1.0, a2 = 1.3, a3 = 1.7, . . . , a10 = 4.0, a11 = 5.0 ; und im Falle des Merkmals Raucherstatus einer Person“ ” a1 = Raucher, a2 = Nichtraucher und a3 = Gelegenheitsraucher. Elementare Begriffe und Notation X, Y, Z, . . . x1 , x2 , . . . , xn oder xi f¨ ur i = 1, 2, . . . , n n a1 , a2 , . . . , ak

Merkmale (Variablen) Beobachtungswerte des Merkmals X i heißt Indexvariable, {1, 2, . . . , n} heißt Indexmenge Anzahl der Beobachtungen (Stichprobenumfang) Auspr¨ agungsm¨ oglichkeiten

3.1.2 H¨ aufigkeitstabellen bei Urlisten • Absolute und relative H¨ aufigkeiten • Die H¨aufigkeit der Auspr¨agung aj wird als absolute H¨ aufigkeit bezeichnet und mit nj notiert. Im Beispiel des vorhergehenden Abschnitts gilt: n1 = 3, n2 = 2, n3 = 2, n4 = 1. Wird die absolute H¨ aufigkeit nj durch den Stichprobenumfang n dividiert, erh¨alt man die relative H¨ aufigkeit der Auspr¨ agung aj , welche mit fj notiert wird (engl. frequency). Allgemein gilt: fj = nj /n, f¨ ur j = 1, . . . , k. Im Beispiel folgt daraus: f1 = 0.375, f2 = 0.25, f3 = 0.25, f4 = 0.125. Relative H¨aufigkeiten liegen immer im Intervall [0, 1]. Werden relative H¨aufigkeiten mit 100 multipliziert, erh¨ alt man Prozentangaben. Die Gesamtheit aller absoluten bzw. relativen H¨aufigkeiten, n1 , n2 , . . . , nk

bzw.

f1 , f2 , . . . , fk

bezeichnen wir als absolute bzw. relative H¨ aufigkeitsverteilung . • Tabellarische Darstellung der H¨ aufigkeitsverteilung • Absolute und relative H¨ aufigkeitsverteilung lassen sich beide tabellarisch darstellen (Tab. 3.1.1). Tabelle 3.1.1: Formale Darstellung einer H¨ aufigkeitsverteilung j 1 2 3 4 Σ

aj 1 2 3 4

nj 3 2 2 1 8

fj 0.375 0.250 0.250 0.125 1

30

3 Gesamtbeschreibung empirischer Verteilungen

Auf die 1. Spalte korrespondierend zur Indexvariablen j kann auch verzichtet werden. Diese verdeutlicht lediglich, dass die einzelnen Werte in den Zeilen mit dem entsprechenden Wert der Indexvariable j korrespondieren. In der 1. Datenzeile steht genau genommen also j = 1, a1 = 1, n1 = 3, f1 = 0.375 ; in der 2. Zeile entsprechend j = 2, a2 = 2, n2 = 2, f2 = 0.250, usw. In der letzten Zeile solcher Tabellen werden, soweit sinnvoll, h¨aufig Spaltensummen ermittelt. Dies wird h¨ aufig durch den griechischen Großbuchstaben Σ (Sigma) symbolisiert. Die Summe aller absoluten H¨ aufigkeiten muss dabei der Gesamtanzahl aller Beobachtungen, n, entsprechen. Die Summe aller relativen H¨aufigkeiten muss 1 ergeben. Es gilt also stets: n1 + n2 + · · · + nk = n bzw. f1 + f2 + · · · + fk = 1; oder mit Verwendung des Summenzeichens k X

nj = n bzw.

j=1

k X

fj = 1.

j=1

Eine derart formale Aufbereitung wie in Tabelle 3.1.1 ist nur sinnvoll, falls mit den Ausdr¨ ucken aj , nj und fj gearbeitet wird, z.B. bei der Herleitung oder Erl¨auterung mathematischer Formeln. Sollen die Ergebnisse einer Studie verst¨andlich kommuniziert werden, so ist eine verbale“ Deklaration der einzelnen Ausdr¨ ucke geeigneter (Tab. ” 3.1.2). Tabelle 3.1.2: Darstellung einer H¨ aufigkeitsverteilung zu Pr¨ asentationszwecken Gr¨ oße von Privathaushalten Personenanzahl 1 2 3 4 Gesamt

H¨ aufigkeit 3 2 2 1 8

Prozent 37.5 25.0 25.0 12.5 100

Notation und Bezeichnungen bei Urlisten nj fj xi f¨ ur i = 1, 2, . . . , n n1 , n2 , . . . , nk f1 , f2 , . . . , fnk

Absolute H¨ aufigkeit der j-ten Auspr¨agung Relative H¨ aufigkeit der j-ten Auspr¨agung i heißt Indexvariable, {1, 2, . . . , n} heißt Indexmenge Absolute H¨ aufigkeitsverteilung Relative H¨ aufigkeitsverteilung

3.1 Tabellarische Darstellungsm¨ oglichkeiten

31

3.1.3 H¨ aufigkeitstabellen bei klassierten Daten • Gr¨ oßenklassierung • Bei stetig skalierten Merkmalen oder generell bei einer gr¨oßeren Anzahl von Beobachtungswerten mit vielen verschiedenen Auspr¨agungen erscheint es h¨aufig sinnvoller, die vorkommenden Werte in verschiedenen Gr¨oßenklassen zusammenzufassen. Angenommen bei einer Erhebung wurde die monatliche Absatzmenge einer bestimmten Br¨ otchensorte in 30 Filialen eines B¨ackereibetriebs erhoben. Die Beobachtungswerte lauten: 37176, 22138, 12941,

29901, 13007, 44981,

15144, 20556, 36180,

20112, 24748, 18428,

25432, 27936, 51525,

18320, 28791, 12601,

32770, 37322, 5588,

38696, 19207, 39070,

17160, 21086, 41004,

8524, 21316, 47688.

Es w¨ urde hier keinen Sinn machen, die H¨ aufigkeiten der einzelnen Auspr¨agungen zu z¨ahlen und tabellarisch wie in Tabelle 3.1.1 zusammenzufassen. Da ein Großteil der Werte lediglich einmal vorkommt, w¨ urde dies zu keiner nennenswerten Komprimierung ¨ der Rohdaten und damit auch kaum zu einer besseren Ubersichtlichkeit f¨ uhren. Stattdessen werden die Werte in Gr¨ oßenklassen zusammengefasst (Tab. 3.1.3). Tabelle 3.1.3: H¨ aufigkeitsverteilung – Absatzmengen von Br¨ otchen (in Tausend) j 1 2 3 4 5 6 Σ

Klasse (cj−1 , cj ] (0,10] (10,20] (20,30] (30,40] (40,50] (50,60]

n ˜j 2 8 10 6 3 1 30

f˜j 0.067 0.267 0.333 0.200 0.100 0.033 1

Im vorliegenden Fall wurden die Zahlen von 10 bis 20, von 20 bis 30, von 30 bis 40, usw. jeweils in einer Klasse zusammengefasst. Die linken Klassengrenzen notieren wir mit cj−1 , die rechten Grenzen mit cj . Demgem¨aß gilt z.B. c0 = 0, c1 = 10, c2 = 20 usw. Die jeweils runden Klammern der linken Grenzen bedeuten, dass die entsprechenden Werte jeweils nicht mehr zu diesen Klassen gez¨ahlt werden (ausschließend). Die jeweils eckigen Klammern der rechten Grenzen bedeuten, dass entsprechende Werte noch zu den Klassen geh¨oren (einschließend). Der Wert 10 z¨ahlt also zur ersten und nicht etwa zur zweiten Klasse. • Absolute und relative Klassenh¨ aufigkeiten • Weiter wird mit ˜ n ˜ j und fj f¨ ur j = 1, . . . , k die absolute bzw. relative Klassenh¨ aufigkeit der j-ten Klasse notiert, wobei k die Anzahl der Klassen ist. Im vorliegenden Beispiel etwa gilt k = 6 sowie z.B. n ˜ 3 = 10 und f˜3 ≈ 0.333.

32

3 Gesamtbeschreibung empirischer Verteilungen

Es fallen genau 10 Werte in die dritte Klasse, was einem relativen Anteil von 1/3 ≈ 0.333 oder einem prozentualen Anteil von 33.3% entspricht. Das Schlangensymbol (auch Tilde genannt) wird verwendet, um die absoluten und relativen Klassenh¨aufigkeiten von den absoluten und relativen H¨ aufigkeiten einzelner Auspr¨agungen (voriger Abschnitt) zu unterscheiden. Die relativen Klassenh¨ aufigkeiten wurden hier jeweils auf drei Nachkommastellen gerundet. Nicht gerundet ergeben diese in der Summe exakt 1. Die Gesamtheit aller absoluten und relativen Klassenh¨aufigkeiten n ˜1, n ˜2, . . . , n ˜ k und f˜1 , f˜2 , . . . , f˜k bezeichnen wir als absolute bzw. relative H¨ aufigkeitsverteilung korrespondierend zur vorgegebenen Klasseneinteilung. Es gilt stets: k X j=1

n ˜ j = n bzw.

k X

f˜j = 1.

j=1

Notation und Bezeichnungen bei klassierten Daten (cj−1 , cj ] cj−1 bzw. cj n ˜j f˜j n ˜1, n ˜2, . . . , n ˜k f˜1 , f˜2 , . . . , f˜k

j-te Gr¨ oßenklasse als Intervall von ausschließlich cj−1 bis einschließlich cj linke bzw. rechte Klassengrenze der j-ten Klasse absolute Klassenh¨ aufigkeit der j-ten Klasse relative Klassenh¨ aufigkeit der j-ten Klasse absolute H¨ aufigkeitsverteilung (klassierter Fall) relative H¨ aufigkeitsverteilung (klassierter Fall)

3.2 Grafische Darstellungsm¨ oglichkeiten Zu Pr¨asentationszwecken und zur schnellen Verarbeitung von Information sind grafische Darstellungen wesentlich geeigneter als Tabellen. So lassen sich die wichtigsten Grundz¨ uge von Verteilungen anhand von Grafiken deutlich schneller erfassen und bewerten. F¨ ur qualitative Merkmale eignen sich Kreis-, S¨ aulen- oder Balkendiagramme, f¨ ur quantitative Merkmale Histogramme, Stamm-Blatt-Diagramme oder Boxplots.

3.2.1 Kreis-, S¨ aulen- und Balkendiagramme • Kreis- und Ringdiagramme • Das Grundkonzept eines Kreisdiagramms (Kuchendiagramms) besteht darin, einen Kreis in verschiedene Sektoren einzuteilen, deren Fl¨achen proportional zu den H¨ aufigkeiten einzelner Kategorien sind. Sofern zu einem Merkmal k verschiedene Auspr¨ agungen (Kategorien) aj ber¨ ucksichtigt werden, gilt die Konstruktionsvorschrift αj = fj × 360◦ f¨ ur j = 1, . . . , k,

3.2 Grafische Darstellungsm¨ oglichkeiten

33

wobei αj der zum j-ten Sektor korrespondierende Innenwinkel und fj die relative H¨ aufigkeit der Auspr¨ agung aj bezeichnet. Die Intention dieser Darstellung liegt vor allem darin, anteilige Verh¨ altnisse schnell ersehen zu k¨onnen. Kreisdiagramme werden klassischerweise h¨ aufig zur Pr¨ asentation von Wahlergebnissen (Abb. 3.2.1, links) oder Haushaltsbudgets (Einkommen oder Ausgaben) verwendet. In der Praxis finden sich zahlreiche Variationen. So verwendet das Statistische Bundesamt in seinem Statistischen Jahrbuch z.B. h¨aufig Ringdiagramme, die man durch Aussparung des inneren Kreisbereiches erh¨ alt. Dies schafft Platz zur Anbringung deklarativer Texte oder Zahlen. In Abbildung 3.2.2 wurde beispielsweise die durchschnittliche H¨ ohe der Konsumausgaben deutscher Privathaushalte, also die Bezugsgr¨oße, eingef¨ ugt. Abb. 3.2.1: Kreis- und S¨ aulendiagramm – Ergebnis der Bundestagswahl 2013 (Zweitstimmen) 50

CDU/CSU

Stimmenanteil in % 41.5

40 41.5% 30

20

8.4

10.9

e

E

tig

N

ns

N

P

LI IE

/C

SP

U D C

KE

0

D

GRÜNE

8.6

4.8

SU

FPD DIE LINKE

10

D

8.6%

FD

4.8%

So

Sonstige

8.4%



10.9%

G

25.7% SPD

25.7

Daten: Der Bundeswahlleiter [2016] • S¨ aulendiagramme • Bei einem S¨ aulendiagramm werden entweder die absoluten oder die relativen H¨ aufigkeiten bzw. prozentualen Anteile gegen einzelne Kategorien in Form von S¨aulen abgetragen. Der Vorteil des S¨aulendiagramms liegt vor allem darin, dass sich die einzelnen H¨ aufigkeiten schneller vergleichen und ordnen lassen als beim ¨ Kreisdiagramm. Daf¨ ur gestalten sich Uberlegungen zu anteiligen Mehrheitsverh¨altnissen schwieriger (Abb. 3.2.1, rechts). S¨ aulendiagramme lassen sich auch f¨ ur klassierte Daten erstellen (Beispiel 4.1.1, Abschnitt 4.1).

• Balkendiagramme • Werden S¨ aulen in horizontaler Richtung abgetragen spricht man von einem Balkendiagramm. Einem Balkendiagramm liegt meist die Intention zugrunde, H¨aufigkeiten der Gr¨ oße nach zu ordnen, um auf diese Weise die Bedeutsamkeit einzelner Kategorien besser ersehen zu k¨ onnen. In Abbildung 3.2.3 wurde links und rechts jeweils die gleiche Skalierung zugrunde gelegt, wie man es an der Rasterung in Abst¨anden von jeweils 25 000 Personen erkennen kann. Dies soll einen optischen Vergleich von Zu- bzw. Auswanderungssalden vereinfachen bzw. erm¨oglichen. W¨ urde man den zu vergleichenden Grafiken unterschiedliche Skalen zugrunde legen, k¨onnte dies zu einem verf¨alschenden Eindruck f¨ uhren bzw. die Interpretation deutlich erschweren.

34

3 Gesamtbeschreibung empirischer Verteilungen Abb. 3.2.2: Ringdiagramm – Konsumausgaben privater Haushalte 2011 in % (nachgestellt) Ergebnisse der Laufenden Wirtschaftsrechnungen (LWR)

Sonstige*

22 34

Bekleidung und Schuhe Freizeit, Unterhaltung und Kultur

5

2 252 EUR

Wohnen, Energie und Wohnungs− instandhaltung

11

14 Nahrungsmittel, Getränke und Tabakwaren

14 Verkehr

*Innenausstattung, Haushaltsgeräte,Gesundheitspflege, Nachrichtenübermittlung, Bildungswesen, u.a.

Daten: Statistisches Bundesamt [2013a, S.167]

3.2.2 Stamm-Blatt-Diagramme Mit dem insbesondere von Tukey [1977] propagierten Stamm-Blatt-Diagramm (engl. Stem-and-Leaf-Plot) erh¨ alt man eine grafische Darstellung u ¨ber die Verteilung der Daten und kann gleichzeitig einzelne Beobachtungswerte weiterhin bis auf eine bestimmte Genauigkeit ablesen. In diesem Sinne handelt es sich um ein semigrafisches Verfahren. In den Abbildungen 3.2.4 und 3.2.5 sind mit der Software R erstellte Stamm-BlattDiagramme zu sehen. Die Daten von Abbildung 3.2.4 entsprechen denen aus Abschnitt 3.1.3 (Absatzmengen von Br¨ otchen). In Abbildung 3.2.5 ist die Verteilung der Arbeitslosenquote in Kreisen und kreisfreien St¨ adten Deutschlands im Jahr 2011 dargestellt. Das Grundkonzept dieses Diagramms besteht darin, jeden einzelnen Beobachtungswert mit 2 Ziffern zu notieren und damit (in der Regel) auch eindeutig zu identifizieren. Eher selten davon abweichende Modifikationen sollen an dieser Stelle nicht diskutiert werden. Die 1. Ziffer wird stets im Stamm“ (hier links der L¨angsstriche) abgelesen ” und die 2. Ziffer als Blatt“ rechts davon. Zu jedem Beobachtungswert geh¨ort genau ” ein Blatt, wobei sich auf der gleichen H¨ ohe befindliche Bl¨atter die 1. Ziffer im Stamm teilen. In Abbildung 3.2.4 stehen in der 1. Zeile genau 2 Beobachtungswerte, in der 2. Zeile stehen 3 Werte, in der 3. Zeile 5 Werte usw. Prinzipiell sind die Werte der Gr¨oße nach aufsteigend geordnet und zwar von oben nach unten und von links nach rechts. Ein am Diagramm angebrachter Kommentar regelt die genaue Leseweise. In Abbildung 3.2.4 geht aus The decimal point is 4 digit(s) to the right of the |“ hervor, ” dass die Werte der 1. Zeile als 6000 und 9000 zu lesen sind. Die 3 Werte der 2. Zeile sind jeweils als 13 000 zu lesen. Die Werte der 3. Zeile sind 15000, 17000, 18000, 18000 und 19000. Die Absatzmengen werden in dieser Darstellung folglich immer nur auf 1000 St¨ uck genau angegeben. Dazu wurden die Originalwerte nach u ¨blichen Regeln zun¨achst gerundet, also z.B.

3.2 Grafische Darstellungsm¨ oglichkeiten

35

Abb. 3.2.3: Top 10-Ziell¨ ander der ausgewanderten Deutschen und Top 10-Herkunftsl¨ ander der zugewanderten Ausl¨ ander im Jahr 2011 (absolute Zahlen) (nachgestellt) Schweiz Vereinigte Staaten Österreich Vereinigtes Königreich

22 540

163 414

Polen

13 053

Rumänien

11 073

Bulgarien

8 385

Ungarn

94 706 51 319 41 136

Polen

7 602

Italien

30 154

Spanien

6 685

Türkei

27 855

Frankreich

6 638

Griechenland

23 779

Türkei

5 285

Vereinigte Staaten

21 312

Niederlande

3 404

Spanien

20 672

Australien

3 345

China

17 650

Daten: Statistisches Bundesamt [2013a, S. 47] 5588 auf 6000, 8524 auf 9000 und 20112 auf 20000. W¨ urde die Lesevorschrift The ” decimal point is 2 digit(s) to the right of the |“ lauten, w¨aren die ersten beiden Zahlen dagegen als 60 und 90 zu lesen. Mit The decimal point is 1 digit(s) to the left of the |“ ” erh¨alt man 0.06 und 0.09. In Abbildung 3.2.5 geht aus The decimal point is at the |“ ” hervor, dass die ersten beiden Werte in der 1. und 2. Zeile als 1.4 bzw. 2.1 zu lesen sind. Außerdem ist zu erkennen, dass die h¨ ochste Arbeitslosigkeit 16.7% betrug (Landkreis Uckermark). Jede Zeile entspricht einer bestimmten Gr¨oßenklasse. So umfasst in Abbildung 3.2.4 die 1. Zeile (Klasse) Absatzmengen im Intervall [5000, 10000), die 2. Zeile solche im Intervall [10000, 15000), usw. Die Klassengrenzen sind hier jeweils links geschlossen (einschließlich) und rechts offen (ausgeschlossen). Damit wird z.B. der Wert 20000 in der 4. Zeile und nicht in der 3. Zeile eingetragen. In Abbildung 3.2.5 lauten die Gr¨oßenklassen [1.0, 2.0), [2.0, 3.0), [3.0, 4.0), usw. Da in einem Stamm-Blatt-Diagramm prinzipiell jeder Wert eingetragen wird, kommt es mit zunehmender Anzahl von Beobachtungswerten zwangsl¨aufig zu Darstellungsproblemen, da beispielsweise nicht mehr alle Bl¨atter in eine Zeile passen. In solchen F¨allen sind alternative Darstellungen wie z.B. das Histogramm (n¨achster Abschnitt) geeigneter.

3.2.3 Histogramme (H¨ aufigkeitsdichten) • Konzept und Beispiel • Das auf Pearson [1895, S.399] zur¨ uckgehende Histogramm ( histogram“) eignet sich zur grafischen Darstellung der Verteilung klassierter ” Daten und ist deshalb die pr¨ aferierte Darstellungsform, falls eine hohe Anzahl von Beobachtungswerten mit vielen verschiedenen Auspr¨agungen vorliegt. Einzelne S¨aulen werden in der Breite der jeweiligen Klassen vertikal abgetragen. Histogramme weisen

36

3 Gesamtbeschreibung empirischer Verteilungen Abb. 3.2.4: Stamm-Blatt Diagramm – Monatliche Absatzmengen von Br¨ otchen

The decimal point is 4 digit(s) to the right of the | 0 1 1 2 2 3 3 4 4 5

| | | | | | | | | |

69 333 57889 01112 5589 03 67799 1 58 2

¨ damit gewisse Ahnlichkeit zu S¨ aulendiagrammen auf, basieren jedoch auf einem anderen Grundkonzept. Der entscheidende Unterschied zum S¨aulendiagramm besteht darin, dass nicht die H¨ ohen der S¨ aulen, sondern deren Fl¨achen die relativen H¨aufigkeiten widergeben. Damit ergibt die Gesamtfl¨ ache eines Histogramms stets 1. Tabelle 3.2.1: Arbeitstabelle zur Erstellung eines Histogramms j 1 2 3 4 5 6 Σ

Klasse (cj−1 , cj ] (0,10] (10,20] (20,30] (30,40] (40,50] (50,60]

dj 10 10 10 10 10 10

n ˜j 2 8 10 6 3 1 30

f˜j 0.067 0.267 0.333 0.200 0.100 0.033 1

f˜j /dj 0.0067 0.0267 0.0333 0.0200 0.0100 0.0033

Als Beispiel seien dazu nochmals die Daten aus Abschnitt 3.1.3 herangezogen (Absatzmengen von Br¨ otchen). Tabelle 3.2.1 zeigt eine zur Erstellung eines Histogramms korrespondierende Arbeitstabelle. Dazu wird Tabelle 3.1.3 lediglich um zwei zus¨atzliche Spalten erweitert. Die Klassenbreite der j-ten Klasse wird mit dj notiert und ist definiert als dj = cj − cj−1 f¨ ur j = 1, . . . , 6. aulen den relativen Klassenh¨aufigkeiten entsprechen sollen, gilt Da die Fl¨achen der S¨ stets Relative Klassenh¨aufigkeit = Klassenbreite × S¨aulenh¨ohe oder S¨aulenh¨ohe = Relative Klassenh¨aufigkeit / Klassenbreite.

3.2 Grafische Darstellungsm¨ oglichkeiten

37

Abb. 3.2.5: Arbeitslosenquote in Kreisen und kreisfreien St¨ adten Deutschlands (2011) The decimal point is at the | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

| | | | | | | | | | | | | | | |

4 1111122334456667777778888888888899999999 0000111112222222223333334555555556666667777778888889999 0000000011111111112222333333344444455555666777778889999999999 000000000111123334444445555556667778888888999999 0000001111222222333344444555556666677888999 0000011122233344455556666777888899999 00001112222244555666 001222233444445566677899 001222333344456666677779 00001255668 00111224457889 0011223677 12358 1 37 ¨ Daten: Statistische Amter des Bundes und der L¨ ander [2014]

Der Wert des Quotienten in der letzten Spalte f˜j /dj heißt H¨ aufigkeitsdichte (der j-ten Klasse) und entspricht der H¨ohe der j-ten S¨aule. Die H¨aufigkeitsdichte gibt Aufschluss dar¨ uber, wie dicht die Werte innerhalb einer Klasse liegen. So betr¨agt beispielsweise die H¨ aufigkeitsdichte in der 3. Klasse 1/30 ≈ 0.0333. Dies bedeutet, dass sich auf jeder (L¨ angen-)Einheit dieser Klasse im Durchschnitt 3.33% aller Werte verteilen. Folglich w¨ urde man z.B. 16.7% (5×1/30 = 0.167) aller Absatzmengen zwischen 20000 und 25000 St¨ uck erwarten. Vergleicht man nun das Histogramm (Abb. 3.2.6) mit dem Stamm-Blatt-Diagramm des vorhergehenden Abschnitts (Abb. 3.2.4), ergeben sich visuell leichte Unterschiede. Insbesondere die H¨ aufung von Mengen zwischen 35000 und 40000 St¨ uck wird durch die unterschiedliche Klasseneinteilung kaschiert. • Problem der Klassenwahl • Generell h¨ angt die Gestalt eines Histogramms nicht nur von der Verteilung der Daten, sondern auch entscheidend von der gew¨ahlten Klasseneinteilung ab, wie die Beispiele in Abbildung 3.2.7 zeigen. Alle 4 Histogramme beruhen auf den gleichen 30 Beobachtungswerten. Die 1. Variante (mit 6 Klassen) ist diejenige, welche von der statistischen Software R automatisch erzeugt wurde (Abb. 3.2.6). Bei allen anderen Varianten wurde die von R vorgenommene Klasseneinteilung manuell ver¨andert. Zwar sind alle 4 Varianten technisch betrachtet korrekt erstellt, jedoch spiegeln sie die wahren Sachverhalte“ nicht gleich gut wider. Die letzte Variante ” mit 2 Klassen weist beispielsweise f¨ ur die 1. Klasse eine H¨aufigkeitsdichte von u ¨ber 2% auf. Dieser Dichtewert ist konstant von 0 bis 30. Faktisch ist es aber so, dass nur 2 Filia-

38

3 Gesamtbeschreibung empirischer Verteilungen Abb. 3.2.6: Histogramm: Absatzmengen 10

0.04 Häufigkeitsdichte

Häufigkeitsdichte

0.04 0.03 0.02 0.01 0.00

0.03 0.02

0.333

0.333/10=0.0333

0.01 0.00

0

10

20

30

40

50

60

0

10

Anzahl in Tausend

20

30

40

50

60

Anzahl in Tausend

len zwischen 0 und 10000 Br¨ otchen, dagegen aber 8 Filialen zwischen 10000 und 20000 Br¨otchen absetzten, anstelle jeweils zu erwartender 5000 St¨ uck. In der dritten Variante weist die zweite Klasse eine h¨ ohere H¨ aufigkeitsdichte auf als die dritte Klasse. Dennoch fallen in die dritte Klasse mehr Werte als in die zweite Klasse wie ein Fl¨achenvergleich unschwer erkennen l¨ asst. Abb. 3.2.7: Histogramme mit unterschiedlicher Klasseneinteilung 0.04

Häufigkeitsdichte

Häufigkeitsdichte

0.04 0.03 0.02 0.01 0.00

0.03 0.02 0.01 0.00

0

10

20

30

40

50

60

0

10

Anzahl in Tausend

30

40

50

60

50

60

0.04

Häufigkeitsdichte

0.04

Häufigkeitsdichte

20

Anzahl in Tausend

0.03 0.02 0.01 0.00

0.03 0.02 0.01 0.00

0

10

20

30

40

Anzahl in Tausend

50

60

0

10

20

30

40

Anzahl in Tausend

• Regeln zur Klassenwahl • Bei der Erstellung eines Histogramms gilt es deshalb einige grunds¨atzliche Regeln zu beachten, die sich auf die Klassierung der Daten beziehen. Hier nur einige sehr elementare Punkte: 1. Nach M¨oglichkeit sollten Klassen ohne Werte ( leere Klassen“) vermieden werden. ”

3.2 Grafische Darstellungsm¨ oglichkeiten

39

2. Die Werte sollten innerhalb der Klassen m¨oglichst gleichm¨aßig verteilt sein. 3. Nach M¨oglichkeit sollten gleich breite Klassen gew¨ahlt werden. Der erste Punkt ist kaum einzuhalten, wenn einzelne Werte weitab vom Rest der Daten liegen (sog. Ausreißer“). Die Beachtung des dritten Punktes f¨ uhrt dazu, dass die H¨ohen ” der S¨aulen proportional zu den relativen Klassenh¨aufigkeiten sind. Dies erleichtert die Interpretation. In solchen F¨ allen wird dann anstelle der H¨aufigkeitsdichte h¨aufig auch die absolute oder relative Klassenh¨ aufigkeit auf der Vertikalachse abgetragen (S¨ aulendiagramm). Die Theorie zur Konstruktion optimaler“ Histogramme wird im Rahmen der ” nichtparametrischen Statistik als Spezialfall einer sog. Dichtesch¨ atzung behandelt (vgl. beispielsweise B¨ uning und Trenkler [1994, Kap. 9]). Die dabei gewonnenen Erkenntnisse zur Auswahl von Klassengrenzen sind in den implementierten Algorithmen statistischer Softwarepakete in der Regel schon ber¨ ucksichtigt. Die automatisch vorgenommenen Klasseneinteilungen sind in den meisten F¨allen deshalb sehr brauchbar ¨ und ersparen eigene Uberlegungen und Vorgaben dazu.

3.2.4 Boxplots • Konzept und Beispiel • Ein Boxplot (Schachteldiagramm) ist eine grafische Darstellungsform, in der Quantile (Abschnitt 4.3.2) eine maßgebliche Rolle spielen. Abbildung 3.2.8 zeigt einen Boxplot f¨ ur die Verteilung des Alters von 87 Frauen bei der Geburt ihres ersten Kindes (Datensatz aus dem R-Packet UsingR). Zum Vergleich wurde ein Histogramm gegen¨ ubergestellt. Es ist zu erkennen, dass der Großteil der 87 Frauen bei der Geburt ihres ersten Kindes etwa zwischen 15 und 35 Jahre alt war. Vereinzelt gab es auch ¨ altere Frauen bis etwa 42 Jahren. Die mittleren 50%“ konzen” trieren sich etwa zwischen 20 und 26 Jahren, wobei der Median (Mittellinie in der Box) etwa bei 23 Jahren liegt. Mithilfe von Abbildung 3.2.9 werden im Folgenden die einzelnen Bestandteile eines Boxplot erkl¨ art. Diese dabei vorgestellte Variante entspricht auch der von der Software R in den Standardeinstellungen (per default“) verwendeten ” Form. Daneben existieren zahlreiche weitere Varianten (vgl. beispielsweise McGill et al. [1978]).

Häufigkeistdichte

Abb. 3.2.8: Boxplot und Histogramm – Alter von 87 Frauen bei der Geburt des ersten Kindes 0.08 0.06 0.04 0.02 0.00 10

15

20

25

30

Alter in Jahren

35

40

45

10

15

20

25

30

35

Alter in Jahren

Daten: R-Packet UsingR“ (Datensatz Baby“) ” ”

40

45

40

3 Gesamtbeschreibung empirischer Verteilungen

Ein Boxplot besteht im Wesentlichen aus einer Box (Schachtel ) und den sog. Whiskers (Barthaare), welche an den beiden Seiten der Box angebracht werden. Ein Boxplot kann vertikal oder horizontal dargestellt werden. Entsprechend befindet sich unterhalb oder neben der Box eine Messskala. Im vorliegenden Fall ist der Boxplot horizontal dargestellt. Die Lage der Box wird im Wesentlichen durch die Lage des 0.25- und des 0.75-Quantils bestimmt. Diese beiden Quantile werden h¨aufig auch als 1. Quartil oder unteres Quartil bzw. 3. Quartil oder oberes Quartil bezeichnet. Die Differenz dieser beiden Quantile dQ = x ˜0.75 − x ˜0.25 heißt Interquartilsabstand . Dieser bestimmt im Wesentlichen die L¨ange der Box. In der von Tukey [1977] origin¨ ar vorgeschlagenen Konstruktionsweise werden anstelle von Quartilen sog. Hinges (Angelpunkte) gew¨ ahlt, wobei zwischen einem unteren Hinge hL (Lower Hinge) und einem oberen Hinge hU (Upper Hinge) unterschieden wird (zur Bedeutung dieser Kennwerte siehe beispielsweise Hartung et al. [2009]). In den meisten F¨allen ergeben sich allenfalls kleine Unterschiede zwischen Quartilen und Hinges. Sofern die in Abschnitt 4.3.2 verwendete Variante zur Bestimmung von Quantilen zugrunde gelegt wird, stimmen die Hinges mit den Quartilen entweder u ¨berein oder sie liegen lediglich eine halbe Beobachtung n¨aher“ am Median als die Quartile. ” Konkret gilt: x ˜0.25 = hL und x ˜0.75 = hU , falls die Anzahl der Beobachtungswerte n gerade ist oder falls (n − 1) durch 4 teilbar ist. Trifft keines der beiden Kriterien zu, gilt: hL = 0.5(x([0.25n]+1) + x([0.25n]+2) ), wobei x ˜0.25 = x([0.25n]+1) bzw. hU = 0.5(x([0.75n]) + x([0.75n]+1) ), wobei x ˜0.75 = x([0.75n]+1) . Die Schreibweise x(i) steht hier f¨ ur den i-ten Wert der nach Gr¨oße geordneten Beobachtungswerte. Die Klammer [. . . ]“ steht f¨ ur die sog. Gauß-Klammer (Abschnitt ” 4.3.2). Die L¨ange der Box entspricht also entweder exakt oder approximativ dem Interquartilsabstand. Folglich liegen innerhalb einer Box“ etwa 50% aller Beobachtungswer” te. Die Breite der Box ist unerheblich und hat keine Bedeutung. Die Box wird an der Stelle des Medians durch eine Linie geteilt. Die L¨angen der beiden Whiskers k¨ onnen unterschiedlich definiert werden. H¨aufig geht der obere Whisker bis zum gr¨ oßten Beobachtungswert, der gerade noch kleiner oder gleich ist als die imagin¨ are Grenze hU + 1.5dQ , welchen wir hier als oberen Zaun bezeichnen. Den korrespondierenden Beobachtungswert nennen wir oberen Anrainer (Heiler und Michels [1994]). Der obere Anrainer liegt also nicht weiter als das 1.5-fache des Interquartilsabstands vom oberen Boxende entfernt. Analog reicht der untere Whisker bis zum kleinsten Wert, der gerade noch gr¨ oßer oder gleich ist als der untere Zaun hL − 1.5dQ . Entsprechender Beobachtungswert heißt unterer Anrainer . Alle Werte, welche außer-

3.2 Grafische Darstellungsm¨ oglichkeiten

41

Abb. 3.2.9: Boxplot – Konstruktionsweise und Bezeichnungen ≈ dQ Oberer Anrainer

Unterer Anrainer

Ausreisser Unterer Whisker

h L ≈ x~0.25

Unterer Zaun 10

Oberer Whisker

x~0.5

h U ≈ x~0.75

20

Oberer Zaun 30

40

Alter in Jahren

halb der imagin¨aren Z¨ aune liegen, werden als einzelne Punkte eingezeichnet. Sie gelten als sog. Ausreißer , welche sich dadurch auszeichnen, dass sie vom Rest der Daten au” ßergew¨ohnlich weit“ entfernt liegen. Dabei kann die tats¨achliche Anzahl von Ausreißern von der Anzahl der im Boxplot zu sehenden Ausreißer abweichen, wenn f¨ ur wiederholende Werte keine neuen Punkte gezeichnet werden. So gab es im vorliegenden Beispiel tats¨achlich 3 Frauen im Alter von 36 Jahren. • Deutung • Wie Stamm-Blatt-Diagramme z¨ahlen auch Boxplots zu den semigrafischen Verfahren. Das Ergebnis ist eine grafische Darstellung aus der gleichzeitig noch einzelne Werte wie Median oder Quartile abgelesen werden k¨onnen. Minimal- und Maximalwert lassen sich entweder u ¨ber die Ausreißer-Punkte (sofern vorhanden) oder u ¨ber die Whisker-Endpunkte bestimmen. Liegt die Medianlinie innerhalb der Box im Zentrum, deutet dies auf eine (zumindest in der Mitte) symmetrische Verteilung hin. Liegt die Medianlinie in der Box eher auf der linken Seite, deutet dies auf eine rechtsschiefe Verteilung hin. Liegt sie eher rechts, k¨ onnen wir von einer linksschiefen Verteilung ausgehen (zum Begriff der Schiefe siehe Abschnitt 4.7). Abb. 3.2.10: Boxplots – Monatsrenditen (in %) von Aktienindizes Jan. 1994–Dez. 2013

EURO STOXX 50 EURO STOXX Nikkei 225 S&P 500

−20

−10

0 %

Daten: Europ¨ aische Zentralbank [2014a]

10

42

3 Gesamtbeschreibung empirischer Verteilungen

• F¨ ur Vergleichszwecke geeignet • Boxplots sind besonders daf¨ ur geeignet, die Verteilung eines metrischen Merkmals f¨ ur unterschiedliche Kategorien zu vergleichen. Abbildung 3.2.10 etwa zeigt die Verteilung der monatlichen Renditen (prozentuale Ver¨anderungen) verschiedener Aktienindizes. Die Daten korrespondieren mit den Zeitreihen von Abbildung 1.3.2 in Abschnitt 1.3.2. Abb. 3.2.11: Histogramme – Monatsrenditen (in %) von Aktienindizes Jan. 1994–Dez. 2013

−30

−20

−10

0

10

20

−30

−20

−20

−10

0 %

Nikkei 225

S&P 500

0.12 0.10 0.08 0.06 0.04 0.02 0.00 −30

0.12 0.10 0.08 0.06 0.04 0.02 0.00

%

Häufigkeitsdichte

Häufigkeitsdichte

EURO STOXX 50 Häufigkeitsdichte

Häufigkeitsdichte

EURO STOXX 0.12 0.10 0.08 0.06 0.04 0.02 0.00

−10

0

10

10

20

10

20

0.12 0.10 0.08 0.06 0.04 0.02 0.00

20

−30

−20

−10

%

0 %

Daten: Europ¨ aische Zentralbank [2014a] Abb. 3.2.12: EURO STOXX sektorspezifische Indizes – Monatsrenditen 1994–2013 30 20 10 %

0 −10 −20

g un

n

rg so

ik

at

io Ve r

as G ek om

m un

rie

nd

en

st du In

Ö lu

Te l

G

es

un

dh

Te c

ei

ts

hn

ol

w es

og

ie

en

en

nz w es

Fi

is le st ie n

D

na

ng tu

gü m su

R oh

Ko n

st

of

te

r

fe

−30

Daten: Europ¨ aische Zentralbank [2014a] Gut zu erkennen ist, dass die Renditen nach oben und unten hin asymmetrisch um den Wert 0 streuen. Im finanz¨ okonometrischen Bereich wird anstelle von Streuung“ ” meist der Begriff Volatilit¨ at verwendet. Demnach weist der S&P 500 Index, zumindest bemessen nach den mittleren 50% der monatlichen Renditen, eine etwas geringere

3.3 Empirische Verteilungsfunktion (EVF)

43

Volatilit¨at auf als die u ¨brigen Indizes. Die Mediane sind bis auf den Nikkei 225 alle deutlich positiv. Also war in diesen F¨ allen mehrheitlich eine positive monatliche Rendite zu verzeichnen. Zum direkten Vergleich wurde mit Abbildung 3.2.11 eine Darstellung mit Histogrammen gegen¨ ubergestellt. Die Renditeverteilungen k¨onnen prinzipiell auch hier gut abgelesen werden, jedoch fallen Vergleiche deutlich schwerer. Aufgrund seiner Kompaktheit ist die Boxplot-Darstellung deshalb klar zu pr¨aferieren. Dieser Vorteil wird umso offensichtlicher je h¨ oher die Anzahl der zu vergleichenden Kategorien ist (Abb. 3.2.12).

3.3 Empirische Verteilungsfunktion (EVF) Die empirische Verteilungsfunktion (EVF ) ordnet jedem vorgegebenen Wert den kumulativen relativen Anteil aller Beobachtungswerte zu, welche diesen Wert gr¨oßenm¨aßig nicht u ¨berschreiten. Bei Vorgabe einer Urliste resultiert daraus eine monoton steigende Treppenfunktion. Bei klassierten Daten wird diese Funktion innerhalb der Klassengrenzen linear approximiert. Daraus resultiert dann eine monoton steigende stetige Funktion.

3.3.1 H¨ aufigkeitsfunktion und EVF bei Urlisten • H¨ aufigkeitsfunktion • Gegeben seien nochmals die Daten aus Abschnitt 3.1.2 (Personenanzahl in Privathaushalten), wobei eine Spalte mit kumulierten Anteilen erg¨anzt wird. Tabelle 3.3.1: H¨ aufigkeitsverteilung f¨ ur Urliste mit kumulierten Anteilen j 1 2 3 4 Σ

aj 1 2 3 4

nj 3 2 2 1 8

fj 0.375 0.250 0.250 0.125 1

Fn (aj ) 0.375 0.625 0.875 1

Die relative H¨ aufigkeitsverteilung kann zun¨achst einmal mithilfe eines S¨aulendiagramms dargestellt werden, welches auch die sog. H¨ aufigkeitsfunktion abbildet. Die H¨ aufigkeitsfunktion fn (x) ordnet jedem beliebigen Wert x die relative H¨aufigkeit seines Auftretens in der Urliste zu. In Abbildung 3.3.1, links, wurde zur Verdeutlichung der Funktionsgraf hervorgehoben (fett schwarz). Demnach springt“ die Funktion an den ” Stellen 1, 2, 3 und 4 jeweils auf die relative H¨ aufigkeit dieser Werte und ist sonst 0. Leere bzw. ausgef¨ ullte Punkte verdeutlichen, wo der Funktionswert entsprechend abzulesen ist. Mathematisch ausgedr¨ uckt heißt das ( fj , x = aj , j = 1, . . . , k, fn (x) = 0, sonst.

44

3 Gesamtbeschreibung empirischer Verteilungen

Beispielsweise gilt: fn (−0.4) = 0, fn (1) = 0.375, fn (3) = 0.250, fn (1.15) = 0, fn (4) = 0.125 u.s.w. • Empirische Verteilungsfunktion • Die empirische Verteilungsfunktion Fn (kurz EVF ) ergibt sich durch kumulatives Aufsummieren der H¨aufigkeitsfunktion: X Fn (x) = fn (aj ). (3.3.1) j:aj ≤x

An einer bestimmten Stelle x entspricht der Funktionswert Fn (x) dem Anteil aller Werte, welche kleiner oder gleich x sind. Dies ist die Summe der relativen H¨aufigkeiten aller Auspr¨agungen, welche kleiner oder gleich x sind. Beispielsweise gilt: Fn (1) = fn (1) = 0.375, Fn (2) = fn (1) + fn (2) = 0.375 + 0.250 = 0.625 und Fn (3) = fn (1) + fn (2) + fn (3) = 0.375 + 0.250 + 0.250 = 0.875, da in 37.5% aller Haushalte h¨ ochstens 1 Person lebt, in 62.5% aller Haushalte h¨ochstens 2 Personen leben und in 87.5% aller Haushalte h¨ochstens 3 Personen leben usw. F¨ ur die resultierende Treppenfunktion (Abb. 3.3.1, rechts) gelten stets folgende Eigenschaften: • der Funktionsgraf ist eine monoton steigende Treppenfunktion, • die Stufenh¨ ohen entsprechen relativen H¨aufigkeiten, • Fn (x) = 0 f¨ ur x kleiner als der kleinste Beobachtungswert, • Fn (x) = 1 f¨ ur x gr¨ oßer oder gleich dem gr¨oßten Beobachtungswert. Abb. 3.3.1: H¨ aufigkeitsfunktion und EVF bei Urliste

f n (x )

0.5

1.0

0.4

0.8

0.3

F n (x )

0.2 0.1

0.6 0.4 0.2

0.0

0.0 0

1

2

3 x

4

5

0

1

2

3

4

5

x

Zum Verst¨andnis der Beziehung von H¨ aufigkeitsfunktion und EVF mag folgende bildliche Vorstellung hilfreich sein: Entlang der x-Achse des S¨aulendiagramms von links nach rechts gehend, werden nacheinander alle relativen H¨aufigkeiten eingesammelt. Bei diesem Vorgang wird kontinuierlich notiert, wie viel an relativer Masse bereits angeh¨auft wurde. An den von 0 verschiedenen Werten der H¨aufigkeitsfunktion springt die EVF

3.3 Empirische Verteilungsfunktion (EVF)

45

stets zur n¨achsten Stufe, wobei die Stufenh¨ ohe“ der relativen H¨aufigkeit des Beob” achtungswerts an der Sprungstelle entspricht. Diese Vorgehensweise entspricht dann mathematisch Gleichung (3.3.1). Damit gilt beispielsweise: Fn (−12.3) = 0 und Fn (0.98) = 0, da in keinem Haushalt h¨ ochstens -12.3 bzw. h¨ ochstens 0.98 Personen leben. Fn (1.99) = fn (1) = 0.375 und Fn (5.565) = fn (1) + fn (2) + fn (3) + fn (4) = 1, da in 37.5% aller Haushalte h¨ ochstens 1.99 Personen bzw. in 100% aller Haushalte h¨ochstens 5.565 Personen leben. • Praktischer Nutzen beschr¨ ankt • Der praktische Nutzen einer EVF ist nicht zuletzt aufgrund der gew¨ ohnungsbed¨ urftigen Lesart eher beschr¨ankt. Von gr¨oßerer Relevanz wird f¨ ur uns die theoretische Verteilungsfunktion einer Zufallsvariable sein, die sp¨ater im Rahmen der Wahrscheinlichkeitsrechnung vorgestellt wird. H¨ aufigkeitsfunktion und EVF bei Urlisten Gegeben seien Beobachtungswerte eines metrischen Merkmals X mit zugeh¨origen Auspr¨agungen a1 , a2 , . . . , ak . Weiter sei f1 , f2 , . . . , fk die zugeh¨orige relative H¨aufigkeitsverteilung von X. Dann ist die (relative) H¨ aufigkeitsfunktion f¨ ur diese Werte gegeben durch ( fj , x = aj , j = 1, . . . , k, fn (x) = 0, sonst. Die empirische Verteilungsfunktion (EVF ) f¨ ur die Urliste lautet X Fn (x) = fn (aj ) f¨ ur x ∈ R. j:aj ≤x

3.3.2 H¨ aufigkeitsdichtefunktion und EVF bei klassierten Daten • H¨ aufigkeitsdichtefunktion • Gegeben seien nochmals die Daten aus Abschnitt 3.1.3 (monatliche Absatzmengen von Br¨ otchen), wobei wiederum eine Spalte mit kumulierten Anteilen erg¨ anzt wird. Die relativen Klassenh¨ aufigkeiten k¨ onnen mithilfe eines Histogramms dargestellt werden, welches auch die sog. H¨ aufigkeitsdichtefunktion abbildet. Diese Funktion ordnet jedem beliebigen Wert x die H¨ aufigkeitsdichte an entsprechender Stelle zu. In Abbildung 3.3.2 links wurde der Funktionsgraf hervorgehoben. Die H¨aufigkeitsdichtefunktion nimmt innerhalb einer Klasse stets den Wert der H¨aufigkeitsdichte innerhalb dieser Klasse an und ist außerhalb aller Klassen 0. Mathematisch l¨asst sich dies ausdr¨ ucken als ( f˜j /dj , x ∈ (cj−1 , cj ], j = 1, 2, . . . , k, f˜n (x) = 0, sonst.

46

3 Gesamtbeschreibung empirischer Verteilungen Tabelle 3.3.2: H¨ aufigkeitsverteilung bei Klassenbildung mit kumulierten Anteilen j 1 2 3 4 5 6 Σ

Klasse (cj−1 , cj ] (0,10] (10,20] (20,30] (30,40] (40,50] (50,60]

10 10 10 10 10 10 10

n ˜j 2 8 10 6 3 1 30

f˜j 0.067 0.267 0.333 0.200 0.100 0.033 1

f˜j /dj 0.0067 0.0267 0.0333 0.0200 0.0100 0.0033

F˜n (cj ) 0.067 0.333 0.667 0.867 0.967 1

• EVF an den Klassengrenzen • Die EVF f¨ ur den klassierten Fall soll wiederum den kumulativen Anteil von Beobachtungswerten bis zu einer bestimmten Stelle abbilden. Sie ergibt sich nun durch kumulatives Integrieren“ der H¨aufigkeitsdichtefunktion: Z x ” ˜ Fn (x) = f˜n (t)dt. (3.3.2) −∞

An einer bestimmten Stelle x entspricht der Funktionswert F˜n (x) der Fl¨ache unterhalb der H¨aufigkeitsdichtefunktion bis zu diesem Wert x. Beispielsweise gilt: F˜n (10) = 2/30 ≈ 0.067. aufigkeitsdichtefunktion bis zum Wert 10 der Fl¨ache der 1. da die Fl¨ache der H¨ Histogramm-S¨aule entspricht. Die Fl¨ ache bis zum Wert 20 betr¨agt entsprechend ˜ ˜ ˜ Fn (20) = Fn (10) + f2 ≈ 0.067 + 0.267 ≈ 0.333. Analog gilt weiter: F˜n (30) = F˜n (20) + f˜3 ≈ 0.333 + 0.333 ≈ 0.667, F˜n (40) = F˜n (30) + f˜4 ≈ 0.667 + 0.200 = 0.867 usw. Die resultierende Funktion ist damit stetig und monoton steigend (Abb. 3.3.2, rechts).

Abb. 3.3.2: H¨ aufigkeitsdichtefunktion und EVF bei klassierten Daten 0.04

1.0 0.8

0.03

~ f n (x ) 0.02

~ F n (x )

0.01

0.6 0.4 0.2

0.00

0.0 −20

0

20

40

x

60

80

−20

0

20

40

x

60

80

3.3 Empirische Verteilungsfunktion (EVF)

47

Auch hier kann wieder eine bildliche Vorstellung helfen: Entlang der x-Achse des Histogramms von links nach rechts gehend, wird die Fl¨ache kontinuierlich aufsummiert und an jeder Stelle wird die insgesamt hinzugewonnene Fl¨ache st¨andig notiert. Diese Vorgehensweise entspricht mathematisch dann Gleichung (3.3.2). An einer Klassengrenze entspricht der Wert der EVF genau der kumulierten Summe der relativen Klassenh¨aufigkeiten bis zu dieser Klassengrenze, d.h. F˜n (cj ) =

j X

f˜i .

(3.3.3)

i=1

F¨ ur Werte kleiner oder gleich der untersten Klassengrenze, also x ≤ c0 , gilt: F˜n (x) = 0, da die Fl¨ache des Histogramms bis zur linken Klassengrenze der 1. Klasse gleich 0 ist. F¨ ur Werte gr¨oßer oder gleich der obersten Klassengrenze, also x ≥ ck , gilt: F˜n (x) = 1, da die Gesamtfl¨ache eines Histogramms stets 1 ist. • Approximation innerhalb der Klassen • Da die H¨aufigkeitsdichtefunktion innerhalb von Klassen konstante Werte aufweist, steigt die EVF innerhalb von Klassen linear an. Genau genommen handelt es sich dabei dann um eine lineare Approximation f¨ ur den kumulierten Anteil von Beobachtungswerten. Allgemein gilt f¨ ur eine beliebige Stelle x innerhalb der j-ten Klasse, also x ∈ (cj−1 , cj ]: f˜j F˜n (x) = F˜n (cj−1 ) + (x − cj−1 ) . (3.3.4) dj Formelausdruck (3.3.4) wird im Folgenden anhand von Abbildung 3.3.3 erkl¨art. Abb. 3.3.3: EVF: Lineare Approximation innerhalb von Klassen 4. Säule Säulenhöhe =

~ fj dj

~ Gesamte Säulenfläche = f j = 0.2 Schattierte Fläche = (x − 30) ×

30

~ fj dj

40 x

Zu sehen ist die 4. S¨ aule des Histogramms aus Abbildung 3.3.2. Zus¨atzlich wurden die in diese Klasse hineinfallenden Beobachtungswerte durch Punkte symbolisiert. Dadurch ist auch zu erkennen, dass sich diese nicht gleichm¨aßig auf das Intervall (30,

48

3 Gesamtbeschreibung empirischer Verteilungen

40] verteilen. Es wird nun eine beliebige Stelle x innerhalb des Intervalls (30, 40] betrachtet. Der Wert der EVF an der Stelle x entspricht grunds¨atzlich der Fl¨ache des Histogramms bis zu dieser Stelle. Dies umfasst schon einmal die Fl¨achen der ersten 3 ¨ S¨aulen, also 0.067 + 0.267 + 0.333 = 0.667. Uberdies gilt es noch die Fl¨ache der 4. S¨aule bis zum Wert x (schattierte Fl¨ ache) mitzuber¨ ucksichtigen. Simple geometrische ¨ Uberlegungen f¨ uhren zum Ergebnis 0.2 F˜n (x) ≈ 0.667 + (x − 30) . 10 F¨allt der Wert x also in die j-te Klasse, so muss zun¨achst die Summe aller relativen Klassenh¨aufigkeiten bis zur vorhergehenden (j − 1)-ten Klasse ermittelt werden. Dazu wird ein verbleibender Teil der j-ten Klasse hinzuaddiert. Daraus ergibt sich Formel (3.3.4). • 1. Ableitung der EVF • Aus Formel (3.3.4) wird auch die Beziehung zwischen EVF und H¨aufigkeitsdichtefunktion ersichtlich. Es gilt n¨amlich: f˜j dF˜n (x) = f¨ ur x ∈ (cj−1 , cj ). (3.3.5) dx dj Die Steigung der EVF entspricht der H¨ aufigkeitsdichte. Dabei ist der Anstieg umso steiler, je dichter die Werte innerhalb einer Klasse liegen. In (3.3.5) wurden die beiden Klassengrenzen bewusst ausgespart, da die EVF an diesen Stellen u. U. nicht differenzierbar ist. Bildlich weist der Funktionsgraph dort potenziell Knickstellen“ auf. ” H¨ aufigkeitsdichtefunktion und EVF bei klassierten Daten Gegeben seien Beobachtungswerte eines metrischen Merkmals X, die klassiert in k Gr¨oßenklassen (cj−1 , cj ], f¨ ur j = 1, . . . , k, vorliegen. Dann ist die H¨ aufigkeitsdichtefunktion f¨ ur diese Werte gegeben durch ( f˜j /dj , x ∈ (cj−1 , cj ], j = 1, 2, . . . , k, f˜n (x) = 0, sonst. Die (approximative) empirische Verteilungsfunktion (EVF ) lautet  x ≤ c0 ,  Z x 0, ˜j f F˜n (x) = f˜n (t) dt = F˜n (cj−1 ) + (x − cj−1 ) d , x ∈ (cj−1 , cj ], j  −∞  1, x > ck .

Kapitel 4: Spezifizierende Beschreibung empirischer Verteilungen Im vorhergehenden Kapitel ging es darum, wie sich Verteilungen von Daten in ihrer Gesamtheit tabellarisch oder grafisch darstellen und vergleichen lassen. Dieses Kapitel befasst sich nun mit rechnerischen Methoden, die sich auf spezifische Aspekte von Verteilungen beschr¨ anken. In Abschnitt 4.1 werden dazu zun¨achst einige grundlegende Verteilungseigenschaften vorgestellt, die hierbei von Interesse sein k¨onnen. In den Abschnitten 4.2 bis 4.8 folgt dann die sukzessive Einf¨ uhrung empirischer Kennwerte, mit denen sich diese Eigenschaften quantifizieren und vergleichen lassen. Betrachtungen u ¨ber wichtige theoretische Eigenschaften empirischer Kennwerte in Abschnitt 4.9 bilden den Abschluss. In diesem gesamten Kapitel geht es um die Analyse der Verteilung eines einzelnen Merkmals (univariate Deskription). Untersuchungen in Bezug auf die gemeinsame Verteilung mehrerer Merkmale und auf m¨ ogliche Zusammenh¨ange zwischen diesen (multivariate Deskription) folgen sp¨ ater in Kapitel 5. Außerdem setzen fast alle hier vorgestellten Kennwerte jeweils metrische Skalierung voraus.

4.1 Spezifika empirischer Verteilungen Zu den grundlegenden Aspekten, die bei der Charakterisierung empirischer Verteilungen regelm¨aßig von Interesse sind, z¨ ahlen Lage, Streuung und Schiefe. Mit der Lage ist das allgemeine Niveau der Daten gemeint, w¨ahrend die Streuung deren Variationsbreite (Verschiedenheit) umfasst. Schiefe beinhaltet die Art und Weise, wie eine Verteilung von der Symmetrie abweicht. Die Beschreibung einer Verteilung anhand dieser drei Aspekte ist h¨ aufig nur dann sinnvoll, falls die Verteilung unimodal ist. • Unimodalit¨ at und Multimodalit¨ at • Als Modus bezeichnet man den am h¨aufigsten vorkommenden Beobachtungswert. Eine H¨aufigkeitsverteilung heißt unimodal (eingipflig), wenn ihre grafische Veranschaulichung, z.B. in Form eines Stabdiagramms, vgl. Abbildung 4.1.1, nur eine deutlich ausgepr¨ agte Maximumstelle aufweist. Lassen sich zwei bzw. mehr als zwei ausgepr¨ agte Maximumstellen finden, spricht man von bimodalen (zweigipfligen) bzw. multimodalen (mehrgipfligen) Verteilungen. Offenbar l¨asst diese Zuordnung einen gewissen Interpretationsspielraum. Die absoluten H¨aufigkeitsverteilungen (i), (ii) und (iii) in Abbildung 4.1.1 sind beispielsweise unimodal (eingipflig). In (iv) ist eine bimodale (zweigipflige) Verteilung zu sehen ist. Multimodale (mehrgipflige) Verteilungen sind meist ein Indiz daf¨ ur, dass sich eine Grundgesamtheit in verschiedene Teilgesamtheiten aufteilen l¨ asst, welche hinsichtlich des interessierenden Merkmals strukturelle Unterschiede aufweisen. Werden beispielsweise K¨orpergr¨oßen

50

4 Spezifizierende Beschreibung empirischer Verteilungen

zuf¨allig ausgew¨ahlter Personen erfasst, so ließe sich etwaige Bimodalit¨at m¨oglicherweise dadurch begr¨ unden, dass die Gruppe der erfassten Frauen im Durchschnitt deutlich kleiner ist als die der M¨ anner, was sich erkennbar durch zwei H¨aufungspunkte ¨außert. In der Praxis ist die Ursache der Multimodalit¨at deshalb eingehend zu pr¨ ufen. • Symmetrie und Schiefe • Verteilungen k¨onnen symmetrisch oder schief sein. Die Verteilung in (i) ist perfekt symmetrisch, w¨ahrend (ii) und (iii) schiefe Verteilungen zeigen. Die Verteilung in (ii) wird als linksschief ( links wenig, rechts viel“), die Ver” teilung in (iii) als rechtsschief ( links viel, rechts wenig“) bezeichnet. Die Verteilung ” in (iv) k¨onnte man in gewisser Weise auch als rechtsschief auffassen. Jedoch erscheint dies vor dem Hintergrund der deutlich ausgepr¨agten Bimodalit¨at keine ausreichende Beschreibung. Perfekte Symmetrie kommt in der Praxis nur selten vor. Die meisten empirischen Verteilungen sind mehr oder weniger asymmetrisch. Bei den Renditeverteilungen in Abschnitt 3.2.4 ist beispielsweise nur ein geringer Grad an Schiefe feststellbar, wobei die Richtung der Schiefe teils uneindeutig ist. In Beispiel 4.1.1 finden sich empirische Beispiele mit stark ausgepr¨ agter Schiefe. Abb. 4.1.1: Verteilungseigenschaften – Stilisierte Beispiele (i) Abs. Häufigkeit von x

6 4 2 0

10 8 6 4 2 0

8

10

12

0

2

4

6 x

(iii)

(iv)

5

x

Abs. Häufigkeit von x

12

6

10 8 6 4 2

10

12

8

10

12

0

0

8

4

4

3

2

2

0

Abs. Häufigkeit von x

(ii)

12

1

Abs. Häufigkeit von x

8

0

2

4

6 x

8

10

12

0

2

4

6 x

• Lage und Streuung • Weitere wichtige Gesichtspunkte sind Lage und Streuung der Werte. Um welchen Wert konzentriert sich die Verteilung haupts¨achlich und wie stark variieren die Werte (darum herum)? Als Kennwert der Lage wird h¨aufig der Mittelwert genommen, dessen Lage in allen 4 Diagrammen mit einem schwarzen Punkt gekennzeichnet wurde. Bei einem Vergleich von (ii) und (iii) wird schnell ersichtlich, dass die durchschnittliche Lage der Werte in (ii) deutlich gr¨oßer ist als in (iii). Die Werte in (iv) streuen st¨ arker als in (i). Dies wird bereits aus der Spannweite, also der Differenz zwischen gr¨ oßtem und kleinstem Wert ersichtlich. Bei einem Vergleich von (ii) und (iii) wird jedoch auch deutlich, dass die Spannweite zur Beschreibung des

4.1 Spezifika empirischer Verteilungen

51

Streuungsverhaltens nur von beschr¨ ankter Aussagekraft ist. Sie betr¨agt 9 in (ii) und 8 in (iii). Damit ist sie in (iii) lediglich um 1 geringer als in (ii), obwohl das Gros der Werte eigentlich nur zwischen 1 und 4 liegt. Beispiel 4.1.1: Schiefe und Multimodalit¨ at Abbildung 4.1.2 zeigt links die l¨ anderspezifische Verteilung des Bruttoinlandsprodukts pro Kopf von 200 L¨ andern und Gebieten der Erde im Jahr 2011. Zu sehen ist eine stark ausgepr¨agte Rechtsschiefe. Von den betrachteten L¨andern erzielten 94 L¨ander ein Pro-Kopf-Einkommen von weniger als 5000 Dollar. In 27 L¨andern wurde ein Einkommen von mehr als 40000 Dollar erzielt. Deutschland rangierte mit knapp 44000 Dollar zu den oberen 10 Prozent aller L¨ ander. Rechts zeigt Abbildung 4.1.2 f¨ ur die gleichen L¨ander die Verteilung der gesch¨ atzten Lebenserwartung von Frauen bei der Geburt. Zu sehen ist nun eine deutlich ausgepr¨ agte Linksschiefe. Deutschland rangiert hier mit 83 Jahren auf Platz 22. Ein m¨ oglicher Zusammenhang zwischen Einkommen und Lebenserwartung liegt auf der Hand. Das Beispiel wird deshalb im Kontext der Zusammenhangsanalyse in Abschnitt 5.2 erneut aufgegriffen werden.

100

100

80

80

Abs. Häufigkeit

Abs. Häufigkeit

Abb. 4.1.2: Weltweites Pro-Kopf-BIP und weltweite Lebenserwartung

60 40 20 0

60 40 20 0

0

20

40

60

80

100

120

40

50

1000 US$

60

70

80

90

100

Jahre

Daten: United Nations Statistics Division [2014] Abb. 4.1.3: Weltweiter Anteil der unter 15-J¨ ahrigen an der Gesamtbev¨ olkerung

Abs. Häufigkeit

40 30 20 10 0 0

10

20

30

40

50

60

%

Daten: United Nations Statistics Division [2014] Abbildung 4.1.3 zeigt schließlich die Verteilung der Quote der unter 15-J¨ahrigen basierend auf dem Jahr 2012. Die Beschreibung einer Rechtsschiefe mag hier teils zwar zutreffend erscheinen, jedoch f¨ allt das Vorliegen mehrerer H¨aufungspunkte deutlich

52

4 Spezifizierende Beschreibung empirischer Verteilungen

ins Auge. Diese l¨ asst auf eine heterogene Zusammensetzung unterschiedlicher Gruppen von L¨andern schließen. Aus der geografischen Darstellung in Abbildung 4.1.4 ist ersichtlich, dass sich die L¨ ander mit einem Anteil von unter 20% haupts¨achlich aus europ¨aischen L¨ andern einschließlich Russland, China, Australien und Kanada zusammensetzen. Die L¨ ander mit den h¨ ochsten Anteilen (mehr als 34%) finden sich vorwiegend auf dem afrikanischen Kontinent. Dazwischen (20–34%) liegen die meisten L¨ander Lateinamerikas einschließlich USA, der arabischen Welt, sowie S¨ ud- und S¨ udostasiens.

Abb. 4.1.4: Weltkarte: Anteil der unter 15-J¨ ahrigen im Jahr 2012

34% nicht verfügbar

Daten: United Nations Statistics Division [2014]

4.2 Lagekennwerte Mit einem Lagekennwert soll das allgemeine Niveau aller Beobachtungswerte durch einen einzelnen repr¨ asentativen Wert zusammengefasst werden. Das arithmetische Mittel besitzt als durchschnittlicher Wert“ die physikalisch interpretierbare Schwer” punkteigenschaft. Der Median teilt die geordneten Werte in eine gr¨oßere und eine kleinere H¨alfte und reflektiert damit Mehrheitsverh¨altnisse. Der Modalwert ist der am h¨aufigsten vorkommende Wert. Bei schiefen Verteilungen unterscheiden sich die 3 Kennwerte mehr oder weniger stark. Die Lageregeln setzen die gr¨oßenm¨aßige Reihenfolge der 3 Kennwerte in Bezug zur Schiefe.

4.2.1 Arithmetisches Mittel • Definition und Berechnung • Das arithmetische Mittel ist der bedeutendste Lagekennwert in der Statistik. In der Alltagssprache wird das arithmetische Mittel h¨aufig als Mittelwert“ oder Durchschnittswert“ bezeichnet. Mit x ¯ notiert, ist es f¨ ur n ” ”

4.2 Lagekennwerte

53

metrisch skalierte Beobachtungswerte x1 , x2 , . . . , xn definiert als n 1X x ¯= xi . n i=1 Die Summe aller Werte wird durch die Anzahl der Werte dividiert. Liegen beispielsweise die Beobachtungswerte 0, 1, 5, 6, 3, 0 und −1 vor, so ergibt sich als arithmetisches Mittel 2. Bei Vorgabe absoluter oder relativer H¨aufigkeiten einzelner Auspr¨agungen aj f¨ ur j = 1, . . . , k (Abschnitt 3.1.1), lautet die Berechnungsformel entsprechend k

k

X 1X x ¯= aj nj = aj fj . n j=1 j=1 Weiter gilt: n¯ x=

n X

xi .

(4.2.1)

i=1

Wird das arithmetische Mittel mit n multipliziert, erh¨alt man die Summe aller Werte. Diese wird auch als Merkmalssumme bezeichnet. • Interpretation • Gleichung (4.2.1) l¨ asst sich dahingehend interpretieren, dass das arithmetische Mittel jener Wert ist, mit der sich die Merkmalssumme auf alle n Merkmalstr¨ager gleichm¨ aßig aufteilen l¨ asst. Alternativ wird damit aber auch derjenige Wert charakterisiert, zudem die Beobachtungswerte eine ausgeglichene Abweichungsbilanz aufweisen. Das L¨osen der Gleichung n 1X (xi − c) = 0 n i=1 nach c f¨ uhrt zum eindeutigen Ergebnis: c = x ¯. Es gilt also stets: n X 1 (xi − x ¯) = 0. n i=1

(4.2.2)

Abb. 4.2.1: Arithmetisches Mittel als physikalischer Schwerpunkt Gleichgewicht

−2

−1

0

1

2

3

Ungleichgewicht

4

5

6

−2

−1

0

1

2

3

4

5

6

Diese Ausgleichseigenschaft“ l¨ asst sich auch im Sinne eines physikalischen Schwer” punkts deuten, wenn man folgende Vorstellung heranzieht: Auf einer imagin¨aren schwerelosen Zahlenachse werden gleichartige Gewichte an den Positionen der Beobachtungswerte angebracht. Ein unter der Achse befindlicher Schieber wird dann solange versetzt

54

4 Spezifizierende Beschreibung empirischer Verteilungen

bis sich das Konstrukt im Gleichgewicht befindet. W¨ urde der Schieber weiter nach rechts oder links versetzt, k¨ ame das Konstrukt aus dem Gleichgewicht und die Achse w¨ urde samt Gewichten nach links bzw. rechts abkippen. Im vorliegenden Fall ist der Mittelwert der Beobachtungen 2, die Abweichungen von 2 lauten −3, −2, −2, −1, 1, 3, 4 und ergeben in der Summe 0. • Berechnung bei klassierten Daten • Im Falle klassierter Daten kann das arithmetische Mittel lediglich approximativ berechnet werden, falls weder Urliste noch Klassenmittelwerte vorliegen. Unter einem Klassenmittelwert ist das arithmetische Mittel aller in eine Gr¨oßenklasse hineinfallenden Werte zu verstehen. Sofern solche verf¨ ugbar w¨aren, k¨onnte das arithmetische Mittel u ur gruppierte Daten (Abschnitt ¨ber die Formel f¨ 4.3.1) exakt bestimmt werden. Ansonsten besteht der N¨aherungsansatz darin, anstelle der Klassenmittelwerte die Klassenmitten zu verwenden. Die Klassenmitte mj der Gr¨oßenklasse (cj−1 , cj ] ist der in der Mitte des Intervalls liegende Wert. Er ergibt sich als Mittelwert der Klassengrenzen, also mj = 0.5(cj−1 + cj ). Das Produkt mj n ˜ j stimmt ungef¨ ahr mit der Merkmalssumme der j-ten Gr¨oßenklasse u ¨berein. Die Summe k X mj n ˜j j=1

ist wiederum eine gute N¨ aherung f¨ ur die Merkmalssumme aller Werte. Auf diese Weise erh¨alt man als approximative Berechnungsformel f¨ ur das arithmetische Mittel k

x ¯≈

k

X 1X mj n ˜j = mj f˜j . n j=1 j=1

(4.2.3)

Es wurde an dieser Stelle das Symbol ≈“ (ungef¨ahr gleich) gew¨ahlt, um die n¨ahe” rungsweise Berechnung zu verdeutlichen. Die Abweichungen der Klassenmitten von den tats¨achlichen Klassenmittelwerten sind umso geringer, je gleichm¨aßiger die Werte innerhalb einer Klasse verteilt sind. Wir betrachten als Berechnungsbeispiel nochmals die Daten aus Abschnitt 3.1.3 (Absatzmengen von Br¨ otchen). Tabelle 4.2.1: H¨ aufigkeitsverteilung mit Klassenmitten j 1 2 3 4 5 6 Σ

Klasse (cj−1 , cj ] (0,10] (10,20] (20,30] (30,40] (40,50] (50,60]

n ˜j 2 8 10 6 3 1 30

f˜j 0.067 0.267 0.333 0.200 0.100 0.033 1

mj 5 15 25 35 45 55

4.2 Lagekennwerte

55

Die n¨aherungsweise Berechnung des arithmetischen Mittels ergibt k

x ¯≈

1X 1 mj n ˜j = (5 · 2 + 15 · 8 + 25 · 10 + 35 · 6 + 45 · 3 + 55 · 1) n j=1 30

= 26. Die durchschnittliche Absatzmenge sollte demgem¨aß etwa 26000 betragen. Die exakte Berechnung anhand der Rohdaten (Abschnitt 3.1.2) ist eine St¨ uckzahl von durchschnittlich 26311.6. Arithmetisches Mittel F¨ ur metrische Beobachtungswerte x1 , . . . , xn berechnet sich das arithmetische Mittel als n 1X x ¯= xi . n i=1 Unter Vorgabe absoluter oder relativen H¨ aufigkeiten aller vorkommenden Auspr¨agungen aj , f¨ ur j = 1, . . . , k, gilt entsprechend k

x ¯=

k

X 1X aj fj . aj nj = n j=1 j=1

Liegen die Werte in k Gr¨ oßenklassen mit Klassenmitten mj vor, gilt unter Vorgabe absoluter oder relativer Klassenh¨ aufigkeiten n¨aherungsweise k

k

X 1X x ¯≈ mj n ˜j = mj f˜j . n j=1 j=1 • Kein robuster Kennwert • Die Schwerpunkteigenschaft des arithmetischen Mittels kann zu unerw¨ unschten Effekten f¨ uhren, wenn vereinzelte Werte relativ stark nach oben oder unten hin abweichen. Aufgrund der damit einsetzenden Hebelwirkung“, wird ” der physikalische Schwerpunkt deutlich verlagert. Das arithmetische Mittel passt sich deshalb unverh¨altnism¨ aßig stark in Richtung dieser Ausreißer an und erweist sich gegen¨ uber solchen Abweichungen als nicht robust (Abschnitt 4.9.4). In diesem Zusammenhang mag beispielsweise die Tatsache bekannt sein, dass l¨anderspezifische Durchschnittseinkommen h¨ aufig u ¨berraschend hoch ausfallen, auch wenn ein großer Teil der Bev¨olkerung in bescheidenen, wenn nicht sogar armen Verh¨altnissen lebt. Dies l¨asst sich auf eine mehr oder weniger stark ausgepr¨ agte Ungleichverteilung aller Einkommen zur¨ uckzuf¨ uhren. Selbst falls also nur eine kleine Minderheit der Bev¨olkerung u ¨ber sehr hohe Einkommen verf¨ ugt, wird dies das Durchschnittseinkommen nach oben hin verzerren. Durchschnittsbetrachtungen sind deshalb von Mehrheitsbetrachtungen deutlich zu unterscheiden. F¨ ur letztere ist der Median als Lagekennwert deutlich geeigneter (n¨ achster Abschnitt).

56

4 Spezifizierende Beschreibung empirischer Verteilungen

4.2.2 Median • Definition und Interpretation • Die Bestimmung des physikalischen Schwerpunkts der Werte 0, 1, 5, 6, 3, 0 und −1 f¨ uhrte mit dem arithmetischen Mittel zum Wert 2. Das Konzept des Medians besteht darin, das Zentrum“ der gr¨oßenm¨aßig geordne” ten Werte auszuw¨ ahlen, weshalb der Median h¨aufig auch als Zentralwert bezeichnet wird. Zu seiner Bestimmung m¨ ussen die Werte zun¨achst der Gr¨oße nach geordnet werden. Dies ergibt hier: −1, 0, 0, 1, 3, 5, 6. Im Zentrum dieser Reihe liegt nun die Zahl 1. Bei einer geraden Anzahl gibt es jedoch kein solches Zentrum wie man anhand der folgenden 6 Werte erkennen kann: −1, 0, 0, 1, 3, 5. Eine M¨oglichkeit besteht in diesem Fall darin, den Mittelwert der beiden im Zentrum gelegenen Werte als Median zu deklarieren. Im Beispiel ergibt dies dann 0.5. Der Median teilt im Wesentlichen die geordneten Werte in zwei H¨alften auf, von denen die eine H¨ alfte gr¨ oßer (oder gleich) und die andere H¨alfte kleiner (oder gleich) dem Median ist. Der Median reflektiert damit Mehrheitsverh¨altnisse. Ist er gr¨oßer oder kleiner als ein bestimmter Wert, so trifft dies notwendigerweise auch auf die Mehrheit aller Werte zu. Im Gegensatz zum arithmetischen Mittel ist er robust gegen¨ uber Ausreißern (Abschnitt 4.9.4). Aufgrund dieser Eigenschaften wird er dem arithmetischen Mittel als Lagekennwert in bestimmten Situationen vorgezogen. • Berechnung bei Urlisten • Um die formelm¨aßige Berechnung des Medians erfassen zu k¨onnen, wird eine Notation f¨ ur geordnete Werte ben¨otigt. Bilden 0, 1, 5, 6, 3, 0 und −1 die Urliste bez¨ uglich eines Merkmals X, so l¨asst sich zun¨achst festhalten: x1 = 0, x2 = 1, x3 = 5, x4 = 6, x5 = 3, x6 = 0, x7 = −1. Die geordneten Werte −1, 0, 0, 1, 3, 5 und 6 werden unter Verwendung runder Klammern dann wie folgt notiert: x(1) = −1, x(2) = 0, x(3) = 0, x(4) = 1, x(5) = 3, x(6) = 5, x(7) = 6. Bei n vorliegenden Werten gilt dann allgemein: x(1) ≤ x(2) ≤ · · · ≤ x(n) . Dabei bezeichnet x(1) den kleinsten Wert, auch Minimum genannt, und x(n) den gr¨oßten Wert, das Maximum. Wohlgemerkt gilt im Allgemeinen nicht: x(i) = xi . Im vorliegenden Fall w¨ are z.B. x1 = 0, hingegen x(1) = −1. Stellenweise k¨onnen geordnete Werte auch identisch sein wie es im vorliegenden Fall mit x(2) = x(3) = 0 der Fall ist. Bei einer ungeraden Anzahl von Beobachtungswerten ist der (in diesem Lehrbuch) mit x ˜0.5 notierte Median dann definiert als x ˜0.5 = x( n+1 ) . 2

Damit erh¨alt man im vorliegenden Beispiel mit n = 7 den Median als vierten Wert der geordneten Reihe, da x ˜0.5 = x( 7+1 ) = x(4) = 1. 2

4.2 Lagekennwerte

57

F¨ ur gerades n gilt dagegen:  1 x ˜0.5 = x(n/2) + x(n/2+1) . 2 Bei n = 6 vorliegenden Werten resultiert der Median also aus Mittelung des dritten und vierten Wertes der geordneten Reihe. Die hier vorgestellte Bestimmungsweise entspricht derjenigen von Gustav Theodor Fechner [1878], der den Median ( Centralwerth“) als empirischen Kennwert explizit ” einf¨ uhrte, auch wenn dieser schon fr¨ uher implizit verwendet wurde (Abschnitt 5.2.3). • Berechnung bei klassierten Daten • Liegen die Beobachtungswerte lediglich klassiert vor, so kann wie auch beim arithmetischen Mittel der Median nur approximativ bestimmt werden. Zur Behandlung dieses Falls betrachten wir nochmals die Daten aus Abschnitt 3.1.3 (Absatzmengen von Br¨ otchen), die exemplarisch schon bei der Behandlung des Histogramms bzw. der empirischen Verteilungsfunktion in Abschnitt 3.2.3 bzw. 3.3.2 verwendet wurden. Tabelle 4.2.2 stimmt mit Tabelle 3.3.2 (Abschnitt 3.3.2) weitgehend u ¨berein. Tabelle 4.2.2: Berechnung des Medians bei klassierten Daten j 1 2 3 4 5 6 Σ

Klasse (cj−1 , cj ] (0,10] (10,20] (20,30] (30,40] (40,50] (50,60]

10 10 10 10 10 10 10

f˜j 0.067 0.267 0.333 0.200 0.100 0.033 1

f˜j /dj 0.0067 0.0267 0.0333 0.0200 0.0100 0.0033

F˜n (cj ) 0.067 0.333 0.667 0.867 0.967 1

Grunds¨atzlich geht es darum, approximativ die Lage desjenigen Wertes zu bestimmen, der die vorliegenden Beobachtungen in eine gr¨oßere und eine kleinere H¨alfte teilt. An dieser Stelle wird das Histogramm in zwei fl¨achenm¨aßig gleich große H¨alften geteilt. Anhand der relativen Klassenh¨ aufigkeiten ist klar, dass der Median in die 3. Klasse hineinf¨allt. Diese Klasse wird auch als Einfallsklasse bezeichnet. Ausgehend von der linken Klassengrenze der Einfallsklasse, hier also dem Wert 20, muss dann noch ein zu bestimmender Betrag hinzuaddiert werden, sodass die schattierte Fl¨ache (Abb. 4.2.2) insgesamt 0.5 betr¨ agt. Da die ersten beiden S¨aulen im vorliegenden Fall insgesamt schon eine Fl¨ ache von 0.067 + 0.267 ≈ 0.333 aufweisen, besitzt der schattierte Teil der 3. S¨ aule noch eine Fl¨ ache von 0.5 − 0.333 = 0.167. Folglich muss bei einer H¨aufigkeitsdichte von 0.0333 in der 3. Klasse (S¨aulenh¨ohe) die Breite des betreffenden Fl¨achenst¨ ucks 0.167/0.0333 ≈ 5.02 betragen. Damit ist der (approximative) Median gleich 20 + 5.02 = 25.02. Allgemein gilt mit der j-ten Klasse als Einfallsklasse die Berechnungsformel: (0.5 − F˜n (cj−1 )) . x ˜0.5 = cj−1 + f˜j /dj

58

4 Spezifizierende Beschreibung empirischer Verteilungen Abb. 4.2.2: Berechnung des Medians und Bestimmung aus der EVF 0.04

1.0

0.5 − 0.333 = 0.167

0.8

0.03 20 + ? 0.167

~ f n (x ) 0.02

~ F n (x )

0.333/10=0.0333

0.01 0.00

0.2

0.067 0.267 0

10

20

0.6 0.5 0.4

x~0.5

0.0 30

40

50

60

−20

0

x

25.02 20 40

60

80

x

Im vorliegenden Fall erh¨ alt man f¨ ur j = 3: ˜ cj−1 = c2 = 20, Fn (cj−1 ) = F˜n (20) = 0.333, f˜j /dj = 0.0333 und damit insgesamt 0.5 − 0.333 ≈ 25.02. 0.0333 F¨ ur die empirische Verteilungsfunktion gilt dann stets: F˜n (˜ x0.5 ) = 0.5. x ˜0.5 ≈ 20 +

(4.2.4)

Da die EVF den kumulativen Anteil aller Werte bis zu einer bestimmten Stelle angibt, muss sie an der Stelle des Medians gleich 0.5 sein. Insofern l¨asst sich der Median auch durch R¨ uckw¨ artslesen“ der EVF bestimmen. Dies setzt allerdings eine gewisse ” Monotonie der EVF voraus. So sollte die EVF auf H¨ohe 0.5“ nicht gerade horizontal ” verlaufen. Geordnete Werte, Minimum, Maximum und Median Gegeben seien metrische Beobachtungswerte x1 , . . . , xn . Die geordneten Werte werden mit x(1) , x(2) , . . . , x(n) notiert. Es gilt: x(1) ≤ x(2) ≤ · · · ≤ · · · ≤ x(n) . Dabei bezeichnet x(1) das Minimum (den kleinsten Wert) und x(n) das Maximum (den gr¨oßten Wert). Der Median ist definiert als  x n+1  , f¨ ur n ungerade, 2  x ˜0.5 =  1 x(n/2) + x(n/2+1) , f¨ ur n gerade. 2 Liegen die Werte klassiert in k Gr¨ oßenklassen (c0 , c1 ], (c1 , c2 ], . . . , (ck−1 , ck ] vor, wird der Median n¨aherungsweise bestimmt u ¨ber ˜ (0.5 − Fn (cj−1 )) x ˜0.5 = cj−1 + , f˜j /dj falls er in die j-te Klasse hineinf¨ allt.

4.2 Lagekennwerte

59

4.2.3 Modalwert Der Lagekennwert, der auf dem wohl einfachsten Grundkonzept beruht, ist der Modalwert, kurz auch nur Modus genannt. Er ist der am h¨aufigsten vorkommende Wert. F¨ ur gegebene Werte 0, 1, 2, 3, 3, 3, 4, 4, 5 und 8 w¨are der Modus beispielsweise gleich 3. F¨ ur gegebene Werte 0, 1, 1, 2, 2 und 3 erg¨ abe sich bereits ein Eindeutigkeitsproblem, da die 1 und die 2 jeweils gleich h¨ aufig und auch am h¨aufigsten vorkommen. In solchen F¨allen kann man dann beispielsweise eine Menge mit mehreren Modalwerten angeben. Bei klassierten Daten ist es h¨ aufig u ¨blich als Modalwert die Klassenmitte der Klasse mit der h¨ochsten H¨ aufigkeitsdichte zu definieren. Dies begr¨ undet sich darin, dass in dieser Klasse die Werte am dichtesten liegen und folglich innerhalb dieser Klasse die gr¨ oßte H¨aufung gleicher oder ¨ ahnlicher Werte vorliegt. Im Beispiel des vorhergehenden Abschnitts besitzt die 3. Klasse mit dem Wert 0.0333 die h¨ochste H¨aufigkeitsdichte. Damit w¨are der Modalwert gleich 25. Im Falle eines Eindeutigkeitsproblems ließe sich wiederum die Konvention treffen, eine Menge mit mehreren Modalwerten anzugeben. So sehr seine interpretatorische Tiefe beschr¨ankt sein mag, besitzt der Modalwert immerhin den Vorteil, dass er auch bei qualitativen Merkmalen bestimmt werden kann. Modalwert Der Modalwert oder Modus, notiert mit xmod , ist der am h¨aufigsten vorkommende Wert einer Urliste. Im Falle klassierter Daten l¨ asst er sich als Klassenmitte der Klasse mit der h¨ochsten H¨ aufigkeitsdichte definieren.

4.2.4 Fechner’sche Lageregeln Die sog. Fechner’sche Lageregeln geben an, in welchem gr¨oßenm¨aßigen Verh¨altnis arithmetisches Mittel, Median und Modalwert zueinander stehen. Entscheidend h¨angt dies von der Art der Schiefe der Verteilung ab wie folgende Schaubilder illustrieren. Fechner [1878] stellte diese Gesetzm¨ aßigkeiten bei seiner Einf¨ uhrung des Medians“ als Alter” native zum arithmetischen Mittel fest. Abb. 4.2.3: Lageregeln: Arithmetisches Mittel, Median und Modalwert Häufigkeitsdichte 0.4

Häufigkeitsdichte

Häufigkeitsdichte

0.4

0.4

0.3

0.3

0.2

0.2

0.1

0.1

0.1

0.0

0.0

Arithmetisches Mittel

0.3

Median

0.2

Modalwert

0

1

2

3

4

5

6

0

1

2

3

4

5

6

0.0

0

1

2

3

4

5

6

60

4 Spezifizierende Beschreibung empirischer Verteilungen

Bei linksschiefen Verteilungen ist das arithmetische Mittel typischerweise kleiner als der Median, der wiederum kleiner ist als der Modalwert. Bei rechtsschiefen Verteilungen ist diese Reihenfolge genau umgekehrt. Bei einer symmetrischen Verteilung stimmen die 3 Kennwerte dann mehr oder weniger u ¨berein. Insbesondere bei schiefen Verteilungen erscheint also eine differenzierte Beschreibung mit unterschiedlichen Kennwerten interessant, da es hier, je nach Grad der Schiefe, zu mehr oder weniger großen Unterschieden kommen kann. Die Lageregeln sind hier prim¨ ar als Daumenregeln zu verstehen. Der gr¨oßenm¨aßige Abgleich von arithmetischem Mittel, Median und Modalwert liefert auch ein qualitatives Kriterium zur Beurteilung von Schiefe. Fechner’sche Lageregeln Bei einer unimodalen Verteilung eines metrischen Merkmals gilt: x ¯=x ˜0.5 = xmod xmod < x ˜0.5 < x ¯ x ¯ 0. Dann ergeben sich die prozentualen Abweichungen dieser Werte als x  i yi = 100 × −1 f¨ ur i = 1, . . . , n. x ¯ Wegen Gleichung (4.2.2) in Abschnitt 4.2.1 gilt: n  n n  X X xi − x ¯ xi 1X −1 = = (xi − x ¯) = 0. x ¯ x ¯ x ¯ i=1 i=1 i=1 Die Summe und damit auch das arithmetische Mittel der yi ist stets gleich 0. Somit folgt mit y¯ = 0 f¨ ur die Varianz gem¨ aß Verschiebungsformel n n 1X 2 1X 2 yi − y¯2 = y s˜2Y = n i=1 n i=1 i =

n n 2 1002 X xi 1002 X s˜2 (xi − x ¯)2 = 1002 X2 , −1 = 2 n i=1 x ¯ x ¯ n i=1 x ¯

wobei s˜2X die Varianz der urspr¨ unglichen x-Werte bezeichnet. Daraus folgt unmittelbar s˜X s˜Y = 100 · = 100 νX .  x ¯ Im obigen Beispiel weichen z.B. 29 Cent um  29  100 · − 1 % ≈ −25.64% 39 vom durchschnittlichen Salzpreis nach unten hin ab. Der Preis von 39 Cent entspricht genau dem Durchschnitt und weicht damit um 0% ab. Die 49 Cent weichen wiederum um +25.64% nach oben hin ab. Die Standardabweichung aller 3 prozentualen Abweichungen ergibt dann: r 1 (−25.642 + 0 + 25.642 ) ≈ 20.9 = 100 νSalz . 3 Variationskoeffizient Seien x1 , . . . , xn nichtnegative metrische Beobachtungswerte mit x ¯ > 0. Dann ist der Variationskoeffizient definiert als ν = s˜/¯ x.

4.6 Standardisierung mittels Lage und Streuung

83

Der Wert 100 × ν entspricht der Standardabweichung der prozentualen Abweichungen vom arithmetischen Mittel, die definiert sind als x  i yi = 100 × −1 f¨ ur i = 1, . . . , n. x ¯

Beispiel 4.5.3: Variationsvergleich von Wechselkursen In den Jahren 2004–2013 lag der durchschnittliche monatliche Kurs des Euro bei 9.49 Yuan (China) und bei 1.33 US-Dollar. Die Standardabweichungen betrugen 0.93 Yuan bzw. 0.09 Dollar. Daraus resultiert f¨ ur den Yuan ein Variationskoeffizient von 0.10 und f¨ ur den Dollar ein Koeffizient von 0.07. Unter Einbezug des absoluten Niveaus der beiden Wechselkurse f¨ allt der Variationsunterschied folglich nur gering aus.

11.0 10.5 10.0 9.5 9.0 8.5 8.0

US Dollar

Yuan

Abb. 4.5.3: Wechselkurse des Euro; Jan. 2004–Dez. 2013 1.5 1.4 1.3 1.2 2004

2006

2008

2010

2012

2014

2004

2006

2008

2010

2012

2014

Daten: Europ¨ aische Zentralbank [2014b]

4.6 Standardisierung mittels Lage und Streuung Beobachtungswerte, die aus unterschiedlichen Grundgesamtheiten stammen oder die auf v¨ollig unterschiedlichen Skalen gemessen werden, lassen sich gr¨oßenm¨aßig nicht immer sinnvoll vergleichen. Standardisierte Werte k¨onnen f¨ ur solche F¨alle eine L¨osung sein, da sie skalenunabh¨ angig sind. Im Falle einer sog. z-Standardisierung werden die Abweichungen der Werte vom arithmetischen Mittel als Vielfache der Standardabweichung gemessen. • Hintergrund • Beobachtungswerte aus unterschiedlichen Grundgesamtheiten lassen sich gr¨oßenm¨aßig nicht immer sinnvoll vergleichen, wenn die Verteilung des interessierenden Merkmals in den beiden Grundgesamtheiten in Bezug auf Lage und Streuung sehr verschieden ist. Das gilt umso mehr, falls die zu vergleichenden Werte in unterschiedlichen Einheiten gemessen werden. Vergleicht man beispielsweise das monatliche Bruttogehalt eines deutschen Angestellten in einer bestimmten Branche mit demjenigen eines Schweizer Kollegen, so muss die jeweilige l¨anderspezifische Gehaltsstruktur (Niveau und Streuung) mit ber¨ ucksichtigt werden. Angenommen, in einem bestimmten T¨ atigkeitsfeld verdiene ein deutscher Angestellter 2800 Euro, wobei das Durchschnittsgehalt in der gesamten Branche 2500 Euro betrage bei einer Standardabweichung von

84

4 Spezifizierende Beschreibung empirischer Verteilungen

150 Euro. Der schweizerische Kollege verdiene dagegen 5500 Franken. Hier liege der Durchschnitt bei 5000 Franken, und die Standardabweichung betrage 400 Franken. Wie k¨onnen die beiden Geh¨ alter nun sinnvoll miteinander verglichen werden? Prinzipiell k¨ onnte man in diesem Beispiel Einkommensquantile als Anhaltspunkte heranziehen oder die prozentualen Abweichungen der beiden Geh¨alter vom jeweiligen Durchschnittswert ermitteln. Eine in der Statistik verbreitete Alternative dazu besteht darin, die zu vergleichenden Beobachtungswerte zu standardisieren. • Berechnung und Interpretation • Die allgemeine Form einer Standardisierung lautet: Standardisierter Wert = (Originalwert − Lagewert) / Streuungswert. Die h¨aufigste Variante ist die sog. z-Standardisierung , bei der arithmetisches Mittel bzw. Standardabweichung als Lage- bzw. Streuungswert verwendet werden. Jedoch spricht auch nichts dagegen mittels Median und MAD eine Standardisierung durchzuf¨ uhren, insbesondere falls Robustheitserw¨ agungen eine Rolle spielen. F¨ ur metrische Beobachtungswerte x1 , . . . , xn ergeben sich die z-standardisierten Werte als xi − x ¯ zi = f¨ ur i = 1, . . . , n. s˜X Ein negativer standardisierter Wert weist auf Unterdurchschnittlichkeit, ein positiver ¨ Wert auf Uberdurchschnittlichkeit hin. Die Differenz zum arithmetischen Mittel wird als Vielfaches der Standardabweichung gemessen. Damit ist der standardisierte Wert prinzipiell auch skalenunabh¨ angig. Die gleiche Differenz wird umso gr¨oßer, je kleiner die Streuung ist. Dies macht insofern Sinn, da eine Abweichung vom Durchschnitt umso bedeutsamer erscheint, je weniger die Werte insgesamt streuen. Im vorliegenden Beispiel betragen die z-standardisierten Geh¨ alter (2800 − 2500)/150 = 2 bzw. (5500 − 5000)/400 = 1.25. Das Gehalt des deutschen Angestellten liegt 2 Standardabweichungen u ¨ber dem Durchschnitt, die des Schweizer Angestellten dagegen nur 1.25 Standardabweichungen. In diesem Sinne ist der Deutsche somit besser gestellt, wenngleich beide u ¨berdurchschnittlich viel verdienen. • Eigenschaften z-standardisierter Werte • Wegen Gleichung (4.2.2) in Abschnitt 4.2.1 folgt f¨ ur das arithmetische Mittel der z-standardisierten Werte n n n 1 X xi − x ¯ 1 X 1X zi = = (xi − x ¯) = 0. z¯ = n i=1 n i=1 s˜X n˜ sX i=1 F¨ ur die Varianz der standardisierten Werte gilt: n n n 1X 1X 2 1X 2 s˜2Z = (zi − z¯)2 = zi − z¯2 = z n i=1 n i=1 n i=1 i n

=

n

1 X (xi − x ¯)2 1 X s˜2 (xi − x ¯ )2 = X = 2 = 1. 2 n i=1 s˜X s˜X n i=1 s˜2X

4.6 Standardisierung mittels Lage und Streuung

85

Es ist klar, dass eine weitere z-Standardisierung bereits z-standardisierter Werte keine ¨ Anderung mehr bewirkt. Außerdem l¨ asst sich mithilfe der Transformationseigenschaften von arithmetischem Mittel und Standardabweichung recht einfach zeigen, dass z-standardisierte Werte sowohl verschiebungs- als auch skaleninvariant sind (Abschnitt 4.9.3). Im Falle normalverteilter Grundgesamtheiten geben standardisierte Werte direkt Aufschluss u aßige Einordnung der Originalwerte innerhalb der Vertei¨ber die quantilsm¨ lung (Abschnitt 7.3.2). z-Standardisierung Gegeben seien metrische Beobachtungswerte x1 , . . . , xn . Dann sind die z-standardisierten Werte gegeben durch xi − x ¯ zi = , f¨ ur i = 1, . . . , n. s˜X Es gilt: z¯ = 0 und s˜2Z = 1. Z-standardisierte Werte sind verschiebungs- und skaleninvariant.

Beispiel 4.6.1: Standardisierte Zeitreihen Gegeben sei die gleiche Situation wie in Beispiel 4.5.3 (Abschnitt 4.5.3). Um die Synchronit¨at der beiden Wechselkurse Yuan-Euro und Dollar-Euro besser analysieren zu k¨ onnen, erscheint eine z-Standardisierung hilfreich. Notieren wir die 120 Originalwerte des Yuan-Kurses mit y1 , . . . , y120 , so ergeben sich deren standardisierte Werte als yi − y¯ yi − 9.49 ziY = , f¨ ur i = 1, . . . , 120. = s˜Y 0.93 Die standardisierten Werte f¨ ur den Dollarkurs d1 , ..., d120 lauten entsprechend ¯ di − d yi − 1.33 ziD = = , f¨ ur i = 1, . . . , 120. s˜D 0.09 Abb. 4.6.1: Standardisierte Wechselkurse des Euro; Jan. 2004 – Dez. 2013 3

z−Wert

2 1 0 −1 −2

US−Dollar Yuan

−3 2004

2006

2008

2010

2012

Daten: Europ¨ aische Zentralbank [2014b]

2014

86

4 Spezifizierende Beschreibung empirischer Verteilungen

Wie Abbildung 4.6.1 zeigt, ergibt sich f¨ ur die beiden W¨ahrungen f¨ ur den Zeitraum 2004 bis 2013 eine insgesamt gegens¨ atzliche Entwicklung. W¨ahrend der Wert des USDollars gegen¨ uber dem Euro fiel ( weniger Dollar f¨ ur 1 Euro“), stieg der Wert des ” chinesischen Yuan ( weniger Yuan f¨ ur 1 Euro“). Ungeachtet dessen weisen beide Kurse ” eine gewisse Synchronit¨ at im gesamten Verlaufsmuster auf.

4.7 Messung von Schiefe Schiefe wurde gem¨ aß Yule [1911] und David [1995] zuerst von Pearson [1895] als empirisches Ph¨anomen begrifflich und thematisch eingehender behandelt. Die Quantifizierung der Schiefe bei statistischen Analysen spielt bis heute meist nur eine untergeordnete Rolle. Deshalb wird hier lediglich der α-Quantilskoeffizient der Schiefe vorgestellt, der sehr nachvollziehbar konstruiert ist. Gleichwohl mag es unter den zahlreichen Alternativen theoretisch st¨ arker fundierte Kennwerte geben. • Konzept und Definition • Bei schiefen Verteilungen liegen obere und untere Quantile unterschiedlich weit vom Medianwert entfernt. Diesen Umstand macht sich der Quantilskoeffizient der Schiefe zunutze Das Konzept dieses Koeffizienten besteht darin, den α-Quantilsabstand (Abschnitt 4.5.2) Qα = x ˜1−α − x ˜α in die zwei Anteile x ˜1−α − x ˜0.5 und x ˜0.5 − x ˜α zu zerlegen: x ˜1−α − x ˜α = (˜ x0.5 − x ˜α ) + (˜ x1−α − x ˜0.5 )

(4.7.1)

Im Falle einer schiefen Verteilung unterscheiden sich die Gr¨oßen der beiden Summanden in (4.7.1) mehr oder weniger stark. So liegt im Falle einer linksschiefen Verteilung das untere Quantil vom Median im Allgemeinen weiter entfernt als das obere Quantil. Die Differenz (˜ x1−α − x ˜0.5 ) − (˜ x0.5 − x ˜α ) ist dann negativ (Abb. 4.7.1, links). Im Falle von Rechtsschiefe ist es genau umgekehrt. Falls eine perfekt symmetrische Verteilung vorliegt, ist die Differenz gleich 0. Der α-Quantilskoeffizient ergibt sich aus dem Quotienten (˜ x1−α − x ˜0.5 ) − (˜ x0.5 − x ˜α ) . x ˜1−α − x ˜α F¨ ur α = 0.25 spricht man auch vom Quartilskoeffizienten der Schiefe, der so von Yule [1911] vorgeschlagen wurde. Die Division durch den Quantilsabstand erwirkt eine Normierung, sodass der Schiefekoeffizient nur Werte im Intervall [−1, 1] annehmen kann. Wegen (4.7.1) kann die Differenz im Z¨ ahler den Wert im Nenner betragsm¨aßig nicht u ¨berschreiten. • Interpretation • Der α-Quantilskoeffizient ist betragsm¨aßig umso gr¨oßer, je schiefer die Verteilung ist. Er ist positiv bei rechtsschiefen Verteilungen und negativ bei linksschiefen Verteilungen. Sein Wert h¨ angt außerdem von der Wahl des α-Wertes ab. Ein f¨ ur α bestimmter Schiefewert bezieht sich (nur) auf die Verteilung der mittleren (1−2α) × 100% aller Werte.

4.7 Messung von Schiefe

87

Abb. 4.7.1: Zerlegung des Quantilsabstands Häufigkeitsdichte

Häufigkeitsdichte

0.4 0.3

0.4

0.3

Q 0.1

0.2

0.3

Q 0.1

0.2

0.1 0.0

Häufigkeitsdichte

0.4

x~0.1

0

x~0.5

1

2

3

4

0.1

x~0.9

5

x~0.1

0.0

6

Q 0.1

0.2

0

x~0.5

1

2

0.1

x~0.9

3

4

5

6

0.0

x~0.1

x~0.5

0

1

x~0.9

2

3

4

5

6

Quantilskoeffizient der Schiefe Gegeben seien metrische Beobachtungswerte x1 , . . . , xn . Dann ist durch (˜ x1−α − x ˜0.5 ) − (˜ x0.5 − x ˜α ) Qα = , f¨ ur α ∈ (0, 0.5), x ˜1−α − x ˜α der α-Quantilskoeffzient der Schiefe gegeben. Speziell wird QS0.25 als Quartilskoeffizient der Schiefe bezeichnet. F¨ ur QSα > 0 sind die mittleren (1 − 2α) × 100% der Werte rechtsschief, f¨ ur QSα < 0 linksschief und f¨ ur QSα = 0 symmetrisch verteilt. Beispiel 4.7.1: Schiefe der Einkommensverteilung Gegeben sei die gleiche Situation wie in Beispiel 4.5.2 (Abschnitt 4.5.2). Die Einkommensverteilung f¨ ur Deutschland weist eine deutliche Rechtsschiefe auf. Mit x ˜0.1 = 9913, x ˜0.5 = 19595 und x ˜0.9 = 35731 ergibt sich als 0.1-Quantilskoeffizient der Schiefe 16136 − 9682 (35731 − 19595) − (19595 − 9913) = ≈ 0.25. Q0.1 = 35731 − 9913 25818 ur die Einkommensverteilung Abb. 4.7.2: 0.1-Quantilskoeffizient der Schiefe f¨ Q 0.1 = 25 818

8. Dezil

73

1

x~0.9

35

9 03

11

6

6. Dezil 8 14

7. Dezil 29

19

22

5

x~0.5

25

4. Dezil

x~0.9 − x~0.5 = 16 136

59

3. Dezil

0 32

17

87

1

15

3 91 9

12

0

09

x~0.1

4

2. Dezil

x~0.5 − x~0.1 = 9 682

Daten: Statistisches Bundesamt [2014] Analog erh¨alt man Q0.2 =

(29039 − 19595) − (19595 − 12871) ≈ 0.17 und 29039 − 12871

88

4 Spezifizierende Beschreibung empirischer Verteilungen

(25116 − 19595) − (19595 − 15094) ≈ 0.10. 25116 − 15094 uckzuf¨ uhren, Mit abnehmendem α-Wert nimmt die Rechtsschiefe zu. Dies ist darauf zur¨ dass die Verteilung am oberen Rand ausfranst“ und der Einkommensunterschied ” umso st¨arker ausf¨ allt, je mehr man sich den beiden R¨andern der Verteilung ann¨ahert. Q0.3 =

4.8 Darstellung und Messung von Konzentration Unter Konzentration versteht man in der Statistik eine Ungleichverteilung der Merkmalssumme auf die einzelnen Beobachtungswerte. Mit der Lorenkurve l¨asst sich diese Ungleichverteilung grafisch darstellen. Der Gini-Koeffizient ist ein Maß f¨ ur die Konzentration. Er entspricht der doppelten Fl¨ache, welche die Lorenzkurve zur Winkelhalbierenden einschließt. Die Konzentrationsmessung besitzt insbesondere bei der Deskription von Einkommensverteilungen eine wichtige Bedeutung. Gini-Koeffizienten werden von vielen staatlichen und internationalen Institutionen regelm¨aßig ermittelt und publiziert.

4.8.1 Lorenz-Kurve • Was versteht man unter Konzentration? • Angenommen man vergleiche die folgenden beiden Datens¨ atze: Datensatz 1: 4, 4, 4, 4, 4, Datensatz 2: 2, 2, 2, 2, 12. Die Merkmalssumme betr¨ agt in beiden F¨ allen jeweils 20. In Datensatz 1 besitzt jeder Wert den gleichen Anteil (4/20 = 0.2) an der Merkmalssumme. Die Merkmalssumme verteilt sich damit gleichm¨ aßig auf alle 5 Beobachtungen. In Datensatz 2 besitzen die ersten 4 Werte jeweils den Anteil 0.1. Der 5. Wert vereinigt dagegen 60% der Merkmalssumme auf sich. Damit verteilt sich die Merkmalssumme ungleich auf die einzelnen Beobachtungen. In diesem Fall spricht man dann von einer Konzentration der Werte. Ein anfangs verbreitetes Missverst¨ andnis besteht darin, eine geringe Streuung der Werte mit einer hohen Konzentration gleichzusetzen ( Die Werte konzentrieren sich ” auf einen Punkt“). Dem ist jedoch nicht so. Ganz im Gegenteil, liegt keinerlei Streuung vor, verteilt sich die Merkmalssumme perfekt gleichm¨aßig auf alle Merkmalstr¨ager. Damit liegt auch keine Konzentration vor. • Beispiel 4.8.1 • Zur Vertiefung sei ein weiteres stilisiertes Beispiel herangezogen. Angenommen es liegen Umsatzdaten (in Mio. Euro) von jeweils 5 Firmen in drei verschiedenen Branchen wie folgt vor: Branche 1: 1, 100, 1, 1, 1, Branche 2: 100, 100, 1, 100, 100, Branche 3: 100, 60, 20, 40, 80.

4.8 Darstellung und Messung von Konzentration

89

Die Daten beschreiben sehr unterschiedliche Situationen f¨ ur die Verteilung des Umsatzes in den einzelnen Branchen. In Branche 1 gibt es ein einzelnes marktbeherrschendes Unternehmen, welches nahezu den gesamten Umsatz erwirtschaftet. Die Konkurrenz ist zwar zahlreich vertreten, tr¨ agt aber nur marginal zum Gesamtumsatz bei. In Branche 2 teilt sich der Gesamtumsatz nahezu gleichm¨aßig auf die einzelnen Unternehmen auf mit Ausnahme eines einzelnen Zwergunternehmens“. In Branche 3 gibt es weder ein ” eindeutig marktbeherrschendes Unternehmen noch v¨ollige Gleichverteilung. Vielmehr teilt sich hier der Gesamtumsatz auf kleinere, mittlere und gr¨oßere Unternehmen auf. Die Berechnung von Mittelwerten, Standardabweichungen und Variationskoeffizienten f¨ ur die einzelnen Branchen ergibt: Branche 1: x ¯1 = 20.8, s˜1 = 39.6, ν1 = 1.90, Branche 2: x ¯2 = 80.2, s˜2 = 39.6, ν2 = 0.49, Branche 3: x ¯3 = 60, s˜3 = 28.28, ν3 = 0.47. Hieran wird erkennbar, dass Konzentration anhand von Lage- und Streuungsquantifizierung nicht ausreichend beschrieben werden kann. Die Standardabweichungen in Branche 1 und 2 sind identisch, obgleich sehr unterschiedliche Marktsituationen vorliegen. Lediglich der Variationskoeffizient deutet auf Unterschiede hin. Bei einem Vergleich von Branche 2 und 3 ist es eher umgekehrt. Hier unterscheiden sich die Standardabweichungen st¨arker als die Variationskoeffizienten. Alles in allem bedarf es also eines geeigneten Konzepts zur Beschreibung von Konzentration, das sich von der Streuungsmessung absetzt. • Konstruktion einer Lorenzkurve • Mit der von Max Otto Lorenz [1905] entwickelten Lorenzkurve wird grafisch beschrieben, wie sich die Merkmalssumme, also die Summe aller Beobachtungswerte, auf die einzelnen Beobachtungswerte aufteilt. Das Grundkonzept besteht darin, in einem Diagramm die kumulativen Anteile der Merkmalssumme gegen die kumulativen Anteile der Beobachtungen abzutragen. Tabelle 4.8.1: Arbeitstabelle zur Erstellung einer Lorenzkurve f¨ ur Branche 3 i 1 2 3 4 5

x(i) 20 40 60 80 100

Kum. Anteil der Beobachtungen 1/5=0.2 1/5+1/5=0.4 1/5+1/5+1/5=0.6 1/5+1/5+1/5+1/5=0.8 1/5+1/5+1/5+1/5+1/5=1.0

Kum. Anteil an der Merkmalssumme 20/300≈ 0.067 (20+40)/300=0.2 (20+40+60)/300=0.4 (20+40+60+80)/300≈ 0.667 (20+40+60+80+100)/300=1

Betrachten wir als Beispiel die Daten von Branche 3 des obigen Beispiels. Zun¨achst einmal ist es wichtig, dass die Beobachtungswerte der Gr¨oße nach geordnet werden. Dann gehe“ man vom kleinsten bis zum gr¨ oßten Wert und notiere sich fortlaufend ku” mulierend (aufsummierend) die relativen Anteile der Werte und der Merkmalssumme (Tab. 4.8.1). Die gesamte Merkmalssumme betr¨agt hier 300. Beim kleinsten Wert 20 angefangen wird zun¨ achst 1/5 der Werte und gleichzeitig 20/300 der Merkmalssumme notiert. Weiter gehend zum Wert 40, wird 2/5 der Werte und gleichzeitig (20+40)/300 der Merkmalssumme notiert usw. Mit der letzten Beobachtung verf¨ ugt man schließlich

90

4 Spezifizierende Beschreibung empirischer Verteilungen

u ¨ber alle Beobachtungen und die gesamte Merkmalssumme. Die kumulativen Anteile betragen dann jeweils 1. Die kumulativen Anteile der Merkmalssumme ( y-Koordinaten“) ” werden nun in einem Diagramm gegen die kumulativen Anteile der Beobachtungen ( x” Koordinaten“) abgetragen und mit einer Linie verbunden. Konkret sind dies die Punkte mit den Koordinaten (0, 0), (0.2, 0.067), (0.4, 0.2), (0.6, 0.4), (0.8, 0.667) und (1, 1). Die so entstandene Kurve heißt Lorenzkurve. V¨ollig analog verf¨ahrt man mit den Daten f¨ ur die Branchen 1 und 2. Eine Lorenzkurve l¨ asst sich nur f¨ ur nichtnegative Beobachtungswerte, wie sie ja typischerweise bei Angaben zu Einkommen und Ums¨atzen auftreten, sinnvoll konstruieren. Abb. 4.8.1: Lorenzkurven der einzelnen Branchen 1.0

0.8

0.6

0.4

0.2

0.0

1.0

Branche 2

0.8

Anteil an Merkmalssumme

Branche 1 Anteil an Merkmalssumme

Anteil an Merkmalssumme

1.0

0.6

0.4

0.2

0.0 0.0

0.2

0.4

0.6

0.8

Anteil an Beobachtungen

1.0

Branche 3

0.8

0.6

0.4

0.2

0.0 0.0

0.2

0.4

0.6

0.8

1.0

0.0

Anteil an Beobachtungen

0.2

0.4

0.6

0.8

1.0

Anteil an Beobachtungen

• Interpretation • Wie Abbildung 4.8.1 zeigt, verl¨auft die Lorenzkurve f¨ ur Branche 1 deutlich unterhalb der Winkelhalbierenden, w¨ahrend sie f¨ ur Branche 2 relativ dicht an der Winkelhalbierenden anliegt. Das ist nat¨ urlich kein Zufall. Immer dann, wenn ein relativ großer Anteil an Beobachtungen einen relativ kleinen Anteil der Merkmalssumme auf sich vereinigt, wird die Fl¨ ache zwischen Lorenzkurve und Winkelhalbierender groß. Bildlich gesprochen f¨ uhrt dies zwangsl¨ aufig zu einem Punkt mit großer x- und kleiner yKoordinate. Im Beispiel erzielen in Branche 1 die 80% kleinsten Unternehmen lediglich 3.8% des Gesamtumsatzes. Liegt keinerlei Streuung vor, d.h. sind alle Beobachtungswerte gleich, liegt auch keine Konzentration vor. Die kumulativen Anteile der Beobachtungen stimmen dann mit den kumulativen Anteilen der Merkmalssumme u ¨berein. Im Falle von 5 Beobachtungswerten etwa lauten die Koordinaten dann (0, 0), (0.2, 0.2), (0.4, 0.4), (0.6, 0.6), (0.8, 0.8), (1, 1). Die Lorenzkurve f¨ allt mit der Winkelhalbierenden zusammen (Abb. 4.8.2, links). Je st¨arker eine Konzentration ausgepr¨ agt ist, desto gr¨oßer wird die Fl¨ache, welche die Lorenzkurve zur Winkelhalbierenden aufspannt.

4.8 Darstellung und Messung von Konzentration

91

4.8.2 Gini-Koeffizient • Definition und Interpretation • Der auf Corrado Gini [1912] zur¨ uckgehende Gini-Koeffizient entspricht dem Doppelten der Fl¨ache, welche die Lorenzkurve zur Winkelhalbierenden aufspannt. Da gem¨ aß Konstruktion die maximale Fl¨ache zwischen Lorenzkurve und Winkelhalbierender gleich 0.5 ist, liegt der Wert des Gini-Koeffizienten auf jeden Fall im Intervall [0, 1]. Der Gini-Koeffizient ist gleich 0, falls alle Beobachtungswerte gleich sind und die Lorenzkurve deshalb mit der Winkelhalbierenden zusammenf¨allt. Daneben besitzt der Gini-Koeffizient noch viele weitere Deutungsebenen ¨ und auch Verbindungen zu anderen empirischen Kennwerten. Einen Ein- und Uberblick hierzu bieten Ceriani und Verme [2012]. Abb. 4.8.2: Minimale und maximale Konzentration 1

1

1

n −1 n

1

• Berechnung • Die Berechnung des Gini-Koeffizienten G st¨ utzt sich auf geometrische ¨ Uberlegungen zur Fl¨ achenermittlung bei Trapezen. Die Formel lautet Pn 2 i=1 ix(i) n+1 Pn G= . − n n i=1 xi Dabei werden nichtnegative Werte x1 , . . . , xn mit positivem arithmetischem Mittel vorausgesetzt. F¨ ur das fiktive Beispiel des vorhergehenden Abschnitts erh¨alt man z.B. f¨ ur Branche 3: 2(1 · 20 + 2 · 40 + 3 · 60 + 4 · 80 + 5 · 100) 6 − ≈ 0.2667. G3 = 5 · 300 5 ur die Branchen 1 und 2 die Koeffizienten Analog resultieren f¨ G1 = 0.7615 und G2 = 0.1975. Demnach ist die Konzentration in Branche 1 am gr¨oßten und in Branche 2 am geringsten. ¨ • Wertebereich und Normierung • Simple geometrische Uberlegungen f¨ uhren zum Ergebnis, dass der Gini-Koeffizient gleich (n − 1)/n ist, falls von insgesamt n Beobachtungswerten n − 1 Werte gleich 0 und ein einziger Wert positiv ist. Dann vereinigt 1/n der Beobachtungen 100% der Merkmalssumme auf sich (Abb. 4.8.2, rechts). Die Lorenzkurve geht in diesem Extremfall von maximaler Konzentration durch die Punkte (0, 0), ((n − 1)/n, 0), (1, 1).

92

4 Spezifizierende Beschreibung empirischer Verteilungen

Der Maximalwert h¨ angt somit prinzipiell vom Stichprobenumfang ab und strebt f¨ ur wachsendes n gegen 1. Damit der Gini-Koeffizient im Falle maximaler Konzentration auf jeden Fall den Wert 1 annimmt, wird dieser manchmal noch mit dem Vorfaktor n/(n − 1) multipliziert. Dies definiert den normierten Gini-Koeffizienten G∗ : n G∗ = G. n−1 Gini-Koeffizient Gegeben seien metrische, nichtnegative Beobachtungswerte x1 , . . . , xn , wobei mindestens ein Wert positiv ist. Dann ist der Gini-Koeffizient gegeben durch Pn 2 i=1 ix(i) n+1 Pn G= , − n n i=1 xi wobei x(i) die geordneten Werte sind. Sein Wert entspricht dem Doppelten der Fl¨ache, welche die Lorenzkurve zur Winkelhalbierenden einschließt. Dabei gilt: G ∈ [0, 1 − 1/n]. Der Gini-Koeffizient ist gleich 0, falls x1 = x2 = · · · = xn und ist gleich 1 − 1/n, falls x(1) = x(2) = · · · = x(n−1) = 0 und x(n) > 0. • Vorsicht bei der Interpretation • Fahrmeir et al. [2010] weisen anhand eines Beispiels darauf hin, dass eine Beschreibung der Konzentration allein mithilfe des GiniMaßes m¨oglicherweise nicht differenziert genug ist. Vielmehr sollten sich Lorenzkurve und Gini-Maß gegenseitig erg¨ anzen. Als Beispiel wird eine fiktive Situation beschrieben, in der in einem Land A die ¨ armere H¨ alfte der Bev¨olkerung nur 10% des Grundbesitzes besitzen. In einem anderen Land B besitzen dagegen die reichsten 10% der Bev¨olkerung 50% des Grundbesitzes. Die folgenden beiden stilisierten Datens¨atze bilden die beschriebene Situation beispielhaft ab: Land A: 2, 2, 2, 2, 2, 18, 18, 18, 18, 18, Land B: 5, 5, 5, 5, 5, 5, 5, 5, 5, 45. Abbildung 4.8.3 verdeutlicht, dass sich hieraus grundlegend verschiedene Situationen ergeben, die sich in unterschiedlichen Lorenzkurven niederschlagen. Die von der Lorenzkurve aufgespannte Fl¨ ache ist in beiden F¨ allen dennoch gleich. Das Gini-Maß betr¨agt jeweils 0.4. Beispiel 4.8.2: Konzentration von Einkommen in Deutschland Gegeben sei die gleiche Situation wie in Beispiel 4.2.1 (Abschnitt 4.2.4). Die Verteilung des sog. Netto¨ aquivalenzeinkommens wurde bereits anhand der Dezile (Beispiel 4.3.1), der Quantilsabst¨ ande (Beispiel 4.5.2) und anhand der Schiefe (Beispiel 4.7.1) eingehend untersucht. Das Jahresgutachten des Sachverst¨ andigenrats zur Begutachtung der ¨ gesamtwirtschaftlichen Entwicklung 2013/2014 (S. 375ff) bietet einen Uberblick u ¨ber die zeitliche Entwicklung des Gini-Koeffizienten f¨ ur Markt- und Nettoeinkommen des ur Deutschland. ¨aquivalenzgewichteten Einkommens f¨

4.8 Darstellung und Messung von Konzentration

93

Abb. 4.8.3: Aufteilung des Grundbesitzes und korrespondierende Lorenzkurven Land A

1.0

Land B

1.0

Land A

0.8 0.6

0.6

0.4

0.4

0.2

0.2

0.0

0.0

0.2

Land B

0.8

0.4

0.6

0.8

1.0

0.0

0.0

0.2

0.4

0.6

0.8

1.0

In Tabelle 4.8.2 sind unter Markteinkommen im Wesentlichen die Bruttoeinkommen, Kapitaleink¨ unfte und sonstigen Eink¨ unfte (etwa aus Mieten und Pachten) zu verstehen. Die Daten beruhen wie auch in den vorhergehenden Beispielen auf Ergebnissen des SOEP. Gem¨aß Sachverst¨ andigenrat (SVR) hat die Ungleichheit der Einkommen gemes” sen am Gini-Koeffizienten seit Beginn der 90er-Jahre lediglich moderat zugenommen“. Weiter liegt die Konzentration der Markteinkommen regelm¨aßig deutlich u ¨ber derjenigen der Nettoeinkommen. Dies deutet laut SVR darauf hin, dass Deutschland u ¨ber ein funktionierendes Umverteilungssystem verf¨ ugt. Außerdem zeigt eine nach Westund Ostdeutschland differenzierte Analyse, dass die Konzentration der Markteinkommen f¨ ur Ostdeutschland seit 1993 einen durchwegs h¨oheren Wert annimmt als f¨ ur Westdeutschland. Die Konzentration der Nettoeinkommen war dagegen seit 1991 f¨ ur Westdeutschland stets h¨ oher als f¨ ur Ostdeutschland. Als alternatives Maß zur Messung der Einkommensungleichverteilung wurde bereits das Quintilsverh¨ altnis oder die sog. S80/S20-Rate vorgestellt (Beispiel 4.3.1). Tabelle 4.8.2: Konzentration der Einkommensverteilung gem¨ aß Gini-Koeffizient Jahr 1991 1996 2001 2006 2011

West0.406 0.439 0.449 0.479 0.472

Markteinkommen Ost Deutschland 0.375 0.411 0.476 0.450 0.506 0.462 0.540 0.494 0.529 0.485

West0.245 0.254 0.265 0.290 0.291

Nettoeinkommen Ost- Deutschland 0.205 0.247 0.212 0.251 0.219 0.261 0.239 0.286 0.257 0.288

Daten: Sachverst¨ andigenrat [2013, Schaubild 91]

94

4 Spezifizierende Beschreibung empirischer Verteilungen

4.9 Spezifische Eigenschaften empirischer Kennwerte Das arithmetische Mittel minimiert als Bezugswert die Summe der quadratischen Abweichungen. Der Median minimiert dagegen die Summe der absoluten Abweichungen. Diese Eigenschaften werden hier als Minimimumeigenschaften bezeichnet. Die Varianz und die mittlere absolute Abweichung vom Median besitzen deshalb als Streuungskennwerte eine besondere theoretische Fundierung. Unter den Transformationseigenschaften wird die Unver¨ anderlichkeit (Invarianz ) bzw. Ver¨anderlichkeit empirischer Kennwerte bei Datentransformationen besprochen. Von besonderem Interesse sind dabei Transformationen gem¨ aß einer Verschiebung oder einer Umskalierung der Werte. Unter dem Begriff der Robustheit wird die Unempfindlichkeit bzw. Empfindlichkeit empirischer Kennwerte bei Vorliegen von Ausreißern diskutiert.

4.9.1 Minimumeigenschaft des arithmetischen Mittels • Hintergrund • Die Varianz (Abschnitt 4.4.4) n 1X s˜2 = (xi − x ¯ )2 n i=1 misst die mittlere quadrierte Abweichung vom arithmetischen Mittel, ist insofern also ein Streuungskennwert in Bezug auf das arithmetische Mittel. Eine Frage, die sich aus theoretischer Sicht stellt, ist, f¨ ur welchen Wert c ∈ R der Ausdruck n 1X (xi − c)2 n i=1 minimal wird. Gem¨ aß Stigler [1986, S. 12] befasste sich Legendre [1805] als Erster mit dieser Fragestellung im Kontext der von ihm zuerst publizierten Kleinste-QuadrateMethode (Abschnitt 5.2.3). Dabei gab er als L¨osung bereits explizit das arithmetische Mittel an, auch wenn er dieses namentlich nicht so benannte (Legendre [1805, S. 75]). • Analytischer Nachweis • Zum analytischen Nachweis der minimierenden Eigenschaft des arithmetischen Mittels definiere man die Funktion n 1X (xi − c)2 f (c) = n i=1 f¨ ur vorgegebene Beobachtungswerte x1 , . . . , xn . Die ferentialrechnung gewonnene Ableitung von f nach n n df (c) 2X 2X =− (xi − c) = − xi + dc n i=1 n i=1

nach gew¨ohnlichen Regeln der Difc ergibt n 2X c n i=1

= −2¯ x + 2c = −2(c − x ¯). Damit ergibt sich als allgemeine L¨ osung des Minimierungsproblems c = x ¯. Tats¨achlich ist das arithmetische Mittel also derjenige Referenzpunkt, der die quadratischen Abweichungen minimiert. Der korrespondierende Streuungskennwert ist die Varianz.

4.9 Spezifische Eigenschaften empirischer Kennwerte

95

Eine alternative M¨ oglichkeit die Minimumeigenschaft des arithmetischen Mittels herzuleiten, verwendet die allgemeine Verschiebungsformel . Durch Umstellen von Gleichung (4.4.1) in Abschnitt 4.4.4 erh¨ alt man n n 1X 1X f (c) = (xi − c)2 = (xi − x ¯)2 + (¯ x − c)2 = s˜2 + (¯ x − c)2 . (4.9.1) n i=1 n i=1 Da die Varianz s˜2 auf jeden Fall nichtnegativ ist, ist die Funktion f f¨ ur c = x ¯ minimal. Der minimale Funktionswert ist dann gerade die Varianz, d.h. f (¯ x) = s˜2 . • Beispiel 4.9.1 • Als Beispiele betrachte man zum einen die Beobachtungswerte ¯ = 2 und s˜2 = 6.28571 −1, 0, 0, 1, 3, 5 und 6 mit x und zum anderen die Werte −1, 0, 0, 1, 3, 4, 5 und 6 mit x ¯ = 2.25 und s˜2 = 5.9375. Gem¨aß Gleichung (4.9.1) gilt dann: f1 (c) = (2 − c)2 + 6.28571 bzw. f2 (c) = (2.25 − c)2 + 5.9375. Abb. 4.9.1: Minimumeigenschaft des arithmetischen Mittels f 1(c )10

f 2(c )10

8 s~2 = 6.28571 6

−2

8

4

6 s~2 = 5.9375 4

2

2 0

2

x =2

4

6

c

−2

0

2 4 x = 2.25

6

c

Der Funktionsgraph im ersten Fall ist eine um 2 Einheiten nach rechts und 6.28571 Einheiten nach oben verschobene Parabel mit Minimum 6.28571 an der Stelle 2 (Abb. 4.9.1, links). Im zweiten Fall erh¨ alt man an der Stelle 2.25 ein Minimum von 5.9375 (Abb. 4.9.1, rechts). Satz 4.9.1: Minimumeigenschaft des arithmetischen Mittels Gegeben seien metrische Beobachtungswerte x1 , . . . , xn . Dann gilt f¨ ur jedes c ∈ R: n n 1X 1X s˜2 = (xi − x ¯)2 ≤ (xi − c)2 . n i=1 n i=1

96

4 Spezifizierende Beschreibung empirischer Verteilungen

4.9.2 Minimumeigenschaft des Medians • Hintergrund • Die Minimierung quadratischer Abweichungen f¨ uhrt, wie im vorhergehenden Abschnitt ausgef¨ uhrt wurde, zum arithmetischen Mittel als zu w¨ahlendem Bezugswert. In ¨ahnlicher Weise l¨ asst sich zeigen, dass der Median nun derjenige Bezugswert ist, welcher die mittleren absoluten Abweichungen minimiert. Die L¨osung des Minimierungsproblems n 1X min |xi − c| f¨ ur c ∈ R (4.9.2) c n i=1 lautet also c = x ˜0.5 . Der korrespondierende Streuungskennwert ist die mittlere absolute Abweichung vom Median (Abschnitt 4.4.2). Insofern erscheint es aus theoretischer Sicht in gewisser Weise begr¨ undet, die mittlere absolute Abweichung vom Median der mittleren absoluten vom arithmetischen Mittel vorzuziehen. • Analytischer Nachweis • Die analytische Herangehensweise w¨are wiederum, eine bez¨ uglich c zu minimierende Funktion zu definieren, d.h. n 1X |xi − c|. min f˜(c) mit f˜(c) = c n i=1 Eine derart einfache analytische Herleitung der minimierenden Eigenschaft des Medians wie beim arithmetischen Mittel ist nicht m¨oglich. Dies liegt daran, dass die zu minimierende Funktion im Falle absoluter Abweichungen nicht mehr an jeder Stelle differenzierbar ist. Ebenso ergibt sich auch keine Streuungszerlegungsformel wie im Falle quadratischer Abweichungen. Jedoch erscheint die L¨osung unter Zuhilfenahme einfacher Beispiele relativ schnell plausibel. Auf eine rigorose Beweisf¨ uhrung wird deshalb verzichtet. Ein angeblich erster Beweis“ findet sich bei Fechner [1878] (S. 4: Es ist ” ” mir nicht bekannt, dass man diese Frage schon aufgeworfen h¨atte [...]“). Tats¨achlich l¨ asst sich die Medianl¨ osung aber als Spezialfall allgemeinerer Erkenntnisse ableiten, die zuvor Laplace [1818] im Kontext der Regressionsanalyse (Abschnitt 5.2.3) bereits gewonnen hatte. Inhaltliche Erl¨ auterungen hierzu finden sich beispielsweise bei Stigler [1973, S. 441]. Bemerkenswerterweise nennt auch Yule [1911, S. 154] in seinem ersten ” Statistik-Lehrbuch“ bereits Laplace und nicht Fechner als denjenigen, der die Minimumeigenschaft des Medians erstmals nachwies. • Beispiel 4.9.2 • Man betrachte wie im vorigen Abschnitt nochmals die Beispiele Datensatz 1: − 1, 0, 0, 1, 3, 5, 6, Datensatz 2: − 1, 0, 0, 1, 3, 4, 5, 6. Abbildung 4.9.2 illustriert das Minimierungsproblem f¨ ur den ersten Datensatz, der eine ungerade Anzahl von Beobachtungswerten aufweist (n = 7). Auf der linken Seite wird die Situation f¨ ur c = 1 illustriert. Der Median ist gleich 1. Es liegen genauso viele Werte links wie rechts des Medians. Die L¨angen der Pfeile entsprechen den absoluten Abweichungen, die in der Summe 15 ergeben. Die Abweichung des Medians von sich selbst ist gleich 0. Wird der Bezugswert c nun von 1 ausgehend nach rechts verschoben, werden alle Abst¨ ande der linken Seite l¨anger, w¨ahrend alle

4.9 Spezifische Eigenschaften empirischer Kennwerte

97

Abb. 4.9.2: Absolute Abweichungen bei ungerader Anzahl von Beobachtungen

2

2 × (1 + 1)

4

−1

0

1

4−1

0+1 2−1

2

−2

5−1

2+1

5 2×1

2

3

4

5

6

−2

−1

0

1

c = x~0.5

2

3

4

5

6

c > x~0.5

auf der rechten Seite liegenden Abst¨ ande um den gleichen Betrag k¨ urzer werden. Die Summe aller Abst¨ ande w¨ urde sich bis dahin noch nicht ¨andern. Allerdings muss nun auch der Abstand zum Median selbst, d.h. in diesem Fall zum Wert 1, hinzugerechnet werden (dunkler Pfeil). Damit nimmt die Summe aller absoluten Abst¨ande zu. Bei einer Verlagerung zum Punkt 2 beispielsweise betr¨ agt sie 16. V¨ollig analog w¨ urde die Summe aller absoluten Abweichungen gr¨oßer werden, wenn ein Bezugswert kleiner als der Median gew¨ ahlt w¨ urde. Somit besitzt der Median die minimierende Eigenschaft und nicht etwa, wie man vielleicht zun¨achst vermuten w¨ urde, das arithmetische Mittel. Auch bei einer geraden Anzahl von Beobachtungen wird die Summe der absoluten Abweichungen mit dem Median als Bezugswert minimiert. Jedoch ist die L¨osung des Minimierungsproblems (4.9.2) nicht mehr zwingend eindeutig, wie das Beispiel anhand von Datensatz 2 zeigt. Entspricht der Bezugswert dem Medianwert (c = 2), so ist die Summe der absoluten Abweichungen gleich 18 (Abb. 4.9.3, links). Wird der Bezugswert nun nach rechts verschoben, so bleibt bis zum Wert c = 3 die Summe der absoluten Abweichungen unver¨ andert (Abb. 4.9.3, rechts). Erst ab c > 3 wird die Summe der Abweichungen gr¨oßer. Analoges gilt bei einer Verschiebung nach links. Bis zum Wert c = 1 bleibt die Summe der Abweichungen gleich. Ab c < 1 wird die Summe schließlich gr¨ oßer. Die L¨osung des Minimierungsproblems f¨ uhrt damit zur Menge aller Werte im Intervall [1, 3] und ist nicht eindeutig. Abb. 4.9.3: Absolute Abweichungen bei gerader Anzahl von Beobachtungen

3

3+1

4 2×2 2

1

4−1

2 × (2 + 1)

3

3−1

1+1

2−1

1 −2

−1

0

1

2 c = x~0.5

3

4

5

6

−2

−1

0

1

2

3 c =3

4

5

6

98

4 Spezifizierende Beschreibung empirischer Verteilungen Abb. 4.9.4: Minimumeigenschaft des Medians ~ f 1 (c) 6

~ f 2 (c) 6

5

5

4

4

3

3 d =2

d = 1.8575 2 1 −4

−2

2 1

0

2

x~0.5 = 1

4

6

8

−4

c

−2

0

x~0.5 = 2

4

6

8

c

Abbildung 4.9.4 zeigt die Grafen der korrespondierenden Funktionen, welche theoretisch zu minimieren w¨ aren:   1 f˜1 (c) = | − 1 − c| + |c| + |c| + |1 − c| + |3 − c| + |5 − c| + |6 − c| 7 f¨ ur Datensatz 1 und  1 f˜2 (c) = | − 1 − c| + |c| + |c| + |1 − c| + |3 − c| + |4 − c| + |5 − c| + |6 − c| 8 f¨ ur Datensatz 2. Zu erkennen ist der flache Verlauf des Funktionsgrafen f¨ ur Datensatz 2. Die gerade Anzahl von Beobachtungen f¨ uhrt hier zur L¨osungsmenge [1, 3]. An der Stelle des Medians entspricht der Funktionswert der mittleren absoluten Abweichung vom Median. Diese betr¨ agt 1.8571 in Datensatz 1 bzw. 2 in Datensatz 2. Satz 4.9.2: Minimumeigenschaft des Medians Gegeben seien metrische Beobachtungswerte x1 , . . . , xn . Dann gilt f¨ ur jedes c ∈ R: n n X X 1 1 d= |xi − x ˜0.5 | ≤ |xi − c|. n i=1 n i=1

4.9.3 Transformationseigenschaften • Arten von Transformationen • Zum Grundverst¨andnis eines jeden empirischen Kennwerts geh¨ort auch stets die Kenntnis dar¨ uber, wie sich dieses bei Datentransformationen verh¨alt. Dabei interessieren wir uns hier in erster Linie f¨ ur Verschiebungen und Umskalierungen. Ausgehend von metrischen Beobachtungswerten x1 , . . . , xn versteht man unter einer Verschiebung eine Transformation der Ursprungswerte gem¨aß ui = xi + c f¨ ur i = 1, . . . , n und c ∈ R. Zu jedem Beobachtungswert xi wird ein konstanter Wert c hinzuaddiert. Daraus resultieren die transformierten (verschobenen) Werte u1 , . . . , un . Abbildung 4.9.5 illustriert

4.9 Spezifische Eigenschaften empirischer Kennwerte

99

eine Verschiebung der Werte −1, 0, 0, 1, 3, 5 und 6 (schwarze Kugeln) um c = 9. Daraus resultieren die verschobenen Werte 8, 9, 9, 10, 12, 14 und 15 (helle Kugeln). Abb. 4.9.5: Beobachtungswerte und absolute Abweichungen bei Verschiebung ui = xi + 9 3

4 2 1

−2

−1

0

1

3

3

4 2

1

2

3 1

3

4

5

6

7

8

9

10

1

11

12

13

14

15

u

x

Unter einer Umskalierung versteht man dagegen eine Transformation gem¨aß ui = c · xi f¨ ur i = 1, . . . , n und c > 0. Die Multiplikation jedes Beobachtungswertes xi mit einem konstanten positiven Faktor c resultiert in den transformierten (umskalierten) Werten u1 , . . . , un . Rechnet man beispielsweise K¨orpergr¨ oßen von Meter in Zentimeter um, so entspricht dies einer Umskalierung mit dem Faktor c = 100. Die K¨ orpergr¨oßen in Meter x1 , . . . , xn werden mit 100 multipliziert und die resultierenden Werte u1 , . . . , un sind dann die entsprechenden Gr¨oßen in Zentimeter. Werden Preise von Euro in US-Dollar umgerechnet, so entsprach dies am 19. Juni 2014 einer Umskalierung mit dem Faktor c = 1.3621. Abbildung 4.9.6 illustriert beispielhaft eine Umskalierung der Werte −1, 0, 0, 1, 3, 5 und 6. Vom Ursprung 0 aus betrachtet, werden alle Werte um den Faktor c = 2 nach oben und unten hin gestreckt, je nachdem ob sie positiv oder negativ sind. Der Wert 0 bleibt unver¨andert. Daraus resultieren die umskalierten Werte −2, 0, 0, 2, 6, 10 und 12. Abb. 4.9.6: Beobachtungswerte und absolute Abweichungen bei Umskalierung ui = 2 × xi

−5

−4

−3

−2

−1

0

1

2 x

3

4

5

6

7

8

9

10

11

12

u

• Verschiebungs¨ aquivarianz und Verschiebungsinvarianz • Wie anhand von Abbildung 4.9.5 bereits abzusehen ist, wird das arithmetische Mittel der verschobenen Werte stets um die gleiche Verschiebungskonstante c mit verschoben. Im vorliegenden Fall verlagert sich der Schwerpunkt also von 2 auf 11. Diese Eigenschaft l¨asst sich recht

100

4 Spezifizierende Beschreibung empirischer Verteilungen

einfach auch allgemein nachweisen. So gilt: n n n n 1X 1X 1X 1X 1 u ¯= ui = (xi + c) = xi + c=x ¯ + nc = x ¯ + c. n i=1 n i=1 n i=1 n i=1 n Auch der Median verlagert sich um den Wert der Verschiebungskonstante von 1 auf 10. Diese Eigenschaft wird als Verschiebungs¨ aquivarianz eines Kennwerts bezeichnet. Allgemein heißt ein empirischer Kennwert M verschiebungs¨ aquivariant ( gleich ” ver¨andernd“), falls M (x1 + c, x2 + c, . . . , xn + c) = M (x1 , x2 , . . . , xn ) + c f¨ ur jedes c ∈ R. Der f¨ ur die verschobenen Werte berechnete Kennwert M wird um die gleiche Konstante mit verschoben wie die Originalwerte. Aufgrund der Verschiebungs¨aquivarianz von arithmetischem Mittel und Median bleiben die absoluten Abweichungen zum arithmetischen Mittel bzw. zum Median bei einer Verschiebung unver¨andert, wie es in Abbildung 4.9.5 anhand der Pfeile illustriert wird. Deshalb a¨ndern sich Streuungskennwerte wie z.B. die mittlere absolute Abweichung vom arithmetischen Mittel oder die mittlere absolute Abweichung vom Median bei einer Verschiebung nicht. Das Gleiche gilt infolgedessen auch f¨ ur die Varianz , also die mittlere quadratische Abweichung vom arithmetischen Mittel. Die Unver¨ anderlichkeit eines Kennwerts bei Verschiebungen wird als Verschiebungsinvarianz bezeichnet. Allgemein heißt ein empirischer Kennwert M verschiebungsinvariant, falls M (x1 + c, x2 + c, . . . , xn + c) = M (x1 , x2 , . . . , xn ) f¨ ur jedes c ∈ R gilt. Auf formale Nachweise soll hier weitgehend verzichtet werden. Im Falle der Varianz f¨allt ein solcher jedoch recht einfach aus. Es gilt: n n 1X 1X s˜2U = (ui − u ¯)2 = (xi + c − x ¯ − c)2 n i=1 n i=1 n

=

1X (xi − x ¯)2 = s˜2X . n i=1

Hier wurde beim zweiten Gleichheitszeichen die zuvor nachgewiesene Verschiebungs¨aquivarianz des arithmetischen Mittels ausgenutzt. • Skalen¨ aquivarianz und Skaleninvarianz • Im Falle einer Umskalierung ¨andern sich arithmetisches Mittel und Median um den gleichen Faktor. Werden beispielsweise alle Werte verdoppelt, so verdoppeln sich auch die beiden Lagekennwerte. Im Falle des arithmetischen Mittels l¨ asst sich dies wieder recht einfach nachweisen: n n n 1X 1X 1X u ¯= ui = cxi = c xi = c¯ x. n i=1 n i=1 n i=1 Die betreffende Eigenschaft wird als Skalen¨ aquivarianz bezeichnet. Ein empirischer Kennwert M heißt skalen¨ aquivariant, falls M (cx1 , cx2 , . . . , cxn ) = c M (x1 , x2 , . . . , xn ), f¨ ur jedes c > 0 gilt. Arithmetisches Mittel und Median sind beide skalen¨aquivariant. Die gegenteilige Eigenschaft wird als Skaleninvarianz bezeichnet. Ein empirischer Kennwert M heißt

4.9 Spezifische Eigenschaften empirischer Kennwerte

101

skaleninvariant, falls M (cx1 , cx2 , . . . , cxn ) = M (x1 , x2 , . . . , xn ) f¨ ur jedes c > 0 gilt. Wie an Abbildung 4.9.6 bei genauerem Hinsehen erkennbar wird, verdoppeln sich alle absoluten Abweichungen, falls die Beobachtungswerte mit dem Faktor 2 umskaliert werden. Generell ist die mittlere absolute Abweichung vom arithmetischen Mittel skalen¨ aquivariant. Analoges gilt f¨ ur die mittlere absolute Abweichung vom Median. Die Varianz ist dagegen nicht skalen¨ aquivariant. Werden beispielsweise alle Werte verdoppelt, so vervierfachen sich die quadratischen Abst¨ande. Allgemein erh¨alt man n n 1X 1X (ui − u ¯)2 = (cxi − c¯ x)2 s˜2U = n i=1 n i=1 n

= c2

1X (xi − x ¯)2 = c2 s˜2X . n i=1

Der konstante Faktor c geht also quadratisch ein. Werden z.B. Gr¨oßen von Meter in Zentimeter umgerechnet, so ist die Varianz der in Zentimeter gemessenen Gr¨oßen 1002 = 10 000 mal so groß wie die Varianz der in Meter gemessenen Gr¨oßen. F¨ ur die Standardabweichung folgt dagegen s˜U = c˜ sX . Die Standardabweichung ist folglich skalen¨ aquivariant. • Eigenschaften weiterer Kennwerte • In Abschnitt 4.5.3 erwies sich der Variationskoeffizient als sinnvolle Alternative zur Varianz bzw. Standardabweichung. Wegen der Verschiebungsinvarianz der Standardabweichung und der Verschiebungs¨aquivarianz des arithmetischen Mittels gilt bei einer Verschiebung folglich: s˜U s˜X s˜X νU = = 6= + c = νX + c. u ¯ x ¯+c x ¯ Bei einer Umskalierung folgt mit der Skalen¨ aquivarianz von Standardabweichung und arithmetischem Mittel: s˜U c˜ sX s˜X νU = = = = νX . u ¯ c¯ x x ¯ Demgem¨aß ist der Variationskoeffizient weder verschiebungs¨aquivariant noch verschiebungsinvariant. Er ist jedoch skaleninvariant. In seinem Sinne w¨are beispielsweise die Streuung der Werte 1, 2 und 3 identisch mit derjenigen der Werte 2, 4 und 6. Genauso einfach l¨ asst sich zeigen, dass Schiefekoeffizient (Abschnitt 4.7) und Gini-Koeffizient (Abschnitt 4.8.2) skaleninvariant sind. Man beachte, dass diese Eigenschaft in beiden F¨ allen auch inhaltlich erforderlich ist. Ansonsten w¨ urde beispielsweise bei der Analyse einer Einkommensverteilung die St¨arke der Schiefe und der Konzentration davon abh¨ angen, in welcher W¨ ahrung gerechnet w¨ urde. • Eigenschaften standardisierter Werte • Mit den Transformationseigenschaften des arithmetischen Mittels und der Standardabweichung l¨asst sich außerdem zeigen, dass z-standardisierte Werte (Abschnitt 4.6) verschiebungs- und skaleninvariant sind. Denn bei einer Verschiebung gem¨ aß ui = xi + c gilt f¨ ur die transformierten Werte: u ¯=x ¯ + c bzw. s˜U = s˜X .

102

4 Spezifizierende Beschreibung empirischer Verteilungen Tabelle 4.9.1: Transformationseigenschaften empirischer Kennwerte Empirischer Kennwert Arithmetisches Mittel Median (Quantile) Modalwert Spannweite Quantilsabst¨ ande Mittlere absolute Abweichungen MAD Varianz Standardabweichung Variationskoeffizient Quantilskoeffizient der Schiefe Gini-Koeffizient

¨ VA 3 3 3 7 7 7 7 7 7 7 7 7

VI 7 7 7 3 3 3 3 3 3 7 3 7

¨ SA 3 3 3 3 3 3 3 7 3 7 7 7

SI 7 7 7 7 7 7 7 7 7 3 3 3

¨ = verschiebungs¨ VA aquivariant, VI = verschiebungsinvariant ¨ = skalen¨ SA aquivariant, SI = skaleninvariant Daraus folgt ui − u ¯ xi + c − x ¯−c xi − x ¯ = = . s˜U s˜X s˜X Bei einer Umskalierung gem¨ aß ui = cxi gilt dagegen: zi =

u ¯ = c¯ x bzw. s˜U = c˜ sX . Daraus folgt entsprechend cxi − c¯ x xi − x ¯ ui − u ¯ = = . zi = s˜U c˜ sX s˜X Definition 4.9.1: Transformationseigenschaften empirischer Kennwerte Ein empirischer Kennwert M heißt (i) verschiebungs¨ aquivariant, falls f¨ ur jedes c ∈ R gilt: M (x1 + c, x2 + c, . . . , xn + c) = M (x1 , x2 , . . . , xn ) + c. (ii) verschiebungsinvariant, falls jedes c ∈ R gilt: M (x1 + c, x2 + c, . . . , xn + c) = M (x1 , x2 , . . . , xn ). (iii) skalen¨ aquivariant, falls f¨ ur jedes c > 0 gilt: M (cx1 , cx2 , . . . , cxn ) = cM (x1 , x2 , . . . , xn ). (iv) skaleninvariant, falls f¨ ur jedes c > 0 gilt: M (cx1 , cx2 , . . . , cxn ) = M (x1 , x2 , . . . , xn ).

4.9 Spezifische Eigenschaften empirischer Kennwerte

103

4.9.4 Robustheit • Zum Begriff • Der Begriff der Robustheit wird in der Statistik mal mehr und mal weniger genau definiert. Im Zusammenhang der induktiven Statistik kann man unter Robustheit allgemein eine Unempfindlichkeit“ gegen¨ uber Abweichungen von in einem ” Modell geforderten Annahmen verstehen (B¨ uning und Trenkler [1994, S. 295]). Gemeint sind dabei i.d.R. statistische Modelle (Abschnitt 1.2.2). Diese Unempfindlichkeit bezieht sich dabei auf das Ergebnis einer statistischen Analyse. Eine mathematisch pr¨azise Definition der Robustheitseigenschaft in Verbindung mit M¨oglichkeiten, diese zu quantifizieren, erfolgt im Rahmen der statistischen Sch¨ atztheorie (vgl. B¨ uning und Trenkler [1994, Kapitel 11] oder Hartung et al. [2009, Kapitel 14]). In diesem Lehrbuch verstehen wir unter einer robusten Statistik eine solche, die unempfindlich gegen¨ uber Ausreißern ist. Auf eine mathematische Pr¨ azisierung verzichten wir. • Robuste und nicht robuste Kennwerte • Wie bereits in Abschnitt 4.2.1 festgestellt wurde, ist das arithmetische Mittel keine robuste Statistik, da sich der physikalische Schwerpunkt der Daten bei Ausreißern stark verlagert. Im Gegensatz dazu ist der Median robust. Zieht ein Vorstandsvorsitzender einer großen Aktiengesellschaft in ein kleines Dorf, so ver¨ andert sich mit Sicherheit das Durchschnittseinkommen in diesem Dorf erheblich, nicht aber das entsprechende Medianeinkommen. Tats¨achlich l¨asst sich diese Empfindlichkeit bzw. Unempfindlichkeit auch mit den in den Abschnitten 4.9.1 und 4.9.2 beschriebenen Minimumeigenschaften erkl¨aren. Das arithmetische Mittel minimiert die Summe der quadratischen Abweichungen. Der Median minimiert dagegen nur die Summe der absoluten Abweichungen. Deshalb muss sich das arithmetische Mittel auch sehr viel st¨ arker an Ausreißer anpassen als der Median, da doppelt so große ¨ Abweichungen quasi vierfach zu Buche schlagen. Ahnliche Sachverhalte gelten auch im Kontext der Streuungskennwerte. Varianz und mittlere absolute Abweichungen sind nicht robust, der MAD dagegen schon. Die Spannweite ist nicht robust, daf¨ ur sind es aber die Quantilsabst¨ ande. Tabelle 4.9.2: Robustheitseigenschaften empirischer Lage- und Streuungskennwerte Lagekennwerte nicht robust robust Arithmetisches Median Mittel Quantile Modalwert

Streuungskennwerte nicht robust robust Spannweite Quantilsabst¨ande Mittlere absolute MAD Abweichungen Varianz Standardabweichung Variationskoeffizient

• Anmerkungen zur kritischen Verwendung • Ein in einem Dorf wohnhafter Million¨ar ist bedingt durch sein Verm¨ ogen oder Einkommen ein Ausreißer. Er passt statistisch nicht richtig dazu. Das Ergebnis statistischer Analysen wird durch seine Pr¨asenz gest¨ort“. Ausreißer mit einer solch negativen Konnotation im Sinne einer ” St¨orung“ k¨onnen sich beispielsweise auch durch fehlerhafte Datenerfassungen ergeben. ”

104

4 Spezifizierende Beschreibung empirischer Verteilungen

Untersucht man dagegen die Einkommensverteilung einer Großstadt oder eines ganzen Landes, so liegt es m¨ oglicherweise in der Natur der Sache, mit einem gewissen Anteil an Million¨aren zu rechnen. In einem solchen Fall, sind diese Werte keine Ausreißer, sondern sie geh¨oren zu einem vollst¨ andigen statistischen Bild dazu. Es sollte betont werden, dass Robustheit nicht der einzige oder gar nicht einmal der ausschlaggebende Grund sein kann, eine robuste Statistik zu verwenden. Hierf¨ ur k¨onnen auch rein konzeptionelle Gr¨ unde vorliegen. Bei der Analyse einer rechtsschiefen Einkommensverteilung etwa liefert der Median nicht zwingend ein besseres“ Ergebnis als das ” arithmetische Mittel, sondern er beschreibt zun¨achst einmal einen inhaltlich anders zu interpretierenden Kennwert. So kann ein Ausfransen“ einer Verteilung am oberen Ende ” durchaus als verteilungstypisch“ erachtet werden und weniger als St¨orung“. ” ” In der Praxis statistischer Analysen wird man in der Regel (und dies ist auch zu empfehlen) unterschiedliche Lage- und Streuungskennwerte berechnen. Neben den herk¨ommlichen, meist nicht robusten Lage- und Streuungskennwerten sollten auch stets robuste Alternativen mit berechnet werden. Treten zwischen robusten und nicht robusten Kennwerten erhebliche Unterschiede auf, m¨ ussen die Gr¨ unde daf¨ ur inhaltlich gekl¨art werden.

Kapitel 5: Beschreibung und Analyse empirischer Zusammenh¨ ange Bei der Analyse empirischer Zusammenh¨ ange geht es darum, Abh¨angigkeiten zwischen mehreren Merkmalen (Variablen) zu visualisieren und zu quantifizieren. Was man genau unter einem Zusammenhang bzw. einer Abh¨angigkeit versteht, wurde bereits im einf¨ uhrenden Abschnitt 2.3 eingehend erl¨ autert. Die Ausgangsbasis einer Zusammenhangsanalyse bildet in der Regel ein zwei- oder h¨oherdimensionaler Datensatz. Die Darstellung und Messung von Zusammenh¨angen zwischen kategorialen (nominal oder ordinal skalierten) Merkmalen wird in Abschnitt 5.1 thematisiert, w¨ahrend in Abschnitt 5.2 metrische Variablen den Schwerpunkt bilden. Die Ausf¨ uhrungen beschr¨anken sich weitgehend auf den zweidimensionalen Fall. In Abschnitt 5.3 finden sich einige erg¨anzende und vertiefende Themen. Dabei werden unter anderem auch M¨ oglichkeiten zur Analyse gemischter F¨ alle vorgeschlagen, bei denen ein Merkmal kategorialer und das andere metrischer Natur ist. Ebenso werden einige fortgeschrittene grafische Methoden zur Untersuchung h¨ oherdimensionaler Daten vorgestellt und vertiefend wichtige Aspekte bei der Analyse empirischer Zusammenh¨ange besprochen. Hierzu geh¨oren differenzierte Ausf¨ uhrungen zum Kausalit¨atsbegriff und die Besprechung wichtiger Aspekte f¨ ur die Analyse empirischer Zusammenh¨ange.

5.1 Zusammenh¨ ange zwischen kategorialen Merkmalen Kontingenztabellen bilden die Ausgangsbasis bei der Analyse von Zusammenh¨angen zwischen kategorialen Merkmalen. Aus Kontingenztabellen l¨asst sich die gemeinsame Verteilung der zu untersuchenden Merkmale ablesen, ebenso wie jede Randverteilung . Anhand der bedingten Verteilungen in den Zeilen bzw. Spalten l¨asst sich beurteilen, ob zwei Merkmale empirisch unabh¨ angig oder abh¨ angig sind. Der Kontingenzkoeffizient nach Pearson ist ein Maß, mit dem sich die St¨ arke des Zusammenhangs quantifizieren l¨ asst. Er basiert auf dem Chi-QuadratKoeffizienten bzw. der mittleren quadratischen Kontingenz . Abh¨angigkeitsstrukturen zwischen kategorialen Merkmalen werden typischerweise mithilfe von segmentierten oder gruppierten S¨ aulendiagrammen visualisiert.

5.1.1 Kontingenztabellen Verteilungen in Kontingenztabellen • Beispiel 5.1.1 • Angenommen, im Rahmen einer Studie wurden 100 erwachsene Personen im Alter zwischen 18 und 29 Jahren zu deren Raucherstatus befragt. Folgende Tabelle 5.1 fasst das Ergebnis der Befragung zusammen. Demnach waren unter den 100

106

5 Beschreibung und Analyse empirischer Zusammenh¨ange

befragten Personen insgesamt 40 Frauen und 60 M¨anner, 16 Raucher, 20 Gelegenheitsraucher und 64 Nichtraucher. Unter den Frauen rauchten 4 Frauen regelm¨aßig, 8 Frauen gelegentlich und 28 Frauen u ¨berhaupt nicht. Bei den M¨annern waren entsprechend 12 Raucher, 12 Gelegenheitsraucher und 36 Nichtraucher. Tabelle 5.1.1: Gemeinsame Verteilung von Geschlecht und Raucherstatus Raucher weiblich m¨annlich Summe

Gelegenheitsraucher 4 12 16

Nichtraucher

8 12 20

Summe

28 36 64

40 60 100

• Allgemeines zur Notation • Im Folgenden werden wichtige formale Begriffe mit dazugeh¨origer Notation eingef¨ uhrt. Zur Vereinfachung wird zun¨achst nur vom zweidimensionalen Fall ausgegangen. Die beiden erhobenen Merkmale werden mit lateinischen Großbuchstaben wie z.B. X und Y und die zugeh¨origen Beobachtungswerte mit x1 , x2 , . . . , xn bzw. y1 , y2 , . . . , yn notiert. Da die beiden Werte xi und yi jeweils zum iten Merkmalstr¨ager geh¨ oren, werden die (zweidimensionalen) Beobachtungswerte h¨aufig auch in Form von 2-Tupeln (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) aufgeschrieben, die entsprechend zum Merkmalsvektor (X, Y ) korrespondieren. Die m¨oglichen Auspr¨agungen der beiden Merkmale werden z.B. mit a1 , . . . , ak bzw. b1 , . . . , bl notiert. Allgemein ergibt sich f¨ ur die Gestalt einer Kontingenztabelle mit k Auspr¨agungen des Merkmals X und l Auspr¨agungen des Merkmals Y dann eine (k × l)-Tabelle, also eine Tabelle mit k Zeilen und l Spalten. Tabelle 5.1.2: Allgemeine Gestalt einer Kontingenztabelle Y

X a1 a2 .. .

b1 n11 n21 .. .

b2 n12 n22

... ... ...

bj n1j n2j

... ... ...

bl n1l n2l .. .

Summe n1• n2• .. .

ai .. .

ni1 .. .

ni2

...

nij

...

nil .. .

ni• .. .

ak

nk1

nk2

...

nkj

...

nkl

nk•

Summe

n•1

n•2

...

n•j

...

n•l

n

Im obigen Beispiel k¨ onnte z.B. X f¨ ur Geschlecht“ und Y f¨ ur Raucherstatus“ ” ” stehen. Im Fall von Geschlecht“ lauten die m¨ oglichen Auspr¨agungen ” a1 = weiblich und a2 = m¨ annlich. Bez¨ uglich des Raucherstatus wird zwischen den Auspr¨agungen b1 = Raucher, b2 = Gelegenheitsraucher und b3 = Nichtraucher unterschieden.

5.1 Zusammenh¨ange zwischen kategorialen Merkmalen

107

• Absolute Verteilungen • Die absolute H¨ aufigkeit der Auspr¨agungskombination ¨ (ai , bj ) wird mit nij notiert. Im Beispiel gilt etwa n11 = 4 und n23 = 36. Ublicherweise bezeichnet der erste Index also die Zeilennummer und der zweite Index die Spaltennummer einer Tabelle. Die Gesamtheit aller absoluten H¨aufigkeiten konstituiert die gemeinsame (absolute) H¨ aufigkeitsverteilung der beiden Merkmale X und Y . Im vorliegenden Fall sind dies die Werte n11 = 4, n21 = 12,

n12 = 8, n22 = 12,

n13 = 28, n23 = 36.

Die Summe aller absoluten H¨ aufigkeiten ergibt die Anzahl aller Beobachtungen: n=

k X l X

nij .

i=1 j=1

Im vorliegenden Beispiel mit k = 2 und l = 3 etwa gilt: n=

2 X 3 X

nij = n11 + n12 + n13 + n21 + n22 + n23 = 100.

i=1 j=1

Die Zeilensummen werden mit ni• notiert, die Spaltensummen mit n•j , wobei ni• =

l X

nij

bzw. n•j =

j=1

k X

nij .

i=1

Diese Randsummen werden auch als absolute Randh¨ aufigkeiten bezeichnet. In ihrer Gesamtheit konstituieren sie die absoluten Randverteilungen von X bzw. Y . So bilden im obigen Beispiel die Randh¨ aufigkeiten n1• = 40 und n2• = 60 die (absolute) Randverteilung von X und n•1 = 16, n•2 = 20 und n•3 = 64 die (absolute) Randverteilung von Y . • Relative Verteilungen • Die Division der absoluten H¨aufigkeiten durch die Gesamtanzahl aller Werte f¨ uhrt zu den relativen H¨ aufigkeiten fij bzw. relativen Randh¨ aufigkeiten fi• und f•j , d.h. nij ni• n•j fij = , fi• = und f•j = f¨ ur i = 1, . . . und j = 1, . . . , l. n n n Die Summe aller relativen H¨ aufigkeiten ergibt stets 1: k X l X

fij = 1.

i=1 j=1

Die Gesamtheit aller relativen H¨ aufigkeiten konstituiert die gemeinsame (relative) H¨ aufigkeitsverteilung der beiden Merkmale X und Y . Die Gesamtheit aller relativen Randh¨ aufigkeiten konstituieren die relativen Randverteilungen von X bzw. Y . Tabelle 5.1.3 fasst die gemeinsame relative Verteilung mit zugeh¨origen relativen Randverteilungen f¨ ur das obige Beispiel zusammen.

108

5 Beschreibung und Analyse empirischer Zusammenh¨ange

Tabelle 5.1.3: Gemeinsame relative Verteilung von Geschlecht und Raucherstatus Raucher weiblich m¨annlich Summe

0.04 0.12 0.16

Gelegenheitsraucher 0.08 0.12 0.20

Nichtraucher 0.28 0.36 0.64

Summe 0.40 0.60 1.00

Demnach waren 40% aller befragten Personen weiblich und 60% m¨annlich, 16% waren Raucher, 20% Gelegenheitsraucher und 64% Nichtraucher. Außerdem waren beispielsweise 4% aller Befragten weiblich und gleichzeitig Raucher und 36% m¨annlich und gleichzeitig Nichtraucher. Gemeinsame Verteilung und Randverteilungen (X, Y ) (x1 , y1 ), . . . , (xn , yn ) a1 , a2 , . . . , ak b1 , b2 , . . . , bl nij fij n11 , n12 , . . . , nkl f11 , f12 , . . . , fkl ni• bzw. n•j fi• bzw. f•j n1• , n2• , . . . , nk• n•1 , n•2 , . . . , n•l f1• , f2• , . . . , fk• f•1 , f•2 , . . . , f•l

Merkmalsvektor zweidimensionale Beobachtungswerte Auspr¨ agungen von X Auspr¨ agungen von Y Absolute H¨ aufigkeit der Auspr¨agungskombination (ai , bj ) Relative H¨ aufigkeit der Auspr¨agungskombination (ai , bj ) Gemeinsame absolute H¨aufigkeitsverteilung von (X, Y ) Gemeinsame relative H¨aufigkeitsverteilung von (X, Y ) Absolute (Rand-)H¨aufigkeit der Auspr¨agung ai bzw. bj Relative (Rand-)H¨aufigkeit der Auspr¨agung ai bzw. bj Absolute Randverteilung (H¨aufigkeitsverteilung) von X Absolute Randverteilung (H¨aufigkeitsverteilung) von Y Relative Randverteilung (H¨aufigkeitsverteilung) von X Relative Randverteilung (H¨aufigkeitsverteilung) von Y

• Bedingte Verteilungen • Im Zuge der Zusammenhangsanalyse ist es von Interesse, die Verteilung des einen Merkmals bedingt auf Auspr¨agungen des anderen Merkmals zu bestimmten. Beispielsweise k¨ onnte man im vorliegenden Fall das Rauchverhalten separiert nach Geschlecht untersuchen. Hier¨ uber gelangt man zu sog. bedingten Verteilungen. Im Falle der Frauen f¨ uhrt dies beispielsweise zu den (relativen) bedingten H¨ aufigkeiten 4/40 = 0.10 , 8/40 = 0.20 und 28/40 = 0.70. Demgem¨aß rauchten 10% der Frauen regelm¨ aßig, 20% gelegentlich und 70% u ¨berhaupt nicht. Analog erh¨alt man f¨ ur die M¨anner: 12/60 = 0.20, 12/60 = 0.20, 36/60 = 0.60. Von den M¨annern rauchten 20% regelm¨ aßig, 20% gelegentlich und 60% u ¨berhaupt nicht. Bedingte Verteilungen erh¨ alt man also, indem H¨aufigkeiten der gemeinsamen Verteilung durch Randh¨aufigkeiten dividiert werden. Umgekehrt k¨onnte man auch die Verteilung des Merkmals Geschlecht“ bedingt auf dem ” Raucherstatus ermitteln. Dazu m¨ ussen im vorliegenden Fall die gemeinsamen H¨aufig-

5.1 Zusammenh¨ange zwischen kategorialen Merkmalen

109

Tabelle 5.1.4: Verteilung von Raucherstatus bedingt auf Geschlecht Raucher weiblich m¨annlich

Gelegenheitsraucher 0.20 0.20

0.10 0.20

Nichtraucher

Summe

0.70 0.60

1 1

keiten durch die Spaltensummen, d.h. durch die Randh¨aufigkeiten des Merkmals Rau” cherstatus“, dividiert werden. Tabelle 5.1.5: Verteilung von Geschlecht bedingt auf Raucherstatus Raucher weiblich m¨annlich Summe

0.25 0.75 1.00

Gelegenheitsraucher 0.40 0.60 1.00

Nichtraucher 0.4375 0.5625 1.0000

Beispielsweise waren bei den befragten Personen von den Rauchern 25% weiblich und 75% m¨annlich.

• Notation f¨ ur bedingte Verteilungen • Die formale Notation f¨ ur bedingte Verteilungen in diesem Lehrbuch mag etwas gew¨ ohnungsbed¨ urftig sein. So werden die beX|Y dingten H¨ aufigkeiten von X bedingt auf Y mit fij notiert, wobei nij X|Y f¨ ur i = 1, . . . , k und j = 1, . . . , l. fij = n•j Im vorliegenden Fall (Tab. 5.1.1 und 5.1.5) gilt beispielsweise: n11 4 n22 12 X|Y X|Y f11 = = = 0.25 und f22 = = = 0.60. n•1 16 n•2 20 Die bedingende Auspr¨ agung Y = bj sollte vorkommen, da die bedingten H¨aufigkeiten von X ansonsten nicht definiert w¨ are, d.h. n•j > 0 bzw. f•j > 0. aufigkeiten auch u Alternativ lassen sich die bedingten H¨ ¨ber die relativen H¨aufigkeitsverteilungen bestimmen (Tab. 5.1.3): f22 f11 0.04 0.12 X|Y X|Y bzw. f22 = f11 = = = 0.25 = = 0.60, da f•1 0.16 f•2 0.20 f11 n11 /n n11 f22 f22 /n n22 X|Y X|Y f11 = = = bzw. f22 = = = . f•1 n•1 /n n•1 f•2 n•2 /n n•2 F¨ ur Y = bj konstituieren die bedingten H¨ aufigkeiten X|Y

f1j

X|Y

, f2j

X|Y

, . . . , fkj

die bedingte Verteilung von X bedingt auf Y = bj . Analog werden die bedingten

110

5 Beschreibung und Analyse empirischer Zusammenh¨ange Y |X

H¨ aufigkeiten von Y bedingt auf X mit fij notiert, wobei f¨ ur ni• > 0 gilt: nij Y |X fij = f¨ ur i = 1, . . . , k und j = 1, . . . , l. ni• Im vorliegenden Fall ergibt sich etwa (Tab. 5.1.1 und 5.1.4): 8 12 n11 n22 Y |X Y |X f11 = = = 0.20 und f22 = = = 0.20. n1• 40 n2• 60 Die bedingten H¨aufigkeiten Y |X

fi1

Y |X

, fi2

Y |X

, . . . , fil

konstituieren schließlich die bedingte Verteilung von Y bedingt auf X = ai . Der Subindex ij“ kennzeichnet also die Zelle in der i-ten Zeile und j-ten Spalte der ” Tabelle, wohingegen durch den Superindex X|Y “ bzw. Y |X“ die bedingende Variable ” ” deklariert wird. Bedingte Verteilungen X|Y

fij

Y |X

fij

X|Y

=

nij n•j

=

fij f•j

=

nij ni•

=

fij fi•

X|Y

X|Y

f1j , f2j , . . . , fkj Y |X Y |X Y |X fi1 , fi2 , . . . , fil

bedingte H¨ aufigkeit von wobei n•j > 0 f¨ ur alle j bedingte H¨ aufigkeit von wobei ni• > 0 f¨ ur alle i bedingte Verteilung von bedingte Verteilung von

(ai , bj ) bedingt auf Y = bj , (ai , bj ) bedingt auf X = ai , X bedingt auf Y = bj Y bedingt auf X = ai

Empirische Abh¨ angigkeit und Unabh¨ angigkeit • Empirische Abh¨ angigkeit • Wie bereits in Abschnitt 2.3 besprochen wurde, spricht man genau dann von einem empirischen Zusammenhang oder einer empirischen Abh¨ angigkeit zwischen zwei Merkmalen, falls sich die bedingten Verteilungen in den k Zeilen (Zeilenverteilungen) oder die bedingten Verteilungen in den l Spalten (Spaltenverteilungen) unterscheiden. Im Beispiel des vorhergehenden Abschnitts ergibt sich eine solche Situation. So ist beispielsweise der Raucheranteil bei den M¨ annern mehr als doppelt so groß wie bei den Frauen. Abbildung 2.3.3 in Abschnitt 2.3 illustriert die Verteilung des Merkmals Raucherstatus“ bedingt auf Geschlecht und ” korrespondiert direkt mit Tabelle 5.1.4. Alternativ zu den Zeilenverteilungen von Tabelle 5.1.1 ließen sich aber auch deren Spaltenverteilungen analysieren. Das segmentierte S¨ aulendiagramm in Abbildung 5.1.1 illustriert die Verteilung des Merkmals Ge” schlecht“ bedingt auf dem Raucherstatus und korrespondiert direkt zu Tabelle 5.1.5. Gut zu erkennen ist beispielsweise, dass der Anteil der M¨anner bei den Rauchern drei Mal so hoch ist wie derjenige der Frauen. • Frage der Richtung der Abh¨ angigkeit • Welche der beiden bedingenden Betrachtungen (Zeilen- oder Spaltenverteilung) nun vorzuziehen ist, h¨angt vor allem davon ab, welche Aussage in den Vordergrund gestellt werden soll. Grunds¨atzlich erscheinen nicht

5.1 Zusammenh¨ange zwischen kategorialen Merkmalen

111

Abb. 5.1.1: Empirische Abh¨ angigkeit von Geschlecht und Raucherstatus 100 80 %

weiblich

weiblich

weiblich

männlich

männlich

Gelegenheitsraucher

Nichtraucher

60 40

männlich

20 0 Raucher

immer beide Alternativen sinnvoll. Angenommen, bei der freiwilligen Befragung zeigten sich Frauen deutlich auskunftsbereiter als M¨anner. Auf diese Weise wurden Daten von insgesamt 80 Frauen aber nur 20 M¨ annern erfasst. Die Anteile der Geschlechter d¨ urften so nicht mehr repr¨ asentativ sein, wenn man davon ausgeht, dass in etwa gleich viele Frauen und M¨ anner in einer bestimmten Region leben. Bei einer bedingenden Betrachtung auf dem Raucherstatus w¨ aren deshalb die Frauenanteile in jeder Kategorie automatisch viel gr¨ oßer als die M¨ anneranteile, was sich m¨oglicherweise irritierend auswirken k¨ onnte. Unter solchen Umst¨anden mag eine bedingende Betrachtung auf Geschlecht deshalb sinnvoller sein. In vielen F¨allen h¨ angt die Auswahl der bedingenden Variablen von der Richtung m¨ oglicher Kausalit¨ at ab. So m¨ ogen im vorliegenden Fall unterschiedliche Einstellungen von Frauen und M¨ annern zum Thema Rauchen zu unterschiedlichen Verhaltensweisen ¨ f¨ uhren. Eine Anderung des Rauchverhaltens dagegen sollte sicherlich nicht zu einer ¨ Anderung des Geschlechts f¨ uhren. In einem solchen Fall eindeutiger kausaler Richtung wird als bedingendes Merkmal meist das verursachende Merkmal gew¨ahlt. Das andere Merkmal ist dann das (kausal) abh¨ angige Merkmal. Insofern erscheint im vorliegenden Beispiel eine bedingende Betrachtung auf Geschlecht (Abb. 2.3.3, Abschnitt 2.3) deshalb naheliegender als eine solche auf dem Raucherstatus (Abb. 5.1.1). • Empirische Unabh¨ angigkeit • Besteht zwischen zwei Merkmalen kein empirischer Zusammenhang, so stimmen die Zeilen- bzw. Spaltenverteilungen jeweils u ¨berein. Tabelle 5.1.6 zeigt eine derartige Situation empirischer Unabh¨ angigkeit. Tabelle 5.1.6: Gemeinsame Verteilung bei Unabh¨ angigkeit Raucher weiblich m¨annlich Summe

10 15 25

Gelegenheitsraucher 10 15 25

Nichtraucher 20 30 50

Summe 40 60 100

112

5 Beschreibung und Analyse empirischer Zusammenh¨ange

Tabelle 5.1.7: Verteilung von Raucherstatus bedingt auf Geschlecht bei Unabh¨ angigkeit Raucher weiblich m¨annlich

0.25 0.25

Gelegenheitsraucher 0.25 0.25

Nichtraucher

Summe

0.50 0.50

1 1

Der Anteil von Rauchern betr¨ agt bei Frauen und M¨annern jeweils 0.25 (10/40 bzw. 15/60), der Anteil von Gelegenheitsrauchern 0.25 und der Anteil von Nichtrauchern 0.50 (Tab. 5.1.7). Andersherum liegt der Anteil der Frauen in jeder Kategorie des Raucherstatus bei 0.4 und die der M¨ anner bei 0.6. Abbildung 5.1.2 illustriert die Verteilung von Geschlecht“ bedingt auf dem Raucherstatus. In allen Kategorien des Raucherstatus ” stimmen die Anteile der Geschlechter u ¨berein. Zwischen Geschlecht und Raucherstatus besteht kein Zusammenhang. Abb. 5.1.2: Empirische Unabh¨ angigkeit von Geschlecht und Raucherstatus 100 80 %

weiblich

weiblich

weiblich

männlich

männlich

männlich

Raucher

Gelegenheitsraucher

Nichtraucher

60 40 20 0

¨ ¨ Die Ubereinstimmung der bedingten Verteilungen f¨ uhrt zwangsl¨aufig auch zur Ubereinstimmung mit den korrespondierenden Randverteilungen. Dies bedeutet, dass von allen befragten Personen 25% Raucher (25/100), 25% Gelegenheitsraucher (25/100) und 50% (50/100) Nichtraucher sind. Ebenso sind 40% der Befragten weiblich (40/100) und 60% m¨ annlich (60/100). • Verh¨ altnis zur Kausalit¨ at • Man beachte, dass die formale Definition empirischer Abh¨angigkeit bzw. Unabh¨ angigkeit keinerlei Aussagen in Bezug auf eine UrsacheWirkungs-Beziehung enth¨ alt. Weder impliziert empirische Abh¨angigkeit also eine kausale Beziehung, noch schließt empirische Unabh¨angigkeit eine solche aus. N¨ahere Ausf¨ uhrungen zu diesem wichtigen Punkt finden sich in Abschnitt 5.3.3. • Formale Unabh¨ angigkeitskriterien • Zwei Merkmale sind genau dann empirisch unabh¨ angig , falls die bedingten Verteilungen mit den jeweiligen Randverteilungen u uckt gilt dann: ¨bereinstimmen. Formal ausgedr¨ Y |X

fi1

Y |X

= f•1 , fi2

Y |X

= f•2 , . . . , fil

= f•l

f¨ ur i = 1, . . . , k bzw.

5.1 Zusammenh¨ange zwischen kategorialen Merkmalen Y |X

f1j

Y |X

= f1• , f2j

Y |X

= f2• , . . . , fkj

= fk•

113 f¨ ur j = 1, . . . , l.

Gem¨aß Definition bedingter H¨ aufigkeiten resultieren daraus die Kriterien: nij = f•j f¨ ur i = 1, . . . , k, j = 1, . . . , l bzw. ni• nij = fi• f¨ ur i = 1, . . . , k, j = 1, . . . , l. n•j

(5.1.1) (5.1.2)

Durch Umformung erh¨ alt man aus (5.1.1) und (5.1.2). nij = ni• f•j bzw. nij = n•j fi• .

(5.1.3) (5.1.4)

Mit

ni• n•j und fi• = n n folgt aus (5.1.3) und (5.1.4) jeweils das Kriterium ni• n•j nij = f¨ ur alle i und j. (5.1.5) n Die Kriterien (5.1.3) und (5.1.4) bzw. (5.1.1) und (5.1.2) sind folglich ¨aquivalent. Dies bedeutet, dass es unerheblich ist, ob nun die Zeilen- oder die Spaltenverteilungen einer Kontingenztabelle miteinander verglichen werden. Stimmen die Zeilenverteilungen u ¨berein, so auch die Spaltenverteilungen. Stimmen die Zeilenverteilungen hingegen nicht u ¨berein, so auch nicht die Spaltenverteilungen. f•j =

• Tats¨ achliche und zu erwartende H¨ aufigkeiten • Kriterium (5.1.5) l¨asst sich anhand der Darstellungen (5.1.3) und (5.1.4) inhaltlich folgendermaßen interpretieren: Auf der linken Seite steht die beobachtete H¨ aufigkeit der Auspr¨agung (ai , bj ). Der Ausdruck auf der rechten Seite l¨ asst sich als zu erwartende absolute H¨aufigkeit der Auspr¨agung (ai , bj ) interpretieren, falls X und Y unabh¨ angig w¨aren. Dazu werfe man nochmals einen Blick in Tabelle 5.1.6. Man betrachte den Fall i = 1 und j = 1. Demnach sind genau 10 Personen weiblich und gleichzeitig Raucher. Der Raucheranteil unter allen Personen betr¨ agt f•1 = 25/100 = 0.25. Bei Unabh¨ angigkeit m¨ usste der Anteil von Rauchern unter Frauen ebenfalls 25% betragen. Man w¨ urde also erwarten, dass von n1• = 40 befragten Frauen genau n1• × f•1 = 40 × 0.25 = 10 Frauen rauchen. Tats¨achlich ist dies auch der ¨ Fall. Insofern ist das Kriterium (5.1.3) zumindest f¨ ur i = 1 und j = 1 erf¨ ullt. Aquivalent dazu w¨ urde man gem¨ aß (5.1.4) erwarten, dass bei einem Frauenanteil von f1• = 0.40 unter den Rauchern genau n•1 × f1• = 25 × 0.40 = 10 Frauen sein m¨ ussten, sofern Geschlecht und Raucherstatus unabh¨ angig w¨ aren. Auch dies ist hier der Fall. Aufgrund ¨ der Aquivalenz muss das zwangsl¨ aufig auch so sein. • Multiplikationskriterium • Dividiert man beide Seiten von (5.1.5) jeweils durch n, erh¨alt man das Multiplikationskriterium fij = fi• f•j f¨ ur alle i und j.

(5.1.6)

Demnach sind zwei Merkmale genau dann (empirisch) unabh¨angig, falls sich die gemeinsamen relativen H¨ aufigkeiten aus dem Produkt der relativen Randh¨aufigkeiten ergibt. Korrespondierend zu Tabelle 5.1.6 zeigt Tabelle 5.1.8 die gemeinsame relative Vertei-

114

5 Beschreibung und Analyse empirischer Zusammenh¨ange

lung von Geschlecht und Raucherstatus. Das Multiplikationskriterium ist f¨ ur alle Zellen erf¨ ullt: 0.25 · 0.40 = 0.10, . . . ,

0.25 · 0.40 = 0.10,

0.50 · 0.60 = 0.30.

Tabelle 5.1.8: Gemeinsame relative Verteilung bei Unabh¨ angigkeit Raucher weiblich m¨annlich Summe

0.10 0.15 0.25

Gelegenheitsraucher 0.10 0.15 0.25

Nichtraucher

Summe

0.20 0.30 0.50

0.40 0.60 1.00

• Stochastische Unabh¨ angigkeit • Analog zur Unabh¨angigkeit von Merkmalen wird in der Wahrscheinlichkeitsrechnung die (stochastische) Unabh¨ angigkeit von Zufallsereignissen oder von sog. Zufallsvariablen behandelt (Abschnitt 7.1.2). Zur deutlicheren Absetzung k¨ onnen deshalb die Zus¨atze empirisch“ bzw. stochastisch“ ” ” verwendet werden. Definition 5.1.1: Empirische Abh¨ angigkeit und Unabh¨ angigkeit Gegeben sei eine (k × l)-Kontingenztabelle zweier Merkmale X und Y , wobei die Auspr¨agungen von X mit den k Zeilen und die Auspr¨agungen von Y mit den l Spalten der Tabelle korrespondieren. Dann sind folgende Aussagen a¨quivalent. (i) X und Y sind empirisch unabh¨ angig. (ii) Die Zeilenverteilungen stimmen mit der Randverteilung von Y u ¨berein. (iii) Die Spaltenverteilungen stimmen mit der Randverteilung von X u ¨berein. (iv) Die absoluten H¨ aufigkeiten stimmen mit den unter Unabh¨angigkeit zu erwartenden H¨aufigkeiten u ¨berein, d.h. ni• n•j nij = f¨ ur alle i und j. n (v) Das Produkt der Randverteilungen ergibt die gemeinsame Verteilung, d.h. fij = fi• f•j f¨ ur alle i und j. Trifft eine der f¨ unf Aussagen nicht zu, sind X und Y empirisch abh¨ angig. Man spricht dann auch von einem empirischen Zusammenhang.

Konzeptionelle Voru ¨ berlegungen fu ¨ r ein Zusammenhangsmaß • Abweichungen von der Unabh¨ angigkeit • Ausgehend von den Erkenntnissen des vorhergehenden Abschnitts kann in einem ersten Schritt Kriterium (5.1.5) herangezogen werden, um die St¨ arke von Abh¨ angigkeit zu quantifizieren. Besteht zwischen

5.1 Zusammenh¨ange zwischen kategorialen Merkmalen

115

zwei Merkmalen kein Zusammenhang, so entsprechen die tats¨achlichen H¨aufigkeiten den unter Unabh¨angigkeit zu erwartenden H¨ aufigkeiten, d.h. ni• n•j nij − = 0 f¨ ur alle i und j. (5.1.7) n Tabelle 5.1.9 setzt Tabelle 5.1.1 aus Abschnitt 5.1.1 fort. In Klammern sind die bei Unabh¨angigkeit zu erwartenden H¨ aufigkeiten eingetragen. Darunter stehen die jeweiligen Abweichungen in Fettdruck. Tabelle 5.1.9: Tats¨ achliche und zu erwartende H¨ aufigkeiten mit jeweiligen Abweichungen Raucher weiblich m¨annlich Summe

4 (6.4) −2.4 12 (9.6) 2.4 16

Gelegenheitsraucher 8 (8) 0 12 (12) 0 20

Nichtraucher 28 (25.6) 2.4 36 (38.4) −2.4 64

Summe 40 60 100

Die theoretisch zu erwartenden H¨ aufigkeiten bei Unabh¨angigkeit ergeben sich beispielsweise f¨ ur die ersten beiden Zellen als 40 · 16 n1• n•2 40 · 20 n1• n•1 = = 6.4 bzw. = =8 n 100 n 100 und f¨ ur die letzte Zelle (2. Zeile, 3. Spalte) als n2• n•3 60 · 64 = = 38.4. n 100 Sofern Geschlecht und Raucherstatus also unabh¨angig w¨aren, w¨ urde man beispielsweise unter den Frauen 6.4 Raucherinnen erwarten, was dann dem allgemeinen Raucheranteil von 16% entspr¨ache. Tats¨ achlich sind es aber nur 4 Raucherinnen. Damit weicht die tats¨achliche H¨aufigkeit um −2.4 nach unten hin von der Unabh¨angigkeit“ ab. Analog ” w¨ urde man bei den M¨ annern 12 Raucher erwarten. Die Anzahl der Raucher weicht hier um 2.4 nach oben hin ab. Geschlecht und Raucherstatus sind auf jeden Fall abh¨angig. • Assoziationsplot • Eine grafische Darstellungsm¨oglichkeit f¨ ur die Abweichungen (5.1.7) ist der sog. Assoziationsplot (Abb. 5.1.3). Dabei werden die Abweichungen aller Zellen durch nach oben oder unten hin weisende S¨aulen repr¨asentiert, deren Fl¨achen proportional zu den Abweichungen sind. Weitere Details dazu finden sich in Abschnitt 5.1.3. Aus einer solchen Grafik l¨ asst sich schnell ersehen, durch welche Kategorien eine bestehende Abh¨angigkeit am st¨ arksten verursacht wird. Im vorliegenden Beispiel sind dies die Kategorien der Raucher und der Nichtraucher, in denen sich geschlechtsspezifische Unterschiede ergeben, w¨ ahrend das Gelegenheitsrauchen keine geschlechtsspezifische Abh¨angigkeit erkennen l¨ asst. Die beobachteten H¨aufigkeiten stimmen hier mit den erwartenden H¨aufigkeiten bei Unabh¨ angigkeit u ¨berein, weshalb die S¨aulen keine Fl¨ache aufweisen und nur minimal angedeutet werden. • Summe aller absoluten Abweichungen • Da diese Abweichungen von der Un” abh¨angigkeit“ betragsm¨ aßig umso gr¨ oßer ausfallen je st¨arker die zu erwartenden H¨aufig-

116

5 Beschreibung und Analyse empirischer Zusammenh¨ange Abb. 5.1.3: Assoziationsplot der Abweichungen von der Unabh¨ angigkeit Raucher

Gelegenheitsraucher

Nichtraucher

weiblich

männlich

keiten von den tats¨ achlichen beobachteten H¨ aufigkeiten abweichen, liegt es nahe, diese in ein Maß zur Quantifizierung der Abh¨ angigkeit einfließen zu lassen. Die Summe aller Abweichungen w¨ are als Maß f¨ ur die St¨ arke der Abh¨angigkeit allerdings nicht geeignet, da diese stets 0 ist: k X l  l k X l k X X ni• n•j  X X ni• n•j nij − nij − = n n i=1 j=1 i=1 j=1 i=1 j=1 =n−n

l k X X ni• n•j i=1 j=1

=n−n

k X

fi•

n·n

{z

=1

l k X X

fi• f•j

i=1 j=1

l  X

i=1

|

=n−n

 f•j = 0.

j=1

}|

{z

=1

}

Deshalb erscheint es allenfalls sinnvoll, die Summe aller absoluten Abweichungen l k X X ni• n•j SA = nij − n i=1 j=1 zu verwenden. Im vorliegenden Fall etwa erg¨ abe dies SA = 2.4 + 0 + 2.4 + 2.4 + 0 + 2.4 = 9.6. Durchgesetzt hat sich dieses Maß allerdings nicht.

5.1.2 Zusammenhangsmaße fu ¨ r Kontingenztabellen Chi-Quadrat-Koeffizient • Definition und Rechenbeispiel • Theoretisch fundiert und in der Praxis weit verbreitet ist der auf Karl Pearson [1900a, 1904] zur¨ uckgehende Chi-QuadratKoeffizient, definiert als k X l n n 2 X nij − i•n •j 2 χ = , wobei ni• > 0 und n•j > 0 f¨ ur alle i und j. ni• n•j i=1 j=1

n

5.1 Zusammenh¨ange zwischen kategorialen Merkmalen

117

Im Falle von Tabelle 5.1.9 berechnet sich der Koeffizient als (−2.4)2 02 2.42 2.42 02 (−2.4)2 χ2 = + + + + + = 1.875. 6.4 8 25.6 9.6 12 38.4 Seine konkrete Ausgestaltung begr¨ undet sich auf tiefergehenden inferenzstatistischen ¨ und wahrscheinlichkeitstheoretischen Uberlegungen, die an dieser Stelle nicht detailliert besprochen werden k¨ onnen. Kurze Anmerkungen m¨ogen gen¨ ugen. Jedoch lassen sich einzelne Bestandteile inhaltlich durchaus deuten. • Interpretation • Der Chi-Quadrat-Koeffizient ist offensichtlich gleich 0, falls keine Abh¨angigkeit besteht. Er f¨ allt umso gr¨ oßer aus, je st¨arker die Abweichungen insgesamt sind, wobei die zuvor betrachteten Abweichungen von der Unabh¨angigkeit“ ” innerhalb des Koeffizienten quadratisch eingehen. Dieses Quadrieren erweist sich als vorteilhaft ¨ahnlich wie bei der Varianz , bei der die quadratischen Abweichungen und nicht die absoluten Abweichungen vom arithmetischen Mittelwert verrechnet werden. Im Rahmen der Streuungskennwerte in Kapitel 4 wurde ja bereits festgehalten, dass in der Statistik quadratische Abweichungen absoluten Abweichungen h¨aufig vorgezogen werden, da sich hierdurch h¨ aufig eine einfacher zu handhabende Gesamtarithmetik ergibt. Ein entscheidender Schritt besteht außerdem darin, die quadratischen Abweichungen ins Verh¨ altnis zu den erwarteten H¨ aufigkeiten zu setzen, also durch die Terme ni• n•j n zu dividieren. Dadurch werden identische Abweichungen bei gr¨oßeren Randh¨aufigkeiten kleiner gewichtet. Dies erscheint insofern auch inhaltlich sinnvoll, da eine bestimmte Abweichung bei einer bereits hohen zu erwartenden H¨aufigkeit relativ betrachtet weniger bedeutend sein sollte. Man beachte, dass der Konzeption des Variationskoeffizien¨ ten eine recht ¨ahnliche Uberlegung zugrunde liegt. Im vorliegenden Beispiel etwa fließen die Abweichungen der 1. Zeile von Tabelle 5.1.9 aufgrund der kleineren Randh¨aufigkeit bez¨ uglich Geschlecht also etwas st¨ arker in den Koeffizienten ein als die betragsm¨aßig gleich großen Abweichungen der 2. Zeile. • Wertebereich • Mit einigem Aufwand kann gezeigt werden (vgl z.B. Pawlik [1959]), dass sich der Wertebereich des Chi-Quadrat-Koeffizienten auf das Intervall [ 0, (M − 1) × n] erstreckt, wobei M = min(k, l) das Minimum aus Zeilen- und Spaltenanzahl ist. Der theoretische Maximalwert ist somit nicht beschr¨ankt und h¨angt sowohl von der Dimension der Tabelle als auch von der Anzahl der Beobachtungen ab. Bei einer (6 × 4)Tabelle und n = 250 Beobachtungen w¨ are der theoretische Maximalwert beispielsweise (4 − 1) × 250 = 750, im vorliegenden Fall einer (2 × 3)-Tabelle und n = 100 Beobachtungen hingegen (2 − 1) × 100 = 100. Vor diesem Hintergrund erscheint hier eine ermittelte Abh¨angigkeit von χ2 = 1.875 nur sehr schwach“. Man beachte in diesem Zu” sammenhang jedoch die Anmerkungen zur Einordnung von St¨arken“ am Ende dieses ” Abschnitts. • Maximale Abh¨ angigkeit in nichtquadratischen Tabellen • Tabelle 5.1.10 zeigt eine Situation maximaler Abh¨ angigkeit (Kontingenz ) mit χ2 = 100. Hierbei liegen

118

5 Beschreibung und Analyse empirischer Zusammenh¨ange

¨ keinerlei Uberschneidungen der beiden Geschlechter hinsichtlich des Rauchverhaltens vor. Pawlik [1959] zeigt, dass f¨ ur l ≥ k (Spaltenanzahl gr¨oßer oder gleich Zeilenanzahl) maximale Kontingenz genau dann und nur dann erreicht wird, falls in jeder Spalte genau eine und nur eine Zelle positiv besetzt ist. Davon unber¨ uhrt bleibt die Voraussetzung, dass es keine Leerzeilen“ geben darf, d.h. ni• > 0, f¨ ur i = 1, . . . , k. ” Tabelle 5.1.10: Beispiel maximaler Abh¨ angigkeit in nichtquadratischer Tabelle Raucher weiblich m¨annlich Summe

Gelegenheitsraucher 0 30 30

Nichtraucher

0 30 30

Summe

40 0 40

40 60 100

• Maximale Abh¨ angigkeit in quadratischen Tabellen • Im Falle quadratischer Kontingenztabellen (k = l), liegt maximale Abh¨angigkeit genau dann vor, falls von der Auspr¨agung des einen Merkmals direkt und eindeutig auf die Auspr¨agung des anderen Merkmals geschlossen werden kann. Dies bedeutet, dass alle von 0 verschiedenen H¨aufigkeiten in einer Diagonalstruktur angeordnet sind oder sich in eine solche durch Spaltenoder Zeilenvertauschungen anordnen lassen. Tabelle 5.1.11 illustriert dieses Kriterium der Diagonalisierbarkeit“ anhand einer (4 × 4)-Tabelle. ” Tabelle 5.1.11: Maximale Abh¨ angigkeit in quadratischer Tabelle a1 a2 a3 a4 Summe

b1 n11 > 0 0 0 0 n•1 = n11

b2 0 n22 > 0 0 0 n•2 = n22

b3 0 0 n33 > 0 0 n•3 = n33

b4 0 0 0 n44 > 0 n•4 = n44

Summe n1• = n11 n2• = n22 n3• = n33 n4• = n44 n

uhe l¨asst sich zeigen, dass • Berechnungsformel f¨ ur (2 × 2)-Tabellen • Mit etwas M¨ sich die Formel des Chi-Quadrat-Koeffizienten im Falle von (2 × 2)-Tabellen in gewisser Weise vereinfacht. F¨ ur k = l = 2 gilt: n(n11 n22 − n12 n21 )2 . (5.1.8) n•1 n•2 n1• n2• Sofern man beispielsweise in Tabelle 5.1.9 der vorhergehenden Abschnitts die Kategorie der Nichtraucher augenblicklich ignoriert, ergibt sich f¨ ur die verbleibende (2×2)-Tabelle mit noch insgesamt 36 Beobachtungswerten ein Koeffizient von χ2 =

36(4 · 12 − 12 · 8)2 = 0.9. 12 · 24 · 16 · 20 Bei einem theoretischen Maximalwert von (M − 1) · n = (2 − 1) · 36 = 36, erscheint die Pr¨aferenz zwischen regelm¨ aßigem und gelegentlichem Rauchen bei M¨annern und Frauen nicht stark verschieden. χ2 =

5.1 Zusammenh¨ange zwischen kategorialen Merkmalen

119

• Zwischenschritt zum Kontingenzkoeffizienten • Als rein deskriptives Maß ist der Chi-Quadrat-Koeffizient von eher untergeordneter Bedeutung. Vielmehr wird er h¨aufig nur als Zwischenschritt in der Berechnung des (korrigierten) Kontingenzkoeffizienten nach Pearson verwendet. Seine eigentliche Verwendung findet er jedoch als Teststatistik im Rahmen des Chi-Quadrat-Unabh¨ angigkeitstests (Abschnitt ¨ 11.3.3). Mit auf Wahrscheinlichkeitskalk¨ ul basierenden Uberlegungen lassen sich dabei seine Werte vor dem Hintergrund statistischer Probleme sinnvoll einordnen und interpretieren. Chi-Quadrat-Koeffizient Gegeben sei eine (k×l)-Kontingenztabelle der absoluten H¨aufigkeiten nij mit positiven Randh¨aufigkeiten, d.h. ni• > 0 und n•j > 0 f¨ ur alle i = 1, . . . , k und j = 1, . . . , l. Dann ist der Chi-Quadrat-Koeffizient definiert als 2  n n k X l nij − i•n •j X . χ2 = ni• n•j i=1 j=1

n

Speziell f¨ ur (2 × 2)-Tabellen gilt: n(n11 n22 − n12 n21 )2 . n•1 n•2 n1• n2• Es gilt: χ2 ∈ [0, (M − 1) · n], wobei M = min(k, l). χ2 =

Mittlere quadratische Kontingenz • Definition und Rechenbeispiel • Das von Karl Pearson [1904, S. 6] als mittlere quadratische Kontingenz ( mean square contingency“) bezeichnete Maß φ2 (lies: Phi ” Quadrat) ergibt sich unmittelbar aus dem Chi-Quadrat-Koeffizienten bei Division durch n: 1 φ2 = χ 2 . n Es gilt: 2 2   ni• n•j ni• n•j nij k l k X l X n − n·n 1 2 n X X nij − n χ = 2 = ni• n•j ni• n•j n n i=1 j=1 n n·n i=1 j=1 2 l k X X fij − fi• f•j = fi• f•j i=1 j=1 Prinzipiell gen¨ ugt zur Bestimmung der mittleren quadratischen Kontingenz die Kenntnis der gemeinsamen relativen Verteilung der beiden Merkmale. Setzt man das Beispiel

120

5 Beschreibung und Analyse empirischer Zusammenh¨ange

des vorigen Abschnitts fort, so erh¨ alt man 1 2 1.875 2 φ = χ = = 0.01875. n 100 • Wertebereich und Interpretation • Aus den vorhergehenden Ausf¨ uhrungen zum Chi-Quadrat-Koeffizienten folgt unmittelbar als Wertebereich [ 0, M − 1] Der maximale Wert des φ2 -Koeffizienten ist k − 1, falls k ≤ l bzw. l − 1, falls l ≤ k. Bei einer (2 × 3)-Tabelle wie in Tabelle 5.1.9 w¨ urde ein Wert von 1 somit einer Situation maximaler Abh¨angigkeit entsprechen. Da der Wertebereich nur noch von den Dimensionen der Tabelle abh¨ angt, lassen sich Zusammenh¨ange nun auch u ¨ber verschiedene gleichdimensionierte Tabellen hinweg vergleichen. Hinsichtlich der Interpretation ergibt sich somit kein Unterschied zum ChiQuadrat-Koeffizienten. Die Summe aller Abweichungsterme wird lediglich auf alle Beobachtungswerte ¨ ahnlich wie bei einer Durchschnittsbetrachtung umgelegt. Mittlere quadratische Kontingenz Die mittlere quadratische Kontingenz ist definiert als 2 l k 1 2 X X fij − fi• f•j 2 φ = χ = . n fi• f•j i=1 j=1 Dabei bezeichnet χ2 den Chi-Quadrat-Koeffizienten. Es gilt: φ2 ∈ [0, (M − 1)], wobei M = min(k, l).

Kontingenzkoeffizient nach Pearson • Definition und Wertebereich • Der ebenfalls von Karl Pearson [1904, S. 9] vorgeschlagene Kontingenzkoeffizient ( first coefficient of contingency“) ist das wohl be” kannteste Maß zur Quantifizierung von Abh¨ angigkeit in Kontingenztabellen. Er baut direkt auf dem Chi-Quadrat-Koeffizienten bzw. der mittleren quadratischen Kontingenz und ist definiert als s s χ2 φ2 = . C= χ2 + n φ2 + 1 Es ist schnell ersichtlich, dass der Wert des Kontingenzkoeffizienten stets kleiner 1 ist. Aus den Erkenntnissen des vorhergehenden Abschnitts ergibt sich unmittelbar  p  C ∈ 0, (M − 1)/M , wobei M = min(k, l). Der theoretische Maximalwert des Kontingenzkoeffizienten strebt f¨ ur wachsende Zeilenund Spaltenanzahl gegen 1. Im Falle einer (2 × 3)-Tabelle w¨are der Wertebereich von C p [0, 1/2] ≈ [0.0.7071],

5.1 Zusammenh¨ange zwischen kategorialen Merkmalen

121

bei einer (6 × 4)-Tabelle dagegen p [0, 3/4] ≈ [0.0.8660]. • Korrigierter Kontingenzkoeffizient • Um im Falle maximaler Abh¨angigkeit den Wert 1 zu erhalten, muss der Kontingenzkoeffizient lediglich mit dem Kehrwert des theoretischen Maximalwertes multipliziert werden. Diese Modifikation f¨ uhrt zum korrigierten Kontingenzkoeffizienten p CK = C M/(M − 1) mit Wertebereich [0, 1]. Der Wertbereich des korrigierten Koeffizienten ist nun sowohl von der Anzahl der Beobachtungen als auch von der Dimension der Tabelle unabh¨angig. Abh¨angigkeiten auch unterschiedlich dimensionierter Tabellen lassen sich direkt vergleichen. • Beispiel 5.1.2 • Zusammenfassend erh¨ alt man beispielsweise f¨ ur die Daten aus Tabelle 5.1.9 den Wert χ2 = 1.875. Da die Daten auf insgesamt n = 100 Beobachtungen beruhen, folgt weiter s r χ2 1.875 = ≈ 0.1357. C= χ2 + n 1.875 + 100 Mit M = min(k, l) = min(2, 3) = 2 ergibt sich schließlich p p CK = C M/(M − 1) = 0.1357 · 2/1 ≈ 0.1919. • Interpretation • Der korrigierte Kontingenzkoeffizient ist gleich 0, falls keine Abh¨angigkeit vorliegt. Im Falle maximaler Abh¨angigkeit ist er gleich 1. Je n¨aher der Wert bei 1 liegt, desto st¨ arker ist der Zusammenhang ausgepr¨agt. Ohne Weiteres wird jedoch nicht ersichtlich, worauf die konkrete Gestalt des (korrigierten) Koeffizienten begr¨ undet ist. Tats¨ achlich stellte Pearson u ¨ber die bivariate Normalverteilung eine theoretische Verbindung zwischen Kontingenzkoeffizient und Korrelationskoeffizient (Abschnitt 5.2.2) her. Letzteres Zusammenhangsmaß, das er bereits 1896 eingef¨ uhrt hatte, ist heute noch das bedeutendste u ¨berhaupt. Wie auch beim Chi-QuadratKoeffizienten und bei der mittleren quadratischen Kontingenz l¨asst sich anhand des Wertes des (korrigierten) Kontingenzkoeffizienten nicht ersehen, in welcher Weise zwei Merkmale zusammenh¨ angen. Ein von 0 verschiedener Wert deutet lediglich darauf hin, dass sich die bedingten Verteilungen unterscheiden. Eine eingehende Interpretation st¨ utzt sich deshalb auch immer auf eine genaue Analyse der bedingten Verteilungen der Tabelle bzw. Studium unterst¨ utzender Grafiken (Abschnitt 5.1.3). • Anmerkung zur Einordnung der St¨ arke von Zusammenh¨ angen • Bezogen auf den theoretischen Maximalwert von 1 k¨ onnte man im vorliegenden Beispiel mit CK = 0.19 von einer schwach ausgepr¨ agten Abh¨angigkeit sprechen. Was als schwache“ ” oder starke“ Abh¨ angigkeit zu beurteilen ist, h¨angt jedoch stets vom jeweiligen fach” lichen Kontext ab. So mag die empirische Feststellung, dass der Anteil von Rauchern unter M¨annern doppelt so groß ist wie unter Frauen in Fachkreisen durchaus relevant und wichtig sein, auch wenn der Abgleich des Chi-Quadrat-Koeffizienten mit dem theoretischen Maximalwert zu einem anderen Ergebnis f¨ uhrt. Wichtiger und sinnvoller als

122

5 Beschreibung und Analyse empirischer Zusammenh¨ange

eine bloße numerische Einordnung ist deshalb h¨aufig die Frage, wie relevant gemessene Unterschiede und Abh¨ angigkeiten tats¨ achlich sind. Deshalb macht es nach unserem Daf¨ urhalten auch keinen Sinn, Begriffe wie schwach“, mittelstark“ oder stark“ an” ” ” hand einer zugrunde liegenden numerischen Werteskala zu definieren. Kontingenzkoeffizient nach Pearson Gegeben sei eine (k×l)-Kontingenztabelle der absoluten H¨aufigkeiten nij mit positiven Randh¨aufigkeiten, d.h. ni• > 0 und n•j > 0 f¨ ur alle i = 1, . . . , k und j = 1, . . . , l. Dann ist der Kontingenzkoeffizient nach Pearson definiert als  2 s s ni• n•j k X l n − 2 2 X ij n χ φ = , wobei χ2 = C= ni• n•j χ2 + n φ2 + 1 n i=1 j=1  p  Es gilt C ∈ 0, (M − 1)/M , wobei M = min(k, l). Der korrigierte Kontingenzkoeffizient nach Pearson ist definiert als p CK = C M/(M − 1) Es gilt: CK ∈ [0, 1].

Transformationseigenschaften der Zusammenhangsmaße • Invarianz gegen¨ uber Zeilen- und Spaltenvertauschungen • Es sollte einleuchten, dass der Chi-Quadrat-Koeffizient unver¨ andert bleibt, sofern man die Kategorien der zugrunde liegenden Kontingenztabelle in den Zeilen oder Spalten anders anordnet. Man k¨onnte beispielsweise in Tabelle 5.1.9 (Abschnitt 5.1.1) die Kategorie m¨annlich“ ” genauso so gut auch in der ersten und die Kategorie weiblich“ in der zweiten Zeile un” terbringen. Diese Invarianz des Chi-Quadrat-Koeffizienten gegen¨ uber Zeilen- und Spaltenvertauschungen wird auch an alle abgeleiteten Maße wie die mittlere quadratische Kontingenz oder den Kontingenzkoeffizienten (nichtkorrigiert oder korrigiert) weitervererbt. ¨ • Aquivarianz des Chi-Quadrat-Koeffizienten gegen¨ uber Multiplikationen • Ein weiterer wichtiger Gesichtspunkt ist die Frage, ob ein Zusammenhangsmaß invariant gegen¨ uber Multiplikationen ist. Dazu betrachte man als einfaches Beispiel zun¨achst folgende beiden Kontingenztabellen. Tabelle 5.1.12: Gleichstarker Zusammenhang bei unterschiedlichen Besetzungsh¨ aufigkeiten weiblich m¨annlich

Raucher 10 20

Nichtraucher 90 80

weiblich m¨annlich

Raucher 1 2

Nichtraucher 9 8

5.1 Zusammenh¨ange zwischen kategorialen Merkmalen

123

In der linken Tabelle liegen insgesamt 200 Beobachtungen vor, in der rechten Tabelle lediglich 20 Beobachtungen. Man erh¨ alt die H¨aufigkeiten der linken Tabelle, indem man die gesamte rechte Tabelle mit 10 multipliziert. Die gemeinsame relative Verteilung ist v¨ollig identisch. Dadurch stimmen die bedingten Verteilungen von linker und rechter Tabelle u agt der Raucheranteil sowohl links als auch rechts 10% ¨berein. So betr¨ bei den Frauen und 20% bei den M¨ annern. Aufgrund der gr¨oßeren H¨aufigkeiten auf der linken Seite ergeben sich dort jedoch auch gr¨ oßere erwartete H¨aufigkeiten und dadurch gr¨ oßere Abweichungen. Der Chi-Quadrat-Koeffizient betr¨agt rechts 3.921569 und links 39.21569. Damit ist χ2 wie auch jede einzelne H¨ aufigkeit links 10 Mal so groß wie rechts. Das ist nat¨ urlich kein Zufall. Sofern alle H¨ aufigkeiten nij einer (k ×l)-Kontingenztabelle mit c > 0 multipliziert werden, resultieren daraus Randh¨aufigkeiten cni• und cn•j die ebenfalls c Mal so groß sind. Insgesamt liegen dann auch c Mal so viele Beobachtungen vor. Nun gilt aber f¨ ur jedes c > 0:  2 2  cn cn n n k X l k X l cnij − i•cn •j nij − i•n •j X X =c = cχ2 . cni• cn•j ni• n•j i=1 j=1

cn

i=1 j=1

n

Der Chi-Quadrat-Koeffizient der mit c durchmultiplizierten Tabelle ist folglich c Mal so groß wie zuvor. Damit ist der Chi-Quadrat-Koeffizient ¨ aquivariant ( gleich ” ver¨andernd“) gegen¨ uber Multiplikationen der Tabelle mit positiven Konstanten. • Invarianz aller anderen Maße gegen¨ uber Multiplikationen • Die mittlere quadratische Kontingenz ist jedoch invariant ( nicht ver¨andernd“) gegen¨ uber solchen ” Multiplikationen. Dies ergibt sich aus der Tatsache, dass diese von den absoluten H¨aufigkeiten unabh¨angig ist und auch allein unter Kenntnis der relativen H¨aufigkeiten berechnet werden kann. So gilt:  2 l k X fij − fi• f•j X 1 . φ2 = χ 2 = n fi• f•j i=1 j=1 Wegen s C=

χ2 = 2 χ +n

s

φ2 +1

φ2

u ¨bertr¨agt sich die Invarianz der mittleren quadratischen Kontingenz auch auf den Kontingenzkoeffizienten (nichtkorrigiert oder korrigiert). Im vorliegenden Beispiel erh¨alt man deshalb sowohl in der linken als auch in der rechten Tabelle CK = 0.2863. • Invarianz und statistisches Problem • Dies bedeutet, dass bei identischer relativer Verteilung stets der gleiche Kontingenzkoeffizient ermittelt wird, selbst bei h¨ochst unterschiedlicher Anzahl von Beobachtungswerten. Vor dem Hintergrund, dass relative Besetzungsh¨aufigkeiten bei kleinerer Anzahl von Beobachtungswerten weniger aussa” gekr¨aftig“ sein sollten, mag diese Tatsache sicherlich nicht zufriedenstellend sein. So k¨ onnten die Abweichungen der beiden Zeilenverteilungen in der rechten Tabelle ja rein zuf¨allig“ sein. Die Vermutung, dass im rechten Fall m¨oglicherweise keine Abh¨angigkeit ” vorliegt, l¨asst sich anhand der wenigen Daten nicht entkr¨aften. Es ergibt sich damit ein

124

5 Beschreibung und Analyse empirischer Zusammenh¨ange

statistisches Problem (vgl. Abschnitt 1.2.2). Die induktive Statistik (Teil 3) stellt hier unter der Verwendung der Wahrscheinlichkeitstheorie einen hilfreichen Methodenapparat zur Verf¨ ugung, mit dem sich statistische Maße auch vor dem Hintergrund der Stichprobengr¨oße sinnvoll interpretieren lassen. Im vorliegenden Fall ist insbesondere auf den Chi-Quadrat-Unabh¨ angigkeitstest (Abschnitt 11.3.3) zu verweisen. Invarianzeigenschaften der Zusammenhangsmaße Gegeben sei eine (k×l)-Kontingenztabelle der absoluten H¨aufigkeiten nij mit positiven Randh¨aufigkeiten, d.h. ni• > 0 und n•j > 0 f¨ ur alle i = 1, . . . , k und j = 1, . . . , l. (i) Chi-Quadrat-Koeffizient χ2 , mittlere quadratische Kontingenz φ2 und Kontingenzkoeffizient (C und CK ) sind invariant gegen¨ uber Zeilen- und Spaltenvertauschungen. (ii) Gegen¨ uber einer Multiplikation aller H¨aufigkeiten nij mit c > 0 erweist sich χ2 als ¨aquivariant. Die Maße φ2 , C und CK sind dagegen invariant.

5.1.3 Grafische Analysem¨ oglichkeiten Gestapelte und gruppierte S¨ aulendiagramme • Konzept und Beispiel • Die grafische Darstellung von Verteilungen in Kontingenztabellen erfolgt typischerweise mithilfe von S¨ aulendiagrammen. Die konkrete Gestaltung h¨angt davon ab, welche Erkenntnisse jeweils in den Vordergrund gestellt werden sollen. In einem gestapelten S¨ aulendiagramm werden die absoluten H¨ aufigkeiten der einzelnen Kategorien u aulendiagramm ne¨bereinander, in einem gruppierten S¨ beneinander dargestellt. Abbildung 5.1.4 zeigt die absolute H¨aufigkeitsverteilung der beiden Merkmale Geschlecht“ und Art der Straftat“ in Deutschland verurteilter Deut” ” scher und Ausl¨ander f¨ ur das Jahr 2012 mit angef¨ ugter Kodierung (Quelle: Statistisches Bundesamt). S DU BU VA K PA BM ¨ U

Straftaten im Straßenverkehr Diebstahl und Unterschlagung Betrug und Urkundenf¨ alschung Andere gegen das Verm¨ ogen (Raub, Erpressung, Beg¨ unstigung, Hehlerei, Sachbesch¨ adigung, usw.) K¨orperverletzung Andere gegen die Person (Mord, Totschlag, gegen die sexuelle Bestimmung, Beleidigung, usw.) Straftaten gegen das Bet¨ aubungsmittelgesetz ¨ Ubrige Straftaten

5.1 Zusammenh¨ange zwischen kategorialen Merkmalen

125

Abb. 5.1.4: Gestapeltes und gruppiertes S¨ aulendiagramm f¨ ur absolute H¨ aufigkeitsverteilungen 200 000

männlich weiblich

175 000 150 000

200 000 150 000

125 000

125 000

100 000

100 000

75 000

75 000

50 000

50 000

25 000

25 000

0

S DU BU VA K PA BM Ü

175 000

0 S

DU

BU

VA

K

PA

BM

Ü

weiblich

männlich

Daten: Statistisches Bundesamt [2014c] • Stapelung vs. Gruppierung • Die Stapelung bringt den Vorteil mit sich, die Randverteilung eines Merkmals direkt ablesen zu k¨ onnen. Im vorliegenden Fall wird dadurch beispielsweise schnell ersichtlich, dass Straftaten im Straßenverkehr und Diebstahldelikte zu den h¨aufigsten z¨ ahlen. Mit der Gruppierung l¨asst sich dagegen die zahlenm¨aßige Reihenfolge der einzelnen Delikte innerhalb der beiden Geschlechter einfacher bestimmen. Insbesondere bei den M¨ annern w¨ urde eine solche Bestimmung in der gestapelten Variante n¨amlich deutlich schwerer fallen. Aus der gruppierten Variante geht schnell hervor, dass M¨anner am h¨ aufigsten f¨ ur Straftaten im Straßenverkehr und Frauen am h¨aufigsten f¨ ur Diebstahl und Unterschlagung verurteilt wurden. Insgesamt f¨allt die Reihenfolge f¨ ur die beiden Geschlechter verschieden aus. Dass der u ¨berwiegende Teil der Straftaten in allen Kategorien von M¨ annern begangen wird, l¨asst sich jedoch aus beiden Darstellungen gleichermaßen deutlich ersehen.

Segmentierte S¨ aulen- und Balkendiagramme Fallen wie im vorliegenden Beispiel die Randh¨aufigkeiten eines Merkmals sehr unterschiedlich aus, f¨allt es allgemein schwer, bestehende Abh¨angigkeitsstrukturen abzulesen. In solchen Situationen ist es besser, die bedingten Verteilungen anhand segmentierter S¨ aulen- oder Balkendiagramme (horizontales S¨aulendiagramm) darzustellen. Im Falle zweier Merkmale bestehen dabei immer zwei M¨oglichkeiten zu bedingen (Abb. 5.1.5). Abb. 5.1.5: Segmentiertes S¨ aulen- und Balkendiagramm f¨ ur bedingte Verteilungen 100 80 %

männlich

60 40 weiblich

20 0 S

DU

BU

VA

männlich

K

PA

BM

weiblich

Ü

0

20 S DU

40 BU VA

60 K PA

Daten: Statistisches Bundesamt [2014c]

80 BM Ü

100

126

5 Beschreibung und Analyse empirischer Zusammenh¨ange

Da M¨anner in allen Kategorien viel ¨ ofter Straftaten begehen, oder jedenfalls f¨ ur solche verurteilt werden, mag im vorliegenden Fall eine bedingende Betrachtung auf der Art der Straftat weniger interessant sein als eine Darstellung des geschlechtsspezifischen Musters. Die unterschiedlichen geschlechtsspezifischen Profile k¨onnen so leichter verglichen werden. Der korrigierte Kontingenzkoeffizient von Geschlecht und Straftat betr¨agt hier CK = 0.2507.

Assoziationsplots • Konzept • Zwischen zwei Merkmalen besteht genau dann eine empirische Abh¨ angigkeit, falls sich die bedingten Verteilungen unterscheiden (Abschnitt 5.1.1). Die Abweichungen von der Unabh¨ angigkeit“ werden dabei durch die Differenzen ” ni• n•j nij − (5.1.9) n erfasst, die in den Chi-Quadrat-Koeffizienten in Form der Summanden  2 n n nij − i•n •j (5.1.10) ni• n•j n

eingehen (Abschnitt 5.1.2). Eng verwandt dazu sind die sog. Pearson-Residuen ni• n•j n ni• n•j n

nij − q

.

(5.1.11)

Der auf Cohen [1980] zur¨ uckgehende und von Friendly [1992] weiter entwickelte Assoziationsplot stellt die Pearson-Residuen in Form von S¨aulen dar (Abb. 5.1.6). Je nach Vorzeichen der Residuen zeigen die S¨ aulen entsprechend nach oben oder unten. Die H¨ohen der S¨ aulen sind dabei proportional zu den absoluten Betr¨agen der PearsonResiduen, die Breiten sind proportional zu den Termen im Nenner r ni• n•j . (5.1.12) n Dadurch entsprechen die Fl¨ achen der S¨ aulen den absoluten Betr¨agen der Abweichungen (5.1.9). Die Intention des Assoziationsplots besteht darin, die Unterschiede der bedingten Verteilungen herauszustellen. • Beispiel 5.1.3 • Aus Abbildung 5.1.6 geht schnell hervor, dass bei Frauen Straftaten im Zusammenhang von Diebstahl, Unterschlagung, Betrug und Urkundenf¨alschung (Verm¨ogensdelikte) verh¨ altnism¨ aßig stark und bei M¨annern verh¨altnism¨aßig schwach vertreten sind. Bei M¨ annern lassen sich Abweichungen nach oben hin vor allem im Bereich Gewalt (K¨ orperverletzung, Mord, Sexualdelikte usw.) oder im Zusammenhang des Bet¨aubungsmittelgesetzes feststellen. Aus den Breiten der S¨aulen geht hervor, dass die zu erwartenden H¨ aufigkeiten bzw. die Wurzel aus diesen, (5.1.12), bei den M¨annern deutlich gr¨oßer sind als bei den Frauen. Dies liegt daran, dass M¨anner viel mehr Straftaten begehen als Frauen. Ein weiteres anschauliches Beispiel findet sich in Abschnitt 5.3.2 (Abb. 5.3.11).

5.1 Zusammenh¨ange zwischen kategorialen Merkmalen

127

Abb. 5.1.6: Assoziationsplot f¨ ur Abweichungen von der Unabh¨ angigkeit S

DU

BU

VA

K

PA

BM

Ü

weiblich

männlich

Daten: Statistisches Bundesamt [2014c]

Mosaikplots • Konzept • Die von Hartigan und Kleiner [1981, 1984] vorgeschlagenen und von Friendly [1994] weiter entwickelten Mosaikplots, beinhalten eine Art segmentierter S¨aulen- oder Balkendiagramme, wobei die Breiten der S¨aulen bzw. Balken der relativen H¨ aufigkeitsverteilung eines der beiden Merkmale entsprechen. Die Fl¨achen der einzelnen Segmente korrespondieren dann direkt mit der gemeinsamen Verteilung der beiden Merkmale. Sie sind proportional zu den relativen H¨aufigkeiten fij und damit auch zu den absoluten H¨aufigkeiten nij = fij × n. Mosaikplots bringen den Vorteil mit sich, dass sich in gewisser Weise auch die Relevanz festgestellter Unterschiede vor dem Hintergrund der auftretenden H¨aufigkeiten bewerten l¨asst. So sollten relative Unterschiede in den h¨aufiger auftretenden Kategorien i.A. mehr Beachtung finden als Unterschiede in eher selten auftretenden Kategorien. Abb. 5.1.7: Mosaikplots f¨ ur gemeinsame Verteilungen S

DU

BU

VA

männlich

K PA BM Ü

weiblich

S DU weiblich

BU VA

männlich

K PA BM Ü

Daten: Statistisches Bundesamt [2014c]

• Beispiel 5.1.4 • Auf der linken Seite von Abbildung 5.1.7 wird die Verteilung des Merkmals Geschlecht“ bedingt auf der Art der Straftat dargestellt, wobei die Breiten ” der S¨aulen der relativen Randverteilung des Merkmals Art der Straftat“ entsprechen. ” Auf der rechten Seite ist die Verteilung des Merkmals Art der Straftat“ bedingt auf ” Geschlecht zu sehen, wobei die Breiten der S¨ aulen mit den Anteilen der Geschlechter korrespondieren.

128

5 Beschreibung und Analyse empirischer Zusammenh¨ange

Angenommen das Merkmal Geschlecht“ korrespondiert mit den Zeilen und ” das Merkmal Art der Straftat“ mit den Spalten der zugrunde liegenden (2 × 8)” Kontingenztabelle. Unter Verwendung konventioneller Notation (Abschnitt 5.1.1) ergeben sich dann H¨ ohe h11 und Breite b11 des S¨aulensegments f¨ ur die 1. Zelle (1. Zeile, 1. Spalte) als n11 n•1 h11 = bzw. b11 = . n•1 n Daraus folgt f¨ ur die Fl¨ ache dieses Segments n11 n•1 n11 = = f11 . × n•1 n n Sie entspricht also wie postuliert der relativen H¨aufigkeit der gemeinsamen Verteilung. • H¨ oherdimensionale Mosaikplots • Mosaikplots lassen sich auf h¨oherdimensionale Daten (Darstellung von mehr als 2 Variablen gleichzeitig) erweitern. Beispiele hierf¨ ur finden sich in Abschnitt 5.3.2.

Spineplots • Konzept • Auch Spineplots sind Spezialformen segmentierter S¨aulendiagramme und eng mit den Mosaikplots verwandt. Im Unterschied zu diesen entstehen zwischen den einzelnen Segmenten einer S¨ aule jedoch keine L¨ ucken. Außerdem befindet sich am Rand in der Regel eine Skalenachse, anhand derer sich die relativen Anteile absch¨atzen lassen. Daf¨ ur lassen sich Spineplots nicht wie Mosaikplots auf h¨oherdimensionale Daten erweitern. • Beispiel 5.1.5 • Abbildung 5.1.8 zeigt das Ergebnis einer Befragung von insgesamt 206 Studierenden bez¨ uglich der beiden Fragen Glauben Sie an (einen) Gott (h¨ oheres ” Wesen)?“ und Ist an Sternzeichen etwas Wahres dran?“. Die Antwortkategorien lau” teten: −2 f¨ ur auf keinen Fall“, −1 f¨ ur eher Nein“, 0 f¨ ur neutral bzw. weiß nicht“, 1 ” ” ” f¨ ur eher Ja“ und 2 f¨ ur auf jeden Fall“. Die korrespondierende Kontingenztabelle mit ” ” allen absoluten H¨ aufigkeiten der gemeinsamen Verteilung findet sich als Tabelle 5.3.2 in Abschnitt 5.3.1.

1.0 0.8 0.6

1

0.4

0

−2

−1

0

1

2

0.0

0.0

−2

0.2

Sternzeichen

0.2

−1

0.6 0.4

0 −1 −2

Glaube

1

0.8

2

2

1.0

Abb. 5.1.8: Spineplots: Glaube an Gott und Einstellung zu Sternzeichen

−2

−1

Sternzeichen

Daten: Eigene Erhebungen

0

Glaube

1

2

5.2 Zusammenh¨ange zwischen metrischen Merkmalen

129

Aus der linken Grafik von Abbildung 5.1.8 ist beispielsweise ersichtlich, dass die Studierenden am h¨aufigsten u ¨berhaupt nichts von Sternzeichen halten. Die Einstellung eher ” Ja“ und auf jeden Fall“ findet sich nur bei einer relativ kleinen Minderheit. Aus der ” rechten Grafik ist ersichtlich, dass die verschiedenen Haltungen zu einem Gottesglauben dagegen deutlich gleichm¨ aßiger verteilt sind. Insbesondere sticht in der rechten Grafik deutlicher hervor, dass ein h¨ oherer Gottesglaube tendenziell mit einer st¨arkeren Bef¨ urwortung von Sternzeichen einhergeht.

5.2 Zusammenh¨ ange zwischen metrischen Merkmalen Streudiagramme bilden die grafische Ausgangsbasis bei der Analyse von Zusammenh¨angen zwischen metrischen Merkmalen. Aus solchen l¨asst sich St¨arke, Richtung und Art eines Zusammenhangs recht schnell ersehen. Der Korrelationskoeffizient nach Pearson ist das bekannteste und am h¨aufigsten verwendete Zusammenhangsmaß u ¨berhaupt. Er basiert auf der Kovarianz und misst die St¨arke der linearen Abh¨angigkeit. Eine einfache funktionale Beschreibung f¨ ur den Zusammenhang zweier metrischer Merkmale im Sinne einer Geradengleichung erh¨alt man u ¨ber die Technik der linearen Regression. Die bedeutendste Regressionstechnik ist dabei die Kleinste-Quadrate-Methode.

5.2.1 Grafische Analysem¨ oglichkeiten Die grafische Standardform zur Darstellung von Zusammenh¨angen metrischer Merkmale ist das Streudiagramm, zu dem vielf¨ altige Modifikationsm¨oglichkeiten existieren.

Streudiagramme • Konzept • Bei vorliegenden metrischen zweidimensionalen Beobachtungswerten (x1 , y1 ), . . . , (xn , yn ) wird jede Beobachtung in einem zweidimensionalen Diagramm als Beobachtungspunkt eingetragen. Dabei werden die x-Werte u ¨blicherweise als Koordinaten horizontaler und die y-Werte als Koordinaten vertikaler Richtung gelesen. Sofern zwischen den beiden Merkmalen X und Y keine Abh¨angigkeit mit eindeutiger kausaler Richtung besteht, kann diese Zuordnung auch vertauscht werden. Ansonsten wird das kausal abh¨ angige Merkmal u ¨blicherweise auf der Vertikalachse abgetragen und ¨ das kausal beeinflussende Merkmal auf der Horizontalachse. Uber die M¨oglichkeit, die einzelnen Beobachtungspunkte unterschiedlich darzustellen, kann außerdem noch eine dritte Variable mit ber¨ ucksichtigt werden, womit man im Prinzip eine dreidimensionale Verteilungsdarstellung erh¨ alt (3 Variablen). • Beispiel 5.2.1 • Abbildung 5.2.1 zeigt zwei Streudiagramme f¨ ur die Merkmale Gr¨oße“, Gewicht“ und Geschlecht“ von Studierenden. In der rechten Variante wur” ” ” den unterschiedliche Symbole f¨ ur die beiden Geschlechter gew¨ahlt. Es zeigt sich dabei, dass sich der rechte Teil der Punktwolke vor allem aus m¨annlichen Studierenden zusammensetzt und der linke Teil eher aus weiblichen.

130

5 Beschreibung und Analyse empirischer Zusammenh¨ange

• Richtung von Zusammenh¨ angen • Aus der Gestalt der resultierenden zweidimensionalen Punktwolke lassen sich Art und Richtung m¨oglicher Abh¨angigkeiten h¨aufig schon gut feststellen. Eine aufsteigende Punktwolke wie im vorliegenden Fall deutet auf einen positiven Zusammenhang hin. Dies bedeutet, dass gr¨oßere x-Werte tendenziell mit gr¨ oßeren y-Werten einhergehen. Im Beispiel ist es nat¨ urlich wenig u ¨berraschend, dass gr¨ oßere Studierende tendenziell auch schwerer sind. Bei abfallender Punktwolke gehen gr¨ oßere x-Werte dagegen tendenziell mit kleineren y-Werten einher. Es besteht dann ein negativer Zusammenhang . Nat¨ urlich k¨onnen sich auch anderweitige Abh¨ angigkeitsstrukturen ergeben, die sich nicht u ¨ber derartig einfache Richtungsangaben beschreiben lassen. Abb. 5.2.1: Einfaches Streudiagramm und Streudiagramm mit kategorialer Einf¨ arbung

kg

140

140

120

120

100

kg

80

100 80

60

60

40

40 150

160

170

180

190

200

210

weiblich männlich

150

160

cm

170

180

190

200

210

cm

Daten: Eigene Erhebungen Abb. 5.2.2: Darstellung der Randverteilungen

150

160

170 180 190 Größe in cm

200

210

40

60

80 100 Gewicht in kg

120

140

Daten: Eigene Erhebungen

• Zweidimensionale Ausreißer • Aus Streudiagrammen werden ein- und zweidimensionale Ausreißer schnell ersichtlich. Im vorliegenden Beispiel fallen zwei Ausreißer ins Auge, die sich nicht so recht in die Punkwolke einf¨ ugen. Es handelt sich dabei um zwei m¨ annliche Studierende, die beide etwas gr¨ oßer sind als 180 cm. Einer der beiden ist deutlich schwerer, der andere deutlich leichter als das Gros in dieser Gr¨oßenklasse. Abbildung 5.2.2 verdeutlicht, dass h¨ oherdimensionale Ausreißer in niedrigeren Dimensionen nicht zwingend identifizierbar sein m¨ ussen. So ist lediglich der weit nach oben abweichende Wert noch als Ausreißer erkennbar. Der untere Ausreißer f¨allt in der Gesamtheit aller Gewichte dagegen nicht mehr auf.

5.2 Zusammenh¨ange zwischen metrischen Merkmalen

131

Streudiagramm-Matrizen • Konzept • M¨ochte man Zusammenh¨ ange innerhalb einer gr¨oßeren Menge metrischer Merkmale untersuchen, bietet sich zun¨ achst die Erstellung einer StreudiagrammMatrix an. In einer solchen werden die Streudiagramme f¨ ur alle paarweisen Kombinationen zwischen den Merkmalen organisiert. Entsprechend ihrem Aufbau ist die Matrix symmetrisch. Jedes Diagramm liegt quasi zweimal vor, einmal in der oberen Dreiecksh¨alfte und einmal gespiegelt in der unteren H¨alfte. Manchmal wird auch auf den oberen oder unteren Block an Nebendiagonalen verzichtet. • Beispiel 5.2.2 • Abbildung 5.2.3 zeigt eine (4×4)-Streudiagramm-Matrix der Merkmale Gr¨oße“, Gewicht“, Schuhgr¨ oße“ und Schlaf“. Das Diagramm in Spalte 1 und ” ” ” ” Zeile 3 korrespondiert beispielsweise direkt mit Abbildung 5.2.1. Mit der Variablen Schlaf“ wurde die durchschnittliche t¨ agliche Schlafdauer (in Stunden) erfragt. Es wird ” schnell ersichtlich, dass zwischen allen physischen Merkmalen jeweils positive Zusammenh¨ange bestehen. Dagegen scheinen keinerlei Zusammenh¨ange zur Variablen Schlaf“ ” zu bestehen. Entsprechende Punktwolken weisen jedenfalls keine deutbaren Abh¨angigkeitsstrukturen auf. Inhaltlich erscheint dies plausibel, auch wenn hier zumindest gewisse Formen von Scheinabh¨ angigkeit denkbar w¨aren (Abschnitt 5.3.3). Abb. 5.2.3: Streudiagramm-Matrix 170

180

190

200

36

38

40

42

44

46

48

9

10

160

48

5

6

7

8

Schlaf

100 120

36

40

44

Schuhgröße

200

60

80

Gewicht

160

180

Größe 60

80

100

120

5

6

7

8

9

10

Daten: Eigene Erhebungen • Hilfsmittel f¨ ur Datenscreening“ und Modellbildung • Streudiagramm” ¨ Matrizen eignen sich generell dazu einen raschen Uberblick u ¨ber vorliegendes Datenmaterial, das in Teilen m¨ oglicherweise noch unbekannt ist, zu gewinnen. Aus einer Streudiagramm-Matrix werden Auff¨ alligkeiten und Abh¨angigkeiten in und zwischen den einzelnen Variablen meist schnell ersichtlich. Damit sind sie sowohl im Zusammenhang eines sog. Datenscreenings“ als auch im Rahmen einer statistischen Modellbildung ” ein n¨ utzliches exploratives Hilfsmittel.

132

5 Beschreibung und Analyse empirischer Zusammenh¨ange

Hexagonalplots • Konzept • Ein h¨ aufig auftretendes Problem im Zusammenhang von Streudiagram¨ men ist die gleichzeitige Uberlagerung mehrerer Beobachtungspunkte. Ein L¨osungsvorschlag besteht darin, den vorhandenen zweidimensionalen Datenbereich in eine passende Anzahl disjunkter und gleich großer Sechsecke (Hexagone) zu zerlegen. Die Anzahl (Dichte) der in die einzelnen Hexagone hineinfallenden Werte ( Counts“) wird dann ” u arbung deklariert. Diese im Englischen als Hexagonal Bin¨ber entsprechende Einf¨ ning bezeichnete Methode wurde zuerst von Carr et al. [1987] vorgeschlagen und unter praktischen und theoretischen Gesichtspunkten fundiert. Die entsprechende Grafik wird in diesem Lehrbuch als Hexagonalplot bezeichnet. • Beispiel 5.2.3 • Im linken Schaubild von Abbildung 5.2.4 wird anhand der Legende deutlich, dass die maximale Dichte bei 5 Beobachtungswerten liegt. Die meisten Datenpunkte sind folglich noch separat erkennbar. Im rechten Beispiel kommt es aufgrund ¨ der relativ geringen Anzahl verschiedener Auspr¨agungen jedoch zu zahlreichen Uberlagerungen. Tats¨achlich besitzt hier mehr als die H¨alfte der etwa 200 Studierenden eine Schuhgr¨oße zwischen 42 und 46 und schl¨ aft zwischen 7 und 9 Stunden, was man ohne Einf¨arbungen wohl nicht ohne weiteres annehmen w¨ urde. Abb. 5.2.4: Hexagonalplots zur Darstellung von Punktedichten 10

Counts

100

5

80

4 3

60

2 1

160

170

180

190

Größe in cm

200

Schlaf in Stunden

Gewicht in kg

120

Counts 13 12 11 10 9 8 7 6 5 4 3 2 1

9 8 7 6 5 36 38 40 42 44 46 48 Schuhgröße

5.2.2 Zusammenhangsmaße fu ¨ r metrische Merkmale Empirische Kovarianz • Definition und Interpretation • Das wichtigste und am h¨aufigsten verwendete Zusammenhangsmaß in der Statistik ist der Korrelationskoeffizient nach Pearson. Es basiert auf der Kovarianz , einem nichtnormierten Maß, welches hier zun¨achst als Zwischenschritt vorgestellt wird. Angenommen, es liegen folgende 10 zweidimensionale Beobachtungswerte (xi , yi ) bez¨ uglich zweier metrischer Merkmale X und Y vor: (2, 1), (4, 2), (4, 3), (5, 2), (6, 4), (8, 5), (9, 6), (10, 4), (4, 5), (7, 3).

5.2 Zusammenh¨ange zwischen metrischen Merkmalen

133

Im Streudiagramm von Abbildung 5.2.5 sind die einzelnen Werte als schwarze Punkte eingezeichnet. Weiter eingezeichnet sind die sog. Schwerelinien auf H¨ohe der arithmetischen Mittel: x ¯ = 5.9 und y¯ = 3.5. Im Schnittpunkt der beiden Schwerelinien befindet sich der (zweidimensionale) Schwerpunkt mit entsprechenden Koordinaten (5.9, 3.5). Schwerpunkt und Schwerelinien teilen den Datenbereich in vier Quadranten auf, die mit r¨omischen Zahlen I–IV durchnummeriert sind. Abb. 5.2.5: Grafische Illustration zur Konzeption der Kovarianz II

8

x

I x7 − x

6

y

(9,6) y7 − y

4

(5.9,3.5)

y

2

III

0 0

IV 2

4

6

8

10

12

x

Allgemein gilt nun, dass man eher von einem positiven Zusammenhang spricht, ¨ je mehr Beobachtungen im 1. und 3. Quadranten liegen. Uberdurchschnittlich große x-Werte gehen dann mit u ¨berdurchschnittlich großen y-Werten einher (1. Quadrant) und unterdurchschnittlich große x-Werte mit unterdurchschnittlich großen y-Werten (3. Quadrant). Je mehr Werte dagegen im 2. und 4. Quadranten liegen, desto eher entspricht dies einem negativen Zusammenhang . Dann gehen unterdurchschnittlich große x-Werte mit u ¨berdurchschnittlich großen y-Werten (2. Quadrant) und u ¨berdurchschnittlich große x-Werte mit unterdurchschnittlich großen y-Werten einher (4. Quadrant). Die von einem Datenpunkt mit den beiden Schwerelinien zum Schwerpunkt hin aufgespannte Rechteckfl¨ ache ist ein Maß daf¨ ur, wie stark ein Wert vom Durchschnitt abweicht. Sie f¨allt umso gr¨ oßer aus, je tiefer“ ein Punkt in einem Quadranten liegt und ” umso kleiner, je n¨ aher ein Punkt an einer der beiden Schwerelinien oder am Schwerpunkt liegt. Der im 1. Quadranten gekennzeichnete 7. Beobachtungswert (9, 6) weicht beispielsweise bez¨ uglich X um 3.1 und bez¨ uglich Y um 2.5 nach oben hin vom Durchschnitt ab. Es gilt: x7 − x ¯ = 9 − 5.9 = 3.1 und y7 − y¯ = 6 − 3.5 = 2.5. Dies ergibt eine eingeschlossene Rechteckfl¨ ache von 3.1 × 2.5 = 7.75. Zur Beurteilung der Richtung des Zusammenhangs muss die Lage eines Punktes innerhalb des Quadrantensystems mit ber¨ ucksichtigt werden. Werden Fl¨achen im 1. und 3. Quadranten

134

5 Beschreibung und Analyse empirischer Zusammenh¨ange

mit positivem Vorzeichen ( positive Fl¨ achen“) und Fl¨achen im 2. und 4. Quadranten ” mit negativem Vorzeichen ( negative Fl¨ achen“) versehen, so l¨asst sich die Summe aller ” Fl¨achen als Maß f¨ ur Richtung und St¨ arke des Zusammenhangs verwenden. Die empirische Kovarianz ist nun definiert als n 1X s˜XY = (xi − x ¯)(yi − y¯). n i=1 Sie ist damit als durchschnittliche Rechteckfl¨ ache“ interpretierbar, wobei Fl¨achen auch ” negativ verrechnet werden k¨ onnen. Eine positive Kovarianz deutet auf einen positiven Zusammenhang, eine negative Kovarianz auf einen negativen Zusammenhang hin. Ist die Kovarianz gleich Null, ist keine Richtungstendenz bestimmbar. Es leuchtet ein, dass es f¨ ur die Fl¨achen der Rechtecke keine obere (bzw. untere) Grenze gibt. Die Kovarianz ist damit ein skalenabh¨ angiges nichtnormiertes Maß. • Beispiel 5.2.4 • In Tabelle 5.2.1 ist die Berechnung aller Fl¨achen f¨ ur das vorliegende Datenbeispiel zusammengefasst. Tabelle 5.2.1: Ermittlung aller Rechteckfl¨ achen i 1 2 3 4 5 6 7 8 9 10 Summe

xi 2 4 4 5 6 8 9 10 4 7 59

yi 1 2 3 2 4 5 6 4 5 3 35

xi − x ¯ −3.9 −1.9 −1.9 −0.9 0.1 2.1 3.1 4.1 −1.9 1.1 0

yi − y¯ −2.5 −1.5 −0.5 −1.5 0.5 1.5 2.5 0.5 1.5 −0.5 0

(xi − x ¯)(yi − y¯) 9.75 2.85 0.95 1.35 0.05 3.15 7.75 2.05 −2.85 −0.55 24.50

Die letzte Spalte umfasst insgesamt 8 positive und 2 negative Rechteckfl¨achen entsprechend der Lage der 10 Beobachtungen in den Quadranten. Die Summe der Abweichungen vom arithmetischen Mittel betr¨ agt jeweils 0 (Abschnitt 4.2.1). Die Summe aller mit Vorzeichen versehenen Rechteckfl¨ achen ist gleich 24.5. Daraus ergibt sich mit n = 10 eine Kovarianz von 24.5/10 = 2.45. Im Sinne der Kovarianz liegt damit ein positiver Zusammenhang vor. ¨ • Verschiebungsformel f¨ ur die empirische Kovarianz • Ahnlich wie bei der Berechnung der empirischen Varianz (Abschnitt 4.4.4) erh¨alt man auch f¨ ur die Berechnung der Kovarianz rechentechnische Erleichterung durch eine Verschiebungsformel . Es gilt: n n X X (xi − x ¯)(yi − y¯) = (xi yi − y¯xi − x ¯ yi + x ¯y¯) i=1

i=1

5.2 Zusammenh¨ange zwischen metrischen Merkmalen

= =

n X i=1 n X

xi yi − y¯

n X i=1

xi − x ¯

135 n X

yi +

i=1

xi yi − y¯n¯ x−x ¯n¯ y + n¯ xy¯ =

i=1

n X i=1 n X

x ¯y¯ xi yi − n¯ xy¯.

i=1

Daraus folgt unmittelbar n n 1X 1X (xi − x ¯)(yi − y¯) = xi yi − x ¯y¯. s˜XY = n i=1 n i=1 Die Verwendung des letzten Ausdrucks erweist sich bei Von-Hand-Berechnungen“ ” weitaus weniger fehleranf¨ allig als die des ersteren. Eine Beispielrechnung anhand der obigen Daten findet sich sp¨ ater bei der Behandlung des Korrelationskoeffizienten. • Transformationseigenschaften • Zum tieferen Verst¨andnis dieses Maßes geh¨ort es, sich mit dessen Eigenschaften bei Verschiebungen und Umskalierungen zu befassen. Abbildung 5.2.6 illustriert diese beiden Arten von Transformationen. Im Kontrast zu den in Abschnitt 4.9.3 durchgef¨ uhrten Transformationen werden im zweidimensionalen Fall m¨oglicherweise zwei Merkmale gleichzeitig transformiert. • Verschiebungen • Bei einer Verschiebung ergeben sich die transformierten Werte (ui , vi ) aus den Ursprungswerten (xi , yi ) gem¨ aß (ui , vi ) = (xi + cX , yi + cY ), f¨ ur i = 1, . . . , n. Abbildung 5.2.6 illustriert links eine Verschiebung der Ursprungswerte (schwarze Punkte) um cX = 12 Einheiten in x-Richtung und cY = 3 Einheiten in y-Richtung. Der urspr¨ ungliche Schwerpunkt (5.9, 3.5) erweist sich hier als verschiebungs¨aquivariant und erh¨alt entsprechend die neuen Koordinaten (17.9, 6.5). Wie man sieht wird das gesamte System der Quadranten in dieser Weise verschoben. Dadurch ergeben sich f¨ ur die ¨ Rechteckfl¨achen keine Anderungen. Die Kovarianz ist folglich verschiebungsinvariant. Sie bleibt unver¨ andert 0.245. Arithmetisch folgt dies unmittelbar aus der Verschiebungs¨aquivarianz des arithmetischen Mittels (Abschnitt 4.9.3). So ist der Mittelwert der transformierten x-Werte ja gerade u ¯=x ¯ + cX . Daraus folgt f¨ ur die Kantenl¨ angen der Rechtecke in x-Richtung ui − u ¯ = xi + cX − x ¯ − cX = xi − x ¯. Analoges gilt f¨ ur die transformierten y-Werte und die Kantenl¨angen in y-Richtung. • Umskalierungen • Bei einer Umskalierung ergeben sich die transformierten Werte als (ui , vi ) = (cX xi , cY yi ), wobei cX > 0 und cY > 0. Abbildung 5.2.6 illustriert rechts eine gleichzeitige Umskalierung von x- und y-Werten mit den Faktoren cX = 3 bzw. cY = 2. Der urspr¨ ungliche Schwerpunkt (5.9, 3.5) erweist sich als skalen¨aquivariant und erh¨ alt entsprechend die neuen Koordinaten (17.7, 7). Die Rechteckfl¨achen werden damit um den Gesamtfaktor 3 × 2 = 6 gr¨oßer. Folglich

136

5 Beschreibung und Analyse empirischer Zusammenh¨ange Abb. 5.2.6: Verschiebungen und Umskalierungen im zweidimensionalen Fall 12

12

10

10

8

y

8

y

6

6

4

4

2

2

0

0 0

5

10

15

x

20

25

30

0

5

10

15

x

20

25

30

ist die Kovarianz bei einer gleichzeitigen Umskalierung von x- und y-Werten nicht skaleninvariant. Sie betr¨ agt jetzt 2.45 × 6 = 14.7. Arithmetisch folgt dies aus der Skalen¨aquivarianz des arithmetischen Mittels (Abschnitt 4.9.3). So gilt: u ¯ = cX x ¯ und v¯ = cY y¯. Daraus folgt f¨ ur die Kovarianz der umskalierten Werte: n n 1X 1X (ui − u ¯)(vi − v¯) = (cX xi − cX x ¯)(cY yi − cY y¯) s˜U V = n i=1 n i=1 n

n

1X 1X = cX (xi − x ¯)cY (yi − y¯) = cX cY (xi − x ¯)(yi − y¯) n i=1 n i=1 = cX cY s˜XY . W¨ urde man beispielsweise bei der Zusammenhangsanalyse von Gr¨oße und Gewicht von Personen gleichzeitig von Zentimeter in Meter und von Kilogramm in Gramm umrechnen, w¨are die Kovarianz der umskalierten Werte 10 Mal so groß wie zuvor. Dies liegt daran, dass die beiden Umrechnungsfaktoren 0.01 und 1000 im Produkt 10 ergeben. Sofern jedoch nur eines der beiden Merkmale umskaliert wird, erweist sich die Kovarianz als skalen¨ aquivariant. Rechnet man also beispielsweise lediglich das Gewicht von Kilogramm in Gramm um und bel¨ asst die K¨orpergr¨oßen in ihrer urspr¨ unglichen Maßeinheit, so wird die Kovarianz 1000 Mal so groß. Empirische Kovarianz F¨ ur metrische Beobachtungswerte (x1 , y1 ), . . . , (xn , yn ) bez¨ uglich zweier Merkmale X und Y berechnet sich die empirische Kovarianz als n n 1X 1X s˜XY = (xi − x ¯)(yi − y¯) = xi yi − x ¯y¯. (5.2.1) n i=1 n i=1 Die Kovarianz ist verschiebungsinvariant und auch skalen¨aquivariant, sofern nur eines der beiden Merkmale umskaliert wird. • Zwischenschritt zum Korrelationskoeffizienten • Aufgrund des unbeschr¨ankten Wertebereichs und der Skalenabh¨ angigkeit ist die Kovarianz als Zusammenhangsmaß

5.2 Zusammenh¨ange zwischen metrischen Merkmalen

137

direkt nicht geeignet. Eine Skaleninvarianz l¨asst sich jedoch durch einfache Modifikation erzielen. Dies f¨ uhrt dann zum Korrelationskoeffizienten.

Empirischer Korrelationskoeffizient nach Pearson • Kovarianz standardisierter Werte • Der empirische Korrelationskoeffizient ist die Kovarianz der z-standardisierten Werte xi − x ¯ yi − y¯ ui = und vi = f¨ ur i = 1, . . . , n, wobei s˜X > 0 und s˜Y > 0. s˜X s˜Y ussen positive Varianzen vorAufgrund der Division durch die Standardabweichungen m¨ ausgesetzt werden. Die Korrelation ist nicht definiert, falls alle x-Werte oder y-Werte gleich sind. Aus der alternativen Schreibweise xi x ¯ yi y¯ ui = − bzw. vi = − s˜X s˜X s˜Y s˜Y wird ersichtlich, dass bei einer Standardisierung die urspr¨ unglichen Beobachtungswerte verschoben und zugleich umskaliert werden. Mittelwerte und Standardabweichungen der standardisierten Werte ergeben sich dann als (Abschnitt 4.6) u ¯ = 0, v¯ = 0, s˜U = 1 und s˜V = 1. Damit erh¨alt man als Kovarianz der standardisierten Werte n n  y − y¯  1 X xi − x ¯ 1X i (ui − u ¯)(vi − v¯) = −0 −0 s˜U V = n i=1 n i=1 s˜X s˜Y P n n 1 (xi − x ¯)(yi − y¯) ¯) (yi − y¯) s˜XY 1 X (xi − x = n i=1 = . = n i=1 s˜Y s˜Y s˜X s˜Y s˜X s˜Y Demnach ergibt sich die Korrelation zwischen zwei Merkmalen X und Y , indem man deren Kovarianz durch die jeweiligen Standardabweichungen dividiert. Abb. 5.2.7: Streudiagramm urspr¨ unglicher und standardisierter Werte 15

y

2

s~X = 7.28

10

(27,12)

(1.28,1.67)

1 s~V = 1

s~Y = 3

5

s~U = 1

−3

−2

−1

1

2

3

0 0

5

10

15 x

20

25

30

−2

Abbildung 5.2.7 illustriert die Konzeption der Korrelation als Kovarianz standardisierter Werte. F¨ ur die urspr¨ unglichen Beobachtungswerte im linken Schaubild gilt: x ¯ = 17.7, y¯ = 7, s˜X = 7.28 und s˜Y = 3. Die Streuung der x-Werte ist also mehr als doppelt so groß wie die Streuung der y-Werte. Die Standardisierung bewirkt zum einen eine Verschiebung der Punktwolke hin zum

138

5 Beschreibung und Analyse empirischer Zusammenh¨ange

Ursprung als Schwerpunkt, zum anderen gleich große Streuungen in beiden Richtungen. Im vorliegenden Fall wird die Punktwolke dadurch in horizontaler Richtung gestaucht“. ” Mit der Standardisierung werden die Abweichungen der einzelnen Beobachtungen zum Schwerpunkt als Vielfache der Standardabweichungen verrechnet. Beispielsweise erh¨alt der urspr¨ ungliche Beobachtungswert (27, 12) die standardisierten Koordinaten 27 − 17.7 12 − 7 ≈ 1.28 und ≈ 1.67. 7.28 3 Der Wert 27 liegt das 1.28-fache der Standardabweichung der x-Werte u ¨ber dem Durchschnitt der x-Werte. Der Wert 12 liegt dagegen das 1.67-fache der Standardabweichung der y-Werte u ¨ber dem Durchschnitt der y-Werte. Die Koordinaten der standardisierten Werte stimmen jetzt mit den Kantenl¨ angen der aufgespannten Rechteckfl¨achen u ¨berein. • Definition – ¨ aquivalente Varianten • Der empirische Korrelationskoeffizient wird meist mit dem Buchstaben r“ notiert, was urspr¨ unglich auf das englische Wort re” ” version“ (sp¨ater regression“) zur¨ uckgeht (Pearson [1920, S. 33]). In der vermutlich am ” h¨aufigsten anzutreffenden Schreibvariante definiert man die Korrelation zweier Merkmale X und Y als n P 1 (xi − x ¯)(yi − y¯) n s˜XY i=1 =s . (5.2.2) rXY = s˜X s˜Y n n P P 1 1 2 2 (xi − x ¯) n (yi − y¯) n i=1

i=1

Daneben existieren dazu v¨ ollig ¨ aquivalente Varianten, was anfangs h¨aufig zu Irritationen oder Fehlschl¨ ussen f¨ uhrt. Unter Verwendung der Verschiebungsformeln f¨ ur die Varianzen und f¨ ur die Kovarianz erh¨ alt man zun¨ achst einmal Pn 1 ¯y¯ i=1 xi yi − x n (5.2.3) rXY = r  . Pn Pn 1 1 2 2 2 2 ¯ ¯ i=1 xi − x i=1 yi − y n n Multipliziert man Z¨ ahler und Nenner von (5.2.2) und (5.2.3) jeweils mit n erh¨alt man n P (xi − x ¯)(yi − y¯) i=1 rXY = s bzw. (5.2.4) n n P P 2 2 (xi − x ¯) (yi − y¯) i=1

i=1

Pn

xi yi − n¯ xy¯ P  n n 2 2 x2 y2 i=1 xi − n¯ i=1 yi − n¯

rXY = r P

i=1

Es sollte nun beachtet werden, dass die Terme in den Z¨ahlern von (5.2.4) nicht der Kovarianz sondern dem n-fachen der Kovarianz entsprechen. Analog entsprechen die Ausdr¨ ucke unter den Wurzeln nicht den Varianzen sondern den n-fachen Varianzen. Ein vollst¨andiges Rechenbeispiel findet sich gegen Ende dieses Abschnitts. • Verschiebungs- und skaleninvariant • Da Kovarianz und Varianz beide verschiebungsinvariant sind, ist dies zwangsl¨ aufig auch der Korrelationskoeffizient. Bei

5.2 Zusammenh¨ange zwischen metrischen Merkmalen

139

einer Umskalierung gem¨ aß (ui , vi ) = (cX xi , cY yi ), wobei cX > 0 und cY > 0, folgt mit den Invarianzeigenschaften von Varianz und Kovarianz: s˜U V cX cY s˜XY s˜XY rU V = = = = rXY . s˜U s˜V cX s˜X cY s˜Y s˜X s˜Y Folglich ist der Korrelationskoeffizient skaleninvariant. Bei der Zusammenhangsanalyse von Gr¨oße und Gewicht von Personen beispielsweise spielt es also keine Rolle, in welchen Einheiten (Meter oder Zentimeter, Kilogramm oder Gramm) gerechnet wird. • Wertebereich • Mithilfe der Cauchy-Schwarz’schen Ungleichung l¨asst sich zeigen, dass die Werte des Korrelationskoeffizienten stets im Intervall [−1, 1] liegen. Diese Ungleichung besagt, dass f¨ ur beliebige reelle Werte p1 , . . . , pn , q1 , . . . , qn stets n n n X 2 X X  pi qi ≤ p2i qi2 (5.2.5) i=1

i=1

i=1

gilt. Sofern mindestens ein pi 6= 0 ist, gilt die Gleichheit genau dann, falls qi = c · pi f¨ ur ein c ∈ R ist. Setzt man nun f¨ ur gegebene Beobachtungswerte (x1 , y1 ), . . . , (xn , yn ) p i = xi − x ¯ und qi = yi − y¯ und dividiert beide Seiten von (5.2.5) durch den Ausdruck auf der rechten Seite, erh¨alt man P 2 n ¯)(yi − y¯) i=1 (xi − x Pn Pn ≤ 1. ¯)2 i=1 (yi − y¯)2 i=1 (xi − x Die linke Seite entspricht jetzt gerade der quadrierten Variante von (5.2.4). Daraus folgt unmittelbar f¨ ur den Wertebereich des Korrelationskoeffizienten |rXY | ≤ 1. Die Korrelation ist betragsm¨ aßig genau dann gleich 1, falls yi − y¯ = c(xi − x ¯) f¨ ur ein c 6= 0 ist. Umgeformt erh¨alt man daraus yi = y¯ − c¯ x + cxi f¨ ur i = 1, . . . , n.

(5.2.6)

Gleichung (5.2.6) l¨ asst sich folgendermaßen interpretieren: Die y-Werte sind von den x-Werten (perfekt) linear abh¨ angig. Sie ergeben sich quasi durch Einsetzen in die Geradengleichung. y = b0 + b1 x, wobei b0 = y¯ − c¯ x und b1 = c. ¨ • Interpretation • Aufgrund der vorhergehenden Uberlegungen ist klar, dass die Korrelation genau dann gleich 1 ist, falls die Datenpunkte auf einer Geraden mit positi¨ ver Steigung (c > 0) liegen. Uber die Steigung selbst ist keine Aussage m¨oglich. Man spricht dann allgemein von einem perfekten positiven linearen Zusammenhang .

140

5 Beschreibung und Analyse empirischer Zusammenh¨ange Abb. 5.2.8: Beispiele unterschiedlicher Korrelationen 5

y

5

rXY = 1

4 3

y

2 1 0

5

2

x

3

4

y

2

5

1

2

x

3

4

y

1

2

x

3

4

5

0

1

2

x

3

4

y

y

4

5

10 0

5

10

15 x

20

25

30

0

6 0

1

2

x

3

4

2 y

5

rXY = 0

2

3

5

5

3

0

r X Y = 0.67

10

4

1

8 3

3

2

4

x

x

r X Y nicht definiert

5

2

2

3

0

5

2

1

1

1

rXY = 0

0

0

4

5 0

3

5

y

15

5

5

3

0

r X Y = 0.67

10

4

1

7 0

3

2

4

2

15

y

5

3

0

x

2 0

r X Y nicht definiert

5

1

2

3

0

rXY = 0

4

1

1

4 0

0

3 1

2

4

3

0

y

2

5

1

y

5

rXY = − 1

4 y

1

3

0

r X Y = 0.99

4

1

1 0

5

rXY = 1

4

9 0

1

2

x

3

4

5

r X Y = 0.67

1 0

−1

11 0

5

10

15 x

20

25

30

−2 −3

12 −4

−2

0

2

4

x

Ist die Korrelation gleich −1, so liegen die Datenpunkte auf einer Geraden mit negativer Steigung (c < 0). In diesem Fall spricht man dann von einem perfekten negativen linearen Zusammenhang . Da das Vorzeichen der Korrelation stets mit dem Vorzeichen der Kovarianz u ¨bereinstimmt, weist eine positive Korrelation grunds¨atzlich auf einen positiven Zusammenhang und eine negative Korrelation auf einen negativen Zusammenhang hin. Je gr¨oßer die Korrelation betragsm¨ aßig ist, desto st¨ arker ist die Linearit¨at ausgepr¨agt, d.h. desto enger liegen die Punkte um eine Gerade mit positiver oder negativer Steigung. Je n¨aher die Korrelation bei 0 liegt, desto weniger ist eine lineare Richtungstendenz auszumachen. Sofern s˜2X > 0 und s˜2X > 0 sind, gilt rXY = 0 gerade dann, wenn s˜XY = 0 ist.

5.2 Zusammenh¨ange zwischen metrischen Merkmalen

141

Definition 5.2.1: Empirische Unkorreliertheit x- und y-Werte heißen (empirisch) unkorreliert, wenn s˜XY = 0 ist. • Korrelation misst nur lineare Abh¨ angigkeit • In den Beispielen 7–9 von Abbildung 5.2.8 sind keinerlei Richtungstendenzen auszumachen. Die Punkte liegen jeweils um eine Gerade mit Steigung 0. Die Beispiele 8 und 9 verdeutlichen jedoch, dass trotz Unkorreliertheit durchaus andere (nichtlineare) Formen von Abh¨angigkeit bestehen k¨onnen. So ließe sich hier etwa feststellen, dass sich die auf X bedingten Verteilungen von Y unterscheiden. In Beispiel 8 ist z.B. das arithmetische Mittel von Y bedingt auf X (das bedingte arithmetische Mittel ) gleich 2.5 oder 1.5, je nachdem ob man auf gerades oder ungerades X bedingt. In Beispiel 9 h¨angt das Streuungsverhalten von Y von X ab. So ist f¨ ur X = 2 die bedingte Varianz von Y gr¨oßer als f¨ ur X = 1 oder X = 3. In Beispiel 7 stimmen die bedingten Verteilungen in beide Richtungen exakt u angigkeit. ¨berein. Hier besteht keinerlei Abh¨ • Reine Optik kann t¨ auschen • Die Beispiele 10–12 verdeutlichen, dass die Einsch¨atzung einer Korrelation per Augenmaß mitunter in die Irre f¨ uhren kann. In Beispiel 10 sind die Daten zu sehen, die zu Beginn dieses Abschnitts angegeben wurden. Multipliziert man die x-Werte mit 3 und die y-Werte mit 2, erh¨alt man Beispiel ¨ 11. Aufgrund der Skaleninvarianz der Korrelation f¨ uhrt dies zu keiner Anderung der Korrelation. Standardisiert man die Werte von Beispiel 10 oder 11, erh¨alt man beide Male Beispiel 12, da standardisierte Werte verschiebungs- und skaleninvariant sind (Abschnitt 4.6). Da die Korrelation invariant bez¨ uglich beider Transformationsarten ist, bleibt die Korrelation unver¨ andert. Die Korrelation ist folglich in allen drei F¨allen exakt gleich, auch wenn sie optisch m¨ oglicherweise verschieden wahrgenommen wird. • Beispiel 5.2.5 • Angenommen, es liegen folgende 10 Beobachtungswerte vor: (2, 1), (4, 2), (4, 3), (5, 2), (6, 4), (8, 5), (9, 6), (10, 4), (4, 5), (7, 3). Die Daten stimmen mit denjenigen aus Abbildung 5.2.5 bzw. Beispiel 10 in Abbildung 5.2.8 u ur Von-Hand-Berechnungen“ g¨ unstige Varianten des Korrelati¨berein. F¨ ” onskoeffizienten sind Formel (5.2.3) oder die 2. Variante von (5.2.4), die beide von den Verschiebungsformeln Gebrauch machen. Zur konkreten Berechnung empfiehlt sich fol¨ gende Arbeitstabelle. Uber die Spaltensummen der Tabelle erh¨alt man alle wichtigen Bestandteile des Korrelationskoeffizienten Pn 1 ¯y¯ s˜XY i=1 xi yi − x n rXY = = r  . Pn Pn s˜X s˜Y 1 1 2 2 2 2 ¯ ¯ i=1 xi − x i=1 yi − y n n So ergeben sich arithmetische Mittel, Kovarianz und Varianzen sukzessiv als 1 1 x ¯= · 59 = 5.9, y¯ = · 35 = 3.5, 10 10 n 1X 1 xi yi − x ¯y¯ = s˜XY = · 231 − 5.9 · 3.5 = 2.45, n i=1 10

142

5 Beschreibung und Analyse empirischer Zusammenh¨ange Tabelle 5.2.2: Arbeitstabelle zur Berechnung der Korrelation nach Pearson i 1 2 3 4 5 6 7 8 9 10 Summe

xi 2 4 4 5 6 8 9 10 4 7 59

yi 1 2 3 2 4 5 6 4 5 3 35

x2i 4 16 16 25 36 64 81 100 16 49 407

yi2 1 4 9 4 16 25 36 16 25 9 145

xi yi 2 8 12 10 24 40 54 40 20 21 231

n

s˜2X =

1X 2 1 x −x ¯2 = · 407 − 5.92 = 5.89, n i=1 i 10

s˜2Y =

1X 2 1 y − y¯2 = · 145 − 3.52 = 2.25. n i=1 i 10

n

Daraus resultiert ein Korrelationskoeffizient von 2.45 rXY = √ ≈ 0.6730. 5.89 · 2.25 Definition 5.2.2: Empirischer Korrelationskoeffizient nach Pearson F¨ ur metrische Beobachtungswerte (x1 , y1 ), . . . , (xn , yn ) bez¨ uglich zweier Merkmale X und Y berechnet sich der empirische Korrelationskoeffizient als Pn 1 ¯y¯ s˜XY i=1 xi yi − x n = r rXY =  P  P s˜X s˜Y n n 1 1 2−x 2−y 2 2 x ¯ y ¯ i=1 i i=1 i n n wobei s˜X > 0 und s˜Y > 0 vorausgesetzt wird. Es gilt: rXY ∈ [−1, 1]. Der Korrelationskoeffizient ist verschiebungs- und skaleninvariant und misst die St¨arke der linearen Abh¨angigkeit.

• Verh¨ altnis zur Kausalit¨ at • Wie die empirische Abh¨ angigkeit (Abschnitt 5.1.1) beinhaltet auch die Korrelation keinerlei Ursache-Wirkungs-Aussage. Eine hohe Korrelation (lineare Abh¨ angigkeit) zwischen zwei Merkmalen impliziert also keine kausale Beziehung zwischen diesen. N¨ ahere Ausf¨ uhrungen zu diesem wichtigen Punkt finden sich in Abschnitt 5.3.3. • Zur Historie und Namensgebung des Korrelationskoeffizienten • Als empirisches Zusammenhangsmaß wurde der Korrelationskoeffizient in der hier vorgestellten Form erstmalig von Karl Pearson [1896, S. 265] vorgeschlagen, also einige Jahre

5.2 Zusammenh¨ange zwischen metrischen Merkmalen

143

fr¨ uher als dessen Kontingenzkoeffizient (Abschnitt 5.1.2). Entscheidende konzeptionelle Vor¨ uberlegungen auf empirischer und theoretischer Ebene erbrachte vor allem Francis Galton [1886, 1888]. Galton und Pearson kommt jedoch gleichermaßen das Verdienst zu, Empirie (Daten) und Wahrscheinlichkeitstheorie insbesondere im Kontext der bivariaten bzw. multivariaten Normalverteilung miteinander verkn¨ upft zu haben. Damit schufen sie zum einen die Grundlagen f¨ ur die Korrelationsund Regressionsrechnung und brachten zum anderen das Fach Statistik“ in seiner ” Grundmethodik (Abschnitt. 1.2) einen entscheidenden Schritt voran. In seinem 1896 publizierten Papier stellte Pearson noch von Auguste Bravais [1844] erbrachte theoretische Vorarbeiten deutlich heraus: The fundamental theorems of correlation were ” for the first time and almost exhaustively discussed by Bravais“ (S. 261). Gleichzeitig relativierte er das Verdienst Galtons in diesem Zusammenhang. Dies nahm er jedoch ¨ 24 Jahre sp¨ater in einem von ihm verfassten Ubersichtsartikel zur Geschichte der Korrelation g¨anzlich wieder zur¨ uck. In dem stellenweise recht eigent¨ umlich anmutenden Artikel von 1920 rehabilitierte er gewissermaßen seinen mittlerweile verstorbenen Lehrer Galton und ¨außerte sich auff¨ allig absch¨ atzig u ¨ber die Arbeit von Bravais auf diesem Gebiet. Letztlich konnte er damit jedoch nicht mehr verhindern, dass sich bis heute die in vielen Lehrb¨ uchern anzutreffende Bezeichnung Korrelationskoeffizient nach ” Bravais-Pearson“ gehalten hat. Denis [2001, S. 9] erachtet Bravais in seinem Fazit immerhin noch als Entdecker der mathematischen Korrelation“ (theoretischen Kor” relation) und bel¨ asst Galton als jenen der empirischen Korrelation. Rodgers und Nicewander [1988, S. 61] sind dagegen der Auffassung, dass aus historischer Sicht eine Bezeichnung nach Galton-Pearson“ eigentlich angemessener w¨are. So verwendete ” Bravais [1844, S. 9] in seinem auf Franz¨ osisch verfassten Artikel zwar bereits die Bezeichnung une correlation“ f¨ ur den Parameter einer bivariaten Normalverteilung, die ” inhaltliche Bedeutung als Zusammenhangsmaß sei ihm dabei offensichtlich aber nicht bewusst gewesen. Beispiel 5.2.6: Korrelation ¨ okonomischer Indikatoren In Beispiel 4.3.2 (Abschnitt 4.3.3) wurden die BIP-Wachstumsraten f¨ ur Deutschland von 1995 bis 2012 thematisiert. Wie aus Abbildung 4.3.4 und nun auch aus Abbildung 5.2.9 hervorgeht, besteht ein deutlich positiver Zusammenhang zwischen nominalen und realen Wachstumsraten. Die Korrelation betr¨agt 0.95. L¨asst man den Ausreißer des Jahres 2009 unber¨ ucksichtigt, so verringert sich die Korrelation geringf¨ ugig auf den Wert 0.88. Betrachtet man den Zusammenhang zwischen realem Wachstum und Inflation, letztere gemessen u ¨ber den Verbraucherpreisindex (VPI), erh¨alt man zun¨achst eine Korrelation von 0.44. Bei Herausnahme des Jahres 2009 verschwindet diese Korrelation jedoch nahezu vollst¨ andig. Die Auswirkung des Ausreißers im ersteren Fall ist schw¨acher, da die u ¨brigen Werte bereits eine stark ausgepr¨ agte Korrelationsstruktur aufweisen, welche der Richtungstendenz des Ausreißers entspricht. Im letzteren Fall kommt durch den Ausreißer jedoch erst eine scheinbare Richtungstendenz zustande, was ein deutlich verzerrtes Ergebnis zur Folge hat. Beide Beispiele verdeutlichen, dass zu jeder rechnerischen ¨ Analyse stets auch eine Uberpr¨ ufung mit grafischen Mitteln geh¨oren sollte.

144

5 Beschreibung und Analyse empirischer Zusammenh¨ange

Gegenstand ¨ okonometrischer Analysen ist immer wieder die Untersuchung des Zusammenhangs zwischen Wirtschafts- und Arbeitsmarktentwicklung. Eine solche findet sich auch im Jahresgutachten 2013/2014 des Sachverst¨ andigenrates f¨ ur die Mitgliedstaaten des Euro-Raumes und weiterer europ¨aischer L¨ander inklusive Australien, Japan, Kanada, S¨ udkorea, Neuseeland und USA. F¨ ur den Zeitraum von 2007 bis 2012 wird dabei die wirtschaftliche Entwicklung u ¨ber das durchschnittliche j¨ahrliche Wachstum des realen BIP gemessen. Dieses wird dann zur Ver¨anderung der Erwerbslosenquote in Prozentpunkten in Bezug gesetzt (Abb. 5.2.10). Dabei ergibt sich eine Korrelation von −0.66. Im Allgemeinen verzeichneten L¨ander, die u ¨ber ein schw¨acheres Wachstum verf¨ ugten, also auch eine negativere Entwicklung auf dem Arbeitsmarkt.

6

r X Y = 0.95

4 2

Preissteigerung in %

Nominales Wachstum in %

Abb. 5.2.9: Reales und nominales Wachstum, reales Wachstum und Verbraucherpreise

r = 0.88

0 −2 −4 −6 −6

−4

−2

0

2

4

4

r X Y = 0.44

3 2 1

r = 0.04

0 −1 −2

6

−6

−4

Reales Wachstum in %

−2

0

2

4

6

Reales Wachstum in %

Daten: Statistisches Bundesamt [2014b und 2014d] Abb. 5.2.10: Wirtschafts- und Arbeitsmarktentwicklung von 2007 bis 2012 (nachgestellt) Erwerbslosenquote Veränderung in Prozentpunkten

15

Griechenland

r X Y = − 0.66

Spanien

10 USA

5 0

Deutschland

−5 −6

−4

−2

0

2

4

BIP−Wachstum in %

Daten: Sachverst¨ andigenrat [2013, Schaubild 65] Bei einem durchschnittlichen Wachstum von 0.7% (Berechnung in Beispiel 4.3.2) sank die Erwerbslosenquote in Deutschland von 2007 bis 2012 außergew¨ohnlich stark um 3.2 Prozentpunkte. Tats¨ achlich war Deutschland das einzige Land mit einem deutlichen R¨ uckgang an Erwerbslosigkeit. Der Sachverst¨andigenrat merkt in diesem Zusammenhang an, dass Deutschland im Jahr 2012 die niedrigste Jugenderwerbslosenquote in Europa aufwies, w¨ ahrend diese z.B. in Spanien oder Griechenland bei u ¨ber 50% lag.

5.2 Zusammenh¨ange zwischen metrischen Merkmalen

145

Empirische Kovarianz- und Korrelationsmatrizen • Kovarianzmatrix • Eine Varianz-Kovarianzmatrix , kurz Kovarianzmatrix genannt, erh¨alt man, wenn im Falle mehrerer metrischer Variablen alle paarweisen Kovarianzen in Matrixform aufgeschrieben werden. Vorteil dieser Darstellung ist zun¨achst einmal ihre Kompaktheit an Information. Im Rahmen der Regressionstheorie oder in der multivariaten Statistik sind solche Matrizen jedoch auch regem¨aßig wichtiger Bestandteil statistischer Berechnungen. Korrespondierend zu Abbildung 5.2.3 (Abschnitt 5.2.1) erh¨alt man beispielsweise f¨ ur die vier Variablen Gr¨ oße (in cm), Gewicht (in kg), Schuhgr¨oße und Schlaf (durchschnittlicher t¨aglicher Schlaf) des Datensatzes Studenten die Kovarianzmatrix Gr¨oße Gewicht Schuhgr¨ oße Schlaf

Gr¨ oße 81.1961 77.5797 21.4765 0.1880

Gewicht 77.5797 145.0541 24.4409 −0.0700

Schuhgr¨oße 21.4765 24.4409 7.9675 −0.0474

Schlaf 0.1880 −0.0700 −0.0474 0.9996

Auf der Hauptdiagonale stehen (fettgedruckt) die Varianzen der einzelnen Variablen. Die Varianz der K¨ orpergr¨ oßen betr¨ agt also 81.1961, die der Gewichte 145.0541 usw. Auf den Nebendiagonalen stehen die Kovarianzen zwischen den Variablen. Die Kovarianz zwischen Gr¨oße und Gewicht betr¨ agt 77.5797, zwischen Gr¨oße und Schuhgr¨oße 21.4765, zwischen Gewicht und Schuhgr¨ oße 24.4409 usw. Da es im Falle zweier Merkmale X und Y unerheblich ist, ob nun die Kovarianz zwischen X und Y oder zwischen Y und X berechnet wird, ist jede Kovarianzmatrix symmetrisch. Rechnerisch gilt: n n 1X 1X s˜XY = (xi − x ¯)(yi − y¯) = (yi − y¯)(xi − x ¯) = s˜Y X . n i=1 n i=1 Ferner ist eine Unterscheidung in Varianzen und Kovarianzen hinf¨allig, sofern die Varianz jeder einzelnen Variablen als Kovarianz mit sich selbst“ interpretiert wird. Dem” nach gilt: n 1X (xi − x ¯)(xi − x ¯) = s˜2X . s˜XX = n i=1 • Korrelationsmatrix • Die Korrelationsmatrix ist die Matrix aller wechselseitigen Korrelationen innerhalb einer bestimmten Menge von Variablen. F¨ ur das obige Beispiel lautet diese Gr¨ oße Gewicht Schuhgr¨ oße Schlaf

Gr¨ oße 1.0000 0.7149 0.8444 0.0209

Gewicht 0.7149 1.0000 0.7189 −0.0058

Schuhgr¨oße 0.8444 0.7189 1.0000 −0.0168

Schlaf 0.0209 −0.0058 −0.0168 1.0000

Gem¨aß Definition kann die Korrelationsmatrix direkt aus der Kovarianzmatrix abgeleitet werden. Dazu werden die paarweisen Kovarianzen durch die jeweiligen Standardabweichungen dividiert. So ergibt sich beispielweise die Korrelation zwischen Gr¨oße und

146

5 Beschreibung und Analyse empirischer Zusammenh¨ange

Gewicht als 77.5797 ≈ 0.7149 rGr¨oße,Gewicht = √ 81.1961 · 145.0541 und die Korrelation zwischen Schuhgr¨ oße und Schlaf als −0.0474 rSchuhgr¨oße,Schlaf = √ ≈ −0.0168. 7.9675 · 0.9996 Wie Kovarianzmatrizen sind auch Korrelationsmatrizen stets symmetrisch. Da die Kor” relation einer Variable mit sich selbst“ gleich 1 ist, stehen auf der Hauptdiagonale ausschließlich Einsen. Rechnerisch formal ergibt sich dies aus rXX =

s˜2 s˜XX = X = 1. s˜X s˜X s˜2X

Korrelationskoeffizient nach Spearman • Hintergrund • Angenommen, es liegen folgende 4 Beobachtungswerte (1, 1), (8, 0.125), (4, 0.25) und (2, 0.5) vor. Wie aus dem linken Schaubild von Abbildung 5.2.11 hervorgeht, besteht ein negativer Zusammenhang zwischen x- und y-Werten. Dieser Zusammenhang ist in dem Sinne perfekt, dass gr¨oßere x-Werte stets mit kleineren y-Werten einhergehen. Man spricht dann auch von einem perfekten (oder strengen) monotonen Zusammenhang . In diesem Fall l¨asst sich der Zusammenhang recht einfach u ¨ber die Gleichung y = 1/x funktional beschreiben. Trotz perfekter Monotonie ist der Korrelationskoeffizient nach Pearson mit −0.84 betragsm¨ aßig deutlich kleiner als 1. Hieran wird noch einmal deutlich, dass der Korrelationskoeffizient lediglich die St¨ arke der linearen Abh¨ angigkeit misst. Tats¨achlich l¨asst sich der Korrelationskoeffizient durch geringe Modifikation in der Weise verwenden, dass die St¨ arke der Monotonie anstelle der St¨arke der linearen Abh¨angigkeit gemessen wird. Abb. 5.2.11: Streudiagramm von Ursprungswerten und zugeh¨ origen Rangwerten 1.0

5 r X Y = − 0.84

0.8 y

rSP = − 1

4

0.6

rg(y)

0.4 0.2

3 2 1

0.0

0 0

2

4

6 x

8

10

0

1

2

3 rg(x)

4

5

5.2 Zusammenh¨ange zwischen metrischen Merkmalen

147

• Rangzahlen • In einem entscheidenden ersten Schritt werden die origin¨aren Beobachtungswerte beider Variablen zun¨ achst in Rangzahlen u ¨bersetzt. Unter dem Rang eines Wertes versteht man dabei seine Position innerhalb der geordneten Reihe aller Beobachtungswerte. Notiert man im obigen Beispiel f¨ ur die urspr¨ unglichen x-Werte x1 = 1, x2 = 8, x3 = 4 und x4 = 2, so lauten die geordneten Werte (Abschnitt 4.2.2) x(1) = 1, x(2) = 2, x(3) = 4 und x(4) = 8. Der Wert x1 = 1 nimmt als kleinster Wert somit die 1. Position und damit Rang 1 ein, x2 als gr¨oßter Wert Rang 4, x3 Rang 3 und x4 Rang 2. Daf¨ ur schreibt man auch kurz rg(x1 ) = 1, rg(x2 ) = 4, rg(x3 ) = 3 und rg(x4 ) = 2. Analog gilt im vorliegenden Fall f¨ ur die y-Werte: rg(y1 ) = 4, rg(y2 ) = 1, rg(y3 ) = 2 und rg(y4 ) = 3. Allgemein gilt f¨ ur eine geordnete Reihe von Werten mit x(1) < x(2) < · · · < x(n) stets: rg(x(i) ) = i. Sofern zwei oder mehrere Werte gleich groß sind, ist die Rangvergabe nicht mehr eindeutig. In solchen F¨ allen sog. Bindungen werden dann h¨aufig Durchschnittsr¨ ange vergeben, siehe dazu Rechenbeispiel 5.2.7, unten. • Definition und Interpretation • Das auf Charles Spearman [1904] zur¨ uckgehende Zusammenhangsmaß ist der gew¨ ohnliche Korrelationskoeffizient nach Pearson, der allerdings nicht f¨ ur die urspr¨ unglichen Werte, sondern f¨ ur die Rangwerte berechnet wird. Formelm¨aßig l¨asst sich dies ausdr¨ ucken als Pn 1 ¯ X rg ¯Y i=1 rg(xi )rg(yi ) − rg n rS = r  P , P n n 1 1 2 − rg 2 2 − rg 2 rg(x ) rg(y ) i i X Y i=1 i=1 n n wobei n

rg X =

n

1X 1X rg(xi ) und rg Y = rg(yi ). n i=1 n i=1

Im vorhergehenden Beispiel w¨ aren die in Rangwerte transformierten Beobachtungswerte (1, 4), (4, 1), (3, 2) und (2, 3). Abbildung 5.2.11 zeigt wie mit dieser Transformation aus einer streng monotonen nichtlinearen Beziehung ein perfekt negativer linearer Zusammenhang hervorgeht. Der Korrelationskoeffizient nach Spearman, kurz Rangkorrelationskoeffizient genannt, ist folglich genau dann betragsm¨ aßig gleich 1, falls ein perfekt monotoner Zusammenhang besteht, wobei das Vorzeichen von der Richtung der Monotonie abh¨angt. Ist der Koeffizient positiv, liegt ein positiver Zusammenhang vor, ist er negativ, liegt ein negativer Zusammenhang vor. Liegt der Wert nahe 0, so ist keine Richtungstendenz erkennbar, was jedoch wie auch beim Koeffizienten nach Pearson andere Abh¨angigkeitsstrukturen nicht ausschließt. Im vorliegenden Fall ist rS = −1. Gr¨oßere x-Werte gehen im strengen Sinne mit kleineren y-Werten einher.

148

5 Beschreibung und Analyse empirischer Zusammenh¨ange

• Sinnvolle Erg¨ anzung zur gew¨ ohnlichen Korrelation • Da mit dem Rangkorrelationskoeffizienten auch nichtlineare Abh¨ angigkeitsstrukturen erfasst werden k¨onnen, empfiehlt sich dessen Berechnung generell in Erg¨anzung zum Pearson’schen Maß. Bei gr¨ oßeren Differenzen w¨ are dann eine differenzierte Analyse und Interpretation angezeigt. Der Rangkorrelationskoeffizient erweist sich als robust oder zumindest robuster als der gew¨ohnliche Korrelationskoeffizient, da metrisch skalierte Ausreißer durch Rangzahlen meist deutlich kaschiert werden. So ergibt sich beispielsweise im rechten Schaubild von Abbildung 5.2.9 ein Koeffizient von lediglich rS = 0.15 (−0.01 ohne Ausreißer). • Transformationseigenschaften • Da sich die gr¨oßenm¨aßige Reihenfolge metrischer Werte durch Verschiebungen und Umskalierungen nicht ¨andert, ist der Rangkorrelationskoeffizient verschiebungs- und skaleninvariant. Zus¨atzlich ist er auch invariant gegen¨ uber monotonen Transformationen. In diesem Zusammenhang sei auf die in der Praxis h¨aufig verwendeten Log-Transformationen hingewiesen, bei denen eine der beiden Variablen oder beide Variablen gleichzeitig logarithmiert werden (vgl. Beispiel 5.2.11, Abschnitt 5.2.3). • Auch f¨ ur Ordinalskala geeignet • Der Korrelationskoeffizient nach Spearman l¨ asst sich prinzipiell auch auf ordinal skalierte Merkmale anwenden (Abschnitt 2.2). • Beispiel 5.2.7 • Angenommen es liegen folgende 10 Beobachtungswerte vor: (2, 1), (4, 2), (4, 3), (5, 2), (6, 4), (8, 5), (9, 6), (10, 4), (4, 5), (7, 3). Die Daten stimmen mit dem Rechenbeispiel zu Beginn dieses Abschnitts u ¨berein. Zur Berechnung von Hand“ empfiehlt sich wiederum eine Arbeitstabelle, aus deren Spalten” summen sich alle wesentlichen Bestandteile des Rangkorrelationskoeffizienten ablesen lassen. Tabelle 5.2.3: Arbeitstabelle zur Berechnung des Rangkorrelationskoeffizienten i 1 2 3 4 5 6 7 8 9 10 Summe

xi 2 4 4 5 6 8 9 10 4 7 59

yi 1 2 3 2 4 5 6 4 5 3 35

rg(xi ) 1 3 3 5 6 8 9 10 3 7 55

rg(yi ) 1 2.5 4.5 2.5 6.5 8.5 10 6.5 8.5 4.5 55

rg(xi )2 1 9 9 25 36 64 81 100 9 49 383

rg(yi )2 1 6.25 20.25 6.25 42.25 72.25 100 42.25 72.25 20.25 383

rg(xi )rg(yi ) 1 7.5 13.5 12.5 39 68 90 65 25.5 31.5 353.5

Im vorliegenden Fall treten bei den x-Werten Bindungen beim Wert 4 und bei den y-Werten bei den Werten 2, 3, 4 und 5 auf. Von den jeweils zu vergebenden R¨angen werden dann durchschnittliche Rangwerte entsprechend der Anzahl der Bindungen mehrfach vergeben. Im Falle der x-Werte m¨ ussten eigentlich die R¨ange 2, 3 und 4 vergeben

5.2 Zusammenh¨ange zwischen metrischen Merkmalen

149

werden. Aufgrund der dreifachen Bindung beim Wert 4 wird stattdessen also der Durchschnittsrang 3 drei Mal vergeben. Bei den y-Werten wird analog verfahren. Hier wird beispielsweise aufgrund der zweifachen Bindungen beim Wert 2 anstelle der R¨ange 2 und 3 der Durchschnittsrang 2.5 zwei Mal vergeben. Insgesamt ergibt sich damit 1

55 · 353.5 − 55 10 · 10   ≈ 0.6335. 383 552 383 552 − − 10 102 10 102

rS = r 10

Der Wert deutet auf einen deutlich positiven Zusammenhang hin. Der Korrelationskoeffizient nach Pearson mit rXY ≈ 0.6730 bewegt sich in a¨hnlicher Gr¨oßenordnung. Zwischen der St¨arke der linearen Abh¨ angigkeit und der St¨arke der Monotonie ergeben sich folglich keine gr¨ oßeren Unterschiede. Beispiel 5.2.8: Korrelation von Wirtschaftsleistung und Lebenserwartung In Beispiel 4.1.1 (Abschnitt 4.1) wurde die l¨ anderspezifische Verteilung des Bruttoinlandsprodukts pro Kopf und der Lebenserwartung von Frauen bei der Geburt untersucht. Wie man im linken Schaubild von Abbildung 5.2.12 gut erkennen kann, ist der Zusammenhang von konkaver Natur. Ab einer bestimmten Schwelle an Wirtschaftskraft ist offensichtlich keine Zunahme an Lebenserwartung mehr gegeben. Aufgrund der deutlichen Rechtsschiefe der Verteilung des Pro-Kopf-BIP (vgl. Abb. 4.1.2 in Abschnitt 4.1) ist die Punktewolke im linken Bereich nur schwer zu deuten. Der Korrelationskoeffizient nach Pearson betr¨ agt immerhin 0.54. Im rechten Schaubild ist der Zusammenhang der Rangwerte dargestellt. Die Skalierung der Rangzahlen legt die Monotonie des Zusammenhangs offen und f¨ uhrt gleichzeitig auch zu einer besseren Lesbarkeit. Der Rangkorrelationskoeffizient ist mit 0.82 wesentlich gr¨oßer. Folglich besteht ein stark monotoner Zusammenhang zwischen den beiden Gr¨oßen. L¨ander mit h¨oherer Wirtschaftsleistung weisen in aller Regel also eine h¨ohere Lebenserwartung auf.

Lebenserwartung

90 80 70 60 50

r X Y = 0.54

40 0

20

40

60

80

Pro−Kopf BIP in 1000 US$

100

rg(Lebenserwartung)

Abb. 5.2.12: Zusammenhang von Wirtschaftsleistung und Lebenserwartung 200

r S = 0.82

150 100 50 0 0

50

100

150

rg(Pro−Kopf−BIP)

Daten: United Nations Statistics Division [2014]

200

150

5 Beschreibung und Analyse empirischer Zusammenh¨ange

5.2.3 Einfache lineare Regression Zweck und allgemeine Vorgehensweise • Hintergrund • In vielen F¨ allen erscheint es interessant und n¨ utzlich, den Zusammenhang zwischen zwei Merkmalen funktional zu beschreiben. Zur Beschreibung linearer Abh¨angigkeiten kommen dabei insbesondere Geradengleichungen in Frage. Diese erm¨oglichen sowohl Aussagen u ¨ber kausale Effekte als auch stets gewisse Formen von Prognosen. Abbildung 5.2.13 stellt eine Erweiterung von Beispiel 5.2.6 (Abschnitt 5.2.2) dar. Die Ver¨anderung der Erwerbslosenquote und das durchschnittliche Wirtschaftswachstum (reales BIP) der Euro-L¨ ander und einiger weiterer ausgew¨ahlte L¨ander werden nun f¨ ur zwei unterschiedliche Zeitr¨ aume in Beziehung gesetzt. Trotz a¨hnlicher Korrelationswerte (−0.75 und −0.66) liegen doch recht unterschiedliche Situationen vor. F¨ ur beide Zeitr¨aume wurden jeweils zwei die Datenpunkte approximierenden Geraden nach unterschiedlichen Berechnungsmethoden (KQ-Methode und LAD-Methode) bestimmt. Unabh¨angig von der Berechnungsweise fallen die Steigungen der Geraden verschieden aus. So gehen bestimmte Unterschiede im Wirtschaftswachstum im l¨angeren Zeitraum von 2007 bis 2012 mit gr¨ oßeren Ver¨ anderungen am Arbeitsmarkt einher als im k¨ urzeren Zeitraum der krisengezeichneten Jahre von 2007 bis 2009. Entsprechend ¨außert sich dies durch einen gr¨oßeren Steigungskoeffizienten.

20

Enwicklung von 2007 bis 2009 KQ LAD

15 10 5 0

r X Y = − 0.75

−5 −15

−10

−5 BIP−Wachstum

0

5

Erwerbslosenquote − Differenz

Erwerbslosenquote − Differenz

Abb. 5.2.13: Wirtschafts- und Arbeitsmarktentwicklung in unterschiedlichen Zeitr¨ aumen 20

Enwicklung von 2007 bis 2012 KQ LAD

15 10 5 0

r X Y = − 0.66

−5 −15

−10

−5

0

5

BIP−Wachstum

Quelle: Sachverst¨ andigenrat [2013, Schaubild 65] • Lineares Regressionsproblem • Ziel einer einfachen linearen Regression ist es, den Zusammenhang zweier Merkmale X und Y mittels einer linearen Geradengleichung y = b0 + b1 · x zu beschreiben. Dabei bezeichnet b0 den Achsenabschnitt und b1 den Steigungskoeffizienten der Geraden. Es ist klar, dass eine solche Gerade den Zusammenhang nicht perfekt beschreibt, solange die Korrelation betragsm¨aßig kleiner als 1 ist. Das

5.2 Zusammenh¨ange zwischen metrischen Merkmalen

151

Regressionsproblem besteht deshalb allgemein darin, die im Zusammenhang einer approximierenden Geraden auftretenden Abweichungen (Fehler) der Beobachtungswerte zur Geraden insgesamt m¨ oglichst klein zu halten. • Mathematisch formaler Rahmen • Zur mathematischen Formulierung und L¨ osung des Regressionsproblems werden die Daten im Rahmen einer Regressionsgleichung beschrieben. F¨ ur gegebene Beobachtungswerte (x1 , y1 ), . . . , (xn , yn ) gilt dabei die Beziehung yi = b0 + b1 · xi + ui f¨ ur i = 1, . . . , n. Ausf¨ uhrlich notiert handelt es sich dabei eigentlich um n Gleichungen, n¨amlich y1 = b0 + b1 · x1 + u1 , y2 = b0 + b1 · x2 + u2 , .. . yn = b0 + b1 · xn + un . Demnach ergeben sich die y-Werte linear aus den x-Werten und zus¨atzlichen additiven Termen ui , welche als Fehler oder Residuen bezeichnet werde. Bildlich entsprechen die Residuen den vertikalen Abweichungen (Abst¨anden) der Beobachtungswerte von einer approximierenden Geraden. Sinnvollerweise wird Y als Zielvariable oder abh¨ angige Variable und X als Einflussvariable, unabh¨ angige Variable oder erkl¨ arende Variable bezeichnet. Alternativ werden auch die Bezeichnungen Regressand und Regressor f¨ ur Ziel- bzw. Einflussvariable verwendet. Nat¨ urlicherweise sollte die Einflussvariable als eine die Zielvariable kausal beeinflussende Variable zu verstehen sein. Jedoch erweist sich die Kl¨ arung solcher Fragen also nicht immer ganz eindeutig. Weitergehende Ausf¨ uhrungen zu diesem Punkt finden sich in Abschnitt 5.3.3. • Interpretation von Koeffizienten und Prognosen • Der Steigungskoeffizient b1 wird dahingehend interpretiert, dass eine Ver¨ anderung von X um ∆x Einheiten ten” denziell“ mit einer Ver¨ anderung in Y um b1 × ∆x Einheiten einhergeht (Abb. 5.2.14, links). Die Richtung der Ver¨ anderung stimmt dabei mit dem Vorzeichen des Koeffizienten u ¨berein. Somit wird mit dem Steigungskoeffizienten mehr oder weniger eine kausale Effektst¨arke gemessen. Der Achsenabschnitt b0 ist formal der f¨ ur Y prognostizierte“ ” Wert, falls X gleich 0 ist. So sollte etwa im rechten Schaubild von Abbildung 5.2.14 mit jedem Zentimeter zus¨ atzlicher K¨ orpergr¨ oße das Gewicht tendenziell um etwa 0.93 kg zunehmen. F¨ ur b0 = −95.13 (kg) ergibt sich in diesem Fall jedoch keine inhaltlich sinnvoll interpretierbare Gr¨ oße. Anhand von Regressionsgeraden lassen sich stets auch gewisse Formen von Prognosen (Pr¨ adiktionen) erstellen. So sollte im vorliegenden Beispiel ein 180 cm großer Student gem¨aß der angepassten Geraden etwa 72.3 kg wiegen, da −95.13 + 0.93 · 180 = 72.27 ist. In diesem Fall handelt es sich also um keine Prognosen mit zeitlicher Dimension. Regressionstechniken werden jedoch auch in der Zeitreihenanalyse angewendet und stellen dort wichtige Instrumente im Zusammenhang echter Prognosen“ dar. ”

152

5 Beschreibung und Analyse empirischer Zusammenh¨ange Abb. 5.2.14: Einfache lineare Regression: Interpretation und Beispiel

b 0 + b 1x i

ui

yi

b0

Gewicht in kg

y

y=

b 1x b 0+

∆y ∆x

0

b1 =

r X Y = 0.71

100

y^(x ) = − 95.13 + 0.93x

80 60 40

xi

∆y

120

x

140

150

160

∆x

170

180

190

200

Größe in cm

Quelle: Eigenerhebung • Berechnungsmethoden • Mathematisch wird das Regressionsproblem als Optimierungsproblem aufgefasst, wobei je nach Wahl des Optimalit¨atskriteriums unterschiedliche L¨osungen denkbar sind. Minimiert man beispielsweise die Summe aller absoluten Fehler n X |ui |, i=1

so resultiert daraus die sog. LAD-Gerade (least absolute deviation). Minimiert man dagegen die Summe der quadratischen (quadrierten) Fehler n X u2i , i=1

resultiert daraus die Kleinste-Quadrate-Gerade (KQ-Gerade). Daneben existiert eine F¨ ulle weiterer M¨ oglichkeiten eine Regressionsgerade sinnvoll zu konstruieren. Nachfolgende Ausf¨ uhrungen werden sich jedoch auf diese beiden beschr¨anken. Abb. 5.2.15: Minimierung absoluter oder quadratischer Abweichungen 4

4

y~(x ) = 0.75 + 0.25x

3

y^(x ) = 0.9 + 0.3x

y 2

de Gera

LAD−

1

de

Gera

3

KQ−

y 2 1

0

0 0

1

2

3

x

4

5

6

0

1

2

3

4

5

6

x

• Frage der Auswahl • Tats¨ achlich ist die Minimierung der quadratischen Abst¨ande, die Kleinste-Quadrate-Methode, die mit Abstand popul¨arste Berechnungsmethode. Daf¨ ur gibt es sowohl praktische wie auch theoretische Gr¨ unde. Wie sich noch zeigen wird, verhalten sich LAD-Gerade und KQ-Gerade ¨ahnlich zueinander wie Median und

5.2 Zusammenh¨ange zwischen metrischen Merkmalen

153

Mittelwert. Den entscheidenden Unterschied macht dabei weniger die Interpretation, sondern die h¨ohere Robustheit der LAD-Geraden gegen¨ uber Ausreißern aus. In der Praxis empfiehlt es sich beide Berechnungsmethoden zu verwenden, um Ergebnisse gegebenenfalls differenzierter angeben zu k¨ onnen. Sofern sich wie in Abbildung 5.2.15 Ergebnisse nur unwesentlich unterscheiden, mag es gen¨ ugen, lediglich die Ergebnisse der g¨ angigeren KQ-Regression wiederzugeben. In der Praxis ist die Auswahl der Berechnungsmethode also eher eine Frage der Differenziertheit als eine Frage der Richtigkeit.

KQ-Methode (L2 -Regression) • Minimierungsproblem • Wie bereits erw¨ahnt besteht die bedeutendste Berechnungsmethode darin, die Summe der quadratischen Abweichungen zu minimieren (Kleinste-Quadrate-Methode), also den Ausdruck n n X X (yi − b0 − b1 xi )2 . u2i = i=1

i=1

Das Verfahren wird auch als L2 -Regression bezeichnet, da sich quadratische Abweichungen mathematisch im Rahmen der sog. L2 -Norm behandeln lassen, was hier jedoch ˆ mit nicht weiter vertieft werden soll. Definiert man nun die Funktion Q n X ˆ 0 , b1 ) = (yi − b0 − b1 xi )2 , Q(b i=1

so kann man das Minimierungsproblem auch formal schreiben als ˆ 0 , b1 ). min Q(b b0 ,b1

(5.2.7)

Angenommen es liegen die folgenden 5 Beobachtungswerte vor (Abb. 5.2.15): (1, 1), (2, 2), (3, 1), (4, 3), (5, 2). Dann lautet die zu minimierende Funktion konkret: ˆ 0 , b1 ) = (1 − b0 − b1 )2 + (2 − b0 − 2b1 )2 + (1 − b0 − 3b1 )2 Q(b + (3 − b0 − 4b1 )2 + (2 − b0 − 5b1 )2 . Die einzelnen Terme k¨ onnten nat¨ urlich noch weiter verrechnet und zusammengefasst werden. ˆ Abbildung 5.2.16 zeigt im linken Schaubild einen Konturplot der Zielfunktion Q. Die wie in einer Landkarte zu interpretierenden H¨ohenlinien“ indizieren die Gestalt ” einer Mulde mit Tiefpunkt an der Stelle (0.9, 0.3). Die anderen beiden Schaubilder stellen jeweils eine Art H¨ ohenprofil entlang der eingezeichneten Pfeile dar. Daraus wird ein insgesamt glatter“ Funktionsverlauf bez¨ uglich beider Variablen ersichtlich. Die Ziel” funktion ist u ¨berall stetig und differenzierbar. Der minimale Funktionswert an der Stelle (0.9, 0.3) ist ˆ Q(0.9, 0.3) = 1.9. Zusammengefasst heißt das, dass die KQ-Gerade den Achsenabschnitt 0.9 und die Steigung 0.3 besitzt. Die Summe der quadrierten Fehler betr¨agt dabei insgesamt 1.9.

154

5 Beschreibung und Analyse empirischer Zusammenh¨ange Abb. 5.2.16: L2 -Regression: Minimierung der Zielfunktion 0.5

b1

3

0.4

^ Q (b 0,0.3)

8

^ Q (b 0,b 1)

9

2.1

2.

2.3 2.5

^ Q (0.9,b 1)

8

6

6

4

4

2

2

0.3

2

0.2

3

0.1

2. 8

2.2

2.

7

2.4

2.

9

0.0 0.0

0.5

1.0

1.5

2.6

0

0 0.0

2.0

0.5

1.0

b0

1.5

2.0

0.0

b0

0.1

0.2

0.3

0.4

0.5

b1

• L¨ osung und Berechnung • Tats¨ achlich besitzt das Minimierungsproblem (5.2.7) bei positiver Varianz der x-Werte stets die eindeutigen L¨osungen s˜XY ˆb0 = y¯ − ˆb1 x (5.2.8) ¯ und ˆb1 = 2 . s˜X Der Steigungskoeffizient ergibt sich stets aus der Kovarianz von x- und y-Werten dividiert durch die Varianz der x-Werte. Der Achsenabschnitt wird anhand der Mittelwerte und dem berechneten Steigungskoeffizienten ermittelt. Diese einfach zu berechnenden L¨ osungsformeln lassen sich u ¨ber partielles Ableiten der Zielfunktion relativ einfach analytisch herleiten (vgl. Abschnitt 12.1.1). F¨ ur die Daten des vorhergehenden Beispiels erh¨alt man damit ˆb1 = s˜XY = 0.6 = 0.3 und ˆb0 = y¯ − ˆb1 x ¯ = 1.8 − 0.3 · 3 = 0.9. s˜2X 2 Die ausf¨ uhrliche Berechnung von Hand“ findet sich im sp¨ateren Rechenbeispiel. ” Liegt keinerlei Variation in den x-Werten vor, so existiert zwar eine L¨osung, jedoch ist diese dann (und nur dann) nicht mehr eindeutig. Abbildung 5.2.17 illustriert einen solchen Fall. Alle x-Werte sind hier gleich 3. Alle Geraden, welche durch den Punkt (2, 2) verlaufen, weisen nun die gleiche minimale Summe quadratischer Fehler auf. Diese betr¨agt genau 12 + (−1)2 + 02 = 2. Allerdings sollte betont werden, dass in solchen F¨allen eine lineare Regression inhaltlich ohnehin nicht mehr sinnvoll erscheint. Im Rahmen der multiplen Regression (Abschnitt 12.2) wird sp¨ater der Fall nicht eindeutiger L¨osungen unter dem Problem sog. Multikollinearit¨ at behandelt. Abb. 5.2.17: L2 -Regression: Beispiel einer nicht eindeutigen L¨ osung 4

y

3 2 1 x 0

1

2

3 x 1=x 2=x 3

4

5

5.2 Zusammenh¨ange zwischen metrischen Merkmalen

155

• Bezeichnungen • Die L¨ osungen des Minimierungsproblems (5.2.7) werden als Kleinste-Quadrate-Koeffizienten bezeichnet. Die korrespondierende Gerade yˆ(x) = ˆb0 + ˆb1 x heißt Kleinste-Quadrate-Gerade oder kurz KQ-Gerade. Die f¨ ur die beobachteten x-Werte mittels Gerade prognostizierten y-Werte heißen gefittete Werte und sind definiert als yˆi = ˆb0 + ˆb1 xi f¨ ur i = 1, . . . , n. In Abbildung 5.2.18 wurden die Punkte (xi , yˆi ) durch Kreuze dargestellt. Die (vertikalen) Abweichungen der y-Werte von den gefitteten Werten heißen KQResiduen und sind definiert als u ˆi = yi − yˆi f¨ ur i = 1, . . . , n. Ein Punkt oberhalb der Geraden wird durch ein positives, ein Punkt unterhalb der Geraden durch ein negatives Residuum ausgewiesen. Ein Residuum von 0 indiziert, dass der Punkt auf der Geraden liegt. • Eigenschaften der KQ-Gerade • F¨ ur jede KQ-Gerade gilt: (1) Sie verl¨auft durch den Schwerpunkt (¯ x, y¯). (2) Die Summe der gefitteten Werte ist gleich der Summe der y-Werte. (3) Die Summe der KQ-Residuen ist gleich 0. Aufgrund der letzten Eigenschaft wird die KQ-Gerade manchmal auch als Ausgleichsgerade bezeichnet, da sich positive und negative Fehler in der Summe ausgleichen. Der Nachweis dieser drei und einiger weiterer Eigenschaften findet sich in Abschnitt 12.1.1. Abb. 5.2.18: L2 -Regression durch den Schwerpunkt y 4 y4

3

y^4

2

(x 4,y 4)

u^4

y

(x,y)

1

0

1

2

x

x4

3

4

x 5

6

• Beispiel 5.2.9 • Wir nehmen die 5 Beobachtungswerte gem¨aß Abbildung 5.2.15 bzw. 5.2.18. Die Arbeitstabelle ist nahezu deckungsgleich zur derjenigen f¨ ur den Korrelationskoeffizienten (Abschnitt 5.2.2). Die 4 letzten Spalten enthalten zu Anschauungszwecken

156

5 Beschreibung und Analyse empirischer Zusammenh¨ange Tabelle 5.2.4: Arbeitstabelle zur Bestimmung einer KQ-Geraden i 1 2 3 4 5 Summe

xi 1 2 3 4 5 15

yi 1 2 1 3 2 9

xi yi 1 4 3 12 10 30

x2i 1 4 9 16 25 55

yˆi 1.2 1.5 1.8 2.1 2.4 9

u ˆi −0.2 0.5 −0.8 0.9 −0.4 0

|ˆ ui | 0.2 0.5 0.8 0.9 0.4 2.8

u ˆ2i 0.04 0.25 0.64 0.81 0.16 1.9

gefittete Werte und KQ-Residuen, die zur Berechnung der KQ-Geraden an sich nicht ben¨otigt werden. Aus den Spaltensummen erh¨ alt man zun¨achst einmal 9 15 = 3 und y¯ = = 1.8. x ¯= 5 5 Unter Verwendung der Verschiebungsformeln folgt gem¨aß den L¨osungsformeln (5.2.8): Pn 1 1 xi yi − x ¯y¯ 6 − 5.4 5 · 30 − 3 · 1.8 ˆb1 = s˜XY = n Pi=1 = 0.3 bzw. = = n 1 1 2 2 2 s˜2X 11 − 9 ¯ i=1 xi − x n 5 · 55 − 3 ˆb0 = y¯ − ˆb1 x ¯ = 1.8 − 0.3 · 3 = 0.9. Die KQ-Gerade lautet damit yˆ(x) = ˆb0 + ˆb1 x = 0.9 + 0.3x. Gefittete Werte und Residuen ergeben sich dann als yˆ1 = 0.9 + 0.3 · 1 = 1.2, . . . , yˆ5 = 0.9 + 0.3 · 5 = 2.4, bzw. u ˆ1 = y1 − yˆ1 = 1 − 1.2 = −0.2, . . . , u ˆ5 = y5 − yˆ5 = 2 − 2.4 = −0.4. Wie man sieht, ist die Summe der gefitteten Werte gleich der Summe der y-Werte, die Summe aller KQ-Residuen ergibt 0, und die KQ-Gerade verl¨auft durch den Schwerpunkt (3, 1.8). Die Residuenquadratsumme ist mit 1.9 kleiner und die Summe der absoluten Abweichungen mit 2.8 gr¨ oßer als bei der L1 -Regression (vgl. Tab. 5.2.5). • Interpretation der KQ-Gerade • Grunds¨atzlich werden Achsenabschnitt und Steigung der KQ-Geraden in der Weise gedeutet, wie es zuvor f¨ ur den allgemeinen Fall einer linearen Regression beschrieben wurde. Die im Zuge inferenztheoretischer ¨ Uberlegungen abgeleiteten Eigenschaften der KQ-Geraden legen es jedoch auch nahe, die KQ-Gerade als eine sich auf den Durchschnitt“ beziehende Gerade zu deuten. So ” l¨asst sich zeigen, dass unter bestimmten Modellannahmen die mittels Geradengleichung prognostizierten Werte im Mittel zu erwarteten Werten“ entsprechen (vgl. hierzu die ” Ausf¨ uhrungen im Rahmen von Abschnitt 12.1.3). Bei der Deutung des Steigungskoeffizienten wird deshalb h¨ aufig auch von einer Steigerung um durchschnittlich b1 × ∆x ” Einheiten“ gesprochen. Im Beispiel von Abbildung 5.2.14 mit K¨orpergr¨oßen und Gewichten von Personen sollte das Gewicht einer Person also um durchschnittlich 0.93 kg pro Zentimeter zunehmen und eine 180 cm große Person sollte im Durchschnitt 72.27 kg wiegen.

5.2 Zusammenh¨ange zwischen metrischen Merkmalen

157

• Bezug zum Korrelationskoeffizienten • Da das Vorzeichen des Steigungskoeffizienten allein vom Vorzeichen der Kovarianz abh¨angt, stimmt dieses mit dem Vorzeichen der Korrelation stets u ¨berein. Bei positiver Korrelation besitzt die KQ-Gerade also eine positive Steigung und bei negativer Korrelation eine negative Steigung. Sind x- und y-Werte unkorreliert, so ist die Steigung der KQ-Geraden gleich 0. • Bezug zum arithmetischen Mittel • Restringiert man den Steigungskoeffizienten auf den Wert 0, d.h. f¨ uhrt man eine Achsenabschnittsregression durch, resultiert daraus die zu minimierende Zielfunktion n X (yi − b0 )2 . fˆ(b0 ) = i=1

Die L¨osung hierzu lautet bekanntermaßen (Abschnitt 4.9.1) ˆb0 = y¯. Man erh¨alt eine horizontale Gerade auf H¨ ohe des arithmetischen Mittels der y-Werte. In der KQ-Gerade spiegelt sich somit die Minimumeigenschaft des arithmetischen Mittels wider. • Vor- und Nachteile der KQ-Methode • Die KQ-Methode f¨ uhrt insgesamt zu einer eindeutigen, einfach zu berechnenden und gut interpretierbaren L¨osung. Die L¨ osungsformeln enthalten g¨ angige statistische Gr¨oßen, die sich selbst von Hand noch berechnen lassen. Auch insgesamt betrachtet l¨ asst sich die KQ-Methode mathematisch, insbesondere in der linearen Algebra (Vektor- und Matrizenrechnung) wesentlich eleganter“ darstel” len und handhaben als die LAD-Methode. Die Verwendung quadratischer Abweichungen f¨ uhrt außerdem zu analytischen Ausdr¨ ucken, die im Rahmen der Differential- und Integralrechnung bearbeitbar sind. Die Verwendung absoluter Abweichungen hat hingegen h¨aufig Problemstellungen zur Folge, die lediglich mithilfe rechnergest¨ utzter numerischer Verfahren gel¨ost werden k¨ onnen. Wird die approximierende Anpassung einer linearen Geraden als statistisches Problem gedeutet und mithilfe statistischer Modellierung behandelt, erweist sich die KQ-Gerade unter bestimmten Annahmen als optimal. Formal wird diese Optimalit¨atseigenschaft im Rahmen des sog. Gauß-Markov-Theorems gefasst und auch als GaußMarkov-Eigenschaft bezeichnet (Abschnitt 12.1.3). Ein offensichtlicher Nachteil der KQ-Geraden ist deren Empfindlichkeit gegen¨ uber Ausreißern. Abbildung 5.2.19 illustriert dies anhand von 3 Situationen. Das linke und mittlere Schaubild zeigen mit Ausnahme eines einzelnen Ausreißers die gleichen Daten. Der Ausreißer ist in Bezug auf seine Lage in y-Richtung auffallend groß. Die KQ-Gerade wird dadurch quasi ausgehebelt, w¨ ahrend die LAD-Gerade selbst bei gr¨oßerem y-Wert unver¨andert bleibt. Dies liegt daran, dass bei der KQ-Methode Abst¨ande quadratisch eingehen. Infolgedessen muss sich die KQ-Gerade unverh¨altnism¨aßig stark an abweichende Beobachtungen anpassen, um die Summe aller quadratischen Abweichungen insgesamt minimal zu halten. Das rechte Schaubild verdeutlicht jedoch, dass in gewissen Situationen selbst die LAD-Gerade durch Ausreißer deutlich beeinflusst werden

158

5 Beschreibung und Analyse empirischer Zusammenh¨ange Abb. 5.2.19: KQ-Gerade und LAD-Gerade bei Ausreißern 15

15

KQ LAD

10

15

KQ LAD

10

y

10

y 5

y 5

0

5

0 0

5

x

10

15

KQ LAD

0 0

5

x

10

15

0

5

x

10

15

kann. Dies ist insbesondere dann der Fall, falls deren Lage auch in x-Richtung auff¨allig abweicht. • Anmerkungen zur Historie • Der Kleinste-Quadrate-Ansatz wurde erstmals von Adrien-Marie Legendre [1805] publiziert. Etwas sp¨ater folgte der deutsche Mathematiker Carl Friedrich Gauss [1809], der diese Methode konzeptionell und technisch deut¨ lich tiefer behandelte, vor allem aber auch mit wahrscheinlichkeitstheoretischen Uberlegungen in Verbindung brachte. Zwischen Legendre und Gauß entstand dar¨ uber der ber¨ uhmteste Priorit¨ atendisput in der Geschichte der Statistik“, da letzterer behaupte” te die Methode bereits vor 1805 verwendet zu haben, wof¨ ur wohl auch einige Indizien sprechen (vgl. Stigler [1981]). Unbestritten ist jedoch, dass zuerst Legendre die immense Bedeutung dieser Methode bewusst wurde und diese auch als Erster explizit publizierte. Urspr¨ unglich wurde sie als approximatives Berechnungsverfahren u ¨berbestimmter linearer Gleichungssysteme (mehr Gleichungen als Unbekannte) verwendet, die sich im Kontext astronomischer und geod¨ atischer Messprobleme auf Basis von Beobachtungsdaten ergaben. Ihre allgemeine N¨ utzlichkeit zur L¨osung von Regressionsproblemen f¨ ur statistische Zusammenhangsanalysen wurde erst 90 Jahre sp¨ater insbesondere von Yule [1897a, 1897b] erkannt und ausgearbeitet. Dem gingen einige bedeutende konzeptionelle und theoretische Vorarbeiten von Galton [1885b, 1886] und Pearson [1896] voraus.

LAD-Methode (L1 -Regression) • Minimierungsproblem • Auf den ersten Blick naheliegender als die KQ-Gerade w¨ are es ja eigentlich, diejenige Gerade zu bestimmen, welche die Summe aller absoluten Abweichungen, also n n X X |ui | = |yi − b0 − b1 xi |, i=1

i=1

minimiert. Dieses historisch tats¨ achlich auch ¨altere Berechnungsverfahren wird als L1 Regression bezeichnet, da absolute Abweichungen im Rahmen der sog. L1 -Norm behandelt werden. Definiert man dementsprechend die Funktion mit n X ˜ 0 , b1 ) = Q(b |yi − b0 − b1 xi |, i=1

5.2 Zusammenh¨ange zwischen metrischen Merkmalen

159

ergibt sich daraus das Minimierungsproblem ˜ 0 , b1 ) min Q(b

(5.2.9)

b0 ,b1

Die L¨osungen ˜b0 bzw. ˜b1 definieren dann die LAD-Gerade (least absolute deviation) y˜(x) = ˜b0 + ˜b1 x. Mit den gleichen Beobachtungswerten wie zuvor lautet die zu minimierende Funktion jetzt: ˜ 0 , b1 ) = |1 − b0 − b1 | + |2 − b0 − 2b1 | + |1 − b0 − 3b1 | + |3 − b0 − 4b1 | Q(b + |2 − b0 − 5b1 | Abb. 5.2.20: L1 -Regression: Minimierung der Zielfunktion 0.5 0.4

b1

~ Q (b 0,0.25)

8

~ Q (b 0,b 1)

~ Q (0.75,b 1)

8

6

6

4

4

2

2

0.3 2.6

0.2

2.7 2.8

0.1

2.9

3

0.0 0.0

0.5

1.0

b0

1.5

2.0

0

0 0.0

0.5

1.0

b0

1.5

2.0

0.0

0.1

0.2

0.3

0.4

0.5

b1

Die Schaubilder in Abbildung 5.2.20 indizieren wiederum die Gestalt einer Mulde nun allerdings mit tiefster Stelle (0.75, 0.25). Die Zielfunktion ist zwar u ¨berall stetig, aber nicht u ¨berall differenzierbar. Stattdessen weist die Funktion gewisse Knickstellen“ ” auf. Der minimale Funktionswert betr¨ agt ˜ Q(0.75, 0.25) = 2.5. Dies ist zugleich die Summe aller absoluten Fehler. Abbildung 5.2.15 (links) zeigt das Ergebnis dieser Regression. • L¨ osung und Berechnung • Obwohl dieser Rechenansatz zun¨achst sehr nat¨ urlich erscheint, ist er bei weitem nicht so popul¨ ar wie der Kleinste-Quadrate-Ansatz. Ein wichtiger Grund daf¨ ur ist, dass das Minimierungsproblem nur mithilfe rechnergest¨ utzter numerischer Verfahren (lineare Programmierung ) gel¨ost werden kann. Einfach zu berechnende L¨ osungsformeln f¨ ur Achsenabschnitt und Steigung existieren nicht. In manchen F¨allen ist das Optimum nur schwer bestimmbar oder das Minimierungsproblem ist nicht eindeutig l¨ osbar (siehe n¨ achster Punkt). • Eindeutigkeitsprobleme • Abbildung 5.2.21 zeigt ein (stilisiertes) Beispiel einer nicht eindeutig bestimmbaren LAD-Geraden. Ausgehend von einer Geraden mit Achsenabschnitt 0.5 und Steigung 1 (linkes Schaubild), l¨asst sich diese parallel um bis zu 0.5 Einheiten sowohl nach oben als auch nach unten verschieben, ohne dass sich die Summe der absoluten Abweichungen ver¨ andert. Wird die Gerade beispielsweise um 0.5

160

5 Beschreibung und Analyse empirischer Zusammenh¨ange Abb. 5.2.21: L1 -Regression: Beispiel einer nicht eindeutigen L¨ osung

y

4

4

4

3

3

3

y

2

1

y

2

1

0

1

0 0

1

2

3

4

2

0 0

1

2

x

3

4

0

1

2

x

3

4

x

nach unten verschoben (mittleres Schaubild), so werden die Abst¨ande zu den dar¨ uber liegenden Punkten zwar gr¨ oßer, die Abst¨ ande zu den darunter liegenden Punkten gleichzeitig aber um die gleichen Betr¨ age k¨ urzer. Auch f¨ ur andere Konstellationen bleibt die Summe aller Abst¨ ande unver¨ andert gleich 3. So stellen s¨amtliche Geraden, welche f¨ ur 1 ≤ x ≤ 3 komplett den grau markierten Korridor durchlaufen, zul¨assige L¨osungen dar. Die KQ-Gerade w¨ are dagegen eindeutig. Sie entspricht dem ersten L¨osungsvorschlag im linken Schaubild. Die Schaubilder von Abbildung 5.2.22 indizieren f¨ ur die zu minimierende Zielfunktion der obigen Situation eine Art Plateau mit Minimalwert 3. Alle auf diesem Plateau befindlichen Punkte stellen zul¨ assige L¨ osungspaare f¨ ur Achsenabschnitt und Steigung dar. Beispielhaft wurden die zul¨ assigen L¨ osungen (0.5, 1), (0, 1), (−0.5, 1.5), (0, 1.2) und (1.5, 0.5) als Punkte eingezeichnet. Diese korrespondieren mit den insgesamt 5 unterschiedlichen Geraden in Abbildung 5.2.21. Abb. 5.2.22: Minimierung der Zielfunktion bei nicht eindeutiger L¨ osung 2.0

5

6

~ Q (b 0,1)

8

~ Q (b 0,b 1)

~ Q (0.5,b 1) 8

5

7.

1.5

9

5. 5 6 .5

4

5

9. 8

9.

6

4

4

2

2

5

6

9 5

8. 10

b1

1.0 0.5

7

3.5

4.5 8 7 .5 5.5 10 8 6 .5 7 6 .5

0.0 −0.5 −2

−1

0

b0

1

2

3

−2

−1

0

1

2

3

b0

−0.5

0.0

0.5

1.0

1.5

2.0

b1

• Bezeichnungen • Die Bezeichnungen f¨ ur Koeffizienten, Gerade, gefittete Werte und Residuen werden analog zur KQ-Methode gef¨ uhrt. Gegebenenfalls ist der Zusatz KQ“ ”

5.2 Zusammenh¨ange zwischen metrischen Merkmalen

161

durch LAD“ zu ersetzen. So notieren wir beispielsweise die korrespondierende LAD” Gerade mit y˜(x) = ˜b0 + ˜b1 x. • Eigenschaften der LAD-Gerade • Die in Abschnitt 5.2.3 aufgef¨ uhrten 3 Eigenschaften der KQ-Gerade gelten nicht f¨ ur die LAD-Gerade. Die LAD-Gerade verl¨auft im Allgemeinen also nicht durch den Schwerpunkt. Die Summe der gefitteten Werte entspricht nicht der Summe der y-Werte und die Summe der Residuen ist im Allgemeinen nicht gleich 0. Daf¨ ur gelten andere Eigenschaften. Die LAD-Gerade besitzt in der Regression eine ¨ahnliche Funktion wie der Median bei den Lagekenntwerten. So verl¨ auft sie stets so, dass mindestens die H¨alfte aller Beobachtungen oberhalb oder auf der Geraden liegen und mindestens die H¨alfte darunter oder darauf. Sie teilt sozusagen die zweidimensionalen Beobachtungen in zwei etwa gleich große H¨alften. Warum ist das so? Zur Vereinfachung nehmen wir an, dass eine Gerade so verl¨auft, dass kein einziger Beobachtungswert auf der Geraden liegt. L¨agen in einer solchen Situation dann beispielsweise mehr Beobachtungen oberhalb als unterhalb der Geraden, so k¨ onnte es sich dabei niemals um eine LAD-Gerade handeln. Denn durch bloßes paralleles Verschieben der Geraden nach oben hin, ließe sich die Summe der absoluten Abweichungen verringern. Durch das Verschieben nach oben w¨ urden mehr Abst¨ande kleiner als gr¨ oßer werden, jedenfalls solange bis die Gerade einen ersten Beobachtungswert schneidet. Analoges gilt, falls mehr Beobachtungen unterhalb als oberhalb der Geraden l¨ agen. Betrachten wir dazu als Beispiel die Situation in Abbildung 5.2.19 im rechten Schaubild. Die LAD-Gerade verl¨ auft hier genau durch 2 Punkte. Insgesamt liegen 6 der 11 Beobachtungen oberhalb oder auf und 7 Beobachtungen unterhalb oder auf der Geraden. W¨ urde man diese Gerade auch nur minimal parallel nach oben versetzen, w¨ urden insgesamt 7 Abweichungen zunehmen, aber nur 4 Abweichungen abnehmen. Unter den 7 zunehmenden Abweichungen sind auch die Abweichungen der beiden Punkte zu rechnen, die zuvor noch auf der Geraden lagen. Verschiebt man die Gerade dagegen minimal nach unten, werden insgesamt 6 Abweichungen gr¨oßer und 5 Abweichungen kleiner. Die vermutlich umfassendste Behandlung der Theorie zur L1 -Regression erh¨alt man, wenn diese als Spezialfall einer Quantilsregression betrachtet wird. Eine ausf¨ uhrliche Darstellung mit vielen praktischen Anwendungen und theoretischen Hintergr¨ unden bietet beispielsweise Koenker [2005], der als Pionier auf diesem Gebiet gilt. • Beispiel 5.2.10 • Wir nehmen die gleichen 5 Beobachtungswerte wie zuvor bei der KQ-Gerade gem¨ aß Abbildung 5.2.15 bzw. 5.2.23. Zur Berechnung k¨onnen wir uns keines Formelapparats bedienen. Stattdessen m¨ ussen Achsenabschnitt und Steigung nun numerisch mithilfe statistischer Software (z.B. R) berechnet werden. Man erh¨alt ˜b0 = 0.75 und ˜b1 = 0.25. Die LAD-Gerade lautet damit y˜(x) = ˜b0 + ˜b1 x = 0.75 + 0.25x. Gefittete Werte und Residuen ergeben sich dann als y˜1 = 0.75 + 0.25 · 1 = 1, y˜2 = 0.75 + 0.25 · 2 = 1.5, . . . bzw.

162

5 Beschreibung und Analyse empirischer Zusammenh¨ange Abb. 5.2.23: LAD-Gerade – verl¨ auft hier nicht durch Schwerpunkt y 4 3

y4

2

y~4

(x 4,y 4)

u~4 (x,y)

1 x4 0

1

2

3

4

x 5

6

u ˜1 = y1 − y˜1 = 1 − 1 = 0, u ˜2 = y2 − y˜2 = 2 − 1.25 = 0.75 usw.

Tabelle 5.2.5: Ergebnisse der L1 -Regression i 1 2 3 4 5 Summe

xi 1 2 3 4 5 15

yi 1 2 1 3 2 9

y˜i 1 1.25 1.5 1.75 2 7.5

u ˜i 0 0.75 −0.5 1.25 0 1.5

|˜ ui | 0 0.75 0.5 1.25 0 2.5

u ˜2i 0 0.5625 0.25 1.5625 0 2.125

Wie man sieht, stimmt die Summe der gefitteten Werte mit der Summe der y-Werte dieses Mal nicht u ¨berein. Ebenso ist die Summe aller Residuen von 0 verschieden, und die KQ-Gerade verl¨ auft am Schwerpunkt (3, 1.8) vorbei (Abb. 5.2.23). Die Residuenquadratsumme ist mit 2.125 (wie zu erwarten) gr¨oßer und die Summe der absoluten Abweichungen mit 2.5 kleiner als bei der KQ-Regression (vgl. Tabelle 5.2.4). • Interpretation der LAD-Gerade • W¨ahrend die KQ-Gerade als eine auf den Durchschnitt referierende Gerade interpretiert wird, wird die LAD-Gerade als eine auf den Median referierende Gerade gedeutet. Dies begr¨ undet sich nicht zuletzt auch durch die im vorigen Punkt beschriebenen besonderen Eigenschaften dieser Methode. Bekanntermaßen sind Mittelwert und Median bei symmetrischen Verteilungen jedoch identisch. Sofern zwischen zwei Variablen ein klar erkennbarer linearer Zusammenhang besteht und die Fehler weitgehend symmetrisch darum herum“ streuen, f¨ uhren L1 - und L2 ” Regression zu keinen nennenswerten Unterschieden. So liegt es in vielen F¨allen deshalb nahe, die LAD-Gerade in gleicher Weise zu interpretieren wie auch die KQ-Gerade. Bedeutsamer als Unterschiede in der Interpretation erscheinen deshalb die unterschiedlichen Robustheitseigenschaften von KQ- und LAD-Gerade. Als Gegenkontrolle“ ” zur popul¨aren KQ-Geraden erscheint die LAD-Gerade eine sinnvolle Erg¨anzung, um gegen etwaige Verzerrungen“ durch Ausreißer besser gewappnet zu sein. ”

5.2 Zusammenh¨ange zwischen metrischen Merkmalen

163

• Bezug zum Median • Restringiert man den Steigungskoeffizienten auf den Wert 0, d.h. f¨ uhrt man eine Achsenabschnittsregression durch, resultiert daraus die zu minimierende Zielfunktion n X fˆ(b0 ) = |yi − b0 |. i=1

Die L¨osung lautet bekanntermaßen (Abschnitt 4.9.2) ˜b0 = y˜0.5 , eine horizontal verlaufende Gerade auf H¨ ohe des Medians der y-Werte. Die LAD-Gerade spiegelt damit die Minimumeigenschaft des Medians wider. • Vor- und Nachteile der LAD-Methode • Die Vorteile der KQ-Methode erweisen sich sinnverkehrt als Nachteile der LAD-Methode. Analytisch l¨asst sich die LADMethode relativ schwer handhaben. F¨ ur Praktiker mag dies heute jedoch keine Entschuldigung mehr zur Meidung dieser Methode sein, da sich n¨otige Berechnungen problemlos mit frei verf¨ ugbarer Software wie z.B. R durchf¨ uhren lassen. Ein wichtiges Argument f¨ ur die Verwendung des LAD-Methode ist die h¨ ohere Robustheit gegen¨ uber Ausreißern. • Anmerkungen zur Historie • Die Urspr¨ unge der LAD-Methode werden allgemein ¨ in konzeptionellen Uberlegungen (prim¨ ar verbaler Natur“) von Boscovich [1755, 1770] ” im Zusammenhang der Erdvermessung (Geod¨ asie) gesehen. Laplace befasste sich ab 1789, etwa 15 Jahre vor Legendre’s Kleinste-Quadrate-L¨osung, eingehender mit diesen methodischen Ideen, untersuchte diese formaler und stellte seine Ergebnisse im 2. Band seines Monumentalwerks Trait´e de m´ecanique c´eleste (1799–1805) umfassend dar. Die von Laplace als method of situation“ bezeichnete Methode enthielt dabei noch die ” Nebenbedingung, dass sich die Summe der Residuen zu Null aufaddieren solle. Bildlich wurde damit die LAD-Gerade sozusagen durch den Schwerpunkt gezwungen. Edgeworth [1888] griff die LAD-Methode schließlich in der heute u ¨blichen Form ohne diese Nebenbedingung auf. Wie die KQ-Methode stellte auch die LAD-Methode urspr¨ unglich nur ein approximatives Berechnungsverfahren u ¨berbestimmter linearer Gleichungssysteme dar. N¨ahere Ausf¨ uhrungen zu Historie und Hintergr¨ unden finden sich bei Stigler [1986, S. 39–55] und Koenker [2005, S. 2–5].

Kritische Punkte und Alternativen • Frage der Richtung der Abh¨ angigkeit • Die Frage, welche der beiden Variablen als abh¨angig und welche als unabh¨ angig einzustufen ist, wird meist vor dem Hintergrund etwaiger Kausalit¨ atsrichtungen gekl¨ art. Jedoch f¨allt die Entscheidung dar¨ uber keineswegs immer so eindeutig aus wie im Falle der Gr¨oßen und Gewichte von Personen. Tiefergehende Ausf¨ uhrungen zu diesem kritischen Punkt finden sich in Abschnitt 5.3.3. • Multiple lineare Regression • Um Fehlinterpretationen oder gr¨oßere Prognosefehler zu vermeiden, erscheint es h¨ aufig notwendig, weitere Variablen, die in einem Wirkungszusammenhang zu den beiden interessierenden Variablen stehen, mit zu ber¨ ucksichtigen. Ein wichtiges Instrument stellt dabei die multiple lineare Regression dar,

164

5 Beschreibung und Analyse empirischer Zusammenh¨ange

bei der auf der rechten Seite der Regressionsgleichung nicht nur eine erkl¨arende Variable (einfache Regression) sondern mehrere erkl¨ arende Variablen ber¨ ucksichtigt werden. Mit dieser Thematik befasst sich ausf¨ uhrlich Abschnitt 12.2. Zur Gefahr systematischer Verzerrungen und damit verbundenen Fehlinterpretationen finden sich bereits einige Ausf¨ uhrungen in Abschnitt 5.3.3. • Nichtlineare Regressionsans¨ atze • Die Ermittlung einer linearen Regressionsgeraden macht nur eingeschr¨ ankt Sinn, wenn ein Zusammenhang offensichtlich nichtlinearer Natur ist wie etwa in Beispiel 5.2.8 (Abschnitt 5.2.2). Aufgrund der einfachen Interpretierbarkeit kann sich jedoch eine lineare Approximation immer noch als gen¨ ugend ¨ zweckm¨aßig erweisen. Dies gilt vor allem dann, falls inferenztheoretische Uberlegungen nicht maßgeblich sind und die St¨ arke der Nichtlinearit¨at nur schwach ausgepr¨agt ist. Ansonsten l¨asst sich h¨ aufig schon mithilfe einer einfachen Datentransformation (f¨ ur eine oder beide Variablen) die gew¨ unschte Linearit¨at erzielen (vgl. Beispiel 5.2.11). Alternativ dazu steht heute eine fast schon un¨ ubersichtlich große Anzahl alternativer Regressionsmethoden zur Verf¨ ugung, mit denen sich auch nichtlineare Zusammenh¨ange erfassen lassen. Einige dieser Verfahren wie etwa die Logit-Regression (vgl. Abschnitt ¨ 5.3.1) ber¨ ucksichtigen besondere Skalierungsarten von Variablen. Eine Ubersicht bieten beispielsweise Fahrmeir et al. [2013]. Schlittgen [2013] stellt insbesondere auch die rechentechnische Umsetzung zahlreicher Methoden anhand der Software R dar. Beispiel 5.2.11: Entwicklung von Wohnungspreisen in Deutschland Auch in den Medien wird h¨ aufig das Problem steigender Miet- und Immobilienpreise in deutschen St¨adten thematisiert, wobei hier als wichtiger Grund eine zunehmende Abwanderung von l¨ andlichen in st¨ adtische Gebiete angef¨ uhrt wird. Abb. 5.2.24: Bev¨ olkerungsdichte und Wanderungssaldo in Deutschland (2011) Wanderungssaldo je 10.000 Einwohner 400

Wanderungssaldo je 10.000 Einwohner 400

300

300

200

200

100

100

0

0

−100

−100 0

1000

2000

3000

Einwohner je qkm

4000

3

4

5

6

7

8

9

log(Einwohner je qkm)

¨ Daten: Statistische Amter des Bundes und der L¨ ander [2014] In Abbildung 5.2.24 ist der Zusammenhang zwischen der Bev¨olkerungsdichte (Einwohner je qkm) und dem Wanderungssaldo (je 10 000 Einwohner) in Kreisen und kreisfreien St¨adten Deutschlands im Jahr 2011 dargestellt. Der Zusammenhang ist eher nichtlinearer (konkaver) Natur, der sich jedoch durch geeignete Transformation linearisieren l¨asst. Hier erweist es sich als hilfreich, die Bev¨olkerungsdichte zu logarithmieren. Dadurch steigt die Korrelation von 0.46 auf 0.53 leicht an.

5.2 Zusammenh¨ange zwischen metrischen Merkmalen

165

Als gemessener linearer Zusammenhang ergibt sich nun W anderungssaldo = −125.6 + 26.35 × log(Bev¨ olkerungsdichte). Der Steigungskoeffizient 26.35 wird im Rahmen dieser Linear-Log-Regression folgendermaßen interpretiert: Eine Zunahme der Bev¨olkerungsdichte um 1% geht durchschnittlich mit einer Zunahme des Wanderungssaldos um 26.35×0.01 ≈ 0.26 Personen (je 10 000 Einwohner) einher. Abbildung 5.2.25 zeigt den Zusammenhang zwischen der Einwohnerentwicklung und der Preisentwicklung f¨ ur Eigentumswohnungen von 32 deutschen Großst¨adten f¨ ur den Zeitraum von 2007 bis 2012. Als gemessener Zusammenhang zwischen der durchschnittlichen j¨ahrlichen Ver¨ anderung von Einwohnerzahl und Wohnungspreis erh¨alt man: P reisentwicklung in % = 0.97 + 3.57 × Einwohnerentwicklung in %. Bei konstanter Bev¨ olkerung (0% Wachstum) stiegen die Wohnungspreise folglich um durchschnittlich knapp 1%. Ein Anstieg der Einwohnerzahl um 1% ging dagegen mit einem durchschnittlichen Preisanstieg um ca. 3.6% einher. Die Korrelation weist mit einem Wert von 0.79 einen deutlich ausgepr¨ agten (linearen) Zusammenhang aus. Abb. 5.2.25: Entwicklung von Einwohnerzahlen und Wohnungspreisen deutscher Großst¨ adte (nachgestellt) Durchschnittliche jährliche Veränderung der Preise zwischen Januar 2007 und Dezember 2012 in % 8 Hamburg Hamburg

6 4

Aachen Aachen

2

Halle Halle

Lübeck

Nürnberg Nürnberg Wiesbaden Wiesbaden

Bremen Bremen Bielefeld Bielefeld Magdeburg Magdeburg

Bochum Bochum Duisburg Duisburg Dortmund Essen Dortmund Essen Krefeld Krefeld

0

Wuppertal Wuppertal

−2

Berlin Berlin

Freiburg Freiburg

München München

Düsseldorf Düsseldorf Frankfurt Frankfurt Augsburg Augsburg Dresden Dresden Münster Münster Karlsruhe Stuttgart Karlsruhe Stuttgart Kiel Köln Köln Bonn Bonn Hannover Hannover Leipzig Leipzig Mannheim Mannheim

Chemnitz Chemnitz

−4 −0.6

−0.4

−0.2

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

Durchschnittliche jährliche Veränderung der Einwohnerzahl zwischen 2007 und 2012 in %

1.6

Daten: Sachverst¨ andigenrat [2013, Schaubild 115] Zur Interpretation von Koeffizienten einer Linear-Log-Regression Durch das Logarithmieren stellt die Interpretation nicht mehr auf einer Ver¨anderung der erkl¨arenden Variable in der urspr¨ unglichen Einheit (Einwohner je qkm) ab, sondern auf prozentualen Ver¨ anderungen dieser. Besonders einfach erweist sich dieser Ansatz bei kleineren“ prozentualen Ver¨ anderungen, da z.B. gilt: ” log(1.01) ≈ 0.01, log(1.02) ≈ 0.02, log(1.03) ≈ 0.03 usw. Nimmt also eine Quantit¨ at x beispielsweise um 1% zu, d.h. ver¨andert sich diese auf den Wert 1.01x, so folgt aufgrund dieser Eigenschaft: log(1.01 × x) = log(1.01) + log(x) ≈ 0.01 + log(x).

166

5 Beschreibung und Analyse empirischer Zusammenh¨ange

Die logarithmierte Gr¨ oße nimmt folglich um 0.01 und die abh¨angige Variable um βˆ1 × 0.01 Einheiten zu. V¨ ollig analog funktioniert das bei Ver¨anderungen bis etwa 10%. Mit gr¨oßeren Ver¨ anderungen geht diese einfache Merkregel jedoch verloren. So gilt z.B.: log(1.11) ≈ 0.10, log(1.5) ≈ 0.41, log(2) ≈ 0.69 oder log(3) ≈ 1.10. Der Faktor 1.5 (50% gr¨ oßer) ginge demnach z.B. mit einer absoluten Ver¨anderung der logarithmierten Gr¨ oße um 0.41 (und nicht etwa um 0.5) einher. Im obigen Beispiel w¨ urde also z.B. eine doppelt so hohe Bev¨ olkerungsdichte (Faktor 2) mit einer Zunahme des Wanderungssaldos um 26.35 × 0.69 = 18.18 Personen einhergehen. Zu weiteren Varianten z¨ ahlt die Log-Linear-Regression, bei der lediglich die abh¨angige Variable logarithmiert wird, log(Y ) = β0 + β1 X + U, oder die Log-Log-Regression, bei der sowohl die abh¨angige als auch die erkl¨arende Variable logarithmiert werden, log(Y ) = β0 + β1 log(X) + U. Die Interpretation des Steigungskoeffizienten ist bei diesen Regressionen noch einmal anders als bei der Linear-Log-Regression, was hier jedoch nicht weiter vertieft werden soll.

5.3 Erg¨ anzende und vertiefende Themen In diesem Abschnitt werden zun¨ achst einige M¨oglichkeiten zur Analyse gemischter Skalierungsf¨alle vorgeschlagen, bei denen ein Merkmal kategorialer und das andere metrischer Natur ist. Danach werden einige fortgeschrittene grafische Methoden zur Untersuchung h¨ oherdimensionaler Daten vorgestellt. Abschließend werden wichtige Aspekte f¨ ur die Analyse empirischer Zusammenh¨ange besprochen. Hierzu geh¨oren differenzierte Ausf¨ uhrungen zum Kausalit¨ atsbegriff und zu verschiedenen Arten von Verf¨alschungen, die sich aus systematischen Verzerrungen oder zuf¨alligen Schwankungen ergeben k¨ onnen.

5.3.1 Zusammenh¨ ange in anderen Skalierungsf¨ allen Grafische Analysem¨ oglichkeiten • Metrisches vs. kategoriales Merkmal • Sofern ein metrisches Merkmal direkt oder indirekt kausal (Abschnitt 5.3.3) von einem kategorialen Merkmal abh¨angt (z.B. K¨ orpergr¨oße von Geschlecht), kann man prinzipiell die Verteilung des metrischen Merkmals in den einzelnen Kategorien des kategorialen Merkmals jeweils separat darstellen und anschließend vergleichend analysieren. Hierbei sollte jedoch darauf geachtet werden, dass die Skalierungen der Achsen jeweils u ¨bereinstimmen, da ein (optischer) Vergleich ansonsten erheblich erschwert wird. Die beiden S¨aulendiagramme f¨ ur klassierte Daten im Beispiel von Abbildung 5.3.1 ließen sich freilich noch besser vergleichen, wenn man diese untereinander statt nebeneinander platzieren w¨ urde.

5.3 Erg¨anzende und vertiefende Themen

167

Abb. 5.3.1: S¨ aulendiagramme und Boxplots: Gr¨ oße nach Geschlecht Größe von Männern

Größe von Frauen Abs. Häufigkeit 60

50

50

40

40

30

30

20

20

10

10

0

Größe nach Geschlecht 200

Größe in cm

Abs. Häufigkeit 60

150

160

170 180 Größe in cm

190

200

210

180 170 160

0 140

190

140

150

160

170 180 Größe in cm

190

200

210

Männer

Frauen

Daten: Eigene Erhebungen Die h¨aufig bessere Alternative zu S¨ aulendiagrammen oder Histogrammen sind Boxplots. Diese lassen sich parallel angeordnet (horizontal oder vertikal) ausgesprochen kompakt in einem einzigen Diagramm mit einer einheitlichen Skalierung unterbringen. Ein m¨oglicher Nachteil besteht darin, dass ein gewisser Anteil von Information u ¨ber die Verteilung der Daten, die in den anderen Diagrammen noch ersichtlich ist, dabei verloren geht. Im vorliegenden Fall etwa l¨ asst sich die st¨arkere H¨aufung von Gr¨oßen zwischen 160 und 170 cm bei den Frauen aus dem Boxplot nicht mehr erkennen, ebenso wenig wie die Tatsache, dass die Anzahl von M¨annern wesentlich gr¨oßer ist als die Anzahl der Frauen. Insbesondere mit steigender Anzahl von Kategorien erweist sich die Verwendung von Boxplots jedoch zunehmend als vorteilhaft. Ein Anwendungsbeispiel hierf¨ ur findet sich in Abschnitt 3.2.4 (Abb. 3.2.12). Hier wird die Verteilung von Monatsrenditen in Abh¨ angigkeit von 10 verschiedenen Subindizes des EURO STOXX Index grafisch untersucht. • Kategoriales vs. metrisches Merkmal • H¨angt ein kategoriales Merkmal von einem metrischen Merkmal ab, eignen sich sog. Spinogramme zur Darstellung der Abh¨angigkeit. Spinogramme sind im Grunde segmentierte S¨aulendiagramme f¨ ur klassierte Daten, wobei die Breiten der einzelnen S¨aulen in ein proportionales Verh¨altnis zu den einzelnen Klassenh¨ aufigkeiten gesetzt werden. Im Grunde handelt es sich wie beim Spineplot (Abschnitt 5.1.3) um eine Spezialform von Mosaikplots (Abschnitt 5.1.3). Abbildung 5.3.2 zeigt die Abh¨ angigkeit der Arbeitsmarktbeteiligung von Frauen in der Schweiz in Abh¨ angigkeit von Alter und Nichterwerbseinkommen. Die Daten beruhen auf einer im Jahre 1981 durchgef¨ uhrten Erhebung von insgesamt 871 verheirateten Frauen. In Bezug auf die Arbeitsmarktbeteiligung und ihre Determinanten wurden die Daten insbesondere von Gerfin [1993, 1996] eingehend untersucht. Das linke Spinogramm zeigt, dass die Arbeitsmarktbeteiligung bis zum Alter von etwa 45 Jahren zunimmt und danach stetig abnimmt. Tabelle 5.3.1 fasst die absoluten Zahlen f¨ ur die einzelnen Altersklassen zusammen. Tabelle 5.3.1: Arbeitsmarktbeteiligung nach Alter Alter Ja Nein

20–25 25 48

25–30 47 63

30–35 79 73

35–40 78 53

40–45 78 51

45–50 51 63

50–55 25 51

55–60 17 59

60–65 1 10

168

5 Beschreibung und Analyse empirischer Zusammenh¨ange Abb. 5.3.2: Spinogramme: Arbeitsmarktbeteiligung nach Alter und Nichterwerbseinkommen 1.0

1.0

0.8

0.8

Nein

Nein 0.6

0.6

0.4

0.4

Ja

Ja 0.2

0.2

0.0

0.0 20

25

30

35

40

45

50

55

60

7

10.5

11

11.5

Logarithmiertes Nichterwerbseinkommen

Alter in Jahren

Danten: R-Paket AER“ (Datensatz SwissLabor“) ” ” Das rechte Spinogramm zeigt, dass mit steigendem Nichterwerbseinkommen (hierzu z¨ahlen beispielsweise das Einkommen des Ehemannes, Zinseink¨ unfte und Transferzahlungen), die Arbeitsmarktbeteiligung tendenziell abnimmt. Da das Einkommen logarithmiert gemessen wird, w¨ are folgende Interpretation hinsichtlich des mittleren Bereichs m¨oglich: Eine Steigerung des logarithmierten Nichterwerbseinkommen um 0.5 (von 10.5 auf 11, 11 auf 11.5 oder 11.5 auf 12) entspricht einer Steigerung des Nichterwerbseinkommen um ca. 65% (≈ e0.5 − 1) und geht mit einem R¨ uckgang der Arbeitsmarktbeteiligung um ca. 10–15 Prozentpunkte einher. • Kategorisierte und dichotomisierte Merkmale • In manchen F¨allen erscheint es hilfreich, ein an sich metrisches Merkmal auf einzelne Gr¨oßenklassen zu vergr¨obern, d.h. zu kategorisieren (manchmal wird auch von diskretisieren“ gesprochen). Werden ” nur zwei verschiedene Kategorien zugelassen, spricht man auch von einer Dichotomisierung .

Zuwanderung

Abb. 5.3.3: Bev¨ olkerungsdichte und Wanderungssaldo – alternative Darstellungen 400 300 200

Abwanderung

100 0

Einwohner je qkm

36 44 ≤

8

8

86 ≤

28 ≤

7 15 ≤



10

9

−100

1.0 0.8 0.6 0.4 0.2 0.0

≤ 109

≤ 157

≤ 288

≤ 868

≤ 4436

Einwohner je qkm

¨ Daten: Statistische Amter des Bundes und der L¨ ander [2014]

5.3 Erg¨anzende und vertiefende Themen

169

Abbildung 5.3.3 bezieht sich auf die Daten aus Beispiel 5.2.11 in Abschnitt 5.2.3. Die linke Darstellung zeigt die Verteilung des Wanderungssaldos in Abh¨angigkeit von der Bev¨olkerungsdichte, wobei letztere in 5 verschiedene Gr¨oßenklassen kategorisiert wurde. Die Klassengrenzen entsprechen den Quintilen und lauten jeweils von u ¨ber . . . ” bis einschließlich“. In der rechten Darstellung wurde zus¨atzlich noch das Wanderungssaldo in die beiden Kategorien Zuwanderung“ und Abwanderung“ dichotomisiert. Um ” ” beispielsweise prim¨ ar herauszustellen, dass Regionen mit h¨oherer Bev¨olkerungsdichte tendenziell ein h¨oheres Zuwanderungssaldo aufweisen als Regionen mit geringerer Dichte, liefern diese beiden Darstellungen einen zwar vergr¨oberten, daf¨ ur aber deutlicheren Eindruck als die Darstellungen in Abbildung 5.2.24 von Beispiel 5.2.11.

Zusammenhangsmaße • Zusammenhangsmaße f¨ ur ordinale Merkmale • Prinzipiell lassen sich Zusammenh¨ange zwischen ordinalen Merkmalen mit den Methoden aus Abschnitt 5.1 geeignet darstellen und analysieren. Da ordinale Werte jedoch eine nat¨ urliche Rangfolge besitzen, ist es bei diesen h¨ aufig noch von Interesse, nicht nur die St¨arke sondern auch eine m¨ ogliche Richtung einer Abh¨ angigkeit festzustellen. Tabelle 5.3.2: Glaube an Gott und Glaube an Sternzeichen Sternzeichen Glaube −2 −1 0 1 2 Σ

-2

-1

0

1

2

Σ

30 20 16 27 16 109

4 4 7 11 8 34

5 1 3 5 6 20

1 6 5 16 9 37

1 0 1 1 3 6

41 31 32 60 42 206

Quelle: Eigenerhebung Tabelle 5.3.2 zeigt das Ergebnis einer Befragung von insgesamt 206 Studierenden bez¨ uglich der beiden Fragen Glauben Sie an (einen) Gott (h¨ oheres Wesen)?“ und Ist ” ” an Sternzeichen etwas Wahres dran?“. Die Antwortkategorien lauteten: −2 f¨ ur auf ” keinen Fall“, −1 f¨ ur eher Nein“, 0 f¨ ur neutral bzw. weiß nicht“, 1 f¨ ur eher Ja“ und ” ” ” 2 f¨ ur auf jeden Fall“. Abbildung 5.1.8 (Abschnitt 5.1.3) stellt diesen Zusammenhang ” mittels sog. Spineplots grafisch dar. Der korrigierte Kontingenzkoeffizient nach Pearson ergibt 0.3585, der Korrelationskoeffizient nach Bravais-Pearson 0.2514 und der Korrelationskoeffizient nach Spearman 0.2369. Die beiden letzten Maße ber¨ ucksichtigen auch die Richtung des Zusammenhangs, der hier offensichtlich derart ist, dass ein h¨oherer Gottesglaube tendenziell auch mit einem st¨ arkeren Glauben an Sternzeichen einhergeht. Da die an sich ordinal skalierten Antwortm¨ oglichkeiten in Zahlenwerte u ¨bersetzt wurden (z.B. auf keinen Fall“ in −2), stellt sich hier die Frage, inwiefern die Berechnung ” der Korrelation nach Bravais-Pearson u ¨berhaupt zul¨assig ist. Schließlich erscheint die

170

5 Beschreibung und Analyse empirischer Zusammenh¨ange

Metrisierung der ordinalen Kategorien in gewisser Weise beliebig. So gibt es beispielsweise keinen nat¨ urlichen Grund daf¨ ur, den Abstand zwischen auf keinen Fall“ ” und eher nein“ auf einer metrischen Skala genauso so groß zu w¨ahlen wie derjenige ” zwischen eher Nein“ und neutral bzw. weiß nicht“. Mit der Wahl des Koeffizienten ” ” nach Spearman umgeht man dieses Problem, da lediglich die Rangwerte in die Berechnung einfließen. In der Praxis zeigt sich jedoch, dass die beiden Koeffizienten im Falle von Kontingenztabellen meist sehr ¨ ahnliche Resultate ergeben. Gr¨oßere Unterschiede k¨ onnen sich allenfalls ergeben, falls die Besetzungsh¨aufigkeiten in der Tabelle eine insgesamt monotone nichtlineare“ Struktur aufzeigen. Aufgrund der h¨aufig geringen Anzahl ” von Kategorien bleiben die M¨ oglichkeiten f¨ ur derartige Strukturen jedoch ohnehin nur sehr beschr¨ankt. Tabelle. 5.3.3 zeigt ein stark stilisiertes Beispiel eines solchen Falls. Der korrigierte Kontingenzkoeffizient nach Pearson ergibt hier 0.9129, der Korrelationskoeffizient nach Bravais-Pearson −0.8455 und der Korrelationskoeffizient nach Spearman −0.9231. Da die Besetzungsstruktur der einzelnen Zellen eine nichtlineare aber deutlich monotone Struktur aufweist, f¨ allt hier der absolute Wert des Koeffizienten nach Spearman deutlich h¨ oher aus als derjenige nach Bravais-Pearson. Tabelle 5.3.3: Monotone nichtlineare“ Struktur innerhalb einer Kontingenztabelle ” Sternzeichen Glaube −2 −1 0 1 2 Σ

-2

-1

0

1

2

Σ

0 0 10 10 10 30

0 10 0 0 0 10

10 0 0 0 0 10

10 0 0 0 0 10

10 0 0 0 0 10

30 10 10 10 10 70

Man beachte, dass die Anzahl von Bindungen bei Kontingenztabellen im Allgemeinen sehr hoch ist. Sofern der Korrelationskoeffizient nach Spearman als rein deskriptives Maß verwendet wird, bereitet dies keine Probleme. Werden jedoch induktive Verfahren (insbesondere bestimmte Testverfahren) anhand des Spearman’schen Koeffizienten durchgef¨ uhrt, sind gewisse Korrekturen vorzunehmen. N¨ahere Hinweise dazu finden sich beispielsweise bei B¨ uning und Trenkler [1994, Abschnitt 8.4]. Neben dem Korrelationskoeffizienten nach Spearman existieren zahlreiche alternative Zusammenhangsmaße f¨ ur ordinale Daten wie etwa Goodman and Kruskal’s Gamma oder Kendall’s Tau. Eine ausf¨ uhrliche Abhandlung dar¨ uber bietet beispielsweise Agresti [2010, Kapitel 7]. • Zusammenhangsmaße in gemischten Skalierungsf¨ allen • Wird der Zusammenhang zwischen einem metrischen und einem kategorialen Merkmal untersucht, kann man zun¨achst einmal das metrische Merkmal derart kategorisieren, dass sich darauf basierend beispielsweise der (korrigierte) Kontingenzkoeffizient nach Pearson oder gegebenenfalls der Korrelationskoeffizient nach Spearman berechnen l¨asst. Allerdings unterliegt jede Form von Kategorisierung, hier insbesondere also die Wahl der Klasseneinteilung f¨ ur das metrische Merkmal, einer gewissen Willk¨ ur. Naheliegend ist es f¨ ur die Klassengrenzen bestimmte Quantile wie z.B. Dezile, Quintile oder Quartile

5.3 Erg¨anzende und vertiefende Themen

171

zu w¨ahlen, um auf diese Weise zumindest gleich stark besetzte Klassen (Kategorien) zu erhalten. Eine alternative M¨ oglichkeit besteht darin, den Zusammenhang zwischen dem metrischen und dem kategorialen Merkmal u ¨ber spezielle Regressionsmodelle funktional zu beschreiben. An die Stelle von Zusammenhangsmaßen treten dann Maße bez¨ uglich der Anpassungs- und Prognoseg¨ ute des Modells sowie Aussagen u ¨ber kausale Effekte.

Spezielle Regressionsmodelle • Hintergrund • Ein Regressionsmodell ist ein statistisches Modell (Abschnitt 1.2.2), mit dem im Kern versucht wird, den Zusammenhang zwischen (meist) einer kausal abh¨angigen Zielvariablen und einer oder mehreren Einflussvariablen mithilfe einer approximierenden Funktion zu beschreiben. Im Falle des einfachen linearen Regressionsmodells (Abschnitt 5.2.3) beispielsweise w¨are diese Funktion eine Geradengleichung. Daneben gibt es jedoch viele weitere Modelle, die alternative funktionale Formen beinhalten. Mit einigen dieser Modelle lassen sich auch Zusammenh¨ange in gemischten Skalierungsf¨ allen beschreiben. • Anpassungs- und Prognosemaße • Mitentscheidend bei der Wahl eines bestimmten Modells ist h¨aufig seine Anpassungsg¨ ute. Allgemein versteht man darunter die Qualit¨at, wie gut das Modell den Zusammenhang innerhalb der gegebenen Daten beschreibt. Dies l¨asst sich, abh¨ angig von der Art des Modells, u ¨ber verschiedene statistische Kriterien (Maße) beurteilen. Im Falle linearer Regressionsmodelle ist ein h¨aufig verwendetes Kriterium das Bestimmtheitsmaß (Abschnitt 12.1.1), das im Wesentlichen auf der Streuungszerlegungsformel der Regression basiert und angibt, wieviel Prozent der Gesamtstreuung (Varianz) des Regressanden durch das Modell erkl¨art werden kann. Andere Bewertungskriterien stellen mehr auf der Prognoseg¨ ute ab. Hierbei geht es um die Frage, wie gut sich mit einem Modell bestimmte Werte oder Kategorien des Regressanden prognostizieren lassen. Dies wird dann h¨aufig entweder u ¨ber Fehlerraten (bei kategorialen Variablen) oder bestimmte Abweichungsmaße (bei metrischen Variablen) gemessen. Anpassungs- und Prognosemaße lassen sich jedoch nicht immer strikt unterscheiden. Vor allem in gemischten Skalierungsf¨ allen (metrische und kategoriale Merkmale) stellen diese G¨ utemaße eine sinnvolle Alternative zu den herk¨ommlichen Zusammenhangsmaßen dar, insbesondere falls auf eine Kategorisierung des metrischen Merkmals verzichtet werden soll. • Metrisches vs. kategoriales Merkmal: Varianzanalysemodelle • H¨angt ein metrisches Merkmal von einem kategorialen Merkmal ab, bieten sich Modelle aus der Varianzanalyse an, die als spezielle lineare Regressionsmodelle aufgefasst werden k¨ onnen. Vergegenw¨artigen wir uns noch einmal die Situation von Beispiel 4.5.1 (PflanzenExperiment). Es wurden 12 B¨ aume einer bestimmten Sorte unter Verwendung von 3

172

5 Beschreibung und Analyse empirischer Zusammenh¨ange

verschiedenen D¨ ungemethoden unter sonst identischen Bedingungen angepflanzt. Mit der Notation f¨ ur gruppierte Daten ergaben sich folgende Ergebnisse: Gruppe 1: x ¯1 = 1.0, s˜21 = 0.06, n ˜ 1 = 3, Gruppe 2: x ¯2 = 2.0, s˜22 = 0.05, n ˜ 2 = 4, Gruppe 3: x ¯3 = 1.46, s˜23 = 0.0464, n ˜ 3 = 5. Wie bereits in Abschnitt 4.5.1 ausgef¨ uhrt wurde, betr¨agt die Gesamtstreuung 0.196875, wobei gem¨aß Streuungszerlegungsformel 0.051 auf die interne und 0.145875 auf die externe Streuung entf¨ allt, d.h. s˜2 = 0.051 + 0.145875 = 0.196875. Der Anteil der externen Streuung an der Gesamtstreuung ergibt sich u ¨ber 0.145875 ≈ 0.741 0.196875 und betr¨agt folglich ca. 74.1%. Dieser Anteil gibt an, in welchem Maße sich die Streuung der Wuchsh¨ohen durch die unterschiedlichen Anbaumethoden erkl¨aren l¨asst. Damit ist der externe Streuungsanteil in gewisser Weise auch ein Maß f¨ ur die St¨arke des Zusammenhangs zwischen Anbaumethode (dem kategorialen Merkmal) und Wuchsh¨ohe (dem metrischen Merkmal). Der Anteil der externen Streuung entspricht zugleich auch dem Wert des Bestimmtheitsmaßes, der sich u ¨ber das entsprechende Varianzanalysemodell ergibt. In Erg¨anzung dazu l¨ asst sich die St¨ arke des Zusammenhangs auch u ¨ber Effektunterschiede zwischen den einzelnen Gruppen beschreiben. Sehr einfach zu ermittelnde Anhaltspunkte dar¨ uber geben die Mittelwertdifferenzen, die zwischen den einzelnen Gruppen auftreten. Demnach w¨ are im vorliegenden Fall ein st¨arkerer Unterschied zwischen Methode 1 und 2 als zwischen Methode 2 und 3 festzustellen. • Kategoriales vs. metrisches Merkmal: Logistische Regressionsmodelle • H¨angt ein kategoriales Merkmal von einem metrischen Merkmal ab, bieten sich logistische Regressionsmodelle an. Im Gegensatz zum linearen Regressionsmodell versucht man hier nicht die Werte einer metrischen Zielvariablen, sondern vielmehr die Wahrscheinlichkeiten der einzelnen Kategorien einer kategorialen Zielvariablen funktional zu beschreiben. Auf n¨ ahere mathematische Details zu diesen Modellen wird in diesem Lehrbuch verzichtet. N¨ ahere Details finden sich beispielsweise bei Fahrmeir et al. [2013] oder Schlittgen [2013]. Speziell z¨ ahlen zu den logistischen Regressionsmodellen die popul¨aren Logit-Modelle (f¨ ur bin¨ are abh¨angige Variablen), die mit diesen eng verwandten Probit-Modelle, die geordneten Logit-Modelle (f¨ ur ordinal abh¨angige Variablen mit mehr als zwei Kategorien) sowie die multinomialen Logit-Modelle (f¨ ur nominal abh¨ angige Variablen mit mehr als zwei Kategorien). In der Situation von Abbildung 5.3.2 k¨onnte man beispielsweise die Sch¨atzung eines Logit-Modells in Erw¨ agung ziehen. In der Situation von Abbildung 5.3.4 b¨ote sich dagegen die Sch¨ atzung eines geordneten Logit-Modells an. Hier wurden BachelorStudierende (2. Semester) befragt, ob diese ein Master-Studium anstreben. Die Antwortkategorien lauteten Sicher nicht“, Eher Nein“, Unsicher“, Eher Ja“ und Sicher“. ” ” ” ” ” Im linken Spinogramm l¨ asst sich eine deutliche Abh¨angigkeit des Masterbestrebens von der Abiturnote erkennen. Im rechten Spinogramm ist eine leichte Tendenz

5.3 Erg¨anzende und vertiefende Themen

173

zu erkennen, dass ¨ altere Studierende weniger sicher ein Masterstudium anstreben als j¨ ungere. Betrachtet man beispielsweise die Gruppe der Studierenden im Alter zwischen 18 und 20 Jahren, so w¨ urde ein zuf¨ allig gezogener Student aus dieser Gruppe mit einer Wahrscheinlichkeit von ca. 55% sicher“ ein Masterstudium anstreben. Alle anderen Ka” tegorien w¨aren hier weniger wahrscheinlich. Somit w¨are es in gewisser Weise begr¨ undet, jeden Studierenden dieser Altersgruppe auch in diese Kategorie (also sicher“) einzu” ordnen, wenn ohne weitere Information eine Prognose zu erstellen w¨are. Die Fehlerrate f¨ ur diese Gruppe l¨ age dann bei etwa 45%.

Streben Sie einen Masterabschluss an?

Abb. 5.3.4: Spinogramme: Masterambition, Abiturnote und Alter 1.0

1.0 Sicher

0.8

0.8

0.6

Sicher

0.6 Eher Ja

0.4 0.2

0.4 0.2

Unsicher Eher Nein

0.0 1

1.2

1.4

1.6

Eher Ja

Unsicher Eher Nein

0.0 1.8

2

16

18

Abiturnote

20

22 24

Alter in Jahren

Daten: Eigene Erhebungen • Multiple Regression • Wie auch bei der linearen Regression erscheint es in vielen F¨allen notwendig, jeweils nicht nur eine einzelne Einflussvariable zu betrachten sondern gleich mehrere Einflussvariablen in das Modell aufzunehmen. In dieser Hinsicht lassen sich sowohl die Varianzanalysemodelle als auch die logistischen Regressionsmodelle problemlos erweitern. Insbesondere bei der Untersuchung kausaler Effekte kommt man um einen multiplen Ansatz meist nicht herum, da die Vermengung unterschiedlicher Einfl¨ usse systematische Verzerrungen verursacht und zu erheblichen Fehlinterpretationen f¨ uhren kann. Mit dieser Problematik befasst sich sp¨ater ausf¨ uhrlich Abschnitt 5.3.3. • Generalisierte lineare Modelle • Neben dem klassischen linearen Regressionsmodell einschließlich der Varianzanalysemodelle und den hier erw¨ahnten logistischen Regressionsmodellen gibt es noch viele weitere Typen von Regressionsmodellen. Im Rahmen der von Nelder und Wedderburn [1972] eingef¨ uhrten generalisierten linearen Modelle (auch verallgemeinerte lineare Modelle) k¨onnen zahlreiche Spezialf¨alle notationsm¨aßig und theoretisch einheitlich behandelt werden. Ausf¨ uhrliche Abhandlungen dar¨ uber bieten beispielweise Agresti [2013] und Tutz [2012].

174

5 Beschreibung und Analyse empirischer Zusammenh¨ange

5.3.2 Grafische Darstellung h¨ oherdimensionaler Daten H¨ oherdimensionale Mosaikplots • Konzept • Mosaikplots k¨ onnen sehr hilfreich sein, wesentliche Muster innerhalb kategorialer Daten auf einen Blick zu erkennen oder zu entdecken. Die in Abschnitt 5.1.3 vorgestellten Mosaikplots lassen sich auch auf h¨oherdimensionale Daten (mehr als 2 Di¨ mensionen) erweitern. Gleichwohl setzt deren Interpretation einiges an fachlicher Ubung voraus. F¨ ur Pr¨asentationen vor fachlich nicht eingeweihtem“ Publikum sind Mosaik” plots deshalb weniger zu empfehlen. Im Folgenden beschr¨anken wir uns auf Beispiele f¨ ur den 3- bzw. 4-dimensionalen Fall. • Beispiel 5.3.1: 3-dimensionale Mosaikplots • Wir vergegenw¨artigen wir uns noch einmal das Beispiel aus Abschnitt 5.1.3. Abbildung 5.3.5 zeigt eine Darstellung f¨ ur die gemeinsame Verteilung der drei Merkmale Staatsangeh¨origkeit“, Art der Straftat“ ” ” und Geschlecht“. Wie auch im zweidimensionalen Fall sind die Fl¨achen der einzelnen ” Segmente (Mosaikst¨ ucke) proportional zu den relativen H¨aufigkeiten der gemeinsamen Verteilung. Die Arithmetik zur Bestimmung von H¨ohen und Breiten von S¨aulen bzw. Balken f¨allt entsprechend komplexer aus. Im vorliegenden Fall wird prim¨ar auf dem Merkmal Staatsangeh¨ origkeit“ und sekund¨ ar (innerhalb von Staatsangeh¨origkeit“) ” ” auf Art der Straftat“ bedingt. Dies f¨ uhrt dazu, dass zwei Hauptbalken unterschiedli” cher Breite entstehen, die ihrerseits wiederum in unterschiedlich breite und segmentierte S¨aulen eingeteilt werden. Gut zu erkennen ist beispielsweise, dass Straftaten im Bereich Diebstahl und Unterschlagung“ bei Ausl¨ andern einen gr¨oßeren Anteil ausmachen als ” bei Deutschen. Schnell ersichtlich wird auch, dass der Anteil der von Deutschen ver¨ ubten und verurteilten Straftaten insgesamt betrachtet in etwa drei Mal so groß ist wie derjenige von Ausl¨andern. • Beispiel 5.3.2: 4-dimensionale Mosaikplots • Abbildung 5.3.6 zeigt die gemeinsame Verteilung der vier Merkmale Alter“, Schulabschluss“, Erwerbstatus“ und Ge” ” ” ” schlecht“ f¨ ur Personen im Alter zwischen 35 und 65 Jahren nach Ergebnissen des Mikrozensus f¨ ur das Jahr 2012 (Quelle: Statistisches Bundesamt). Die Variablen sind folgendermaßen kodiert: H M1 M2 A O w m z.B. 35–45

Hauptschulabschluss Abschluss der polytechnischen Oberschule Realschul- oder gleichwertiger Abschluss Fachhochschul- oder Hochschulreife Ohne allgemeinen Schulabschluss weiblich m¨ annlich Alter in Jahren

Hier wird prim¨ar auf Alter“, sekund¨ ar auf Schulabschluss“ und terti¨ar auf Erwerbs” ” ” status“ bedingt. Gut zu erkennen ist beispielsweise die stetige Zunahme von Personen mit Hochschulreife (Abitur) bei den j¨ ungeren Jahrg¨angen bei gleichzeitiger Abnahme von Hauptschulabschl¨ ussen. Gut herauslesen l¨asst sich auch der wachsende Anteil nicht

5.3 Erg¨anzende und vertiefende Themen

175

erwerbst¨atiger Personen bei den ¨ alteren Jahrg¨angen, wobei diese Zunahme bei niedrigerem Bildungsabschluss etwa st¨ arker ausf¨ allt. Der Anteil von Frauen mit h¨oheren Bildungsabschl¨ ussen nimmt bei den j¨ ungeren Jahrg¨angen zu. Außerdem ist zu sehen, dass mit Ausnahme der Gruppe nichterwerbst¨atiger Personen der Anteil von Frauen unter den Hauptschulabsolventen stets kleiner ist als derjenige der M¨anner. Es sollte sp¨atestens mit diesem Beispiel einleuchten, dass die Analyse einer entsprechenden Tabelle mit insgesamt 90 Zahlen wesentlich mehr M¨ uhe und Zeit beanspruchen w¨ urde als die visuelle Erschließung eines Mosaikplots. Abb. 5.3.5: Mosaikplot: Staatsangeh¨ origkeit, Art der Straftat und Geschlecht S

DU

BU

VA

K

PA BM

Ü weiblich

Deutsche

männlich

weiblich

Ausländer

männlich

Daten: Statistisches Bundesamt [2014c] Abb. 5.3.6: Mosaikplot: Alter, Schulbildung, Erwerbsstatus und Geschlecht H

M1

M2

A

O Erwerbstätige

35−45

Erwerbslose Nichterwerbstätige Erwerbstätige

45−55

Erwerbslose Nichterwerbstätige Erwerbstätige Erwerbslose

55−65

Nichterwerbstätige w

m

w

m

w

m

w

m

wm

Quelle: Statistisches Bundesamt [2013b, S. 79–80] • Weitere M¨ oglichkeiten • Ist die Anzahl vorkommender Kategorien der zu untersuchenden Merkmale hoch, so erweisen sich Korrespondenzanalyse-Biplots als n¨ utzliche Werkzeuge (siehe nachfolgend). Weitere Methoden und Modifikationsm¨oglichkeiten finden sich beispielsweise bei Meyer, Zeileis und Hornik [2006] oder Chen, H¨ardle und Unwin [2008].

176

5 Beschreibung und Analyse empirischer Zusammenh¨ange

3D-Punktwolken • Konzept • Mithilfe kommerzieller oder frei verf¨ ugbarer Software wie z.B. R lassen sich problemlos auch 3D-Punktwolken erstellen. Dabei werden dreidimensionale Beobachtungswerte in einem dreidimensionalen Achsensystem r¨aumlich“ abgetragen. Die ” M¨ oglichkeiten f¨ ur interaktives Hineinzoomen, Drehen und Betrachten aus unterschiedlichen Perspektiven z¨ ahlen dabei meist zum Standard. • Beispiel 5.3.3 • Abbildung 5.3.7 zeigt zwei 3D-Punkwolken bez¨ uglich der Merkmale Gr¨oße“, Gewicht“ und Schuhgr¨ oße“ von Studierenden aus unterschiedlichen ” ” ” Perspektiven. In der linken Darstellung ist im unteren Datenbereich die Rasterung der diskreten Schuhgr¨ oßen gut zu erkennen. Abb. 5.3.7: 3D-Punktwolken: Gr¨ oße, Gewicht und Schuhgr¨ oße von Studierenden

Daten: Eigene Erhebungen

Biplots • Konzept • Zu den grafischen Methoden, die in besonderem Maße fachliche Kenntnisse voraussetzen, z¨ ahlen die von Gabriel [1971] eingef¨ uhrten Biplots. Biplots k¨onnen als Verallgemeinerung zweidimensionaler Streudiagramme gesehen werden. Prinzipiell geht es darum, h¨ oherdimensionale Daten in einem niedrigdimensionalen (meist zweidimensionalen) Diagramm abzubilden. Das Bi“ begr¨ undet sich jedoch nicht, wie h¨aufig ” angenommen, auf dieser meist zweidimensionalen Darstellung. Vielmehr geht es allgemein darum, Zeilen und Spalten einer gegebenen Datenmatrix, also zwei Dimensionen ( bi“), abzubilden (vgl. Greenacre [2010, S. 24]). ” In der Praxis existieren vielf¨ altige Arten von Biplots, die in unterschiedlichen Sachzusammenh¨angen verwendet werden und nicht alle gleichermaßen bekannt sind. Das theoretische Grundger¨ ust ist jedoch f¨ ur alle Spezialformen das gleiche und basiert auf der matrixalgebraischen Theorie der sog. Singul¨ arwertzerlegung . Im Folgenden werden zwei Typen von Biplots anhand von Beispielen kurz vorgestellt. Der erste Typ

5.3 Erg¨anzende und vertiefende Themen

177

eignet sich zur Darstellung hochdimensionaler metrischer Daten. Der zweite Typ eignet sich zur Darstellung kategorialer Daten im Zusammenhang einer Kontingenztabelle, die viele Zeilen und Spalten aufweist. Auf n¨ ahere mathematische Ausf¨ uhrungen wird dabei verzichtet. Umfassende Abhandlungen zur grundlegenden Theorie dieser und vieler weiterer Gattungen von Biplots bieten beispielsweise Gower, Lubbe und Le Roux [2011] oder Greenacre [2010]. • Hauptkomponentenanalyse-Biplots • Der mit Abstand bekannteste Biplottyp wird h¨aufig im Zusammenhang der Hauptkomponentenanalyse (kurz PCA f¨ ur Principal Component Analysis) erstellt, einer Analysemethode aus der multivariaten Statistik . Interessierte Leser seien auf Lehrb¨ ucher der multivariaten Statistik verwiesen. Unabh¨angig davon l¨ asst sich diese Art von Biplot auch einfach nur als op” timale Projektion“ interpretieren. Zur Veranschaulichung stelle man sich folgendes hilfreiches, wenn auch wenig sch¨ones Bild vor Augen: Unter dem hellen Strahl einer Straßenlaterne flattern nachts Motten. Der von der Laterne ausgehende Lichtstrahl projiziert dann einzelne Schattenpunkte auf den Boden oder eine andere Ebene wie z.B. eine angrenzende Mauer. Geometrisch interpretiert werden damit Objekte (hier Motten), deren Positionen sich in einem dreidimensionalen Raum mittels L¨ ange, Breite und H¨ohe exakt bestimmen lassen, auf eine zweidimensionale Ebene abgebildet. Dabei geht eine der drei Dimensionen verloren. Somit ist auch klar, dass sich anhand der Schattenpunkte auf der Projektionsebene die origin¨ aren Distanzen im Raum nur noch approximativ absch¨atzen lassen. Generell sollten Schattenpunkte, die relativ weit voneinander entfernt liegen, auch im dreidimensionalen Raum relativ weit voneinander entfernt sein. Dennoch kann es durchaus passieren, dass auch relativ nahe beieinander liegende Schattenpunkte auf der Ebene relativ weit voneinander im Raum entfernt sind. Man stelle sich dazu beispielsweise folgende Situation vor: Der Strahl der Lampe falle senkrecht von oben auf zwei Objekte, von denen sich das eine Objekt direkt unterhalb des anderen Objekts befindet. In diesem Fall w¨ urden dann beide Schattenpunkte in jedem Fall zusammenfallen, auch wenn sich die beiden Objekte auf noch so unterschiedlicher H¨ohe bef¨anden. Tats¨achlich ist die matrixalgebraische Konzeption einer (geometrischen) Projektion von dieser plastischen Anschauung nicht einmal weit entfernt. Man betrachte dazu die rechte Darstellung von Abbildung 5.3.7. W¨ urde man nun ausgehend von der Blickrichtung des Betrachters die zu sehende Punktwolke samt Achsensystem auf eine dahinter liegende“ Ebene projizieren, erhielte man in etwa den in Abbildung 5.3.8 ” zu sehenden Biplot. Mithilfe der projizierten Achsen, l¨asst sich die Lage der Punkte im Biplot nun approximativ deuten. So korrespondieren Beobachtungen in der rechten H¨ alfte des Biplots zu Studierenden, die eher u ¨berdurchschnittlich groß und schwer sind und u uße haben. In der linken H¨alfte liegen dagegen eher ¨berdurchschnittlich große F¨ Beobachtungen, die mit Unterdurchschnittlichkeit aller Variablen korrespondieren. Genau in der Mitte, also im Koordinatenpunkt (0, 0), w¨ urde eine Beobachtung liegen, die bez¨ uglich aller drei Variablen durchschnittliche Werte aufweist. Matrixalgebraische Projektionen lassen sich jedoch nicht nur auf dreidimensionale Daten, sondern generell auf alle h¨ oherdimensionalen Daten anwenden, auch wenn eine derart plastische Anschauung wie die vorige nicht mehr m¨oglich ist. Abbildung 5.3.9 zeigt beispielsweise einen PCA-Biplot f¨ ur 6-dimensionale Daten. Es handelt sich dabei

178

5 Beschreibung und Analyse empirischer Zusammenh¨ange Abb. 5.3.8: PCA-Biplot: Gr¨ oße, Gewicht und Schuhgr¨ oße von Studierenden

Dimension 2

20

Größe

10

Schuhgröße

0 −10

Gewicht

−20 −30 −20

0

20

40

Dimension 1

Daten: Eigene Erhebungen um eine Nachbildung eines Beispiels von Greenacre [2012]. F¨ ur die 27 EU-Staaten im Jahre 2011 wurden insgesamt 6 ¨ okonomische Indikatoren wertm¨aßig erhoben. Darunter waren: CPI UNE INP BOP PRC UN

Konsumentenpreisindex Arbeitslosenquote der Gruppe der 15- bis 64-J¨ahrigen Industrielle Produktion Zahlungsbilanz (pro Kopf der Gruppe der 15- bis 64-J¨ahrigen) Privater Konsum Ver¨ anderung der Arbeitslosenquote (Vergleich zum Vorjahr)

Da die einzelnen Variablen v¨ ollig unterschiedlich skaliert sind, wurden die Daten vor der eigentlichen Biploterstellung z-standardisiert. Wie auch im vorhergehenden Beispiel kann dann die Lage der einzelnen Beobachtungen innerhalb des Biplots mithilfe der projizierten Variablenachsen approximativ interpretiert werden. So sollten sich in der oberen H¨alfte tendenziell L¨ ander finden, die in Bezug auf die Arbeitslosigkeit und deren Ver¨anderung u ¨berdurchschnittliche und in Bezug auf die industrielle Produktion und die Zahlungsbilanz unterdurchschnittliche Werte aufweisen. In der unteren H¨alfte sollte es tendenziell umgekehrt sein. In der rechten H¨alfte sollten sich L¨ander befinden, die in Bezug auf Inflation u ¨berdurchschnittliche und in Bezug auf privaten Konsum unterdurchschnittliche Werte aufweisen. F¨ ur L¨ander der linken H¨alfte sollte wiederum Gegenteiliges gelten. Speziell Deutschland verf¨ ugte gem¨aß Biplot im Jahr 2011 also u ¨ber eine unterdurchschnittliche Arbeitslosigkeit, eine unterdurchschnittliche Inflation, eine u ¨berdurchschnittliche Zahlungsbilanz, einen u ¨berdurchschnittlichen privaten Konsum und eine u ¨berdurchschnittliche industrielle Produktion. Ein Blick in den origin¨aren Datensatz verr¨at, dass diese Absch¨ atzungen f¨ ur Deutschland tats¨achlich auch den wahren Sachverhalten entsprechen. Die Theorie des PCA-Biplots beinhaltet vor allem die Kl¨arung der Frage, welche Ebene die beste Projektionsfl¨ ache bietet. Dabei gilt es eine bestm¨ogliche Approximation

5.3 Erg¨anzende und vertiefende Themen

179

¨ Abb. 5.3.9: PCA-Biplot: Okonomische Indikatoren der EU-Staaten (2011) (nachgestellt) 4 Greece

3

Dimension 2

2

Spain Portugal Cyprus Ireland

1

France Finland

UnitedKingdom

PRC

0

UN

Italy

UNE Bulgaria

Slovenia

Denmark

Germany Sweden Austria Netherlands

−1

CzechRep

Malta

Hungary

BOP

INP

Romania Latvia Lithuania

Poland Slovakia

Belgium

Luxembourg

CPI

−2

Estonia

−4

−2

0

Dimension 1

2

Daten: Greenacre [2012] in dem Sinne zu erhalten, dass die projizierten (euklidischen) Distanzen auf der Projektionsfl¨ache m¨oglichst unverf¨ alscht die origin¨ aren (euklidischen) Distanzen des h¨oherdimensionalen Raumes widerspiegeln. Die Koordinaten eines zweidimensionalen Biplots werden als 1. bzw. 2. Hauptkomponente (auch Hauptkoordinaten) der Beobachtungswerte bezeichnet. Ein Maß f¨ ur die G¨ ute der Approximation erh¨alt man, indem man die Varianzen dieser beiden Hauptkomponenten addiert und die daraus resultierende Summe ins Verh¨ altnis zur Totalvarianz setzt. Unter der Totalvarianz versteht man die Summe der Varianzen aller Variablen. Da die Daten in Abbildung 5.3.9 standardisiert wurden, betr¨ agt die Totalvarianz dort genau 6 (vgl. Abschnitt 4.6). Es ergibt sich in diesem Fall eine Approximationsg¨ ute von ca. 63%. Man beachte, dass bei einer Approximationsg¨ ute von 100% die Distanzen im Biplot exakt die Distanzen im 6-dimensionalen Raum abbilden w¨ urden. Angesichts einer Dimensionsreduktion von 6 auf 2 erscheint eine G¨ ute von u ¨ber 60% deshalb durchaus akzeptabel. Der Biplot von Abbildung 5.3.8 weist gar eine Approximationsg¨ ute von u ¨ber 99% auf. Allerdings wurden hier auch nur dreidimensionale Daten auf zwei Dimensionen reduziert. • Korrespondenzanalyse-Biplots • Im Falle einer hochdimensionalen Kontingenztabelle mit vielen Zeilen und Spalten ( hochdimensional“ bezieht sich hier jetzt auf die ” Dimensionen der Tabelle und nicht auf die Anzahl von Variablen) eignen sich S¨aulendiagramme f¨ ur Analyse- und Darstellungszwecke nur noch eingeschr¨ankt. Abbildung 5.3.10 setzt das Beispiel aus Abschnitt 5.1.3 fort und zeigt nun den Zusammenhang zwischen Arten von Straftaten und bestimmten Altersgruppen. Die einzelnen Straftatbest¨ ande wurden bereits in Abschnitt 5.1.3 definiert. Die Altersgruppen 1 bis 7 lauten [14, 18), [18, 21), [21, 25), [25, 30), [30, 40), [40, 50) und ≥ 50,

180

5 Beschreibung und Analyse empirischer Zusammenh¨ange

wobei noch zwischen Frauen ( w“) und M¨ annern ( m“) unterschieden wird. ” ” Abb. 5.3.10: Straftaten nach geschlechtsspezifischen Altersgruppen 100 80 60 % 40 20 0 w1

w2

w3

w4 S

w5

w6

DU

w7

BU

m1 VA

m2

m3

K

m4

PA

m5

BM

m6

m7

Ü

Daten: Statistisches Bundesamt [2014c] Die korrespondierende Kontingenztabelle weist insgesamt 8 Zeilen (Straftaten) und 14 Spalten (geschlechtsspezifische Altersgruppen) auf. Das segmentierte S¨ aulendiagramm stellt die bedingte Verteilung des Merkmals Art der Straftat“ unter den ” geschlechtsspezifischen Altersgruppen dar, in diesem Fall also die Spaltenverteilungen der zugrunde liegenden Tabelle. Beispielsweise wurden im Jahr 2012 von M¨adchen im Alter zwischen 14 und 18 Jahren (Gruppe w1“) insgesamt 8376 Straftaten begangen ” und verurteilt. Davon entfielen auf die einzelnen Kategorien in absoluten Zahlen: S 156

DU 3740

BU 377

VA 1359

K 1890

PA 295

BM 184

¨ U 375

Dies bedeutet z.B., dass knapp 2% aller Delikte in die Kategorie Straßenverkehr fielen. Insgesamt erh¨alt man f¨ ur die Altersgruppe w1“ dann folgende Spaltenverteilung: ” ¨ S DU BU VA K PA BM U 0.02 0.45 0.05 0.16 0.23 0.04 0.02 0.04 Analog erh¨alt man die restlichen 13 Spaltenverteilungen. Die unbedingte Verteilung der Straftatbest¨ande, also deren Randverteilung, ergibt sich in absoluten Zahlen wie folgt: S 166688

DU 138970

BU 106577

VA 108859

K 73123

PA 51014

BM 53544

¨ U 75126

Dies impliziert folgende relative H¨ aufigkeiten: S 0.22

DU 0.18

BU 0.14

VA 0.14

K 0.09

PA 0.07

BM 0.07

¨ U 0.10

Unabh¨angig von Alter und Geschlecht wurden demnach 22% aller Straftaten im Straßenverkehr ver¨ ubt. Alternativ werden die Spaltenverteilungen auch als Spaltenprofile bezeichnet und die entsprechende Randverteilung als durchschnittliches Spaltenprofil , da

5.3 Erg¨anzende und vertiefende Themen

181

letzteres die Verh¨ altnisse insgesamt und damit den Durchschnitt widerspiegelt. Analog werden die Zeilenverteilungen einer Kontingenztabelle auch als Zeilenprofile und entsprechende Randverteilung als durchschnittliches Zeilenprofil bezeichnet. Anhand eines Vergleichs von Spalten- oder Zeilenprofilen l¨asst sich schließlich beurteilen, ob und in welcher Weise Abh¨ angigkeiten bestehen. Allerdings gestaltet sich ein visueller Abgleich bei gr¨ oßer werdender Anzahl von Kategorien also zunehmend schwierig. Abhilfe kann hier ein Assoziationsplot schaffen (Abschnitt 5.1.3), anhand dessen sich Abweichungen von der Unabh¨ angigkeit optisch schnell erkennen lassen. Wann immer eine S¨aule nach oben oder unten hin zeigt, liegt eine Abweichung von der Abh¨angigkeit vor. Dies bedeutet dann n¨ amlich, dass ein Wert des Spaltenprofils nicht mit dem korrespondierenden Durchschnittswert u ¨bereinstimmt. Der Assoziationsplot in Abbildung 5.3.11 zeigt beispielsweise f¨ ur die Gruppe w1“ ” nach unten weisende S¨ aulen f¨ ur die Straftatkategorien S“, BU“, PA“, BM“ und ” ” ” ” ¨ sowie nach oben weisende S¨ U“ aulen f¨ ur DU“, VA“ und K“. Entsprechend weist ” ” ” ” das Spaltenprofil dieser Gruppe auch unter- bzw. u ur diese ¨berdurchschnittliche Werte f¨ Kategorien auf. Abb. 5.3.11: Assoziationsplot: Arten von Straftaten und Altersgruppen nach Geschlecht w1 w2 w3 w4

w5

w6

w7

m1

m2

m3

m4

m5

m6

m7

S

DU BU VA

K PA BM Ü

Daten: Statistisches Bundesamt [2014c] Einen Korrespondenzanalyse-Biplot, kurz CA-Biplot (CA f¨ ur Correspondence Analysis), erh¨ alt man, wenn entweder die Zeilenprofile oder die Spaltenprofile einer Kontingenztabelle wie mehrdimensionale Beobachtungswerte aufgefasst und in einem zweidimensionalen Diagramm optimal“ abgebildet werden. Der Name ” dieses Biplots leitet sich daraus ab, dass dieser h¨aufig im Zusammenhang der sog. Korrespondenzanalyse erstellt wird. Eine ausf¨ uhrliche Behandlung dieses Spezialgebiets

182

5 Beschreibung und Analyse empirischer Zusammenh¨ange

findet man beispielsweise bei Greenacre [2007] oder allgemein in vielen Lehrb¨ uchern der multivariaten Statistik . Abbildung 5.3.12 zeigt einen f¨ ur das vorhergehende Beispiel erstellten CA-Biplot, der die Spaltenprofile der 14 Gruppen abbildet. Wie auch beim PCA-Biplot handelt es sich um eine optimierte approximative Darstellung, jetzt allerdings in einem allgemeineren und damit auch komplexeren Sinne. Es bestehen n¨amlich in einigen Punkten wesentliche Unterschiede. So werden bei der Berechnung der Koordinaten die Abst¨ande der Spaltenprofile zueinander nicht u ¨ber die euklidische Distanz sondern u ¨ber die sog. allt eine Visualisierung irgendeines projizierten Achχ2 -Distanz gemessen. Ebenso entf¨ sensystems. Stattdessen werden die Kategorien des zweiten Merkmals (hier Art der ” Straftat“) u ¨ber sog. Einheitsprofile dargestellt. Unter diesen versteht man jene Extremf¨alle von Profilen, bei denen jeweils 100% aller Straftaten lediglich in eine bestimmte Kategorie fallen w¨ urden. Der Koordinatenpunkt (0, 0) innerhalb des CA-Biplots entspricht schließlich der Lage des durchschnittlichen Spaltenprofils. F¨ ur n¨ahere Details sei insbesondere auf Greenacre [2007, 2010] verwiesen. Abb. 5.3.12: CA-Biplot: Arten von Straftaten und geschlechtsspezifische Altersgruppen 1.0

PA

S

0.5

K

Dimension 2

Ü

0.0

m7

m6

w7 w6 w5

−0.5

m5 m3

m2

BM

m1

m4 w4w3

w1

w2

VA

DU

−1.0 −1.5 BU

−1.0 −0.5

0.0

0.5

1.0

Dimension 1

1.5

2.0

Daten: Statistisches Bundesamt [2014c] Die Lage der Spaltenprofile innerhalb des Biplots l¨asst sich nun sowohl in Bezug auf ¨ ihre Ahnlichkeit untereinander als auch in Bezug auf ihre relative Lage zu den Einheitsprofilen und zum durchschnittlichen Profil interpretieren. Im vorliegenden Fall sehen wir, dass m¨annliche Profile offensichtlich relativ ¨ahnlich zueinander sind. Sie liegen allesamt in der oberen H¨ alfte. Gleiches gilt f¨ ur die weiblichen Profile, die in der unteren H¨ alfte liegen. J¨ ungere Profile liegen in der rechten, ¨altere Profile in der linken H¨alfte. Die m¨ annlichen Profile liegen n¨ aher an den Kategorien S“, PA“, BM“ und K“, was auf ” ” ” ” einen eher u ¨berdurchschnittlichen Anteil in diesen Kategorien schließen l¨asst. Die weiblichen Profile liegen dagegen n¨ aher an den Kategorien DU“ und VA“. Die j¨ ungeren ” ”

5.3 Erg¨anzende und vertiefende Themen

183

Profile liegen n¨aher an den Kategorien BM“ und K“, die ¨alteren n¨aher an S“, PA“ ” ” ” ” und BU“. Das Profil der Gruppe m5“ scheint dem durchschnittlichen Profil am ¨ahn” ” lichsten. Tats¨achlich fallen die im Assoziationsplot zu sehenden Abweichungen f¨ ur diese Gruppe vergleichsweise gering aus. Insgesamt zeigt der Abgleich mit dem Assoziationsplot, dass obige Aussagen recht gut approximativ erf¨ ullt sind. Die Approximationsg¨ ute gem¨aß χ2 -Distanz betr¨ agt immerhin ca. 78%. Alles in allem besticht der CA-Biplot durch seine im Vergleich zum Assoziationsplot kompaktere Darstellung und einfachere Lesbarkeit. Daf¨ ur ist der Biplot aber auch nur eine approximative Darstellung, w¨ahrend der Assoziationsplot statistische Sachverhalte exakt widerspiegelt.

5.3.3 Wichtige Aspekte bei der Analyse empirischer Zusammenh¨ ange Empirische Zusammenh¨ ange und Kausalit¨ at • Zum Kausalit¨ atsbegriff • Die Verwendung grafischer Methoden und die Berechnung statistischer Zusammenhangsmaße f¨ ur gegebene Daten f¨ uhrt in den meisten F¨allen dazu, dass zwischen verschiedenen Variablen ein mehr oder weniger stark ausgepr¨agter empirischer Zusammenhang (eine empirische Abh¨ angigkeit) irgendeiner Form gemessen werden kann. Beispielsweise k¨ onnte man feststellen, dass die Geschwindigkeit einer Kugel im freien Fall mit zunehmender Abwurfh¨ohe und Flugzeit w¨achst, der Bremsweg eines Fahrzeugs bei h¨ oherer Geschwindigkeit l¨anger wird, eine Nutzpflanze bei h¨oherer Bew¨asserungsmenge st¨ arker w¨ achst, Menschen zu verschiedenen Tageszeiten unterschiedlich konzentrationsf¨ ahig sind, gr¨ oßere Personen tendenziell schwerer sind als kleinere, unter Rauchern bestimmte Krebserkrankungen h¨aufiger auftreten als unter Nichtrauchern, ein fallender Leitzins der EZB stets mit steigenden Investitionen einhergeht, reichere L¨ ander eine h¨ ohere Lebenserwartung aufweisen als ¨armere, M¨anner durchschnittlich mehr verdienen als Frauen oder Sch¨ uler in gr¨oßeren Klassen schlechtere Lernergebnisse erzielen als Sch¨ uler, die in kleineren Klassen unterrichtet werden. Solche Feststellungen f¨ uhren stets zur Frage, inwieweit die gemessenen Abh¨angigkeiten tats¨achlich auch im Sinne einer Ursache-Wirkungs-Beziehung deutbar sind, also zur Frage nach der sog. Kausalit¨ at (lat. causa f¨ ur Ursache). Dabei ist jeder Definitionsversuch f¨ ur den Begriff Kausalit¨at problematisch und stets einer gewissen Unsch¨ arfe unterworfen. Denn was genau ist eigentlich eine Ursache und was genau eine Wirkung? Neben einer immens philosophischen Dimension kommen dem Kausalit¨atsbegriff in den einzelnen Wissenschaftsgebieten recht unterschiedliche Bedeutungen und Deutungsebenen zu. Auf differenzierte und l¨angliche Ausf¨ uhrungen hierzu wird verzichtet. • Kausalit¨ at in der Statistik • In statistischen Lehrb¨ uchern und Fachartikeln wird der Begriff Kausalit¨ at h¨ aufig gemieden. In manchen Indexverzeichnissen taucht er erst gar nicht auf. Eingedenk seiner inhaltlichen Problematik, von der nachfolgend einige Punkte noch aufgezeigt werden, l¨ asst sich Kausalit¨at von seiner Wesensart her nun einmal nicht mathematisch fassen. Karl Pearson [1900b, S. 119] bemerkte dazu einmal: Force as cause of motion is exactly on the same footing as a tree-god as cause of grow” th [...]“. Kausalit¨ at ist im Kern ein kognitives Konstrukt“ (K¨alble [1997, S. 19]). Im ” Grunde wird vorausgesetzt, dass man bereits weiß um was es geht, wenn davon in irgendeiner Form die Rede ist. Dennoch hat sich der Begriff in der Statistik in j¨ ungerer

184

5 Beschreibung und Analyse empirischer Zusammenh¨ange

Zeit st¨arker etabliert, was sich auch in der Benennung statistischer Methoden wie etwa ¨ mit Causal Inference oder Structural Causal Models ¨außert. Umfassende Ubersichten zur Behandlung von Kausalit¨ at in der Statistik bieten beispielsweise Cox und Wermuth [2004] oder Pearl [2009]. • Korrelation impliziert keine Kausalit¨ at • Zun¨achst das Wichtigste vorweg: Ein messbarer empirischer Zusammenhang zwischen zwei Variablen X und Y , der sich beispielsweise u ¨ber eine deutlich von 0 verschiedene Korrelation ¨außert, belegt noch lange keine kausale Beziehung zwischen X und Y . Genauso wenig kann man jedoch aus einem sehr niedrigen Korrelationswert das Fehlen einer solchen ableiten. Denn die Werte empirischer Zusammenhangsmaße k¨ onnen stets verf¨alscht werden durch (i) systematische Verzerrungen, (ii) zuf¨allige Schwankungen. In ersterem Fall sind weitere Variablen (Hintergrundvariablen) im Spiel, welche den wahren Zusammenhang verzerren oder nur scheinbar entstehen (Scheinabh¨ angigkeit) lassen. Im zweiten Fall ergibt sich ein Zusammenhang teilweise oder sogar g¨anzlich nur durch Zufall. Auf diese beiden Arten von Verf¨alschungen, die auch gleichzeitig auftreten k¨onnen, werden wir noch sp¨ ater in diesem Abschnitt mit Beispielen und L¨osungsans¨atzen n¨aher eingehen. • Nachweis und Messung kausaler Effekte • Die erste und idealtypische Form Kausalit¨at nachzuweisen und zu messen ist das wiederholbare Experiment. Im Rahmen eines wohl durchdachten“ Versuchsdesigns wird dabei eine (mutmaßlich) Ein” ¨ flussvariable X kontrolliert ver¨ andert, um gegebenenfalls daraus folgende Anderungen einer beeinflussten Zielvariablen Y zu messen. Andere Faktoren, die ebenfalls Y beeinflussen k¨onnten, werden dazu weitgehend ausgeschaltet oder zumindest konstant gehalten. Bei Vorliegen einer echten kausalen Beziehung sollte eine bestimmte Ver¨anderung von X dann zwangsl¨ aufig und stets zu einer mehr oder weniger immer gleichen Ver¨anderung von Y f¨ uhren. Eine solche Ver¨ anderung wird dann in dieser Idealvorstellung eines Experiments als kausaler Effekt bezeichnet. In einem luftleeren Experimentalraum wird eine Stahlkugel aus unterschiedlich einstellbaren H¨ohen zum freien Fall gebracht. Spezielle Lichtschranken und Zeitmesser halten die Flugzeit bis kurz vor Aufschlagen auf dem Boden fest. Sei X die Flugzeit und Y die errechnete Endgeschwindigkeit, die sich aus Abwurfh¨ohe (Wegstrecke) und Flugzeit ergibt. Abgesehen von minimalen (zuf¨ alligen) Messschwankungen, l¨asst sich dann feststellen, dass die Endgeschwindigkeit mit jeder zus¨atzlichen Sekunde an Flugzeit stets um den gleichen Betrag (z.B. 9.81 m/s2 ) w¨ achst, der ortsgebunden vom Schwerefeld auf der Erdoberfl¨ ache abh¨ angt. In ¨ahnlicher Form k¨ onnte auf einer Versuchsstrecke der Bremsweg eines bestimmten Fahrzeugs in Abh¨ angigkeit von verschiedenen Geschwindigkeiten untersucht werden. Eine bestimmte Nutzpflanze k¨ onnte in einem Gew¨achshaus unter verschiedenen Bew¨asserungsmengen aufgezogen werden, um daraus resultierende Effekte auf deren Wachstum zu messen (Abschnitt 1.2.1). Oder man k¨onnte Versuchspersonen in einem Computerlabor zu unterschiedlichen Tageszeiten bestimmte Testaufgaben bearbeiten lassen, um etwaige Einfl¨ usse auf deren Konzentrationsf¨ahigkeit zu untersuchen.

5.3 Erg¨anzende und vertiefende Themen

185

Angesichts dieser Beispiele sollte klar sein, dass auch die Ergebnisse von Experimenten zuf¨alligen Schwankungen unterlegen sein k¨onnen. Dies liegt einfach daran, dass sich niemals alle Einflussfaktoren vollst¨ andig kontrollieren lassen. Im Falle der Bremsweguntersuchung beispielsweise k¨ onnten st¨ orende Qualit¨atsschwankungen der Fahrbahnbeschaffenheit oder der Reifenherstellung hinzukommen, nicht immer v¨ollig identische Bremspedalbet¨ atigungen der Testfahrer oder schwankende witterungsbedingte Einfl¨ usse. Bei einem Experiment mit Pflanzen ist klar, dass jede Pflanze individuell ist, wenn sie auch von der gleichen Gattung sein mag. Das gilt f¨ ur Menschen umso mehr. Identische Behandlungen von Pflanzen oder Versuchspersonen werden in der Regel nicht zu v¨ollig identischen Ergebnissen f¨ uhren. In diesem Sinne weisen Experimente h¨aufig ein statistisches Problem auf. Kausale Effekte lassen sich nicht immer exakt messen, sondern k¨onnen allenfalls mehr oder weniger genau gesch¨atzt werden. • Experimentalstudien vs. Erhebungsstudien • Auch wenn die inhaltliche Logik wiederholbarer Experimente u ¨berzeugend sein mag, k¨onnen solche in vielen F¨allen nicht durchgef¨ uhrt werden, teils aus ethischen, finanziellen oder organisatorischen Gr¨ unden. F¨ ur die Untersuchung der Auswirkungen von Rauchen auf die Gesundheit von Menschen beispielsweise scheiden Experimente mit Menschen als Versuchspersonen aus ethischen Gr¨ unden aus. In den meisten F¨ allen w¨ are es wohl auch nicht vertretbar, bestimmten Schulklassen einfach ein schlechteres Betreuungsverh¨altnis zuzumuten als anderen, um daraus resultierende Effekte auf den Lernerfolg zu messen. Dies gilt insbesondere dann, wenn die Richtung des Effekts (positiv oder negativ) bereits absehbar ist. Ebenso wird die Zentralbank sich nicht dazu u ¨berreden lassen, zum Zwecke wissenschaftlicher Erkenntnisgewinnung mit der H¨ ohe des Leitzinses zu experimentieren. Sofern Experimente nicht durchf¨ uhrbar sind, m¨ ussen die Daten auf andere Weise gewonnen werden. Inhaltlich unterscheiden wir deshalb zwischen Experimentalstudien und Erhebungsstudien. Bei Experimentalstudien werden die Werte und Kategorien potenzieller Einflussvariablen aktiv gesteuert, w¨ahrend sie bei Erhebungsdaten nur passiv beobachtet und erfasst werden. Im Falle der Krebserkrankungen von Rauchern ¨ oder Nichtrauchern beispielsweise k¨ onnte man sich auf die bei Arzten archivierten Daten von Krebspatienten st¨ utzen oder diese durch Befragung von Patienten gezielt erst erheben. Welche und wie viele Patienten nun im Einzelnen rauchen oder nicht rauchen kann dabei jedoch nicht vorgegeben werden. Im Falle des Lernerfolgs unterschiedlich großer Schulklassen k¨ onnte man das Datenmaterial von Bildungsstudien wie etwa PISA heranziehen. Auch hier m¨ ussen die Werte der potenziellen Einflussvariablen so hingenommen werden wie sich diese mehr oder weniger gewollt bei der Erhebung ergeben. Im Rahmen von Erhebungsstudien meidet man es h¨aufig, kausale Effekte direkt aus den Daten abzuleiten bzw. von solchen zu sprechen. Kausalit¨at wird vielmehr aus fachlichen Erw¨agungen geschlossen und durch die Daten dann lediglich nur noch gest¨ utzt. Erhebungsstudien k¨ onnen einem experimentellen Design recht nahe kommen, wenn sich die Verteilungen der Einflussvariablen auf die einzelnen Merkmalstr¨ager in gleicher Weise (quasi) g¨ unstig wie bei einem Experiment ergeben. Manchmal ist dann auch von sog. Quasi-Experimenten die Rede. Allerdings ist dieser Begriff in der Lehrbuchliteratur weder scharf noch einheitlich definiert. Im Gegenzug k¨onnen in experimentellen Studien gesteuerte Einflussvariablen durch lediglich beobachtete Einflussvariablen

186

5 Beschreibung und Analyse empirischer Zusammenh¨ange

erg¨anzt werden. Dies ist insbesondere dann der Fall, wenn in einem Experiment bestimmte Einflussfaktoren wie etwa Wetter oder individuelle Merkmale von Personen nicht steuerbar sind, dennoch aber als m¨ ogliche Einfl¨ usse ber¨ ucksichtigt werden sollten. Somit ist die Grenze zwischen Experimental- und Erhebungsstudien in gewisser Hinsicht fließend. • Einflussschema bei Kausalanalysen • Abbildung 5.3.13 zeigt ein vereinfachendes Grundschema, wie sich statistische Analysen bez¨ uglich kausaler Einfl¨ usse im Falle einer einzelnen Zielvariablen Y darstellen lassen. Alle Einfl¨ usse, die nicht ber¨ ucksichtigt werden (k¨onnen), bilden zusammen genommen eine nicht steuerbare bzw. nicht beobachtbare Restgr¨ oße, die hier als Restvariable U bezeichnet wird (St¨ orvariable ist auch sehr g¨angig). Um die kausalen Effekte der gesteuerten bzw. beobachteten Einflussvariablen richtig zuordnen zu k¨ onnen, ist es wichtig, den Einfluss der Restvariablen als zuf¨allig erachten zu k¨ onnen, da es ansonsten zu systematischen Verzerrungen kommen kann. Der statistischen Modellierung ist es dann anheimgestellt, Zufall und ” System“ (Kr¨amer [2006]) in der Weise zu trennen, dass die ber¨ ucksichtigten kausalen Effekte richtig gesch¨ atzt werden k¨ onnen. Abb. 5.3.13: Einflussschema bei Experimental- und Erhebungsstudien Experiment systematisch

Erhebung

Zielvariable Y beobachtet

Einflussvariablen X , W , Z , ... gesteuert oder...

zufällig

Restvariable U nicht steuerbar nicht beobachtbar

... nicht gesteuert

systematisch

Zielvariable Y beobachtet

Einflussvariablen X , W , Z , ... beobachtet oder...

zufällig

Restvariable U nicht beobachtbar

... nicht beobachtet

Spezielle Formen von Kausalit¨ at • Direkte und indirekte kausale Effekte • Kausale Zusammenh¨ange k¨onnen mehr oder weniger direkt ausgepr¨ agt sein. So erkl¨ art beim freien Fall einer Kugel die Abwurfh¨ohe in direkter Weise die Endgeschwindigkeit kurz vor dem Aufprall. Genauso stehen Geschwindigkeit und Bremsweg eines Fahrzeugs in relativ direkter Weise zueinander. Auch die Beziehung zwischen Bew¨ asserung und Wachstum einer Pflanze betrachten wir m¨oglicherweise noch als direkt kausal, auch wenn wir dies nicht in einem derart mechanistischen Sinne mehr deuten wie bei einem physikalischen Gesetz. Direkte kausale Effekte sind unmittelbar, basieren h¨ aufig auf nat¨ urlichen Gesetzm¨aßigkeiten und lassen sich idealerweise u ¨ber Experimente messen. Kommen wir dagegen zum Schluss, dass L¨ander mit h¨oherem Pro-KopfEinkommen eine h¨ ohere Lebenserwartung aufweisen als ¨armere L¨ander, so ist klar, dass es sich hierbei um eine eher indirekte Form von Kausalit¨at handelt. So mag der

5.3 Erg¨anzende und vertiefende Themen

187

h¨ohere Wohlstand beispielsweise mit einem weiter entwickelten Gesundheitswesen, einem st¨arker ausgebauten Bildungswesen oder einer zuverl¨assigeren Nahrungsmittelversorgung einhergehen, was sich dann alles wiederum positiv und deutlich direkter auf die Lebenserwartung der Bev¨ olkerung auswirkt. In ¨ahnlicher Weise sollte der Zusammenhang zwischen den schulischen Leistungen von Kindern und dem Einkommen ihrer Eltern eher von indirekten kausalen Effekten bestimmt sein. Dies k¨onnte beispielsweise neben zus¨atzlichen F¨ orderm¨ oglichkeiten außerhalb des Unterrichts vor allem auch den Bildungshintergrund der Eltern in Kombination mit vielen erzieherischen und sozialpsychologischen Faktoren umfassen. Abb. 5.3.14: Direkte und indirekte kausale Effekte Direkt Einflussvariable Geschwindigkeit

Indirekt Zielvariable Bremsweg

Einflussvariable Pro−Kopf−BIP

Zielvariable Gesundheitswesen Bildungswesen Ernährung, ...

Lebenserwartung

Vermittelnde Variablen

Gerade außerhalb naturwissenschaftlich-technischer Untersuchungen ist es h¨aufig nicht m¨oglich, alle direkten Einfl¨ usse auf die Zielvariable genau zu spezifizieren. Die zwischen der Zielvariablen und den eher indirekten Einflussvariablen liegenden direkteren Einflussgr¨oßen werden manchmal als vermittelnde Variablen (Wermuth und Streit [2007]) oder auch als Mediatorvariablen (Urban und Mayerl [2011]) bezeichnet. Außerdem ist es auch m¨ oglich, dass eine Einflussvariable sowohl einen direkten als auch einen indirekten Einfluss auf eine Zielvariable aus¨ ubt. Wie wir noch sehen werden, kann dies mitunter zu Fehlschl¨ ussen f¨ uhren. Schließlich ist es wichtig festzuhalten, dass keine eindeutige Grenze zwischen direkten und indirekten Effekten definiert werden kann. In vielen F¨allen handelt es sich hierbei um eine relative Einordnung verschiedener Einflussvariablen, die fachspezifische Kenntnisse erfordert und teils auch subjektiv ausfallen kann. • Dynamische und simultane Abh¨ angigkeit • Senkt die EZB den Leitzins, genau genommen den sog. Hauptrefinanzierungssatz, so wirkt sich dies m¨oglicherweise auf die Investitionst¨atigkeit von Unternehmen aus. Da sich Gesch¨aftsbanken nun billiger bei der Zentralbank refinanzieren k¨ onnen, geben sie diesen g¨ unstigeren Preis in Form g¨ unstigerer Kreditzinsen an Investoren weiter. Die Anpassung der kurz- und langfristigen Kreditzinsen vollzieht sich jedoch nicht sofort, sondern zeitlich verz¨ogert und allm¨ahlich. Insbesondere werden potenzielle Investoren jedoch nicht von heute auf morgen mit steigender Investitionst¨ atigkeit reagieren. In ¨ ahnlicher Weise mag eine Preis¨anderung oder eine besondere Werbemaßnahme f¨ ur ein bestimmtes Produkt eine kurz-, mittel- und langfristige Wirkung erzielen. Immer dann, wenn sich kausal bedingte Anpassungsvorg¨ange zeitlich verz¨ogert und schrittweise vollziehen, sprechen wir von dynamischen kausalen Effekten. Insbesondere außerhalb experimenteller Studien erweist sich deren Zuordnung und Messung als besonders schwierig, da sich u ¨ber den l¨angeren Wirkungszeitraum meist auch

188

5 Beschreibung und Analyse empirischer Zusammenh¨ange

andere Rahmenbedingungen mit ver¨ andern. Mit Methoden zur Analyse dynamischer Abh¨angigkeiten befassen sich die Theorie stochastischer Prozesse und im Speziellen das Gebiet der Zeitreihenanalyse. ¨ Uberwiegend Konsens besteht darin, dass im Hinblick auf die zeitliche Dimension von Kausalit¨ at die Ursache der Wirkung vorausgehen sollte und nicht umgekehrt. Allerdings wird dieser Punkt bereits durch das m¨ogliche Problem simultaner Kausalit¨ at relativiert. Insbesondere in den Wirtschaftswissenschaften treten n¨amlich sehr oft Situationen auf, in denen eine Variable X eine andere Variable Y direkt oder indirekt beeinflusst und umgekehrt genauso. So wird beispielsweise die EZB ihren Leitzins maßgeblich an der gegenw¨ artigen und der zu erwartenden wirtschaftlichen Verfassung der EU -L¨ander ausrichten. Damit bestimmt sie mit ihrer Zinspolitik das wirtschaftspolitische Geschehen nicht nur mit, sondern wird umgekehrt genauso auch von diesem beeinflusst. In ¨ahnlicher Weise f¨ uhren steigende Konsumausgaben in einer Volkswirtschaft einerseits zu steigenden Einkommen, andererseits f¨ uhren steigende Einkommen ¨ (m¨oglicherweise) auch wieder zu einem erh¨ ohten Konsum. In der Okonometrie, genauer gesagt auf dem Gebiet der Zeitreihenanalyse, wurde unter dem Begriff der sog. Granger-Kausalit¨ at ein statistisches Kriterium definiert, anhand dessen sich zumindest beurteilen l¨ asst, welche der beiden Variable der anderen zeitlich vorhergeht, sich statistisch gesehen sozusagen zuerst ver¨ andert. Aber auch in anderen Gebieten sind derartige Situationen denkbar. M¨ ochte man beispielsweise in der Medizin die Wirkung bestimmter Therapiemaßnahmen untersuchen, so muss beachtet werden, dass Therapiemaßnahmen einerseits Reaktionen auf bestimmte Krankheitsverl¨aufe sind und andererseits diese wiederum beeinflussen.

Systematische Verzerrungen • Hintergrund • In Experimenten werden die wichtigsten Einfl¨ usse auf die Zielvariable im Rahmen eines Versuchsdesigns gew¨ ohnlich gesteuert und weitgehend beschr¨ankt. Damit l¨asst sich dann meist der gr¨ oßte Teil an Schwankungen der Zielvariablen auf die Variation der gesteuerten Einflussvariablen systematisch zur¨ uckf¨ uhren. Der meist kleinere Teil an nicht erkl¨ arbaren Schwankungen wird allen restlichen (nicht gesteuerten) Einfl¨ ussen zugeordnet und als zuf¨ allig erachtet. Im Falle von Erhebungsdaten liegt dagegen h¨aufig eine ungeordnete und ungewollte Vermengung wichtiger Einfl¨ usse vor. In solchen F¨allen ist es dann entscheidend, alle wesentlichen Einflussvariablen zu beobachten und zu erfassen, um diese bei der sp¨ ateren Analyse mit ber¨ ucksichtigen zu k¨onnen. Wird dies vers¨aumt, so besteht die Gefahr, dass nicht ber¨ ucksichtigte aber relevante Einfl¨ usse systematische Verf¨ alschungen verursachen, die in der Statistik gew¨ohnlich als Verzerrungen bezeichnet werden. Betrachtet man beispielsweise alle Personen im erwerbsf¨ahigen Alter in Deutschland, so stellt man fest (Abb. 5.3.6), dass der Anteil der Erwerbst¨atigen unter den 55 bis 65-J¨ahrigen deutlich h¨ oher ist als unter den 45 bis 55-J¨ahrigen. Gleichzeitig ist jedoch ¨ auch ersichtlich, dass unter den Alteren der Anteil von Personen mit Hochschulreife geringer und der Anteil von Personen mit Hauptschulabschluss zugleich deutlich h¨oher ist als bei den J¨ ungeren. Somit l¨ asst sich der R¨ uckgang der Erwerbst¨atigkeit nicht mehr eindeutig nur einem Alterseffekt“ zuordnen, wenn man davon ausgeht, dass vom schuli” schen Bildungsniveau mehr oder weniger direkte kausale Effekte auf die Erwerbst¨atigkeit ausgehen (siehe sp¨ ater Beispiel 5.3.4).

5.3 Erg¨anzende und vertiefende Themen

189

Soll untersucht werden, ob und inwiefern M¨anner und Frauen unterschiedlich viel wiegen, ist zu bedenken, dass M¨ anner im Durchschnitt gr¨oßer sind als Frauen und damit allein schon u oßeneffekt“ durchschnittlich mehr wiegen (Abb. 5.2.1, ¨ber diesen Gr¨ ” Abb. 5.3.1). Sofern dieser indirekte Effekt allein jedoch nicht ausschlaggebend sein soll, muss dies entsprechend bei dieser Fragstellung mit ber¨ ucksichtigt werden (siehe sp¨ater Beispiel 5.3.4). Vor ¨ahnlichem Hintergrund sollte auch das in Medien h¨aufig behandelte Thema, ob nun M¨anner besser bezahlt werden als Frauen, untersucht werden. Eine diskriminierende Bezahlung w¨ urde beispielsweise dann vorliegen, wenn selbst bei gleicher beruflicher Erfahrung und Qualifikation unterschiedlich bezahlt w¨ urde. Es sollte dagegen beispielsweise klar sein, dass ein bei einem Unternehmen langj¨ahrig angestellter 55j¨ahriger Ingenieur sich kaum mit einer 32-j¨ ahrigen B¨ urokauffrau, die nach 5-j¨ahriger Familienpause gerade wieder in ihren Beruf zur¨ uckkehrt, direkt vergleichen l¨asst. Frei¨ lich genauso wenig l¨ asst sich eine 38-j¨ ahrige Arztin mit einem 55-j¨ahrigen ungelernten Hilfsarbeiter vergleichen. • Beispiele systematischer Verzerrungen • Abbildung 5.3.15 illustriert anhand der vorigen Beispiele, wie der Zusammenhang zwischen zwei Variablen (schwarz) durch eine nicht ber¨ ucksichtigte Einflussvariable (grau) verzerrt werden kann. Die großen Pfeile deuten die kausalen Wirkungsrichtungen an, die kleinen Pfeile die jeweiligen Effektrichtungen (positiv oder negativ). Eine systematische Verzerrung liegt immer dann vor, wenn die interessierende Einflussvariable und die nicht ber¨ ucksichtigte Einflussvariable korreliert sind. Diese Korrelation kann, muss aber nicht, auf einer kausalen Beziehung basieren. Sie kann sich auch mehr oder weniger zuf¨allig ergeben. Die Richtung der Verf¨alschung h¨angt dann vom Vorzeichen dieser Korrelation und der Effektrichtung der nicht ber¨ ucksichtigten Einflussvariablen ab. Abb. 5.3.15: Schematische Beispiele systematischer Verzerrungen Erwerbstätigkeit

↓ Alter





Abitur

Gewicht

↑ Männlich

Gehalt



+

Größe

↓ Weiblich



+

Qualifikation

Angenommen, ab einer gewissen Altersschwelle wirke sich ein h¨oheres Alter beispielsweise u uhverrentung oder schwere Vermittelbarkeit bei Arbeitslosigkeit ne¨ber Fr¨ gativ auf die Erwerbst¨ atigkeit aus. Gleichzeitig sei unter den a¨lteren erwerbsf¨ahigen Personen der Anteil von Abiturienten deutlich geringer als unter den j¨ ungeren Personen (negative Korrelation). Nimmt man nun an, dass sich ein Abiturabschluss positiv auf die sp¨atere Erwerbst¨ atigkeit auswirkt, so w¨ urden diese Sachverhalte den gemessenen Zusammenhang zwischen Alter und Erwerbst¨ atigkeit nach unten verzerren. Dies bedeutet, dass der ohnehin schon negative direkte Effekt des Alters auf die Erwerbst¨atigkeit durch die dritte Variable noch zus¨ atzlich verst¨arkt wird. Dies w¨are auf den u ¨ber die Schulbildung gehenden indirekten Effekt zur¨ uckzuf¨ uhren (siehe auch Beispiel 5.3.4).

190

5 Beschreibung und Analyse empirischer Zusammenh¨ange

Angenommen, Knochenbau und muskul¨are Struktur bei M¨annern seien derart, dass M¨anner schwerer sein sollten als Frauen. Gleichzeitig sind M¨anner bekanntlich im Durchschnitt aber auch gr¨ oßer als Frauen (positive Korrelation). Geht man nun (berechtigterweise) davon aus, dass die K¨ orpergr¨oße dem K¨orpergewicht zutr¨aglich ist, so w¨ urde dies den gemessenen Zusammenhang zwischen m¨annlichem Geschlecht und Gewicht nach oben verzerren. Dies bedeutet, dass der ohnehin schon positive direkte Effekt eines m¨annlichen Geschlechts auf das Gewicht durch die dritte Variable verst¨arkt wird. Realistisch m¨ usste man sogar damit rechnen, dass der u ¨ber die Gr¨oße gehende indirekte Effekt deutlich st¨ arker ist. Angenommen, in einer bestimmten Branche w¨ urden Frauen hinsichtlich des Gehaltes diskriminiert, d.h. selbst bei vergleichbarer Qualifikation systematisch schlechter bezahlt als M¨anner. Gleichzeitig stelle sich heraus, dass Frauen in dieser Branche im Allgemeinen h¨ohere Qualifikationen aufweisen als M¨anner. Geht man davon aus, dass f¨ ur h¨ohere Qualifikationen auch in dieser Branche prinzipiell h¨ohere Geh¨alter gezahlt werden, so w¨ urde dies den gemessenen Zusammenhang zwischen weiblichem Geschlecht und Bezahlung nach oben verzerren. Dies bedeutet, dass der negative direkte Effekt eines weiblichen Geschlechts auf das Gehalt durch die dritte Variable abgeschw¨acht w¨ urde. Die Richtung des indirekten Effekts w¨ are in diesem Fall der Richtung des direkten Effekts entgegengerichtet. Abh¨ angig davon, welcher der beiden Effekte nun st¨arker w¨ are, k¨onnten die Frauen im Endeffekt mehr, weniger oder gleich viel wie die M¨anner ¨ verdienen. Uberwiegt der direkte Diskriminierungseffekt, so verdienen die Frauen durch¨ schnittlich weniger als die M¨ anner trotz h¨ oherer Qualifikation. Uberwiegt dagegen der indirekte Qualifikationseffekt, so verdienen die Frauen mehr trotz Diskriminierung. Der Diskriminierungseffekt w¨ urde in diesem Fall den Qualifikationseffekt u ¨berkompensieren. Gleichen sich beide Effekte aus, so werden M¨anner und Frauen scheinbar gleich gut bezahlt. • Merkregeln f¨ ur den 3-Variablenfall • Im Folgenden wird die Systematik von Verzerrungen anhand von Merkregeln zusammengefasst. Es handelt sich dabei lediglich um Faustregeln, die im Rahmen des multiplen linearen Regressionsmodells (Abschnitt 12.2) jedoch eine theoretische Fundierung und inhaltliche Konkretisierung erhalten. Dies bedeutet, dass die Regeln umso verbindlicher werden, je mehr die Annahmen dieses Modells erf¨ ullt sind. Es sollte außerdem klar sein, dass sich im Falle von mehr als 3 Variablen die Zuordnung und Systematik direkter und indirekter Effekt entsprechend komplexer gestaltet. Abb. 5.3.16: Richtung systematischer Verzerrungen – Merkregeln kompakt Y ↓ oder ↑ X

− oder +

Kompensation im Falle von...

↓ oder ↑ Z

↓ ↓ ↑ ↑

− + − +

↓ ↑ ↑ ↓

Verstärkung im Falle von...

↓ ↓ ↑ ↑

− + − +

↑ ↓ ↓ ↑

5.3 Erg¨anzende und vertiefende Themen

191

Systematische Verzerrung im 3-Variablen-Fall Gegeben seien drei metrische oder metrisch kodierte Variablen X, Y und Z. Angenommen X und Z u usse auf die Zielvariable Y aus. ¨ben jeweils direkte kausale Einfl¨ Alle weiteren Einfl¨ usse auf Y seien zuf¨ allig und nicht systematisch. Von X geht auf Y (i) ein positiver direkter Effekt aus, falls der Wert von Y tendenziell steigt, wenn der Wert von X steigt und Z dabei konstant bleibt. (ii) ein negativer direkter Effekt aus, falls der Wert von Y tendenziell sinkt, wenn der Wert von X steigt und Z dabei konstant bleibt. Analog sind die direkten Effekte von Z auf Y unter konstantem X definiert. Von X geht u ¨ber Z auf Y (i) ein positiver indirekter Effekt aus, falls X mit Z positiv korreliert ist und der direkte Effekt von Z auf Y positiv ist; X mit Z negativ korreliert ist und der direkte Effekt von Z auf Y negativ ist, (ii) ein negativer indirekter Effekt aus, falls X mit Z positiv korreliert ist und der direkte Effekt von Z auf Y negativ ist; X mit Z negativ korreliert ist und der direkte Effekt von Z auf Y positiv ist, (iii) kein indirekter Effekt aus, falls X mit Z nicht korreliert ist. Der aus direktem und indirektem Effekt zusammengesetzte Gesamteffekt von X auf Y , der auch als totaler Effekt bezeichnet wird, spiegelt den direkten Effekt von X auf Y systematisch verzerrt (verf¨ alscht) wider, sofern X mit Z korreliert ist. Sind direkter und indirekter Effekt entgegengerichtet, so wird der indirekte Effekt den direkten Effekt durch Kompensation (Abschw¨achung) verzerren. Sind direkter und indirekter Effekt gleichgerichtet, so wird der indirekte Effekt den direkten Effekt durch Verst¨ arkung verzerren. Lediglich in Fall (iii) wird der totale Effekt den direkten Effekt unverzerrt (unverf¨ alscht) widerspiegeln. • Weitere Bemerkungen • Sofern der direkte Effekt von X auf Y aufgrund der Korrelation von X mit Z verzerrt wird, so ist umgekehrt nat¨ urlich der direkte Effekt von Z auf Y (aufgrund der Korrelation von Z mit X) verzerrt. Wie bereits bemerkt m¨ ussen die indirekten Effekte nicht zwingend auch kausaler Natur sein. Dies ist nur der Fall, falls X auf Z einen direkten kausalen Effekt (unter konstantem Y ) aus¨ ubt. Nur in diesem Fall bezeichnet man Z dann auch als Mediatorvariable. H¨angt dagegen X kausal von Z ab, so sind die Rollen von X und Z gewissermaßen vertauscht. Dann nimmt X die Rolle als Mediatorvariable ein. Die Gefahr besonders schwerer Fehlinterpretationen besteht insbesondere immer dann, falls der indirekte Effekt den direkten Effekt u ¨berkompensiert. In solchen F¨allen l¨ asst sich aus dem Vorzeichen der Korrelation zwischen X und Y nicht einmal mehr

192

5 Beschreibung und Analyse empirischer Zusammenh¨ange

die Richtung des direkten Effekts von X auf Y korrekt ablesen. Die Korrelation kann beispielsweise negativ sein, obwohl X eigentlich einen positiven Einfluss auf Y aus¨ ubt oder genau umgekehrt. Im ersten Beispiel von Abbildung 5.3.15 w¨ urde man das Merkmal Schulbildung“ ” beispielsweise mit 1 f¨ ur mit Abitur“ und 0 f¨ ur ohne Abitur“ metrisch kodieren. ” ” Das Merkmal Geschlecht“ w¨ urde im zweiten Beispiel mit 1 f¨ ur m¨annlich“ und 0 f¨ ur ” ” weiblich“ und im dritten Beispiel genau umgekehrt kodiert werden. Somit bedeutet ” eine steigender Wert“ der Einflussvariablen im zweiten Beispiel eine Ver¨anderung von ” weiblich“ nach m¨ annlich“ und im dritten Beispiel eine Ver¨anderung von m¨annlich“ ” ” ” nach weiblich“. ” • Scheinabh¨ angigkeiten • Besteht zwischen zwei Variablen X und Y keinerlei kausaler Zusammenhang und weisen statistische Zusammenhangsmaße dennoch Werte auf, die eine deutliche kausale Abh¨ angigkeit suggerieren, spricht man von einer Scheinabh¨ angigkeit (speziell auch von einer Scheinkorrelation). H¨aufige Gr¨ unde f¨ ur Scheinabh¨angigkeit sind gemeinsame zeitliche Verl¨aufe zweier Variablen oder auch nur reiner Zufall. In dem fast schon legend¨ aren Storchenbeispiel“ wird u ¨ber Jahrzehnte hinweg die ” Gr¨oße der in einer Region ans¨ assigen Storchenpopulation zusammen mit der Anzahl der Geburten je Einwohner j¨ ahrlich erfasst. Aufgrund von zunehmender Verst¨adterung und gleichzeitig sich ver¨ andernden sozialen Lebensgewohnheiten, geht die Abnahme der Storchenpopulation dann u ¨berraschend parallel mit der Abnahme der Geburten einher, was sich in einer starken positiven Korrelation ¨außert. Auch die im ersten Beispiel von Abbildung 5.3.15 zwischen den Merkmalen Alter“ und Abitur“ auftretende negative ” ” Korrelation k¨onnte ebenfalls als Scheinkorrelation gedeutet werden. Es w¨are jedenfalls stark anzuzweifeln, dass der h¨ ohere Abiturientenanteil unter der j¨ ungeren Generation auf h¨ohere F¨ahigkeiten schließen l¨ asst. Vielmehr wurde der Zugang zum Abitur durch Ausbau und Ver¨anderung der schulischen Systeme u ¨ber Jahrzehnte kontinuierlich einer breiteren Masse von Sch¨ ulern erm¨ oglicht Abb. 5.3.17: Schematische Beispiele von Scheinabh¨ angigkeiten Geburtenanzahl

+ Storchenpopulation

Abiturquote



↑ ↑

Lauf der Zeit

Alter

↓ ↑

Ältere vs. Jüngere

Durch einen gemeinsamen zeitlichen Verlauf verursachte Scheinabh¨angigkeiten lassen sich auch als Spezialf¨ alle systematischer Verzerrungen behandeln. Dabei kommt eine an sich nicht bestehende kausale Beziehung zwischen zwei Variablen X und Y durch eine dritte Variable Z, n¨ amlich die Zeit, zustande. Bei gleichgerichteter Verlaufsrichtung ergibt sich dabei eine positive Korrelation, bei entgegengesetztem Verlauf eine negative Korrelation.

5.3 Erg¨anzende und vertiefende Themen

193

• Methodischer Umgang mit systematischen Verzerrungen • Verzerrungen ergeben sich durch Einwirken weiterer Einflussvariablen, die mit bereits ber¨ ucksichtigten Einflussvariablen korreliert sind. Im Folgenden werden verschiedene methodische Ans¨atze zum Umgang mit diesem Problem kurz vorgestellt. Einige zielen prim¨ar darauf ab, eine Korrelation zwischen ber¨ ucksichtigten und nicht ber¨ ucksichtigten Einflussvariablen von vorneherein zu unterbinden oder eine derart bestehende Korrelation zu neutralisieren. Andere binden im Rahmen statistischer Modelle bisherig nicht ber¨ ucksichtigte Einflussvariablen so ein, dass alle direkten Effekte trotz Vermengung ermittelt werden k¨onnen. Das bedeutendste eines solchen Modells ist das multiple lineare Regressionsmodell . • Versuchsplanung • Angenommen, jeweils 10 Exemplare einer Nutzpflanze werden in einem Versuchslabor unter 2 verschiedenen Bedingungen aufgezogen. Die erste Gruppe w¨achst ohne k¨ unstlichen D¨ unger auf, die zweite Gruppe wird regelm¨aßig ged¨ ungt. Es sollte klar sein, dass der D¨ ungeeffekt nicht gesch¨atzt werden kann, wenn sich simultan beispielsweise noch die Bew¨ asserungsmethoden beider Gruppen systematisch unterscheiden. Dann w¨ are unklar, ob das unterschiedliche Wachstum nun auf die D¨ ungung oder auf die Bew¨ asserung zur¨ uckzuf¨ uhren ist. Zu den Aufgaben der Versuchsplanung geh¨ort es, das Versuchsdesign zur Untersuchung einer bestimmten Fragestellung geeignet festzulegen. Dabei ist es keinesfalls so, dass immer nur eine einzelne Einflussvariable gesteuert und ver¨ andert werden kann. Es lassen sich auch zwei oder mehr Einflussvariablen, meist Faktoren genannt, innerhalb des gleichen Experiments durch Steuerung variieren. In vielen klassischen Versuchspl¨ anen geschieht dies dann h¨aufig so, dass die Variation der verschiedenen Faktoren bildlich u ¨ber Kreuz“ l¨auft. Im vorhergehenden ” Pflanzenbeispiel k¨ onnte dies beispielsweise so aussehen: 5 5 5 5

Exemplare Exemplare Exemplare Exemplare

mit D¨ unger und Bew¨asserungsstufe 1, mit D¨ unger und Bew¨asserungsstufe 2, ohne D¨ unger und Bew¨asserungsstufe 1, ohne D¨ unger und Bew¨asserungsstufe 2.

Die einzelnen Faktoren sind bei einem solchen orthogonalen Versuchsdesign nicht korreliert, weshalb sich die eintretenden Effekte auf die Zielvariable (hier das Wachstum) dann besonders einfach den einzelnen Faktoren zuordnen lassen (vgl. Abschnitt 4.5.1). Als statistische Modelle dominieren hierbei klassischerweise Varianzanalysemodelle. • Randomisierung • Angenommen, in einem Computerlabor einer Universit¨at l¨asst man Versuchspersonen zu unterschiedlichen Tageszeiten kurze logische Testfragen unter Zeitdruck bearbeiten, um etwaige Einfl¨ usse der Tageszeit auf die Konzentrationsf¨ahigkeit zu untersuchen. Es werden dazu insgesamt 100 Studierende ausgew¨ahlt, die sich freiwillig f¨ ur dieses Experiment melden. Von diesen bearbeitet die erste H¨alfte die Testaufgaben morgens zwischen 9 und 10 Uhr und die zweite H¨alfte abends zwischen 19 und 20 Uhr. Gem¨ aß dem zeitlichen Eingang ihrer Meldung werden die ersten 50 Studierenden dem Morgentermin und die restlichen 50 dem Abendtermin zugeordnet. Diese Vorgehensweise w¨ urde dann bereits gegen ein wichtiges Grundprinzip statistischer Versuchsplanung verstoßen. Unterschiedliche Behandlungsstufen sollten n¨amlich in der

194

5 Beschreibung und Analyse empirischer Zusammenh¨ange

Regel randomisiert, d.h. zuf¨ allig, zugeteilt werden. Damit soll verhindert werden, dass ber¨ ucksichtigte Einflussvariablen mit nicht ber¨ ucksichtigten wichtigen Einfl¨ ussen korrelieren. Stellen wir uns beispielsweise vor, die 20 letzten Versuchspersonen seien zuf¨alligerweise Studenten der Mathematik und Physik, die sich spontan nach einer Werbung f¨ ur das Experiment in einer ihrer Vorlesungen gemeldet haben. Dann w¨are m¨oglicherweise zu erwarten, dass diese Studenten ein im Vergleich zu anderen Studierenden u ¨berdurchschnittliches Potential und Training f¨ ur logische Problemstellungen besitzen. Nimmt man nun beispielsweise an, dass die Konzentrationsf¨ahigkeit abends allgemein geringer ist als morgens, k¨ onnten diese Studenten diesen Tageszeiteffekt betr¨achtlich kompensieren. Im Extremfall k¨ onnte der indirekte Facheffekt“ den direkten Tageszeitef” fekt u ¨berkompensieren, sodass die Abendgruppe im Endeffekt sogar noch besser als die Morgengruppe abschneidet. Bei einer randomisierten Zuteilung, h¨atten sich die 20 Mathematik-Studenten dagegen viel gleichm¨ aßiger auf die beiden Zeiten verteilt. Nat¨ urlich w¨ urde man auch bei guter Versuchsplanung die Versuchspersonen m¨ oglichst zuf¨allig ausw¨ ahlen und alle potenziellen Hintergrundvariablen mit beobachten und erfassen. Das Prinzip der Randomisierung gilt dennoch generell, da es auch vor verzerrenden Effekten sch¨ utzt, die m¨ oglicherweise unbemerkt blieben. • Untersuchung in homogeneren Untergruppen • Bei Erhebungsstudien scheiden die bisherig vorgestellten Instrumente in der Regel aus. Hier kann dem st¨orenden Effekt einer nicht ber¨ ucksichtigten Einflussvariablen jedoch insofern Rechnung getragen werden, indem man die Daten bez¨ uglich der st¨ orenden Variablen in homogeneren Untergruppen auswertet. Diese Vorgehensweise entspricht einer Untersuchung von bedingten Verteilungen im h¨ oherdimensionalen Sinne (vgl. Abschnitt 8.3.1). Im 3-Variablenfall w¨ urde man dann z.B. die sog. gemeinsame bedingte Verteilung zwischen X und Y unter Z untersuchen, wobei die bedingte Abh¨ angigkeit zwischen X und Y von prim¨arem Interesse w¨ are. M¨ochte man beispielsweise den direkten altersspezifischen Effekt auf die Erwerbst¨atigkeit untersuchen, so vergleicht man nur noch Personen mit gleichem oder zumindest ¨ahnlichem Bildungshintergrund. Zur Ermittlung des direkten bildungsspezifischen Effekts vergleicht man dagegen nur noch Personen ¨ahnlicher Altersgruppen (Beispiel 5.3.4). M¨ ochte man den direkten geschlechtsspezifischen Effekt auf das Gewicht einer Person ermitteln, so wird nach Gr¨oße gruppiert. Man vergleicht dann also nur noch das Gewicht von in etwa gleich großen M¨annern und Frauen. M¨ochte man dagegen den direkten gr¨ oßenspezifischen Effekt auf das Gewicht sch¨atzen, so gruppiert man nach Geschlecht und untersucht die Beziehung zwischen Gr¨oße und Gewicht innerhalb des gleichen Geschlechts (Beispiel 5.3.4) Die Bildung homogenerer Untergruppen st¨oßt besonders bei metrischen Variablen schnell an ihre Grenzen, wenn die Untergruppen kaum noch Daten enthalten. Um gen¨ ugend Beobachtungen zu haben, muss der Grad ihrer Homogenit¨at entsprechend verringert werden, was wiederum die Gefahr von Verf¨alschungen erh¨oht. Der Vorteil dieses L¨osungsansatzes besteht darin, dass er im Gegensatz zur multiplen Regression (siehe n¨achster Punkt) keine st¨ arkeren Annahmen u ¨ber den Wirkungszusammenhang der involvierten Variablen enth¨ alt. F¨ ur explorative Voruntersuchungen ist er deshalb auf jeden Fall zu empfehlen.

5.3 Erg¨anzende und vertiefende Themen

195

• Multiple lineare Regression • Die mit Abstand bedeutendste Technik zur Ber¨ ucksichtigung verzerrender Einfl¨ usse ist die multiple lineare Regression. Sie stellt eine Erweiterung der in Abschnitt 5.2.3 behandelten einfachen linearen Regression dar und wird in Abschnitt 12.2 in gr¨ oßerem Rahmen ausf¨ uhrlich behandelt. Wir beschr¨anken uns hier auf kurze Ausf¨ uhrungen. Im Zuge einer statistischen Modellierung geht man beispielsweise im 3-Variablenfall davon aus, dass sich der Zusammenhang zwischen den Einflussvariablen X und Z und der Zielvariablen Y u ¨ber die lineare Gleichung der Form Y = β0 + β1 X + β2 Z + V

(5.3.1)

hinreichend gut beschreiben l¨ asst, wobei die Restvariable V als zuf¨allig erachtet wird. Richtung und St¨arke der direkten Effekte von X bzw. Z auf Y , die in der Regressionstheorie auch als partielle Effekte bezeichnet werden, ergeben sich aus den Regressionskoeffizienten β1 und β2 . Diese k¨ onnen anhand der Daten beispielsweise u ¨ber die Methode der kleinsten Quadrate ermittelt werden. W¨ urde man dagegen nur eine einfache Regression der Form Y = β0 + β1 X + U durchf¨ uhren, so w¨ urde die fehlende Variable Z in die Restvariable U einfließen und dar¨ uber dann systematische Verzerrungen verursachen. Der ermittelte Koeffizient β1 w¨ urde dem von X auf Y ausgehenden totalen Effekt entsprechen, nicht aber dem direkten Effekt von X auf Y . In der Regressionstheorie wird diese systematische Verzerrung auch OVB (Omitted Variable Bias) genannt. Sofern es eine weitere Einflussvariable W g¨abe, die mit wenigstens einer der beiden Einflussvariablen in (5.3.1) korreliert w¨ are, ließe sich (5.3.1) abermals erweitern zu Y = β0 + β1 X + β2 Z + β3 W + V ∗ . So geht es dann immer weiter. Die Vorteile der multiplen linearen Regression sind betr¨achtlich. Die relativ aufw¨andige Bildung homogener Untergruppen entf¨allt. Stattdessen werden, wie gezeigt werden kann, sich gegenseitig st¨ orende Einfl¨ usse linear herausgerechnet (Abschnitt 12.2.1). Insbesondere mit der KQ-Methode lassen sich die Regressionskoeffizienten einfach bestimmen, k¨ onnen sehr gut interpretiert werden und sind dar¨ uber hinaus noch mit den Merkregeln f¨ ur systematische Verzerrungen kompatibel. • Multiple Regression in anderen Modellen • Ein kritischer Punkt sind die dem multiplen linearen Regressionsmodell innewohnenden Annahmen. So wird unterstellt, dass die Wirkungen der Einflussvariablen auf die Zielvariable linear und additiv sind, was sich bei bestimmten Problemstellungen als nicht realistisch erweist. Ebenso ist der lineare Ansatz wenig geeignet, wenn die Zielvariable Y kategorialer Natur ist. In solchen F¨allen bieten sich h¨ aufig (nichtlineare) Regressionsmodelle an wie etwa die in Abschnitt 5.3.1 bereits genannten logistischen Regressionsmodelle. Ausf¨ uhrlichen Einblick hierzu bieten beispielsweise Fahrmeir et al. [2013] oder Schlittgen [2013]. Betrachtet man etwa den in Abbildung 5.3.4 (Abschnitt 5.3.1) zu sehenden Zusammenhang zwischen der ordinalen Zielvariable Masterambition“ und den metrischen ” Einflussvariablen Abiturnote“ und Alter“ von Studierenden, so wird nahe gelegt, dass ” ”

196

5 Beschreibung und Analyse empirischer Zusammenh¨ange

von der Abiturnote ein positiver Effekt auf die Masterambition ausgehen sollte. Gleichzeitig scheint die Masterambition jedoch mit zunehmendem Alter zu sinken. Dies k¨onnte m¨ oglicherweise dadurch erkl¨ art werden, dass ¨ altere Studierende h¨aufiger schon eine abgeschlossene oder abgebrochene Ausbildung aufweisen und deshalb wohl z¨ ugiger in den Arbeitsmarkt eintreten m¨ ochten. Zu systematischen Verzerrungen dieser beiden Effekte k¨onnte es dann kommen, wenn Abiturnote und Alter korreliert w¨aren. Tats¨achlich betr¨agt die Korrelation der beiden Variablen mehr als 0.4. Dies bedeutet, dass ¨altere Studierende tats¨ achlich tendenziell schlechtere ( gr¨oßere“) Noten haben als j¨ ungere. ” Um nun sowohl den Noteneffekt als auch den Alterseffekt richtig sch¨atzen zu k¨onnen, b¨ote sich hier eine multiple Regression im Rahmen eines geordneten Logit-Modells an. Zun¨achst k¨onnte man betreffende Effekte nat¨ urlich auch erst in homogeneren Untergruppen differenziert untersuchen. F¨ ur den in Abbildung 5.3.2 zu sehenden Zusammenhang zwischen der bin¨aren Zielvariable Arbeitsmarktbeteiligung“ (ja vs. nein) und den metrischen Einflussvariablen ” Alter“ und Nichterwerbseinkommen“ w¨ are ein klassisches Logit-Modell m¨oglicher” ” weise passend. Beispiel 5.3.4: Systematische Verzerrungen Fall 1: Erwerbst¨ atigkeit (Zielvariable), Alter und Schulabschluss Grundlage f¨ ur das erste Fallbeispiel bilden die Daten von Abbildung 5.3.6 (Abschnitt ¨ 5.3.2) und die vorhergehenden Uberlegungen dazu in Verbindung mit Abbildung 5.3.15. Die folgende Tabelle 5.3.4 verschafft einen Einblick in die Problematik. Tabelle 5.3.4: Erwerbst¨ atigkeit, Alter und Schulabschluss erwerbsf¨ ahiger Personen Erwerbst¨atigenquote nach Alter Erwerbst¨atigenquote nach Schulabschluss 35–45 84.8% ohne Abitur 73.7% 45–55 84.0% mit Abitur 86.3% 55–65 61.2% Anteil von Abiturienten nach Alter 35–45 84.8% 45–55 84.0% 55–65 61.2%

Erwerbst¨atigenquote nach Alter Schulabschluss 35–45 45–55 ohne Abitur 82.4% 81.5% mit Abitur 89.4% 90.4%

und 55–65 57.0% 75.1%

Wie man erkennen kann, nimmt die Erwerbst¨atigkeit erst ab einem Alter von ca. 55 ¨ Jahren schlagartig ab. Der totale Effekt beim Ubergang von der Gruppe der 45- bis 55-J¨ahrigen in die Gruppe der 55- bis 65-J¨ ahrigen liegt bei fast −22.8%. Der totale Abitureffekt betr¨ agt etwa +12.6%. Da der Anteil von Abiturienten in den beiden letzten Altersgruppen stark abnimmt, besteht die Gefahr einer systematischen Verzerrung. Dabei k¨ onnte der vom Alter ausgehende direkte Effekt u ¨ber den indirekten Abitureffekt verst¨ arkt werden. So gesehen w¨ urde der totale Effekt von −22.8% den direkten Alterseffekt u ¨berzogen darstellen. Analog w¨are der Abitureffekt mit +12.6% durch den indirekten Alterseffekt u ¨berzogen ausgewiesen.

5.3 Erg¨anzende und vertiefende Themen

197

Eine differenzierte Untersuchung in homogeneren Untergruppen liefert ein zwiesp¨ altiges Resultat. Beschr¨ ankt man sich nur auf die beiden a¨lteren Altersgruppen, so stellt man fest, dass der direkte negative Alterseffekt unter den Personen ohne Abitur deutlich st¨arker ist (−24.5%) als unter den Personen mit Abitur (−15.3%) und sogar den totalen Effekt von −22.8% u ¨bersteigt. Umgekehrt ist in der Gruppe der 45- bis 55-J¨ahrigen der direkte Abitureffekt mit +8.9% deutlich schw¨acher als in der Gruppe der 55- bis 65-J¨ ahrigen mit +18.1%. Dies deutet darauf hin, dass die Effektst¨arke der einen Einflussvariablen jeweils vom Wert der anderen Einflussvariablen abh¨angt. Man spricht dann auch von einer Interaktion (Wechselwirkung) zweier Einfl¨ usse. Die Mechanik systematischer Verzerrungen ist in solchen F¨allen komplexer und entspricht nicht mehr den einfachen Merkregeln. Es m¨ ussen hier allerdings einige einschr¨ankende Bemerkungen angebracht werden. Die Altersgruppen sind noch relativ weit gefasst und sind vom Ideal homogener Untergruppen weit entfernt. Auch k¨ onnten noch viele weitere Einfl¨ usse wie etwa Geschlecht, Einkommen oder Familienstand relevant sein, die mit Alter oder Schulabschluss korreliert sind. Eine weitaus tiefere fachliche Einsichtnahme w¨are hier n¨otig. Fall 2: Gewicht (Zielvariable), Geschlecht und Gr¨oße Grundlage f¨ ur das zweite Fallbeispiel bilden die Daten der Abbildungen 5.2.1 (Ab¨ schnitt 5.2.1) und 5.3.1 (Abschnitt 5.3.1) sowie die vorhergehenden Uberlegungen dazu. Der in Abbildung 5.2.1 zu sehende Zusammenhang zwischen Gr¨oße und Gewicht wird in Abbildung 5.3.18 geschlechtsspezifisch getrennt dargestellt. Damit l¨asst sich sozusagen die bedingte Abh¨ angigkeit (der bedingte Zusammenhang ) zwischen Gr¨oße und Gewicht unter Geschlecht untersuchen. Wie man sieht, ist der direkte Effekt der Gr¨oße auf das Gewicht in beiden F¨allen positiv. Gemessen am Steigungskoeffizienten der KQ-Geraden betr¨ agt dieser 0.70 kg je cm bei den M¨annern und 0.82 kg je cm bei den Frauen. Folglich liegt eine schwach bis m¨aßige Interaktion zwischen Geschlecht und Gr¨ oße vor. Bei einer gemeinsamen Regression u ¨ber beide Geschlechter hinweg liegt der totale Gr¨ oßeneffekt bei 0.96 kg je cm und reflektiert damit dann tats¨achlich auch einen Verst¨ arkungseffekt. Abb. 5.3.18: Zusammenhang von Gr¨ oße und Gewicht nach Geschlecht Männer

Gewicht in kg 140

Frauen

Gewicht in kg 140

120

120 y1 = 75.7

100

y0 = 58.8

100

80

80

60

60

40

40 150

160

170

180

190

Größe in cm

200

210

150

160

170

180

190

200

210

Größe in cm

Die Bildung homogenerer Untergruppen bez¨ uglich Gr¨oße ist nur beschr¨ankt m¨ oglich, da sich die Gr¨ oßen der beiden Geschlechter nur etwa zwischen 170 und 180 cm nennenswert u ¨berlappen. Wie man anhand Abbildung 5.3.19 erkennen kann, scheint

198

5 Beschreibung und Analyse empirischer Zusammenh¨ange

es einen direkten geschlechtsspezifischen Effekt auf das Gewicht tats¨achlich zu geben. Jedenfalls wiegen M¨ anner auch bei vergleichbarer K¨orpergr¨oße im Durchschnitt mehr als Frauen. In der Gr¨ oßenklasse von 170 bis 175 cm betr¨agt dieser Effekt 5.14 kg, w¨ahrend er in der Gr¨ oßenklasse von u ¨ber 175 cm bis 180 cm mit 3.9 kg etwas geringer ausf¨allt. Der totale Gewichtseffekt u ¨ber alle Gr¨oßen hinweg ist mit 17.2 kg wiederum deutlich st¨arker als der direkte Effekt. Trotz auftretender Interaktion sind die hier auftretenden Effekte mit den Merkregeln f¨ ur systematische Verzerrungen in Einklang. In Abschnitt 12.2, in dem dann die multiple lineare Regression als L¨ osungsansatz ausf¨ uhrlich behandelt wird, wird dieses Beispiel deshalb erneut aufgegriffen. Dennoch sollte auch hier betont werden, dass sich Aussagen dar¨ uber, ob und inwiefern Gr¨oße und Gewicht tats¨achlich kausal f¨ ur Gewicht sind, sich aus fachlichen Erw¨ agungen ergeben m¨ ussen. Abb. 5.3.19: Zusammenhang von Geschlecht und Gewicht nach Gr¨ oße Gewicht in kg 100

170 ≤ Größe ≤ 175

Gewicht in kg 100

90

90

80

80

70

70

60

60

50

175 < Größe ≤ 180

50 Männer

Frauen

Männer

Frauen

Zuf¨ allige Schwankungen • Hintergrund • Fast immer sind Statistiken, insbesondere also auch Zusammenhangsmaße, zu einem gewissen Grad zuf¨ alligen Schwankungen unterworfen, die sich nicht weiter systematisierend bestimmten Einflussfaktoren zuordnen lassen und die nicht prognostizierbar bleiben. Deshalb verf¨ ugt jedes statistische Modell u ¨ber eine zuf¨allige Restkomponente, Rest- oder St¨ orvariable genannt, in die all jene kausalen Einfl¨ usse einfließen, welche im Rahmen eines Experiments oder einer Erhebung nicht mehr gesteuert bzw. beobachtet werden k¨onnen (Abb. 5.3.13). Gerade bei Erhebungsstudien kann das Ausmaß der damit verbundenen zuf¨alligen Restschwankungen noch erheblich sein. Werfe man dazu nur einen Blick in die Abbildungen 5.3.18 und 5.3.19. Auch nach Bildung homogenerer Untergruppen weisen die bedingten Zusammenh¨ange von Gr¨ oße und Gewicht bzw. von Geschlecht und Gewicht noch betr¨achtliche Restvariabilit¨ at auf. Also selbst bei gleichem Geschlecht sind gr¨oßere Personen nicht zwingend schwerer als kleinere und M¨ anner wiegen auch bei gleicher Gr¨oße nicht zwingend mehr als Frauen. Daraus ergibt sich unmittelbar ein statistisches Problem, da die gemessenen kausalen Effekte durch die zuf¨alligen Schwankungen mehr oder weniger stark verf¨alscht sein k¨ onnen. Bevor die methodischen Werkzeuge zum Umgang mit solch zuf¨alligen (Rest-)Schwankungen kurz vorgestellt werden, ist es hilfreich, zun¨achst zwei

5.3 Erg¨anzende und vertiefende Themen

199

Extrembeispiele zu betrachten, in denen durch Zufall reine Scheinabh¨ angigkeiten erzeugt werden. • Beispiele rein zuf¨ alliger Abh¨ angigkeiten • Man nehme einen weißen und einen schwarzen W¨ urfel und werfe beide jeweils n = 10 Mal. Angenommen, die Ergebnisse lauten jeweils: Weißer W¨ urfel: Schwarzer W¨ urfel:

1, 3, 5, 5, 4, 6, 4, 6, 3, 6, 5, 4, 6, 1, 2, 3, 4, 1, 4, 5.

Der sich daraus ergebende Korrelationskoeffizient betr¨agt −0.34. Normalerweise wird hier niemand vermuten, dass sich die Ergebnisse der beiden W¨ urfel gegenseitig negativ beeinflussen k¨ onnten. Vernunft und Erfahrung lassen hier keine kausale Abh¨angigkeit erkennen. Der gemessene empirische Zusammenhang sollte sich rein zuf¨allig ergeben haben. Das linke Schaubild von Abbildung 5.3.20 zeigt die empirische Verteilung des Korrelationskoeffizienten einer 1000-fachen Wiederholung des eben beschriebenen Zufallsexperiments mit n = 10. Die zuf¨ alligen Ergebnisse der einzelnen W¨ urfe wurden mithilfe eines Zufallsgenerators simuliert. Daran l¨asst sich erkennen, dass in den meisten F¨allen (hier 99.3%) eine von 0 verschiedene Korrelation ausgewiesen wird, die sowohl negativ als auch positiv ausfallen kann. In 15.3% aller F¨alle wurde gar eine betragsm¨aßige Korrelation von mehr als 0.5 (zuf¨ allig) erzielt. Abb. 5.3.20: W¨ urfelexperimente: Empirische Zusammenh¨ ange bei reiner Zuf¨ alligkeit Abs. Häufigkeit 250

Abs. Häufigkeit 250

200

200

150

150

100

100

50

50

0

0 −1.0

−0.5

0.0

0.5

Korrelationskoeffizient

1.0

0.0

0.2

0.4

0.6

0.8

1.0

Kontingenzkoeffizient

Man f¨ uhre nun ein zweites Experiment durch. Dazu nehme man wiederum den weißen und den schwarzen W¨ urfel und werfe beide nun jeweils 60 Mal. Angenommen, Tabelle 5.3.5 stelle die auf den absoluten H¨ aufigkeiten des Experiments beruhende Kontingenztabelle dar. Der korrigierte Kontingenzkoeffizient betr¨agt in diesem Fall 0.32. L¨asst sich daraus folgern, dass die Farbe des W¨ urfels die Chancen f¨ ur bestimmte ¨ Zahlen beeinflusst? Zumindest kleine Kinder glauben das teilweise. Ahnlich wie zuvor l¨asst sich dieses Experiment ebenfalls 1000-fach wiederholt simulieren. Das rechte Schaubild von Abbildung 5.3.20 zeigt die empirische Verteilung des Kontingenzkoeffizienten. Hier sind nun gar alle Werte von 0 verschieden. In 11.5% aller F¨alle betr¨agt der Kontingenzkoeffizient gar mehr als 0.5.

200

5 Beschreibung und Analyse empirischer Zusammenh¨ange Tabelle 5.3.5: W¨ urfelexperiment: Weißer und schwarzer W¨ urfel Farbe Zahl Weiß Schwarz

1 9 9

2 6 16

3 14 10

4 10 6

5 8 7

6 13 12

So paradox es zun¨ achst klingen mag: Auch in F¨allen, in denen ganz offensichtlich kein vernunftm¨ aßig erkennbarer kausaler Zusammenhang zwischen zwei Variablen besteht, wird eine von 0 verschiedene Korrelation bzw. ein von 0 verschiedener Kontingenzkoeffizient eher die Regel als die Ausnahme sein. In letzterem Beispiel w¨ urden wir in unserer Modellvorstellung eigentlich erwarten, dass sich bei beiden W¨ urfeln eine gleichm¨aßige H¨aufigkeitsverteilung auf die Zahlen 1 bis 6 ergeben sollte. Im Idealfall“ ” w¨ urde dann jede Zahl genau 10 Mal auftreten. Das w¨ urde dann auch einen Kontingenzkoeffizienten von 0 implizieren. Wie die Simulation jedoch erkennen l¨asst, ist aber genau dieser Fall sehr unwahrscheinlich. Diese beiden Beispiele werden sp¨ ater nochmals ausf¨ uhrlicher in Kapitel 11 im Rahmen der Beispiele 11.3.6 (χ2 -Unabh¨ angigkeitstest) und 11.3.9 (Korrelationstest) aufgegriffen. • System oder Zufall? • Bei Zusammenhangsanalysen geht es also zun¨achst immer um die Frage, ob ein gemessener Zusammenhang m¨oglicherweise nur rein zuf¨allig sein k¨ onnte. Es w¨are jedenfalls ein großer Fehler, dort eine kausale Verbindung erkennen zu wollen, wo außer Zufall u ¨berhaupt nichts Weiteres dran w¨are. Jedoch erweist sich die Zuordnung von Zufall und Kausalit¨ at h¨ aufig als subjektiv. Denn ebenso wie Kausalit¨at ist auch Zufall ein recht unscharfer Begriff – ein kognitives Konstrukt“ (vgl. Abschnitt ” 6.1.1). Man stelle sich nun vor, in obiger Tabelle w¨ urde der Idealfall“ des Zufalls als ” Ergebnis eines einzelnen Experiments pr¨ asentiert werden, d.h. f¨ ur beide Farben erg¨abe sich eine gleichm¨ aßige Verteilung auf die Werte 1 bis 6 (jeder Wert genau 10 Mal). Mit etwas Gesp¨ ur f¨ ur Zufall w¨ urde man dann annehmen, dass es sich dabei voraussicht¨ lich entweder um ein manipuliertes ( gesch¨ ontes“) Ergebnis oder um einen Ubertra” gungsfehler handeln sollte. Ausgerechnet das perfekt Zuf¨allige“ wird nun nicht mehr ” als zuf¨allig abgenommen. Andererseits stelle man sich vor, es erg¨aben sich sehr unterschiedliche Verteilungen f¨ ur die beiden Farben. Seien die Ergebnisse des weißen W¨ urfels beispielsweise sehr gleichm¨ aßig verteilt, w¨ ahrend der schwarze W¨ urfel ausschließlich die Ergebnisse 1 und 6 aufweist. Wenngleich per Zufall m¨oglich, k¨onnte man daraus auch sofort schließen, dass zwar nicht die Farben diese Unterschiede verursachen, wohl aber m¨ ogliche Unterschiede in der Beschaffenheit der beiden W¨ urfel. Hieran erkennt man, dass die letztliche Einordnung von Kausalit¨at und Zufall von bisherigen Erfahrungen, Sachkenntnissen und subjektiven Vernunftabw¨agungen abh¨angt. Auch geht es prinzipiell immer um die Frage, inwieweit wir einer Statistik tats¨achlich glauben oder nicht. Dennoch gibt es in der Statistik einige methodische Grundprinzipien, die uns bei dieser Entscheidung helfen. • Methodischer Umgang mit zuf¨ alligen Schwankungen • Neben tiefergehenden fachlichen Erw¨agungen w¨ are die erste und idealtypische Form zur Widerlegung von

5.3 Erg¨anzende und vertiefende Themen

201

Zufall eigentlich das wiederholbare Experiment. Jedoch haben wir ja gerade anhand der vorhergehenden Simulationen, die ja einer vielfachen Wiederholung eines Experiments entsprachen, festgestellt, dass selbst ideale Experimente nicht frei von Zufall sind und gemessene Zusammenhangsmaße durch reinen Zufall“ betr¨achtlich verf¨alscht sein ” k¨ onnen. Um es deshalb gleich zu sagen: Das durch zuf¨allige Schwankungen verursachte Deutungsproblem, l¨asst sich grunds¨ atzlich nie mit absoluter Sicherheit l¨osen! Der Zufall verursacht stets eine Unsch¨ arfe zwischen System und Zufall. So unterliegt auch die Quantifizierung kausaler Effekte im Rahmen statistischer Modelle zuf¨alligen Verf¨alschungen. Kausale Effekte lassen sich deshalb streng genommen auch nicht genau messen, sondern sie werden, um es fachsprachlich korrekt auszudr¨ ucken, lediglich gesch¨ atzt. Grundlage aller methodischen Werkzeuge zum Umgang mit zuf¨alligen Schwankungen ist die Wahrscheinlichkeitstheorie, die uns Anhaltspunkte dar¨ uber liefert, wie wir in bestimmten Situationen am besten entscheiden k¨onnen bzw. was in einer gegebenen Situationen am plausibelsten erscheint. • H¨ ohere Aussagekraft durch mehr Beobachtungen • Um sich ein besseres Urteil u at und Zufall bilden zu k¨onnen, w¨are eines der einfach¨ber die Zuordnung von Kausalit¨ sten Mittel, sich mehr Beobachtungswerte zu beschaffen. Statistiken besitzen eine umso h¨ohere Aussagekraft“, desto h¨ oher die Anzahl der Beobachtungen (Fallzahl) ist, auf ” denen diese beruhen. Dies sollte auch ohne n¨ ahere Kenntnisse der Wahrscheinlichkeitstheorie einleuchten. W¨ urde man in den vorigen beiden Experimenten die Anzahl der W¨ urfe beispielsweise jeweils nur verdoppeln, d.h. statt 10 nun 20 und statt 60 nun 120 W¨ urfe, so erg¨abe dies eine Verteilung gem¨ aß Abbildung 5.3.21. Wie wir sehen, nimmt die Schwankungsbreite der zuf¨ alligen Schwankungen in Richtung der wahren Werte“ ” ab. Der Anteil der betragsm¨ aßig u ¨ber 0.5 liegenden Korrelationswerte sinkt auf 1.5%, der Anteil der u ¨ber 0.5 hinausgehenden Werte des Kontingenzkoeffizienten betr¨agt nur noch 0.1%. Bei weiterer Erh¨ ohung der Wurfzahlen setzt sich dieser Prozess immer weiter fort. Es wird jedoch bereits ersichtlich, dass bei jeder noch so hohen Anzahl von Beobachtungswerten stets zuf¨ allige, wenn auch noch so kleine, Restschwankungen um die 0 verbleiben. Die Wahrscheinlichkeit f¨ ur gr¨ oßere Verf¨alschungen nimmt jedoch stetig ab. Mathematisch bezeichnet man dies als stochastische Konvergenz . Abb. 5.3.21: W¨ urfelexperimente bei h¨ oherer Anzahl von W¨ urfen Abs. Häufigkeit 250

Abs. Häufigkeit 250

200

200

150

150

100

100

50

50

0

0 −1.0

−0.5

0.0

0.5

Korrelationskoeffizient

1.0

0.0

0.2

0.4

0.6

Kontingenzkoeffizient

0.8

1.0

202

5 Beschreibung und Analyse empirischer Zusammenh¨ange

So u ¨berzeugend auch die Erwirkung einer hohen Beobachtungszahl sein mag, l¨asst sich diese Zahl nicht immer steuern. Sowohl bei Experimental- als auch bei Erhebungsstudien sind organisatorische und finanzielle Restriktionen gesetzt. Im Falle von Studien zu seltenen Krankheiten in der Medizin kann die Fallzahl von Patienten selbst unter besten finanziellen Bedingungen nicht ohne weiteres erh¨oht werden. Somit ist hier eine andere L¨osung zu suchen. • Induktive Methoden • In der Statistik hat sich zum Umgang mit zuf¨alligen Schwankungen ein methodischer Apparat entwickelt, der darauf abzielt, statistische Aussagen durch modellgest¨ utzte Irrtums- und Sicherheitswahrscheinlichkeiten zu erg¨anzen. Sie bilden dann die entscheidenden Gradmesser f¨ ur die Plausibilit¨at bestimmter Aussagen (vgl. Abschnitt 1.2.2). Ein wichtiger methodischer Ansatz besteht darin, zun¨achst einmal Plausibilit¨ atsgrenzen f¨ ur den reinen Zufall festzulegen. Dies bedeutet, dass es ab einem bestimmten Schwellenwert eines Zusammenhangsmaßes nicht mehr plausibel erscheint, den gemessenen Zusammenhang nur als rein zuf¨allig zu deuten. Dies wird im Rahmen der statistischen Testtheorie unter dem Begriff der statistischen Signifikanz behandelt. Statistisch signifikante Zusammenh¨ange sind demnach solche, die aus wahrscheinlichkeitstheoretischer Sicht nicht mehr nur rein zuf¨allig sein sollten. Betrachten wir dazu noch einmal die Ergebnisse von Abbildung 5.3.21 des W¨ urfelbeispiels. Unter reiner Zuf¨ alligkeit best¨ unde demnach die Wahrscheinlichkeit daf¨ ur einen betragsm¨aßigen Korrelationskoeffizienten von mehr als 0.5 zu erhalten ca. 1.5%. Deshalb k¨onnte man nun beispielsweise festlegen, ab einem betragsm¨aßigen Wert von mehr als 0.5 auf ein tats¨ achliches Vorliegen einer kausalen Abh¨angigkeit irgendeiner Form zu schließen. Denn in Anbetracht der Simulationen erscheinen solche Werte bei reiner Zuf¨alligkeit relativ unwahrscheinlich. Gleichwohl sind solche Werte nat¨ urlich dennoch m¨ oglich. Dies ist denn auch der Haken dieses Denkansatzes, dessen Eingeschr¨anktheit man an dem vorliegenden Beispiel besonders gut erkennen kann. Denn wie hoch man in diesem Fall auch die Entscheidungsgrenze w¨ ahlen w¨ urde, ein irrt¨ umlicher Schluss w¨are nie v¨ollig auszuschließen. Nat¨ urlich geht es im Weiteren dann nicht nur darum zu entscheiden, ob ein Zusammenhang nur rein zuf¨ allig ist oder nicht, sondern auch um dessen Quantifizierung, insbesondere wenn er denn tats¨ achlich signifikant sein sollte. Im Rahmen statistischer Modelle geht es dann schließlich auch um die Sch¨ atzung von Modellparametern wie etwa die Koeffizienten eines multiplen Regressionsmodells, die sich dann als direkte kausale Effekte interpretieren lassen. Da solche Sch¨atzwerte zuf¨alligen Schwankungen unterworfen sind, werden f¨ ur diese dann Sicherheitsintervalle (Konfidenzintervalle) konstruiert, innerhalb derer die wahren Werte“ mit hoher Wahrscheinlichkeit (Sicher” heitswahrscheinlichkeit) liegen sollten. Mit den Methoden der Test- und Sch¨ atztheorie, die zusammen die induktive Statistik formen, werden wir uns in Teil 3 dieses Buches ausf¨ uhrlich befassen. Diese Methoden lassen sich in kleinen wie auch in großen Stichproben anwenden, und sie geben im Rahmen einfacher wie auch komplexer statistischer Modelle wahrscheinlichkeitstheoretisch fundierte Entscheidungshilfen u ¨ber System und Zufall von empirischen Zusammenh¨angen.

Teil 2: Wahrscheinlichkeitsrechnung – Theoretischer Kalku ¨l Wie bereits in Kapitel 1 ausf¨ uhrlich erl¨ autert wurde, kann man unter Statistik auch einen speziellen auf Wahrscheinlichkeitsrechnung beruhenden methodischen Apparat zur Analyse zufallsabh¨ angiger Daten verstehen. Die Grundlagen dieses methodischen Apparats werden sp¨ ater in Teil 3 ausf¨ uhrlich behandelt. Dazu ist es jedoch zun¨achst notwendig, sich mit einigen Grundlagen der Wahrscheinlichkeitsrechnung eingehender zu befassen, auch wenn Wahrscheinlichkeitsrechnung selbst kein statistisches Fach im engeren Sinne darstellt. Die Urspr¨ unge der Wahrscheinlichkeitsrechnung sind vermutlich in den ersten Versuchen zu sehen, die Chancen bei Gl¨ ucksspielen genauer bestimmen zu k¨onnen. Erste exakte Berechnungen im Sinne mathematischer Regeln wurden hierzu insbesondere von ¨ franz¨osischen Mathematikern im 17. Jahrhundert beigesteuert. Uber solch eher spiele” rische Anwendungen“ hinaus erfuhr die Wahrscheinlichkeitsrechnung (Wahrscheinlichkeitstheorie) als ernstzunehmendes mathematisches Fach ihren Aufschwung jedoch erst ab den 1930er Jahren nach deren axiomatischer Fundierung durch Kolmogoroff [1933]. F¨ ur ausf¨ uhrliche Abhandlungen zur Geschichte der Wahrscheinlichkeitsrechnung von den fr¨ uhen Anf¨angen bis hin zu den Axiomen von Kolmogoroff sei insbesondere auf die Beitr¨age von Hald [1990, 1998], Stigler [1986] und Bingham [2000] verwiesen. In Kapitel 6 stehen zun¨ achst einige elementare Grundlagen und Grundbegriffe der Wahrscheinlichkeitsrechnung im Vordergrund. Von zentraler Bedeutung ist dann in Kapitel 7 die Einf¨ uhrung der Zufallsvariablen. Zahlreiche deskriptive Methoden aus Teil 1 werden hier in gewisser Weise erneut behandelt, nun jedoch auf theoretischer Ebene im Rahmen des Wahrscheinlichkeitskalk¨ uls. So treten an die Stelle empirischer Verteilungen von Daten jetzt (theoretische) Wahrscheinlichkeitsverteilungen von Zufallsvariablen. Zur Spezifizierung solcher theoretischer Verteilungen werden in Entsprechung zu den empirischen Kennwerten zahlreiche theoretische Gegenst¨ ucke eingef¨ uhrt. Erg¨anzende und vertiefende Themen finden sich in Kapitel 8.

Kapitel 6: Einfu ¨ hrung in die Wahrscheinlichkeitsrechnung In diesem Kapitel werden in Abschnitt 6.1 zun¨achst wichtige Grundbegriffe eingef¨ uhrt. Dazu geh¨ort auch die inhaltliche und definitorische Eingrenzung des Wahrscheinlichkeitsbegriffs in Verbindung mit ersten Regeln. In Abschnitt 6.2 stehen wichtige Konzepte und Rechenregeln im Kontext unabh¨ angiger und abh¨angiger Zufallsereignisse im Vordergrund.

6.1 Wichtige Grundbegriffe und Regeln Zufallsvorg¨ ange sind Vorg¨ ange mit mehreren m¨oglichen Ergebnissen und ungewissem Ausgang. Die Einordnung eines Zufallsvorgangs als solchen und das Ausmaß damit einhergehender Unsicherheit sind perspektivisch bedingt. Die Wahrscheinlichkeitsrechnung stellt ein mathematisches Regelwerk zur Verf¨ ugung, mit dem sich im Kontext von Zufallsvorg¨ angen die Wahrscheinlichkeiten f¨ ur bestimmte Ereignisse bestimmen lassen. Ausgangsbasis und innerster Kern dieses Regelwerks bilden dabei die Axiome von Kolmogoroff . Darin wird in minimaler Weise festgelegt, nach welchen Regeln allen interessierenden Ereignissen eines Zufallsvorgangs, die als Teilmengen eines u ¨bergeordneten Ereignisraumes aufgefasst werden, Wahrscheinlichkeiten zugeordnet werden m¨ ussen. Alle weiteren Regeln und Gesetze basieren letztlich auf diesen Axiomen und gelten unabh¨ angig davon, wie daraus abgeleitete Wahrscheinlichkeiten interpretiert werden.

6.1.1 Interpretation von Zufall und Wahrscheinlichkeiten • Zufallsvorgang und Zufall • Der Begriff Wahrscheinlichkeit“ wird unmittelbar ” mit Zufall“ assoziiert. Wahrscheinlichkeitsrechnung befasst sich sozusagen mit der Be” stimmung von Wahrscheinlichkeiten im Zusammenhang von Zufallsvorg¨angen. Doch was versteht man unter Zufall bzw. unter einem Zufallsvorgang? Und was genau ist dann eine Wahrscheinlichkeit? Als mathematisches Fach h¨alt Wahrscheinlichkeitsrechnung keine Definition f¨ ur den Zufall bzw. einen Zufallsvorgang parat, da es sich hierbei nicht um mathematische Begriffe handelt. Der Zufallsbegriff ist ¨ahnlich unscharf und problematisch wie bereits der Kausalit¨ atsbegriff, ein kognitives Konstrukt“ von immens ” philosophischer Dimension (vgl. Abschnitt 5.3.3). Steht Kausalit¨ at f¨ ur System“, f¨ ur ” das von bekannten Ursachen Abh¨ angige, Erkl¨ arbare und Vorhersehbare, so steht Zufall f¨ ur das entsprechende Gegenst¨ uck, das von unbekannten Ursachen Abh¨angige, nicht Erkl¨arbare und nicht Vorhersehbare. Wir werden uns an folgende pragmatische (nichtmathematische) Definition f¨ ur einen Zufallsvorgang halten.

6.1 Wichtige Grundbegriffe und Regeln

205

Ein Zufallsvorgang ist ein Vorgang mit mindestens zwei m¨oglichen verschiedenen Ergebnissen, bei dem im Voraus nicht eindeutig bestimmbar ist, welches Ergebnis eintreten wird. Eine direkte Definition von Zufall“ fehlt. Indirekt k¨onnte man jedoch das Eintreten ” eines bestimmten Ergebnisses eines Zufallsvorgangs als vom Zufall abh¨angig, kurz als zufallsabh¨ angig oder zuf¨ allig erachten. Allerdings entspricht dies nicht dem allt¨aglichen Gebrauch dieses Wortes. Wenn wir beispielweise ausrufen Das war aber Zufall!“ ” bringen wir damit in der Regel zum Ausdruck, dass gerade etwas sehr Unwahrscheinliches in positiver oder negativer Hinsicht eingetreten ist. Das meinen wir also fortan nicht mehr! • Zufall ist perspektivisch bedingt • Man beachte, dass die vorhergehende Definition eines Zufallsvorgangs perspektivisch bedingt ist. Ein Zufallsvorgang ergibt sich aus der Perspektive eines Unwissenden oder zumindest partiell Unwissenden. W¨ urde man beim Werfen einer M¨ unze die genauen physikalischen Gesetze kennen, nach denen sich die M¨ unze bewegt, und w¨ are man in der Lage diese allesamt zu ber¨ ucksichtigen, so k¨ onnte man das Ergebnis mit Sicherheit prognostizieren. Ebenso ist die Anzahl vor¨ uberfahrender Fahrzeuge an einer Ampel aus Sicht eines Beobachters ein Zufallsvorgang mit m¨ oglichen Ergebnissen 0, 1, 2, usw., wenngleich jede einzelne Fahrt aus Sicht der Fahrer einen Willensakt darstellt und insofern nicht zuf¨allig ist. Selbst die Erzeugung einer Zufallszahl mit einem Computer unterliegt lediglich nur mehr oder weniger komplexen Berechnungen“. Somit bleiben Fragen u ¨ber Bedeutung und Existenz echten Zufalls“ ” ” hier unbeantwortet. • Zufall folgt Gesetzm¨ aßigkeiten • Zufall ist in unserer Verwendung nicht mit Willk¨ ur oder v¨olliger Unberechenbarkeit gleichzusetzen. Beispielsweise k¨onnen wir zwar nicht den Ausgang eines einzelnen M¨ unzwurfes mit Sicherheit vorhersagen, jedoch rechnen wir normalerweise damit, dass bei h¨ aufiger Wiederholung des M¨ unzwurfs in 50% aller W¨ urfe Zahl“ und in 50% aller W¨ urfe Kopf“ erscheinen wird. Dass diese An” ” nahme legitim ist, l¨ asst sich experimentell nachweisen. Insofern sind Zufallsvorg¨ange zwar nicht genau vorhersagbar, sie weisen jedoch (vorhersagbare) Gesetzm¨aßigkeiten auf, die sich mehr oder weniger pr¨ azise beschreiben lassen. Nur auf diese Weise werden Zufallsvorg¨ange in gewisser Hinsicht auch berechenbar. Nur dar¨ uber erscheint Wahrscheinlichkeitsrechnung letztlich berechtigt. • Beispiele f¨ ur die Verwendung von Wahrscheinlichkeiten • Von Wahrscheinlichkeiten wird in unterschiedlicher Weise Gebrauch gemacht. Wir betrachten und untersuchen dazu die folgenden beispielhaften Aussagen. (1) (2) (3) (4)

” ” ” ”

Die Wahrscheinlichkeit eine Sechs zu w¨ urfeln betr¨ agt 1/6.“ Die Wahrscheinlichkeit f¨ ur sechs Richtige im Lotto betr¨ agt 0.00000715%.“ Die Kreditausfallwahrscheinlichkeit f¨ ur diese Kunden liegt bei 1%.“ Die Wahrscheinlichkeit f¨ ur eine M¨ adchengeburt betr¨ agt laut Statistik 48.8%.“

206

6 Einf¨ uhrung in die Wahrscheinlichkeitsrechnung

(5)

Mit einer Wahrscheinlichkeit von 95% liegt der Stimmenanteil dieser Partei nach ” Berechnungen zwischen 29.8% und 31.4%.“

(6)

Nach Berechnungen wird die Bev¨ olkerung im Jahr 2050 mit einer Wahrschein” lichkeit von 90% bei unter 50 Millionen liegen.“

(7) (8)



Dieser Patient wird mit einer Wahrscheinlichkeit von 70% sterben.“

Ich bin mir mit 95%iger Wahrscheinlichkeit sicher, dass dieses Jahr ein Schalt” jahr ist.“

Die Gemeinsamkeit aller Aussagen besteht darin, dass in jedem der F¨alle versucht wird, den Grad an Sicherheit u ¨ber den Ausgang eines bestimmten Vorgangs durch die Angabe einer Wahrscheinlichkeit zu quantifizieren. Dies geschieht teils auf sehr unterschiedliche Weise. • Klassische Wahrscheinlichkeit • Die Interpretation der ersten Aussage d¨ urfte den allermeisten Lesern leicht fallen. Der W¨ urfel besitzt 6 verschiedene Seiten. Die Augenzahl 6“ stellt eine der 6 M¨ oglichkeiten dar. Insofern geht man zu einem Sechstel ” davon aus, dass genau dieses Ergebnis eintreten wird. Allerdings steckt hinter dieser Logik die Annahme gleichwahrscheinlicher M¨ oglichkeiten. Bei einem v¨ollig ungleichm¨aßig zugeschnittenen W¨ urfel w¨ are dieser Ansatz deutlich weniger sinnvoll. Sofern sich Wahrscheinlichkeiten u uglich gleichwahrscheinlicher M¨oglichkei¨ber Anteilsbetrachtungen bez¨ ten ergeben, spricht man von klassischen Wahrscheinlichkeiten. Das entsprechende statistische Modell wird h¨ aufig als Laplace-Modell bezeichnet und entsprechender Kalk¨ ul als Laplace-Kalk¨ ul . Auch die zweite Aussage enth¨alt eine klassische Wahrscheinlichkeit. Es handelt sich hierbei also nicht etwa um den relativen Anteil von 6 Richtigen an der Gesamtanzahl aller abgegebenen Tipps der Lotteriehistorie. Wie sich solche klassischen Wahrscheinlichkeiten insbesondere unter Zuhilfenahme der Kombinatorik konkret bestimmen lassen, wird Gegenstand von Abschnitt 7.3.1 sein. • Statistische Wahrscheinlichkeit – empirisch • Bei der dritten Aussage ist unklar, woraus sich die Angabe 1%“ ableitet. Nehmen wir an, dass in der Vergangenheit ” 1% aller Kundenkredite dieser Bank ausfielen. Dann entspricht die angegebene Wahrscheinlichkeit gerade einer beobachteten relativen H¨aufigkeit. Konzeptionell stellt dies bereits einen erheblichen Unterschied zu den ersten beiden Aussagen dar. W¨ahrend ¨ sich diese lediglich aus theoretischen kombinatorischen Uberlegungen ableiten, st¨ utzt sich diese Wahrscheinlichkeitsangabe auf empirische Daten. Solche Wahrscheinlichkeiten z¨ahlen zu den (empirischen) statistischen Wahrscheinlichkeiten. Ihre Verwendung basiert auf der grunds¨ atzlichen Annahme fortbestehender G¨ ultigkeit. So w¨ urde die zweite Aussage keinen Sinn machen, wenn man davon ausginge, dass der Anteil der in Zukunft ausfallenden Kredite beispielsweise deutlich h¨oher als 1% sein sollte. Dann w¨ are allenfalls noch eine Aussage der Form In der Vergangenheit betrug die Wahr” scheinlichkeit eines Kreditausfalls 1%“ sinnvoll. Analoges gilt f¨ ur die vierte Aussage, in der eine f¨ ur Deutschland ermittelte relative H¨aufigkeit (vgl. Emmerling [2012]) als statistische Wahrscheinlichkeit verwendet wird.

6.1 Wichtige Grundbegriffe und Regeln

207

• Statistische Wahrscheinlichkeiten – theoretisch • Die Interpretation der f¨ unften und sechsten Aussage f¨ allt deutlich schwerer. Die betreffenden Wahrscheinlichkeiten z¨ahlen ebenfalls zu den statistischen Wahrscheinlichkeiten. Sie sind jedoch eher theoretischer Natur, da sie empirisch nicht direkt beobachtbar sind, sondern sich erst im Laufe weitergehender Berechnungen“ ergeben. H¨ aufig werden sie im Rahmen mehr oder weni” ger komplexer statistischer Modelle abgeleitet, die einem Zufallsvorgang unterstellt werden. Zu solchen modellgest¨ utzten Wahrscheinlichkeiten z¨ahlen insbesondere auch die in Abschnitt 1.2.2 skizzierten Irrtums- und Sicherheitswahrscheinlichkeiten, die in der induktiven Statistik eine herausragende Rolle einnehmen. • Frequentistischer Deutungsansatz • Die Verwendung empirischer oder theoretischer statistischer Wahrscheinlichkeiten st¨ utzt sich auf die Vorstellung, dass sich die postulierten Wahrscheinlichkeiten u ¨ber langfristige“ oder auf hohen Fallzahlen beruhen” de relative H¨aufigkeiten manifestieren. Voraussetzung daf¨ ur ist eine gewisse Stabilit¨at ¨außerer Rahmenbedingungen und die Wiederholbarkeit des Zufallsvorgangs. In dieser Hinsicht z¨ahlen eigentlich auch die klassischen Wahrscheinlichkeiten zu den theoretischen statistischen Wahrscheinlichkeiten. So ist es eben eine Menschheitserfahrung“, ” dass sich bei einer großen Anzahl von W¨ urfen eines W¨ urfels die Anteile der einzelnen Augenzahlen jeweils bei etwa 1/6 stabilisieren. W¨are dem nicht so, so w¨ urden wir auch nicht ohne weiteres die Wahrscheinlichkeit einer 6 mit 1/6 angeben. Im Rahmen der Wahrscheinlichkeitsrechnung wird diese Konvergenz“ relativer H¨aufigkeiten ” zu bestimmten erwarteten Werten, die dann als Wahrscheinlichkeiten gelten, durch das Gesetz der großen Zahlen beschrieben (Abschnitt 7.4.2). Der entsprechende Deutungsansatz wird manchmal auch als frequentistisch bezeichnet. • Subjektive vs. objektive Wahrscheinlichkeiten • Die siebte Aussage l¨asst reichlich Spielraum f¨ ur Spekulationen. Es k¨ onnte sein, dass 70% aller Patienten in der Vergangenheit einen bestimmten Krankheitszustand nicht u ¨berlebten. Genauso k¨onnte diese Aussage aber auch nur mehr oder weniger aus der Luft gegriffen sein. Dabei m¨ochte ein Arzt beispielsweise nur zum Ausdruck bringen, dass ein Patient eher stirbt als u ¨berlebt. In letzterem Fall spricht man dann auch von subjektiven Wahrscheinlichkeiten, da solche Wahrscheinlichkeiten personenabh¨angig variieren. Im Gegensatz dazu z¨ahlen klassische und statistische Wahrscheinlichkeiten zu den objektiven Wahrscheinlichkeiten, da bei diesen unterschiedliche Personen zu identischen Wahrscheinlichkeitsangaben gelangen. Die letzte Aussage enth¨alt ganz offensichtlich eine subjektive Wahrscheinlichkeit, wobei die 95%“ den Grad der Sicherheit einer Person u ¨ber die ” Richtigkeit eines bestimmten Sachverhaltes angibt. Die Verwendung subjektiver Wahrscheinlichkeiten mag insbesondere dann sinnvoll sein, wenn es um einmalige Vorg¨ ange geht oder um bereits fixierte Tatbest¨ande, die man nicht genau kennt. F¨ ur Fragen wie etwa Wie wahrscheinlich ist ein 3. Weltkrieg?“ ” oder Mit welcher Wahrscheinlichkeit wird in den n¨ achsten 20 Jahren ein bemannter ” Flug zum Mars stattfinden?“ kann es kaum eine empirische Fundierung und kaum ein operables statistisches Modell geben. Allerdings m¨ochten wir anmerken, dass sich die Sinnhaftigkeit solcher Wahrscheinlichkeiten aus frequentistischer Sicht durchaus erledigen kann. Stellen wir uns dazu vor, irgendein Experte“ gebe st¨andig irgendwelche ” 95%-Prognosen zu v¨ ollig unterschiedlichen Themen von sich. Sollte sich dann im Nachhinein herausstellen, dass in der Mehrheit dieser Prognosen immer etwas anderes als

208

6 Einf¨ uhrung in die Wahrscheinlichkeitsrechnung

die mit großer Sicherheit prophezeite Situation eingetreten ist, d¨ urfte man den Wahrscheinlichkeitsangaben dieser Person kaum mehr Beachtung schenken. Doch auch objektive Wahrscheinlichkeiten sind teils subjektiv, da sie stets auf Annahmen beruhen, f¨ ur die man sich nicht v¨ ollig objektiv entscheiden kann. Wenn wir beispielsweise die Wahrscheinlichkeit einer 6 beim W¨ urfeln mit 1/6 angeben, so mag dies unter der G¨ ultigkeit eines Laplace-Modells zwar korrekt sein, die Unterstellung dieses Modells an sich hat jedoch nichts mit Wahrscheinlichkeitsrechnung zu tun. Annahmen lassen sich nun einmal nicht mathematisch beweisen, sonst w¨aren es ja auch keine Annahmen. Entscheidend ist also auch, welche Annahmen wir (subjektiv) u ¨berhaupt gelten lassen. Abb. 6.1.1: Verwendung und Interpretation von Wahrscheinlichkeiten Wahrscheinlichkeiten objektive klassische (Laplace−Modell) Anteile an Anzahl gleich− wahrscheinlicher Möglichkeiten

subjektive statistische (empirisch | theoretisch) "

Langfristige" relative Häufigkeiten

Subjektive Einschätzungen über (Un−)Sicherheiten

?

• Klassische vs. statistische Wahrscheinlichkeiten • Klassische Wahrscheinlichkeiten sind anders zu bewerten als statistische, da auf sie in der Regel Verlass ist. Ansonsten g¨abe es kein Lotto, keine Spielautomaten und auch keine Spielcasinos. Auf statistische Wahrscheinlichkeiten ist hingegen nur bedingt Verlass. Wenn beispielsweise die Kreditausfallwahrscheinlichkeit in der Vergangenheit bei 1% lag, gibt es keinen nat¨ urlichen Grund daf¨ ur, dass dies auch noch f¨ ur die Zukunft gelten sollte. Zu viele usse k¨ onnten hier Ver¨ anderungen bewirken. Versucht Sie ein Berater einer ¨außere Einfl¨ Bank mit Angabe von Gewinnwahrscheinlichkeiten zum Kauf oder Verkauf von Aktien zu bewegen, so m¨ ussen Sie sich ebenfalls bewusst sein, dass es sich hierbei nicht um derart verl¨assliche“ Wahrscheinlichkeiten wie beim W¨ urfeln handelt. ” • Zielsetzung der Wahrscheinlichkeitsrechnung • In welcher Weise werden nun die eben vorgestellten interpretatorischen Ans¨ atze im Rahmen der Wahrscheinlichkeitsrechnung ber¨ ucksichtigt? Die Antwort lautet: Im Grunde gar nicht. Vereinfacht gesagt wird es in erster Linie nur darum gehen, wie mit Wahrscheinlichkeiten (richtig) gerechnet wird, und welche Erkenntnisse daraus gewonnen werden k¨onnen. Dennoch besitzt die Wahrscheinlichkeitsrechnung nat¨ urlich einen empirischen Bezug. So lassen sich viele als Zufallsvorg¨ ange wahrgenommene Ph¨ anomene in Natur, Umwelt und Gesellschaft mithilfe der Wahrscheinlichkeitsrechnung hinreichend gut beschreiben und erkl¨aren. Ziel wird es im Folgenden sein, die wichtigsten Rechenregeln, Begriffe und Rechengesetze der Wahrscheinlichkeitsrechnung zu vermitteln. Dazu werden wir auch die mathematische Definition von Wahrscheinlichkeiten kennenlernen. In Vorbereitung dazu ist es hilfreich, sich mit elementarer Mengenlehre zu befassen.

6.1 Wichtige Grundbegriffe und Regeln

209

6.1.2 Elementare Mengenlehre • Mengen und Elemente • Eine Menge ist eine Zusammenfassung unterscheidbarer Objekte zu einem Ganzen, wobei diese Objekte Elemente heißen. Notiert werden Mengen gew¨ohnlich u ¨ber geschweifte Klammern, innerhalb derer die Elemente durch Kommata getrennt aufgelistet werden. Formal werden Mengen h¨aufig mit lateinischen Großbuchstaben bezeichnet. Beispielsweise wird dann eine Menge Z, welche die Zahlen 2, 4 und 6 enth¨alt, notiert mit Z = {2, 4, 6} und eine Menge W mit verschiedenen Wetterverh¨altnissen z.B. mit W = {sonnig, teils bedeckt, bedeckt, regnerisch}. Die Elemente m¨ ussen zwingend unterscheidbar sein. Doppelungen wie etwa {2, 4, 2, 6} sind also nicht zul¨ assig. Ist ein Element x in einer Menge M enthalten, notiert man daf¨ ur x∈M

(lies: x Element von M ).

Ist ein Element x in einer Menge M nicht enthalten, notiert man dagegen x 6∈ M

(lies: x nicht Element von M ).

In den vorhergehenden Beispielen gilt etwa: 1 6∈ Z, 2 ∈ Z, 2 6∈ W und sonnig“ ∈ W . ” Eine Alternative zur vollst¨ andigen Auflistung aller Elemente ist eine mehr oder weniger formale inhaltliche Beschreibung der Menge. Eine solche ist insbesondere dann angezeigt, falls das Aufz¨ ahlen aller Elemente zu aufwendig oder nicht einmal m¨oglich ist. Anstelle von M10 = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10} k¨onnte man auch formal schreiben: M10 = {x : x ∈ N mit 1 ≤ x ≤ 10}. (Lies: M10 ist die Menge aller x, wobei x eine nat¨ urliche Zahl ist mit 1 ≤ x ≤ 10.) • Wichtige Standardmengen • Einige Zahlenmengen sind h¨aufig von besonderem Interesse und werden deshalb mit eigenen Standardsymbolen notiert. Dar¨ uber hinaus wird die Menge, die kein einziges Element enth¨alt, im Speziellen keine einzige Zahl, h¨aufig mit dem Symbol ∅“ notiert. Sie wird als leere Menge bezeichnet. ” Wichtige Standardmengen Menge der nat¨ urlichen Zahlen. N = {1, 2, 3, . . . } N0 = {0, 1, 2, 3, . . . } Menge der nat¨ urlichen Zahlen inklusive 0. Z = {0, ±1, ±2, ±3, . . . } Menge der ganzen Zahlen. Q Menge der rationalen Zahlen (siehe sp¨ater). R Menge der reellen Zahlen (siehe sp¨ater). ∅ Leere Menge.

• Teilmenge • Falls jedes Element einer Menge auch in einer anderen Menge enthalten ist, bezeichnen wir eine solche Menge als Teilmenge der anderen Menge. Beispielsweise sind unter den drei Mengen A = {2, 4, 6}, B = {1, 2, 3, 4} und C = {1, 2, 3, 4, 5, 6},

210

6 Einf¨ uhrung in die Wahrscheinlichkeitsrechnung

sowohl A als auch B Teilmengen von C. Dies wird in Zeichen ausgedr¨ uckt u ¨ber A ⊂ C (lies: A Teilmenge von C ) bzw. B ⊂ C. A ist aber beispielsweise keine Teilmenge von B. Daf¨ ur notiert man dann A 6⊂ B (lies: A nicht Teilmenge von B ). Wir werden in diesem Buch auch von Teilmengen sprechen, wenn zwei Mengen identisch sind. Beispielsweise gilt mit D = {2, 4, 6} sowohl A ⊂ D als auch D ⊂ A. Eine nicht unmittelbar einleuchtende Besonderheit ist die folgende (Definition): Die leere Menge ist Teilmenge jeder Menge. Hierbei handelt es sich um eine Konvention, die zun¨achst etwas seltsam wirkt, die sich jedoch als zweckm¨ aßig erweist und die Logik der Mengenlehre insgesamt erh¨alt. • Intervalle • Unter Intervallen verstehen wir in der Regel spezifische Teilmengen von R, die ein Kontinuum von Werten enthalten. So definieren die Mengen M1 = {x ∈ R : a < x < b} und M2 = {x ∈ R : a ≤ x ≤ b} das offene bzw. abgeschlosse¨ ne Intervall von a bis b. Ublicherweise notiert man (a, b), [a, b], (a, b] und [a, b) f¨ ur offene, abgeschlossene und halboffene Intervalle je nachdem, ob die Endwerte noch im Intervall enthalten sind oder nicht. Außerdem gilt: [a, ∞) = {x ∈ R : x ≥ a}, (a, ∞) = {x ∈ R : x > a}, (−∞, b] = {x ∈ R : x ≤ b} und (−∞, b) = {x ∈ R : x < b}. • Schnittmenge • Die Schnittmenge zweier Mengen ist die Menge aller Elemente, die sowohl in der einen als auch in der anderen Menge enthalten sind. Wird eine Schnittmenge S aus zwei bestehenden Mengen M1 und M2 gebildet, so notiert man diese Mengenoperation mit S = M1 ∩ M2

(lies: S gleich M1 geschnitten M2 ).

Formal gilt dann also S = {x : x ∈ M1 und x ∈ M2 }. urden Legt man beispielweise die vorhergehenden Mengen A, B und C zugrunde, so w¨ sich dabei folgende Schnittmengen ergeben: A ∩ B = {2, 4},

A ∩ C = {2, 4, 6},

B ∩ C = {1, 2, 3, 4}.

Werden mehrere Mengen M1 , M2 , . . . , Mn geschnitten, so ist die Schnittmenge die Menge aller Elemente, die in allen n Mengen enthalten sind. Die entsprechende Mengenoperation notiert man auch kurz mit n \ Mi f¨ ur M1 ∩ M2 ∩ · · · ∩ Mn . i=1

• Vereinigungsmenge • Die Vereinigungsmenge zweier Mengen ist die Menge aller Elemente, die entweder in der einen oder in der anderen Menge enthalten sind. Das oder“ ist hierbei als und/oder“ zu verstehen. Dies bedeutet, dass jedes Element der ” ”

6.1 Wichtige Grundbegriffe und Regeln

211

Vereinigungsmenge Element wenigstens einer der beiden Mengen ist. Wird eine Vereinigungsmenge V aus zwei bestehenden Mengen M1 und M2 gebildet, so notiert man diese Mengenoperation mit V = M1 ∪ M2

(lies: V gleich M1 vereinigt M2 ).

Formal gilt dann also S = {x : x ∈ M1 oder x ∈ M2 }. Mit den vorhergehenden Mengen A und B erh¨alt man beispielsweise A ∪ B = {1, 2, 3, 4, 6}. Es sei bemerkt, dass die 2“ und die 4“ jeweils nur einmal in der Vereinigungsmenge ” ” enthalten sind. Werden mehrere Mengen M1 , M2 , . . . , Mn vereinigt, so ist die Vereinigungsmenge die Menge aller Elemente, die in wenigstens einer der n Mengen enthalten sind. Die entsprechende Mengenoperation notiert man auch kurz mit n [ Mi f¨ ur M1 ∪ M2 ∪ · · · ∪ Mn . i=1

• Differenzmenge • Die Differenzmenge zweier Mengen ist die Menge aller Elemente, die nur in der einen, nicht aber in der anderen Menge enthalten sind (oder umgekehrt). Die korrespondierenden Mengenoperationen f¨ ur zwei gegebene Mengen M1 und M2 werden mit M1 \ M2 bzw. M2 \ M1 (lies: M1 ohne M2 bzw. M2 ohne M1 ) notiert. Formal gilt dann M1 \ M2 = {x : x ∈ M1 und x 6∈ M2 } bzw. M2 \ M1 = {x : x ∈ M2 und x 6∈ M1 }. Mit den vorhergehenden Mengen A, B und C erh¨alt man beispielsweise A \ B = {6}, B \ A = {1, 3} und A \ C = ∅. armenge • Ist M eine Teilmenge von M, so ist M \ M die Kom• Komplement¨ plement¨ armenge von M bezogen auf M. Eine Komplement¨armenge ist eine auf eine u ¨bergeordnete Menge, auch Grundmenge genannt, bezogene Differenzmenge. Notiert wird sie h¨aufig mit einem Querbalken wie etwa ¯ = M \ M (lies: M Komplement). M Die Vereinigung von Ursprungsmenge und Komplement¨armenge ergibt die Grundmenge, d.h. es gilt stets: ¯ = M. M ∪M F¨ ur die vorhergehenden Mengen A, B und C erh¨alt man unter Zugrundelegung der Grundmenge C beispielsweise ¯ = C \ B = {5, 6} und C¯ = C \ C = ∅. A¯ = C \ A = {1, 3, 5}, B

212

6 Einf¨ uhrung in die Wahrscheinlichkeitsrechnung

• Disjunkte Mengen • Sofern zwei Mengen M1 und M2 keine gemeinsamen Elemente besitzen, bezeichnet man diese als disjunkt. Es gilt dann also: M1 ∩ M2 = ∅. Beispielsweise ist eine Menge immer disjunkt zu ihrer Komplement¨armenge, d.h. ¯ = ∅. M ∩M • Venn-Diagramme • Mit den nach dem englischen Mathematiker John Venn (1834– 1923) benannten Venn-Diagrammen lassen sich Mengen und Mengenoperationen grafisch illustrieren. Insbesondere in der Wahrscheinlichkeitsrechnung erweisen sie sich h¨aufig als sehr n¨ utzlich. Abb. 6.1.2: Venn-Diagramme zur Illustration von Mengen und Mengenoperationen M 1 ⊂ M 2: Teilmenge

M 1 ∩ M 2: Schnittmenge zweier Mengen

M2

M1

M1

M2

M M 1 ∪ M 2: Vereinigungsmenge

M1

M M 1 ∩ M 2 ∩ M 3: Schnittmenge dreier Mengen M1

M2

M2 M3

M

M = M \ M : Komplementärmenge

M 1 \ M 2: Differenzmenge

M1

M

M

M2 M

M

M

• Elementare Regeln f¨ ur Mengenoperationen • Folgende Regeln, deren G¨ ultigkeit formal nicht bewiesen werden soll, lassen sich anhand von Venn-Diagrammen mit 2 oder 3 Mengen leicht nachvollziehen. Elementare Regeln f¨ ur Mengenoperationen Kommutativgesetze: M1 ∩ M2 = M2 ∩ M1 ,

M1 ∪ M2 = M2 ∪ M1 .

6.1 Wichtige Grundbegriffe und Regeln

213

Assoziativgesetze: (M1 ∩ M2 ) ∩ M3 = M1 ∩ (M2 ∩ M3 ), (M1 ∪ M2 ) ∪ M3 = M1 ∪ (M2 ∪ M3 ). Distributivgesetze: (M1 ∩ M2 ) ∪ M3 = (M1 ∪ M3 ) ∩ (M2 ∪ M3 ), (M1 ∪ M2 ) ∩ M3 = (M1 ∩ M3 ) ∪ (M2 ∩ M3 ).

• Potenzmenge • Die Potenzmenge einer Menge M ist die Menge aller Teilmengen von M und wird hier mit P(M ) notiert. Formal gilt: P(M ) = {M ∗ : M ∗ ⊂ M }. Lies: Die Potenzmenge von M ist die Menge aller Mengen M ∗ , die Teilmengen von M sind. Die Potenzmenge ist also eine Menge von (Teil-)Mengen. Da die leere Menge Teilmenge jeder Menge ist, w¨ are beispielsweise die Potenzmenge von Z = {2, 4, 6} die Menge P(Z) = {{2}, {4}, {6}, {2, 4}, {2, 6}, {4, 6}, {2, 4, 6}, ∅}. F¨ ur die Menge W = {sonnig, teils bedeckt, bedeckt, regnerisch} erhalten wir dagegen P(W)=

{{sonnig}, {teils bedeckt}, {bedeckt}, {regnerisch}, {sonnig, teils bedeckt}, {sonnig, bedeckt}, {sonnig, regnerisch}, {teils bedeckt, bedeckt}, {teils bedeckt, regnerisch}, {bedeckt, regnerisch}, {sonnig, teils bedeckt, bedeckt}, {teils bedeckt, bedeckt, regnerisch}, {sonnig, bedeckt, regnerisch}, {sonnig, teils bedeckt, regnerisch}, {sonnig, teils bedeckt, bedeckt, regnerisch}, ∅ }.

• Produktmenge • Die Produktmenge oder Kreuzmenge (auch kartesisches Produkt genannt) zweier Mengen M1 und M2 ist die Menge M , die aus allen geordneten Paarungen von Elementen besteht, die u ¨ber die beiden Mengen gebildet werden k¨onnen. Daf¨ ur schreibt man M = M1 × M2 . Die Elemente von M werden gew¨ ohnlich als 2-Tupel in der Form (x, y) notiert. Dabei gilt: M = {(x1 , x2 ) : x1 ∈ M1 und x2 ∈ M2 }. Geordnet“ bedeutet, dass (x1 , x2 ) 6= (x2 , x1 ) ist, sofern x1 6= x2 ist, d.h. A×B 6= B ×A, ” sofern A 6= B. So w¨ aren beispielsweise die aus A = {1, 2, 3} und B = {2, 3, 4} bildbaren Produktmengen: A × B = {(1, 2), (1, 3), (1, 4), (2, 2), (2, 3), (2, 4), (3, 2), (3, 3), (3, 4)} bzw. B × A = {(2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (3, 3), (4, 1), (4, 2), (4, 3)}. Allgemeiner ist die aus n ≥ 2 Mengen M1 , . . . , Mn gebildete Produktmenge die aus den n-Tupeln (x1 , x2 , . . . , xn ) bestehende Menge M = M1 × M2 × · · · × Mn

214

6 Einf¨ uhrung in die Wahrscheinlichkeitsrechnung = {(x1 , x2 , . . . , xn ) : x1 ∈ M1 und x2 ∈ M2 und . . . und xn ∈ Mn }.

Wichtige und f¨ ur dieses Lehrbuch besonders relevante Beispiele sind die aus der Menge der reellen Zahlen gebildeten Produktmengen R2 = R × R oder allgemeiner Rn = R × R × · · · × R, die das zweidimensionale bzw. n-dimensionale kartesische Koordinatensystem repr¨asentieren. Abb. 6.1.3: Produktmengen

• M¨ achtigkeit einer Menge • Die M¨ achtigkeit einer Menge M gibt an, wie viele Elemente in M enthalten sind. Von den vorhergehenden Mengen beispielsweise enth¨alt Z genau 3 Elemente und W genau 4 Elemente. Dies notiert man mit |Z| = 3 (Lies: M¨ achtigkeit von Z gleich 3 ) bzw. |W | = 4. Ist die M¨achtigkeit einer Menge M endlich, d.h. |M | < ∞, so gilt stets |P(M )| = 2|M | . Tats¨achlich stellen wir f¨ ur die beiden vorliegenden Mengen fest: |P(Z)| = 2|Z| = 23 = 8 bzw. |P(W )| = 2|W | = 24 = 16. • Vergleich der M¨ achtigkeit von Mengen • Die M¨achtigkeit einer endlichen Menge ergibt stets eine nat¨ urliche Zahl. Deshalb lassen sich endliche Mengen nach ihrer M¨achtigkeit sehr einfach ordnen. Dazu m¨ ussen lediglich nat¨ urliche Zahlen gr¨oßenm¨aßig miteinander verglichen werden. Wie gestaltet sich jedoch ein Vergleich bei nicht endlichen Mengen? Betrachten wir als Beispiel die Menge der nat¨ urlichen Zahlen N. Eine Frage, die man nun stellen k¨ onnte, w¨ are, ob diese Menge beispielsweise m¨achtiger sei als die Menge aren hier sicherlich geneigt, dies eindeutig der geraden Zahlen G = {2, 4, 6, . . . }. Viele w¨ zu bejahen, m¨oglicherweise sogar noch mit der Einsch¨atzung, dass N genau doppelt so m¨achtig sein sollte wie G. Jedoch erweist sich diese Einsch¨atzung mathematisch als nicht tragbar. Die Frage, wie sich die M¨ achtigkeit nicht endlicher Mengen sinnvoll vergleichen l¨asst, f¨ uhrt zu einem konzeptionell allgemeineren Ansatz. So gelten in der Mengenlehre zwei Mengen als gleich m¨ achtig , wenn eine Bijektion zwischen beiden Mengen existiert. Unter einer solchen versteht man eine Zuordnungsvorschrift (Abbildung, Funktion), mit der jedem Element der einen Menge genau ein Element der anderen Menge zugeordnet werden kann und umgekehrt. Abbildung 6.1.4 illustriert das Ganze zun¨achst anhand endlicher Mengen.

6.1 Wichtige Grundbegriffe und Regeln

215

Abb. 6.1.4: Bijektion zwischen endlichen Mengen

1 2 3

Der Vorteil dieser zun¨ achst recht umst¨ andlich wirkenden Definition besteht darin, dass sie sich auch auf Mengen mit unendlich vielen Elementen anwenden l¨asst. Abbildung 6.1.5 f¨ uhrt vor Augen, wie beispielsweise eine einfache Bijektion zwischen N und G ersichtlich wird, wenn beide Mengen lediglich g¨ unstig zueinander angeordnet werden. ¨ Ahnlich verh¨alt es sich mit N und der Menge der ganzen Zahlen Z. Auch in diesem Fall kann eine Bijektion recht einfach aufgestellt werden. Auf ¨ahnliche Weise, nur etwas komplizierter, l¨asst sich auch nachweisen, dass selbst die Menge der rationalen Zahlen Q die gleiche M¨ achtigkeit wie N aufweist (vgl. beispielsweise Davidson [2002, S. 9]). Zu den rationalen Zahlen z¨ ahlen all diejenigen Zahlen, welche sich aus Quotienten zweier ganzer Zahlen ergeben, wie z.B. 1/3, 2/3, 0.8 = 4/5, 0.9 = 9/10, 1/9, −7/6, 17/123, 2.34125, −11.32. So sehr es also auch unserer Intuition widerspricht, sind N, G, Z und Q allesamt gleich m¨achtig. Wir m¨ ussen uns damit von der Vorstellung l¨osen, dass eine (echte) Teilmenge weniger m¨achtig sein muss als ihre Grundmenge. Abb. 6.1.5: Bijektion zwischen abz¨ ahlbar unendlichen Mengen

: 1, 2, 3, 4, 5, 6, 7, ...

: 1, 2, 3, 4, 5, ...

G: 2, 4, 6, 8, 10, 12, 14, ...

: 0, +1, −1, +2, −2, ...

• Abz¨ ahlbare und u ahlbare Mengen • Jede Menge, welche die gleiche ¨ berabz¨ M¨ achtigkeit wie die Menge der nat¨ urlichen Zahlen aufweist, gilt als abz¨ ahlbar unendlich. Dies r¨ uhrt daher, dass mit den nat¨ urlichen Zahlen gew¨ohnlich bestimmte Dinge abgez¨ahlt werden. Endliche Mengen und abz¨ahlbar unendliche Mengen wie z.B. N, Z oder Q z¨ahlen allgemeiner dann zu den abz¨ ahlbaren Mengen. Bei weitem nicht jede beliebige reelle Zahl kann durch den Quotienten zweier ganzer Zahlen ausgedr¨ uckt werden. Derartige nicht rationale reelle Zahlen werden als irrational bezeichnet. Beispiele hierf¨ ur w¨ aren die Wurzel aus 2 (gerundet 1.4142) oder die Kreiszahl π (gerundet 3.1416). Im Gegensatz zur Menge der rationalen Zahlen ist die Menge der irrationalen Zahlen, also R \ Q, nicht abz¨ahlbar und damit nat¨ urlich auch nicht die Menge der reellen Zahlen. Nicht abz¨ahlbare Mengen werden auch als

216

6 Einf¨ uhrung in die Wahrscheinlichkeitsrechnung

u ahlbar bezeichnet. Hierzu z¨ ahlen beispielsweise die irrationalen Zahlen, die re¨berabz¨ ellen Zahlen und auch alle Teilmengen von R in Form von Intervallen [a, b) mit a, b ∈ R und a < b. Tabelle 6.1.1: M¨ achtigkeit von Mengen – Beispiele M¨ achtigkeit endlich abz¨ahlbar unendlich u ahlbar ¨berabz¨

Beispiele {1, 2, 3, 4}, {sonnig, bew¨olkt, regnerisch}, ... N, Z, Q, ... R, R \ Q, [0, 1), [2, 4.6), ...

6.1.3 Axiomatischer Wahrscheinlichkeitsbegriff und Regeln • Ergebnisr¨ aume und Ereignisse • Mithilfe der Mengenlehre sind wir nun in der Lage, den Wahrscheinlichkeitsbegriff auf mathematische Weise zu definieren. Der entscheidende Punkt besteht darin, dass die in Verbindung mit einem Zufallsvorgang auftretenden Ereignisse als Mengen aufgefasst werden. Der Ergebnisraum ist die Menge aller m¨ oglichen Ergebnisse eines Zufallsvorgangs und wird u ¨blicherweise mit Ω (lies: Omega) bezeichnet. Besteht Ω aus endlich oder abz¨ahlbar unendlich vielen Elementen, so sprechen wir von einem diskreten Ergebnisraum, sonst von einem u ahlbaren Ergebnisraum. ¨ berabz¨ Teilmengen von Ω, denen Wahrscheinlichkeiten in wohldefinierter Weise zugeordnet werden k¨onnen, heißen Zufallsereignisse oder kurz Ereignisse. Die Elemente von Ω heißen Elementarereignisse. Der Ergebnisraum Ω selbst wird als sicheres ¯ = ∅ als unm¨ Ereignis und das zugeh¨ orige Komplement Ω ogliches Ereignis bezeichnet. Sind A und B sich gegenseitig ausschließende Ereignisse, d.h. gilt A ∩ B = ∅, so spricht man von disjunkten Ereignissen. Die Definition f¨ ur Ereignisse ist hier etwas vage. Offensichtlich ist jedes Ereignis eine Teilmenge von Ω, aber nicht jede Teilmenge von Ω zwingend ein Ereignis. Wie sich nachfolgend noch zeigt, ist dieser Punkt besonders f¨ ur u ¨berabz¨ahlbare Ergebnisr¨aume von Wichtigkeit. • Beispiele • • W¨ urfelwurf: Beim W¨ urfelwurf ist der Ergebnisraum gegeben durch Ω = {1, 2, 3, 4, 5, 6}. Neben den Elementarereignissen ω1 = 1 , ω2 = 2, ω3 = 3, ω4 = 4, ω5 = 5 und ω6 = 6 sind weitere m¨ogliche Ereignisse beispielsweise G = {2, 4, 6} und U = {1, 3, 5}. Dabei steht das Ereignis G f¨ ur das Eintreten einer geraden Zahl und U f¨ ur das Eintreten einer ungeraden Zahl. Da diese beiden Ereignisse nicht gleichzeitig eintreten k¨onnen, sind sie disjunkt. • Wetter am n¨achsten Tag: Der Ergebnisraum f¨ ur das Wetter eines nachfolgenden Tages k¨onnte beispielsweise so aussehen: Ω = {sonnig, teils bedeckt, bedeckt, regnerisch}. Das Ereignis S = {sonnig, teils bedeckt} steht f¨ ur zumindest teilweise sonniges Wetter.

6.1 Wichtige Grundbegriffe und Regeln

217

• Zweimaliger M¨ unzwurf: Beim zweimaligen Werfen einer M¨ unze l¨asst sich der zugeh¨orige Ergebnisraum definieren als Ω = {(Zahl, Zahl), (Zahl, Wappen), (Wappen, Zahl), (Wappen, Wappen)}. Das Ereignis Z1 = {(Zahl, Wappen), (Wappen, Zahl), (Zahl, Zahl)} ließe sich dadurch beschreiben, dass mindestens einmal Zahl“ geworfen wird. ” • W¨ urfeln bis zu ersten Sechs: Einen abz¨ ahlbar unendlichen Ergebnisraum erh¨alt man f¨ ur das Zufallsexperiment W¨ urfeln bis zur ersten Sechs“. Es wird also solange gew¨ urfelt ” bis zum ersten Mal eine Sechs f¨ allt. Dann lautet die Menge der m¨oglichen Ergebnisse Ω = {1, 2, 3, ...} = N. Aus theoretischer Sicht gibt es keinen Grund bei einer bestimmten nat¨ urlichen Zahl abzubrechen. Das Ereignis W11 = {11, 12, 13, 14, ...} steht daf¨ ur, dass mindestens 11 W¨ urfe bis zur ersten Sechs ben¨ otigt werden. • Lebensdauer einer Computer-Festplatte: Die Lebensdauer einer Computer-Festplatte in Stunden ließe sich u ¨ber den Ergebnisraum Ω = [0, ∞) festhalten. Dies w¨are die Menge aller positiven reellen Zahlen, eine u ahlbare Teilmenge der reellen Zahlen, und ¨berabz¨ folglich ein u ahlbarer Ergebnisraum. Das Ereignis L1 = [10 000, ∞) beispielsweise ¨berabz¨ entspr¨ache einer Lebensdauer von mindestens 10 Tausend Stunden und das Ereignis L2 = [10 000, 20 000] einer Lebensdauer zwischen 10 und 20 Tausend Stunden. • Wahrscheinlichkeiten und Ereignisse diskreter Ergebnisr¨ aume • Zur mathematischen Definition von Wahrscheinlichkeiten beschr¨anken wir uns zun¨achst auf diskrete Ergebnisr¨ aume. Grunds¨ atzlich ist es hier mathematisch stets m¨oglich, allen Teilmengen des Ergebnisraumes Wahrscheinlichkeiten zuzuordnen. Dies erfolgt durch eine Funktion, die bestimmten Mindestanforderungen gen¨ ugen muss. Diese lassen sich in 3 Axiomen fassen. Definition 6.1.1: Diskretes Wahrscheinlichkeitsmaß Ordnet eine Funktion P den Teilmengen eines diskreten Ergebnisraumes Ω Zahlen unter Einhaltung folgender Regeln zu: (K1) P (A) ≥ 0 f¨ ur A ⊂ Ω, (K2) P (Ω) = 1, (K3) falls A1 , A2 , A3 , · · · ⊂ Ω paarweise disjunkt sind, d.h. Ai ∩ Aj = ∅ f¨ ur i 6= j und i, j = 1, 2, 3, . . . , dann gilt ∞ ∞ [  X P Ai = P (Ai ), i=1

i=1

so nennt man P ein diskretes Wahrscheinlichkeitsmaß auf der Potenzmenge von Ω und die Funktionswerte von P heißen Wahrscheinlichkeiten. • Allgemeine Anmerkungen zur Axiomatik • Die vorliegende Definition gilt zun¨achst einmal nur f¨ ur diskrete Ergebnisr¨ aume und nicht f¨ ur u ¨berabz¨ahlbare Ergebnisr¨aume. Bei der Lebensdauer einer Computer-Festplatte mit dem Ergebnisraum

218

6 Einf¨ uhrung in die Wahrscheinlichkeitsrechnung

Ω = [0, ∞), k¨onnte die vorliegende Definition also beispielsweise nicht verwendet werden. Das Zufallsexperiment W¨ urfeln bis zur ersten Sechs“ stellt dagegen kein Problem ” dar. Tats¨achlich erzeugen u ahlbare Ergebnisr¨aume ein erhebliches mathemati¨berabz¨ sches Problem bei der Definition von Wahrscheinlichkeiten, was an sp¨aterer Stelle noch etwas n¨aher ausgef¨ uhrt wird. Dies ist auch der Grund daf¨ ur, dass wir auf eine etwas umst¨andlich erscheinende Definition treffen. Wahrscheinlichkeiten werden als Funktionswerte einer Funktion, die mit P“ be” zeichnet wird, aufgefasst. Der Buchstabe P“ wird durch das englische Wort Probabili” ” ty“ f¨ ur Wahrscheinlichkeit motiviert. Diese Funktion P erf¨ ullt dabei die drei Eigenschaften (K1)–(K3), die weitgehend den von Kolmogoroff [1933] aufgestellten Axiomen (der Kolmogoroff ’schen Axiomatik ) entsprechen. Alle Rechenregeln der Wahrscheinlichkeitsrechnung lassen sich letztlich auf diese 3 Axiome zur¨ uckf¨ uhren. Somit liegt die eigentliche Kunst dieser Definition darin, dass sie kurz und dennoch pr¨azise genug ist, um damit arbeiten zu k¨ onnen. Man beachte, dass aus der Definition nicht hervorgeht, wie Wahrscheinlichkeiten konkret berechnet werden. Wir k¨ onnen daraus beispielsweise nicht schlussfolgern, dass die Wahrscheinlichkeit einer Sechs beim W¨ urfeln mit 1/6 anzugeben ist. Ebenso taucht auch nicht das Wort Zufall“ auf, und es wird nicht gekl¨art, wie Wahrscheinlichkeiten ” zu interpretieren sind. Ausschlaggebend ist allein die Einhaltung bestimmter Regeln, sobald Ereignissen Wahrscheinlichkeiten zugeordnet werden. • Wahrscheinlichkeiten als Funktionswerte • Jede Funktion besitzt bekanntlich einen Definitionsbereich und einen Wertebereich. Der Definitionsbereich ist dabei die Menge aller Werte“, welche in die Funktion als Argumente eingehen. Der Wertebe” reich ist die Menge aller Werte“, welche die Funktion ausgeben kann. Beispielsweise ” sind Definitions- und Wertebereich der Funktion f (t) = t2 gegeben durch R bzw. [0, ∞). Definitions- und Wertebereich von g(t) = 1/t sind dagegen jeweils (−∞, 0) ∪ (0, ∞). An der Stelle 0 ist g ja bekanntlich nicht definiert. Man mag es gewohnt sein, dass Definitions- und Wertebereiche von Funktionen gew¨ohnlich Zahlenmengen und Teilmengen von solchen sind. In der Mathematik versteht man unter einer Funktion (Abbildung ) allgemein jedoch nur eine wohldefinierte ” Vorschrift“, unter der Elemente einer Ausgangsmenge (Definitionsbereich) auf Elemente einer Zielmenge (Wertebereich) abgebildet werden. So werden nun im Falle eines diskreten Wahrscheinlichkeitsmaßes P den Teilmengen eines Ergebnisraumes, d.h. den Elementen der zugeh¨ origen Potenzmenge, Zahlen zugeordnet, welche als Wahrscheinlichkeiten bezeichnet werden. Angenommen, in einer Urne liegen 3 gleichartige Kugeln mit den Zahlen 2, 4 und 6 beschriftet. Zuf¨ allig wird eine Kugel gezogen. Dann ist der Ergebnisraum gegeben durch Ω = {2, 4, 6}. Die Potenzmenge lautet dann P(Ω) = {{2}, {4}, {6}, {2, 4}, {2, 6}, {4, 6}, {2, 4, 6}, ∅}. Aus wahrscheinlichkeitstheoretischer Sicht ist dies nun der Definitionsbereich von P . Die Argumente, welche in P eingesetzt werden, sind also Mengen. Man spricht deshalb auch von einer Mengenfunktion. Was genau w¨are dann der Wertebereich von P ? Tats¨ achlich ist er eine Teilmenge des Intervalls [0, 1], da Wahrscheinlichkeiten immer durch Zahlen zwischen 0 und 1 ausgedr¨ uckt werden. Allerdings ist diese Eigenschaft offensichtlich nicht direkt in der Definition enthalten. Sie kann jedoch, wie gleich gezeigt werden wird, aus den Axiomen hergeleitet werden.

6.1 Wichtige Grundbegriffe und Regeln

219

Mathematisch sind Wahrscheinlichkeiten Funktionswerte einer Funktion P , die den Teilmengen einer Grundmenge Ω unter Einhaltung der Regeln (K1)–(K3) Zahlen zwischen 0 und 1 zuordnet. Dabei wird P als Wahrscheinlichkeitsmaß und Ω als Ergebnisraum bezeichnet. Im Falle diskreter Ergebnisr¨aume l¨asst sich dies auch formal ausdr¨ ucken als P : P(Ω) → [0, 1] ⊂ R. • Die Bedeutung der Axiome im Einzelnen • Die Forderung des ersten Axioms (K1) erscheint trivial. Wahrscheinlichkeiten sollen stets nichtnegativ sein. Axiom (K2) legt die Wahrscheinlichkeit des sicheren Ereignisses auf den Wert 1 fest. Mit diesem Normierungsaxiom wird der Wertebereich von P generell auf das Intervall [0, 1] festgelegt. Axiom (K3) beinhaltet schließlich die einzige Rechenvorschrift. Es besagt, dass sich die Wahrscheinlichkeit einer abz¨ ahlbar unendlichen Vereinigung paarweise disjunkter Ereignisse aus der Summe der jeweiligen einzelnen Wahrscheinlichkeiten der Ereignisse ergibt. Betrachten wir f¨ ur letzteren Fall beispielsweise das Zufallsexperiment W¨ urfeln ” bis zur ersten Sechs“. Der Ergebnisraum f¨ ur dieses Experiment ist gegeben durch ur das Ereignis, dass eiΩ = {1, 2, 3, ...} = N. Angenommen, man interessiere sich f¨ ne ungerade Anzahl von W¨ urfen ben¨ otigt wird, also f¨ ur U = {1, 3, 5, . . . }. Die Menge der ungeraden Zahlen l¨ asst sich nun auffassen als abz¨ahlbar unendliche Vereinigung aller ungeraden Zahlen, sprich U = {1, 3, 5, . . . } = {1} ∪ {3} ∪ {5} ∪ . . . . Da die Ereignisse {2i + 1} paarweise disjunkt sind, muss nun gem¨aß (K3) gelten: ∞ X P (U ) = P ({2i + 1}). i=0

Wie steht es dann um die Vereinigung endlich vieler Mengen? Gilt dann beispielweise achlich l¨asst sich aus Axiom (K3) eine entspreauch P ({1, 3}) = P ({1}) + P ({3})? Tats¨ chende Eigenschaft f¨ ur endliche Vereinigungen recht einfach ableiten, wie nachfolgend noch demonstriert werden wird. • Schlussfolgerungen aus den Axiomen • Aus den drei Axiomen ergeben sich alle weiteren Rechenregeln f¨ ur Wahrscheinlichkeiten. Einige davon folgen relativ direkt und lassen sich einfach nachvollziehen (vgl. Fahrmeir [2010, S. 184]). Elementare Regeln f¨ ur Wahrscheinlichkeiten Seien Ω ein Ergebnisraum und A, B, A1 , A2 , . . . , An beliebige Ereignisse. Dann gelten: 1. 0 ≤ P (A) ≤ 1. 2. P (∅) = 0. 3. Wenn A ⊂ B, dann ist P (A) ≤ P (B). ¯ = 1 − P (A). 4. P (A)

220

6 Einf¨ uhrung in die Wahrscheinlichkeitsrechnung

5. Wenn A1 , A2 . . . , An paarweise disjunkt sind, d.h. Ai ∩ Aj = ∅ f¨ ur i 6= j und i, j = 1, 2, . . . , n, dann ist n n [  X P Ai = P (Ai ). i=1

i=1

6. P (A ∪ B) = P (A) + P (B) − P (A ∩ B). 7. P (A ∪ B) = P (A) + P (B), wenn A ∩ B = ∅ ist.

Zum Nachvollziehen der ersten 5 Regeln, erweist es sich als g¨ unstig, eine etwas andere Reihenfolge zu w¨ ahlen und mit Regel Nr. 2 zu beginnen. Regel Nr. 2: Die Wahrscheinlichkeit des unm¨ oglichen Ereignisses ist gleich 0. Wir definieren Ai = ∅ f¨ ur i = 1, 2, 3, . . . ahlbar unendlich viele Ereignisse Ai ⊂ Ω, die paarweise disjunkt und erhalten damit abz¨ sind, da ∅ ∩ ∅ = ∅. Damit l¨ asst sich das unm¨ ogliche Ereignis als abz¨ahlbare Vereinigung unm¨oglicher Ereignisse auffassen: ∅ = A1 ∪ A2 ∪ A3 ∪ . . . Mit Axiom (K3) folgt dann ∞ ∞ ∞ ∞ [  X X X P (∅) = P Ai = P (Ai ) = P (∅), d.h. P (∅) = P (∅). i=1

i=1

i=1

i=1

Gleichheit kann hier jedoch nur gelten, falls P (∅) = 0. W¨are die Wahrscheinlichkeit des unm¨oglichen Ereignisses n¨ amlich positiv, so w¨are die rechte Seite auf jeden Fall gr¨oßer als die linke Seite. Regel Nr. 5 und Nr. 7: Regel Nr.5 entspricht Axiom (K3) f¨ ur den Fall einer endlichen Vereinigung. Wir definieren Ai = ∅, f¨ ur i > n, und erhalten mit A1 ∪ A2 ∪ · · · ∪ An = A1 ∪ A2 ∪ · · · ∪ An ∪ An+1 ∪ An+2 ∪ . . . auf der rechten Seite der Gleichung eine abz¨ahlbare Vereinigung disjunkter Ereignisse. Der endlichen Vereinigung von n Ereignissen auf der linken Seite wurden sozusagen unendlich viele unm¨ ogliche Ereignisse hinzuzuf¨ ugt. Mit diesem Trick entspricht die Vereinigung auf der rechten Seite weiterhin der linken Seite. Damit folgt n ∞ ∞ [  [  X P Ai = P Ai = P (Ai ), i=1

i=1

i=1

wobei sich die letzte Gleichung aus Axiom (K3) ergibt. Mit Regel Nr. 2 folgt dann aber P (Ai ) = P (∅) = 0 f¨ ur i > n,

6.1 Wichtige Grundbegriffe und Regeln

221

und damit schließlich Regel Nr. 5: n n [  X P Ai = P (Ai ). i=1

i=1

Regel Nr. 7 folgt aus Regel Nr. 5, wenn man n = 2, A1 = A und A2 = B w¨ahlt. Regel Nr. 1 und Nr. 4: Wahrscheinlichkeiten liegen stets im Intervall [0, 1]. Da Ereignis und Gegenereignis stets disjunkt sind, folgt unmittelbar aus Axiom 2 und der eben nachgewiesenen Regel Nr. 5 ¯ ¯ = P (A) + P (A). 1 = P (Ω) = P (A ∪ A) Wegen Axiom (K1) m¨ ussen beide Summanden auf der rechten Seite nichtnegativ sein. Folglich sind beide Summanden kleiner gleich 1, da die Gleichung ansonsten nicht erf¨ ullt sein kann. Durch Umstellen der obigen Gleichung erh¨alt man Regel Nr. 4. Regel Nr. 3: Anhand eines Venn-Diagramms l¨ asst sich einfach klarmachen, dass f¨ ur A ⊂ B gilt: B = (B \ A) ∪ A. Damit l¨asst sich B als endliche Vereinigung zweier disjunkter Ereignisse B \ A und A darstellen. Mit Regel Nr. 5 folgt deshalb P (B) = P (B \ A) + P (A). Da aufgrund von Axiom 1 alle Wahrscheinlichkeiten dieser Gleichung nichtnegativ sein m¨ ussen, folgt unmittelbar P (B) ≥ P (A). Regel Nr. 6: Wie aus Abbildung 6.1.6 hervorgeht sind A \ B, A ∩ B und B \ A disjunkte Ereignisse, deren Vereinigung A∪B ergibt. Entsprechend folgt f¨ ur diese Ereignisse mit Rechenregel Nr. 5 (i) P (A) = P (A \ B) + P (A ∩ B). (ii) P (B) = P (B \ A) + P (A ∩ B). (iii) P (A ∪ B) = P (A \ B) + P (A ∩ B) + P (B \ A). Durch Umstellen von (i) und (ii) erh¨ alt man P (A \ B) = P (A) − P (A ∩ B) und P (B \ A) = P (B) − P (A ∩ B). Eingesetzt in (iii) ergibt dies den Additionssatz f¨ ur zwei Ereignisse bzw. die Regel Nr. 6: P (A ∪ B) = [P (A) − P (A ∩ B)] + P (A ∩ B) + [P (B) − P (A ∩ B)] = P (A) + P (B) − P (A ∩ B). Sofern man sich Wahrscheinlichkeiten als Fl¨ achen der in einem Venn-Diagramm illustrierten Mengen vorstellt (Abb. 6.1.7), erh¨ alt der Additionssatz eine einfache Logik. Werden die Fl¨achen von A und B addiert, so ergibt sich, dass die Schnittfl¨ache doppelt gez¨ahlt wird. Dieses Fl¨ achenst¨ uck muss deshalb einmal abgezogen werden, um die Fl¨ache der Vereinigung zu erhalten.

222

6 Einf¨ uhrung in die Wahrscheinlichkeitsrechnung Abb. 6.1.6: Illustration zum axiomatischen Nachweis des Additionssatzes A ∪B A

A \B

A ∩B

B \A

B Ω

Abb. 6.1.7: Geometrischer Nachweis“ des Additionssatzes f¨ ur zwei Ereignisse ” P (A ∪ B ) = P (A ) − P (A ∩ B ) + P (B )

A

1

2

1

B Ω

• Beispiel 6.1.1: W¨ urfelwurf • Der Ergebnisraum beim einmaligen W¨ urfelwurf lautet Ω = {1, 2, 3, 4, 5, 6}. Dann k¨onnen beispielsweise die Ereignisse Eine gerade Zahl wird geworfen“ und Eine ” ” Sechs wird gew¨ urfelt“ u uckt werden. ¨ber die Mengen A = {2, 4, 6} bzw. D = {6} ausgedr¨ Regel Nr. 3 besagt nun, dass die Wahrscheinlichkeit von A nicht kleiner sein darf als die Wahrscheinlichkeit von D. So trivial dies im vorliegenden Beispiel zun¨achst erscheinen mag, sollte hierzu gesagt werden, dass aus der Axiomatik und allen sich daraus ergebenden Regeln nicht abgeleitet werden kann, dass A beispielsweise die Wahrscheinlichkeit ¨ 1/2 und D die Wahrscheinlichkeit 1/6 erh¨ alt. Ahnliches gilt f¨ ur Regel Nr. 4, also f¨ ur die Berechnung der Wahrscheinlichkeit des Gegenereignisses. Beispielsweise w¨are das Gegenereignis von Gerade Zahl“ das Ereignis Ungerade Zahl“. Welche Wahrschein” ” lichkeit wir nun auch immer einem der beiden Ereignisse zuordnen, so besagt die Regel lediglich, dass sich beide Wahrscheinlichkeiten zu 1 aufaddieren m¨ ussen. • Beispiel 6.1.2: Additionssatz f¨ ur drei Ereignisse • Der Additionssatz f¨ ur drei Ereignisse bzw. die zu Regel Nr. 6 entsprechende Erweiterung auf drei Ereignisse, l¨asst sich mithilfe eines Venn-Diagramms relativ einfach nachvollziehen (Abb. 6.1.8). Im Rahmen der Fl¨acheninterpretation“ werden zun¨ achst alle Mengenfl¨achen addiert. Danach ” werden alle doppelt verrechneten Fl¨ achen 1 Mal subtrahiert. Dabei wird die dreifache Schnittfl¨ache jedoch 1 Mal zu oft subtrahiert, sodass die Fl¨ache des dreifachen Schnittes wieder 1 Mal hinzuaddiert werden muss, um die Gesamtfl¨ache der Vereinigung zu erhalten. Insgesamt erh¨ alt man also: P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (B ∩ C) − P (A ∩ C) + P (A ∩ B ∩ C).

6.1 Wichtige Grundbegriffe und Regeln

223

Abb. 6.1.8: Geometrischer Nachweis“ des Additionssatzes f¨ ur drei Ereignisse ” A

1

2

2 3 1

2

1

B

C



• Additionskalk¨ ul f¨ ur diskrete Ergebnisr¨ aume • W¨ahrend die Axiomatik lediglich die Eigenschaften eines Wahrscheinlichkeitsmaßes beschreibt, geht aus dem nachfolgenden Resultat hervor, wie sich im Falle diskreter Ergebnisr¨aume konkrete Ereigniswahrscheinlichkeiten berechnen lassen. Satz 6.1.1: Additionskalk¨ ul f¨ ur diskrete Ergebnisr¨ aume Sei Ω ein diskreter Ergebnisraum mit endlich oder abz¨ahlbar unendlich vielen Elementarereignissen ω1 , ω2 , . . . , ωk bzw. ω1 , ω2 , ω3 , . . . Sei A ⊂ Ω ein beliebiges Ereignis. Weiter gelte: ur alle i. (i) P ({ωi }) ≥ 0 f¨ P (ii) i P ({ωi }) = 1. (iii) P (A) = P ({ωi : ωi ∈ A}) =

P

ωi ∈A

P ({ωi }).

Dann ist P ein diskretes Wahrscheinlichkeitsmaß auf P(Ω). Unter Kenntnis der Wahrscheinlichkeiten der Elementarereignisse, P ({ωi }), l¨asst sich im Falle eines diskreten Ergebnisraumes die Wahrscheinlichkeit f¨ ur jedes beliebige Ereignis bestimmen, indem die Wahrscheinlichkeiten der zu diesem Ereignis geh¨orenden Elementarereignisse addiert werden. Das einzige Erfordernis w¨are, dass alle Elementarereignisse nichtnegative Wahrscheinlichkeiten besitzen, die in der Summe 1 ergeben. Dass eine auf einem solchen Additionskalk¨ ul basierende Funktion P den Axiomen (K1)–(K3) gen¨ ugt, ist leicht ersichtlich. Ein wichtiger Spezialfall liegt vor, wenn 1. der Ergebnisraum Ω endlich ist und 2. alle Elementarereignisse gleichwahrscheinlich sind, d.h. P ({ωi }) = 1/|Ω| f¨ ur alle ωi ∈ Ω. Dann spricht man von einem Laplace-Modell und (iii) liefert die Formel der klassischen Wahrscheinlichkeit: |A| P (A) = f¨ ur A ⊂ Ω. (6.1.1) |Ω|

224

6 Einf¨ uhrung in die Wahrscheinlichkeitsrechnung

• Beispiel 6.1.1 fortgesetzt • Betrachten wir als Beispiel nochmals den einmaligen W¨ urfelwurf mit den Ereignissen A = {2, 4, 6}, B = {2, 3, 6}, C = {1, 2, 3, 4} und D = {6}. Angenommen, wir unterstellen ein Laplace-Modell und weisen jedem Elementarereignis die Wahrscheinlichkeit 1/6 zu. Dann ergeben sich f¨ ur A, B, C und D nach (6.1.1) die Wahrscheinlichkeiten |A| |B| P (A) = P (B) = = 3/6 = 1/2, = 3/6 = 1/2, |Ω| |Ω| |C| |D| P (C) = = 4/6 = 2/3 und P (D) = = 1/6. |Ω| |Ω| Weiter erh¨alt man die zusammengesetzten“ Ereignisse Eine gerade Zahl oder eine ” ” Zahl kleiner als F¨ unf“ bzw. Eine gerade Zahl und eine Zahl kleiner als F¨ unf“ durch ” die Anwendung der Mengenoperationen Vereinigung bzw. Durchschnitt aus A und C: A ∪ C = {1, 2, 3, 4, 6} bzw. A ∩ C = {2, 4}. Die zugeh¨origen Wahrscheinlichkeiten w¨ aren dann entsprechend P (A ∪ C) = 5/6 bzw. P (A ∩ C) = 2/6 = 1/3. Wie man nun erkennen kann, ist beispielsweise die in Regel Nr. 6 postulierte Eigenschaft erf¨ ullt. So gilt tats¨ achlich P (A) + P (C) − P (A ∩ C) = 3/6 + 4/6 − 2/6 = 5/6 = P (A ∪ C). • Das Problem u ahlbarer Ergebnisr¨ aume • Wie lassen sich in u ¨berabz¨ahl¨ berabz¨ baren Ergebnisr¨ aumen Wahrscheinlichkeiten sinnvoll definieren und zuordnen? Wie bereits erw¨ahnt, stellt dies ein gr¨ oßeres mathematisches Problem dar. Beispielsweise funktioniert der oben beschriebene Additionskalk¨ ul zur Bestimmung von Ereigniswahrscheinlichkeiten in dieser Weise nicht mehr. Eine (nichttriviale) Konsequenz davon ist, dass als Definitionsbereich eines Wahrscheinlichkeitsmaßes in der Regel eine deutlich ” kleinere“ Teilmenge der Potenzmenge gew¨ ahlt werden muss. Stellen wir uns dazu folgendes Idealexperiment“ vor (Fahrmeir [2010, S. 217]: Ein ” Computer erzeuge Zufallszahlen aus dem Intervall [0, 1]. Dabei kann zuf¨allig“ jede be” liebige reelle Zahl aus diesem Intervall gezogen werden. Der Ergebnisraum w¨are damit also u ¨berabz¨ahlbar. Wir sprechen hier von einem Idealexperiment, da wir in der Praxis zun¨achst einmal keine echten Zufallszahlen“ erzeugen k¨onnen. Unter vollst¨andiger ” Kenntnis des physikalischen Zustands des Rechners und des verwendeten Algorithmus zur Erzeugung der Zufallszahl, k¨ onnte jede Zufallszahl prognostiziert werden. Zum anderen, und das ist jetzt der wichtigere Punkt, kann jeder Rechner nur mit einer endlichen Anzahl von Nachkommastellen rechnen. Irgendwann wird jede Zahl, die gerade im Computer verrechnet wird, an einer bestimmten Nachkommastelle abgebrochen. Faktisch liegt also immer nur ein diskreter Ergebnisraum vor, ja sogar nur ein endlicher. Es ist praktisch also nicht m¨ oglich, Zufallszahlen aus abz¨ahlbaren, geschweige denn u ¨berabz¨ahlbaren Mengen zu ziehen. Deshalb nehmen wir an dieser Stelle lediglich an, es g¨abe einen solchen Computer. Nun kommt das eigentlich mathematische Problem: Es ist mathematisch gesehen nicht m¨ oglich, jedem Elementarereignis eines u ¨berabz¨ahlbaren Ergebnisraumes, in diesem Fall jeder reellen Zahl aus [0, 1], eine positive Wahr-

6.1 Wichtige Grundbegriffe und Regeln

225

scheinlichkeit zuzuordnen, ohne die Axiomatik letztlich zu verletzen. Denn h¨atte jedes Elementarereignis eine positive Wahrscheinlichkeit, w¨ urde das zu einem Widerspruch zu Axiom (K2) bzw. (K3) f¨ uhren. Die Summe u ¨berabz¨ahlbar vieler positiver Zahlen kann nicht endlich sein. Mathematisch funktioniert das nicht. Deshalb scheidet auch ein derartiger Additionskalk¨ ul wie bei diskreten Ergebnisr¨aumen aus. • Integrationskalk¨ ul f¨ ur u ahlbare Ergebnisr¨ aume • Der f¨ ur diskrete Er¨ berabz¨ gebnisr¨aume operable Additionskalk¨ ul kann wie oben ausgef¨ uhrt f¨ ur u ¨berabz¨ahlbare Ergebnisr¨aume in der Regel nicht mehr verwendet werden. Dieser wird dann durch ein Integrationskalk¨ ul ersetzt, bei dem anstelle von Summen aus Wahrscheinlichkeiten Fl¨achen von Wahrscheinlichkeitsdichtefunktionen zur Bestimmung von Ereigniswahrscheinlichkeiten verwendet werden. Letztlich f¨ uhrt dies auch dazu, dass in der Regel nicht mehr allen Teilmengen von Ω Wahrscheinlichkeiten zugeordnet werden k¨onnen. In dieser Hinsicht entsteht ein Messbarkeitsproblem. N¨ahere Ausf¨ uhrungen hierzu finden sich sp¨ater bei der Behandlung stetiger Zufallsvariablen (Abschnitt 7.1.1). Additionskalk¨ ul vs. Integrationskalk¨ ul und Rechenregeln Im Rahmen diskreter Ergebnisr¨ aume lassen sich Ereigniswahrscheinlichkeiten u ¨ber einen Additionskalk¨ ul bestimmen, innerhalb dessen anteilige Summen von Einzelwahrscheinlichkeiten bestimmt werden. F¨ ur u ¨berabz¨ahlbare Ergebnisr¨aume wird dagegen ein Integrationskalk¨ ul verwendet, innerhalb dessen anteilige Fl¨achen von Wahrscheinlichkeitsdichten zur Bestimmung von Ereigniswahrscheinlichkeiten bestimmt werden. Alle bisherigen und zuk¨ unftigen Rechenregeln f¨ ur Wahrscheinlichkeiten gelten unabh¨angig von der Beschaffenheit des Ergebnisraumes, sofern keine Einschr¨ankungen vorgenommen werden. • Maßtheoretische Verallgemeinerungen • Die eigentliche auf Kolmogoroff zur¨ uckgehende Definition von Wahrscheinlichkeitsmaßen ist f¨ ur beliebige Ergebnisr¨aume g¨ ultig, insbesondere also auch f¨ ur u ¨berabz¨ahlbare. Es werden die gleichen Axiome vorausgesetzt und es gelten alle daraus abgeleiteten Rechenregeln. Jedoch ¨andert sich die Definitionsmenge des Wahrscheinlichkeitsmaßes. Diese manchmal auch als Ereignisraum bezeichnete Menge deckt sich in der Regel nicht mehr mit der Potenzmenge, sondern ist aufgrund des oben erw¨ahnten Messbarkeitsproblems ein weniger m¨achtiges Mengensystem, das die Eigenschaften einer sog. Sigma-Algebra aufweist und f¨ ur alle praktischen Belange immer noch gen¨ ugend groß ist. Solche Inhalte geh¨oren zum mathematischen Gebiet der sog. Maßtheorie, innerhalb derer eine Unterscheidung zwischen diskreten und u ahlbaren Ergebnisr¨aumen nicht mehr notwendig ¨berabz¨ ist. In stark verallgemeinertem Rahmen werden dort beide F¨alle einheitlich behandelt, wobei sich der Additionskalk¨ ul als spezieller Integrationskalk¨ ul erweist. Interessierte Leser seien auf Lehrb¨ ucher wie etwa von Billingsley [2012] oder Davidson [2002] verwiesen, die sich mit solchen maßtheoretischen Zug¨angen ausgiebig befassen. In letzterem Buch werden diese Grundlagen insbesondere auch im Hinblick auf statistisch-¨okonometrische Anwendungen aufbereitet. Aus eigener Erfahrung sei jedoch bemerkt, dass aus

226

6 Einf¨ uhrung in die Wahrscheinlichkeitsrechnung

einer intensiven Besch¨ aftigung mit Maßtheorie nicht unbedingt ein besseres Verst¨andnis wahrscheinlichkeitstheoretischer Inhalte resultiert. Insbesondere zu Anfang mag der zus¨atzliche Nutzen die unverh¨ altnism¨ aßig starke formalistische Erschwernis und damit verbundene Irritation“ nicht aufwiegen (vgl. hierzu auch Hafner [1989, Vorwort]). Zu” dem besitzt das Messbarkeitsproblem keine relevante praktische Bedeutung, sondern ist ein rein mathematisch-theoretisches Problem.

6.2 Rechnen mit abh¨ angigen und unabh¨ angigen Ereignissen Die bedingte Wahrscheinlichkeit eines Ereignisses ist ein Wahrscheinlichkeitswert, der sich ergibt, wenn vorausgesetzt wird, dass ein anderes Ereignis eingetreten sein muss. Stimmen bedingte und unbedingte Wahrscheinlichkeiten u ¨berein, spricht man von stochastischer Unabh¨ angigkeit. Dies l¨asst sich ¨aquivalent auch u ¨ber das Multiplikationskriterium ausdr¨ ucken. F¨ ur bedingte Wahrscheinlichkeiten gelten im Wesentlichen die gleichen Rechenregeln wie f¨ ur unbedingte Wahrscheinlichkeiten. Besondere Formeln im Kontext bedingter Wahrscheinlichkeiten sind die Multiplikationsregel und die Formel von Bayes.

6.2.1 Bedingte Wahrscheinlichkeiten und Rechenregeln • Definition • So wie die Wahrscheinlichkeiten das wahrscheinlichkeitstheoretische Pendant zu den empirischen relativen H¨ aufigkeiten darstellen, so entsprechen die nachfolgend definierten bedingten Wahrscheinlichkeiten in gewisser Weise den bedingten H¨ aufigkeiten aus Abschnitt 5.1.1. Dies gilt zumindest dann, wenn betreffende Wahrscheinlichkeiten frequentistisch gedeutet werden (Abschnitt 6.1.1). Definition 6.2.1: Bedingte Wahrscheinlichkeit Seien A und B Ereignisse eines Ergebnisraumes Ω mit P (B) > 0. Dann ist die bedingte Wahrscheinlichkeit von A unter B definiert als P (A ∩ B) P (A|B) = . P (B) Die bedingte Wahrscheinlichkeit ist f¨ ur P (B) = 0 nicht definiert. Veranschaulichen wir uns das Ganze anhand eines Venn-Diagramms, so l¨asst sich die bedingte Wahrscheinlichkeit von A unter B geometrisch als Anteil der Schnittfl¨ache“ ” von A und B an der Gesamtfl¨ ache von B interpretieren. • Beispiel 6.2.1 • Betrachten wir folgende Kontingenztabelle mit relativen H¨aufigkeiten f¨ ur die gemeinsame Verteilung der Merkmale X f¨ ur Geschlecht“ und Y f¨ ur ” Rauchverhalten“. ” Demnach betrug der Anteil der Raucher 16%, in empirischer Notation ausgedr¨ uckt, f•1 = 0.16.

6.2 Rechnen mit abh¨ angigen und unabh¨ angigen Ereignissen

227

Abb. 6.2.1: Illustration zur bedingten Wahrscheinlichkeit von A unter B

÷ A

A ∩B

B

Ω Tabelle 6.2.1: Gemeinsame relative Verteilung von Geschlecht und Raucherstatus Raucher weiblich m¨annlich Summe

0.04 0.12 0.16

Gelegenheitsraucher 0.08 0.12 0.20

Nichtraucher 0.28 0.36 0.64

Summe 0.40 0.60 1.00

Untersucht man den Raucheranteil f¨ ur M¨ anner und Frauen separat, erh¨alt man die in Abschnitt 5.1.1 eingef¨ uhrten bedingten H¨ aufigkeiten. Im vorliegenden Fall ergibt dies f21 f11 0.04 0.12 Y |X Y |X f11 = = 0.10 und f21 = = 0.20. = = f1• 0.40 f2• 0.60 f¨ ur den Raucheranteil bei Frauen bzw. M¨ annern. Somit wird also die relative H¨aufigkeit der gemeinsamen Verteilung durch die relative H¨aufigkeit der Randverteilung von Geschlecht“ dividiert. ” Um dieses empirische Beispiel nun auf die theoretische Ebene der Wahrscheinlichkeiten zu u ¨bertragen, betrachte man als Zufallsvorgang die zuf¨allige Ziehung einer Person aus der betreffenden Grundgesamtheit. Dazu ließe sich dann ein diskreter Ergebnisraum formulieren als Ω= {(weiblich, Raucher), (weiblich, Gelegenheitsraucher), (weiblich, Nichtraucher), annlich, Gelegenheitsraucher), (m¨annlich, Nichtraucher)}, (m¨annlich, Raucher), (m¨ wobei den Elementarereignissen entsprechende Wahrscheinlichkeiten zugeordnet werden. Beispielhaft betrachte man die beiden Ereignisse R: Ein Raucher wird gezogen“ und ” F : Eine Frau wird gezogen“. ” Dabei gilt R, F ⊂ Ω mit R = {(weiblich, Raucher), (m¨annlich, Raucher)} und F = {(weiblich, Raucher), (weiblich, Gelegenheitsraucher), (weiblich, Nichtraucher)}. Formal l¨asst sich dann festhalten: 0.04 P (R ∩ F ) P (R|F ) = = = 0.10, P (F ) 0.40 was genau dem empirischen Ergebnis entspricht. Eine v¨ollig analoge Rechnung w¨ urde man f¨ ur den Raucheranteil unter M¨ annern vornehmen. Die theoretische Berechnung

228

6 Einf¨ uhrung in die Wahrscheinlichkeitsrechnung

st¨ utzt sich dabei auf den in diskreten Ergebnisr¨aumen verwendeten Additionskalk¨ ul . Der enge Zusammenhang zwischen bedingten H¨aufigkeiten und bedingten Wahrscheinlichkeiten d¨ urfte damit klar geworden sein. • Arithmetik bedingter Wahrscheinlichkeiten • F¨ ur jedes Ereignis B mit P (B) > 0 definiert P (•|B) wiederum ein (bedingtes) Wahrscheinlichkeitsmaß. Im Falle eines diskreten Ergebnisraumes l¨ asst sich das formal ausdr¨ ucken als P (•|B) : P(Ω) → [0, 1] ⊂ R. Das Symbol •“ steht dabei stellvertretend f¨ ur alle Ereignisse des Ergebnisraumes, ” d.h. in diesem Fall f¨ ur alle Elemente der Potenzmenge. Im Falle u ¨berabz¨ahlbarer Ergebnisr¨aume w¨ urde ein analoges Resultat gelten, sofern anstelle der Potenzmenge eine geeignete Sigma-Algebra gew¨ ahlt w¨ urde (vgl. Abschnitt 6.1.3). ¨ ufung der Axiome (K1)–(K3). So gilt Der Nachweis erfordert lediglich die Uberpr¨ offensichtlich P (Ω|B) = 1 und P (A|B) ≥ 0 f¨ ur jedes Ereignis A, womit die ersten beiden ullt sind. Weiter erh¨ alt man f¨ ur paarweise disjunkte Ereignisse A1 , A2 , . . . Axiome erf¨ mit dem Distributivgesetz f¨ ur Mengenoperationen h S  i i hS ∞ ∞ Ai ∩ B (Ai ∩ B) P ∞  P [ i=1 i=1 P Ai B = = P (B) P (B) i=1 P∞ ∞ ∞ P (Ai ∩ B) X P (Ai ∩ B) X P (Ai |B). = = = i=1 P (B) P (B) i=1 i=1 Man beachte hierbei, dass auch die Ereignisse (A1 ∩ B), (A2 ∩ B), . . . disjunkt sind, weshalb die Wahrscheinlichkeit u ¨ber deren Vereinigung additiv zerlegt werden kann. Damit ist auch das dritte Axiom erf¨ ullt. Somit gelten f¨ ur bedingte Wahrscheinlichkeiten auch die gleichen Rechenregeln wie f¨ ur gew¨ ohnliche“ (unbedingte) Wahrscheinlichkeiten. ” • Beispiel 6.1.1 fortgesetzt • Betrachten wir als Beispiel nochmals den W¨ urfelwurf mit den Ereignissen A = {2, 4, 6}, B = {2, 3, 6} und C = {1, 2, 3, 4}. Mit P (B) = 3/6 = 1/2 > 0 ist zun¨ achst P (A ∩ B) P ({2, 6}) 2/6 P (A|B) = = = = 2/3, P (B) P (B) 3/6 P ((A ∩ C) ∩ B) P ({2, 3, 6}) 3/6 P (A ∪ C|B) = = 1. = = P (B) P (B) 3/6 Man beachte, dass die Vereinigung von A und C Ereignis B enth¨alt. Wenn B eintritt, dann tritt auf jeden Fall auch A ∪ C ein. Analog erh¨alt man P (A ∩ C|B) = 1/3 und P (C|B) = 2/3. Dann folgt beispielsweise mit Rechenregel Nr. 6 (Abschnitt 6.1.3) 2 2 1 P (A|B) + P (C|B) − P (A ∩ C|B) = + − = 1 = P (A ∪ C|B). 3 3 3 Genauso gilt beispielsweise f¨ ur das Gegenereignis von C nach Rechenregel Nr. 4 P (C¯ ∩ B) P ({6}) 1/6 1 2 ¯ P (C|B) = = = = = 1 − = 1 − P (C|B). P (B) P (B) 3/6 3 3

6.2 Rechnen mit abh¨ angigen und unabh¨ angigen Ereignissen

229

Wir sehen, dass lediglich der Aufwand f¨ ur die bedingte Notation“ etwas zugenommen ” hat. Bedingtes Wahrscheinlichkeitsmaß und gew¨ ohnliche Rechenregeln Sei Ω ein Ergebnisraum und B ein Ereignis mit P (B) > 0. Dann wird durch P (•|B) ein Wahrscheinlichkeitsmaß definiert, das auch als bedingtes Wahrscheinlichkeitsmaß unter B bezeichnet wird. Somit gelten f¨ ur bedingte Wahrscheinlichkeiten die gew¨ohnlichen Rechenregeln f¨ ur Wahrscheinlichkeiten. • Multiplikationsregel • Eine besondere und n¨ utzliche Rechenregel, die auf der iterativen Verwendung bedingter Wahrscheinlichkeiten basiert, ist die Multiplikationsregel . Satz 6.2.1: Multiplikationsregel Seien A1 , A2 , . . . , An mit n ≥ 2 Ereignisse eines Ergebnisraumes Ω, wobei P (A1 ∩ A2 ∩ · · · ∩ An−1 ) > 0 sei. Dann gilt: P (A1 ∩ A2 ∩ · · · ∩ An ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) · . . . · P (An |A1 ∩ A2 ∩ · · · ∩ An−1 ). Gem¨aß Definition der bedingten Wahrscheinlichkeit von A2 unter A1 gilt zun¨achst einmal: P (A1 ∩ A2 ) P (A2 |A1 ) = . (6.2.1) P (A1 ) Man beachte, dass diese Wahrscheinlichkeit auf jeden Fall definiert ist. Denn w¨are P (A1 ) = 0, dann w¨ are auch P (A1 ∩ A2 ∩ · · · ∩ Ak−1 ) = 0. Letzteres wird per Annahme jedoch ausgeschlossen. Durch Umstellen von Gleichung (6.2.1) erh¨alt man: P (A1 ∩ A2 ) = P (A1 )P (A2 |A1 ).

(6.2.2)

Weiter gilt mit Hinzunahme von Ereignis A3 gem¨aß Definition: P (A1 ∩ A2 ∩ A3 ) P (A3 |A1 ∩ A2 ) = P (A1 ∩ A2 ) und nach Umstellen P (A1 ∩ A2 ∩ A3 ) = P (A1 ∩ A2 )P (A3 |A1 ∩ A2 ).

(6.2.3)

Durch Einsetzen von (6.2.2) in (6.2.3) erh¨ alt man schließlich P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ). Dieses Prinzip l¨asst sich entsprechend f¨ ur beliebig viele Ereignisse fortsetzen. Die logische Struktur der Regel sollte bis hierher bereits offensichtlich geworden sein. Die Multiplikationsregel liefert eine Formel zur Berechnung der Wahrscheinlichkeit f¨ ur das Schnittereignis“ mehrerer Ereignisse. Sie erweist sich insbesondere im Zusam” menhang zeitlich gestufter“ Zufallsvorg¨ ange als hilfreich wie nachfolgendes Beispiel ” zeigt.

230

6 Einf¨ uhrung in die Wahrscheinlichkeitsrechnung

• Beispiel 6.2.2 • Das erste Rechen- bzw. Aufgabenbeispiel zur Multiplikationsregel ¨ ist dem Ubungsbuch von Hartung und Heine [2004] entnommen. Daran l¨asst sich auch ein St¨ uck weit nachvollziehen, wie sich typische Problemstellungen in der Wahrscheinlichkeitsrechnung mit den bisherigen Rechenregeln bearbeiten lassen. Die Entwicklungsabteilung eines Produzenten von Haushaltsger¨aten ist in 90% der F¨alle f¨ ur die Markteinf¨ uhrung der von ihr entwickelten Ger¨ate. Ein positives Votum der Entwicklungsabteilung f¨ uhrt mit einer Wahrscheinlichkeit von 0.7 bei der Marketingabteilung ebenfalls zu einem positiven Votum. Sind beide Abteilungen f¨ ur die Markteinf¨ uhrung des neuen Ger¨ ates, so entscheidet die Gesch¨aftsleitung dennoch mit einer Wahrscheinlichkeit von 0.2 dagegen. Ist die Marketingabteilung gegen die Markteinf¨ uhrung, die Entwicklungsabteilung aber daf¨ ur, so stimmt die Gesch¨aftsleitung nur mit einer Wahrscheinlichkeit von 0.4 zu. a) Wie groß ist die Wahrscheinlichkeit, dass die Markteinf¨ uhrung eines neuen Produktes sowohl von der Gesch¨ aftsleitung als auch von der Entwicklungs- und der Marketingabteilung getragen wird? b) Mit welcher Wahrscheinlichkeit entscheiden sich Gesch¨aftsleitung und Entwicklungsabteilung f¨ ur die Markteinf¨ uhrung eines neuen Produktes? Im vorliegenden Fall geht es um einen Entscheidungsprozess, welcher sich auf mehreren Entscheidungsstufen (Entwicklungsabteilung, Marketingabteilung, Gesch¨aftsleitung) vollzieht. Entsprechend der zeitlichen Ordnung der zu f¨allenden Entscheidungen definieren wir die Ereignisse A1 , A2 und A3 mit A1 = Entwicklungsabteilung ist f¨ ur die Markteinf¨ uhrung“, ” A2 = Marketingabteilung ist f¨ ur die Markteinf¨ uhrung“, ” A3 = Gesch¨ aftsleitung ist f¨ ur die Markteinf¨ uhrung“. ” Aus dem Aufgabentext gehen nun folgende Wahrscheinlichkeiten hervor: P (A1 ) = 0.9, ¯ P (A3 |A1 ∩ A2 ) = 0.2,

P (A2 |A1 ) = 0.7, P (A3 |A1 ∩ A¯2 ) = 0.4.

Die in a) bzw. b) gefragten Wahrscheinlichkeiten sind P (A1 ∩ A2 ∩ A3 ) bzw. P (A1 ∩ A3 ). Widmen wir uns zun¨ achst Teil a) zu. Gem¨ aß Multiplikationsregel gilt: P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ). Mit den Rechenregeln f¨ ur Wahrscheinlichkeiten folgt schließlich P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) = P (A1 )P (A2 |A1 )[1 − P (A¯3 |A1 ∩ A2 )] = 0.9 · 0.7 · (1 − 0.2) = 0.504. Zur Berechnung der Wahrscheinlichkeit von A1 ∩ A3 in Teil b) beachten wir, dass gilt: A1 ∩ A3 = (A1 ∩ A2 ∩ A3 ) ∪ (A1 ∩ A¯2 ∩ A3 ).

6.2 Rechnen mit abh¨ angigen und unabh¨ angigen Ereignissen

231

Abb. 6.2.2: Illustration zur Bestimmung von P (A1 ∩ A3 ) A1 ∩ A3

A1 ∩ A2 ∩ A3

A1

A1 ∩ A2 ∩ A3

A2 A3



Hierbei handelt es sich um die Vereinigung zweier disjunkter Ereignisse, wie das VennDiagramm in Abbildung 6.2.2 illustriert. Deshalb werden die betreffenden Wahrscheinlichkeiten gem¨aß Rechenregel Nr. 7 addiert. Insgesamt erhalten wir damit P (A1 ∩ A3 ) = P (A1 ∩ A2 ∩ A3 ) + P (A1 ∩ A¯2 ∩ A3 ) = 0.504 + P (A1 )P (A¯2 |A1 )[1 − P (A¯3 |A1 ∩ A¯2 )] = 0.504 + 0.9 · (1 − 0.7) · 0.4 = 0.504 + 0.108 = 0.612. allt die Entscheidung auf allen Instanzen Mit einer Wahrscheinlichkeit von 50.4% f¨ einheitlich f¨ ur die Markteinf¨ uhrung eines Produktes. Mit einer Wahrscheinlichkeit von 61.2% stimmen zumindest Entwicklungsabteilung und Gesch¨aftsleitung f¨ ur die Einf¨ uhrung. Alternativ lassen sich die gegebenen Wahrscheinlichkeiten der einzelnen Instanzen auch mithilfe eines sog. Wahrscheinlichkeitsbaumes darstellen. • Wahrscheinlichkeitsb¨ aume • Ein Wahrscheinlichkeitsbaum ist ein baumarti¨ ges grafisches Schema bestehend aus Asten und Verzweigungen, welches die Abh¨angigkeitsstruktur einer bestimmten Auswahl von Zufallsereignissen darstellt. Abbildung 6.2.3 zeigt ein Beispiel eines dreistufigen Baumes f¨ ur drei Ereignisse mit jeweiligen ¨ Gegenereignissen. Entlang der Aste stehen bedingte Wahrscheinlichkeiten. Miteinander multipliziert ergeben sie gem¨ aß Multiplikationsregel die Wahrscheinlichkeit f¨ ur das gemeinsame Eintreten von drei Ereignissen, die auch als Pfadwahrscheinlichkeit bezeichnet wird. Die Abstufungen des Baumes korrespondieren mit einer zeitlichen oder logischen Abfolge eines bestimmten Vorgangs, wobei die konkrete Aststruktur auch deutlich vielf¨altiger und komplexer als im vorliegenden Beispiel ausfallen kann. Ent¨ scheidend ist dabei, dass die Wahrscheinlichkeiten entlang der Aste als bedingte Wahrscheinlichkeiten interpretiert werden und die Summe aller Pfadwahrscheinlichkeiten 1 ergeben muss. Letztere Eigenschaft gilt, da die Pfade paarweise disjunkte Ereignisse abbilden. F¨ ur das vorhergehende Rechenbeispiel ergibt sich ein Wahrscheinlichkeitsbaum ¨ gem¨aß Abbildung 6.2.4. Die nach oben gehenden Aste stehen jeweils f¨ ur ein positives Votum, die nach unten gehenden f¨ ur ein negatives. F¨ ur die im Aufgabentext gegebenen Wahrscheinlichkeiten 0.9, 0.7, 0.2 und 0.4 k¨ onnen im Baumdiagramm die betreffenden Gegenwahrscheinlichkeiten 0.1, 0.3, 0.8 und 0.6 eingetragen werden. Anschließend werden alle berechenbaren Pfadwahrscheinlichkeiten ermittelt. Die Wahrscheinlichkeiten

232

6 Einf¨ uhrung in die Wahrscheinlichkeitsrechnung Abb. 6.2.3: Beispiel einer Pfadstruktur eines Wahrscheinlichkeitsbaumes P (A 3 | A 1 ∩ A 2) P (A 2 | A 1) A1 P (A 1)

P (A 1)

P (A 2 | A 1)

P (A 2 | A 1) A1 P (A 2 | A 1)

A3

P (A 1 ∩ A 2 ∩ A 3)

P (A 3 | A 1 ∩ A 2)

A3

P (A 1 ∩ A 2 ∩ A 3)

P (A 3 | A 1 ∩ A 2)

A3

P (A 1 ∩ A 2 ∩ A 3)

P (A 3 | A 1 ∩ A 2)

A3

P (A 1 ∩ A 2 ∩ A 3)

P (A 3 | A 1 ∩ A 2)

A3

P (A 1 ∩ A 2 ∩ A 3)

P (A 3 | A 1 ∩ A 2)

A3

P (A 1 ∩ A 2 ∩ A 3)

P (A 3 | A 1 ∩ A 2)

A3

P (A 1 ∩ A 2 ∩ A 3)

A3

P (A 1 ∩ A 2 ∩ A 3)

A2

A2

A2

A2 P (A 3 | A 1 ∩ A 2)

der f¨ ur Teil a) und Teil b) relevanten Ereignisse A1 ∩ A2 ∩ A3 und A1 ∩ A¯2 ∩ A3 ergeben sich dann als Pfadwahrscheinlichkeiten des 1. bzw. 3. Pfades (von oben gez¨ahlt), was in der Summe 0.504 + 0.126 = 0.612 ergibt. Da die letzten 4 Pfadwahrscheinlichkeiten nicht berechnet werden k¨onnen, ist mit den im Text angegebenen Wahrscheinlichkeiten jedoch nicht jede Ereigniswahrscheinlichkeit bestimmbar. Beispielsweise l¨ asst sich die Wahrscheinlichkeit eines positiven Votums der Marketingabteilung P (A2 ) nicht berechnen. Es ist lediglich noch klar, dass die letzten 4 Pfadwahrscheinlichkeiten in der Summe 0.1 ergeben m¨ ussen. • Beispiel 6.2.3 • Das zweite Rechenbeispiel zur Multiplikationsregel ist das so genannte Geburtstagsparadoxon“, vgl. z.B. Knight [2000, Beispiel 1.6]. Dieses Beispiel ” verdeutlicht, dass die Verwendung dieser Regel auch in Situationen n¨ utzlich sein kann, in denen der Zufallsvorgang eigentlich nicht in mehreren Stufen erfolgt, aber dennoch hilfsweise als ein solcher gedacht wird. Angenommen, in einem Raum befinden sich 30 Personen. Mit welcher Wahrscheinlichkeit haben dann wenigstens zwei von diesen Personen am gleichen Tag Geburtstag? Zur Beantwortung dieser Frage wird die vereinfachende Annahme getroffen, dass Geburtstage allgemein u ¨ber die 365 Tage des Jahres gleichm¨aßig verteilt sind. Definiere nun das Ereignis B als dasjenige, bei dem alle 30 Personen an unterschiedlichen Tagen Geburtstag haben. Somit w¨are die gesuchte Wahrscheinlichkeit, die Gegenwahrscheinlichkeit von B. Zur Bestimmung dieser Wahrscheinlichkeit erweist sich

6.2 Rechnen mit abh¨ angigen und unabh¨ angigen Ereignissen

233

Abb. 6.2.4: Entscheidungsstruktur f¨ ur die Markteinf¨ uhrung eines Produktes (Beispiel 6.2.2)

0.7

A2

A1 0.3

0.9 Entwicklung

A2

Marketing

0.1

?

A2

A1 ?

A2

0.8

A3

0.504

0.2

A3

0.126

0.4

A3

0.108

0.6 Leitung ?

A3

0.162

A3

?

?

A3

?

?

A3

?

?

A3

?

0.9

0.1

die Vorstellung als vorteilhaft, dass die 30 Personen den Raum nacheinander betreten. Dazu werden die folgenden Ereignisse definiert: A2 = die 2. Person hat an einem anderen Tag Geburtstag als die 1. Person, A3 = die 3. Person hat an einem anderen Tag Geburtstag als die ersten 2 Personen, .. . A30 = die 30. Person hat an einem anderen Tag Geburtstag als die ersten 29 Personen. Dann gilt B = A2 ∩ A3 ∩ · · · ∩ A30 , und mit der Multiplikationsregel folgt P (B) = P (A2 )P (A3 |A2 )P (A4 |A2 ∩ A3 ) · · · · · P (A30 |A2 ∩ A3 ∩ . . . A29 ). Dies ergibt gem¨aß Annahme gleichwahrscheinlicher Geburtstage: 364 363 362 336 P (B) = · · · ··· · ≈ 0.294. 365 365 365 365 ¯ = 1 − 0.294 = 0.706 und ist Folglich betr¨agt die gesuchte Wahrscheinlichkeit P (B) damit, vermutlich entgegen der Intuition, u ¨berraschend hoch. Bei n = 70 Personen liegt diese Wahrscheinlichkeit gar schon bei u ¨ber 99%.

6.2.2 Stochastische Unabh¨ angigkeit von Ereignissen • Definition • Das theoretische Pendant zur empirischen Abh¨ angigkeit bzw. Unabh¨ angigkeit in der deskriptiven Statistik (Abschnitte 2.3 und 5.1.1) ist in der Wahrscheinlichkeitsrechnung die stochastische Abh¨ angigkeit bzw. Unabh¨ angigkeit. Fre-

234

6 Einf¨ uhrung in die Wahrscheinlichkeitsrechnung Abb. 6.2.5: Geburtstag am gleichen Tag von n Personen (Beispiel 6.2.3)

363 365

A3

A2 2 365

364 365

1 365

364 365

A3

A3

A2 1 365

A3

362 365

A4

3 365

A4

363 365

A4

2 365

A4

363 365

A4

2 365

A4

364 365

A4

1 365

A4

P (B )

P (B )

quentistisch gedeutet werden dazu die auf relativen H¨aufigkeiten basierenden empirischen Kriterien in entsprechende stochastischen Kriterien basierend auf Wahrscheinlichkeiten u ¨bersetzt. Definition 6.2.2: Abh¨ angigkeit und Unabh¨ angigkeit von zwei Ereignissen Seien A und B Ereignisse eines Ergebnisraumes mit P (A) > 0 und P (B) > 0. Dann sind A und B (stochastisch) unabh¨ angig (kurz st.u.), falls eines der folgenden a¨quivalenten Kriterien erf¨ ullt ist: (i) P (A|B) = P (A). (ii) P (B|A) = P (B). (iii) P (A ∩ B) = P (A)P (B). (Multiplikationskriterium) F¨ ur P (A) = 0 oder P (B) = 0 definieren wir A und B ebenfalls als (stochastisch) unabh¨angig. In allen anderen F¨ allen sind A und B (stochastisch) abh¨ angig .

Die drei Unabh¨ angigkeitskriterien sind ¨ aquivalent zueinander. Ist eines der drei Kriterien erf¨ ullt, gelten automatisch immer auch die beiden anderen. Entweder sind also alle drei Kriterien erf¨ ullt, oder alle drei Kriterien sind nicht erf¨ ullt. Die Kriterien (i) und (ii) entsprechen in der deskriptiven Statistik der Forderung nach Gleichheit von bedingten Verteilungen. Im Falle einer Kontingenztabelle stimmen ¨ die Zeilen- bzw. Spaltenverteilungen u mit ¨berein, was dann auch zur Ubereinstimmung

6.2 Rechnen mit abh¨ angigen und unabh¨ angigen Ereignissen

235

den korrespondierenden Randverteilungen f¨ uhrt. Konkret sind dies die Kriterien (5.1.1) und (5.1.2) aus Abschnitt 5.1.1: nij nij = f•j bzw. = fi• . ni• n•j Kriterium (iii) ist die stochastische Variante des empirischen Multiplikationskriteriums fij = fi• · f•j . • Implizierte Unabh¨ angigkeit von Gegenereignissen • Die Unabh¨angigkeit zweier Ereignisse impliziert f¨ ur die korrespondierenden Gegenereignisse weitere paarweise Unabh¨angigkeiten. Sind A und B unabh¨ angig, folgt mit P (A|B) = P (A) und herk¨ommlichen Rechenregeln, die auch f¨ ur bedingte Wahrscheinlichkeiten gelten, ¯ ¯ = 1 − P (A|B) = 1 − P (A) = P (A). P (A|B) Damit ist das erste Unabh¨ angigkeitskriterium f¨ ur die Ereignisse A¯ und B erf¨ ullt. Die Ereignisse sind somit unabh¨ angig. Umgekehrt folgt aus der Unabh¨angigkeit von A¯ und B auf analoge Weise die Unabh¨ angigkeit von A und B. Tats¨achlich gilt: Die Ereignisse A und B sind genau dann stochastisch unabh¨ angig, falls (i) A¯ und B,

¯ bzw. (ii) A und B

¯ (iii) A¯ und B

stochastisch unabh¨ angig sind. Der Nachweis f¨ ur (ii) und (iii) gestaltet sich analog wie f¨ ur (i) mit geringf¨ ugiger Modifikation. Insgesamt lassen sich diese Resultate in einer Kontingenztabelle mit Wahrscheinlichkeiten zusammenfassen (Tab.6.2.2). Dabei ist das stochastische Multiplikationskriterium erf¨ ullt, d. h. das Produkt der Randwahrscheinlichkeiten ergibt jeweils die Wahrscheinlichkeit des Schnittereignisses“. ” Tabelle 6.2.2: Implizierte Kontingenztabelle f¨ ur zwei unabh¨ angige Ereignisse A und B B

¯ B

Summe

A A¯

P (A)P (B) ¯ (B) P (A)P

¯ P (A)P (B) ¯ (B) ¯ P (A)P

P (A) ¯ P (A)

Summe

P (B)

¯ P (B)

1.00

• Interpretation • Mit der implizierten Unabh¨angigkeit der Gegenereignisse l¨asst sich stochastische Unabh¨ angigkeit nun wie folgt zusammenfassend interpretieren. Interpretation stochastischer Unabh¨ angigkeit Zwei Ereignisse A und B eines Ergebnisraumes Ω sind genau dann stochastisch un¯ B und B ¯ beruhende Kontingenztabelle mit Wahrscheinabh¨ angig , falls die auf A, A, lichkeiten das stochastische Multiplikationskriterium erf¨ ullt (vgl. Tab.6.2.2). F¨ ur A und A¯ impliziert dies beispielsweise: ¯ und P (A) ¯ = P (A|B) ¯ ¯ B), ¯ P (A) = P (A|B) = P (A|B) = P (A|

236

6 Einf¨ uhrung in die Wahrscheinlichkeitsrechnung

sofern 0 < P (B) < 1. Sowohl die Wahrscheinlichkeit f¨ ur das Eintreten von A als auch die Wahrscheinlichkeit f¨ ur das Nichteintreten von A ist unabh¨angig davon, ob B ¯ eintritt oder nicht eintritt. Analoges gilt f¨ ur B und B.

• Beispiel 6.2.4 • Wir setzen das Beispiel mit Tabelle 6.2.1 aus Abschnitt 6.2.1 fort, wobei die relativen H¨ aufigkeiten gleich als Wahrscheinlichkeiten gedeutet werden. Zun¨achst definieren wir die Ereignisse R : GR : NR : F : M :

Ein Raucher wird gezogen.“ ” Ein Gelegenheitsraucher wird gezogen.“ ” Ein Nichtraucher wird gezogen.“ ” Eine Frau wird gezogen.“ ” Ein Mann wird gezogen.“ ” Dann erhalten wir beispielsweise f¨ ur R und F die bedingten Wahrscheinlichkeiten P (R ∩ F ) 0.04 0.04 P (R ∩ F ) = = 0.10 und P (F |R) = = = 0.25. P (R|F ) = P (F ) 0.40 P (R) 0.16 Mit P (R) = 0.16 und P (F ) = 0.40 folgt damit f¨ ur die drei Unabh¨angigkeitskriterien (i) P (R|F ) = 0.10 6= 0.16 = P (R). (ii) P (F |R) = 0.25 6= 0.40 = P (F ). (iii) P (R ∩ F ) = 0.04 6= 0.064 = P (R)P (F ). Nat¨ urlich w¨ urde es hier auch gen¨ ugen, nur eines der drei Kriterien zu u ufen. Die ¨berpr¨ Ereignisse R und F sind stochastisch abh¨ angig. Die Wahrscheinlichkeit, ob jemand Raucher ist oder nicht, ist vom Geschlecht abh¨angig, d.h. ist bei Frauen und M¨annern verschieden. Betrachten wir dagegen die beiden Ereignisse GR und F , so ergibt sich in Bezug auf das erste Unabh¨ angigkeitskriterium P (GR ∩ F ) 0.08 P (GR|F ) = = = 0.20 = P (GR). P (F ) 0.40 Damit sind GR und F stochastisch unabh¨ angig. Tabelle 6.2.3 zeigt die implizierte Kontingenztabelle, welche das Multiplikationskriterium erf¨ ullt. Man beachte, dass hier gilt: ¯ GR = R ∪ N R und F = M. Die Wahrscheinlichkeit daf¨ ur, ob jemand Gelegenheitsraucher ist oder nicht, ist also unabh¨angig vom Geschlecht und betr¨ agt bei M¨annern wie Frauen 0.20. Tabelle 6.2.3: Implizierte Kontingenztabelle f¨ ur GR und F F GR R ∪ NR Summe

M 0.08 0.32 0.40

0.12 0.48 0.60

Summe 0.20 0.80 1.00

6.2 Rechnen mit abh¨ angigen und unabh¨ angigen Ereignissen

237

• Disjunkte Ereignisse sind abh¨ angig • Ein h¨aufig gezogener schwerwiegender Fehlschluss ist, dass disjunkte Ereignisse unabh¨angig sein m¨ ussen. Disjunkte Ereignisse schließen sich jedoch gegenseitig aus und sind so gesehen maximal abh¨angig. Angenommen die Ereignisse A und B mit P (A) > 0 und P (B) > 0 seien disjunkt, d. h. es gelte A ∩ B = ∅. Dann folgt daraus P (A|B) = 0 6= P (A). Das Ereignis A kann u ur ¨berhaupt nicht eintreten, falls das Ereignis B eintritt. Umgekehrt gilt das genauso f¨ B, falls A eintritt. Einzige Ausnahme w¨ are, dass mindestens eines der beiden Ereignisse die Wahrscheinlichkeit 0 besitzt. Dann w¨ aren A und B und sozusagen per Definition unabh¨angig. Abb. 6.2.6: Disjunkte Ereignisse sind abh¨ angig P (A ) > 0

P (B ) > 0 abhängig

A

B

P (A | B ) = 0



Dieser Fehlschluss mag darauf beruhen, dass der Begriff Unabh¨angigkeit“ im ” allt¨aglichen Sprachgebrauch mit etwas voneinander Losgel¨ostem“ verbunden wird. Die” se Intuition f¨ uhrt im Falle stochastischer Unabh¨angigkeit jedoch in die Irre. Ganz im Gegenteil, unabh¨ angige Ereignisse m¨ ussen eine gemeinsame nichtleere Schnittmenge aufweisen, also eine gewisse N¨ ahe zueinander aufweisen, um u ¨berhaupt unabh¨angig sein zu k¨onnen. • Unabh¨ angigkeit ist nicht transitiv • Ein anderer Fehlschluss ist, dass sich Unabh¨angigkeit transitiv verh¨ alt. Sofern die Ereignisse A und B und die Ereignisse B und C unabh¨angig sind, folgt daraus jedoch nicht die Unabh¨angigkeit von A und C. Als einfaches Beispiel betrachte man zwei unabh¨angige Ereignisse A und B. Dann sind bekanntermaßen auch B und A¯ unabh¨ angig. Jedoch sind A und A¯ als disjunkte Ereignisse nicht unabh¨ angig. Wir erhalten eine Struktur wie in Abbildung 6.2.7, wobei C = A¯ gilt. Abb. 6.2.7: Unabh¨ angigkeit ist nicht transitiv abhängig oder unabhängig

A

unabhängig

B

unabhängig

C

• Unabh¨ angigkeit von mehreren Ereignissen • Wenn bei einer derartigen Konstellation wie in Abbildung 6.2.7 auch A und C unabh¨angig sind, spricht man von paarweiser Unabh¨ angigkeit. Eine Menge paarweise unabh¨angiger Ereignisse kann jedoch im-

238

6 Einf¨ uhrung in die Wahrscheinlichkeitsrechnung

mer noch stochastische Abh¨ angigkeiten auf h¨ oherer Stufe“ aufweisen. So folgt beispiels” weise aus der paarweisen Unabh¨ angigkeit von A, B und C nicht P (C|A ∩ B) = P (C). Dies bedeutet, dass die Wahrscheinlichkeit f¨ ur das Eintreten von C zwar vom Eintreten von A und auch vom Eintreten von B unabh¨angig ist, nicht aber zwingend vom gemeinsamen Eintreten der beiden Ereignisse. Das Problem ist, dass bei der Berechnung von P (A ∩ B ∩ C) P (C|A ∩ B) = (6.2.4) P (A ∩ B) der Z¨ahlerausdruck auf der rechten Seite nicht ohne weiteres zerlegt werden kann. Bei paarweiser Unabh¨ angigkeit gilt zwar P (A ∩ B) = P (A)P (B), nicht aber zwingend P (A ∩ B ∩ C) = P (A)P (B)P (C).

(6.2.5)

W¨ urde (6.2.5) gelten, ließe sich die rechte Seite von (6.2.4) unmittelbar zu P (C) vereinfachen. Somit ist das lediglich auf paarweisen Betrachtungen gr¨ undende Unabh¨angigkeitskonzept in dieser Hinsicht nicht ausreichend. Zur Ber¨ ucksichtigung komplexerer Abh¨angigkeitsstrukturen wird eine Definition f¨ ur die stochastische Unabh¨angigkeit von mehreren Ereignissen ben¨ otigt, die multiplikative Zerlegungen der Form (6.2.5) impliziert. Definition 6.2.3: Abh¨ angigkeit und Unabh¨ angigkeit von mehreren Ereignissen Seien A1 , A2 , . . . , An (n ≥ 2) Ereignisse eines Ergebnisraumes Ω. Dann sind diese Ereignisse (stochastisch) unabh¨ angig , falls gilt: P (Ai ∩ Aj ) = P (Ai )P (Aj ) f¨ ur i 6= j, P (Ai ∩ Aj ∩ Ak ) = P (Ai )P (Aj )P (Ak ) f¨ ur i 6= j, j 6= k, i 6= k .. .. . . P (A1 ∩ A2 ∩ · · · ∩ An ) = P (A1 )P (A2 ) . . . P (An ). Sind nicht alle dieser Kriterien gleichzeitig erf¨ ullt, sind die Ereignisse (stochastisch) abh¨ angig . Ist das erste Kriterium erf¨ ullt, sind die Ereignisse paarweise (stochastisch) unabh¨ angig .

Die Wahrscheinlichkeit des Schnittereignisses“ muss f¨ ur jede Teilmenge bestehend aus ” bis zu n Ereignissen dem Produkt der Wahrscheinlichkeiten der jeweiligen einzelnen Ereignisse entsprechen. Zur Klarheit beginnen wir zun¨ achst mit 3 Ereignissen A1 , A2 und A3 . Diese sind demgem¨aß unabh¨ angig, falls sie paarweise unabh¨angig sind und außerdem gilt: P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 )P (A3 ). Mit dieser letzten Forderung w¨ urde dann auch beispielsweise folgen P (A1 ∩ A2 ∩ A3 ) P (A1 )P (A2 )P (A3 ) P (A3 |A1 ∩ A2 ) = = = P (A3 ). P (A1 ∩ A2 ) P (A1 )P (A2 )

6.2 Rechnen mit abh¨ angigen und unabh¨ angigen Ereignissen

239

Im Falle von 4 Ereignissen A1 , A2 , A3 und A4 m¨ usste nach der paarweisen Unabh¨angigkeit insgesamt noch gelten: P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 )P (A3 ), P (A2 ∩ A3 ∩ A4 ) = P (A2 )P (A3 )P (A4 ), P (A1 ∩ A3 ∩ A4 ) = P (A1 )P (A3 )P (A4 ), P (A1 ∩ A2 ∩ A4 ) = P (A1 )P (A2 )P (A4 ), P (A1 ∩ A2 ∩ A3 ∩ A4 ) = P (A1 )P (A2 )P (A3 )P (A4 ). Im Falle von 5 Ereignissen w¨ are das Zerlegungskriterium“ f¨ ur alle Teilmengen beste” hend aus 2, 3, 4 und 5 Ereignissen zu u ufen usw. ¨berpr¨ Sobald eine Gleichung nicht erf¨ ullt ist, gelten die Ereignisse als abh¨angig. Um die Unabh¨angigkeit mehrerer Ereignisse deutlicher von der nur paarweisen Unabh¨angigkeit abzusetzen, wird gelegentlich auch der Begriff der vollst¨ andigen Unabh¨ angigkeit“ ” verwendet (vgl. etwa Rohatgi und Saleh [2000]). Abb. 6.2.8: Paarweise aber nicht vollst¨ andig unabh¨ angige Ereignisse

0.5

A2

A1 0.5

0.5

0.5

0.5

A2

A2

A1 0.5

A2

0.75

A3

0.1875

0.25

A3

0.0625

0.25

A3

0.0625

0.75

A3

0.1875

0.25

A3

0.0625

0.75

A3

0.1875

0.75

A3

0.1875

0.25

A3

0.0625

• Beispiel 6.2.5 • Gegeben sei ein gestufter Zufallsvorgang gem¨aß Abbildung 6.2.8. Dazu k¨onnte man sich zur Anschauung einen Entscheidungsprozess wie zuvor in Abbildung 6.2.4 oder etwas Vergleichbares vorstellen. Beispielsweise ergibt sich damit die Wahrscheinlichkeit f¨ ur A2 aus der Summe der Pfadwahrscheinlichkeiten 1, 2, 5 und 6 (von oben gez¨ahlt) und f¨ ur A1 ∩ A2 aus den Pfadwahrscheinlichkeiten 1 und 2, d. h. P (A2 ) = 0.0625 + 0.1875 + 0.1875 + 0.0625 = 0.5, P (A1 ∩ A2 ) = 0.1875 + 0.0625 = 0.25.

240

6 Einf¨ uhrung in die Wahrscheinlichkeitsrechnung

Insgesamt erhalten wir: P (A1 ) = 0.5, P (A1 ∩ A2 ) = 0.25,

P (A2 ) = 0.5, P (A2 ∩ A3 ) = 0.25,

P (A3 ) = 0.5, P (A1 ∩ A3 ) = 0.25.

Da das Multiplikationskriterium paarweise erf¨ ullt ist, sind die Ereignisse A1 , A2 und A3 paarweise unabh¨ angig . Insgesamt sind sie dennoch nicht vollst¨andig unabh¨angig“, ” da P (A1 ∩ A2 ∩ A3 ) = 0.1875 6= 0.53 = P (A1 )P (A2 )P (A3 ). Beispielsweise sind A3 und A1 ∩ A2 voneinander abh¨angig, da P (A3 |A1 ∩ A2 ) = 0.75 6= 0.5 = P (A3 ). • Implizierte Unabh¨ angigkeit weiterer Ereignisse • Die (vollst¨andige) Unabh¨angigkeit mehrerer Ereignisse impliziert die Unabh¨angigkeit weiterer Ereignisse wie bereits f¨ ur den Fall zweier Ereignisse besprochen. Implizierte Unabh¨ angigkeit weiterer Ereignisse Gegeben seien n = n1 + n2 + · · · + np unabh¨angige Ereignisse eines Ergebnisraumes Ω, die sich wie folgt in p Reihen anordnen lassen: A11 , A12 , . . . , A1n1 , A21 , A22 , . . . , A2n2 , .. .. . . . . . . .. Ap1 , Ap2 , . . . , Apnp . Werden jeweils nur aus den Ereignissen der einzelnen Reihen neue Ereignisse A1 , A2 , . . . , Ap gebildet (durch Bildung von Komplementen, Schnitten oder Vereinigungen), so sind auch die so gebildeten Ereignisse unabh¨angig. Formal l¨asst sich dieses Resultat nur mit einigen zus¨atzlichen maßtheoretischen Aussagen beweisen, sodass wir hier nicht n¨ aher darauf eingehen (vgl. beispielsweise Billingsley [2012, S. 56]). F¨ ur p = 2 und n1 = n2 = 1 ergibt sich der bereits besprochene Fall f¨ ur zwei Ereignisse. Man betrachtet dann lediglich die beiden Reihen“ A11 und A21 . Nur die ” Bildung von Gegenereignissen f¨ uhrt hier dann zu neuen Ereignissen. Als weiterf¨ uhrendes Beispiel betrachten wir nun den Fall p = 3 mit n1 = 2, n2 = 3 und n3 = 1, d.h. A11 , A12 , A21 , A22 , A23 , A31 . Dann w¨aren beispielsweise die Ereignisse A1 = A¯11 ∪ A12 , A2 = (A21 ∩ A22 ) ∪ A23 und A3 = A¯31 unabh¨angig, jedoch nicht zwingend A = A11 ∪ A12 und B = A12 ∪ A21 ,

6.2 Rechnen mit abh¨ angigen und unabh¨ angigen Ereignissen

241

da in letzterem Fall das Ereignis A12 sowohl f¨ ur A als auch f¨ ur B verwendet wird.

6.2.3 Kalku ¨ l nach der Formel von Bayes • Satz von der totalen Wahrscheinlichkeit • Eine in Wahrscheinlichkeitsrechnung und Statistik bedeutende Formel ist die nach dem Engl¨ander Thomas Bayes (1701– 1761) benannte Bayes-Formel . F¨ ur die Darstellung dieser Formel wird zun¨achst ein kleiner Zwischenschritt ben¨ otigt. Satz von der totalen Wahrscheinlichkeit Seien A1 , A2 , . . . , An paarweise disjunkte Ereignisse eines Ergebnisraumes Ω, d.h. ur f¨ ur i 6= j sei Ai ∩ Aj = ∅. Weiter gelte A1 ∪ A2 ∪ · · · ∪ An = Ω und P (Ai ) > 0 f¨ i = 1, . . . , n. Dann gilt f¨ ur jedes Ereignis B ⊂ Ω: n X P (B) = P (B|Ai )P (Ai ). i=1

Eine derart beschriebene Menge von Ereignissen wird auch als disjunkte Zerlegung oder Partition des Ergebnisraumes bezeichnet. Eine solche Zerlegung f¨ uhrt dazu, dass gilt: n [ B = (A1 ∩ B) ∪ (A2 ∩ B) ∪ · · · ∪ (An ∩ B) = (Ai ∩ B), i=1

wobei die Ereignisse (A1 ∩ B), (A2 ∩ B), . . . , (An ∩ B) ebenfalls disjunkt sind. Daraus ergibt sich dann mit u ¨blichen Rechenregeln n n n h[ i X X P (B) = P (Ai ∩ B) = P (Ai ∩ B) = P (B|Ai )P (Ai ). i=1

i=1

i=1

Abbildung 6.2.9 illustriert diesen Sachverhalt f¨ ur n = 6. Zun¨achst werden die disjunkten Mengen A1 , . . . , A6 , die auch als Zellen oder Bl¨ocke bezeichnet werden, mit der Menge B geschnitten. Die jeweils resultierenden Schnittmengen werden anschließend vereinigt. Im vorliegenden Fall ist die Schnittmenge von A2 und B die leere Menge. Abb. 6.2.9: Illustration des Satzes von der totalen Wahrscheinlichkeit A4 A5

A6

B

A3 A1

A2



242

6 Einf¨ uhrung in die Wahrscheinlichkeitsrechnung

• Bayes-Formel • F¨ ur eine beliebige Zelle der Partition gilt nun einerseits P (Aj ∩ B) P (Aj |B) = und andererseits P (B) P (Aj ∩ B) P (B|Aj ) = f¨ ur j = 1, . . . , n. P (Aj )

(6.2.6) (6.2.7)

Durch Umformen von (6.2.7) und Einsetzen in (6.2.6) erh¨alt man unter Verwendung des Satzes von der totalen Wahrscheinlichkeit f¨ ur P (B) den Satz von Bayes mit der Bayes-Formel . Satz 6.2.2: Satz von Bayes Angenommen, die Ereignisse A1 , A2 , . . . , An bilden eine disjunkte Zerlegung des Ergebnisraumes Ω mit P (Ai ) > 0 f¨ ur i = 1, . . . , n. Dann gilt f¨ ur jedes Ereignis B ⊂ Ω mit P (B) > 0: P (B|Aj )P (Aj ) f¨ ur i = 1, . . . , n. P (Aj |B) = Pn i=1 P (B|Ai )P (Ai ) Die ber¨ uhmte Formel wurde erst zwei Jahre nach Bayes’ Tod durch seinen Freund Richard Price 1763 publiziert (Bayes und Price [1763]). Wir machen uns die Bedeutung dieser Formel anhand der nachfolgenden typischen Beispielsituation klar. • Beispiel 6.2.6 • In Australien wird ein Patient, der von einer unbekannten Giftschlange gebissen wurde, in die Notaufnahme einer Klinik gebracht. Es muss nun m¨ oglichst schnell das richtige Antiserum gespritzt werden. Angenommen, es kommen im vorliegenden Fall nur drei verschiedene Schlangenarten in Frage, die wir hier mit A1 , A2 und A3 bezeichnen. Nach hauseigenen Statistiken des betroffenen Krankenhauses seien in der Vergangenheit 70% aller Bisse auf Schlange A1 , 20% auf Schlange A2 und 10% auf Schlange A3 zur¨ uckzuf¨ uhren gewesen. Der Patient weist nun aber ein ganz bestimmtes Vergiftungssymptom auf, das einer landesweiten Studie zu Folge mit einer Wahrscheinlichkeit von 5% bei A1 , mit 20% bei A2 und mit 30% bei A3 auftritt. Wie sollte nun entschieden werden? Einerseits sind Bisse der Schlange A1 vorab (a priori) am wahrscheinlichsten, andererseits ist das beobachtete Symptom bei dieser Schlange gerade sehr unwahrscheinlich. Das eine Kriterium orientiert sich am Maximum der 3 Werte P (A1 ) = 0.70, P (A2 ) = 0.20 und P (A3 ) = 0.10

(6.2.8)

und f¨ uhrt damit zu Schlange A1 . Das andere Kriterium orientiert sich dagegen am Maximum der 3 Werte P (B|A1 ) = 0.05, P (B|A2 ) = 0.20 und P (B|A3 ) = 0.30,

(6.2.9)

also an der Frage, bei welcher Schlange das aufgetretene Symptom am wahrscheinlichsten ist. Dies f¨ uhrt dann zu Schlange A3 . Die Bayes-Formel stellt in dieser Situation einen Ausgleich zwischen diesen beiden Kriterien her. Gem¨ aß Bayes-Kalk¨ ul erscheint es am rationalsten, sich f¨ ur diejenige

6.2 Rechnen mit abh¨ angigen und unabh¨ angigen Ereignissen

243

Schlange zu entscheiden, die unter dem beobachteten Symptom am wahrscheinlichsten ist. Damit orientiert sich der Bayes-Kalk¨ ul am Maximum der 3 Werte von (6.2.6). Mit den Wahrscheinlichkeiten aus (6.2.8) und (6.2.9) ergibt sich als totale Wahrscheinlichkeit zun¨achst einmal 3 X P (B) = P (B|Ai )P (Ai ) = 0.05 · 0.70 + 0.20 · 0.20 + 0.30 · 0.10 = 0.105. i=1

Dies bedeutet, dass in diesem Krankhaus 10.5% aller Patienten mit Bissen von Giftschlangen dieses Symptom aufweisen sollten, sofern man der Landesstudie glauben mag. Damit erh¨alt man als bedingte Wahrscheinlichkeiten 0.20 · 0.20 0.05 · 0.70 P (A1 |B) = ≈ 0.33, P (A2 |B) = ≈ 0.38 (6.2.10) 0.105 0.105 0.30 · 0.10 und P (A3 |B) = ≈ 0.29. 0.105 allt folglich zugunsten von A2 aus. Es wird also nochmals anders Die Entscheidung f¨ entschieden als vorher. Abbildung 6.2.10 illustriert die unterschiedlichen Wahrscheinlichkeiten und jeweiligen Ans¨ atze. Abb. 6.2.10: Beispiel: Illustration der verschiedenen kalkulatorischen Ans¨ atze Max. a−priori−Kalkül

Maximum−Likelihood−Kalkül Max.

A1

A2

A3

B |A 1

B |A 2

B |A 3

Bayes−Kalkül Max.

A 1|B

A 2|B

A 3|B

• Bayes-Kalk¨ ul vs. Maximum-Likelihood-Kalk¨ ul • Die Bayes-Formel stellt einen wichtigen Ausgangspunkt zur sog. Bayes-Statistik dar. Die in (6.2.8) aufgestellten Wahrscheinlichkeiten werden dort als A-priori-Wahrscheinlichkeiten bezeichnet, die Wahrscheinlichkeiten von (6.2.10) dagegen als A-posterioriWahrscheinlichkeiten. Gem¨aß Bayes-Kalk¨ ul entscheidet man sich f¨ ur denjenigen Zustand, der unter gegebenen Beobachtungen am wahrscheinlichsten ist. Da bei der Berechnung der Aposteriori-Wahrscheinlichkeiten stets durch die gleiche totale Wahrscheinlichkeit dividiert wird, ist der Bayes-Kalk¨ ul auch ¨ aquivalent zur Suche nach der maximalen Wahrscheinlichkeit der Werte P (B|Ai )P (Ai ) = P (Ai ∩ B)

f¨ ur i = 1, . . . , n.

(6.2.11)

Somit wird das Ai gesucht, welches die gr¨ oßte Wahrscheinlichkeit f¨ ur das gemeinsame Auftreten mit B aufweist. Bildlich entspricht dies der Suche nach der gr¨oßten Schnittfl¨ache von B mit einer der n Zellen. Beispielsweise w¨are in der Situation von Abbildung

244

6 Einf¨ uhrung in die Wahrscheinlichkeitsrechnung

6.2.9 bestehend aus einer Partition mit 6 Zellen die Schnittfl¨ache von A3 und B am gr¨ oßten, wenngleich A5 die gr¨ oßte Zellenfl¨ ache besitzt. Der auf dem Maximum von (6.2.9) basierende Kalk¨ ul ist in der Statistik eng mit dem Maximum-Likelihood-Kalk¨ ul (vgl. Abschnitt 10.3.2) verwandt, bei dem man sich f¨ ur denjenigen Zustand entscheidet, unter dem die gegebenen Beobachtungen am wahrscheinlichsten sind. Bildlich entspricht dies der Suche nach der Schnittfl¨ache, die den gr¨ oßten relativen Anteil an einer Zelle besitzt. In Abbildung 6.2.9 f¨ uhrt dies zur Zelle A6 , f¨ ur die offensichtlich P (B|A6 ) = 1 gilt. Wie auch im vorhergehenden Beispiel f¨ uhren hier Maximum-Likelihood Kalk¨ ul und Bayes-Kalk¨ ul zu verschiedenen Ergebnissen. Wie an (6.2.11) leicht zu erkennen, f¨ uhren die beiden Ans¨atze auf jeden Fall dann zum gleichen Ergebnis, falls alle A-priori-Wahrscheinlichkeiten gleich sind. So gesehen ist der Maximum-Likelihood-Kalk¨ ul ein Spezialfall des Bayes-Kalk¨ uls. Letzteres maximiert zwar die Wahrscheinlichkeit, sich richtig zu entscheiden, setzt daf¨ ur aber zus¨atzliche Information in Form von A-priori-Wahrscheinlichkeiten voraus, die aktuell und zuverl¨assig“ sein m¨ ussen. ” Bayes-Kalk¨ ul vs. Maximum-Likelihood-Kalk¨ ul Grundfrage des Bayes-Kalk¨ uls: Welcher Zustand ist unter den beobachteten Gegebenheiten am wahrscheinlichsten? Grundfrage des Maximum-Likelihood-Kalk¨ uls: Unter welchem Zustand sind die beobachteten Gegebenheiten am wahrscheinlichsten?

Kapitel 7: Theoretische Verteilungen und Abh¨ angigkeiten Abschnitt 7.1 befasst sich zun¨ achst mit der Konzeption von Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen im ein- und mehrdimensionalen Kontext. In Abschnitt 7.2 werden wichtige theoretische Kennwerte zur Spezifikation von Wahrscheinlichkeitsverteilungen sowie deren Eigenschaften besprochen. Abschnitt 7.3 beinhaltet die Vorstellung einiger spezieller Verteilungen und deren m¨oglichen Anwendungen. Abschnitt 7.4 befasst sich speziell mit der Verteilung zufallsabh¨angiger (stochastischer) Summen und Mittelwerte.

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen Zufallsvariablen sind mathematische Funktionen, mit denen sich die Ergebnisse von Zufallsvorg¨angen durch Zahlenwerte ausdr¨ ucken lassen. Sie stellen das theoretische Pendant zu den metrischen Merkmalen in der deskriptiven Statistik dar. Dabei kann einerseits zwischen diskreten und stetigen Zufallsvariablen und andererseits zwischen ein- und mehrdimensionalen Zufallsvariablen unterschieden werden. Wichtigster Aspekt einer Zufallsvariable ist deren Wahrscheinlichkeitsverteilung , welche das theoretische Pendant zur empirischen Verteilung eines Merkmals darstellt. Im mehrdimensionalen Kontext wird dar¨ uber dann auch das Konzept der stochastischen Abh¨ angigkeit und Unabh¨ angigkeit von Zufallsvariablen definiert, welches in v¨olliger Entsprechung zur empirischen Abh¨ angigkeit und Unabh¨angigkeit von Merkmalen steht.

7.1.1 Eindimensionale Zufallsvariablen Konzept und Ausblick • Zufallsvariablen und Realisationen • Zufallsvariablen sind Funktionen, welche die Ergebnisse eines Zufallsvorgangs durch Zahlen ausdr¨ ucken. Die Definitionsmenge ist somit immer ein Ergebnisraum Ω eines Zufallsvorgangs und die Wertemenge die Menge der reellen Zahlen oder zumindest einer Teilmenge davon. Wie Merkmale in der deskriptiven Statistik werden Zufallsvariablen u ¨blicherweise mit lateinischen Großbuchstaben wie etwa X, Y , Z oder X1 , X2 , . . . , Xn bezeichnet. Betrachten wir beispielsweise den Raucherstatus einer zuf¨ allig ausgew¨ ahlten Person mit dem zugeh¨origen Ergebnisraum. ΩRauchen = {Nichtraucher, Gelegenheitsraucher, Raucher},

246

7 Theoretische Verteilungen und Abh¨angigkeiten

so k¨onnte man die 3 Elementarereignisse mithilfe der Zufallsvariablen X auch durch die Zahlen 0, 1 und 2 ausdr¨ ucken. Formal w¨ are X dann eine Funktion X : ΩRauchen → {0, 1, 2} ⊂ R mit X(Nichtraucher) = 0, X(Gelegenheitsraucher) = 1 und X(Raucher) = 2. Dadurch wird auf der Menge der reellen Zahlen ein neuer Ergebnisraum Ω012 = {0, 1, 2} impliziert. Elementarereignisse dieses Ergebnisraumes werden je nach Kontext allgemein als Realisationen oder einschr¨ ankend als Realisationsm¨ oglichkeiten von X bezeichnet. Mithilfe von Zufallsvariablen lassen sich Zufallsereignisse und deren Wahrscheinlichkeiten einfach und pr¨ agnant beschreiben (siehe n¨achster Punkt). Deshalb erweist sich deren Verwendung auch im Falle bereits metrisch skalierter Ergebnisr¨aume“ als ” n¨ utzlich. Sofern in solchen F¨ allen alle Elementarereignisse von Interesse sind, lassen sich die korrespondierenden Zufallsvariablen dann als identische Abbildungen auffassen. Dies bedeutet, dass die einzelnen Elementarereignisse auf sich selbst wieder abgebildet werden. Steht etwa W f¨ ur das Ergebnis beim W¨ urfelwurf mit dem Ergebnisraum ur i = 1, . . . , 6. Die Zufallsvariable ΩW¨urfel = {1, 2, 3, 4, 5, 6}, so gilt dann: W (i) = i f¨ gibt die gew¨ urfelte Zahl als solche wieder. Steht Z f¨ ur die mit einem Taschenrechner erzeugte Zufallszahl mit dem (¨ uberabz¨ ahlbaren) Ergebnisraum ΩZahl = [0, 1], so gilt: Z(x) = x, f¨ ur x ∈ [0, 1]. Sofern nur von Interesse w¨are, ob eine Zahl gr¨oßer oder kleiner als 0.5 ist, k¨onnte man jedoch auch die Zufallsvariable Z ∗ mit Z ∗ (x) = 0 f¨ ur x ≤ 0.5 und Z ∗ (x) = 1 f¨ ur x > 0.5 definieren. Dies w¨ urde den dichotomen Ergebnisraum Ω01 = {0, 1} mit den beiden Realisationsm¨ oglichkeiten 0 und 1 implizieren. • Vorteil kurzer und operabler Schreibweisen • Mithilfe von Zufallsvariablen lassen sich einzelne Ergebnisse und Ereignisse notationsm¨aßig einfach und kurz ausdr¨ ucken. Betrachten wir dazu noch einmal das vorhergehende Beispiel mit dem Raucherstatus einer Person und dem von X implizierten Ergebnisraum Ω012 = {0, 1, 2}. Dann schreibt man beispielsweise f¨ ur die Ereignisse Nichtraucher“ und Raucher“ jeweils nur kurz ” ” X = 0 bzw. X = 2. Mit X ∈ {1, 2} oder X > 0 wird das Ereignis ausgedr¨ uckt, dass eine Person gelegentlich oder regelm¨ aßig raucht. Die korrespondierenden Ereigniswahrscheinlichkeiten werden dann notiert als P (X = 0), P (X = 2), P (X ∈ {1, 2}) bzw. P (X > 0). Interessant wird die Verwendung von Zufallsvariablen insbesondere auch dann, wenn gleichzeitig mehrere davon verwendet werden. Untersucht man beispielsweise das Rauchverhalten innerhalb 3-k¨ opfiger Familien bestehend aus Vater, Mutter und einer erwachsenen Tochter, so k¨ onnten die Zufallsvariablen V , M und T das Raucherverhalten der einzelnen Familienangeh¨ origen beschreiben. In diesem Fall st¨ unde dann beispielsweise P (T > 0|V = 2, M = 0) f¨ ur die (bedingte) Wahrscheinlichkeit, dass die Tochter Gelegenheitsraucher oder Raucher ist, falls der Vater raucht und die Mutter nicht raucht. Die Wahrscheinlichkeit daf¨ ur, dass alle drei Familienangeh¨ origen rauchen, ließe sich hingegen ausdr¨ ucken u ¨ber P (V = 2, M = 2, T = 2).

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen

247

Mengenoperatoren entfallen normalerweise bei der Verwendung von Zufallsvariablen. F¨ ur letzteres Ereignis schreibt man also in der Regel nicht P ({V = 2} ∩ {M = 2} ∩ {K = 2})“, ” sondern setzt stattdessen Kommata zwischen die einzelnen Ereignisse. Der Einsatz von Zufallsvariablen zur Bestimmung bestimmter Ereigniswahrscheinlichkeiten erweist sich jedoch nicht immer als hilfreich oder n¨otig. In Situationen wie etwa im zweiten Beispiel zur Multiplikationsregel (Abschnitt 6.2.1) oder im Beispiel zur Bayes-Formel (Abschnitt 6.2.3) gen¨ ugen Ereignisbetrachtungen ohne Zufallsvariablen. • Bemerkung zur mathematischen Definition • All dies erscheint zun¨achst einmal relativ unproblematisch. Mathematisch ergeben sich daraus jedoch ¨ahnliche Probleme wie bereits bei der Definition von Wahrscheinlichkeitsmaßen (als Funktionen). Dies h¨angt vor allem wieder mit dem in u ¨berabz¨ahlbaren Ergebnisr¨aumen auftretenden Messbarkeitsproblem zusammen. So m¨ ussen bestimmte, die Messbarkeit von Ereignissen betreffende Funktionseigenschaften erf¨ ullt sein, damit berechtigterweise von Zufallsvariablen in einem wohldefinierten Sinne gesprochen werden kann. Es erscheint jedoch nicht notwendig, sich mit diesen mathematischen Details maßtheoretischer Natur n¨aher auseinanderzusetzen, da sie f¨ ur uns keine praktische Relevanz besitzen. Die Zweckm¨aßigkeit von Zufallsvariablen, die f¨ ur uns im Vordergrund steht, wird sich uns Schritt f¨ ur Schritt erschließen. • Wahrscheinlichkeitsverteilung einer Zufallsvariable • Unter der Wahrscheinlichkeitsverteilung (kurz Verteilung ) einer Zufallsvariable versteht man die Art und Weise wie einzelne Realisationen wahrscheinlichkeitsm¨aßig auftreten, also wie diese theoretisch verteilt sind. Sie stellt das theoretische Pendant zur empirischen Verteilung eines Merkmals in der deskriptiven Statistik dar (Kapitel 3). In mathematischerem Sinne versteht man darunter das durch die Zufallsvariable implizierte Wahrscheinlichkeitsmaß auf der Menge der reellen Zahlen (siehe sp¨ater). Konzeptionell wird gew¨ ohnlich zwischen diskreten und stetigen Zufallsvariablen unterschieden, welche abz¨ ahlbar oder u ¨berabz¨ahlbar viele Realisationsm¨oglichkeiten besitzen. Die Verteilung einer diskreten Zufallsvariable wird typischerweise durch eine Wahrscheinlichkeitsfunktion beschrieben, diejenige einer stetigen Zufallsvariable durch eine Wahrscheinlichkeitsdichtefunktion. Die dabei zugrunde gelegten Wahrscheinlichkeiten k¨ onnen empirisch oder theoretisch fundiert sein (Abschnitt 6.1.1). F¨ ur letzteren Fall sind insbesondere die in Abschnitt 7.3 vorgestellten Verteilungsmodelle und die in Abschnitt 7.4.2 behandelten Grenzwerts¨atze von Bedeutung.

Diskrete Zufallsvariablen und Additionskalku ¨l • Wahrscheinlichkeitsfunktion f¨ ur diskrete Zufallsvariablen • Eine Zufallsvariable X heißt diskret, falls sie nur endlich oder abz¨ahlbar unendlich viele Werte annehmen kann. Formal l¨ asst sich dies u ¨ber eine Wahrscheinlichkeitsfunktion definieren, die das theoretische Pendant zur empirischen H¨ aufigkeitsfunktion darstellt (Abschnitt 3.3.1). Diese ordnet spezifischen (diskreten) Werten positive Wahrscheinlichkeiten zu, die in der Summe 1 ergeben.

248

7 Theoretische Verteilungen und Abh¨angigkeiten

Definition 7.1.1: Diskrete Zufallsvariable und Wahrscheinlichkeitsfunktion Eine Zufallsvariable X heißt diskret, falls es f¨ ur endlich oder abz¨ahlbar unendlich viele Werte a1 , a2 , . . . , ak , . . . eine Funktion fX gibt, f¨ ur die gilt: ( P (X = aj ) = pj , f¨ ur x = aj , j = 1, . . . , k, . . . fX (x) = 0, sonst, wobei (i) pj ≥ 0 f¨ ur alle j und P∞ (ii) j=1 pj = 1. Die Funktion fX heißt dann Wahrscheinlichkeitsfunktion von X. Die Menge agermenge von X bezeichnet. Ihre Elemente heißen TX = {aj : pj > 0} wird als Tr¨ Realisationsm¨ oglichkeiten, Tr¨ ager- oder Massenpunkte von X. • Additionskalk¨ ul f¨ ur diskrete Zufallsvariablen • Mittels der Einzelwahrscheinlichkeiten pi kann prinzipiell jedem Ereignis der Form {X ∈ A} f¨ ur A ⊂ R eine Wahrscheinlichkeit zugeordnet werden. In dem daf¨ ur verwendeten Additionskalk¨ ul werden alle Einzelwahrscheinlichkeiten der in A enthaltenen Realisationsm¨oglichkeiten addiert. Dies ergibt sich unmittelbar aus der Kolmogoroff’schen Axiomatik. Die Realisationsm¨ oglichkeiten sind also nur diejenigen Werte (Realisationen) von X, die positive Wahrscheinlichkeiten aufweisen und somit auch eintreten k¨onnen. Satz 7.1.1: Additionskalk¨ ul f¨ ur diskrete Zufallsvariablen Sei X eine diskrete Zufallsvariable mit Realisationsm¨oglichkeiten a1 , a2 , . . . , ak , . . . und zugeh¨origen Wahrscheinlichkeiten p1 , p2 , . . . , pk , . . . Dann gilt f¨ ur jedes Ereignis X ∈ A mit A ⊂ R: X pj . P (X ∈ A) = j:aj ∈A

Abb. 7.1.1: Wahrscheinlichkeitsfunktionen diskreter Zufallsvariablen Beispiel D1−a

f X (x ) 0.4

0.4

0.3

0.3

0.2

0.2

0.1

0.1

0.0

0.0 −1

0

1

2

x

3

Beispiel D1−b

f Y (y )

4

5

usw. −1 0

1

2

3

4

y

5

6

7

8

9

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen

249

• Beispiel D1-a • Sei X eine diskrete Zufallsvariable, welche die Anzahl mitreisender Kinder bei gebuchten Pauschalreisen eines bestimmten Reiseveranstalters angibt. Auf Basis empirischer Erfahrungen ergeben sich folgende Wahrscheinlichkeiten (Abb. 7.1.1, links): P (X = 0) = 0.4, P (X = 1) = 0.2, P (X = 2) = 0.3, P (X = 3) = 0.1. Die Tr¨agermenge von X lautet dann TX = {0, 1, 2, 3}. Weiter gilt gem¨aß Notation p1 = 0.4, p2 = 0.2, p3 = 0.3 und p4 = 0.1 bzw. fX (0) = 0.4, fX (1) = 0.2, fX (2) = 0.3 und fX (3) = 0.1. Man beachte am Rande, dass der Index j der pj -Werte nicht mit den Realisationsm¨ oglichkeiten u ¨bereinstimmen muss. Schwarze und weiße Punkte in Abbildung 7.1.1 verdeutlichen den genauen Verlauf der Wahrscheinlichkeitsfunktion. Betrachtet man nun beispielsweise das Ereignis {X ≤ 2}, so folgt mittels Additionskalk¨ ul P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2) = 0.9. Alternativ erh¨alt man dies auch u ¨ber das Gegenereignis P (X ≤ 2) = 1−P (X > 3) = 1− P (X = 3) = 0.9. Die Wahrscheinlichkeit, dass in einer Buchung h¨ochstens 2 mitreisende Kinder angegeben werden, betr¨ agt folglich 90%. • Beispiel D1-b • Sei Y eine diskrete Zufallsvariable, welche die Anzahl eingehender Notrufe an einem Rettungswagen-St¨ utzpunkt w¨ahrend einer Stunde angibt. Theoreti¨ sche Uberlegungen f¨ uhren dazu, dass sich die Verteilung von Y durch eine sog. PoissonVerteilung (Abschnitt 7.3.1) mit Parameter λ = 3 approximieren lassen sollte. Dabei sollte (idealerweise) gelten (zur Bedeutung des Fakult¨atssymbols !“ siehe Abschnitt ” 7.3.1): ( y 3 −3 e , y = 0, 1, 2, . . . , fY (y) = y! 0, sonst. Dies w¨ urde beispielsweise 32 −3 e ≈ 0.22 2! agermenge ist hier die Menge aller nat¨ urlich Zahlen einschließlich 0, implizieren. Die Tr¨ d.h. TY = N0 . Tats¨ achlich gilt auch hier: ∞ ∞ X X fY (j) = pj = 1. P (Y = 0) = e−3 ≈ 0.05 oder P (Y = 2) =

j=0

j=1

Die Wahrscheinlichkeiten f¨ ur Werte gr¨ oßer als 8 in Abbildung 7.1.1 (rechts) sind also nicht etwa gleich 0, sondern nur sehr klein. Dies entspricht nat¨ urlich nur einer theoretischen Vorstellung. In der Praxis sollte die Anzahl m¨oglicher Notrufe nach oben beschr¨ankt sein und kann nat¨ urlich nicht jeden beliebig großen Wert annehmen. Betrachtet man beispielsweise das Ereignis, dass mehr als 8 Notrufe eingehen, sprich das Ereignis Y > 8, so folgt mit dem Additionskalk¨ ul P (Y > 8) = 1 − P (Y ≤ 8) = 1 −

8 X 3j j=0

agt ca. 0.4%. Die Wahrscheinlichkeit betr¨

j!

e−3 ≈ 0.004.

250

7 Theoretische Verteilungen und Abh¨angigkeiten

Stetige Zufallsvariablen und Integrationskalku ¨l • Wahrscheinlichkeitsdichtefunktion f¨ ur stetige Zufallsvariablen • Stetige Zufallsvariablen besitzen u ahlbar viele Realisationsm¨oglichkeiten. Typischerweise ¨berabz¨ bilden sie die Auspr¨ agungen stetig skalierter Merkmale ab, wie etwa die Lebensdauer einer Computer-Festplatte, die Abfertigungs- oder Wartezeit an einem Gep¨ackschalter, die K¨orpergr¨oße einer Person oder den monatlichen Umsatz eines Unternehmens. Die Ergebnisr¨aume sind in solchen F¨ allen h¨ aufig abgeschlossene oder halboffene Intervalle wie etwa [a, b] f¨ ur a < b oder [0, ∞). Theoretisch steht dann jede beliebige reelle Zahl des ogliches Ergebnis zur Disposition. Wie bereits in Abschnitt 6.1.3 Ergebnisraumes als m¨ ausgef¨ uhrt, ist es mathematisch jedoch nicht m¨oglich, jeder einzelnen reellen Zahl eine positive Wahrscheinlichkeit zuzuordnen, ohne dabei die Kolmogoroff’sche Axiomatik zu verletzen. Stattdessen werden in diesem Fall in erster Linie nur noch Intervallereignissen wie etwa {X ≤ b},

{X > a},

{a ≤ X ≤ b}

oder {a < X ≤ b}

positive Wahrscheinlichkeiten zugeordnet. Dies wird durch eine Wahrscheinlichkeitsdichtefunktion (kurz Dichte) definiert, die das theoretische Pendant zur empirischen H¨ aufigkeitsdichtefunktion (Histogramm) darstellt (Abschnitt 3.3.2). Dabei handelt es sich um eine nichtnegative Funktion mit Gesamtfl¨ache“ 1, die Intervallereig” nissen u ¨ber Integralbildung Wahrscheinlichkeiten zuordnet. Abbildung 7.1.2 illustriert dieses Integrationskalk¨ ul. Abb. 7.1.2: Wahrscheinlichkeitsdichtefunktion und Integrationskalk¨ ul f X (x)

f X (x)



⌠ f (x) d x = 1 ⌡−∞ X

Trägermenge T X

x

a

b

b

P (a ≤ X ≤ b ) = ⌠ f X (x) d x ⌡a

x

Definition 7.1.2: Stetige Zufallsvariable und Wahrscheinlichkeitsdichtefunktion Eine Zufallsvariable X heißt stetig, falls es eine Funktion fX (x) gibt, f¨ ur die gilt: Z b P (a ≤ X ≤ b) = fX (x)dx f¨ ur alle a ≤ b, wobei a

(i) fX (x) ≥ 0 f¨ ur alle reellen x gilt und R∞ (ii) −∞ fX (x)dx = 1 ist.

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen

251

Die Funktion fX heißt dann Wahrscheinlichkeitsdichtefunktion, Dichtefunktion oder Dichte von X. Die Menge TX = {x : fX (x) > 0} wird als Tr¨agermenge von X bezeichnet. Ihre Elemente heißen Realisationsm¨ oglichkeiten von X. ¨ Der besseren Ubersichtlichkeit und Lesbarkeit wegen unterscheiden wir notationsm¨aßig nicht zwischen Wahrscheinlichkeits- und Dichtefunktionen, wenngleich der Rechenkalk¨ ul jeweils ein v¨ollig anderer ist. Generell ist zu betonen: Dichtewerte sind keine Wahrscheinlichkeiten! Dies l¨asst sich allein schon daraus ersehen, dass die Funktionswerte einer Dichte durchaus gr¨oßer als 1 sein k¨ onnen (siehe Beispiel S1-a, unten). Einzig ausschlaggebend sind wie beim Histogramm Fl¨ achenbetrachtungen. • Integrationskalk¨ ul f¨ ur stetige Zufallsvariablen • Das Integral einer Dichtefunktion u ¨ber einem Intervall ergibt die Wahrscheinlichkeit, dass eine Realisation von X in dieses Intervall hineinf¨ allt. Daraus folgt zwangsl¨aufig f¨ ur jedes a ∈ R: Z a P (X = a) = P (X ∈ [a, a]) = fX (x)dx = 0. a

Die Wahrscheinlichkeit f¨ ur jede reelle Zahl ist gleich 0. Insbesondere sollten also dann selbst einzelne Werte innerhalb der Tr¨ agermenge von X unm¨oglich“ sein. Allerdings ” sind in unmittelbarer Umgebung“ um diese in der Regel bestimmte Intervallereignisse ” m¨ oglich, sodass es legitim erscheint, sie als Realisationsm¨ oglichkeiten zu bezeichnen. Es gilt stets: P (X ∈ TX ) = 1 und P (X ∈ T¯X ) = 0. Weiter folgt dann mit der Rechenregel f¨ ur disjunkte Ereignisse beispielsweise auch P (a < X ≤ b) = P (a ≤ X ≤ b) − P (X = a) = P (a ≤ X ≤ b). Somit ist es bei der Berechnung von Intervallwahrscheinlichkeiten f¨ ur stetige Zufallsvariablen unerheblich, ob abgeschlossene, halboffene oder offene Intervalle betrachtet werden. Es sollte bedacht werden, dass es sich hierbei um ein rein mathematisches Resultat handelt, das sich zwangsl¨ aufig aus diesem Kalk¨ ul ergibt und reale Gegebenheiten nicht exakt widerspiegeln kann. Allerdings kann andersherum auch gefragt werden, ob in der Realit¨at ein Kontinuum“ u oglich ist. Sofern beispielsweise eine im freien ¨berhaupt m¨ ” Fall befindliche Kugel von 0 Meter pro Sekunde auf 1 Meter pro Sekunde beschleunigt, ist nicht ohne weiteres klar, ob diese dann tats¨achlich jeden beliebigen Wert x ∈ [0, 1] als augenblickliche Geschwindigkeit angenommen hat. Wir u ¨berlassen dieses Problem jedoch den Physikern. Sofern A ⊂ R eine aus abz¨ ahlbar vielen Intervallen durch Vereinigung-, Schnittund Komplementbildung konstruierte oder konstruierbare Menge ist, geh¨ort sie im Zusammenhang stetiger Zufallsvariablen zu den sog. messbaren Mengen. Aus der Axiomatik folgt dann Z P (X ∈ A) = fX (x)dx, A

252

7 Theoretische Verteilungen und Abh¨angigkeiten

wobei m¨oglicherweise abschnittsweise“ zu integrieren ist. So w¨ urde beispielsweise f¨ ur ” die aus den Intervallen A1 = [0, 2], A2 = (1, 3] und A3 = [4, 6) konstruierte Menge A = (A1 ∩ A2 ) ∪ A3 = (1, 2] ∪ [4, 6) gelten: Z 2 Z 6 Z fX (x)dx + fX (x)dx. P (X ∈ A) = fX (x)dx = A

1

4

Satz 7.1.2: Integrationskalk¨ ul f¨ ur stetige Zufallsvariablen Sei X eine stetige Zufallsvariable mit Dichtefunktion fX und A ⊂ R eine aus abz¨ahlbar vielen Intervallen durch Vereinigung-, Schnitt- und Komplementbildung konstruierte oder konstruierbare Menge. Dann gilt Z P (X ∈ A) = fX (x)dx. A

Speziell folgt daraus: (i) P (X = a) = 0 f¨ ur jedes a ∈ R und (ii) P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b).

• Messbarkeitsproblem • Jedoch kann u ul nicht jeder be¨ber den Integrationskalk¨ liebigen Menge A ⊂ R eine Wahrscheinlichkeit zugeordnet werden. Vereinfacht gesagt ergibt sich dies daraus, dass f¨ ur bestimmte Mengen das Integral Z fX (x)dx A

nicht definiert ist. Solche nicht messbaren Mengen sind zwar sehr unanschaulich und lassen sich nur mit erheblichem mathematischem Aufwand definieren, dennoch k¨onnen sie aufgrund ihrer Existenz aus mathematischer Sicht nicht einfach ignoriert werden kann. Aufgrund dieses Messbarkeitsproblems kann auch nicht jedem Ereignis“ der Form ” {X ∈ A} eine wohl-definierte Wahrscheinlichkeit zugeordnet werden. Streng genommen wird {X ∈ A} f¨ ur nicht messbares A dann auch nicht mehr als Ereignis bezeichnet. Abb. 7.1.3: Dichtefunktionen stetiger Zufallsvariablen f X (x )

Beispiel S1−a

1.2

f Y (y )

Beispiel S1−b

0.05

1.0

0.04

0.8

0.03

0.6

0.02

0.4 0.2

0.01

0.0

0.00 0.0 0.5 1.0 1.5 2.0 2.5 3.0

x

−10 0

10

20

30

40

y

50

60

70

80

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen

253

• Beispiel S1-a • Sei X eine stetige Zufallsvariable, welche die H¨ohe des Trinkgeldes angibt, welches den Servicekr¨ aften eines Restaurants pro Abrechnung u ¨berlassen wird. Auf Basis empirischer Erfahrungen ergibt sich n¨aherungsweise folgende Verteilung: 60% aller Trinkgelder liegen zwischen 0 Euro und 50 Cent, 25% zwischen 50 Cent und 1 Euro und 15% zwischen 1 und 2 Euro. Die Dichtefunktion laute:  1.2, x ∈ (0, 0.5],    0.5, x ∈ (0.5, 1.0], fX (x) =  0.15, x ∈ (1.0, 2.0],    0, sonst. An der ersten Gr¨oßenklasse wird deutlich, dass Dichtewerte durchaus gr¨oßer als 1 sein k¨onnen. Der Dichtewert 1.2 sagt aus, dass sich in diesem Bereich auf einer Einheit (1 Euro) ca. 120% Wahrscheinlichkeitsmasse befinden; oder ¨aquivalent und in diesem Fall ad¨aquater ausgedr¨ uckt, auf einer halben Einheit (50 Cent) 60% Wahrscheinlichkeitsmasse. Abbildung 7.1.3 illustriert den Verlauf der Dichtefunktion. Schwarze und weiße Punkte verdeutlichen den genauen Funktionsverlauf. Konzeptionell besteht hier kaum ein Unterschied zur H¨ aufigkeitsdichtefunktion bzw. zum Histogramm (Abschnitt 3.2.3), außer dass wir jetzt anstelle relativer oder prozentualer Anteile nun von Wahrscheinlichkeiten sprechen. Deshalb k¨ onnte man eine derartige Dichtefunktion auch als Wahrscheinlichkeitshistogramm bezeichnen. Die Fl¨achen der einzelnen S¨aulen entsprechen den korrespondierenden Intervallwahrscheinlichkeiten“ und die Gesamtfl¨ache ” betr¨agt 1. Der Integrationskalk¨ ul ist bei derartigen Wahrscheinlichkeitshistogrammen besonders einfach. Es gen¨ ugt ein gedankliches Addieren von Rechteckfl¨achen. Beispielsweise sind zur Bestimmung der Wahrscheinlichkeit von X ≤ 1 lediglich die ersten beiden S¨aulenfl¨achen zu addieren, was offensichtlich 0.6 + 0.25 = 0.85 ergibt. F¨ ur X ≤ 0.8 lautet die Rechnung dagegen P (X ≤ 0.8) = 0.6 + 0.3 · 0.5 = 0.75. In diesem Fall wird die zweite S¨ aule dann nur auf einer L¨ ange von 0.3 ber¨ ucksichtigt. Die Schraffierung im linken Schaubild von Abbildung 7.1.3 hebt die berechnete Fl¨ache hervor. Die Wahrscheinlichkeit eines Trinkgeldes von h¨ ochstens 80 Cent betr¨agt demnach 75%, von h¨ochstens 1 Euro dagegen 85%. • Beispiel S1-b • Sei Y eine stetige Zufallsvariable, welche die Wartezeit in Minuten bis zum n¨achsten eingehenden Notruf an einem Rettungswagenst¨ utzpunkt angibt. ¨ Theoretische Uberlegungen f¨ uhren dazu, dass sich die Verteilung von Y durch eine sog. Exponential-Verteilung (Abschnitt 7.3.2) mit Parameter λ = 0.05 approximieren lassen sollte. Dabei sollte gelten: ( 0.05e−0.05y , y ≥ 0, fY (y) = 0, y < 0. Da Wartezeiten u ¨blicherweise nicht negativ sein k¨onnen, macht es hier durchaus Sinn, eine theoretische Verteilung mit Tr¨ agermenge R+ = [0, ∞) zu w¨ahlen. Tats¨achlich gilt auch Z ∞ fY (y)dy = 1. −∞

254

7 Theoretische Verteilungen und Abh¨angigkeiten

Die Dichtewerte f¨ ur Werte gr¨ oßer als 80 in Abbildung 7.1.3 (rechts) sind nicht etwa gleich 0, sondern nur sehr klein. Wie schon bei der Poisson-Verteilung entspricht dies nur einer theoretischen Vorstellung. In der Praxis sollte die Wartezeit nicht beliebig große Werte annehmen k¨ onnen und außerdem auch stark mit Tageszeit und Wochentag variieren. Betrachtet man beispielsweise das Ereignis, dass die Wartezeit zwischen 10 und 30 Minuten betr¨agt, sprich das Ereignis 10 ≤ Y ≤ 30, so folgt mit dem Integrationskalk¨ ul Z 30  30 P (10 ≤ Y ≤ 30) = 0.05e−0.05y dy = −e−0.05y 10 10

= −e−0.05·30 + e−0.05·10 ≈ 0.38. Die Wahrscheinlichkeit betr¨ agt ca. 38%. Die Schraffierung im rechten Schaubild von Abbildung 7.1.3 hebt die berechnete Fl¨ ache hervor. Die Wahrscheinlichkeit f¨ ur eine Wartezeit l¨anger als 80 Minuten betr¨ agt dagegen nur etwa 2%. Dies folgt aus Z 80 P (Y > 80) = 1 − P (Y ≤ 80) = 1 − 0.05e−0.05y dy 0

 80 = 1 − −e−0.05y 0 = 1 − [−e−0.05·80 + 1] ≈ 0.02. • Verwendung von Indikatorfunktionen • Insbesondere auch zur Spezifizierung abschnittsweise definierter Funktionen stellt sich die Verwendung sog. Indikatorfunktionen als zweckm¨ aßig heraus, da diese anstelle zahlreicher Fallunterscheidungen kompaktere Darstellungen erlauben. Die Indikatorfunktion, welche wir mit I notieren, ist eine Funktion, die nur die Werte 0 und 1 annehmen kann, d.h. I : R → {0, 1}. Entscheidend ist eine (meist) im Index von I angegebene Indikatormenge A ⊂ R: IA . Die Indikatorfunktion nimmt f¨ ur jeden Wert x ∈ A den Wert 1 an und sonst den Wert 0, d.h. ( 1, x ∈ A, IA (x) = 0, x 6∈ A. In der Praxis ist A h¨ aufig ein abgeschlossenes, offenes oder halboffenes Intervall. Beispielsweise w¨ urde gelten: I[1,2] (0.8) = 0, I[1,2] (1) = 1, I[1,2] (1.89) = 1, I[1,2] (2) = 1, I[1,2] (2.1) = 0, I(1,2] (1) = 0, I(−∞,4] (−3) = 1, I(4,∞] (2) = 0 usw. Somit l¨asst sich beispielsweise die Dichtefunktion korrespondierend zum Wahrscheinlichkeitshistogramm aus Beispiel S1-a kompakt formulieren als fX (x) = 1.2I(0,0.5] (x) + 0.5I(0.5,1] (x) + 0.15I(1,2] (x). Da die Indikatormengen disjunkt sind, ist immer nur genau eine der 3 Indikatorfunktionen 1, sofern x nicht kleiner gleich 0 oder gr¨oßer als 2 ist. Beispielsweise gilt f¨ ur x = 0.8: fX (0.8) = 1.2I(0,0.5] (0.8) + 0.5I(0.5,1] (0.8) + 0.15I(1,2] (0.8) = 1.2 · 0 + 0.5 · 1 + 0.1 · 0 = 0.5. Analoges gilt f¨ ur die Dichte aus Beispiel S1-b, die sich dann notieren ließe als fY (y) = 0.05e−0.05y I[0,∞) (y).

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen

255

Theoretische Verteilungsfunktion • Verteilungsfunktion diskreter und stetiger Zufallsvariablen • Das theoretische Pendant zur empirischen Verteilungsfunktion (Abschnitt 3.3) ist die Verteilungsfunktion einer Zufallsvariable X, die man zur besseren Unterscheidung auch als theoretische Verteilungsfunktion bezeichnen k¨onnte. Anstelle relativer Anteile von Beobachtungswerten kumuliert die theoretische Verteilungsfunktion Wahrschein” lichkeiten“. Ihr Wert an der Stelle x entspricht der Wahrscheinlichkeit des Ereignisses X ≤ x. Definition 7.1.3: Theoretische Verteilungsfunktion Sei X eine diskrete oder stetige Zufallsvariable. Dann ist die (theoretische) Verteilungsfunktion von X definiert als FX (x) = P (X ≤ x). Daraus folgt: P (i) Falls X diskret ist, gilt: FX (x) = j:aj ≤x pj . Rx (ii) Falls X stetig ist, gilt: FX (x) = −∞ fX (t)dt.

Eine Anwendung der Verteilungsfunktion besteht darin, mit ihrer Hilfe Wahrscheinlichkeiten f¨ ur bestimmte Intervallereignisse zu berechnen. So gilt allgemein f¨ ur reelle a < b: P (a < X ≤ b) = FX (b) − FX (a).

(7.1.1)

Abb. 7.1.4: Verteilungsfunktionen diskreter Zufallsvariablen Beispiel D1−a

F X (x )

Beispiel D1−b

F Y (y )

1.0

1.0

0.8 0.6

usw.

0.8

0.3

0.6

0.4

0.4

0.2

0.2

0.0

0.22

0.0 −1

0

1

2

x

3

4

5

−1

0

1

2

y

3

4

5

Bei diskreten Zufallsvariablen ergibt sich die Verteilungsfunktion durch Kumulieren aller Einzelwahrscheinlichkeiten der Wahrscheinlichkeitsfunktion bis zu einem bestimmten Wert x. Daraus resultiert eine monoton steigende, rechtsstetige Treppenfunktion. Rechtsstetig“ bedeutet, dass die Funktion von rechts“ betrachtet an jeder Stelle stetig ” ” ist, aber nicht zwingend von links“. F¨ ur kleines ε > 0“ gilt stets FX (x) = FX (x + ε). ” ” Abbildung 7.1.4 zeigt die Verteilungsfunktionen FX und FY der diskreten Zufallsvariablen X und Y aus den vorhergehenden beiden Beispielen D1-a und D1-b. Die

256

7 Theoretische Verteilungen und Abh¨angigkeiten

Sprungh¨ohen“ der einzelnen Stufen entsprechen den Wahrscheinlichkeiten der jewei” ligen Realisationsm¨ oglichkeiten, also den Werten der Wahrscheinlichkeitsfunktion fX bzw. fY an diesen Stellen. Beispielsweise gilt, vgl. (7.1.1): FX (2) − FX (1) = P (1 < X ≤ 2) = P (X = 2) = fX (2) = 0.3 bzw. FY (2) − FY (1) = P (1 < Y ≤ 2) = P (Y = 2) = fY (2) ≈ 0.22. Außerdem werden die Funktionswerte an den Sprungstellen stets oben und nicht unten abgelesen. So gilt etwa FX (1) = 0.6 und nicht etwa FX (1) = 0.4. Eine unmittelbare Konsequenz daraus ist die Rechtsstetigkeit der Verteilungsfunktion. So gilt beispielsweise an der Sprungstelle 1 f¨ ur kleines ε > 0“ einerseits FX (1 + ε) = 0.6 und andererseits ” FX (1 − ε) = 0.4. Abb. 7.1.5: Verteilungsfunktionen stetiger Zufallsvariablen F X (x )

Beispiel S1−a

1.0

Beispiel S1−b

F Y (y ) 1.0

0.8

∆F X

0.6

∆x

= 0.5

0.8 0.6

0.4

0.4

∆F Y

0.2

0.2

∆y

0.0

0.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0

x

−10 0

10

20

30

40

= 0.018

50

60

70

80

y

Bei stetigen Verteilungen ergibt sich die Verteilungsfunktion durch Integration der Wahrscheinlichkeitsdichtefunktion bis zu einem bestimmten Wert x. Daraus resultiert stets eine monoton wachsende stetige Funktion, die zwangsl¨aufig nat¨ urlich auch rechtsstetig ist. Abbildung 7.1.5 zeigt die Verteilungsfunktionen FX und FY der stetigen Zufallsvariablen X und Y aus den vorhergehenden Beispielen S1-a und S1-b. Ist die Dichtefunktion f einer stetigen Zufallsvariable an der Stelle x stetig, dann ist die Verteilungsfunktion dort auch differenzierbar und es gilt dF (x) = f (x). F 0 (x) = dx Dies ergibt sich aus dem analytischen Zusammenhang von Verteilungsfunktion und Dichte im Rahmen der Differential- und Integrationstheorie. Ihre konkrete Berechnung wird in einem nachfolgenden Punkt anhand der obigen beiden Beispiele demonstriert. Da Verteilungsfunktionen Wahrscheinlichkeiten als Funktionswerte ausgeben, k¨onnen sie offensichtlich nur Werte im Intervall [0, 1] annehmen. F¨ ur gegen −∞ strebende x-Werte strebt jede Verteilungsfunktion gegen 0 und f¨ ur gegen +∞ gehende x-Werte gegen 1. Die Werte 0 und 1 selbst m¨ ussen dabei jedoch nicht zwingend angenommen werden. Im Falle der Poisson-Verteilung beispielsweise (Abb. 7.1.4 rechts) gibt es kein x ∈ R, sodass gelten w¨ urde FY (x) = 1. Gleiches gilt f¨ ur die Exponentialverteilung (Abb. 7.1.5 rechts). Im Falle der Normalverteilung (Abschnitt 7.3.2) ist die Tr¨agermenge sogar ganz R, sodass weder die 0 noch die 1 als Funktionswerte m¨oglich sind.

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen

257

Eigenschaften von Verteilungsfunktionen 1. F¨ ur die Verteilungsfunktion FX einer Zufallsvariablen X gilt stets: (a) FX (x) ∈ [0, 1] f¨ ur jedes x ∈ R. (b) FX ist monoton steigend, d.h. FX (x1 ) ≤ FX (x2 ) f¨ ur x1 < x2 . (c) FX ist rechtsstetig, d.h. FX (x + n1 ) → FX (x) f¨ ur n → ∞. (d) FX (x) → 0 f¨ ur x → −∞. (e) FX (x) → 1 f¨ ur x → +∞. 2. Die Verteilungsfunktion einer diskreten Zufallsvariable ist eine Treppenfunktion mit Sprungstellen an den Realisationsm¨oglichkeiten und Sprungh¨ohen, die den jeweiligen Wahrscheinlichkeiten entsprechen. 3. Die Verteilungsfunktion FX einer stetigen Zufallsvariable X mit Dichtefunktion fX ist stetig. Sofern FX an der Stelle x differenzierbar ist, gilt: 0 FX (x) = fX (x).

• Berechnung einer Verteilungsfunktion • Da die analytische Bestimmung der Verteilungsfunktion einer diskreten Zufallsvariablen wenig erkenntnisgewinnend und eher m¨ ußiger Natur erscheint, beschr¨ anken wir uns im Folgenden auf stetige Zufallsvariablen. Wir betrachten dazu nochmals die vorhergehenden Beispiele S1-a und S1-b. • Beispiel S1-a fortgesetzt • Die Dichtefunktion von Beispiel S1-a ist gegeben durch fX (x) = 1.2I(0,0.2] (x) + 0.5I(0.2,1] (x) + 0.15I(1,2] (x). Dann lautet die zu Abbildung 7.1.5 (links) geh¨ orende Verteilungsfunktion FX (x) = 1.2xI(0,0.5] (x) + (0.5x + 0.35)I(0.5,1] (x) + (0.15x + 0.7)I(1,2] (x) + I(2,∞) (x). Die Dichtefunktion ist abschnittsweise zu integrieren. Die Stammfunktion des 1. Abschnitts im Intervall (0, 0.5] lautet 1.2x. Prinzipiell w¨are jede Funktion 1.2x+c f¨ ur c ∈ R eine zul¨assige Stammfunktion. Jedoch hat im vorliegenden Fall die Funktion 1.2x + c nur f¨ ur c = 0 an der Stelle 0 den Wert 0 und an der Stelle 0.5 den Wert 0.6. Die bis 0 bzw. 0.5 integrierte Wahrscheinlichkeitsmasse sollte ja 0 bzw. 0.6 betragen. Somit wird also stets diejenige Stammfunktion gew¨ ahlt, die vor dem Hintergrund der Eigenschaften als Verteilungsfunktion korrekt ist und f¨ ur eine insgesamt stetige Verteilungsfunktion ohne irgendwelche Bruchstellen“ zwischen einzelnen Intervallen sorgt. F¨ ur den 2. Ab” schnitt im Intervall (0.5, 1] w¨ ahlt man deshalb nicht einfach 0.5x, sondern 0.5x+0.35 als Stammfunktion. Die bis 0.5 bereits integrierte Wahrscheinlichkeitsmasse von 0.6 wird damit korrekt ber¨ ucksichtigt, und an der Stelle 1 weist die Verteilungsfunktion damit den Wert 0.85 auf. So geht es dann abschnittsweise immer weiter. Schließlich ist zu bedenken, dass f¨ ur Werte gr¨ oßer als 2 die Verteilungsfunktion den Wert 1 annehmen muss, da ja gilt P (X ≤ x) = 1 f¨ ur x ≥ 2. Das wird durch die Indikatorfunktion I(2,∞) (x)“ ”

258

7 Theoretische Verteilungen und Abh¨angigkeiten

gew¨ahrleistet. Die Verteilungsfunktion ist außerhalb der Knickstellen“ 0.5, 1 und 2 ” u asst sich abschnittsweise bilden und ergibt die ¨berall differenzierbar. Die 1. Ableitung l¨ Dichtefunktion fX . Beispielsweise gilt f¨ ur x ∈ (0.5, 1): 0 FX (x) = fX (x) = 0.5.

Man beachte, dass bereits in Abschnitt 3.3.2 ein analoges Resultat f¨ ur die approximative empirische Verteilungsfunktion f¨ ur klassierte Daten festgehalten wurde. • Beispiel S1-b fortgesetzt • Die Dichtefunktion von Beispiel S1-b ist gegeben durch fY (y) = 0.05e−0.05y I[0,∞) (y). F¨ ur y < 0 gilt dann FY (y) = P (Y ≤ y) = 0 und f¨ ur y > 0: Z y Z y  y FY (y) = fY (t)dt = 0.05e−0.05t dt = −e−0.05t 0 0

0

= −e−0.05y − (−e−0.05·0 ) = −e−0.05y + 1. Somit lautet die zu Abbildung 7.1.5 (rechts) geh¨orende Verteilungsfunktion insgesamt FY (y) = (1 − e−0.05y )I[0,∞) (y). Man beachte, dass als Integrationsvariable eine andere Variable als y“ wie etwa t“ ” ” gew¨ahlt werden muss. Dies ergibt sich daraus, dass die Verteilungsfunktion bereits eine Funktion von y“ ist, also bis zum Wert y integriert wird. Ein h¨aufig verbreiteter Fehler ” ist, das Integral in der Form Z y f (y)dy“ ” 0 Y zu fassen. Die FY ist außer an der Stelle 0 u ¨berall differenzierbar; die 1. Ableitung ergibt erwartungsgem¨aß fY . Beispielsweise gilt: FY0 (20) = fY (20) = 0.05e−0.05·20 ≈ 0.018. Der Dichtewert 0.018 sagt aus, dass sich in der Grenzbetrachtung an der Stelle 20 pro Einheit (1 Minute) ca. 1.8% Wahrscheinlichkeitsmasse befinden. ¨ • Aquivalenz und Eindeutigkeit • Wahrscheinlichkeitsfunktion und Verteilungsfunktion einer diskreten Zufallsvariable sind vom Informationsgehalt v¨ollig ¨aquivalent. Von der Wahrscheinlichkeitsfunktion kann direkt und eindeutig auf die Verteilungsfunktion geschlossen werden und umgekehrt. Bei stetigen Zufallsvariablen ist das fast“ ” genauso. Von einer Dichtefunktion kann eindeutig auf die Verteilungsfunktion geschlossen werden, die Umkehrung gilt jedoch nicht ganz“. Betrachten wir dazu nochmals ” Beispiel S1-a. Insbesondere an den Knickstellen ließe sich die Dichtefunktion alternativ auch w¨ahlen als ∗ fX (x) = 1.2I[0,0.5) (x) + 0.5I[0.5,1) (x) + 0.15I[1,2) (x).

Hier w¨ urde man die Intervalle als links abgeschlossen und rechts offen w¨ahlen. Die implizierte Verteilungsfunktion w¨ are jedoch genau die gleiche. Theoretisch ließen sich sogar abz¨ahlbar viele Sprungstellen“ in eine Dichtefunktion einbauen, ohne die Verteilungs” funktion dabei zu ver¨ andern. Analytisch ist damit die Dichtefunktion einer stetigen Zufallsvariable nur bis auf abz¨ ahlbar viele Stellen eindeutig definiert. Das trifft auch

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen

259

auf Dichtefunktionen von stetigen Zufallsvektoren (vgl. Definition 7.1.8) zu. Im Folgenden wird die Nichteindeutigkeit der Dichtefunktion nicht weiter thematisiert. Gewisse Aussagen sind aber so zu verstehen, dass sie f¨ ur eine geeignete Wahl“ der Dichtefunk” 0 tion gelten. Das betrifft z.B. die Beziehung FX (x) = fX (x) oder die Charakterisierung der Unabh¨angigkeit von Zufallsvariablen mithilfe von Dichtefunktionen (vgl. Definition 7.1.12). Die Dichtefunktion einer stetigen Zufallsvariable muss nicht zwingend stetig sein, wie etwa Beispiel S1-a verdeutlicht. Die Verteilungsfunktion einer stetigen Zufallsvariable ist jedoch immer stetig, worauf sich etwas vereinfacht gesagt dann auch die Bezeichnung stetig“ begr¨ undet. ”

Wahrscheinlichkeitsverteilung • Impliziertes Wahrscheinlichkeitsmaß und Wahrscheinlichkeitsverteilung • Es l¨asst sich zeigen, dass eine Zufallsvariable ein Wahrscheinlichkeitsmaß auf R als Ergebnisraum impliziert. Im diskreten Fall bedeutet diese etwas feinsinnige Betrachtung, dass jede Menge A ⊂ R der reellen Zahlen als Ereignis betrachtet werden kann. Ansteloriger Wahrscheinlichkeit P (X ∈ A) kann man le des Ereignisses {X ∈ A} mit zugeh¨ also auch gleich direkt das Ereignis A und die zugeh¨orige Wahrscheinlichkeit PX (A) betrachten. Unter PX wird das von X erzeugte Wahrscheinlichkeitsmaß auf R verstanden, f¨ ur das die Kolmogoroff’sche Axiomatik gilt wie auch alle daraus abgeleiteten Rechenregeln. Beispielsweise w¨ urde im Falle des W¨ urfelwurfes mit dem Ergebnisraum ur das Intervall A = [0.5, 3.2] einerseits Ω = {1, 2, 3, 4, 5, 6} f¨ P (X ∈ A) = P (X = 1) + P (X = 2) + P (X = 3) = 0.5 gelten und andererseits PX ([ 0.5, 3.2 ]) = PX (1) + PX (2) + PX (3) = 0.5. Damit wird zum Ausdruck gebracht, dass nicht mehr nur Teilmengen von Wahrscheinlichkeiten zugeordnet werden k¨ onnen, sondern sich der Additionskalk¨ ul auf beliebige Teilmengen von R fortsetzen l¨ asst. Im stetigen Fall m¨ usste man sich aufgrund des mit dem Integrationskalk¨ ul einhergehenden Messbarkeitsproblems auf messbare Mengen A ⊂ R beschr¨anken, was jedoch keinerlei Einschr¨ankung in praktischer Hinsicht darstellt. Das implizierte Wahrscheinlichkeitsmaß PX wird dann im eigentlichen Sinne als Wahrscheinlichkeitsverteilung von X bezeichnet. Definition 7.1.4: Wahrscheinlichkeitsverteilung einer Zufallsvariable Unter der Wahrscheinlichkeitsverteilung einer Zufallsvariable X versteht man das von X implizierte Wahrscheinlichkeitsmaß PX auf der Menge der reellen Zahlen. F¨ ur messbare Mengen A ⊂ R gilt stets: P (X ∈ A) = PX (A). • Diskretes und stetiges Wahrscheinlichkeitsmaß auf R • Weiter sollte bemerkt werden, dass unabh¨ angig von der Existenz irgendeiner Zufallsvariable jede Funktion f : R → [0, 1] eindeutig ein diskretes Wahrscheinlichkeitsmaß auf R definiert, falls

260

7 Theoretische Verteilungen und Abh¨angigkeiten

f¨ ur abz¨ahlbare Werte a1 , a2 , . . . , aN , . . . gilt: ∞ X (i) f (ai ) > 0 f¨ ur alle i und (ii) f (ai ) = 1. i=1

Damit l¨asst sich jede solche Funktion nat¨ urlich auch als Wahrscheinlichkeitsfunktion (irgendeiner) diskreten Zufallsvariable interpretieren. Analog definiert jede Funktion f : R → [0, 1] eindeutig ein stetiges Wahrscheinlichkeitsmaß auf R, falls gilt: Z ∞ (i) fX (x) > 0 und (ii) fX (x)dx = 1. −∞

Damit l¨asst sich jede solche Funktion nat¨ urlich auch als Dichtefunktion (irgendeiner) stetigen Zufallsvariable interpretieren. Auf formale Beweise, die im Rahmen der Maßtheorie gef¨ uhrt werden m¨ ussten, wird an dieser Stelle verzichtet. • Was man unter identisch verteilt“ versteht • Zwei Zufallsvariablen X und ” Y sind identisch verteilt, falls sie identische Wahrscheinlichkeitsverteilungen besitzen. Sind X und Y diskret, besitzen sie also identische Wahrscheinlichkeitsfunktionen. Da im stetigen Fall Dichtefunktionen nur fast“ u ussen, um die gleiche ¨bereinstimmen m¨ ” Verteilung zu erzielen, setzen wir f¨ ur diesen Fall die Identit¨at der eindeutigen Verteilungsfunktionen voraus, was dann nat¨ urlich auch f¨ ur den diskreten Fall ein g¨ ultiges Kriterium w¨are. Zwei Zufallsvariablen X und Y , ob nun diskret oder stetig, sind also genau dann identisch verteilt, falls gilt: FX = FY . Identisch verteilt heißt nicht, dass X und Y identische Ergebnisse liefern, quasi immer u urfelwurf, wobei nur ent¨bereinstimmen! Sei X beispielsweise das Ergebnis beim W¨ scheidend sei, ob eine gerade oder eine ungerade Zahl gew¨ urfelt wird. Definiere X = 1 f¨ ur eine gerade Zahl und X = 0 f¨ ur eine ungerade Zahl. Dann gilt unter Annahme eines Laplace-Modells: P (X = 0) = P (X = 1) = 0.5. Sei nun Y eine weitere Zufallsvariable, die f¨ ur denselben Wurf genau umgekehrt kodiert sei, also Y = 1 f¨ ur ungerade“ und ” Y = 0 f¨ ur gerade“. Dann gilt ebenfalls P (Y = 0) = P (Y = 1) = 0.5. Folglich sind X ” und Y identisch verteilt ungeachtet dessen, dass X = 1 und Y = 1 offensichtlich nicht gleichzeitig eintreten k¨ onnen.

7.1.2 Mehrdimensionale Zufallsvariablen Konzept und Ausblick • Hintergrund • Die gleichzeitige Betrachtung mehrerer Zufallsvariablen hat meist zum Zweck, etwaige Abh¨ angigkeiten zwischen diesen analysieren oder ber¨ ucksichtigen zu k¨onnen. Auf stochastischer Ebene ergibt sich eine analoge Vorgehensweise wie bei der Untersuchung empirischer Abh¨ angigkeiten in der deskriptiven Statistik. Anstelle von empirischen Abh¨ angigkeiten oder Unabh¨angigkeiten spricht man dann von stochastischen Abh¨ angigkeiten bzw. Unabh¨angigkeiten. Zur formalen Untersuchung

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen

261

stochastischer Abh¨ angigkeitsstrukturen ist es zun¨achst erforderlich, sich mit der formalen Handhabung mehrdimensionaler Wahrscheinlichkeitsverteilungen zu befassen, was sich ebenso in v¨olliger Analogie zu den empirischen Konzepten verh¨alt. • Zufallsvektoren • Allgemein gehen wir von n Zufallsvariablen X1 , . . . , Xn aus. Insbesondere bei geringer Anzahl k¨ onnen nat¨ urlich auch andere Bezeichnungen gew¨ahlt werden wie etwa X und Y im Falle n = 2. Alternativ kann auch die Tupel-Schreibweise (X1 , . . . , Xn ) bzw. (X, Y ) verwendet werden. Mit letzterer werden die einzelnen Zufallsvariablen zu einer mehrdimensionalen Zufallsvariable X = (X1 , . . . , Xn )T bzw. XT = (X1 , . . . , Xn ) zusammengefasst, die auch als Zufallsvektor bezeichnet wird. Das hochgestellte Symbol T“ steht hierbei f¨ ur den transponierten Vektor. Wie bereits ” im univariaten Fall wird konzeptionell zwischen diskreten und stetigen Zufallsvektoren unterschieden. Hinweise zu gemischt skalierten F¨allen, bei denen Zufallsvektoren sowohl diskrete als auch stetige Zufallsvariablen enthalten, finden sich als erg¨anzendes Thema in Abschnitt 8.3.3. • Mehrdimensionale Wahrscheinlichkeitsverteilungen • Im Folgenden werden die verteilungstheoretischen Grundlagen wie gemeinsame Verteilung , Randverteilung und bedingte Verteilung eingef¨ uhrt. W¨ahrend im diskreten Fall mehrdimensionale Wahrscheinlichkeitsfunktionen eine maßgebliche Rolle spielen, sind dies im stetigen Fall mehrdimensionale Dichtefunktionen. Wahrscheinlichkeiten werden in ersterem Fall u ul und im letzteren Fall u ¨ber einen Additionskalk¨ ¨ber einen Integrationskalk¨ ul bestimmt. Zu berechnende Ereigniswahrscheinlichkeiten lauten jetzt beispielsweise P (X1 ∈ A1 , X2 ∈ A2 ) f¨ ur A1 , A2 ⊂ R, P (X1 = x1 , X2 = x2 , X3 = x3 ) oder auch P (X1 ∈ A|X2 ∈ B) und P (X1 = x1 |X2 = x2 , X3 = x3 ). Der durch die Zufallsvariablen X1 , . . . , Xn implizierte neue Ergebnisraum ist dann Rn = R × R × · · · × R, speziell im zweidimensionalen Fall also R2 = R × R. Das durch die mehrdimensionalen Wahrscheinlichkeitsfunktionen bzw. Dichtefunktionen auf Rn implizierte Wahrscheinlichkeitsmaß PX = PX1 ,...,Xn definiert die (gemeinsame) Wahrscheinlichkeitsverteilung der Zufallsvariablen X1 , . . . , Xn bzw. des Zufallsvektors X = (X1 , . . . , Xn ). Auch das mit dem Integrationskalk¨ ul einhergehende und in Abschnitt 7.1.1 beschriebene Messbarkeitsproblem im Zusammenhang stetiger Zufallsvariablen ergibt sich im mehrdimensionalen Fall in analoger Weise. Im Allgemeinen k¨ onnen also nur sog. messbaren Teilmengen von Rn Wahrscheinlichkeiten zugeordnet werden. Auf inhaltliche Ausf¨ uhrungen hierzu wird im Weiteren verzichtet. Wir werden uns zun¨ achst auf zweidimensionale Zufallsvariablen bzw. einen zweidimensionalen Zufallsvektor beschr¨ anken. Der besseren Lesbarkeit wegen werden wir

262

7 Theoretische Verteilungen und Abh¨angigkeiten

diese mit X und Y anstatt mit X1 und X2 bezeichnen. Ebenso werden wir anstelle von Wahrscheinlichkeitsverteilungen“ im Folgenden zur Abk¨ urzung nur noch von ” Verteilungen“ sprechen. ”

Zweidimensionale diskrete Zufallsvariablen • Gemeinsame diskrete Verteilung und Randverteilungen • Gegeben seien zwei Zufallsvariablen, die wie der einfacheren Notation wegen mit X und Y anstelle von X1“ ” und X2“ bezeichnen. ” Definition 7.1.5: Gemeinsame diskrete Verteilung Zwei Zufallsvariablen X und Y sind gemeinsam diskret verteilt, falls es f¨ ur endlich oder abz¨ahlbar unendlich viele 2-Tupel (ai , bj ) mit ai ∈ {a1 , a2 , . . . , ak , . . . } und bj ∈ ur die gilt: {b1 , b2 , . . . , bl , . . . } eine Funktion fXY gibt, f¨ ( P (X = ai , Y = bj ) = pij , (x, y) = (ai , bj ), fXY (x, y) = 0, sonst, wobei (i) pij ≥ 0 f¨ ur alle i und j und (ii)

∞ P ∞ P

pij = 1.

i=1 j=1

Die Funktion fXY heißt dann gemeinsame Wahrscheinlichkeitsfunktion von X und Y . Sie legt die gemeinsame Verteilung von X und Y fest. Alternativ spricht man auch vom diskreten Zufallsvektor (X, Y ) mit der (zweidimensionalen) Wahrscheinlichkeitsfunktion fXY . Die Menge TXY = {(ai , bj ) : pij > 0} wird als Tr¨agermenge von (X, Y ) bezeichnet. Ihre Elemente heißen Realisationsm¨ oglichkeiten, Tr¨ ager- oder Massenpunkte von (X, Y ). Besitzen X und Y jeweils nur endlich viele Realisationsm¨oglichkeiten, so l¨asst sich in einer Kontingenztabelle mit Wahrscheinlichkeiten die gemeinsame Verteilung von X und Y darstellen (vgl. Tab. 7.1.1). Man beachte, dass eine solche Kontingenztabelle auch Eintr¨age mit pij = 0 aufweisen kann. Aus der gemeinsamen Verteilung l¨asst sich die jeweils eindimensionale Verteilung von X bzw. Y mittels entsprechender Summation u ¨ber Spalten bzw. Zeilen berechnen. In einem mehrdimensionalen Kontext werden die Verteilungen von X und Y deshalb auch als Randverteilungen bezeichnet. Sie sind bei endlicher Tr¨ agermenge durch die Wahrscheinlichkeiten p1• , p2• , . . . , pk• bzw. p•1 , p•2 , . . . , p•l definiert.

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen

263

Tabelle 7.1.1: Allgemeine Gestalt einer Kontingenztabelle mit Wahrscheinlichkeiten Y

X a1 a2 .. .

b1 p11 p21 .. .

b2 p12 p22 .. .

... ... ... .. .

bj p1j p2j

... ... ...

bl p1l p2l .. .

P (Y = y) p1• p2• .. .

ai .. .

pi1 .. .

pi2 .. .

...

pij

pil .. .

pi• .. .

ak P (X = x)

pk1 p•1

pk2 p•2

... ...

pkj p•j

... .. . ... ...

pkl p•l

pk• 1

Definition 7.1.6: Diskrete Randverteilungen Sei (X, Y ) ein diskreter Zufallsvektor mit Wahrscheinlichkeitsfunktion fXY (x, y). Dann sind die (eindimensionalen) Wahrscheinlichkeitsfunktionen von X und Y gegeben durch X fX (x) = P (X = x) = fXY (x, bj ) bzw. j

fY (y) = P (Y = y) =

X

fXY (ai , y).

j

Die durch fXY mittels fX und fY implizierten Verteilungen von X bzw. Y werden auch als Randverteilungen von X bzw. Y bezeichnet.

• Bedingte diskrete Verteilungen • Die bedingten Verteilungen ergeben sich mittels Division der gemeinsamen Verteilung durch die Randverteilungen. Bei einer Kontingenztabelle mit Wahrscheinlichkeiten k¨ onnen diese auch als Spalten- bzw. Zeilenverteilungen bezeichnet werden, abh¨ angig davon, ob auf Y = y oder X = x bedingt wird. Definition 7.1.7: Bedingte diskrete Verteilungen Sei (X, Y ) ein diskreter Zufallsvektor mit Wahrscheinlichkeitsfunktion fXY (x, y). Dann ist die bedingte Wahrscheinlichkeitsfunktion von X gegeben Y = y definiert als fXY (x, y) fX|Y (x|y) = f¨ ur fY (y) > 0 fY (y) und die bedingte Wahrscheinlichkeitsfunktion von Y gegeben X = x als fXY (x, y) fY |X (y|x) = f¨ ur fX (x) > 0. fX (x)

264

7 Theoretische Verteilungen und Abh¨angigkeiten

Die durch die bedingten Wahrscheinlichkeitsfunktionen implizierten Verteilungen von X und Y werden als bedingte Verteilung von X gegeben Y = y bzw. bedingte Verteilung von Y gegeben X = x bezeichnet. F¨ ur fY (y) = 0 bzw. fX (x) = 0 sind die bedingten Wahrscheinlichkeitsfunktionen bzw. Verteilungen jeweils nicht definiert. • Beispiel D2-a • F¨ ur das erste Beispiel legen wir Tabelle 6.2.1 aus Abschnitt 6.2.1 zugrunde, wobei die m¨ oglichen Zufallsergebnisse u ¨ber die beiden Zufallsvariablen X und Y ausgedr¨ uckt werden. Dabei gelte: X = 0 f¨ ur weiblich, X = 1 f¨ ur m¨ annlich,

Y = 0 f¨ ur Raucher, Y = 1 f¨ ur Gelegenheitsraucher, Y = 2 f¨ ur Nichtraucher.

Die gemeinsame Verteilung ergibt sich gem¨ aß Tabelle 7.1.2 und l¨asst sich auch mithilfe eines 3D-S¨aulendiagramms darstellen (Abb. 7.1.6, links). Gem¨aß oben eingef¨ uhrter Notation gilt beispielsweise p11 = 0.04, p•1 = 0.16 und p1• = 0.40. Die Randverteilung von X wird durch die Wahrscheinlichkeiten p•1 = 0.16, p•2 = 0.20 und p•3 = 0.64 bestimmt, die Randverteilung von Y durch die Wahrscheinlichkeiten p1• = 0.40 und p2• = 0.60. Da alle pij positiv sind, ist die Tr¨agermenge der gemeinsamen Verteilung TXY = {0, 1, 2} × {0, 1}. Tabelle 7.1.2: Kontingenztabelle mit Wahrscheinlichkeiten f¨ ur Beispiel D2-a X

Y

0 1 Summe

0

1 0.04 0.12 0.16

2 0.08 0.12 0.20

0.28 0.36 0.64

Summe 0.40 0.60 1.00

F¨ ur die gemeinsame Verteilung von X und Y gem¨aß Tabelle 7.1.2 erh¨alt man beispielsweise 0.04 P (X = 0, Y = 0) = = 0.25 P (X = 0|Y = 0) = P (Y = 0) 0.16 oder mit der Notation f¨ ur Wahrscheinlichkeitsfunktionen fXY (0, 0) fX|Y (0|0) = = 0.25. fY (0) Weiter gilt: P (X = 1, Y = 0) 0.12 P (X = 1|Y = 0) = = = 0.75. P (Y = 0) 0.16 Somit implizieren die Werte fX|Y (0|0) = 0.25 und fX|Y (1|0) = 0.25 die bedingte Verteilung von X unter Y = 0. In analoger Weise ergeben sich die beiden anderen Spaltenverteilungen, also die bedingte Verteilung von X unter Y = 1 bzw. von X unter Y = 2.

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen

265

Die Zeilenverteilungen ergeben sich analog, indem die gemeinsame Verteilung nun durch die Randverteilung von X dividiert wird. Beispielsweise gilt: fXY (0, 0) 0.04 fY |X (0|0) = = = 0.1. fX (0) 0.40 Abb. 7.1.6: Gemeinsame diskrete Verteilungen Beispiel D2−a

f X Y (x,y)

Beispiel D2−b

f X Y (x,y)

0.5

0.16 0.14

0.4

0.12 0.10

0.3

0.08

0.2 0.1 0.0 −1.0

−0.5

0.0

0.5

1.0

x

1.5

2.0

−1

0

1

2

0.06

3

0.04

y

0.02 0.00

0

1

2

3

x

4

5

6

7

0

1

2

3

4

5

6

7

y

Abb. 7.1.7: Diskrete Randverteilungen f X (x) 0.8

f Y (y)

Beispiel D2−a

0.8

f X (x) f Y (y)

Beispiel D2−a

0.6

0.6

0.4

0.4

0.4

0.2

0.2

0.2

0.0

−1

0

1

2

x

3

0.0

Beispiel D2−b

0.6

−1

0

1

2

y

3

0.0

−1

1

2

3

4

5

6

7

x/y

Die Tabellen 7.1.3 und 7.1.4 fassen die Spalten- bzw. Zeilenverteilungen zusammen. Abbildung 7.1.8 illustriert diese (links und zentral). Wie man sieht, wird die Ungleichverteilung von X auf die beiden Tr¨ agerpunkte 0 und 1 mit steigendem y-Wert zusehends egalisiert. Es bleibt festzuhalten, dass es nicht die eine bedingte Verteilung gibt, sondern dass die bedingte Verteilung in der Regel ein Ensemble bedingter Verteilungen f¨ ur unterschiedliche bedingende Werte ist. Tabelle 7.1.3: Bedingte Verteilung von X unter Y = y f¨ ur Beispiel D2-a X

Y =y 0 1 Summe

y=0 0.25 0.75 1.00

y=1 0.40 0.60 1.00

y=2 0.4375 0.5625 1.00

• Beispiel D2-b • F¨ ur das zweite Beispiel betrachten wir das zweimalige Werfen eines fairen W¨ urfels. Sei X das Ergebnis im ersten und Y das Ergebnis im zweiten Wurf.

266

7 Theoretische Verteilungen und Abh¨angigkeiten Abb. 7.1.8: Bedingte diskrete Verteilungen f X | Y (x|0) Beispiel D2−a

f Y | X (y|0) Beispiel D2−a

0.8

f X | Y (x|y) Beispiel D2−b f Y | X (y|x)

0.8

0.6

0.6

0.4

0.4

0.4

0.2

0.2

0.2

0.0

0.0

−1

0

1

2

f X | Y (x|1) Beispiel D2−a

x

3

0.6

0.4

0.4

0.2

0.2 0

1

2

f X | Y (x|2) Beispiel D2−a

0

1

2

y

3

0.0

−1

1

2

3

4

5

6

7

x/y

0.8

0.6

−1

−1

f Y | X (y|1) Beispiel D2−a

0.8

0.0

0.6

x

3

0.0

−1

0

1

2

y

3

0.8 0.6 0.4 0.2 0.0

−1

0

1

2

x

3

Tabelle 7.1.4: Bedingte Verteilung von Y unter X = x f¨ ur Beispiel D2-a X=x 0 1

Y

0

1 0.1 0.2

2 0.2 0.2

0.7 0.6

Summe 1.0 1.0

Somit besitzt die Tr¨ agermenge 36 verschiedene Elemente (x, y). Die gemeinsame Verteilung l¨asst sich tabellarisch oder grafisch gem¨aß Tabelle 7.1.5 bzw. Abbildung 7.1.6 (rechts) darstellen. Die hierbei verwendete Wahrscheinlichkeitsfunktion unterstellt ein Laplace-Modell , d. h. die einzelnen 2-Tupel werden allesamt als gleichwahrscheinlich angenommen. Man spricht dann auch von einer zweidimensionalen diskreten Gleichverteilung . Die Tr¨ agermenge der gemeinsamen Verteilung lautet somit TXY = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}. Die beiden Randverteilungen von X und Y sind und auf den Tr¨ agerpunkten 1 bis 6 jeweils (eindimensional) diskret gleichverteilt. Somit sind X und Y identisch verteilt. F¨ ur die bedingten Verteilungen von X unter Y = y gem¨aß Tabelle 7.1.5 gilt offensichtlich fXY (x, y) 1/36 fX|Y (x|y) = = 1/6 f¨ ur alle x = 1, . . . , 6 und y = 1, . . . , 6. = fY (y) 1/6

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen

267

Tabelle 7.1.5: Kontingenztabelle mit Wahrscheinlichkeiten f¨ ur Beispiel D2-b X

Y

1 2 3 4 5 6 Summe

1 1/36 1/36 1/36 1/36 1/36 1/36 1/6

2 1/36 1/36 1/36 1/36 1/36 1/36 1/6

3 1/36 1/36 1/36 1/36 1/36 1/36 1/6

4 1/36 1/36 1/36 1/36 1/36 1/36 1/6

5 1/36 1/36 1/36 1/36 1/36 1/36 1/6

6 1/36 1/36 1/36 1/36 1/36 1/36 1/6

Summe 1/6 1/6 1/6 1/6 1/6 1/6 1.0

Die Spaltenverteilungen sind somit identisch und stimmen mit der Randverteilung von X u ur Y bzw. die Zeilenverteilungen, d. h. ¨berein. Analoges gilt f¨ 1/36 fXY (x, y) = 1/6 f¨ ur alle x = 1, . . . , 6 und y = 1, . . . , 6. = fY |X (y|x) = fX (x) 1/6 ¨ Wie man sich schon denken kann, wird die Ubereinstimmung der bedingten Verteilungen sp¨ater bei der Konzeption der stochastischen Unabh¨ angigkeit von Zufallsvariablen ein entscheidender Gesichtspunkt sein. • Zweidimensionale diskrete Verteilungsfunktion • Die gemeinsame Verteilungsfunktion zweier Zufallsvariablen ist von eher geringer (praktischer) Bedeutung. Sie sei allein der Vollst¨andigkeit wegen kurz vorgestellt. Auf die Beschreibung theoretischer Eigenschaften verzichten wir. Zweidimensionale diskrete Verteilungsfunktion Sei (X, Y ) ein diskreter Zufallsvektor mit Wahrscheinlichkeitsfunktion fXY (x, y). Dann ist die Verteilungsfunktion von (X, Y ) oder auch gemeinsame Verteilungsfunktion von X und Y gegeben durch X X FXY (x, y) = P (X ≤ x, Y ≤ y) = fXY (ai , bj ), i:ai ≤x j:bj ≤y

wobei (ai , bj ) Realisationsm¨ oglichkeiten von (X, Y ) sind. • Beispiel D2-a fortgesetzt • Betrachten wir die gemeinsame Verteilung von X und Y aus Beispiel D2-a (Rauchen und Geschlecht). F¨ ur die Verteilungsfunktion FXY gilt dann: FXY (0, 0) = 0.04, FXY (1, 0) = 0.16,

FXY (0, 1) = 0.12, FXY (1, 1) = 0.36,

FXY (0, 2) = 0.40, FXY (1, 2) = 1.00.

Zugleich gilt aber auch z.B.: FXY (0, −0.1) = 0.0, FXY (0.8, 1.5) = 0.12,

FXY (0, 0.1) = 0.04, FXY (5, 0) = 0.16,

FXY (1.2, 2.4) = 1, usw.

268

7 Theoretische Verteilungen und Abh¨angigkeiten

Zweidimensionale stetige Zufallsvariablen • Gemeinsame stetige Verteilung und Randverteilungen • Die im diskreten Fall behandelten Konzepte von gemeinsamer Verteilung, Randverteilungen und bedingten Verteilungen k¨onnen in analoger Weise auf den stetigen Fall u ¨bertragen werden. Die Wahrscheinlichkeitsfunktion wird lediglich durch eine Dichtefunktion ersetzt und der Additionskalk¨ ul durch den Integrationskalk¨ ul. W¨ahrend die Konzepte im diskreten Fall relativ anschaulich nachvollzogen werden k¨ onnen, f¨allt dies im stetigen Fall aufgrund des Dichtekonzeptes deutlich schwerer. Zudem wurden parallele empirische Konzepte im deskriptiven Teil dieses Buches nicht durchg¨angig entwickelt. Beispielsweise wurde auf die Einf¨ uhrung der zweidimensionalen H¨ aufigkeitsdichte (zweidimensionales Histogramm) verzichtet. Definition 7.1.8: Gemeinsame stetige Verteilung Zwei Zufallsvariablen X und Y sind gemeinsam stetig verteilt, falls es eine Funktion fXY gibt, sodass f¨ ur alle reellen a ≤ b und c ≤ d gilt: Z bZ d P (a ≤ X ≤ b, c ≤ Y ≤ d) = fXY (x, y)dydx, a

c

wobei (i) fXY (x, y) ≥ 0 und R∞ R∞ (ii) −∞ −∞ fXY (x, y)dydx = 1. Die Funktion fXY heißt dann gemeinsame Wahrscheinlichkeitsdichtefunktion, gemeinsame Dichtefunktion oder gemeinsame Dichte von X und Y . Sie legt die gemeinsame Verteilung von X und Y fest. Alternativ spricht man auch vom stetigen Zufallsvektor (X, Y ) mit der (zweidimensionalen) Dichtefunktion fXY . Die agermenge von (X, Y ) bezeichnet. Menge TXY = {(x, y) : fXY (x, y) > 0} wird als Tr¨ Ihre Elemente bilden Realisationsm¨ oglichkeiten von (X, Y ). Wahrscheinlichkeiten werden somit mittels Doppelintegralen u ¨ber die gemeinsame Dichte ermittelt. Man beachte, dass im diskreten Fall Doppelsummen aus Einzelwahrscheinlichkeiten berechnet werden. Geometrisch lassen sich die f¨ ur bestimmte Rechteckereignisse der Form [a, b] × [c, d] ⊂ R2 ermittelten Wahrscheinlichkeiten als Volumina unterhalb der gemeinsamen Dichte und oberhalb des Rechteckfelds deuten (siehe Beispiel S2-a). Aus der Vorstellung von Fl¨ achen f¨ ur Intervallwahrscheinlichkeiten im eindimensionalen stetigen Fall wird also die Vorstellung von Volumina f¨ ur Rechteckereignisse im zweidimensionalen Fall. Aus der gemeinsamen Verteilung lassen sich die jeweils eindimensionalen Verteilungen von X und Y berechnen, die auch als Randverteilungen von X bzw. Y bezeichnet werden. Mittels Integration u uglich y erh¨alt man ¨ber die gemeinsame Dichte fXY bez¨ die Dichte fX von X ( Rausintegrieren von y“) und mittels Integration bez¨ uglich x ” die Dichte fY von Y ( Rausintegrieren von x“), die auch als Randdichten bezeichnet ” werden.

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen

269

Definition 7.1.9: Stetige Randverteilungen Sei (X, Y ) ein stetiger Zufallsvektor mit Dichtefunktion fXY (x, y). Dann sind die (eindimensionalen) Dichtefunktionen von X und Y gegeben durch Z ∞ fX (x) = fXY (x, y)dy bzw. −∞ Z ∞ fXY (x, y)dx. fY (y) = −∞

Die durch fXY mittels der Randdichten fX und fY implizierten Verteilungen von X bzw. Y werden auch als Randverteilungen von X bzw. Y bezeichnet. • Bedingte stetige Verteilungen • Die bedingten Verteilungen ergeben sich mittels Division der gemeinsamen Dichte durch die Randdichten. Definition 7.1.10: Bedingte stetige Verteilungen Sei (X, Y ) ein stetiger Zufallsvektor mit Dichtefunktion fXY (x, y). Dann ist die bedingte Dichte von X gegeben Y = y definiert als fXY (x, y) fX|Y = f¨ ur fY (y) > 0 fY (y) und die bedingte Dichte von Y gegeben X = x als fXY (x, y) fY |X = f¨ ur fX (x) > 0. fX (x) Die durch die bedingten Dichten implizierten Verteilungen von X und Y werden als bedingte Verteilung von X gegeben Y = y bzw. bedingte Verteilung von Y gegeben X = x bezeichnet. F¨ ur fY (y) = 0 bzw. fX (x) = 0 sind die bedingten Dichten bzw. Verteilungen jeweils nicht definiert. • Beispiel S2-a • Seien X und Y gemeinsam stetig verteilt gem¨aß der Dichtefunktion fXY (x, y) = (0.5x + 0.25y)I[0,1] (x)I[0,2] (y). Abbildung 7.1.9 (links) illustriert die Dichtefunktion, die sich als schiefe Ebene u ¨ber dem Rechteck [0, 1] × [0, 2] darstellt. Außerhalb dieses Rechtecks ist die Dichte gleich 0. Wir verwenden diese Dichte haupts¨ achlich der Einfachheit wegen. In der Praxis d¨ urfte es kaum F¨alle geben, in denen zwei stetige Merkmale gemeinsam so verteilt sind. Beispielsweise errechnet sich jetzt die Wahrscheinlichkeit f¨ ur das Ereignis {0.1 ≤ X ≤ 0.5, 0.4 ≤ Y ≤ 0.9} als Z 0.5 Z 0.9 Z 0.5 Z 0.9 fXY (x, y)dydx = (0.5x + 0.25y)I[0,1] (x)I[0,2] (y)dydx 0.1

0.4

Z

0.5

= 0.1

Z I[0,1] (x)

0.1 0.9

0.4

0.4

 (0.5x + 0.25y)dy dx

270

7 Theoretische Verteilungen und Abh¨angigkeiten Abb. 7.1.9: Gemeinsame stetige Verteilungen Beispiel S2−a

Beispiel S2−b

f X Y (x,y)

f X Y (x,y)

1.0

1.0

0.5

0.5

2.0

0

0.5

x

1.0

y

0

2.0

0

1.0

1.0

0.5

x

1.0

y

0

Abb. 7.1.10: Stetige Randverteilungen f X (x) 2.0

f Y (y)

Beispiel S2−a

2.0

f X (x) f Y (y)

Beispiel S2−a

1.5

1.5

1.0

1.0

1.0

0.5

0.5

0.5

0.0

0.0

−1

0

1

2

x

3

1.5

−1

0

1

0.5 

Z

0.5xy + 0.125y 2

=

0.1 Z 0.5

Beispiel S2−b

2

y=0.9 y=0.4

y

3

0.0

−1

0

1

2

3

x/y

dx

 0.45x + 0.125 · 0.92 − 0.2x − 0.125 · 0.42 dx

= 0.1 0.5

Z

  0.5 0.25x + 0.08125 dx = 0.125x2 + 0.08125x 0.1

= 0.1

= (0.03125 + 0.040625 − 0.00125 − 0.008125) = 0.0625. Prinzipiell l¨asst sich die Integrationsreihenfolge stets auch umkehren, d.h. es gilt hier auch Z 0.9 Z 0.5 fXY (x, y)dxdy = · · · = 0.0625. 0.4

0.1

Das implizit unterhalb der Dichte und oberhalb des Rechteckfelds [0.1, 0.5] × [0.4, 0.9] errechnete Volumen ist im Schaubild entsprechend illustriert. Die Randdichte von X errechnet sich als Z ∞ Z ∞ fX (x) = fXY (x, y)dy = (0.5x + 0.25y)I[0,1] (x)I[0,2] (y)dy −∞

−∞

Z = I[0,1] (x) 0

2

 y=2 (0.5x + 0.25y)dy = I[0,1] (x) 0.5xy + 0.125y 2 y=0

= I[0,1] (x)(x + 0.5 − 0) = (x + 0.5)I[0,1] (x). Die Randverteilung von X ist eine linksschiefe Verteilung ¨ahnlich einer Dreiecksform.

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen

271

Abb. 7.1.11: Bedingte stetige Verteilungen (Beispiele) f X | Y (x|0) Beispiel S2−a

f Y | X (y|0) Beispiel S2−a

2.0

f X | Y (x|y) f Y | X (y|x)

2.0

1.5

1.5

1.0

1.0

1.0

0.5

0.5

0.5

0.0

0.0

−1

0

1

2

f X | Y (x|1) Beispiel S2−a

x

3

1.5

1.0

1.0

0.5

0.5 −1

0

1

2

f X | Y (x|2) Beispiel S2−a

x

3

0.0

1.5

1.0

1.0

0.5

0.5 0

1

2

1

2

y

3

0.0

−1

0

1

2

3

x/y

−1

0

1

2

y

3

2.0

1.5

−1

0

f Y | X (y|1) Beispiel S2−a

2.0

0.0

−1

2.0

1.5

0.0

1.5

f Y | X (y|0.5) Beispiel S2−a

2.0

Beispiel S2−b

x

3

0.0

−1

0

1

2

y

3

F¨ ur die Randdichte von Y erh¨ alt man analog Z ∞ fY (y) = fXY (x, y)dx = · · · = (0.25y + 0.25)I[0,2] (y). −∞

Somit sind X und Y nicht identisch verteilt. Die bedingte Dichte von X gegeben Y = y lautet (0.5x + 0.25y)I[0,1] (x)I[0,2] (y) 2x + y f (x, y) = = I[0,1] (x), fX|Y (x|y) = fY (y) (0.25y + 0.25)I[0,2] (y) y+1 f¨ ur y ∈ [0, 2]. F¨ ur y 6∈ [0, 1] ist die bedingte Dichte nicht definiert. Die bedingte Dichte von X unter Y = y ist als Funktion in der Variablen x f¨ ur festes vorgegebenes y zu interpretieren. Aus dieser allgemeinen Form lassen sich alle bedingten Verteilungen von X f¨ ur vorgegebene Werte y ableiten. So lautet beispielsweise die bedingte Dichte von X gegeben Y = 0 2x + 0 fX|Y (x|0) = I[0,1] (x) = 2xI[0,1] (x). 0+1 Die bedingte Dichte von X gegeben Y = 1 lautet dagegen 2x + 1 fX|Y (x|1) = I[0,1] (x) = (x + 0.5)I[0,1] (x) 1+1

272

7 Theoretische Verteilungen und Abh¨angigkeiten

und die bedingte Dichte von X gegeben Y = 2 2 2x + 2 2 fX|Y (x|2) = I[0,1] (x) usw. I[0,1] (x) = x+ 2+1 3 3 F¨ ur y = 1 entspricht die bedingte Dichte der Randdichte von X. F¨ ur steigenden Wert von y verteilt sich die Wahrscheinlichkeitsmasse zunehmend gleichm¨aßig u ¨ber die Tr¨agermenge [0, 1]. Wenngleich es sich hier um Dichtefunktionen handelt, ist dieses Beispiel mit dem zweidimensionalen Beispiel D2-a in gewisser Weise vergleichbar. Die zweidimensionale Verteilung hatte auch dort in der hinteren rechten Ecke“ der ” Tr¨agermenge die gr¨ oßte Wahrscheinlichkeitsmasse und in der vorderen linken Ecke“ ” die kleinste. Die bedingte Verteilung von X unter Y = y zeigte dann f¨ ur steigenden y-Wert vergleichbares Verhalten wie jetzt im stetigen Fall (Abb. 7.1.11, erste Spalte von Schaubildern). F¨ ur die bedingte Dichte von Y gegeben X = x erh¨alt man analog (0.5x + 0.25y)I[0,1] (x)I[0,2] (y) f (x, y) 0.5x + 0.25y = = I[0,2] (y), fY |X (y|x) = fX (x) (x + 0.5)I[0,1] (x) x + 0.5 f¨ ur x ∈ [0, 1]. F¨ ur x 6∈ [0, 1] ist die bedingte Dichte nicht definiert. Beispielsweise erh¨alt man dann als bedingte Dichten 0 + 0.25y fY |X (y|0) = I[0,2] (y) = 0.5yI[0,2] (y), 0 + 0.5 0.25 + 0.25y fY |X (y|0.5) = I[0,2] (y) = (0.25y + 0.25)I[0,2] (y), 0.5 + 0.5 1 0.5 + 0.25y 1 fY |X (y|1) = I[0,2] (y) = y+ I[0,2] (y) usw. 1 + 0.5 6 3 F¨ ur x = 0.5 stimmt die bedingte Dichte mit der Randdichte von Y u ur stei¨berein. F¨ genden Wert von x verteilt sich die Wahrscheinlichkeitsmasse zunehmend gleichm¨aßig auf [0, 2]. • Beispiel S2-b • Seien X und Y gemeinsam stetig verteilt gem¨aß der Dichtefunktion fXY (x, y) = I[0,1] (x)I[0,1] (y). Erzeugt man beispielsweise zwei Zufallszahlen aus dem Intervall [0, 1] mit einem Standardzufallsgenerator eines gew¨ ohnlichen Taschenrechners, so w¨aren die beiden Zufallszahlen so wie angegeben verteilt – zumindest theoretisch betrachtet. Man spricht hier von einer zweidimensionalen stetigen Gleich- oder Rechteckverteilung . Abbildung 7.1.9 (rechts) illustriert die Dichtefunktion, die sich als quadratische u ¨ber dem Rechteck [0, 1] × [0, 1] schwebende“ Ebene darstellt. Außerhalb dieses Rechtecks ist die ” Dichte gleich 0. Es sei angemerkt, dass die Achsenskalierung des Schaubildes hier die eigentlich quadratische Form dieser Ebene in x-Richtung l¨anglich gestreckt erscheinen l¨ asst. Wir betrachten nun das gleiche Rechteckereignis“ wie zuvor in Beispiel S2-a und ” ermitteln die Wahrscheinlichkeit f¨ ur das Ereignis {0.1 ≤ X ≤ 0.5, 0.4 ≤ Y ≤ 0.9}. Dieses entspricht dem Volumen unterhalb der Ebene u ¨ber dem Rechteckfeld [0.1, 0.5]×[0.4, 0.9]. Diese Wahrscheinlichkeit betr¨ agt gem¨ aß den Kantenl¨angen des korrespondierenden W¨ urfels (0.5 − 0.1) · (0.9 − 0.4) · 1 = 0.2.

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen

273

Die formale Berechnung u urde lauten: ¨ber ein Doppelintegral w¨ Z 0.5 Z 0.9 Z 0.5 Z 0.9 I[0,1] (x)I[0,1] (y)dydx fXY (x, y)dydx = 0.1

0.4

0.1

0.4

Z

0.5

= 0.1 0.5

Z =

0.1

Z I[0,1] (x)

0.9

Z



0.5

1dy dx = 0.1

0.4

 y=0.9 I[0,1] (x) y y=0.4 dx

 0.5 1 · (0.9 − 0.4)dx = 0.5 x 0.1 = 0.5 · (0.5 − 0.1) = 0.2.

Die Randdichte von X errechnet sich als Z ∞ Z fX (x) = fXY (x, y)dy = −∞



I[0,1] (x)I[0,1] (y)dy

−∞

Z = I[0,1] (x) 0

1

 y=1 1dy = I[0,1] (x) y y=0 = I[0,1] (x)(1 − 0) = I[0,1] (x).

Die Randverteilung von X ist eine (eindimensionale) stetige Rechteck- oder Gleichverteilung u ur die Randdichte von Y erh¨alt man analog ¨ber dem Intervall [0, 1]. F¨ Z ∞ fY (y) = fXY (x, y)dx = · · · = I[0,1] (y). −∞

Somit sind X und Y identisch verteilt. Die bedingte Dichte von X gegeben Y = y lautet I[0,1] (x)I[0,1] (y) f (x, y) fX|Y (x|y) = = = I[0,1] (x) f¨ ur y ∈ [0, 1] fY (y) I[0,1] (y) und stimmt mit der Randdichte von X u ur y 6∈ [0, 1] ist sie nicht definiert. F¨ ur ¨berein. F¨ die bedingte Dichte von Y gegeben X = x erhalten wir f (x, y) = I[0,1] (y) f¨ ur x ∈ [0, 1]. fY |X (y|x) = fX (x) Diese stimmt mit der Randdichte von Y u ur x 6∈ [0, 1] nicht definiert. ¨berein und ist f¨ • Zweidimensionale stetige Verteilungsfunktion • Wie auch im diskreten Fall sei die gemeinsame Verteilungsfunktion zweier stetiger Zufallsvariablen prim¨ar der Vollst¨andigkeit wegen kurz vorgestellt. Auf eine detaillierte Vorstellung theoretischer Eigenschaften wird verzichtet. Definition 7.1.11: Zweidimensionale stetige Verteilungsfunktion Sei (X, Y ) ein stetiger Zufallsvektor mit Dichtefunktion fXY (x, y). Dann ist die Verteilungsfunktion von (X, Y ) oder auch gemeinsame Verteilungsfunktion von X und Y gegeben durch Zx Zy FXY (x, y) = P (X ≤ x, Y ≤ y) = fXY (u, v)dvdu. −∞ −∞

274

7 Theoretische Verteilungen und Abh¨angigkeiten

Ist FXY (x, y) in (x, y) differenzierbar, so gilt: ∂ 2 FXY (x, y) = fXY (x, y). ∂x∂y

• Beispiel S2-a fortgesetzt • Betrachten wir das vorhergehende Beispiel S2-a mit Dichtefunktion fXY (x, y) = (0.5x + 0.25y)I[0,1] (x)I[0,2] (y). F¨ ur x < 0 oder y < 0 gilt FXY (x, y) = 0. F¨ ur (x, y) ∈ [0, 1] × [0, 2] folgt Z x Z y Z xZ y FXY (x, y) = fXY (u, v)dvdu = (0.5u + 0.25v)dvdu −∞ −∞ 0 0 Z x Z x v=y  (0.5uy + 0.125y 2 )du = 0.5uv + 0.125v 2 v=0 du = 0 0 u=x = 0.25u2 y + 0.125uy 2 u=0 = 0.25x2 y + 0.125xy 2 . F¨ ur x > 1 und y ∈ [0, 2] gilt FXY (x, y) = P (X ≤ 1, Y ≤ y) = 0.25y + 0.125y 2 und f¨ ur y > 24 und x ∈ [0, 1] entsprechend FXY (x, y) = P (X ≤ x, Y ≤ 2) = 0.5x2 + 0.5x. Leitet man FXY f¨ ur (x, y) ∈ [0, 1] × [0, 2] partiell nach y ab, erh¨alt man zun¨achst. ∂FX,Y (x, y) = 0.25x2 + 0.25xy. ∂y Erneutes partielles Ableiten nach x ergibt schließlich ∂ (0.25x2 + 0.25xy) = 0.5x + 0.25y = fXY (x, y). ∂x

Stochastische Abh¨ angigkeit und Unabh¨ angigkeit • Formale Unabh¨ angigkeitskriterien • V¨ ollig analog zu den Kriterien f¨ ur die empirische Unabh¨ angigkeit von Merkmalen (Abschnitt 5.1.1) lauten diejenigen f¨ ur die stochastische Unabh¨ angigkeit von Zufallsvariablen. Zwei diskrete oder stetige Zufallsvariablen X und Y sind genau dann stochastisch unabh¨ angig , falls die bedingten Verteilungen mit den jeweiligen Randverteilungen u ¨bereinstimmen. Mit der f¨ ur Wahrscheinlichkeits- und Dichtefunktionen einheitlichen Notation ausgedr¨ uckt, gilt dann also formal fX|Y (x|y) = fX (x) f¨ ur alle x, y ∈ R mit fY (y) > 0 bzw.

(7.1.2)

fY |X (y|x) = fY (y) f¨ ur alle x, y ∈ R mit fX (x) > 0.

(7.1.3)

Mit fX|Y (x|y) =

fXY (x, y) fXY (x, y) und fY |X (y|x) = fY (y) fX (x)

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen

275

folgt aus (7.1.2) und (7.1.3) die stochastische Variante des Multiplikationskriteriums fXY (x, y) = fX (x)fY (y) f¨ ur alle x, y ∈ R.

(7.1.4)

Die Kriterien (7.1.2), (7.1.3) und (7.1.4) sind folglich ¨aquivalent. Ist eines der drei Kriterien erf¨ ullt, so auch die anderen beiden. Ist eines der drei Kriterien nicht erf¨ ullt, so gelten auch nicht die anderen beiden. Definition 7.1.12: Stochastische Unabh¨ angigkeit und Abh¨ angigkeit Gegeben seien zwei Zufallsvariablen X und Y (diskret oder stetig). Dann sind folgende Aussagen ¨aquivalent. (i) X und Y sind stochastisch unabh¨ angig. (ii) fX|Y (x|y) = fX (x) f¨ ur alle x, y ∈ R mit fY (y) > 0. (iii) fY |X (y|x) = fY (y) f¨ ur alle x, y ∈ R mit fX (x) > 0. (iv) fXY (x, y) = fX (x)fY (y) f¨ ur alle x, y ∈ R. Kriterium (iv) ist das sog. Multiplikationskriterium gem¨aß dem sich die gemeinsame Verteilung aus dem Produkt der Randverteilungen ergibt. Trifft eine der vier Aussagen nicht zu, sind X und Y stochastisch abh¨ angig. • Beispiel D2-a fortgesetzt • F¨ ur das erste Beispiel mit diskreten Zufallsvariablen legen wir Tabelle 7.1.2 zugrunde. Da beispielsweise f¨ ur x = 0 und y = 0 gilt P (X = 0, Y = 0) = 0.04 6= P (X = 0)P (Y = 0), ist das Multiplikationskriterium nicht erf¨ ullt. Im Allgemeinen gilt also nicht fXY (x, y) = fX (x)fY (y). ¨ Aquivalent ist dies auch aus den Darstellungen der bedingten Verteilungen in den Tabellen 7.1.3 und 7.1.4 ersichtlich bzw. aus den Schaubildern der Abbildungen 7.1.7 und 7.1.8. Die Spalten- bzw. Zeilenverteilungen stimmen nicht mit den korrespondierenden Randverteilungen u ¨berein. Die Tatsache, dass zumindest die bedingte Verteilung von X gegeben Y = 1 mit der Randverteilung von X u ¨bereinstimmt, also fX|Y (x|1) = fX (x) gilt, ist bei weitem nicht ausreichend. Somit sind X und Y (Geschlecht und Rauchverhalten) stochastisch abh¨ angig. Auf das inhaltliche Beispiel bezogen l¨asst sich dies dahingegen deuten, dass die Frauen den Nichtraucherstatus st¨arker und den Raucherstatus weniger stark pr¨ aferieren als die M¨ anner (vgl. Tab. 7.1.4). • Beispiel D2-b fortgesetzt • F¨ ur das zweite Beispiel mit diskreten Zufallsvariablen legen wir Tabelle 7.1.5 zugrunde. F¨ ur jedes (x, y) ∈ {1, . . . , 6} × {1, . . . , 6} gilt: P (X = x, Y = y) = 1/36 = P (X = x)P (Y = y). Somit ist das Multiplikationskriterium erf¨ ullt und X und Y (Ergebnis des 1. und 2. W¨ urfelwurfs) sind folglich stochastisch unabh¨ angig. Die bedingten Verteilungen stim-

276

7 Theoretische Verteilungen und Abh¨angigkeiten

men mit den Randverteilungen u ¨berein und sind in diesem Fall allesamt diskrete Gleichverteilungen auf den Tr¨ agerpunkten 1 bis 6. Auf das inhaltliche Beispiel bezogen, l¨asst sich dies dahingegen deuten, dass die Ergebnisse der beiden W¨ urfelwurfe sich wahrscheinlichkeitsm¨aßig nicht beeinflussen. • Beispiel S2-a fortgesetzt • F¨ ur das erste Beispiel mit stetigen Zufallsvariablen legen wird die Dichtefunktion fXY (x, y) = (0.5x + 0.25y)I[0,1] (x)I[0,2] (y) zugrunde. Wie bereits aus den vorhergehenden Berechnungen einschließlich der Schaubilder von Abbildung 7.1.11 hervorgeht, stimmen die bedingten Verteilungen nicht u ¨berein. Auch hier ist die Tatsache, dass zumindest die bedingte Verteilung von X gegeben Y = 1 mit der Randverteilung von X u ¨bereinstimmt, also fX|Y (x|1) = fX (x) gilt, nicht ausreichend. Die Zufallsvariablen X und Y sind folglich stochastisch abh¨angig. Außerdem ist das Multiplikationskriterium nicht erf¨ ullt, da fXY (x, y) = (0.5x + 0.25y)I[0,1] (x)I[0,2] (y) 6= fX (x)fY (y). Richtung und St¨ arke dieser Abh¨ angigkeit wird sp¨ater in Abschnitt 7.2.2 u ¨ber die (stochastische) Korrelation noch n¨ aher spezifiziert und quantifiziert werden. • Beispiel S2-b fortgesetzt • F¨ ur das zweite Beispiel mit stetigen Zufallsvariablen legen wird die Dichtefunktion fXY (x, y) = I[0,1] (x)I[0,1] (y) zugrunde. Da das Multiplikationskriterium erf¨ ullt ist, also gilt fXY (x, y) = I[0,1] (x)I[0,1] (y) = fX (x)fY (y), sind (die beiden Zufallszahlen) X und Y stochastisch unabh¨angig. Die bedingten Verteilungen stimmen mit den Randverteilungen u ¨berein und sind in diesem Fall allesamt stetige Gleichverteilungen auf dem Intervall [0, 1]. Auf das inhaltliche Beispiel bezogen, l¨asst sich dies a urfel) dahingegen deuten, dass die ¨hnlich wie in Beispiel D2-b (W¨ Ergebnisse der beiden erzeugten Zufallszahlen sich wahrscheinlichkeitsm¨aßig nicht beeinflussen. • Die Beziehung zwischen unabh¨ angig“ und identisch verteilt“ • In Beispiel ” ” D2-b sind X und Y unabh¨ angig und identisch verteilt, so auch in Beispiel S2-b. In den Beispielen D2-a und S2-a sind X und Y abh¨ angig und nicht identisch verteilt. Es sollte jedoch betont werden, dass die Frage der Unabh¨angigkeit und die Frage der identischen Verteilung nichts miteinander zu tun haben (um hier die Umschreibung voneinander ” v¨ ollig unabh¨ angig sind“ zu vermeiden). Aus dem einen kann also nicht auf das andere geschlossen werden. Am Ende von Abschnitt 7.1.1 wurde bereits die Umschreibung identisch verteilt“ ” erl¨autert. Als Beispiel dazu wurden zwei Zufallsvariablen X und Y betrachtet, die jeweils f¨ ur einen einmaligen W¨ urfelwurf jeweils angeben, ob eine gerade oder ein ungerade Zahl gew¨ urfelt wird, wobei

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen

277

X = 1, falls die Zahl gerade, und X = 0, falls die Zahl ungerade, Y = 0, falls die Zahl gerade, und Y = 1, falls die Zahl ungerade. In diesem Fall waren dann X und Y zwar identisch verteilt, jedoch hochgradig“ ” abh¨angig. Die Beziehung zwischen unabh¨ angig“ und identisch verteilt“ ” ” Zwei Zufallsvariablen k¨ onnen stochastisch unabh¨angig sein und dabei sowohl identisch als auch nicht identisch verteilt sein. Genauso k¨onnen zwei Zufallsvariablen stochastisch abh¨angig sein und dabei sowohl identisch als auch nicht identisch verteilt sein. Zwei Zufallsvariablen k¨ onnen auch unabh¨ angig und doch nicht identisch verteilt sein. Dazu betrachte man den gleichzeitigen Wurf einer M¨ unze (1 = Kopf, 0 = Zahl) und eines W¨ urfels mit den jeweiligen Tr¨ agermengen TX = {0, 1} und TY = {1, . . . , 6}. Dann ur jedes (x, y) ∈ TX × TY : gilt f¨ P (X = x, Y = y) = P (X = x)P (Y = y) = 1/2 · 1/6 = 1/12, sofern ein Laplace-Modell unterstellt wird. Die beiden Zufallsergebnisse beeinflussen sich dann annahmegem¨ aß nicht gegenseitig (was ja realistisch erscheint). Offensichtlich sind X und Y jedoch verschieden verteilt, da sie bereits unterschiedliche Tr¨agermengen besitzen. • Implizierte Unabh¨ angigkeit von Ereignissen • Sind X und Y unabh¨angig, so folgt daraus die Unabh¨ angigkeit beliebiger Ereignisse der Form {X ∈ A} und {Y ∈ B}, wobei A und B Intervalle oder andere (messbare) Teilmengen von R sein k¨onnen. Wir k¨onnen uns diesen Sachverhalt anhand zwei einfacher Beispiele klar machen. Betrachten wir zun¨ achst den zweimaligen W¨ urfelwurf (vorhergehendes Beispiel D2-a). Sei X das Ergebnis im 1. Wurf und Y das Ergebnis im 2. Wurf. Unter Beachtung der Tr¨agermengen von X und Y gilt dann z.B. f¨ ur A = (−∞, 2] und B = [1.2, 2.8): P (X ∈ A, Y ∈ B) = P (X ≤ 2, Y = 2) = P (X = 1, Y = 2) + P (X = 2, Y = 2). Wegen der Unabh¨ angigkeit von X und Y folgt nun aber mit dem Multiplikationskriterium P (X = 1, Y = 2) + P (X = 2, Y = 2) = P (X = 1)P (Y = 2) + P (X = 2)P (Y = 2) = [P (X = 1) + P (X = 2)]P (Y = 2) = P (X ≤ 2)P (Y = 2). Insgesamt gilt dann also P (X ∈ A, Y ∈ B) = P (X ∈ A)P (Y ∈ B). Damit folgt dann auch P (X ∈ A|Y ∈ B) = P (X ∈ A) und P (Y ∈ B|X ∈ A) = P (Y ∈ B), sofern P (Y ∈ B) > 0 bzw. P (X ∈ A) > 0. Im stetigen Fall wird der Additionskalk¨ ul durch einen entsprechenden Integrationskalk¨ ul ersetzt. Sind also X und Y gemeinsam stetig verteilt gem¨aß einer Dichte

278

7 Theoretische Verteilungen und Abh¨angigkeiten

fXY (x, y), so folgt unmittelbar mit dem Multiplikationskriterium Z 2 Z 2.8 Z 2 Z 2.8 fX (x)fY (y)dydx fXY (x, y)dydx = P (X ∈ A, Y ∈ B) = −∞ 2

= =

−∞

1.2

Z

fX (x) −∞ Z 2

Z

2.8



Z

1.2 2

fX (x)P (Y ∈ B)dx

fY (y)dy dx =

1.2

−∞

 fX (x)dx P (Y ∈ B) = P (X ∈ A)P (Y ∈ B).

−∞

Satz 7.1.3: Unabh¨ angige Zufallsvariablen implizieren unabh¨ angige Ereignisse Sind X und Y unabh¨ angige Zufallsvariablen und A und B beliebige (messbare) Teilmengen von R, dann gilt (i) P (X ∈ A|Y ∈ B) = P (X ∈ A), falls P (Y ∈ B) > 0. (ii) P (Y ∈ B|X ∈ A) = P (Y ∈ B), falls P (X ∈ A) > 0. (iii) P (X ∈ A, Y ∈ B) = P (X ∈ A)P (Y ∈ B).

H¨ oherdimensionale Wahrscheinlichkeitsverteilungen • Allgemeines • Alle bisher behandelten Konzepte f¨ ur gemeinsame Verteilung, Randverteilungen, bedingte Verteilungen und stochastische Unabh¨angigkeit bzw. Abh¨angigkeit f¨ ur zwei Zufallsvariablen k¨ onnen ohne weiteres (so wie man es sich ohnehin denken w¨ urde) auf n Zufallsvariablen X1 , . . . , Xn bzw. auf einen Zufallsvektor (X1 , . . . , Xn )T , u ¨bertragen werden. Nur einige wenige neue Aspekte kommen hinzu. Zu diesen z¨ahlen insbesondere die stochastische Unabh¨ angigkeit bzw. Abh¨angigkeit von Zufallsvektoren sowie das Konzept der bedingten Unabh¨ angigkeit bzw. Abh¨ angigkeit. Beide Themen werden sp¨ater in Abschnitt 8.3.1 eingehender besprochen. Da der zweidimensionale Fall bereits ausf¨ uhrlich behandelt wurde, werden die wesentlichen Resultate f¨ ur den ndimensionalen Fall nun deutlich weniger formal sondern eher skizzenhaft aufbereitet und anhand einiger Beispiele f¨ ur den Fall n = 3 illustriert. Auf die Besprechung ndimensionaler Verteilungsfunktionen wird verzichtet. • n-dimensionale gemeinsame Verteilungen • Man betrachte n Zufallsvariablen X1 , . . . , Xn , die entweder gemeinsam diskret oder gemeinsam stetig verteilt sind. Im diskreten Fall wird die gemeinsame Verteilung durch eine n-dimensionale Wahrscheinlichkeitsfunktion und im stetigen Fall durch eine n-dimensionale Dichtefunktion festgelegt. F¨ ur beide F¨alle notieren wird diese mit fX1 X2 ...Xn (x1 , x2 , . . . , xn ). Dabei gilt im diskreten Fall fX1 X2 ...Xn (x1 , x2 , . . . , xn ) = P (X1 = x1 , X2 = x2 , . . . , Xn = xn ).

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen

279

und im stetigen Fall P (a1 ≤ X1 ≤ b1 , a2 ≤ X2 ≤ b2 , . . . , an ≤ Xn ≤ bn ) Z bn Z b1 Z b2 fX1 X2 ...Xn (x1 , x2 , . . . , xn )dxn . . . dx2 dx1 . ... = a1

a2

an

• Randverteilungen • Die (eindimensionalen) Randverteilungen von X1 bis Xn ergeben sich mittels entsprechender Addition bzw. Integration u ¨ber jeweils alle anderen Variablen und werden mit fX1 (x1 ), fX2 (x2 ), . . . , fXn (xn ) notiert. Die sp¨ateren Beispiele m¨ ogen zur Anschauung gen¨ ugen. Ein neu hinzukommender Aspekt ist, dass nun auch mehrdimensionale Randverteilungen gebildet werden k¨ onnen. Beispielsweise k¨onnte die gemeinsame Verteilung von X1 und X2 , notiert als fX1 X2 (x1 , x2 ), auch als zweidimensionale Randverteilung der gemeinsamen Verteilung von X1 , X2 und X3 , notiert als fX1 X2 X3 (x1 , x2 , x3 ), erachtet werden. Zur Ermittlung dieser zweidimensionalen Randverteilung w¨ urde dann entsprechend nur u ¨ber die Variable x3 hinweg addiert bzw. integriert. • Bedingte Verteilungen • Die bedingten Verteilungen ergeben sich analog zum zweidimensionalen Fall, indem eine gemeinsame Verteilung durch eine ein- oder eben nun auch eine mehrdimensionale Randverteilung dividiert wird. So w¨are beispielsweise die bedingte Verteilung von X1 gegeben X2 = x2 , X3 = x3 , . . . , Xn = xn bestimmt u ¨ber die bedingte Dichte fX1 X2 ...Xn (x1 , x2 , . . . , xn ) , fX1 |X2 X3 ...Xn (x1 |x2 , x3 , . . . , xn ) = fX2 X3 ...Xn (x2 , x3 , . . . , xn ) die bedingte Verteilung von (X1 , X2 )T gegeben X3 = x3 u ¨ber fX1 X2 X3 (x1 , x2 , x3 ) fX1 X2 |X3 (x1 , x2 |x3 ) = fX3 (x3 ) und die bedingte Verteilung von (X1 , X2 )T gegeben X3 = x3 und X4 = x4 u ¨ber fX1 X2 X3 X4 (x1 , x2 , x3 , x4 ) fX1 X2 |X3 X4 (x1 , x2 |x3 , x4 ) = usw. fX3 X4 (x3 , x4 ) ¨ • Stochastische Unabh¨ angigkeit mehrerer Zufallsvariablen • Ahnlich wie bei der Betrachtung mehrerer Zufallsereignisse gen¨ ugt es auch im Falle von Zufallsvariablen nicht, stochastische Unabh¨ angigkeit lediglich f¨ ur paarweise Betrachtungen zu definieren. Um dies einzusehen, m¨ ussen wir lediglich das Beispiel von Abbildung 6.2.8 (Abschnitt 6.2.2) mittels bin¨arer Zufallsvariablen X1 , X2 und X3 fassen. Aus der daraus resultierenden Abbildung 7.1.12 kann dann leicht abgeleitet werden, dass gilt: P (Xi = 0) = P (Xi = 1) = 0.5 f¨ ur i = 1, 2, 3.

280

7 Theoretische Verteilungen und Abh¨angigkeiten

Ebenso leicht ersichtlich ist dann beispielsweise, dass gilt: P (X1 = 0, X2 = 0) = P (X1 = 1, X2 = 0) = P (X1 = 0, X2 = 1) = P (X1 = 1, X2 = 1) = 0.25. Aufgrund des Multiplikationskriteriums folgt somit die Unabh¨angigkeit von X1 und X2 , da f¨ ur alle 2-Tupel (x1 , x2 ) ∈ {0, 1} × {0, 1} gilt: P (X1 = x1 , X2 = x2 ) = P (X1 = x1 )P (X2 = x2 ). Analoges gilt f¨ ur X1 und X3 und X2 und X3 . Jedoch ist beispielsweise P (X3 = 1|X1 = 1, X2 = 1) = 0.75 6= P (X3 = 1) = 0.5. Somit ist X3 zwar von X1 und auch von X2 unabh¨angig, jedoch nicht von X1 und X2 zusammen betrachtet. Sp¨ ater werden wir auch sagen (Abschnitt 8.3.1), dass X3 vom Vektor (X1 , X2 )T abh¨ angig ist. Die paarweise Unabh¨angigkeit von X1 , X2 und X3 Zufallsvariablen schließt diese Form von Abh¨ angigkeit also nicht aus. Die (vollst¨andige) Unabh¨ angigkeit mehrerer Zufallsvariablen wird nun wie folgt gefasst. Definition 7.1.13: Stochastische Unabh¨ angigkeit mehrerer Zufallsvariablen Die Zufallsvariablen X1 , . . . , Xn (diskret oder stetig) sind (vollst¨ andig) stochastisch unabh¨ angig, falls deren gemeinsame Verteilung dem Produkt der eindimensionalen Randverteilungen entspricht, d.h. falls f¨ ur alle x1 , x2 , . . . , xn ∈ R gilt: fX1 X2 ...Xn (x1 , x2 , . . . , xn ) = fX1 (x1 )fX2 (x2 ) . . . fXn (xn ). Trifft dieses Multiplikationskriterium nicht zu, sind sie stochastisch abh¨ angig.

Abb. 7.1.12: Paarweise, aber nicht vollst¨ andig unabh¨ angige Zufallsvariablen

0.5

1

1 0.5

0.5 X1

0

X2 | X1

0.5

0.5

1

0 0.5

0

0.75

1

0.1875

0.25

0

0.0625

0.25

1

0.0625

0.75 X 3 | X 1, X 2 0.25

0

0.1875

1

0.0625

0.75

0

0.1875

0.75

1

0.1875

0.25

0

0.0625

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen

281

¨ • Implizierte Unabh¨ angigkeiten • Ahnlich wie bei Zufallsereignissen folgt dann aus der Unabh¨angigkeit mehrerer Zufallsvariablen deren paarweise Unabh¨ angigkeit. Betrachten wir dazu als Beispiel drei unabh¨ angige stetige Zufallsvariablen mit gemeinsamer Dichte fX1 X2 X3 (x1 , x2 , x3 ) = fX1 (x1 )fX2 (x2 )fX3 (x3 ). Dann ergibt sich die gemeinsame Verteilung von X1 und X2 durch Integration u ¨ber x3 , d.h. Z ∞ fX1 X2 (x1 , x2 ) = fX1 X2 X3 (x1 , x2 , x3 )dx3 . −∞

Wegen der Unabh¨ angigkeit aller drei Zufallsvariablen folgt dann unmittelbar Z ∞ fX1 X2 (x1 , x2 ) = fX1 (x1 )fX2 (x2 )fX3 (x3 )dx3 −∞ Z ∞ = fX1 (x1 )fX2 (x2 ) fX3 (x3 )dx3 = fX1 (x1 )fX2 (x2 ). −∞

Die zweite Gleichung gilt, da alle von x3 unabh¨angigen Bestandteile des Integranden vor das Integral gezogen werden k¨ onnen. Die dritte Gleichung gilt, da das Integral u ¨ber die Randdichte von X3 genau 1 ergeben muss. Analog folgt die Unabh¨angigkeit von X1 und X3 und von X2 und X3 . Allgemein gilt folgendes: Satz 7.1.4: Implizierte Unabh¨ angigkeiten Sind die Zufallsvariablen X1 , . . . , Xn (vollst¨ andig) unabh¨angig, so auch jede kleinere Teilauswahl aus diesen. Insbesondere folgt daraus die paarweise Unabh¨ angigkeit. Unabh¨angige Zufallsvariablen implizieren unabh¨angige Ereignisse. F¨ ur beliebige (messbare) Teilmengen A1 , A2 , . . . , An von R gilt deshalb stets: P (X1 ∈ A1 , X2 ∈ A2 , . . . , Xn ∈ An ) = P (X1 ∈ A1 )P (X2 ∈ A2 ) . . . P (Xn ∈ An ).

Im Falle dreier unabh¨ angiger diskreter Zufallsvariablen w¨ urde demnach gelten P (X1 = x1 , X2 = x2 , X3 = x3 ) = P (X1 = x1 )P (X2 = x2 )P (X3 = x3 ). Daraus w¨ urde dann, um auf das Beispiel von Abbildung 7.1.12 nochmals zur¨ uckzukommen, beispielsweise auch folgen P (X1 = x1 , X2 = x2 , X3 = x3 ) P (X3 = x3 |X1 = x1 , X2 = x2 ) = P (X1 = x1 , X2 = x2 ) P (X1 = x1 )P (X2 = x2 )P (X3 = x3 ) = = P (X3 = x3 ), P (X1 = x1 )P (X2 = x2 ) ebenso wie P (X1 = x1 , X2 = x2 , X3 = x3 ) P (X1 = x1 , X2 = x2 |X3 = x3 ) = P (X3 = x3 ) P (X1 = x1 )P (X2 = x2 )P (X3 = x3 ) = = P (X1 = x1 , X2 = x2 ). P (X3 = x3 )

282

7 Theoretische Verteilungen und Abh¨angigkeiten

• Beispiel D3-a • Tabelle 7.1.6 zeigt ein Beispiel einer dreidimensionalen diskreten Verteilung. Die Realisationsm¨ oglichkeiten von Y sind 0, 1 und 2, die von X und Z jeweils 0 und 1. Gem¨ aß Lesart der Tabelle gilt dann beispielsweise P (X = 0, Y = 0, Z = 0) = 0.04, P (X = 0, Y = 0, Z = 1) = 0.07 oder P (X = 1, Y = 2, Z = 1) = 0.04. In Anlehnung an Beispiel D2-a k¨ onnte man sich vorstellen, die Tabelle fasse das Ergebnis einer Studie zusammen, im Rahmen derer der Zusammenhang zwischen Geschlecht (X), Rauchverhalten (Y ) und Ern¨ ahrungsweise (Z) untersucht wurde. Dabei gelte: X = 0 f¨ ur weiblich, X = 1 f¨ ur m¨annlich,

Y = 0 f¨ ur Raucher, Y = 1 f¨ ur Gelegenheitsraucher, Y = 2 f¨ ur Nichtraucher,

Z = 0 f¨ ur nichtvegetarisch, Z = 1 f¨ ur vegetarisch.

Empirisch gedeutet betr¨ agt der Anteil von weiblichen Personen, die niemals rauchen und sich nichtvegetarisch ern¨ ahren, folglich bei 26%. Der Anteil von m¨annlichen Personen, die regelm¨aßig rauchen und sich vegetarisch ern¨ahren, liegt bei 1%. Tabelle 7.1.6: Gemeinsame Verteilung von Beispiel D3-a Z=0 X

Y

0

0 1 Summe X

Y

0 1 Summe

1 0.04 0.11 0.04

0

2

0.07 0.10 0.08 Z=1 1

0.00 0.01 0.01

0.26 0.32 0.28

Summe 0.37 0.63 0.90

0.02 0.04 0.06

Summe 0.03 0.07 0.10

2 0.01 0.02 0.03

Alternativ kann die gemeinsame Verteilung auch u ¨ber Tupel und deren Wahrscheinlichkeiten gem¨ aß Tabelle 7.1.7 spezifiziert werden. Jede Darstellungsart hat ihre Vor- und Nachteile. Eine Tupel-Darstellung erleichtert beispielsweise das gezielte Ablesen von Auspr¨ agungskombinationen und Randverteilungen. Daf¨ ur f¨allt die Analyse stochastischer Abh¨ angigkeiten etwas schwerer als in einer mehrdimensionalen Tabelle. Aus der gemeinsamen dreidimensionalen Verteilung lassen sich nun u ¨ber Addition alle m¨oglichen Randverteilungen ermitteln. Addiert man jeweils nur u ¨ber eine Variable, erh¨alt man zun¨achst die zweidimensionalen Randverteilungen. Die gemeinsame Verteilung von X und Y ergibt sich durch Addition u ¨ber Z. Diese erh¨alt man u ¨ber zellenweises Addieren der oberen und unteren H¨ alften von Tabelle 7.1.6. Daraus resultiert dann genau Tabelle 7.1.2 aus Beispiel D2-a. Die gemeinsame Verteilung von X und Z ergibt sich durch Addition u ¨ber Y und entspricht den jeweils letzten Spalten der oberen und unteren H¨alften von Tabelle 7.1.6 (Tab. 7.1.8, links). Die gemeinsame Verteilung von Z und Y schließlich ergibt sich durch Addition u ¨ber X. (Tab. 7.1.8, rechts). Im vorliegenden Fall entspricht dies gerade den jeweils letzten Zeilen der oberen und unteren

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen

283

Tabelle 7.1.7: Tupel-Darstellung f¨ ur die gemeinsame Verteilung von Beispiel D3-a Tupel (0, 0, 0) (0, 1, 0) (0, 2, 0) (1, 0, 0) (1, 1, 0) (1, 2, 0)

Wahrsch. 0.04 0.07 0.26 0.11 0.10 0.32

Tupel (0, 0, 1) (0, 1, 1) (0, 2, 1) (1, 0, 1) (1, 1, 1) (1, 2, 1)

Wahrsch. 0.00 0.01 0.02 0.01 0.02 0.04

H¨ alften von Tabelle 7.1.6. Aus den zweidimensionalen Randverteilungen k¨onnen weiter die eindimensionalen Randverteilungen anhand der Zeilen- bzw. Spaltensummen abgeleitet werden. Beispielsweise ist leicht ersichtlich, dass die Wahrscheinlichkeit f¨ ur den Status Vegetarier“ 10% betr¨ agt. Außerdem leicht ersichtlich ist, dass keine paarweise ” Unabh¨angigkeit vorliegt. Tats¨ achlich entspricht keine einzige der drei zweidimensionalen Randverteilungen dem Produkt der jeweiligen eindimensionalen Randverteilungen ergeben. Tabelle 7.1.8: Zweidimensionale Randverteilungen von Beispiel D3-a X

Z

0 1 P (Y = y)

0 0.37 0.53 0.90

1 0.03 0.07 0.10

P (Z = z) 0.40 0.60 1.00

Z

Y

0 1 P (Y = y)

0 0.15 0.01 0.16

1 0.17 0.03 0.20

2 0.58 0.06 0.64

P (Z = z) 0.40 0.60 1.00

Die bedingte Verteilung von Z gegeben X = x und Y = y wird u ¨ber die bedingte Wahrscheinlichkeitsfunktion fXY Z (x, y, z) fZ|XY (z|x, y) = fXY (x, y) bestimmt. Beispielsweise gilt dann f¨ ur X = 0 und Y = 0 (vgl. Tab. 7.1.2 und 7.1.6): 0 0.04 fZ|XY (0|0, 0) = = 1 und fZ|XY (1|0, 0) = = 0. 0.04 0.04 Da die gemeinsame Verteilung X und Y insgesamt 6 Tr¨agertupel aufweist, gibt es f¨ ur Z folglich insgesamt 6 bedingte Verteilungen. Tabelle 7.1.9 fasst diese zusammen. Beispielsweise betr¨ agt die Wahrscheinlichkeit f¨ ur den Status Vegetarier“ (Z = 1) unter ” weiblichen Nichtrauchern 7% und unter m¨ annlichen Nichtrauchern 11%. Tabelle 7.1.9: Bedingte Verteilung von Z gegeben X = x und Y = y Z

(x, y)

0 1 Summe

(0,0) 1.0 0.0 1.0

(0,1) 0.875 0.125 1.00

(0,2) 0.93 0.07 1.00

(1,0) 0.92 0.08 1.00

(1,1) 0.83 0.17 1.00

(1,2) 0.89 0.11 1.00

Die bedingte Verteilung von (X, Y )T gegeben Z = z wird dagegen u ¨ber die be-

284

7 Theoretische Verteilungen und Abh¨angigkeiten

dingte Wahrscheinlichkeitsfunktion fXY Z (x, y, z) fXY |Z (x, y|z) = fZ (z) bestimmt. Beispielsweise gilt dann f¨ ur Z = 0: 0.07 0.04 fXY |Z (0, 0|0) = ≈ 0.04, fXY |Z (0, 1|0) = ≈ 0.08, 0.9 0.9 0.11 0.26 fXY |Z (0, 2|0) = ≈ 0.29, fXY |Z (0, 0|1) = ≈ 0.12, 0.9 0.9 0.10 0.32 ≈ 0.11, fXY |Z (0, 2|0) = ≈ 0.36. fXY |Z (0, 1|0) = 0.9 0.9 agerpunkte 0 und 1 aufweist, gibt es zwei verschiedene Da die Verteilung von Z die Tr¨ bedingte Verteilungen. Tabelle 7.1.10 fasst diese zusammen. Beispielsweise betr¨agt die Wahrscheinlichkeit f¨ ur die Kombination weiblich und Nichtraucher“ (X = 0, Y = 2) ” unter Nichtvegetariern 29% und unter Vegetariern 20%. Man beachte, dass die jeweiligen Randverteilungen den (eindimensionalen) bedingten Verteilungen von X unter Z = z bzw. von Y unter Z = z entsprechen. So betr¨agt die Wahrscheinlichkeit f¨ ur den Status Nichtraucher“ unter Nichtvegetariern demnach 65% und unter Vegetariern 60%. ” Die unter den Bedingungen z = 0 und z = 1 auftretenden Abh¨angigkeiten zwischen X und Y (Tab. 7.1.10, links bzw. rechts) werden auch als bedingte Abh¨angigkeiten bezeichnet (vgl. Abschnitt 8.3.1). Tabelle 7.1.10: Bedingte Verteilung von (X, Y )T gegeben Z = z von Beispiel D3-a z=0 Y X 0 1 Σ

0

1

2

Σ

0.04 0.12 0.16

0.08 0.11 0.19

0.29 0.36 0.65

0.41 0.59 1.00

z=1 Y X 0 1 Σ

0

1

2

Σ

0.00 0.10 0.10

0.10 0.20 0.30

0.20 0.40 0.60

0.30 0.70 1.00

Da sich die bedingten Verteilungen in den Tabellen 7.1.9 und 7.1.10 unterscheiden, sind X, Y und Z abh¨ angig. Somit besteht weder vollst¨andige noch paarweise Unabh¨angigkeit. Die Abh¨ angigkeitsstruktur ließe sich insgesamt auch im Rahmen eines Wahrscheinlichkeitsbaumes fassen. In Abbildung 7.1.13 wurden dazu nacheinander die Wahrscheinlichkeiten der Verteilungen bzw. bedingten Verteilungen von X (1. Stufe), Y (2. Stufe) und Z (3. Stufe) bestimmt. Die Verteilung von X kann der Randverteilung von Tabelle 7.1.8 entnommen werden, die bedingte Verteilung von Y unter X = x entspricht den Zeilenverteilungen von Tabelle 7.1.2 und ist mit Tabelle 7.1.4 identisch, und die bedingte Verteilung von Z unter X = x und Y = y entspricht Tabelle 7.1.9. S¨amtliche Pfadwahrscheinlichkeiten k¨ onnen auch Tabelle 7.1.6 bzw. 7.1.7 entnommen werden. • Beispiel S3-a • Der Vollst¨ andigkeit halber werfen wir auch kurz einen Blick auf eine dreidimensionale stetige Verteilung. Seien X, Y und Z gemeinsam stetig verteilt gem¨aß der Dichte fXY Z (x, y, z) = (0.5x + 0.5yz)I[0,1] (x)I[0,2] (y)I[0,1] (z).

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen

285

Abb. 7.1.13: Wahrscheinlichkeitsbaum f¨ ur Beispiel D3-a

0.60 0.20

1

0.20

0.60

2

1

0

0.40

0.70 0

0.20 0.10

1

0.04

0.89

0

0.32

0.17

1

0.02

0.83

0

0.10

0.08

1

0.01

0.92

0

0.11

0.07

1

0.02

0.93

0

0.26

0.125

1

0.01

0.875

0

0.07

0

1

0

1

0

0.04

Z | X, Y

Y |X

X

0.11

2

1

0

Eine einfache grafische Veranschaulichung dieser Verteilung gibt es nicht. Zur Bestimmung von Ereigniswahrscheinlichkeiten sind nun Dreifachintegrale zu berechnen. Beispielsweise errechnet sich die Wahrscheinlichkeit f¨ ur das Ereignis {0 ≤ X ≤ 0.5, 0 ≤ Y ≤ 1, 0 ≤ Z ≤ 0.5} als Z 0.5 Z 1 Z 0.5 Z 0.5 Z 1 Z 0.5 fXY Z (x, y, z)dzdydx = (0.5x + 0.5yz)dzdydx 0

0

Z

0 0.5

0

Z

= 0

Z =

1

0.5xz + 0.25yz

 2 z=0.5

0 0.5 

0.25xy + 0.03125y 2

0

z=0

y=1

0

0

Z

0.5

Z

dydx =

(0.25x + 0.0625y)dydx 0

0.5

Z

dx = y=0

1

0

Z

1

(0.25x + 0.003125)dx 0

0

 0.5 = 0.125x2 + 0.03125x 0 = 0.046875. Die Wahrscheinlichkeit {0 ≤ X ≤ 1, 0 ≤ Y ≤ 2, 0 ≤ Z ≤ 1} muss indes 1 ergeben, da diese Wahrscheinlichkeit dem Dreifachintegral u ¨ber die gesamte Dichte entspricht. Die eindimensionale Randdichte von Z ergibt sich mittels Integration der gemeinsamen Dichte u alt man dann ¨ber x und y. Daraus erh¨ Z 1Z 2 Z 1Z 2 fZ (z) = fXY Z (x, y, z)dydx = (0.5x + 0.5yz)I[0,1] (z)dydx 0

0

0

0

286

7 Theoretische Verteilungen und Abh¨angigkeiten Z = I[0,1] (z)

1

0.5x + 0.5yz

y=2

0

Z

dx = I[0,1] (z) y=0

1

(x + z)dx 0

x=1  = I[0,1] (z) 0.5x2 + zx x=0 = (z + 0.5)I[0,1] (z). Die zweidimensionale Randdichte von X und Y ergibt sich dagegen mittels Integration der gemeinsamen Dichte u alt man exakt die Dichte aus Beispiel S2-a. ¨ber z. Daraus erh¨ Z 1 Z 1 fXY (x, y) = fXY Z (x, y, z)dz = (0.5x + 0.5yz)I[0,1] (x)I[0,2] (y)dz 0

0

z=1  = 0.5xz + 0.25yz 2 z=0 I[0,1] (x)I[0,2] (y) = (0.5x + 0.25y)I[0,1] (x)I[0,2] (y). Daraus folgt, dass die Randdichten von X und Y (wie in Beispiel D2-a) gegeben sind durch fX (x) = (x + 0.5)I[0,1] (x)

bzw.

fY (y) = (0.25y + 0.25)I[0,2] (y).

Folglich sind X und Z identisch verteilt, da sie identische Dichtefunktionen besitzen. Analog erhalten wir f¨ ur die zweidimensionalen Randdichten von X und Z und von Y und Z: fXZ (x, z) = (x + z)I[0,1] (x)I[0,1] (z) bzw. fY Z (y, z) = (0.5yz + 0.25)I[0,2] (y)I[0,1] (z). Die bedingte Verteilung von Z gegeben X = x und Y = y ist u ¨ber die eindimensionale bedingte Dichte fXY Z (x, y, z) 0.5x + 0.5yz fZ|XY (z|x, y) = I[0,1] (z) = fXY (x, y) 0.5x + 0.25y x + yz = I[0,1] (z) x + 0.5y f¨ ur x ∈ [0, 1] und y ∈ (0, 2] bestimmt. Beispielsweise gilt dann 2 2 z+ I[0,1] (z). fZ|XY (z|0, 2) = 2zI[0,1] (z) oder fZ|XY (z|1, 1) = 3 3 Die bedingte Verteilung von (X, Y )T gegeben Z = z ist u ¨ber die zweidimensionale bedingte Dichte fXY Z (x, y, z) 0.5x + 0.5yz fXY |Z (x, y|z) = = I[0,1] (x)I[0,2] (y) fZ (z) z + 0.5 x + yz I[0,1] (x)I[0,2] (y) = 2z + 1 f¨ ur z ∈ [0, 1] und y ∈ [0, 2] bestimmt. Abbildung 7.1.14 zeigt dann beispielsweise die bedingten Dichten f¨ ur z = 0 und z = 1, d.h. x+y fXY |Z (x, y|0) = xI[0,1] (x)I[0,2] (y) bzw. fXY |Z (x, y|1) = I[0,1] (x)I[0,2] (y). 3 F¨ ur z = 0.5 stimmt die bedingte Verteilung von (X, Y )T mit der Verteilung von (X, Y )T u berein. Die entsprechende Dichtefunktion kann Abbildung 7.1.9 (links) entnommen ¨ werden.

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen

287

Die unter verschiedenen Werten f¨ ur z auftretenden Abh¨angigkeiten zwischen X und Y werden auch als bedingte Abh¨ angigkeiten bezeichnet (Abschnitt 8.3.1). Abb. 7.1.14: Bedingte Verteilung von (X, Y )T gegeben Z = z von Beispiel S3-a Beispiel S3−a für z = 1

Beispiel S3−a für z = 0 f X Y | Z (x,y | 0)

f X Y | Z (x,y | 1) 1.0

1.0 0.5

2.0

0

0.5

x

1.0 1.0

0

y

0.5 0

2.0 0.5

x

1.0 1.0

0

y

Die bedingten Verteilungen unterscheiden sich hier allesamt. F¨ ur steigende Werte von Z findet sich z.B. zunehmend Wahrscheinlichkeitsmasse in der hinteren linken ” Ecke“ (kleine x- und große y-Werte werden wahrscheinlicher) der Tr¨agermenge. Damit sind X, Y und Z auf jeden Fall nicht vollst¨ andig unabh¨angig, d.h. es gilt: fXY Z (x, y, z) 6= fX (x)fY (y)fZ (z). Da zudem auch fXY (x, y) 6= fX (x)fY (y), fXZ (x, z) 6= fX (x)fZ (z) und fY Z (y, z) 6= fY (y)fZ (z) gilt, bestehen zwischen X, Y und Z auch keinerlei paarweise Unabh¨angigkeiten.

7.1.3 Verteilung von Funktionen von Zufallsvariablen Funktionen einer Zufallsvariable • Hintergrund • Aus verschiedenen Gr¨ unden ist es h¨aufig notwendig oder zumindest von Interesse, bestimmte Funktionen von Zufallsvariablen in Betracht zu ziehen. Die empirische Entsprechung davon w¨ are eine Betrachtung transformierter Beobachtungswerte. So k¨onnte man etwa anstelle der metrischen Beobachtungswerte x1 , x2 , . . . , xn die quadrierten Werte u1 = x21 , u2 = x22 , . . . , un = x2n oder die linear transformierten Werte z1 , z2 , . . . , zn mit zi = a + bxi f¨ ur i = 1, . . . , n in Betracht ziehen. Ersterer Fall mag bei der Berechnung der empirischen Varianz von Interesse sein, letzterer Fall beispielsweise bei einer Umskalierung oder bei einer zStandardisierung (Abschnitt 4.6). Diese Konzepte lassen sich nun aus sehr ¨ahnlichen Gr¨ unden auf die theoretische Ebene von Zufallsvariablen und Wahrscheinlichkeitsverteilungen u ¨bertragen. Zur Definition und Berechnung der theoretischen Varianz (Abschnitt 7.2.1) einer Zufallsvariable X etwa wird dann die transformierte Gr¨oße U = X 2

288

7 Theoretische Verteilungen und Abh¨angigkeiten

ben¨otigt. Wie im empirischen Fall ist von besonderem Interesse, ob und inwiefern sich die Verteilungen der transformierten Gr¨ oßen und damit einhergehende statistische Kennwerte ver¨andern. Dabei erweist sich die analytische Ermittlung der Verteilung einer transformierten Zufallsvariable, insbesondere im stetigen Fall, h¨aufig als schwierig. Deshalb werden transformierte Zufallsvariablen in mathematischeren Lehrb¨ uchern meist in einem eigenen Abschnitt mit der Vorstellung spezifischer Techniken und formaler S¨atze (sog. Transformations- und Faltungss¨ atze) behandelt. Wir werden uns im Folgenden lediglich auf einfach verst¨ andliche und unproblematische Beispiele konzentrieren. Auf exakte S¨atze und formale Beweise wird verzichtet. Allgemein gilt zun¨achst einmal nur festzuhalten: Funktionen von Zufallsvariablen sind i.A. wiederum Zufallsvariablen. Im Rahmen einer genaueren mathematischen Behandlung werden jedoch nicht alle Arten von Funktionen zugelassen. Dies h¨ angt wiederum mit dem Messbarkeitsproblem zusammen. So gew¨ ahrleisten nur sog. messbaren Funktionen, dass alle messbaren Mengen (Ereignisse) im Rahmen einer Transformation weiterhin messbar bleiben. Nicht messbare Funktionen sind jedoch schwierig zu konstruieren und besitzen f¨ ur uns keine praktische Relevanz. • Beispiele: Funktionen einer Zufallsvariable • 0-1-Variable: Betrachten wir als einfaches Einstiegsbeispiel zun¨achst eine sog. Bernoulli-Variable X, die lediglich die Werte 0 und 1 annehmen kann. Dabei gelte P (X = 0) = 0.9 und P (X = 1) = 0.1. Dann w¨are U = X 2 objekttechnisch eine Zufallsvariable, welche gerade die quadrierten Realisationen von X angibt. F¨ ur X = 0 gilt dann also U = 02 = 0 und f¨ ur U = 1 gilt 2 U = 1 = 1. Daraus folgt: P (U = 0) = 0.9 und P (U = 1) = 0.1. Damit w¨aren in diesem Fall X und U identisch verteilt, da die Wahrscheinlichkeitsfunktionen von X und U u ¨bereinstimmen. In diesem Fall h¨atte die Transformation verteilungsm¨aßig keinerlei Effekt. Dies ist nat¨ urlich nicht der Regelfall. Hier liegt das einfach nur daran, dass die Zahlen 0 und 1 beim Quadrieren unver¨andert bleiben. 0-2-Variable: Definiere nun P (X = 0) = 0.9 und P (X = 2) = 0.1. F¨ ur X = 0 gilt jetzt U = 02 = 0, und f¨ ur X = 2 gilt U = 22 = 4. Daraus folgt: P (U = 0) = 0.9 und P (U = 4) = 0.1. Tr¨agerpunkte von X sind die Zahlen 0 und 2, Tr¨agerpunkte von U dagegen die Zahlen 0 und 4. Somit sind X und U nicht identisch verteilt. Diskrete Gleichverteilung mit negativen Tr¨ agerpunkten: Sei X diskret gleichverteilt auf den Tr¨ agerpunkten −2, −1, 0, 1 und 2, d.h. P (X = −2) = P (X = −1) = P (X = 0) = P (X = 1) = P (X = 2) = 0.2.

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen

289

Dann gilt wegen (−2)2 = 22 = 4, (−1)2 = 12 = 1 und 02 = 0 f¨ ur die Zufallsvariable U = X 2: P (U = 0) = 0.2, P (U = 1) = 0.4, P (U = 4) = 0.4. Diskrete Gleichverteilung mit 6 Tr¨ agerpunkten (W¨ urfel): Sei X diskret gleichverteilt auf den 6 Tr¨ agerpunkten 1, 2, . . . , 6, d.h. P (X = 1) = P (X = 2) = ... = P (X = 6) = 1/6. Wegen x x2

1 1

2 4

3 9

4 16

5 25

6 36

ist U = X 2 diskret gleichverteilt auf den Tr¨ agerpunkten 1, 4, 9, 16, 25 und 36, d.h. P (U = 1) = P (U = 4) = · · · = P (U = 36) = 1/36. Abbildung 7.1.15 zeigt die Verteilung von X und U . Die Verteilung von U ist deutlich rechtsschief. So liegen 2/3 der Wahrscheinlichkeitsmasse in der ersten Gr¨oßenklasse [0, 20], dagegen nur 1/3 in der zweiten Gr¨ oßenklasse (20, 40]. Betrachten wir die Lineartransformation Z = a + bX mit b 6= 0. Dann ist Z diskret gleichverteilt auf den Tr¨ agerpunkten a + 1b, a + 2b, . . . , a + 6b. Stetige Gleichverteilung auf [0,1]: Bei stetigen Verteilungen ist zur Herleitung der Verteilung der transformierten Gr¨oße konzeptionell anders zu verfahren. Betrachten wir zun¨achst eine auf dem Intervall [0, 1] stetig gleichverteilte Zufallsvariable X mit Dichtefunktion fX (x) = I[0,1] (x). Dann ergibt sich beispielsweise die Dichte von U = X 2 nicht, wie h¨aufig anfangs angenommen, aus der quadrierten Dichte von X, also (fX (u))2 = (I[0,1] (u))2 = I[0,1] (u). Sofern dies der Fall w¨ are, so w¨ aren X und U im vorliegenden Fall identisch verteilt, da sie die gleiche Dichtefunktion bes¨ aßen. Dies ist jedoch ein falscher Ansatz! Zur Herleitung der korrekten Dichte von X 2 nutzt man im vorliegenden Fall am besten den analytischen Zusammenhang zwischen Verteilungs- und Dichtefunktion. Bezeichne FX die Verteilungsfunktion von X und FU die Verteilungsfunktion von U = X 2 . Dann gilt zun¨achst einmal: FX (x) = 0 f¨ ur x < 0, FX (x) = x f¨ ur 0 ≤ x ≤ 1 und FX (x) = 1 f¨ ur x > 1. Unter Verwendung von Indikatorfunktionen k¨ onnen wir daf¨ ur auch kompakt schreiben FX (x) = xI[0,1] (x) + I(1,∞) (x). Es ist offensichtlich, dass die Tr¨ agermenge von U nichtnegativ ist. Deshalb ist FU (u) = 0 f¨ ur u < 0. Außerdem ist offensichtlich FU (u) = 1 f¨ ur u > 1. F¨ ur 0 ≤ u ≤ 1 gilt dagegen √ √ 2 (7.1.5) FU (u) = P (U ≤ u) = P (X ≤ u) = P (X ≤ u) = FX ( u)

290

7 Theoretische Verteilungen und Abh¨angigkeiten Abb. 7.1.15: Verteilung von X und U = X 2 bei einer diskreten Gleichverteilung f X (x )

f U (u )

0.4

0.4

0.3

0.3

0.2

0.2

0.1

0.1

0.0

0.0 0

2

4

x

6

8

10

0

10

20

u

30

40

50

Abb. 7.1.16: Verteilung von X und U = X 2 bei einer stetigen Gleichverteilung f X (x )

f U (u )

5

5

4

4

3

3

2

2

1

1

0

0 −0.5

0.0

=

0.5

x

1.0

1.5

−0.5

0.0

0.5

u

1.0

√ √ √ uI[0,1] ( u) = uI[0,1] (u).

¨ Die letzte Gleichheit folgt aufgrund der Aquivalenz von 0 ≤ u ≤ 1 und 0 ≤ Insgesamt gilt dann also √ FU (u) = uI[0,1] (u) + I(1,∞) (u).

1.5

√ u ≤ 1.

Die Funktion FU besitzt die Eigenschaften einer Verteilungsfunktion einer stetigen Zufallsvariable. Sie ist u ¨berall außer an den Stellen 0 und 1 differenzierbar. Deshalb gilt: 1 ur 0 < u < 1 und FU0 (u) = 0 f¨ ur u < 0 oder u > 1. FU0 (u) = √ f¨ 2 u Damit lautet die (eine) Dichte von U (Abb. 7.1.16, rechts): 1 fU (u) = √ I(0,1) (u). 2 u Aufgrund des in Abschnitt 7.1.1 angesprochenen Eindeutigkeitsproblems stetiger Dichtefunktionen w¨are es auch m¨ oglich, das halboffene Intervall (0, √ 1] als Tr¨agermenge von U zu verwenden. Die 0 bleibt aufgrund der Division durch u in der Dichtefunktion jedoch auf jeden Fall ausgeschlossen. Der Wert der Dichte strebt gegen unendlich, falls u sich von oben“ an die 0 ann¨ ahert. ” Die Verteilung von U ist auf jeden Fall mit derjenigen von X nicht identisch, auch wenn die Tr¨ agermengen bis auf den Wert 0 u ¨bereinstimmen. Stattdessen entsteht eine stetige, rechtsschiefe Verteilung. Mit dem vorhergehenden Beispiel einer diskreten Gleichverteilung auf 6 Tr¨ agerpunkten erh¨ alt dieses Ph¨anomen eine gewisse Plausibilit¨at.

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen

291

Wie w¨are dann Y = 2X verteilt? Analog wie zuvor folgt f¨ ur 0 ≤ y ≤ 2: FY (y) = P (2X ≤ y) = P (X ≤ 0.5y) = FX (0.5y) = 0.5yI[0,1] (0.5y) = 0.5yI[0,2] (y). ¨ Letzte Gleichung folgt aufgrund der Aquivalenz von 0 ≤ 0.5y ≤ 1 und 0 ≤ y ≤ 2. Insgesamt gilt dann FY (y) = 0.5yI[0,2] (y) + I[2,∞) (y) und folglich 1 fY (y) = I(0,2) (y) aus fY (y) = FY0 (y) f¨ ur y 6= 0, 2. 2 Damit ist Y stetig gleichverteilt u ¨ber dem Intervall (0, 2) (Abschnitt 7.3.2). Die Endpunkte 0 und 2 k¨ onnten hier ohne weiteres auch hinzugenommen werden. Betrachtet man in einem weiteren Schritt die transformierte Gr¨oße Z = 1 + 2X, so ergibt sich als Dichte von Z gerade 1 1 fZ (z) = I(1,3) (z) oder eben fZ (z) = I[1,3] (z). 2 2 Stetige Gleichverteilung auf [0, 2]: V¨ ollig analog wie zuvor leitet man die Dichte von U = X 2 her, falls X u ¨ber dem Intervall [0, 2] gleichverteilt ist (Abschnitt 7.3.2), d.h. falls gilt: fX (x) = 0.5I[0,2] (x) und FX (x) = 0.5xI[0,2] (x) + I(2,∞) (x). √ F¨ ur 0 ≤ u ≤ 2 folgt nun, vgl. (7.1.5), √ √ √ √ FU (u) = FX ( u) = 0.5 uI[0,2] ( u) = 0.5 uI[0,4] (u).

√ ¨ Die letzte Gleichheit folgt aufgrund der Aquivalenz von 0 ≤ u ≤ 4 und 0 ≤ u ≤ 2. Insgesamt gilt dann also √ FU (u) = 0.5 uI[0,4] (u) + I(4,∞) (u) und folglich 1 fU (u) = √ I(0,4) (u). 4 u An diesem Beispiel wird auch besonders gut ersichtlich, dass sich die Dichte von U nicht durch Quadrieren von fX ergeben kann. Denn (fX (x))2 = 0.25I[0,2] (x) kann keine Dichtefunktion sein, da das Integral dar¨ uber 0.5 und nicht 1 ergibt. Exponentialverteilung: Sei X stetig verteilt wie in Beispiel S1-b (Abschnitt 7.1.1) mit Dichtefunktion fX (x) = 0.05e−0.05x I[0,∞) (x). Die Verteilungsfunktion wurde ebenfalls in Abschnitt 7.1.1 hergeleitet und lautet FX (x) = (1 − e−0.05x )I[0,∞) (x). Damit ist die Verteilungsfunktion FZ der linear transformierten Gr¨oße X − 20 = 0.05X − 1 Z= 20

(7.1.6)

292

7 Theoretische Verteilungen und Abh¨angigkeiten

gegeben durch FZ (z) = P (0.05X − 1 ≤ z) = P (X ≤ 20z + 20) = FX (20z + 20) = (1 − e−0.05(20z+20) )I[0,∞) (20z + 20) = (1 − e−z−1 )I[0,∞) (20z + 20) = (1 − e−z−1 )I[−1,∞) (z). ¨ Die letzte Gleichung folgt aufgrund der Aquivalenz von 0 ≤ 20z + 20 und −1 ≤ z. Folglich erh¨alt man durch Ableiten von FZ : fZ (z) = e−z−1 I(−1,∞) (z). Wie sich sp¨ater noch zeigen wird, entspricht Gleichung (7.1.6) gerade einer Standardisierung (mit Erwartungswert 0 und Varianz 1) im Sinne von Abschnitt 7.2.3. Abb. 7.1.17: Verteilung einer linear transformierten exponentialverteilten Zufallsvariable X f X (x )

f Z (z )

0.05

1.0

0.04

0.8

0.03

0.6

0.02

0.4

0.01

0.2

0.00

0.0 −10 0

10

20

30

40

50

60

70

80

Z=

−1

0

x

1

X − 20 20

2

3

4

5

z

• Funktionen unabh¨ angiger und identisch verteilter Zufallsvariablen • Folgende Resultate erscheinen intuitiv einleuchtend. Wir m¨ochten diese dennoch ohne formale Beweise festhalten (vgl. beispielsweise White [2001, Proposition 3.2]). Satz 7.1.5: Funktionen unabh¨ angiger und identisch verteilter Zufallsvariablen F¨ ur gegebene Zufallsvariablen X1 , X2 , . . . , Xn und beliebige (messbare) Funktionen g1 , g2 , . . . , gn (R → R) gilt: Sind X1 , X2 , . . . , Xn (i) stochastisch unabh¨ angig, so auch g1 (X1 ), g2 (X2 ), . . . , gn (Xn ). (ii) identisch verteilt, so auch g1 (X1 ), g1 (X2 ), . . . , g1 (Xn ). (iii) stochastisch unabh¨ angig und identisch verteilt (u.i.v.), so auch g1 (X1 ), g1 (X2 ), . . . , g1 (Xn ).

Gem¨aß Resultat (i) sind Funktionen (Transformationen) unabh¨angiger Zufallsvariablen wiederum unabh¨angig. Dabei k¨ onnen unterschiedliche (messbare) Funktionen verwendet werden. Sind beispielsweise X und Y stochastisch unabh¨angig, so etwa auch X 2 und Y 2

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen

293

oder auch X 2 und 2Y + 1. Gem¨ aß Resultat (ii) sind identisch verteilte Zufallsvariablen bei identischer Transformation (hier etwa stets mit g1 ) wieder identisch verteilt. Im Allgemeinen sind also beispielsweise X und Y 2 nicht identisch verteilt, sofern X und Y identisch verteilt sind. Jedoch gibt es auch Ausnahmen wie das vorhergehende Beispiel mit 0-1-Variablen gezeigt hat. Resultat (iii) ergibt sich aus den Resultaten (i) und (ii). Eine naheliegende Verallgemeinerung dieser Resultate f¨ ur Zufallsvektoren findet sich in Abschnitt 8.3.1.

Funktionen aus mehreren Zufallsvariablen • Hintergrund • H¨ aufig ist es auch notwendig oder von Interesse bestimmte Funktionen aus zwei oder mehr Zufallsvariablen zu bilden, wie z. B. eine Summe oder ein Produkt, also X + Y oder X · Y . So wird das gemischte Produkt X · Y beispielsweise f¨ ur die Definition und Berechnung der theoretischen Kovarianz bzw. Korrelation (Abschnitt 7.2.2) zwischen zwei Zufallsvariablen X und Y ben¨otigt. Auch hier gilt zun¨achst einmal festzuhalten: Funktionen aus mehreren Zufallsvariablen sind i.A. wiederum Zufallsvariablen. Wie zuvor deutet die Einschr¨ ankung im Allgemeinen“ darauf hin, dass im strengen ” mathematischen Sinn nur messbare Funktionen zul¨assig sind, was jedoch wiederum keinerlei Einschr¨ ankung in praktischer Hinsicht darstellt, sodass auf n¨ahere technische Details hierzu verzichtet werden kann. Nachfolgende Beispiele m¨ ogen Sinn und Zweck solcher Betrachtungen verdeutlichen. Dabei beschr¨ anken wir uns wie im eindimensionalen Fall wieder nur auf einfache und unproblematische Beispiele. Konkret betrachten wir im Folgenden lediglich Summen und Produkte. Auf verallgemeinernde formale S¨atze und dazu geh¨orige Beweise wird g¨anzlich verzichtet. • Beispiele: Funktionen mehrerer Zufallsvariablen • Summen unabh¨ angiger 0-1-Variablen: Die Betrachtung des stochastischen Verhaltens einer Summe kann unterschiedlich motiviert sein. Angenommen die Erfolgsquote bei Telefonbefragungen eines Meinungsforschungsinstituts liege bei 40%. d.h. bei 60% aller Anrufversuche legt eine angerufene Person entweder wieder auf oder ist im Weiteren nicht zu einer Befragung bereit. Hieraus k¨ onnte sich nun die Frage ergeben, wie viele Anrufe theoretisch get¨atigt werden m¨ ussen, um mit einer bestimmten Wahrscheinlichkeit z.B. eine bestimmte Anzahl erfolgreiche Befragungen zu erhalten. Sofern nun n Anrufe get¨ atigt werden, lassen sich diese mittels n identisch verteilter Zufallsvariablen X1 , X2 , . . . , Xn beschreiben. Dabei gilt dann: P (Xi = 0) = 0.6 und P (Xi = 1) = 0.4 f¨ ur i = 1, . . . , n. Wird unterstellt, dass die einzelnen Anrufe unabh¨angig voneinander sind, gilt: P (X1 = x1 , X2 = x2 , . . . , Xn = xn ) = P (X1 = x1 )P (X2 = x2 ) . . . P (Xn = xn ). Beginnen wir zun¨ achst mit dem Fall n = 2. Dann gilt f¨ ur die gemeinsame Verteilung von X1 und X2 bzw. f¨ ur die Verteilung von (X1 , X2 )T in Tupelform ausgedr¨ uckt:

294

7 Theoretische Verteilungen und Abh¨angigkeiten 2-Tupel (0, 0) (1, 0) (0, 1) (1, 1)

Summe 0 1 1 2

Wahrschein. 0.36 0.24 0.24 0.16

Dies impliziert f¨ ur die Verteilung der Summe S2 = X1 + X2 s P (S2 = s)

0 0.36

1 0.48

2 0.16

F¨ ur n = 3 erhalten wir entsprechend 3-Tupel (0, 0, 0) (1, 0, 0) (0, 1, 0) (0, 0, 1)

Summe 0 1 1 1

Wahrsch. 0.216 0.144 0.144 0.144

3-Tupel (0, 1, 1) (1, 0, 1) (1, 1, 0) (1, 1, 1)

Summe 2 2 2 3

Wahrsch. 0.096 0.096 0.096 0.064

f¨ ur die Verteilung von (X1 , X2 , X3 )T bzw. s P (S3 = s)

0 0.216

1 0.432

2 0.288

3 0.064

f¨ ur die Verteilung der Summe S3 = X1 + X2 + X3 . Das l¨asst sich allgemein auf Sn = X1 + X2 + · · · + Xn fortsetzen. Beispielsweise ergibt sich dann f¨ ur n = 10 (die Wahrscheinlichkeiten wurden auf 2 Nachkommastellen gerundet): s P (S10 = s) s P (S10 = s)

0 0.01 6 0.11

1 0.04 7 0.04

2 0.12 8 0.01

3 0.21 9 0.00

4 0.25 10 0.00

5 0.20

Abbildung 7.1.18 zeigt die Verteilungen von S1 , S2 , S3 und S10 . Sp¨ater wird sich herausstellen, dass diese Summen jeweils binomialverteilt sind (Abschnitt 7.3.1). Je gr¨oßer n ist, d.h. je h¨oher die Anzahl der Anrufe, desto mehr dehnen sich die Tr¨agerpunkte auf gr¨oßere Werte aus. Es wird somit immer wahrscheinlicher, eine bestimmte Anzahl von Erfolgen zu erzielen, was an sich nat¨ urlich wenig u ¨berraschend ist. Beispielsweise gilt: P (S2 > 1) = 0.16, P (S3 > 1) = 0.352, P (S10 > 1) = 0.95. Die Wahrscheinlichkeit, wenigstens zwei Erfolge zu erzielen, betr¨agt bei 3 Anrufen folglich u ¨ber 35% und bei 10 Anrufen ca. 95%. Summe und Produkt bei diskreter Gleichverteilung: Angenommen, bei einem W¨ urfelspiel werden zwei W¨ urfel auf einmal geworfen, wobei die Summe der beiden Augenzahlen X1 und X2 von Interesse sei (vergleiche dazu Beispiel D2-b aus Abschnitt 7.1.2 mit X1 = X und X2 = Y ). Dann sind X1 und X2 unabh¨angige und auf den Tr¨ agerpunkten 1, 2, . . . , 6 diskret gleichverteilte Zufallsvariablen. F¨ ur die Verteilung S2 = X1 + X2 ergibt sich dann Tabelle 7.1.11. Zur technischen

7.1 Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen

295

Abb. 7.1.18: Verteilung von Summen aus 0-1-Variablen S1

S3

S2

S 10

0.6

0.6

0.6

0.6

0.4

0.4

0.4

0.4

0.2

0.2

0.2

0.2

0.0

0

5

10

0.0

0

5

10

0.0

0

5

0.0

10

0

5

10

Ermittlung dieser Verteilung ist es am einfachsten, Tabelle 7.1.5 aus Abschnitt 7.1.2 um die Summen f¨ ur jedes Augenpaar (2-Tupel) zu erg¨anzen. Tabelle 7.1.13 zeigt den Wert von S2 innerhalb jeder Zelle als 1. fettgedruckte Zahl. Insgesamt entsteht, wie das mittlere Schaubild von Abbildung 7.1.19 verdeutlicht, eine symmetrische Verteilung. Tabelle 7.1.11: Zweimaliges W¨ urfeln – Verteilung der Summe Augenzahlen s P (S2 = s) s P (S2 = s)

2 1/36 8 5/36

3 2/36 9 4/36

4 3/36 10 3/36

5 4/36 11 2/36

6 5/36 12 1/36

7 6/36

Tabelle 7.1.12: Zweimaliges W¨ urfeln – Verteilung der Summe Augenzahlen u P (U = u) u P (U = u)

1 1/36 12 4/36

2 2/36 15 2/36

3 2/36 16 1/36

4 3/36 18 2/36

5 2/36 20 2/36

6 4/36 24 2/36

8 2/36 25 1/36

9 1/36 30 2/36

10 2/36 36 1/36

V¨ollig analog ließe sich die Verteilung des Produkts U = X1 · X2 ermitteln. Tabelle 7.1.13 zeigt den Wert von U innerhalb jeder Zelle als 2. fettgedruckte Zahl. Daraus ableitend ergibt sich f¨ ur die Verteilung von U , s. Tabelle 7.1.12. Insgesamt weist das Produkt eine rechtsschiefe Verteilung auf. So liegen im Intervall [1, 12] u ¨ber 60% Wahrscheinlichkeitsmasse, im Intervall (12, 24] nur 25% und im Intervall (24, 36] nur etwas mehr als 10%. Summe und Produkt bei stetiger Gleichverteilung: Bei stetigen Verteilungen ist die Herleitung der Verteilung von Funktionen mathematisch etwas anspruchsvoller“ und erfolgt unter Verwendung des Integrationskalk¨ uls. Da” zu existieren verschiedene Transformations- und Faltungss¨ atze, aus denen hervorgeht, wie sich Dichtefunktionen f¨ ur Summen oder Produkte herleiten lassen. Gew¨ohnlich werden solche S¨atze einschließlich Beweisen in jedem mathematischeren Lehrbuch der Statistik oder der Wahrscheinlichkeitstheorie behandelt. Wie sich zeigen l¨asst, ergibt sich dann beispielsweise f¨ ur die Summe S2 = X1 + X2 zweier unabh¨angiger u ¨ber dem Intervall [0, 1] gleichverteilter Zufallsvariablen eine Dreiecksverteilung gem¨aß Dichte fS2 (s) = sI[0,1] (s) + (2 − s)I(1,2] (s).

296

7 Theoretische Verteilungen und Abh¨angigkeiten Tabelle 7.1.13: Zweimaliges W¨ urfeln – Summe und Produkt der Augenzahlen X2 s|u

X1 1 2 3 4 5 6

1

2

3

4

5

6

2|1 1/36 3|2 1/36 4|3 1/36 5|4 1/36 6|5 1/36 7|6 1/36

3|2 1/36 4|4 1/36 5|6 1/36 6|8 1/36 7|10 1/36 8|12 1/36

4|3 1/36 5|6 1/36 6|9 1/36 7|12 1/36 8|15 1/36 9|18 1/36

5|4 1/36 6|8 1/36 7|12 1/36 8|16 1/36 9|20 1/36 10|24 1/36

6|5 1/36 7|10 1/36 8|15 1/36 9|20 1/36 10|25 1/36 11|30 1/36

7|6 1/36 8|12 1/36 9|18 1/36 10|24 1/36 11|30 1/36 12|36 1/36

Abb. 7.1.19: Verteilung von Summe und Produkt zweier W¨ urfelergebnisse X 1 bzw. X 2

0.20

S2 = X1 + X2

0.20

0.15

0.15

0.15

0.10

0.10

0.10

0.05

0.05

0.05

0.00

0

6

12

0.00

0

6

U = X 1X 2

0.20

12

0.00

0

6

12 18 24 30 36

F¨ ur das Produkt U = X1 X2 erh¨ alt man dagegen die Dichte fU (u) = − ln(u)I(0,1] (u). Dabei bezeichnet ln( ) den nat¨ urlichen Logarithmus. Abbildung 7.1.20 zeigt die ¨ beiden Dichtefunktionen. Die Ahnlichkeit zu den unter einer diskreten Gleichverteilung erzielten Ergebnissen sticht ins Auge (vgl. Abb. 7.1.19). H¨aufig wird zun¨achst f¨alschlich vermutet, dass die Summe u usse. Dies ist ¨ber dem Intervall [0, 2] gleichverteilt sein m¨ jedoch ein Fehlschluss, da es f¨ ur den mittleren Bereich der Tr¨agermenge mehr Realisationsm¨oglichkeiten gibt als f¨ ur die R¨ ander. Man m¨oge dies am diskreten W¨ urfelbeispiel anhand von Tabelle 7.1.13 nachvollziehen. Deshalb entsteht eine unimodale, symmetrische Verteilung.

7.2 Theoretische Kennwerte Zur Deskription der empirischen Verteilung von Daten dienen verschiedene Kennwerte zur Beschreibung von Lage, Streuung und Schiefe. Zur Charakterisierung von Wahr-

7.2 Theoretische Kennwerte

297

Abb. 7.1.20: Verteilung von Summe und Produkt zweier stetig gleichverteilter Zufallsvariablen X 1 bzw. X 2

3.0 2.5

3.0 2.5

2.5

2.0

2.0

2.0

1.5

1.5

1.5

1.0

1.0

1.0

0.5

0.5

0.5

0.0

0

1

2

0.0

0

1

U = X 1X 2

3.0

S2 = X1 + X2

2

0.0

0

1

2

scheinlichkeitsverteilungen dienen nun theoretische Kennwerte, die diesen empirischen Kennwerten in gewisser Weise entsprechen. Im Prinzip k¨onnte man nun zu allen empirischen Kennwerten entsprechende wahrscheinlichkeitstheoretische Gegenst¨ ucke definieren. Im Folgenden werden jedoch nur die wichtigsten vorgestellt. Zu diesen z¨ahlen der Erwartungswert als Lagemaß und wichtigster Kennwert u ¨berhaupt, die theoretische Varianz als Streuungsmaß, die theoretischen Quantile als lokale Lagemaße sowie die theoretische Kovarianz und die theoretische Korrelation als Zusammenhangsmaße.

7.2.1 Kennwerte in Bezug auf Lage und Streuung Erwartungswert • Definition und Notation • Der Erwartungswert stellt das wahrscheinlichkeitstheoretische Pendant zum arithmetischen Mittel dar und ist wie folgt definiert: Definition 7.2.1: Erwartungswert Sei X eine diskrete oder stetige Zufallsvariable mit Wahrscheinlichkeits- bzw. Dichtefunktion fX . Dann ist der Erwartungswert von X definiert als P P (i) µX = E(X) = aj P (X = aj ) = aj fX (aj ) j

j

f¨ ur diskretes X mit Realisationsm¨ oglichkeiten a1 , a2 , . . . , ak , . . . und ∞ R (ii) µX = E(X) = xfX (x)dx −∞

f¨ ur stetiges X. W¨ ahrend das arithmetische Mittel metrischer Beobachtungswerte x1 , x2 , . . . , xn u ¨blicherweise mit dem Symbol x ¯ notiert wird, verwendet man f¨ ur den Erwartungswert einer Zufallsvariable X meist den griechischen Kleinbuchstaben µ (lies: m¨ u).

298

7 Theoretische Verteilungen und Abh¨angigkeiten

Sofern beispielsweise noch eine zweite Zufallsvariable Y in Betracht gezogen wird, schreibt dann zur Unterscheidung µX bzw. µY . Die Verwendung des Erwartungswertoperators E(·) hebt die Berechnungsoperation hervor, ¨ ahnlich wie das Summenzeichen (der Summenoperator) Σ“ die Summation u ultigkeit bestimmter ¨ber eine Reihe von Werten. Die G¨ ” Rechenregeln f¨ ur Erwartungswerte wird gew¨ohnlich mithilfe dieses Operators ausgedr¨ uckt. So ist beispielsweise der Erwartungswert einer Summe von Zufallsvariablen stets gleich der Summe der einzelnen Erwartungswerte (siehe (7.2.13)). Dies l¨asst sich dann u ¨ber E(X + Y ) = E(X) + E(Y ) ausdr¨ ucken. Die Symbolschreibweise wird dagegen pr¨aferiert, um gezielt die Kennwerte von Zufallsvariablen zu spezifizieren, wie etwa: X besitze den Erwartungswert µ=1“. ” Weniger u ¨blich ist die Formulierung X besitze den Erwartungswert E(X)=1“. ” In Erg¨anzung dazu beachte man ferner die Anmerkungen zur Endlichkeit von Erwartungswerten in Abschnitt 7.2.3. • Interpretation des Erwartungswertes • Wie sind Erwartungswerte zu interpretieren? Beginnen wir mit dem diskreten Fall. Hier ergibt sich der Erwartungswert durch Multiplikation der Realisationsm¨ oglichkeiten mit ihren jeweiligen Wahrscheinlichkeiten und anschließendem Aufsummieren. Sei X beispielsweise die Augenzahl beim W¨ urfelwurf. Dann bilden die Zahlen 1 bis 6 die Realisationsm¨oglichkeiten bzw. die Tr¨agermenge der Verteilung von X. Da jede Realisationsm¨oglichkeit die Wahrscheinlichkeit 1/6 besitzt, folgt dann E(X) =

6 X

j · P (X = j)

j=1

1 1 1 1 1 1 + 2 · + 3 · + 4 · + 5 · + 6 · = 3.5. 6 6 6 6 6 6 Empirisch entspricht dies der Berechnung des arithmetischen Mittels anhand der relativen H¨aufigkeiten fj f¨ ur vorkommende Auspr¨agungen aj (Abschnitt 4.2.1), also X x ¯= a j fj . =1·

j

Wie ist jetzt der Wert 3.5 zu interpretieren? Ein erster Ansatzpunkt zur Interpretation ist die Bezeichnung Erwartungswert“ selbst. Der Erwartungswert ist ein theoretisch ” erwarteter Mittelwert, welcher eine durchschnittliche Erwartung“ bei h¨aufiger Anzahl ” von Wiederholungen eines Zufallsvorgangs quantifiziert. Angenommen, ein W¨ urfel werde 4 Mal geworfen. Diese 4 W¨ urfe k¨ onnen durch 4 Zufallsvariablen X1 , X2 , X3 und X4 modelliert werden, die unabh¨ angig und identisch verteilt sind. Angenommen, in einem konkreten Fall lauten die Realisationen: x1 = 4, x2 = 3, x3 = 1, x4 = 4. Dann lautet das arithmetische Mittel dieser Werte x ¯=3

7.2 Theoretische Kennwerte

299

und stimmt in diesem Fall nicht mit dem Erwartungswert u ¨berein. H¨atten wir dagegen zuf¨allig die Zahlen 4, 3, 1 und 6 gew¨ urfelt, w¨ urden arithmetisches Mittel und Erwartungswert u ¨bereinstimmen. Es ist nun so, dass mit wachsender Anzahl von Wiederholungen das arithmetische Mittel der Ergebnisse gegen den Erwartungswert konvergiert im Sinne der sog. stochastischen Konvergenz . F¨ ur großes n sollte das arithmetische Mittel deshalb (mit hoher Wahrscheinlichkeit) nahe am Erwartungswert liegen, d.h. (unpr¨azise ausgedr¨ uckt): n 1X x ¯= xi ≈ E(X) = µX f¨ ur großes n. n i=1 Dies liegt daran, dass die relativen H¨ aufigkeiten fj der einzelnen Auspr¨agungen bei wachsender Anzahl von Wiederholungen gegen die theoretischen Wahrscheinlichkeiten P (X = aj ) (stochastisch) konvergieren. Bei 20 W¨ urfelw¨ urfen w¨ urde das arithmetische Mittel bereits mit ca. 90% Wahrscheinlichkeit nicht mehr als 0.5 vom Erwartungswert 3.5 abweichen, sprich zwischen 3 und 4 liegen. Basiert das arithmetische Mittel auf nur einem einzigen Wurf, so betr¨ agt diese Wahrscheinlichkeit 1/3, da nur im Falle der Ergebnisse 3 oder 4 die Abweichung nicht mehr als 0.5 betr¨agt. Mathematisch formal werden die Konvergenz des arithmetischen Mittels gegen den Erwartungswert und die Konvergenz der relativen H¨ aufigkeiten gegen die theoretischen Wahrscheinlichkeiten durch das Gesetz der großen Zahlen beschrieben, das sp¨ater in Abschnitt 7.4.2 behandelt wird. Die Interpretation des Erwartungswerts f¨ ur stetige Zufallsvariablen ist die gleiche wie f¨ ur diskrete. Der Additionskalk¨ ul wird lediglich durch einen Integrationskalk¨ ul ersetzt. Interpretation des Erwartungswertes Der Erwartungswert ist ein theoretisch erwarteter Mittelwert“, der sich langfristig“ ” ” einstellen sollte, sofern immer wieder erneut metrische Beobachtungswerte aus der gleichen unterstellten Wahrscheinlichkeitsverteilung gewonnen werden. Informal ausgedr¨ uckt gilt also: x ¯ → µX f¨ ur wachsendes n oder x ¯ ≈ µX f¨ ur großes n. Formal pr¨azise wird dies durch das Gesetz der großen Zahlen beschrieben. • Begr¨ undung des Rechenkalk¨ uls f¨ ur stetige Verteilungen • Der Rechenkalk¨ ul f¨ ur den stetigen Fall sei nachfolgend f¨ ur die folgenden beiden F¨alle skizzenhaft begr¨ undet: (i) die Dichte besitzt die Form eines Wahrscheinlichkeitshistogramms, (ii) die Dichte besitzt nicht die Form eines Wahrscheinlichkeitshistogramms. Exemplarisch zeigt das linke Schaubild von Abbildung 7.2.1 die Dichte aus Beispiel S1-a aus Abschnitt 7.1.1. Eine solche Dichte wird auch als Wahrscheinlichkeitshistogramm bezeichnet, da sie wie ein Histogramm u ¨ber Intervallen (cj−1 , cj ] konstante

300

7 Theoretische Verteilungen und Abh¨angigkeiten

Dichtewerte aufweist. Definiere nun f¨ ur diesen Fall die diskrete Zufallsvariable XD mit P (XD = mj ) = P (X ∈ (cj−1 , cj ]) = fX (mj )dj f¨ ur alle j, wobei mj die Klassenmitte und dj die Klassenbreite der j-ten Klasse bezeichnen. Die Tr¨agerpunkte der Verteilung von XD stimmen also mit den Klassenmitten des Histogramms u aß Rechenkalk¨ ul f¨ ur diskrete Zufallsvariablen: ¨berein. Dann gilt gem¨ X E(XD ) = mj fX (mj )dj . (7.2.1) j

Wie sich nachfolgend (Rechenbeispiel S1-a) noch zeigen wird gilt dabei: Z ∞ X mj fX (mj )dj = xfX (x)dx.

(7.2.2)

−∞

j

Weiter konvergieren nun mit wachsender Anzahl von Realisationen zum einen die Klassenmittelwerte gegen die jeweiligen Klassenmitten, d.h. x ¯j ≈ mj f¨ ur alle j.

(7.2.3)

Zum anderen konvergieren die relativen Klassenh¨aufigkeiten gegen die theoretischen Einfallswahrscheinlichkeiten, d.h. f˜j ≈ P (X ∈ (cj−1 , cj ]) = fX (mj )dj f¨ ur alle j. (7.2.4) Beide Approximationen folgen mehr oder weniger direkt aus dem Gesetz der großen Zahlen. Mit (7.2.1) bis (7.2.4) gilt deshalb f¨ ur großes n: Z ∞ X X x ¯= x ¯j f˜j ≈ mj fX (mj )dj = xfX (x)dx = E(XD ). (7.2.5) j

−∞

j

Man beachte, dass die Gleichung auf der linken Seite der Approximation der Formel f¨ ur das arithmetische Mittel gruppierter (klassierter) Daten entspricht (Abschnitt 4.3.1). Da nun aber auch f¨ ur großes n gelten sollte x ¯ ≈ µX , erscheint es sinnvoll, den Erwartungswert von X demjenigen von XD gleichzusetzen: Z ∞ E(X) = E(XD ) = xfX (x)dx. (7.2.6) −∞

Insgesamt wird der Rechenkalk¨ ul f¨ ur den stetigen Fall somit f¨ ur Wahrscheinlichkeitshistogramme begr¨ undet. Ein konkretes Rechenbeispiel findet sich nachfolgend als Beispiel S1-a. Sofern die Dichte nicht die Form eines Wahrscheinlichkeitshistogramms besitzt, erh¨alt die Argumentationskette einen zus¨ atzlichen Zwischenschritt. Exemplarisch zeigt das rechte Schaubild von Abbildung 7.2.1 die Dichte einer stetigen Zufallsvariable Y aus Beispiel S2-b aus Abschnitt 7.1.1. Diese wird nun zun¨achst durch ein m¨oglichst genau” es“ Histogramm mit gleich breiten Klassen der Breite d approximiert. Basierend darauf l¨ asst sich wiederum eine diskrete Gr¨ oße YD definieren, sodass folgende Approximation gilt: X E(Y ) ≈ E(YD ) = mj fY (mj )d. (7.2.7) j

7.2 Theoretische Kennwerte

301

Abb. 7.2.1: Begr¨ undung des Rechenkalk¨ uls f¨ ur stetige Verteilungen f X (x )

f Y (y )

Beispiel S1−a

1.2 1.0

E (X ) = ∑ m j f X (m j )d j j

0.8 0.6

= ⌠xf X (x )d x ⌡

0.4 0.2

m1

0.0

0.05

E (Y ) ≈ ∑ m j f Y (m j )d

0.04

j

0.03

⌠yf (y )d y ⌡ Y

0.02 0.01

m3

m2

Beispiel S1−b

0.00

0.0 0.5 1.0 1.5 2.0 2.5 3.0

−10 0

x

10

20

30

40

50

60

70

80

y

Im Unterschied zu (7.2.6) stimmt der Erwartungswert von Y also zun¨achst einmal nicht exakt mit dem von YD u ¨berein. Mit gegen 0 strebender Klassenbreite d wird die Approximation jedoch zunehmend genauer. Gem¨aß Integrationstheorie erh¨alt man in der Grenzbetrachtung (informal ausgedr¨ uckt) f¨ ur d → 0: Z ∞ Z ∞ X (7.2.8) mj fY (mj )d → mfY (m)dm = yfY (y)dy. −∞

j

−∞

Der Summenausdruck auf der linken Seite konvergiert imR Sinne eines Riemann-Integrals gegen einen Grenzausdruck, welcher mit dem Symbol “ (ein stilisiertes S f¨ ur Sum” ” me“) notiert wird. Wegen (7.2.7) und (7.2.8) postuliert man sinnvollerweise schließlich Z ∞ E(Y ) = yfY (y)dy. −∞

Insgesamt wird damit der Rechenkalk¨ ul mittels Grenzbetrachtung approximierender Wahrscheinlichkeitshistogramme auch f¨ ur den zweiten Fall begr¨ undet. Ein konkretes Rechenbeispiel f¨ ur diesen Fall findet sich nachfolgend als Beispiel S1-b. • Beispiel D1-a fortgesetzt • Wir setzen das Beispiel aus Abschnitt 7.1.1 fort und berechnen nun den Erwartungswert. Die diskrete Zufallsvariable X mit P (X = 0) = 0.4, P (X = 1) = 0.2, P (X = 2) = 0.3 und P (X = 3) = 0.1 gibt dabei die Anzahl mitreisender Kinder bei Pauschalreisen an. Mit den Realisationsm¨oglichkeiten a1 = 0, a2 = 1, a3 = 2 und a4 = 3 folgt dann: X E(X) = aj P (X = aj ) = 0 · 0.4 + 1 · 0.2 + 2 · 0.3 + 3 · 0.1 = 1.1. j

Je Buchung werden theoretisch durchschnittlich 1.1 mitreisende Kinder angegeben. • Beispiel D1-b fortgesetzt • Auch hier setzen wir das gleichnamige Beispiel aus Abschnitt 7.1.1 fort. Sei Y eine diskrete Zufallsvariable, welche die Anzahl eingehender Notrufe an einem Rettungswagen-St¨ utzpunkt w¨ahrend einer Stunde angibt. Dabei gilt: ( y 3 −3 e , y = 0, 1, 2, . . . , fY (y) = y! 0, sonst.

302

7 Theoretische Verteilungen und Abh¨angigkeiten

Man beachte, dass die Tr¨ agermenge alle nat¨ urlichen Zahlen umfasst, also abz¨ahlbar unendlich groß ist. Die Berechnungsvorschrift bleibt davon jedoch unber¨ uhrt. Es folgt dann: ∞ X 3j 2 · 32 −3 3 · 33 −3 E(Y ) = j · e−3 = 0 + 3e−3 + e + e + ... j! 2! 3! j=0 Mit etwas mathematischem Aufwand l¨ asst sich zeigen, dass der Grenzwert dieser Summe gleich 3 ist. Somit gilt: E(Y ) = 3. Theoretisch sollten also w¨ ahrend einer Stunde durchschnittlich 3 Notrufe eingehen. • Beispiel S1-a fortgesetzt • Sei X eine stetige Zufallsvariable, welche die H¨ohe des Trinkgeldes angibt, welches den Servicekr¨aften eines Restaurants pro Abrechnung u ¨berlassen wird. Dabei lautet die Dichte (Abb. 7.2.1, links): fX (x) = 1.2I(0,0.5] (x) + 0.5I(0.5,1.0] (x) + 0.15I(1.0,2.0] (x). Gem¨aß Intergrationskalk¨ ul folgt dann: Z ∞ xfX (x)dx E(X) = −∞ Z ∞ = [1.2xI(0,0.5] (x) + 0.5xI(0.5,1.0] (x) + 0.15xI(1.0,2.0] (x)]dx −∞ Z ∞ Z ∞ Z ∞ 0.5xI(0.5,1.0] (x)dx + 0.15xI(1.0,2.0] (x)dx 1.2xI(0,0.5] (x)dx + = −∞

−∞

Z

0.5

Z

1

xdx + 0.5

= 1.2 0

−∞

Z

2

xdx + 0.15 0.5

xdx 1

 0.5  1  2 = 1.2 0.5x2 0 + 0.5 0.5x2 0.5 + 0.15 0.5x2 1 = 1.2 · 0.125 + 0.5 · 0.375 + 0.15 · 1.5 = 0.5625. Theoretisch erhalten die Servicekr¨ afte pro Abrechnung durchschnittlich ca. 56 Cent. Verwenden wir die Berechnungsformel u ¨ber die diskretisierte Variable XD gem¨aß (7.2.1) erhalten wir mit X E(XD ) = mj fX (mj )dj = 0.25 · 1.2 · 0.5 + 0.75 · 0.5 · 0.5 + 1.5 · 0.15 · 1 j

= 0.5625, wie bereits in (7.2.2) postuliert, genau das gleiche Ergebnis. • Beispiel S1-b fortgesetzt • Sei Y eine stetige Zufallsvariable, welche die Wartezeit in Minuten bis zum n¨ achsten eingehenden Notruf an einem Rettungswagenst¨ utzpunkt angibt (Abschnitt 7.1.1). Dabei lautet die Dichte (Abb. 7.2.1, rechts): fY (y) = 0.05e−0.05y I[0,∞) (y).

7.2 Theoretische Kennwerte

303

Es folgt dann Z



Z



yfY (y)dy = 0.05ye−0.05y I[0,∞) (y)dy −∞ −∞ Z ∞ ye−0.05y I[0,∞) (y)dy. = 0.05

E(Y ) =

−∞

Mit einigem mathematischen Aufwand l¨ asst sich zeigen, dass die Stammfunktion des Integranden gegeben ist durch e−0.05y (7.2.9) (−0.05y − 1). 0.052 Alternativ bietet sich auch die Technik des sog. partiellen Integrierens an, was hier jedoch nicht weiter vertieft werden soll. Mit (7.2.9) folgt weiter Z ∞ i∞ h e−0.05y ye−0.05y I[0,∞) (y)dy = 0.05 − 1) E(Y ) = 0.05 (−0.05y 0.052 0 −∞  1  1 = 0 − 0.05 (0 − 1) = = 20. 0.052 0.05 Man beachte, dass der Ausdruck (7.2.9) als Funktion in y durch die e-Funktion do” miniert“ wird. Deshalb strebt (7.2.9) f¨ ur y → ∞ trotz −0.05y → −∞ gegen 0. Formal setzt man (7.2.9) f¨ ur y = ∞ deshalb gleich 0. Theoretisch betr¨agt die durchschnittliche Wartezeit also 20 Minuten. Verwenden wir die Berechnungsformel u ¨ber ein approximierendes Histogramm gem¨aß (7.2.1), erhalten wir beispielsweise unter Verwendung der 16 Klassenmitten 2.5, 7.5, 12.5, 17.5, . . . , 77.5 und der Klassenbreite d = 5 (gerundet): E(YD ) =

16 X

mj fY (mj )d = 2.5 · 0.05e−0.05·2.5 · 5 + 7.5 · 0.05e−0.05·7.5 · 5 + . . .

j=1

+ 77.5 · 0.05e−0.05·77.5 · 5 ≈ 18.22. Die Approximation weicht immerhin noch um 1.78 vom tats¨achlichen Wert 20 ab. Dies liegt vor allem daran, dass das approximierende Histogramm bei 80 abbricht, die Tr¨agermenge jedoch bis unendlich geht. Verwenden wir die 200 Klassenmitten 0.5, 1, 1.5, . . . , 199.5 mit der Klassenbreite d = 1, erhalten wir bereits eine gute N¨aherung mit E(YD ) = 2.5 · 0.05e−0.05·0.5 + 1.0 · 0.05e−0.05·1.0 + . . . + 100.5 · 0.05e−0.05·100.5 = 19.99. • Erwartungswert einer Funktion einer Zufallsvariable • Wie bereits in Abschnitt 7.1.3 festgehalten, sind Funktionen von Zufallsvariablen im Allgemeinen wiederum Zufallsvariablen, deren Verteilungen sich in der Regel von den Ausgangsverteilungen unterscheiden. Im Rahmen theoretischer Berechnungen interessiert man sich h¨aufig nicht f¨ ur die gesamte Verteilung einer transformierten Gr¨oße, sondern lediglich f¨ ur bestimmte Kennwerte wie etwa den Erwartungswert. Was also w¨aren beispielsweise die Erwartungswerte von X 2 oder a + bX f¨ ur eine Zufallsvariable X mit Erwartungswert µ? Die erste Frage interessiert beispielsweise bei der Berechnung der theoretischen Varianz (s. (7.2.15)). Allgemein k¨ onnen wir dazu folgende Resultate nutzen:

304

7 Theoretische Verteilungen und Abh¨angigkeiten

Satz 7.2.1: Erwartungswert einer Funktion einer Zufallsvariable Sei X eine diskrete oder stetige Zufallsvariable mit Wahrscheinlichkeits- bzw. Dichtefunktion fX und g(x) eine (messbare) reellwertige Funktion, d.h. g : R → R. Dann gilt f¨ ur Y = g(X): P P (i) E(Y ) = E(g(X)) = j g(aj )P (X = aj ) = j g(aj )fX (aj ) f¨ ur diskretes X mit Realisationsm¨ oglichkeiten a1 , a2 , . . . , ak , . . . und R∞ (ii) E(Y ) = E(g(X)) = −∞ g(x)fX (x)dx f¨ ur stetiges X. Sei fY die Wahrscheinlichkeits- bzw. Dichtefunktion von Y . Alternativ zu (i) und (ii) k¨ onnen wir auch rechnen: P P (i*) E(Y ) = j bj P (Y = bj ) = j bj fY (aj ) wobei b1 , b2 , . . . , bl , . . . die Realisationsm¨oglichkeiten von Y sind bzw. R∞ (ii*) E(Y ) = −∞ yfY (y)dy. Auf allgemeine Beweise sei verzichtet. Insbesondere die Resultate (i) und (i*) f¨ ur den diskreten Fall sind leicht einzusehen, wie nachfolgendes Beispiel noch zeigen wird. In der Praxis verwendet man stets diejenige Variante, welche gerade praktikabler erscheint. Das h¨angt dann davon ab, welche Information bereits vorliegt. Ist fY bereits bekannt, so ist letztere Variante h¨ aufig die naheliegendere Methode. F¨ ur bestimmte Transformationen lassen sich vereinfachende Regeln u ¨ber den Erwartungswertoperator E(·) formulieren. So gilt beispielsweise f¨ ur Lineartransformationen der Form Z = a + bX die Linearit¨ atseigenschaft des Erwartungswertoperators: E(a + bX) = a + bE(X).

(7.2.10)

Daraus ergibt sich die Verschiebungs- und Skalen¨ aquivarianz des Erwartungswertes (vgl. Abschnitt 7.2.3). Im diskreten Fall ist die G¨ ultigkeit von (7.2.10) leicht u ¨ber die Berechnungsvariante (i) einzusehen. Demnach gilt: X X X E(a + bX) = (a + baj )P (X = aj ) = aP (X = aj ) + baj P (X = aj ) j

=a

j=1

X

P (X = aj ) + b

j

X

j

aj P (X = aj ) = a · 1 + b · E(X).

j

Man beachte, dass die Summe aller Wahrscheinlichkeiten 1 ergibt. Im stetigen Fall folgt dies analog aus Berechnungsvariante (ii) mit Z ∞ Z ∞ Z ∞ E(a + bX) = (a + bx)fX (x)dx = afX (x)dx + bxfX (x)dx −∞ −∞ −∞ Z ∞ Z ∞ =a fX (x)dx + b xfX (x)dx = a · 1 + bE(X). −∞

−∞

Hierbei ist zu beachten, dass das Intergral u ¨ber eine Dichte 1 ergibt. An diesen beiden Ausf¨ uhrungen l¨ asst sich erahnen, woher ein verallgemeinernder maßtheoretischer

7.2 Theoretische Kennwerte

305

Zugang zur Wahrscheinlichkeitsrechnung, im Rahmen dessen st¨andig separat gef¨ uhrte Nachweise f¨ ur diskrete und stetige Verteilungen entfallen, sich motivieren l¨asst. F¨ ur metrische Ausgangswerte x1 , . . . , xn , die gem¨aß zi = a + bxi linear transformiert werden, lautet die empirische Entsprechung von Regel (7.2.10): z¯ = a + b¯ x. Dies ergibt sich aus der Skalen- und Verschiebungs¨aquivarianz des arithmetischen Mittels (Abschnitt 4.9.3). Ferner ist in diesem Zusammenhang zu beachten, dass allgemein E(g(X)) 6= g(E(X))

(7.2.11)

gilt, auch wenn im Falle von Lineartransformationen die Gleichheit erf¨ ullt ist. Jedoch ist im Allgemeinen beispielsweise E(X 2 ) 6= (E(X))2 ,

(7.2.12)

so wie auch im empirischen Fall im Allgemeinen gilt: n n 1 X 2  1 X 2 xi 6= xi . n i=1 n i=1 • Beispiel D1-c • Sei X diskret gleichverteilt auf den Tr¨agerpunkten 1 bis 6 (W¨ urfelwurf). Dann gilt f¨ ur die Verteilungen von X, U = X 2 und Z = 1 + 2X: x P (X = x)

1 1/6

2 1/6

3 1/6

4 1/6

5 1/6

6 1/6

u = x2 P (U = u) z = 1 + 2x P (Z = z)

1 1/6 3 1/6

4 1/6 5 1/6

9 1/6 7 1/6

16 1/6 9 1/6

25 1/6 11 1/6

36 1/6 13 1/6

Gem¨aß Variante (i) werden zur Berechnung von E(U ) und E(Z) die Realisationsm¨oglichkeiten von X in die transformierenden Funktionen, hier also g1 (x) = x2 bzw. g2 (x) = 1 + 2x, eingesetzt und mit der Verteilung von X gem¨aß fX verrechnet. Daraus ergibt sich dann: E(U ) = E(X 2 ) =

6 X

a2j P (X = aj )

j=1

1 1 1 1 1 91 1 = 12 · + 22 · + 32 · + 42 · + 52 · + 62 · = ≈ 15.17 6 6 6 6 6 6 6 bzw. E(Z) = E(1 + 2X) =

6 X (1 + 2aj )P (X = aj ) j=1

1 1 1 = (1 + 2 · 1) · + (1 + 2 · 2) · + (1 + 2 · 3) · 6 6 6 1 1 1 + (1 + 2 · 4) · + (1 + 2 · 5) · + (1 + 2 · 6) · = 8. 6 6 6

306

7 Theoretische Verteilungen und Abh¨angigkeiten

Gem¨aß Variante (i*) werden die Verteilungen von U und Z gem¨aß fU bzw. fZ dagegen direkt herangezogen. Daraus ergibt sich dann: E(U ) =

6 X

b2j P (U = bj )

j=1

=1·

1 1 1 1 1 1 91 + 4 · + 9 · + 16 · + 25 · + 36 · = 6 6 6 6 6 6 6

bzw. E(Z) =

6 X

cj P (Z = cj )

j=1

1 1 1 1 1 1 + 5 · + 7 · + 9 · + 11 · + 13 · = 8. 6 6 6 6 6 6 Diese Rechnungen entsprechen genau den vorhergehenden Berechnungen. Unter Verwendung der Vereinfachungsregel (7.2.10) gilt außerdem: =3·

E(1 + 2X) = 1 + 2E(X). Mit E(X) =

6 X

aj P (X = aj ) =

j=1

6 X

j · P (X = aj ) = 3.5

j=1

folgt E(U ) = 1 + 2E(X) = 8. Da X symmetrisch um den Wert 3.5 verteilt ist, sollte E(X) = 3.5 jedoch auch ohne Rechnung ersichtlich sein. Diese letzte Berechnungsvariante f¨ ur E(Z) w¨are hier nat¨ urlich am schnellsten. Nebenbei erhalten wir die Ungleichheit (7.2.12) best¨atigt. So gilt hier offensichtlich: 49 91 = E(X 2 ) 6= (E(X))2 = 3.52 = . 6 4 • Beispiel S1-c • Sei X stetig gleichverteilt auf dem Intervall [0, 1] mit Dichte fX (x) = I[0,1] (x). Gem¨aß den Vorarbeiten in Abschnitt 7.1.3 k¨ onnen dann f¨ ur die Verteilungen von U = X 2 und Z = 1 + 2X folgende Dichten hergeleitet werden: 1 1 fU (u) = √ I(0,1) (u) bzw. fZ (z) = I[1,3] (z). 2 2 u Nach den Varianten (i) und (ii) werden die Erwartungswerte von U und Z jeweils u ¨ber die Dichte von X berechnet. Daraus ergibt sich dann Z ∞ Z ∞ E(U ) = E(X 2 ) = x2 fX (x)dx = x2 I[0,1] (x)dx −∞

Z = 0

1

x2 dx =

h1 3

−∞

x3

i1 0

=

1 3

7.2 Theoretische Kennwerte

307

bzw. Z



Z

1

= 0

(1 + 2x)I[0,1] (x)dx −∞

−∞

Z



(1 + 2x)fX (x)dx =

E(Z) = E(1 + 2X) =

 1 (1 + 2x)dx = x + x2 0 = 2.

Die Varianten (i*) und (ii*) verwenden dagegen die Dichten von U bzw. Z, woraus sich Z ∞ Z ∞ u √ I(0,1) (u)du E(U ) = ufU (u)du = 2 u −∞ −∞ Z 1 h i 1 √ 1 1 = 0.5 udu = u3/2 = 3 3 0 0 bzw. Z ∞ Z ∞ E(Z) = zfZ (z)dz = 0.5zI[1,3] (z)dz −∞

−∞

Z = 0.5 1

3

 1 zdz = 0.5 0.5z 2 0 = 2

ergibt. Alternativ folgt aus Z ∞ Z E(X) = xfX (x)dx = −∞

1

xdx = 0.5

0

und der Vereinfachungsregel (7.2.10) E(Z) = 1 + 2E(X) = 2. Da X symmetrisch um den Wert 0.5 verteilt ist, sollte E(X) = 0.5 jedoch auch ohne Rechnung ersichtlich sein. Somit w¨ are diese letzte Berechnungsvariante f¨ ur E(Z) am schnellsten. • Erwartungswert einer Funktion aus mehreren Zufallsvariablen • Wie bereits in Abschnitt 7.1.3 festgehalten wurde, sind auch (messbare) Funktionen aus mehreren Zufallsvariablen wiederum Zufallsvariablen. Auch hier interessiert man sich meist nicht f¨ ur die gesamte Verteilung der transformierten Gr¨oße im Detail, sondern lediglich f¨ ur bestimmte Kennwerte wie etwa den Erwartungswert. Der Einfachheit halber konzentrieren wir uns im Folgenden auf Funktionen aus zwei Zufallsvariablen X und Y . M¨ogliche Verallgemeinerungen auf n Variablen, X1 , . . . , Xn , sind dann relativ naheliegend. Wir k¨onnen dazu folgende Resultate nutzen: Satz 7.2.2: Erwartungswert einer Funktion aus mehreren Zufallsvariablen Seien X und Y zwei diskrete oder zwei stetige Zufallsvariablen mit gemeinsamer Wahrscheinlichkeits- bzw. Dichtefunktion fXY und g(x, y) eine (messbare) reellwertige Funktion, d.h. g : R2 → R. Dann gilt f¨ ur Z = g(X, Y ): P P (i) E(Z) = E(g(X, Y )) = i j g(ai , bj )P (X = ai , Y = bj ) f¨ ur diskretes (X, Y )T mit Realisationsm¨oglichkeiten (a1 , b1 ), . . . , (ak , bl ), . . . und

308

7 Theoretische Verteilungen und Abh¨angigkeiten

(ii) E(Z) = E(g(X, Y )) = f¨ ur stetiges (X, Y )T .

R∞ R∞ −∞ −∞

g(x, y)fXY (x, y)dydx

Sei fZ die Wahrscheinlichkeits- bzw. Dichtefunktion von Z. Alternativ zu (i) und (ii) k¨ onnen wir auch rechnen: P P (i*) E(Z) = j cj P (Z = cj ) = j cj fZ (cj ), wobei c1 , c2 , . . . , cm , . . . die Realisationsm¨oglichkeiten von Z sind, bzw. R∞ (ii*) E(Z) = −∞ zfZ (z)dz.

F¨ ur bestimmte Transformationen lassen sich vereinfachende Regeln u ¨ber den Erwartungswertoperator E(·) formulieren. Einige besonders wichtige seien nachfolgend vorgestellt. • Spezialfall: Erwartungswerte von Summen • F¨ ur den Erwartungswert der Summe aus mehreren Zufallsvariablen gilt folgende Regel: Satz 7.2.3: Erwartungswerte von Summen F¨ ur n Zufallsvariablen X1 , . . . , Xn (diskret oder stetig) und Konstanten c0 , c1 , . . . , cn gilt: E(c0 + c1 X1 + c2 X2 + · · · + cn Xn ) = c0 + c1 E(X1 ) + c2 E(X2 ) + · · · + cn E(Xn ). Speziell folgt daraus f¨ ur zwei Zufallsvariablen X und Y : E(X + Y ) = E(X) + E(Y ).

(7.2.13)

Der Erwartungswert einer Summe ist also gleich der Summe der einzelnen Erwartungswerte. In diesem Zusammenhang bezeichnet man den Erwartungswert, genauer den Erwartungswertoperator, auch als linear . Die Verschiebungs- und Skalen¨aquivarianz des Erwartungswertes ergibt sich dabei als Spezialfall. Zum Nachweis betrachten wir nur den speziellen Fall mit zwei Zufallsvariablen X und Y . Dann gilt f¨ ur die Transformation g(x, y) = x + y laut Satz 7.2.2, Regel (ii): Z ∞Z ∞ (x + y)fXY (x, y)dydx E(X + Y ) = −∞ −∞ Z ∞Z ∞ Z ∞Z ∞ = xfXY (x, y)dydx + yfXY (x, y)dydx −∞ −∞ −∞ −∞ Z ∞ Z ∞ Z ∞ Z ∞   fXY (x, y)dx dy x fXY (x, y)dy dx + y = −∞ −∞ −∞ −∞ Z ∞ Z ∞ = xfX (x)dx + yfY (y)dy = E(X) + E(Y ). −∞

−∞

7.2 Theoretische Kennwerte

309

F¨ ur metrische Ausgangswerte (x1 , y1 ), . . . , (xn , yn ), die gem¨aß zi = xi +yi transformiert werden, lautet die empirische Entsprechung dieser Regel n 1X z¯ = (xi + yi ) = x ¯ + y¯. n i=1 Mit geringf¨ ugig mehr Schreibaufwand l¨ asst sich auf diese Weise auch die G¨ ultigkeit von E(c0 + c1 X + c2 Y ) = c0 + c1 E(X) + c2 E(Y ) zeigen. Das f¨ ur n Zufallsvariablen postulierte Resultat folgt dann induktiv. Dabei wird beispielsweise die Summe aus drei Zufallsvariablen X1 , X2 und X3 dann als Summe von S2 und X3 betrachtet, wobei S2 = X1 + X2 ist. Daraus folgt E(S2 + X3 ) = E(S2 ) + E(X3 ) = E(X1 + X2 ) + E(X3 ) = E(X1 ) + E(X2 ) + E(X3 ) usw. Der Nachweis f¨ ur den diskreten Fall erfolgt analog unter Verwendung entsprechender Doppelsummen. • Spezialfall: Erwartungswerte von Produkten • F¨ ur den Erwartungswert eines Produkts aus mehreren Zufallsvariablen gilt folgende Regel: Satz 7.2.4: Multiplikationsregel bei Unabh¨ angigkeit (und Unkorreliertheit) F¨ ur n (vollst¨andig) unabh¨ angige Zufallsvariablen X1 , . . . , Xn (diskret oder stetig) gilt die Multiplikationsregel gem¨ aß E(X1 · X2 · ... · Xn ) = E(X1 ) · E(X2 ) · . . . E(Xn ). Speziell folgt daraus f¨ ur zwei unabh¨ angige Zufallsvariablen X und Y : E(X · Y ) = E(X) · E(Y ).

(7.2.14)

Die Multiplikationsregel gilt auch bei Unkorreliertheit (Abschnitt 7.2.2). Tats¨achlich ist die Unabh¨ angigkeit aber nicht zwingend notwendig f¨ ur die G¨ ultigkeit der Multiplikationsregel . Unkorreliertheit, die durch Unabh¨angigkeit impliziert wird (Abschnitt 7.2.2), w¨ are bereits hinreichend. Ungeachtet dessen gelten die Rechenregeln (i) und (ii) auch f¨ ur abh¨ angige Zufallsvariablen. Beispiele zur Berechnung von X · Y im Kontext abh¨angiger Zufallsvariablen finden sich sp¨ater noch in Abschnitt 7.2.2. Zum Nachweis der Multiplikationsregel betrachten wir wiederum nur den Fall mit zwei Zufallsvariablen X und Y , die nun als unabh¨angig voneinander angenommen werden. Mit dem Multiplikationskriteriums (7.1.4) gilt dann zun¨achst einmal fXY (x, y) = fX (x)fY (y). Daraus folgt dann f¨ ur die Transformation g(x, y) = xy laut Regel (ii): Z ∞Z ∞ Z ∞Z ∞ E(X · Y ) = xyfXY (x, y)dydx = xyfX (x)fY (y)dydx −∞ −∞ −∞ −∞ Z ∞ Z ∞  = xfX (x) yfY (y)dy dx −∞

−∞

310

7 Theoretische Verteilungen und Abh¨angigkeiten

=

Z



 Z xfX (x)dx ·

−∞



 yfY (y)dy = E(X)E(Y ).

−∞

Das f¨ ur n Zufallsvariablen postulierte Resultat folgt induktiv. Dabei wird das Produkt aus drei Zufallsvariablen X1 , X2 und X3 als Produkt von U und X3 betrachtet, wobei U = X1 X2 ist. Mit den Erkenntnissen aus Abschnitt 8.3.3 folgt, dass dann auch U und X3 unabh¨angig sind. Daraus ergibt sich dann sukzessive E(U X3 ) = E(U )E(X3 ) = E(X1 X2 )E(X3 ) = E(X1 )E(X2 )E(X3 ) usw. Der Nachweis f¨ ur den diskreten Fall erfolgt analog unter Verwendung entsprechender Doppelsummen. • Beispiel D2-b fortgesetzt • Wir setzen das gleichnamige Beispiel aus Abschnitt 7.1.2 fort. Ein W¨ urfel werde zweimal geworfen, wobei X1 = X und X2 = Y die beiden Augenzahlen seien. Diese sind dann gemeinsam diskret verteilt gem¨aß Tabelle 7.1.5 mit E(X1 ) = E(X2 ) = 3.5. Daraus folgt mit der Linearit¨at des Erwartungswertes: E(X1 + X2 ) = E(X1 ) + E(X2 ) = 3.5 + 3.5 = 7. Andererseits folgt dies auch mit der in Abschnitt 7.1.3 hergeleiteten Verteilung von S2 = X1 + X2 gem¨ aß Tabelle 7.1.11 durch Anwendung von Regel (i*): 2 3 1 1 E(S2 ) = 2 · +3· +4· + · · · + 12 · = 7. 36 36 36 36 F¨ ur das Produkt folgt mit der Unabh¨ angigkeit von X1 und X2 : E(X1 X2 ) = E(X1 )E(X2 ) = 3.5 · 2.5 = 12.25. Mit der in Abschnitt 7.1.3 hergeleiteten Verteilung von U folgt dies mit Regel (i*): 1 2 2 1 E(U ) = 1 · +2· +3· + · · · + 36 · = 12.25. 36 36 36 36 Man beachte, dass die Rechenregel f¨ ur die Summe die Unabh¨angigkeit von X1 und X2 nicht voraussetzt, w¨ ahrend dies bei der Multiplikationsregel jedoch der Fall ist. Der Erwartungswert einer Summe von Zufallsvariablen ist also gleich der Summe der einzelnen Erwartungswerte; ganz gleich, ob die Zufallsvariablen nun abh¨angig oder unabh¨angig sind. • Beispiel S2-b fortgesetzt • Auch hier setzen wird das gleichnamige Beispiel aus Abschnitt 7.1.2 fort. Seien X1 = X und X2 = Y unabh¨angig und jeweils stetig gleichverteilt u ¨ber [0,1]. Dann sind S2 = X1 + X2 und U = X1 · X2 wiederum stetig verteilt gem¨aß den Dichten (Abschnitt 7.1.3): fS2 (s) = sI[0,1] (s) + (2 − s)I(1,2] (s) bzw. fU (u) = − ln(u)I(0,1] (u). Der Erwartungswert von X1 und X2 ist jeweils gleich 0.5. Dies ergibt sich aus Z ∞ Z 1  1 E(X) = xI[0,1] (x)dx = xdx = 0.5x2 0 = 0.5, −∞

0

sollte aber aufgrund der Symmetrie der Dichtefunktion auch ohne Rechnung offensichtlich sein. Damit folgt f¨ ur die Summe E(X1 + X2 ) = E(X1 ) + E(X2 ) = 0.5 + 0.5 = 1

7.2 Theoretische Kennwerte

311

und f¨ ur das Produkt E(X1 · X2 ) = E(X1 )E(X2 ) = 0.5 · 0.5 = 0.25. Alternativ erhalten wir die gleichen Ergebnisse unter Verwendung der Dichtefunktionen von S2 bzw. U . Dabei lautet die Rechnung f¨ ur S2 : Z ∞ Z ∞  E(S2 ) = sfS2 (s)ds = s sI[0,1] (s) + (2 − s)I(1,2] (s) ds −∞ 1

Z =

−∞

s2 ds +

Z

2

(2s − s2 )ds =

h1

s3

i1

h 1 i2 + s2 − s3 3 0 1

3 1 i h   8 1 i = −0 + 4− − 1− = 1. 3 3 3 Vergegenw¨artigt man sich die Gestalt der Dichte von S2 (Abb. 7.1.20) als Dreieck mit Modalwert 1, sollte das Ergebnis auch ohne Rechnung offensichtlich sein. F¨ ur U erh¨alt man Z ∞ Z ∞  E(U ) = ufU (u)du = u − ln(u)I(0,1] (u) du. 0

h1

−∞

−∞

Mit partiellem Integrieren l¨ asst sich zeigen, dass dieses Integral 0.25 ergibt.

• Weitere Beispiele • Die Rechenregeln (i) und (ii) gelten nat¨ urlich nicht nur f¨ ur Summen und Produkte, sondern f¨ ur nahezu beliebige Funktionen und, wie bereits erw¨ahnt, auch f¨ ur abh¨ angige Zufallsvariablen. W¨ urde man beispielsweise f¨ ur drei stetige Zufallsvariablen X1 , X2 und X3 (abh¨ angig oder unabh¨angig) mit gemeinsamer Dichte fX1 X2 X3 den Erwartungswert von p W = 1 + 2X1 X22 X33 + 3X1 X2 berechnen, so k¨onnte man in einem ersten Schritt die Linearit¨at des Erwartungswertes ausnutzen und zun¨ achst einmal vereinfachen zu p E(W ) = 1 + 2E(X1 X22 X33 ) + 3E(X1 X2 ). Der weitere Kalk¨ ul w¨ are dann p E(W ) = 1 + 2E(X1 X22 X33 ) + 3E(X1 X2 ) Z ∞Z ∞Z ∞ =1+2 x1 x22 x33 fX1 X2 X3 (x1 , x2 , x3 )dx3 dx2 dx1 −∞ −∞ −∞ Z ∞Z ∞ √ +3 x1 x2 fX1 X2 (x1 , x2 )dx2 dx1 , −∞

−∞

wobei f¨ ur letzteres Integral zun¨ achst die zweidimensionale Randdichte von (X1 , X2 )T hergeleitet werden m¨ usste. Dazu ¨ aquivalent k¨ onnte man aber auch gleich rechnen: Z ∞Z ∞Z ∞ p √ E(X1 X2 ) = x1 x2 fX1 X2 X3 (x1 , x2 , x3 )dx3 dx2 dx1 . −∞

−∞

−∞

Insgesamt kann sich die Bestimmung der einzelnen Integrale im Weiteren dann als mehr oder weniger komplex erweisen. Auf ein ausf¨ uhrliches Rechenbeispiel wird verzichtet.

312

7 Theoretische Verteilungen und Abh¨angigkeiten

Theoretische Varianz und Standardabweichung • Definition und Notation • Die theoretische Varianz und die theoretische Standardabweichung , kurz Varianz und Standardabweichung (wir verwenden den Zusatz theoretisch“ zur deutlicheren Unterscheidung), stellen die wahrscheinlich” keitstheoretischen Pendants zur empirischen Varianz und empirischen Standardabweichung (Abschnitt 4.4.4) n n q 1X 1X 2 s˜2X = (xi − x ¯)2 = xi − x ¯2 bzw. s˜X = s˜2X n i=1 n i=1 dar und sind wie folgt definiert: Definition 7.2.2: Theoretische Varianz und Standardabweichung Sei X eine diskrete oder stetige Zufallsvariable mit Erwartungswert E(X) = µX . Dann ist die (theoretische) Varianz von X definiert als   2 σX = V ar(X) = E (X − µX )2 = E(X 2 ) − µ2X (7.2.15) und die (theoretische) Standardabweichung als q 2 . σX = σX Theoretische Varianz und Standardabweichung werden mit dem griechischen Kleinbuchstaben σ (lies: sigma) notiert. Die Verwendung des Varianzoperators V ar(·) hebt die Berechnungsoperation hervor. Wie beim Erwartungswertoperator l¨asst sich mithilfe dieses Operators insbesondere die G¨ ultigkeit bestimmter Rechenregeln ausdr¨ ucken. • Verschiebungsformel f¨ ur die theoretische Varianz • In Analogie zur Verschiebungsformel f¨ ur die empirische Varianz (Abschnitt 4.4.4) gibt es auch eine Verschiebungsformel f¨ ur die theoretische Varianz. Diese ergibt sich mit den Rechenregeln f¨ ur den Erwartungswert wie folgt:   E (X − µX )2 = E(X 2 − 2µX X + µ2X ) = E(X 2 ) − 2µX E(X) + E(µ2X ) = E(X 2 ) − 2µX µX + µ2X = E(X 2 ) − µ2X . Man beachte, dass µX eine fest Zahl (Konstante) ist und deshalb vor den Erwartungswertoperator gezogen werden kann. • Interpretation der theoretischen Varianz • Zun¨achst erscheint hier die Feststellung wichtig, dass die theoretische Varianz ein spezieller Erwartungswert ist. Sie ist die erwartete quadratische Abweichung vom Erwartungswert, so wie ihr empirisches

7.2 Theoretische Kennwerte

313

Pendant die mittlere quadratische Abweichungen vom Mittelwert ist. Insofern kommt der Varianz ein entsprechender interpretatorischer Ansatz u ¨ber den Erwartungswert zu. Wird ein u ¨ber die Zufallsvariable X modellierter Zufallsvorgang n Mal unabh¨angig und identisch wiederholt, sollte auf Basis der beobachteten Realisationen x1 , . . . , xn f¨ ur großes n approximativ gelten: n n 1X 1X 2 x ¯= xi ≈ E(X) = µX und x ≈ E(X 2 ). n i=1 n i=1 i In beiden F¨allen ergibt sich dies aus dem Gesetz der großen Zahlen (Abschnitt 7.4.2). Mit der Verschiebungsformel folgt dann n 1X 2 2 s˜2X = x −x ¯2 ≈ E(X 2 ) − µ2X = σX . n i=1 i Inhaltlich l¨asst sich die theoretische Standardabweichung analog zum empirischen Fall u ¨ber theoretische Schwankungsintervalle deuten, die sich rechnerisch im Zusammenhang der Normalverteilung (Abschnitt 7.3.2) ergeben. So gilt f¨ ur normalverteilte Zufallsvariablen X mit Erwartungswert µ und Varianz σ 2 beispielsweise P (µ − 2σ ≤ X ≤ µ + 2σ) ≈ 0.95. Dies bedeutet, dass Realisationen von X mit ca. 95% Wahrscheinlichkeit nicht mehr als 2 Standardabweichungen vom Erwartungswert entfernt liegen. Interpretation der theoretischen Varianz und Standardabweichung Die theoretische Varianz ist die langfristig“ sich einstellende empirische Varianz, ” falls immer wieder erneut metrische Beobachtungswerte aus der gleichen unterstellten Wahrscheinlichkeitsverteilung gewonnen werden. Informal ausgedr¨ uckt gilt also: 2 2 s˜2X → σX f¨ ur wachsendes n oder s˜2X ≈ σX f¨ ur großes n.

F¨ ur die theoretische Standardabweichung gilt analog: s˜X → σX f¨ ur wachsendes n oder s˜X ≈ σX f¨ ur großes n.

• Berechnung • Die Berechnung der Varianz einer Zufallsvariable X entspricht der Berechnung des Erwartungswertes der Funktion g(X) mit g(x) = (x − µX )2 . Mit den Erkenntnissen des vorhergehenden Abschnitts lautet die Rechnung im stetigen Fall deshalb entweder Z ∞   V ar(X) = E (X − µX )2 = (x − µX )2 fX (x)dx −∞

oder alternativ, sofern die Verteilung Y = (X − µX )2 mit einer Dichte fY angegeben werden kann, Z ∞ V ar(X) = E(Y ) = yfY (y)dy. −∞

314

7 Theoretische Verteilungen und Abh¨angigkeiten

Mit direkter Anwendung der Verschiebungsformel rechnet sich erstere Variante als Z ∞ 2 2 V ar(X) = E(X ) − µX = x2 fX (x)dx − µ2X . −∞

Im diskreten Fall ist der Integrationskalk¨ ul durch einen entsprechenden Additionskalk¨ ul zu ersetzen. Einige Rechenbeispiele finden sich nachfolgend. • Spezialfall: Varianzen von Summen • F¨ ur den Erwartungswert einer Summe aus mehreren Zufallsvariablen gilt folgende Regel: Satz 7.2.5: Varianzen von Summen bei Unabh¨ angigkeit F¨ ur n (vollst¨andig) unabh¨ angige Zufallsvariablen X1 , . . . , Xn (diskret oder stetig) und Konstanten c0 , c1 , . . . , cn gilt: V ar(c0 + c1 X1 + · · · + cn Xn ) = c21 V ar(X1 ) + · · · + c2n V ar(Xn ). Speziell folgt daraus f¨ ur zwei unabh¨ angige Zufallsvariablen X und Y : V ar(X + Y ) = V ar(X) + V ar(Y ). Diese Resultate gelten auch bei Unkorreliertheit (Abschnitt 7.2.2). Die Varianz einer Summe ist bei Unabh¨ angigkeit gleich der Summe der einzelnen Varianzen. Folglich ist die Varianz bzw. der Varianzoperator bei Unabh¨angigkeit linear. ¨ Die Unabh¨angigkeit ist jedoch nicht notwendig f¨ ur die Linearit¨at der Varianz. Ahnlich wie bei der Multiplikationsregel (7.2.14) w¨ are Unkorreliertheit, die durch Unabh¨angigkeit impliziert wird (Abschnitt 7.2.2), bereits hinreichend. Sofern keine Unkorreliertheit vorliegt, m¨ ussen bei der Rechnung theoretische Kovarianzen, die zwischen den einzelnen Zufallsvariablen bestehen k¨ onnen, ber¨ ucksichtigt werden (vgl. Abschnitt 7.4.1 mit Beispielen). Zum Nachweis der Linearit¨ at bei Unabh¨angigkeit betrachten wir den Fall zweier unabh¨angiger Zufallsvariablen X und Y mit Erwartungswerten µX bzw. µY . Dann gilt zun¨achst: E(X + Y ) = E(X) + E(Y ) = µX + µY . Außerdem gilt f¨ ur die zentrierte Variable X − µX (analog auch f¨ ur Y − µY ): E(X − µX ) = 0, da

(7.2.16)

E(X − µX ) = E(X) − E(µX ) = µX − µX = 0 ist. Aufgrund der Unabh¨angigkeit von X und Y sind auch X − µX und Y − µY als Funktionen von X bzw. Y unabh¨angig (Satz 7.1.5, Abschnitt 7.1.3). Dies wiederum impliziert mit der Multiplikationsregel (7.2.14), dass gilt:   E (X − µX )(Y − µY ) = E(X − µX ) · E(Y − µY ) = 0 · 0 = 0. (7.2.17) Mit der Definition f¨ ur die Varianz und der Linearit¨at des Erwartungswerts folgt schließlich f¨ ur Z = X + Y :     V ar(X + Y ) = V ar(Z) = E (Z − E(Z))2 = E (X + Y − µX − µY )2    = E (X − µX + Y − µY )2 = E (X − µX )2 + (Y − µY )2

7.2 Theoretische Kennwerte

315

 + 2(X − µX )(Y − µY )       = E (X − µX )2 + E (Y − µY )2 + 2E (X − µX )(Y − µY ) = V ar(X) + V ar(Y ), wobei sich die letzte Gleichung aus (7.2.17) ergibt. Das f¨ ur n Zufallsvariablen postulierte Resultat folgt dann induktiv. Zur Ber¨ ucksichtigung m¨oglicher Koeffizienten c0 , c1 , . . . , cn beachte man die Transformationseigenschaften der Varianz in Abschnitt 7.2.3. Es sei ferner bemerkt, dass die linke Seite von (7.2.17) der theoretischen Kovarianz zwischen X und Y entspricht (Definition 7.2.5). Diese ist neben den einzelnen Varianzen zus¨atzlich zu bestimmen, falls X und Y nicht unkorreliert sind. • Beispiel D1-a fortgesetzt • Wir setzen das gleichnamige Beispiel aus den vorhergehenden Abschnitten fort und berechnen nun die Varianz von X (Anzahl mitreisender Kinder) mit P (X = 0) = 0.4, P (X = 1) = 0.2, P (X = 2) = 0.3 und P (X = 3) = 0.1. Wie bereits gezeigt, gilt: E(X) = 1 · 0.2 + 2 · 0.3 + 3 · 0.1 = 1.1. Weiter folgt dann mit dem zweiten theoretischen Moment E(X 2 ) = 12 · 0.2 + 22 · 0.3 + 32 · 0.1 = 2.3 u ur die theoretische Varianz ¨ber die Verschiebungsformel f¨ σ 2 = V ar(X) = E(X 2 ) − (E(X))2 = 2.3 − 1.12 = 1.09. Die theoretische Standardabweichung betr¨ agt dann √ σ = 1.09 ≈ 1.04. ur das gleichnamige Beispiel aus den vorhergehenden • Beispiel S1-a fortgesetzt • F¨ Abschnitten mit der stetigen Zufallsvariable X (H¨ohe von Trinkgeld) gem¨aß Dichte fX (x) = 1.2I(0,0.5] (x) + 0.5I(0.5,1.0] (x) + 0.15 · I(1.0,2.0] (x) wurde bereits gezeigt: Z E(X) =



xfX (x)dx = 0.5625.

−∞

Mit dem zweiten theoretischen Moment Z ∞ Z ∞ 2 2 E(X ) = x fX (x)dx = 1.2x2 I(0,0.5] (x)dx −∞ −∞ Z ∞ Z ∞ 2 + 0.5x I(0.5,1] (x)dx + 0.15x2 I(1,2] (x)dx Z = 1.2 0

−∞ 0.5

x2 dx + 0.5

−∞

Z

1

0.5

x2 dx + 0.15

Z

2

x2 dx

1

h 1 i0.5 h 1 i1 h 1 i2 = 1.2 x3 + 0.5 x3 + 0.15 x3 3 3 3 0 0.5 1 ≈ 0.5458

316

7 Theoretische Verteilungen und Abh¨angigkeiten

folgt u ¨ber die Verschiebungsformel σ 2 = V ar(X) = E(X 2 ) − (E(X))2 ≈ 0.2294. agt dann Die theoretische Standardabweichung betr¨ √ 2 σ = 0.2294 ≈ 0.48. • Beispiel D2-b fortgesetzt • Wir setzen das gleichnamige Beispiel aus den vorhergehenden Abschnitten fort und berechnen die Varianz von S2 = X1 + X2 (zweimaliger W¨ urfelwurf). Laut Beispiel D1-c aus Abschnitt 7.2.1 gilt f¨ ur X (einmaliger W¨ urfelwurf): E(X) = 3.5 und E(X 2 ) = 91/6 ≈ 15.17. Daraus folgt: V ar(X) = E(X 2 ) − (E(X))2 ≈ 2.92. Da X1 und X2 identisch wie X verteilt sind, gilt: V ar(X1 ) = V ar(X2 ) ≈ 2.92. Da sie unabh¨angig sind, folgt V ar(S2 ) = V ar(X1 + X2 ) = V ar(X1 ) + V ar(X2 ) ≈ 2.92 + 2.92 = 5.84. Alternativ k¨onnte man die Varianz der Summe auch dadurch berechnen, indem man zun¨achst die Verteilung von S2 (Abschnitt 7.1.3, Tab. 7.1.11) herleitet und darauf basierend dann die Varianz von S2 berechnet. Auf weitere Ausf¨ uhrungen hierzu wird verzichtet. • Beispiel S2-b fortgesetzt • Hier berechnen wir f¨ ur das gleichnamige Beispiel aus den vorhergehenden Abschnitten die Varianz von S2 = X1 + X2 , wobei X1 und X2 unabh¨angige auf dem Intervall [0, 1] stetig gleichverteilte Zufallsvariablen sind. Laut Beispiel S1-c aus Abschnitt 7.2.1 gilt f¨ ur X: E(X) = 0.5 und E(X 2 ) = 1/3. Somit lautet die Varianz V ar(X) = E(X 2 ) − (E(X))2 = 1/12 ≈ 0.08. Da X1 und X2 unabh¨ angig und identisch wie X verteilt sind, folgt V ar(S2 ) = V ar(X1 + X2 ) = V ar(X1 ) + V ar(X2 ) = 1/12 + 1/12 = 1/6. Alternativ k¨onnte man auch die in Abschnitt 7.1.3 ermittelte Dichte von S2 fS2 (s) = sI[0,1] (s) + (2 − s)I(1,2] (s) zur Berechnung der Varianz heranziehen. Auf weitere Ausf¨ uhrungen hierzu wird verzichtet.

Theoretische Quantile und theoretischer Median • Definition • Empirische Quantile teilen grob gesagt gegebene Beobachtungen in Bezug auf bestimmte Anteilswerte in eine kleinere und gr¨oßere H¨alfte ein (Abschnitt 4.3.2). Analog dazu lokalisieren die theoretischen Quantile grob gesagt diejenigen

7.2 Theoretische Kennwerte

317

Werte, welche die Wahrscheinlichkeitsmasse einer theoretischen Verteilung in eine gr¨oßere und kleinere H¨ alfte separieren. Das α-Quantil einer Zufallsvariable X, notiert mit qα , kann man durch folgende Ungleichungen einf¨ uhren: P (X ≤ qα ) ≥ α und P (X ≥ qα ) ≥ 1 − α.

(7.2.18)

Dabei kann ein Interpretations- und Eindeutigkeitsproblem entstehen. Das linke Schaubild von Abbildung 7.2.2 verdeutlicht dies f¨ ur diskrete Verteilungen. Es entsteht insbesondere durch die zwischen den Tr¨ agerpunkten liegenden L¨ ucken“. F¨ ur das 0.9-Quantil ” erf¨ ullen s¨amtliche Werte des Intervalls [2, 3] Kriterium (7.2.18). Ein 0.5-Quantil soll idealerweise den Wertebereich von X in zwei Teilbereiche zerlegen, in die X jeweils mit einer Wahrscheinlichkeit von genau 0.5 f¨ allt. F¨ ur das 0.5-Quantil q0.5 = 1 kommt es ¨ der beiden Bereiche an der Stelle des Quantils und beide hier zu einer Uberlappung Wahrscheinlichkeiten sind dadurch gr¨ oßer als 0.5. Bei stetigen Verteilungen tauchen solche Probleme nicht auf, sofern die Tr¨agermenge nicht durch Intervalll¨ ucken unterbrochen wird und die Verteilungsfunktion somit auf der Tr¨agermenge eine streng monotone stetige Funktion bildet. Alle α-Quantile f¨ ur α ∈ (0, 1) k¨onnen dann eindeutig durch Kriterium (7.2.18) bestimmt werden. Ferner kann das Kriterium deutlich vereinfacht werden, s. (7.2.19). Definition 7.2.3: Theoretische Quantile und theoretischer Median Sei X eine stetige Zufallsvariable mit streng monotoner Verteilungsfunktion auf der Tr¨agermenge. Dann ist das (theoretische) α-Quantil qα bestimmt durch P (X ≤ qα ) = α f¨ ur α ∈ (0, 1).

(7.2.19)

Insbesondere heißt q0.5 (theoretischer) Median. Bei Zufallsvariablen mit nicht streng monotoner Verteilungsfunktion entstehen Eindeutigkeitsprobleme, die per Konvention unterschiedlich geregelt werden k¨ onnen.

Abb. 7.2.2: Theoretische Quantile diskreter und stetiger Verteilungen f X (x )

f Y (y)

0.4 0.3

α

0.2 0.1 0.0 −1

0

1

q 0.5 =?

2

3

q 0.9 ∈ [2,3]

4

5

x





⌠ f (y) d y = α ⌡−∞ Y

y

• Interpretation der theoretischen Quantile • Wird ein u ¨ber die Zufallsvariable X modellierter Zufallsvorgang n Mal unabh¨ angig und identisch wiederholt, sollte f¨ ur großes n approximativ gelten, dass ca. α× 100% aller beobachteten Realisationen kleiner und

318

7 Theoretische Verteilungen und Abh¨angigkeiten

(1 − α)× 100% gr¨ oßer als das theoretischen Quantil qα sind. Die relativen H¨aufigkeiten ¨ von Unter- bzw. Uberschreitungen streben dabei f¨ ur großes n gegen die theoretischen Anteilswerte. • Berechnung • Die Wahrscheinlichkeit P (X ≤ qα ) entspricht gerade dem Wert der Verteilungsfunktion von X an der Stelle qα , d.h. (7.2.19) kann man auch schreiben als FX (qα ) = α.

(7.2.20)

Folglich lassen sich Quantile bei streng monotoner Verteilungsfunktion auch u ¨ber die Umkehrfunktion auf der Tr¨ agermenge definieren, indem man −1 qα = FX (α)

setzt. Die rechnerische Bestimmung kann dadurch erfolgen, dass man die Verteilungsfunktion dem gew¨ unschten Anteilswert gem¨ aß (7.2.20) gleichsetzt und die resultierende Gleichung nach dem erforderlichen Argument aufl¨ost. Nat¨ urlich kann man auch gleich die gesamte Umkehrfunktion herleiten, sofern dies praktikabler erscheint. Abb. 7.2.3: Bestimmung theoretischer Quantile bei stetigen Verteilungen F X (x )

Beispiel S1−a

1.0

1.0

0.8

0.8

0.6

0.6

q 0.8 = 0.9

0.4 0.2 0.0

Beispiel S1−b

F Y (y )

q 0.5 = 0.42 0.0 0.5 1.0 1.5 2.0 2.5 3.0

q 0.8 = 32.19

0.4 0.2

q 0.5 = 13.86

0.0 −10 0

10

20

x

30

40

50

60

70

80

y

• Beispiel S1-a fortgesetzt • F¨ ur das gleichnamige Beispiel aus den vorhergehenden Abschnitten mit der stetigen Zufallsvariable X (H¨ohe von Trinkgeld) wurde bereits die Verteilungsfunktion in Abschnitt 7.1.1 hergeleitet. Sie lautet (Abb. 7.2.3, links) FX (x) = 1.2xI(0,0.5] (x) + (0.5x + 0.35)I(0.5,1] (x) + (0.15x + 0.7)I(1,2] (x) + I(2,∞) (x). Zur Ermittlung eines α-Quantils wird bei einer abschnittsweise definierten Funktion derjenige Abschnitt gleich α gesetzt, in den das Quantil hineinf¨allt. Im Falle des Medians w¨are dies im vorliegenden Fall das Intervall (0, 0.5]. Folglich setzt man 1.2q0.5 = 0.5, woraus sich q0.5 ≈ 0.42 ergibt. Im Falle des 0.8-Quantils w¨ urde man dagegen 0.5q0.8 + 0.35 = 0.8 setzen und q0.8 = 0.9 erhalten. • Beispiel S1-b fortgesetzt • F¨ ur das gleichnamige Beispiel aus den vorhergehenden Abschnitten mit der stetigen Zufallsvariable Y (Wartezeit bis zum n¨achsten Notruf)

7.2 Theoretische Kennwerte

319

wurde die Verteilungsfunktion ebenfalls bereits in Abschnitt 7.1.1 hergeleitet. Sie lautet (Abb. 7.2.3, rechts) FY (y) = (1 − e−0.05y )I[0,∞) (y). Zur Bestimmung eines α-Quantils setzt man gem¨aß (7.2.20) ur α ∈ (0, 1). 1 − e−0.05qα = α f¨ ¨ Aquivalente Umformungen f¨ uhren dann zu ⇐⇒ e−0.05qα = 1 − α ⇐⇒ −0.05qα = ln(1 − α) ⇐⇒ qα = −20 ln(1 − α). Man beachte, dass durch −1 FX (α) = −20 ln(1 − α) f¨ ur α ∈ (0, 1)

die Umkehrfunktion der Verteilungsfunktion FX gegeben ist. Speziell erh¨alt man nun beispielsweise f¨ ur Median und 0.8-Quantil q0.5 = −20 ln(0.5) ≈ 13.86 bzw. q0.8 = −20 ln(0.2) ≈ 32.19.

7.2.2 Kennwerte in Bezug auf Abh¨ angigkeiten Bedingte Erwartungswerte und Varianzen • Definition • Erwartungswert und Varianz einer bedingten Verteilung werden als bedingter Erwartungswert bzw. als bedingte Varianz bezeichnet. Im Folgenden beschr¨anken wir uns zun¨ achst auf den zweidimensionalen Fall. H¨oherdimensionale und komplexere bedingte Erwartungswerte finden sich in Abschnitt 8.3.2. Definition 7.2.4: Bedingte Erwartungswerte und Varianzen Gegeben seien zwei Zufallsvariablen X und Y (diskret oder stetig). Dann werden Erwartungswert und Varianz der bedingten Verteilung von Y gegeben X = x als bedingter Erwartungswert von Y gegeben X = x bzw. als bedingte Varianz von Y gegeben X = x bezeichnet. Daf¨ ur notiert man entsprechend E(Y |X = x) bzw. V ar(Y |X = x).

Zur deutlicheren sprachlichen Unterscheidung spricht man auch vom unbedingten Erwartungswert bzw. der unbedingten Varianz , wenn man den Erwartungswert E(Y ) bzw. die Varianz V ar(Y ) meint. • Interpretation bedingter Erwartungswerte und Varianzen • Da es nicht die eine bedingte Verteilung gibt, sondern die bedingte Verteilung von Y gegeben X = x f¨ ur unterschiedliche Werte von x verschieden sein kann, gibt es auch nicht den einen bedingten Erwartungswert oder die eine bedingte Varianz. Die empirische Entsprechung bedingter Erwartungswerte und Varianzen bilden Gruppenmittelwerte und Gruppenvarianzen f¨ ur gruppierte Daten (Abschnitte 4.3.1 und 4.5.1). Die Gruppen werden hierbei

320

7 Theoretische Verteilungen und Abh¨angigkeiten

durch die Bedingung X = x f¨ ur unterschiedliche Werte von x definiert. Zum inhaltlichen Verst¨andnis m¨ogen die sp¨ ateren Beispiele dienen. • Berechnung und Rechenregeln • F¨ ur bedingte Erwartungswerte gelten die gleichen Berechnungs- und Rechenregeln wie f¨ ur gew¨ohnliche“ (unbedingte) Erwartungs” werte. Es entsteht sozusagen nur ein zus¨ atzlicher notationeller Aufwand. So gilt beispielsweise f¨ ur die formale Definition der bedingten Varianz: h i 2 V ar(Y |X = x) = E Y − E(Y |X = x) |X = x . Weiter folgt dann mit der Verschiebungsformel V ar(Y |X = x) = E(Y 2 |X = x) − (E(Y |X = x))2 .

(7.2.21)

Die bedingte Varianz l¨ asst sich also aus dem zweiten und dem ersten bedingten Moment errechnen. Im diskreten Fall wird der bedingte Erwartungswert von Y gegeben X = x (das erste bedingte Moment) u ¨ber die Formel X E(Y |X = x) = bj fY |X (y|x) (7.2.22) j

berechnet. Im stetigen Fall lautet der Integrationskalk¨ ul entsprechend Z ∞ E(Y |X = x) = yfY |X (y|x)dy.

(7.2.23)

−∞

Dabei bezeichnen b1 , b2 , . . . , bl , . . . die Realisationsm¨oglichkeiten von Y und fY |X die bedingte Wahrscheinlichkeitsfunktion bzw. die bedingte Dichtefunktion. Die Berechnung des zweiten Moments E(Y 2 |X = x) erfolgt mit entsprechenden Modifikationen b2“ bzw. y 2“. ”j ” Der bedingte Erwartungswert ist ebenso linear wie der (gew¨ohnliche) Erwartungswert. So gilt f¨ ur drei Zufallsvariablen X, Y und Z also stets: E(X + Y |Z = z) = E(X|Z = z) + E(Y |Z = z).

(7.2.24)

F¨ ur die G¨ ultigkeit von V ar(X + Y |Z = z) = V ar(X|Z = z) + V ar(Y |Z = z).

(7.2.25)

ben¨otigt man hingegen noch das Konzept der bedingten Unabh¨ angigkeit bzw. bedingten Unkorreliertheit, welches erst sp¨ ater in Abschnitt 8.3.1 als erg¨anzendes Thema behandelt wird. Satz 7.2.6: Rechenregeln f¨ ur den bedingten Erwartungswert F¨ ur die Zufallsvariablen X, Y, Z, die reellen Konstanten a, b, c und die (messbaren) Funktionen g, h : R → R gelten: E(a + bX + cY |Z = z) = a + bE(X|Z = z) + cE(Y |Z = z), E(g(X)h(Y )|X = x) = g(x)E(h(Y )|X = x),

(7.2.26) (7.2.27)

sofern die angegebenen bedingten Erwartungswerte existieren. (7.2.26) ist eine Verallgemeinerung von (7.2.24) und zeigt, dass der bedingte Erwartungswert wie der unbedingte Erwartungswert linear ist. Rechenregel (7.2.27) erlaubt

7.2 Theoretische Kennwerte

321

das Ausklammern von Faktoren, die nur von der Bedingung abh¨angen, aus dem bedingten Erwartungswert. Sie wird sich in Abschnitt 12.1.3 als n¨ utzlich erweisen. • Bedingte Kennwerte bei Unabh¨ angigkeit • Sofern X und Y unabh¨angig sind, stimmen die bedingten Erwartungswerte und Varianzen mit den unbedingten Erwartungswerten und Varianzen u ¨berein, d.h. E(Y ) = E(Y |X = x) bzw. V ar(Y ) = V ar(Y |X = x). Dies liegt daran, dass bei Unabh¨ angigkeit die bedingten Verteilungen den unbedingten Verteilungen entsprechen, d.h. fY |X = fY (Definition 7.1.12). • Beispiel D2-a fortgesetzt • Dem gleichnamigen Beispiel aus Abschnitt 7.1.2 (Geschlecht und Rauchgewohnheiten) liegt die gemeinsame diskrete Verteilung zweier Zufallsvariablen X und Y gem¨ aß Tabelle 7.1.2 zugrunde. Die bedingten Verteilungen wurden bereits ermittelt, in den Tabellen 7.1.3 und 7.1.4 zusammengefasst und in den Schaubildern von Abbildung 7.1.8 dargestellt. Demnach ergibt sich gem¨aß (7.2.22) beispielsweise E(Y |X = 0) = 0 · 0.1 + 1 · 0.2 + 2 · 0.7 = 1.6, E(Y 2 |X = 0) = 02 · 0.1 + 12 · 0.2 + 22 · 0.7 = 3, V ar(Y |X = 0) = E(Y 2 |X = 0) − E(Y 2 |X = 0)2 = 3 − 1.62 = 0.44. Analog erh¨alt man E(Y |X = 1) = 1.4

und V ar(Y |X = 1) = 0.64.

Andererseits erh¨alt man f¨ ur die bedingten Verteilungen von X gegeben Y E(X|Y = 0) = 0.75, E(X|Y = 1) = 0.60, E(X|Y = 2) = 0.5625,

V ar(X|Y = 0) = 0.1875, V ar(X|Y = 1) = 0.24, V ar(X|Y = 2) ≈ 0.2461.

Die bedingten Erwartungswerte und Varianzen sind in diesem Beispiel inhaltlich mit Vorbehalt deutbar, da X und Y metrisch kodierte Variablen sind (X f¨ ur Geschlecht, Y f¨ ur Rauchverhalten) und die Metrisierung der einzelnen Kategorien in gewisser Weise willk¨ urlich ist. Da es sich in diesem Fall bei X um eine 0-1-Variable handelt (0 f¨ ur weiblich und 1 f¨ ur m¨ annlich), gilt: E(X|Y = 0) = P (X = 1|Y = 0) = 0.75, E(X|Y = 1) = P (X = 1|Y = 1) = 0.6, E(X|Y = 2) = P (X = 1|Y = 2) = 0.5625. Daraus folgt, dass der theoretische Anteil von M¨annern bei Rauchern 75%, bei Gelegenheitsrauchern 60% und bei Nichtrauchern 56.25% betr¨agt. Gleichzeitig lesen wir aus E(Y |X = 0) = 1.6 > E(Y |X = 1) = 1.4, einen geringeren Zigarettenkonsum der Frauen im Vergleich zu den M¨annern heraus. Man beachte, dass die konkreten Vergleichswerte 1.6 und 1.4 von der Kodierung der einzelnen Stufen f¨ ur die Rauchgewohnheit abh¨angen. Im vorliegenden Fall steht Y = 2 f¨ ur Nichtraucher, Y = 1 f¨ ur Gelegenheitsraucher und Y = 0 f¨ ur Raucher.

322

7 Theoretische Verteilungen und Abh¨angigkeiten

Wird also ein u ¨ber die Zufallsvariable X und Y modellierter Zufallsvorgang n Mal unabh¨angig und identisch wiederholt, sollte auf Basis der beobachteten Realisationen f¨ ur großes n approximativ gelten, dass beispielsweise der relative Anteil von M¨annern unter den Rauchern ca. 75% betr¨ agt und die durchschnittliche Rauchgewohnheit“ unter ” M¨ annern unter der verwendeten Kodierung ca. 1.6 betr¨agt. Aus V ar(Y |X = 0) = 0.44 < V ar(Y |X = 1) = 0.64 l¨ asst sich mit der gleichen Einschr¨ ankung lesen, dass die Rauchgewohnheiten bei Frauen im Sinne der Varianz st¨ arker streuen als bei M¨annern. Ein Blick in Tabelle 7.1.4 zeigt, dass sich die Wahrscheinlichkeitsmasse bei den M¨annern etwas gleichm¨aßiger verteilt ist als bei den Frauen. Die empirischen Varianzen f¨ ur die Rauchgewohnheit sollten f¨ ur großes n diesen theoretischen Werten ungef¨ ahr entsprechen. • Beispiel D2-b fortgesetzt • Dem gleichnamigen Beispiel aus Abschnitt 7.1.2 (zweifacher W¨ urfelwurf) liegt die gemeinsame diskrete Verteilung zweier Zufallsvariablen X und Y gem¨aß Tabelle 7.1.5 zugrunde. Da X und Y unabh¨angig sind, stimmen die bedingten Verteilungen mit den jeweiligen Randverteilungen u ¨berein, d.h. es gilt fY |X = fY

und fX|Y = fX .

Außerdem sind X und Y identisch verteilt. Wie bereits ermittelt, gelten E(X) = E(Y ) = 3.5

und V ar(X) = V ar(Y ) ≈ 2.92.

angigkeit folgt nun: Wegen der Unabh¨ E(Y |X = 1) = E(Y |X = 2) = · · · = E(Y |X = 6) = 3.5, V ar(Y |X = 1) = V ar(Y |X = 2) = · · · = V ar(Y |X = 6) = 2.92. Aus theoretischer Sicht w¨ urfelt man im Durchschnitt“ also eine 3.5 im zweiten Wurf ” (ersten Wurf), unabh¨ angig davon welche Zahl nun im ersten (zweiten) Wurf f¨allt. • Beispiel S2-a fortgesetzt • Dem gleichnamigen Beispiel aus Abschnitt 7.1.2 liegt die gemeinsame stetige Verteilung zweier Zufallsvariablen X und Y gem¨aß Dichte fXY (x, y) = (0.5x + 0.25y)I[0,1] (x)I[0,2] (y) zugrunde. Die bedingten Verteilungen wurden bereits ermittelt und lauten 0.5x + 0.25y fY |X (y|x) = I[0,2] (y) f¨ ur x ∈ [0, 1] bzw. x + 0.5 2x + y fX|Y (x|y) = I[0,1] (x) f¨ ur y ∈ [0, 2]. y+1 Beispielhaft sind diese f¨ ur verschiedene Werte von y bzw. x in Abbildung 7.1.11 dargestellt. Gem¨aß (7.2.23) ergibt sich f¨ ur x ∈ [0, 1] Z ∞ Z ∞ 0.5xy + 0.25y 2 yfY |X (y|x)dy = E(Y |X = x) = I[0,2] (y)dy x + 0.5 −∞ −∞ Z 2 1 = (0.5xy + 0.25y 2 )dy x + 0.5 0 1 h1 2 1 iy=2 x + 2/3 = xy + y 3 = . x + 0.5 4 12 x + 0.5 y=0

7.2 Theoretische Kennwerte

323

Speziell w¨ urde daraus folgen: E(Y |X = 0) = 4/3, E(Y |X = 0.5) = 7/6, E(Y |X = 1) = 10/9. Weiter lautet das zweite bedingte Moment f¨ ur x ∈ [0, 1]: Z ∞ Z 2 1 E(Y 2 |X = x) = y 2 fY |X (y|x)dy = (0.5xy 2 + 0.25y 3 )dy x + 0.5 0 −∞ (4/3)x + 1 1 h1 3 1 iy=2 = = xy + y 4 . x + 0.5 6 16 x + 0.5 y=0 Daraus w¨ urde gem¨ aß Verschiebungsformel (7.2.21) beispielsweise folgen: V ar(Y |X = 0) ≈ 0.22, V ar(Y |X = 0.5) ≈ 0.31, V ar(Y |X = 1) ≈ 0.32. F¨ ur wachsendes x wird der bedingte Erwartungswert von Y gegeben X = x kleiner und n¨ahert sich von oben“ dem Wert 1. Dies liegt daran, dass die Schiefe der bedingten ” Verteilung abnimmt und sich die Wahrscheinlichkeitsmasse zunehmend gleichm¨aßiger auf der Tr¨agermenge [0, 2] verteilt. Die bedingte Varianz wird gleichzeitig gr¨oßer und n¨ahert sich von unten“ dem Wert 1/3. Man beachte, dass Erwartungswert und Varianz ” einer u ¨ber dem Intervall [0, 2] gleichverteilten Zufallsvariable durch 1 bzw. 1/3 gegeben sind (vgl. Abschnitt 7.3.2). V¨ollig analoge Sachverhalte erh¨ alt man f¨ ur die bedingte Verteilung von X unter Y = y. Beispielsweise gilt hier dann f¨ ur y ∈ [0, 2]: Z ∞ 2/3 + 0.5y E(X|Y = y) = xfX|Y (x|y)dx = . y+1 −∞ F¨ ur wachsendes y wird der bedingte Erwartungswert von X gegeben Y = y kleiner und n¨ahert sich von oben“ dem Wert 0.5, also dem Erwartungswert einer u ¨ber dem ” Intervall [0, 1] gleichverteilten Gr¨ oße. Auf weitere Ausf¨ uhrungen sei verzichtet. • Beispiel S2-b fortgesetzt • Dem gleichnamigen Beispiel aus Abschnitt 7.1.2 liegt die gemeinsame stetige Verteilung zweier Zufallsvariablen X und Y gem¨aß Dichte fXY (x, y) = I[0,1] (x)I[0,1] (y) zugrunde. Da X und Y unabh¨ angig sind, stimmen die bedingten Verteilungen mit den jeweiligen Randverteilungen u ¨berein, d.h. es gilt fY |X (y|x) = I[0,1] (y) f¨ ur x ∈ [0, 1] bzw. fX|Y X (x|y) = I[0,1] (x) f¨ ur y ∈ [0, 1]. Außerdem sind X und Y identisch verteilt. Wie bereits ermittelt, gilt E(X) = E(Y ) = 0.5 und V ar(X) = V ar(Y ) = 1/12. angigkeit folgt dann Wegen der Unabh¨ E(Y |X = x) = E(X|Y = y) = 0.5 f¨ ur jedes x bzw. y ∈ [0, 1] und V ar(Y |X = x) = V ar(X|Y = y) = 1/12 f¨ ur jedes x bzw. y ∈ [0, 1]. • Bedingter Erwartungswert als Zufallsvariable • Normalerweise sind bedingte Erwartungswerte und Varianzen der Form E(Y |X = x) bzw. V ar(Y |X = x)

324

7 Theoretische Verteilungen und Abh¨angigkeiten

nichtstochastische Gr¨ oßen, falls f¨ ur x feste Werte vorgegeben werden. Sie lassen sich jedoch auch stochastisch wie Zufallsvariablen behandeln, falls keine konkreten Werte vorgeben werden. Man schreibt in solchen F¨ allen dann nur E(Y |X) bzw. V ar(Y |X). Wie ist das dann genau zu verstehen? Zur Erl¨auterung beschr¨anken wir uns im Folgenden auf bedingte Erwartungswerte. Die Konzeption f¨ ur bedingte Varianzen ist v¨ollig analog. • Beispiel D2-a fortgesetzt • Betrachten wir zun¨achst nochmals das vorhergehende Beispiel D2-a. Hier gilt: E(Y |X = 1) = 1.4 und E(Y |X = 0) = 1.6. Der bedingte Erwartungswert kann nun als eine vom Wert von X abh¨angige Funktion interpetiert werden. Der Deutlichkeit definieren halber wir dazu eine Funktion g(x) mit g(x) = E(Y |X = x), wobei g(1) = 1.4 und g(0) = 1.6 sind. Geht man zur Großschreibweise f¨ ur Zufallsvariablen u ¨ber, erh¨alt man den bedingten Erwartungswert als Funktion der Zufallsvariable X, wobei g(X) = E(Y |X) die Realisationsm¨oglichkeiten 1.4 und 1.6 besitzt. Diese beiden Werte werden genau dann angenommen, falls X = 1 bzw. X = 0 ist. Die Wahrscheinlichkeiten dieser beiden Realisationsm¨oglichkeiten entsprechen dabei den Wahrscheinlichkeiten f¨ ur X = 1 bzw. X = 0, d.h. P (g(X) = 1.4) = P (X = 1) und P (g(X) = 1.6) = P (X = 0) oder, um es nun u ucken, ¨ber den bedingten Erwartungswert auszudr¨ P (E(Y |X) = 1.4) = P (X = 1) und P (E(Y |X) = 1.6) = P (X = 0). Der einfacheren Notation wegen setzen wir U := E(Y |X) und erhalten schließlich E(U = 1.4) = 0.6 und P (U = 1.6) = 0.4, da gem¨aß Tabelle 7.1.2 gilt: P (X = 1) = 0.6 und P (X = 0) = 0.4. Der bedingte Erwartungswert ist folglich eine diskrete Zufallsvariable mit den beiden Tr¨agerpunkten 1.4 und 1.6 und den jeweiligen Eintrittswahrscheinlichkeiten 0.6 bzw. 0.4 (Abb. 7.2.4, links). V¨ollig analog erh¨ alt man f¨ ur E(X|Y ): P (E(X|Y ) = 0.75) = P (Y = 0) = 0.16, P (E(X|Y ) = 0.6) = P (Y = 1) = 0.20, P (E(X|Y ) = 0.5625) = P (Y = 2) = 0.64. • Beispiel D2-b fortgesetzt • In Beispiel D2-b gilt einerseits E(Y |X = x) = 3.5 f¨ ur jedes x ∈ {1, 2, . . . , 6} und andererseits E(X|Y = y) = 3.5 f¨ ur jedes y ∈ {1, 2, . . . , 6}. Deshalb w¨aren hier E(Y |X) und E(X|Y ) jeweils Einpunktverteilungen gem¨aß P (E(Y |X) = 3.5) = 1 bzw. P (E(X|Y ) = 3.5) = 1.

7.2 Theoretische Kennwerte

325

• Beispiel S2-a fortgesetzt • Im Falle der stetigen Verteilung von Beispiel S2-a ergab sich aus fr¨ uheren Rechnungen: x + 2/3 2/3 + 0.5y E(Y |X = x) = und E(X|Y = y) = . x + 0.5 y+1 In diesem Fall ist die funktionale Abh¨ angigkeit des bedingten Erwartungswertes von den bedingenden Werten x bzw. y offensichtlich. Stochastisch aufgefasst erh¨alt man mit 2/3 + 0.5Y X + 2/3 und E(X|Y ) = E(Y |X) = X + 0.5 Y +1 zwei (nichtlineare) Funktionen der Zufallsvariablen X bzw. Y . Wie bereits gezeigt, besitzen X und Y die Randdichten fX (x) = (x + 0.5)I[0,1] (x)

bzw. fY (y) = (0.25y + 0.25)I[0,2] (y).

Definiert man nun 2/3 + 0.5Y X + 2/3 und V := E(X|Y ) = , X + 0.5 Y +1 so l¨asst sich mit etwas Aufwand (univariater Transformationssatz ) zeigen, dass U und V stetig verteilt sind gem¨ aß den Dichten (s.a. Abb. 7.2.4, rechts) 1 1 fU (u) = I 10 4  (u) bzw. fV (v) = I  (v). 3 , 36(u − 1) 144(v − 0.5)3 95 , 32 9 3 U := E(Y |X) =

• Beispiel S2-b fortgesetzt • In Beispiel S2-b gilt einerseits E(Y |X = x) = 0.5

f¨ ur jedes x ∈ [0, 1]

und andererseits E(X|Y = y) = 0.5 f¨ ur jedes y ∈ [0, 1]. Hier w¨aren E(Y |X) und E(X|Y ) jeweils Einpunktverteilungen gem¨aß P (E(Y |X) = 0.5) = 1

bzw. P (E(X|Y ) = 0.5) = 1.

Abb. 7.2.4: Bedingter Erwartungswert als Zufallsvariable Beispiel D2−a

f U (u ) 0.8

20

U = E (Y |X )

0.6

10

0.2

5

0.0

0 1.2

1.4

1.6

u

1.8

U = E (Y |X )

15

0.4

1.0

Beispiel S2−a

f U (u )

2.0

1.0

1.1

1.2

1.3

u

1.4

1.5

326

7 Theoretische Verteilungen und Abh¨angigkeiten

• Iterierte Erwartungswertbildung • Sofern bedingte Erwartungswerte oder Varianzen selbst als Zufallsvariablen behandelt werden, lassen sich in Bezug auf die korrespondierenden Wahrscheinlichkeitsverteilungen nat¨ urlich auch wieder Kennwerte wie Erwartungswert und Varianz ermitteln. Damit erhalten zun¨achst irritierende Schreibweisen wie etwa E[E(Y |X)], V ar[E(Y |X)], E[V ar(Y |X)] oder V ar[V ar(Y |X)] einen Sinn. Insbesondere im Falle des Erwartungswertes des bedingten Erwartungswertes spricht man auch von iterierter Erwartungswertbildung . Hierbei gelten folgende Regeln: Satz 7.2.7: Regeln bei iterierter Erwartungswertbildung Gegeben seien zwei Zufallsvariablen X und Y (diskret oder stetig). Dann gilt: (i) E(Y ) = E[E(Y |X)]. (ii) V ar(Y ) = E[V ar(Y |X)] + V ar[E(Y |X)].

Die Rechenregeln (i) bzw. (ii) gelten im Allgemeinen nur dann, wenn E(Y ) bzw. V ar(Y ) endlich sind, siehe dazu auch Abschnitt 7.2.3. Regel (i) folgt im stetigen Fall aus hZ ∞ i Z ∞ hZ ∞ i E[E(Y |X)] = E yfY |X (y|X)dy = yfY |X (y|x)dy fX (x)dx −∞ −∞ −∞ Z ∞Z ∞ Z ∞Z ∞ = yfY |X (y|x)fX (x)dydx = yfXY (x, y)dydx −∞ −∞ −∞ −∞ Z ∞ Z ∞ Z ∞  = y fXY (x, y)dx dy = yfY (y)dy = E(Y ). −∞

−∞

−∞

Dabei bezeichnen fY |X (y|x), fXY (x, y), fX (x) und fY (y) die bedingte Dichte, die gemeinsame Dichte und die Randdichten von X bzw. Y . Man beachte, dass der innere Erwartungswert“ bedingt ist und bez¨ uglich Y gebildet wird. ” Der ¨außere Erwartungswert“ wird hingegen bez¨ uglich X gebildet, da der bedingte ” Erwartungswert E(Y |X) eine Funktion von X ist. Auf einen Nachweis von Regel (ii) sei verzichtet. Im diskreten Fall ist der Integrationskalk¨ ul durch einen entsprechenden Additionskalk¨ ul zu ersetzen. Außerdem gilt nat¨ urlich genauso unter Vertauschung von X und Y E(X) = E[E(X|Y )] und V ar(X) = E[V ar(X|Y )] + V ar[E(X|Y )]. • Interpretation • Auf empirischer Ebene entspricht Regel (i) der Berechnung des arithmetischen Mittels f¨ ur gruppierte Daten (Abschnitt 4.3.1), w¨ahrend Regel (ii) die

7.2 Theoretische Kennwerte

327

theoretische Variante der Streuungszerlegungsformel (Abschnitt 4.5.1) darstellt, also der Berechnung der empirischen Varianz f¨ ur gruppierte Daten entspricht. Die bedingten Erwartungswerte entsprechen den Gruppenmittelwerten, die bedingten Varianzen den Gruppenvarianzen. Die ¨ außere Erwartungswertbildung“ entspricht der Summation ” u ucksichtigt werden. So wie ¨ber die Gruppen, wobei die einzelnen Gruppengewichte ber¨ dann das Gesamtmittel dem gewichteten Mittel von Gruppenmittelwerten entspricht, l¨ asst sich der (unbedingte) Erwartungswert einer Zufallsvariable als Erwartungswert bedingter Erwartungswerte darstellen. Wie sich die empirische Gesamtstreuung von Daten aus interner und externer Streuung zusammensetzt, l¨asst sich die theoretische Streuung einer Zufallsvariable in eine erwartete bedingte Streuung und eine Streuung bedingter Erwartungen aufspalten. Ein Beispiel m¨ oge gen¨ ugen. • Beispiel D2-a fortgesetzt • Wie bereits in vorhergehenden Abschnitten herausgearbeitet, ist Y diskret verteilt mit (vgl. Tab. 7.1.2) P (Y = 0) = 0.16, P (Y = 1) = 0.20, P (Y = 2) = 0.64. Dabei folgt mit den u ¨blichen Berechnungsregeln: E(Y ) = 1.48 und V ar(Y ) = 0.5696. Gem¨aß der zuvor ermittelten Verteilung von U = E(Y |X) gilt (Abb. 7.2.4, links): P (U = 1.4) = 0.6 und P (U = 1.6) = 0.4. Damit erhalten wir E[E(Y |X)] = E(U ) = 1.4 · 0.6 + 1.6 · 0.4 = 1.48,   E E(Y |X)2 = E(U 2 ) = 1.42 · 0.6 + 1.62 · 0.4 = 2.2, V ar[E(Y |X)] = V ar(U ) = E(U 2 ) − (E(U ))2 = 0.0096. Wegen V ar(Y |X = 0) = 0.44, V ar(Y |X = 1) = 0.64 folgt dann weiter E[V ar(Y |X)] = V ar(Y |X = 0)P (X = 0) + V ar(Y |X = 1)P (X = 1) = 0.44 · 0.4 + 0.64 · 0.6 = 0.56. Damit erhalten wir E[V ar(Y |X)] + V ar[E(Y |X)] = 0.56 + 0.0096 = 0.5696. Insgesamt wurden damit die Regeln (i) und (ii) best¨atigt.

Theoretische Kovarianz und Korrelation • Definition und Notation • Die theoretische Kovarianz und der theoretische Korrelationskoeffizient stellen die wahrscheinlichkeitstheoretischen Pendants zur empirischen Kovarianz und zum empirischen Korrelationskoeffizienten (Abschnitt 5.2.2) n n 1X 1X s˜XY s˜XY = (xi − x ¯)(yi − y¯) = xi yi − x ¯y¯ und rXY = p 2 2 n i=1 n i=1 s˜X s˜Y

328

7 Theoretische Verteilungen und Abh¨angigkeiten

dar und sind wie folgt definiert: Definition 7.2.5: Theoretische Kovarianz und Korrelation Gegeben seien zwei Zufallsvariablen X und Y (diskret oder stetig) mit 2 E(X) = µX , V ar(X) = σX , E(Y ) = µY , V ar(Y ) = σY2 .

Dann ist die (theoretische) Kovarianz zwischen X und Y definiert als σXY = Cov(X, Y ) = E[(X − µX )(Y − µY )] = E(XY ) − µX µY

(7.2.28)

und der (theoretische) Korrelationskoeffizient als Cov(X, Y ) σXY %XY = Corr(X, Y ) = p = . σ V ar(X)V ar(Y ) X σY Dabei gilt: %XY ∈ [−1, 1]. Theoretische Kovarianz und Korrelation werden mit dem griechischen Kleinbuchstaben σ (lies: sigma) bzw. % (lies: rho) notiert. Die korrespondierenden Operatoren Cov (·) bzw. Corr (·) heben die jeweiligen Berechnungsoperationen hervor. • Verschiebungsformel f¨ ur die theoretische Kovarianz • In Analogie zur Verschiebungsformel f¨ ur die empirische Kovarianz gibt es auch eine f¨ ur die theoretische Kovarianz. Diese ergibt sich mit den Rechenregeln f¨ ur den Erwartungswert wie folgt: Cov(X, Y ) = E[(X − µX )(Y − µY )] = E(XY ) − µY E(X) − µX E(Y ) + E(µX µY ) = E(XY ) − µX µY − µX µY + µX µY = E(XY ) − µX µY . Die Transformationseigenschaften von theoretischer Kovarianz und Korrelation bei Verschiebungen und Umskalierungen sind analog zum empirischen Fall (Abschnitt 7.2.3). Wie beim empirischen Korrelationskoeffizient liegen die Werte des theoretischen Koeffizienten stets zwischen −1 und 1. • Interpretation von theoretischer Kovarianz und Korrelation • Theoretische Kovarianz und Korrelation messen die St¨ arke des linearen Zusammenhangs zweier Zufallsvariablen, wobei letzteres Maß skaleninvariant ist. Wird ein u ¨ber zwei Zufallsvariablen X und Y bzw. u ¨ber einen Zufallsvektor (X, Y )T modellierter Zufallsvorgang n Mal unabh¨angig und identisch wiederholt, sollten auf Basis der beobachteten Realisationen (x1 , y1 ), . . . , (xn , yn ) die empirischen Kennwerte f¨ ur großes n approximativ den theoretischen Kennwerten entsprechen. In beiden F¨allen ergibt sich dies indirekt aus dem Gesetz der großen Zahlen (Abschnitt 7.4.2).

7.2 Theoretische Kennwerte

329

Interpretation der theoretischen Kovarianz und Korrelation Theoretische Kovarianz und Korrelation sind die sich langfristig“ einstellende em” pirische Kovarianz bzw. Korrelation, falls immer wieder erneut metrische Beobachtungswerte aus der gleichen unterstellten gemeinsamen Wahrscheinlichkeitsverteilung zweier Zufallsvariablen X und Y gewonnen werden. Informal ausgedr¨ uckt gilt also: s˜XY → σXY s˜XY ≈ σXY

und und

rXY → %XY rXY ≈ %XY

f¨ ur wachsendes n oder f¨ ur großes n.

Bei einer theoretischen Korrelation von 1 bzw. −1 liegen die zweidimensionalen Realisationen stets auf einer Geraden mit positiver bzw. negativer Steigung, d.h. dann gilt sogar stets rXY = %XY = 1 bzw. rXY = %XY = −1. In diesen F¨allen spricht man dann von perfekten linearen Zusammenh¨ angen. • Abh¨ angigkeit und Korrelation • Die Beziehung zwischen stochastischer Abh¨angigkeit und theoretischer Korrelation gestaltet sich analog zum empirischen Fall. Bei Unabh¨angigkeit gilt gem¨ aß Multiplikationsregel E(XY ) = E(X)E(Y ) (Abschnitt 7.2.1). Daraus folgt dann Cov(X, Y ) = E(XY ) − E(X)E(Y ) = E(X)E(Y ) − E(X)E(Y ) = 0. Wir sagen, dass X und Y unkorreliert sind, wenn Cov(X, Y ) = 0 gilt. Cov(X, Y ) = 0 gilt dabei gerade dann, wenn %XY = 0 ist, sofern %XY existiert. Unabh¨ angigkeit impliziert Unkorreliertheit, Unkorreliertheit jedoch nicht Unabh¨angigkeit. Beispiel D2-d (nachfolgend) belegt, dass aus der Unkorreliertheit nicht die Unabh¨angigkeit folgt. • Beispiel D2-c • Seien X und Y gemeinsam diskret verteilt gem¨aß Tabelle 7.2.1. Tabelle 7.2.1: Kontingenztabelle mit Wahrscheinlichkeiten f¨ ur Beispiel D2-c X

Y

0 1 2 Summe

0

1 0.00 0.12 0.03 0.15

2 0.10 0.25 0.15 0.50

0.05 0.03 0.27 0.35

Summe 0.15 0.40 0.45 1.00

Damit das Beispiel etwas greifbarer wird, m¨ oge man sich vorstellen, es gehe um den Eiskonsum von Paaren an einer Eisdiele. Dabei sei X der mengenm¨aßige Konsum (Anzahl von Kugeln) des Mannes und Y der Konsum der Frau. Es soll nun untersucht werden, ob und wie stark diese beiden Gr¨ oßen zusammenh¨angen. Abbildung 7.2.5 zeigt

330

7 Theoretische Verteilungen und Abh¨angigkeiten

rechts die Tr¨agerpunkte der gemeinsamen Verteilung, wobei die Fl¨achen proportional zu den theoretischen Eintrittswahrscheinlichkeiten sind. Die Darstellung kann in gewisser Weise als theoretisches Streudiagramm interpretiert werden. Eingezeichnet ist außerdem die theoretische KQ-Gerade, die sich f¨ ur diesen Zusammenhang ergibt (siehe n¨achster Abschnitt). Abb. 7.2.5: Theoretischer Zusammenhang bei diskreter gemeinsamer Verteilung f X Y (x,y)

y

Beispiel D2−c

2

0.4

y

0.5

1

4

0

0.3 0.2 0.1 0.0 −0.5

Theoretisches Streudiagramm

0.0

0.5

1.0

x

1.5

2.0

2.5

−1

0

1

y

2

3

−1 −1

0

1

2

x

Rechnerisch erh¨alt man folgende Resultate: E(X) = 0 · 0.15 + 1 · 0.40 + 2 · 0.45 = 1.3, E(X 2 ) = 02 · 0.15 + 12 · 0.40 + 22 · 0.45 = 2.2, E(Y ) = 0 · 0.15 + 1 · 0.50 + 2 · 0.35 = 1.2, E(Y 2 ) = 02 · 0.15 + 12 · 0.50 + 22 · 0.35 = 1.9. Damit folgt: V ar(X) = E(X 2 ) − (E(X))2 = 2.2 − 1.32 = 0.51, V ar(Y ) = E(Y 2 ) − (E(Y ))2 = 1.9 − 1.22 = 0.46. Weiter berechnet man gem¨ aß den Rechenregeln f¨ ur Erwartungswerte E(XY ) =

2 X 2 X

i · j · P (X = i, Y = j)

i=0 j=0

= 0 · 0 · 0 + 0 · 1 · 0.10 + 0 · 2 · 0.05 + 1 · 0 · 0.12 + 1 · 1 · 0.25 + 1 · 2 · 0.03 + 2 · 0 · 0.03 + 2 · 1 · 0.15 + 2 · 2 · 0.27 = 1.69. Daraus folgt dann Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 1.69 − 1.3 · 1.2 = 0.13 und Cov(X, Y ) 0.13 %XY = p =√ ≈ 0.2684. 0.51 · 0.46 V ar(X)V ar(Y ) anner ist im Mittel leicht h¨oher als bei den Frauen und variiert Der Eiskonsum der M¨ etwas st¨arker als bei den Frauen. Je mehr Kugeln der eine Partner konsumiert, desto mehr Kugeln konsumiert tendenziell der andere. Der lineare Zusammenhang ist schwach bis mittelstark ausgepr¨ agt.

7.2 Theoretische Kennwerte

331

• Beispiel D2-d • Seien X und Y gemeinsam diskret verteilt gem¨aß Tabelle 7.2.2. Tabelle 7.2.2: Kontingenztabelle mit Wahrscheinlichkeiten f¨ ur Beispiel D2-d X

Y

0

0 1 2 Summe

1 0.0 0.1 0.0 0.1

2 0.1 0.2 0.1 0.4

0.1 0.3 0.1 0.5

Summe 0.2 0.6 0.2 1.0

Abb. 7.2.6: Unkorreliert, aber nicht unabh¨ angig f X Y (x,y)

y

Beispiel D2−d

2

0.4

y

0.5

1

4

0

0.3 0.2 0.1 0.0 −0.5

Theoretisches Streudiagramm

0.0

0.5

1.0

x

1.5

2.0

2.5

−1

0

1

y

2

3

−1 −1

0

1

2

x

Analoge Berechnungen wie im vorhergehenden Beispiel D2-c f¨ uhren hier zum Ergebnis Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 1.4 − 1 · 1.4 = 0. Folglich sind X und Y unkorreliert. Sie sind jedoch nicht unabh¨angig, da sich die bedingten Verteilungen in den Zeilen (Spalten) unterscheiden. • Beispiel S2-a fortgesetzt • Seien X und Y gemeinsam stetig verteilt gem¨aß der Dichtefunktion fXY (x, y) = (0.5x + 0.25y)I[0,1] (x)I[0,2] (y). Abbildung 7.2.7 zeigt rechts einen sog. Imageplot (auch heatmap). Ein solcher bildet die Wahrscheinlichkeitsdichte u ¨ber die Intensit¨at der Schattierung ab. So sollten sich im vorliegenden Fall in den dunkleren Regionen mehr Beobachtungen realisieren als in den helleren. In gewisser Hinsicht k¨ onnte man diese Darstellung auch als ein theoretisches Streudiagramm interpretieren, das sich bei einer sehr großen“ Anzahl von ” Realisationen ergeben w¨ urde, sofern die einzelnen Datenpunkte entsprechend winzig dargestellt w¨ urden. Eingezeichnet ist außerdem wieder die theoretische KQ-Gerade (n¨achster Abschnitt). Wie bereits in Abschnitt 7.1.2 hergeleitet, lauten die Randdichten von X und Y fX (x) = (x + 0.5)I[0,1] (x) bzw. fY (y) = (0.25y + 0.25)I[0,2] (y).

332

7 Theoretische Verteilungen und Abh¨angigkeiten Abb. 7.2.7: Theoretischer Zusammenhang bei stetiger gemeinsamer Verteilung Beispiel S2−a f X Y (x,y)

1.5

1.0

1.0

0.5 0

Imageplot

y

2.0 0.5

x

1.0 1.0

0

y

0.5 0.0 0.0

0.2

0.4

0.6

0.8

x

Daraus folgt dann f¨ ur X: Z ∞ Z 1 h1 1 i1 7 E(X) = xfX (x)dx = , (x2 + 0.5x) dx = x3 + x2 = 3 4 12 0 −∞ 0 Z ∞ Z 1 h1 1 i1 5 2 2 E(X ) = . x fX (x)dx = (x3 + 0.5x2 ) dx = x4 + x3 = 4 6 12 0 −∞ 0 Aus der Verschiebungsformel der Varianz folgt:  5 2 7 59 V ar(X) = E(X 2 ) − (E(X))2 = − = . 12 12 144 Analog berechnet man f¨ ur Y : 7 5 11 E(Y ) = , E(Y 2 ) = und V ar(Y ) = . 6 3 36 Mit Z ∞Z ∞ Z 1Z 2 E(XY ) = xyfXY (x, y)dydx = (0.5x2 y + 0.25xy 2 )dydx −∞

−∞

0

0

Z 1 h iy=2  1 2 2 1 = x y + xy 3 dx 4 12 y=0 0 Z 1 h1 2  1 i1 2 = x2 + x dx = x3 + x2 = 3 3 3 3 0 0 erhalten wir 2 7 7 1 − · =− und 3 12 6 72 Cov(X, Y ) −1/72 1 %XY = p =p = −√ ≈ −0.0393. 649 V ar(X)V ar(Y ) (59/144) · (11/36) Folglich besteht ein schwacher negativer linearer Zusammenhang zwischen X und Y . Die negative Korrelation l¨ asst sich am besten anhand der bedingten Verteilungen erkl¨aren, s. Abbildung 7.1.11. So werden bei kleineren x-Werten gr¨oßere y-Werte relativ betrachtet wahrscheinlicher als bei gr¨ oßeren x-Werte. Dies erkennt man auch daran, dass die Linksschiefe der bedingten Verteilung von Y gegeben X = x f¨ ur gr¨oßere xCov(X, Y ) = E(XY ) − E(X)E(Y ) =

7.2 Theoretische Kennwerte

333

Werte abnimmt. Der bedingte Erwartungswert von Y gegeben X = x nimmt deshalb auch f¨ ur wachsendes x ab. Wie in Abschnitt 7.2.1 berechnet, erh¨alt man beispielsweise konkret E(Y |X = 0) ≈ 1.33, E(Y |X = 0.5) ≈ 1.17, E(Y |X = 1) ≈ 1.11.

Theoretische Regressionskoeffizienten • Definition und Notation • Die theoretischen KQ-Regressionskoeffizienten stellen die wahrscheinlichkeitstheoretischen Pendants zu den empirischen KQ-Koeffizienten s˜XY ˆb0 = y¯ − ˆb1 x ¯ und ˆb1 = 2 s˜X dar und definieren die theoretische Kleinste-Quadrate-Gerade. Definition 7.2.6: Theoretische Kleinste-Quadrate-Regression Gegeben seien zwei Zufallsvariablen X und Y (diskret oder stetig) mit 2 E(X) = µX , V ar(X) = σX , E(Y ) = µY , Cov(X, Y ) = σXY .

Dann sind die theoretischen KQ-Regressionskoeffizienten definiert als σXY Cov(X, Y ) ¯ = 2 und βˆ1 = V ar(X) σX ¯ ¯ ¯ βˆ0 = E(Y ) − βˆ1 E(X) = µY − βˆ1 µX . Die theoretische KQ-Regressionsgerade lautet dann ¯ ¯ yˆ¯(x) = βˆ0 + βˆ1 x.

• Interpretation • Ihre theoretische Fundierung erh¨alt die theoretische KQ-Gerade im Rahmen der theoretischen KQ-Regression (siehe Abschnitt 12.1.2). Sie wird analog wie zuvor die theoretische Korrelation interpretiert. Interpretation der theoretischen KQ-Regression Die theoretischen KQ-Regressionskoeffizienten sind die sich langfristig“ einstellenden ” empirischen KQ-Regressionskoeffizienten, falls laufend Beobachtungswerte aus der gemeinsamen Wahrscheinlichkeitsverteilung zweier Zufallsvariablen X und Y gewonnen werden. Informal ausgedr¨ uckt gilt also: ¯ ˆb0 → βˆ0 und ˆb1 → β¯ ˆ1 f¨ ur wachsendes n oder ¯ ¯ ˆb0 ≈ βˆ ˆb1 ≈ βˆ und f¨ ur großes n. 0 1

334

7 Theoretische Verteilungen und Abh¨angigkeiten

• Beispiel D2-c fortgesetzt • Setzen wir das vorhergehende gleichnamige Beispiel mit den diskreten Zufallsvariablen X und Y fort, erhalten wir f¨ ur die Koeffizienten Cov(X, Y ) 0.13 ¯ βˆ1 = = ≈ 0.2549 und V ar(X) 0.51 0.13 ¯ ¯ βˆ0 = E(Y ) − βˆ1 E(X) = 1.2 − · 1.3 ≈ 0.8686. 0.51 Die resultierende theoretische Geradengleichung lautet dann y¯ˆ(x) ≈ 0.8686 + 0.2549 x. Dies bedeutet, dass der Eiskonsum der Frau theoretisch im Durchschnitt um ca. 0.25 Kugeln zunimmt, falls der Mann eine Kugel mehr konsumiert. Konsumiert der Mann kein Eis, konsumiert die Frau im Durchschnitt ca. 0.87 Kugeln. • Beispiel D2-d fortgesetzt • Im gleichnamigen Beispiel von zuvor ergab sich, dass ¯ X und Y unkorreliert sind. Wegen Cov(X, Y ) = 0, also auch βˆ1 = 0, verl¨auft die Regressionsgerade horizontal, s. Abbildung 7.2.6. Hierbei ist ¯ βˆ0 = E(Y ) = 1.4. • Beispiel S2-a fortgesetzt • Setzen wir das vorhergehende gleichnamige Beispiel mit den stetigen Zufallsvariablen X und Y fort, erhalten wir f¨ ur die Koeffizienten Cov(X, Y ) −1/72 2 ¯ βˆ1 = = =− ≈ −0.0339 und V ar(X) 59/144 59 7 2 7 ¯ ¯ · ≈ 1.1469. βˆ0 = E(Y ) − βˆ1 E(X) = − 6 59 12 Die resultierende theoretische Geradengleichung lautet dann y¯ˆ(x) = 1.1469 − 0.0339 x.

7.2.3 Spezifische Eigenschaften theoretischer Kennwerte Minimumeigenschaften von Lagekennwerten • Minimumeigenschaft des Erwartungswerts • Die theoretische Varianz quantifiziert die erwartete quadratische Abweichung vom Erwartungswert. Tats¨achlich minimiert der Erwartungswert die erwartete quadratische Abweichung als Bezugspunkt. So gilt: Satz 7.2.8: Minimumeigenschaft des Erwartungswerts 2 Gegeben sei eine Zufallsvariable X mit Erwartungswert µX und Varianz σX . Dann gilt f¨ ur jedes c ∈ R:     2 σX = E (X − µX )2 ≤ E (X − c)2 .

7.2 Theoretische Kennwerte

335

Damit erhalten wir ein analoges Resultat zur Minimumeigenschaft des arithmetischen Mittels (Abschnitt 4.9.1). Dazu definiere man die von c abh¨angige Funktion   f (c) := E (X − c)2 . Durch Anwendung der Rechenregeln f¨ ur den Erwartungswert und Umstellen der Verschiebungsformel f¨ ur die Varianz folgt dann weiter: f (c) = E(X 2 ) − E(2Xc) + E(c2 ) = V ar(X) + (E(X))2 − 2cE(X) + c2 2 = σX + µ2X − 2cµX + c2 .

F¨ ur die Ableitung von f nach c erh¨ alt man f 0 (c) = −2µX + 2c = 2(c − µX ) und als minimierende L¨ osung schließlich c = µX . • Minimumeigenschaft des Medians • Der theoretische Median einer Verteilung minimiert den Erwartungswert der absoluten Abweichung als Bezugspunkt. So gilt: Satz 7.2.9: Minimumeigenschaft des theoretischen Medians Gegeben sei eine Zufallsvariable X mit theoretischem Median q0.5 . Dann gilt f¨ ur jedes c ∈ R:     E |X − q0.5 | ≤ E |X − c| .

Damit erhalten wir ein analoges Resultat zur Miniumeigenschaft des empirischen Medians (Abschnitt 4.9.2). Auf einen entsprechenden Nachweis dieser Eigenschaft wird verzichtet.

Wichtige Transformationseigenschaften • Transformationseigenschaften des Erwartungswertes • Da gem¨aß den Rechenregeln f¨ ur den Erwartungswert f¨ ur jede Zufallsvariable X folgende Gleichungen gelten: E(X + c) = E(X) + c = µX + c, E(cX) = cE(X) = cµX ,

(7.2.29) (7.2.30)

ist der Erwartungswert analog zum arithmetischen Mittel verschiebungs- und skalen¨ aquivariant (Abschnitt 4.9.3). Man beachte, dass wir analog zum empirischen Fall die G¨ ultigkeit von (7.2.30) eigentlich nur f¨ ur c > 0 als notwendig voraussetzen, um von Skalen¨aquivarianz sprechen zu k¨ onnen. Gleichwohl ist (7.2.30) f¨ ur jedes c ∈ R erf¨ ullt. • Transformationseigenschaften der theoretischen Varianz • Mit (7.2.29) folgt f¨ ur jedes c ∈ R f¨ ur die transformierte Gr¨ oße Y = X + c gem¨aß Definition:     2 V ar(Y ) = E (Y − E(Y )) = E (X + c − µX − c)2 (7.2.31)   2 = E (X − µX ) = V ar(X).

336

7 Theoretische Verteilungen und Abh¨angigkeiten

Somit ist auch die theoretische Varianz analog zur empirischen Varianz verschiebungsinvariant (Abschnitt 4.9.3). Mit (7.2.30) folgt f¨ ur jedes c > 0:     2 2 V ar(cX) = E (cX − cµX ) = c E (X − µX )2 = c2 V ar(X); (7.2.32) damit ist p p V ar(cX) = c V ar(X) = c σX . Somit ist auch die theoretische Standardabweichung analog zur empirischen Standardabweichung skalen¨ aquivariant. • Transformationseigenschaften der theoretischen Quantile • Sei qα das αQuantil einer Zufallsvariable X. Sofern dieses eindeutig bestimmt ist und P (X ≤ qα ) = α gilt, w¨ urde daraus auch P (X + c ≤ qα + c) = α f¨ ur jedes c ∈ R und P (cX ≤ cqα ) = α f¨ ur jedes c > 0 folgen. Ungeachtet m¨ oglicher Bestimmungsprobleme f¨ ur theoretische Quantile lassen sich diese auf jeden Fall so definieren, dass die Eigenschaften der Verschiebungs- und Skalen¨ aquivarianz gegeben sind. • Transformationseigenschaften von theoretischer Kovarianz und Korrelation • Seien X und Y Zufallsvariablen mit Erwartungswerten µX bzw. µY . Dann sind die Erwartungswerte der mit konstanten Werten cX und cY transformierten Gr¨oßen U = X + cX und V = Y + cY gegeben durch E(U ) = µX + cX und E(V ) = µY + cY . Somit folgt gem¨aß Definition:   Cov(U, V ) = E (U − E(U ))(V − E(V ))   = E (X + cX − µX − cX )(Y + cY − µY − cY )   = E (X − µX )(Y − µY ) = Cov(X, Y ). Betrachtet man stattdessen die mit cX und cY umskalierten Gr¨oßen U = cX X und V = cY Y , erh¨alt man mit E(U ) = cX X bzw. E(V ) = cY Y :   Cov(U, V ) = E (U − E(U ))(V − E(V )))   = E (cX X − cX µX )(cY Y − cY µY )   = cX cY E (X − µX )(Y − µY ) = cX cY Cov(X, Y ).

(7.2.33)

Damit ist die theoretische Kovarianz verschiebungsinvariant und skalen¨ aquivariant, sofern lediglich eine der beiden Variablen umskaliert wird. Man beachte, dass wir analog zum empirischen Fall f¨ ur die Skalen¨ aquivarianz eigentlich nur von Umskalierungen mit positiven Konstanten ausgehen. Jedoch gilt (7.2.33) f¨ ur beliebige Konstanten. Da die theoretische Korrelation zwischen zwei Zufallsvariablen X und Y definiert ist als Cov(X, Y ) , Corr(X, Y ) = p V ar(X)V ar(Y )

7.2 Theoretische Kennwerte

337

folgt mit den Transformationseigenschaften von Kovarianz und Standardabweichung die Verschiebungs- und Skaleninvarianz der Korrelation. Wichtige Transformationseigenschaften theoretischer Kennwerte F¨ ur Erwartungswert, Varianz, Kovarianz und Korrelation von Zufallsvariablen gelten folgende Transformationsregeln: (1) E(X + c) = E(X) + c f¨ ur jedes c ∈ R. (2) E(cX) = cE(X) f¨ ur jedes c ∈ R. (3) V ar(X + c) = V ar(X) f¨ ur jedes c ∈ R. (4) V ar(cX) = c2 V ar(X) f¨ ur jedes c ∈ R. p p (5) V ar(cX) = c V ar(X) f¨ ur jedes c > 0. (6) Cov(X + cX , Y + cY ) = Cov(X, Y ) f¨ ur alle cX , cY ∈ R. (7) Corr(X + cX , Y + cY ) = Corr(X, Y ) f¨ ur alle cX , cY ∈ R. (8) Cov(cX X, cY Y ) = cX cY Cov(X, Y ) f¨ ur alle cX, cY ∈ R. (9) Corr(cX X, cY Y ) = Corr(X, Y ) f¨ ur alle cX , cY 6= 0. Insbesondere folgen daraus die zu den entsprechenden empirischen Kennwerten v¨ollig ¨ analogen Aquivarianzund Invarianzeigenschaften in Bezug auf Verschiebungen und Umskalierungen. • Erwartungswert und Varianz nach Standardisierung • In Entsprechung zur z-Standardisierung realer Beobachtungswerte (Abschnitt 4.6) erfolgt in der Wahrscheinlichkeitsrechnung die Standardisierung einer Zufallsvariable X mit Erwartungswert µX 2 und Varianz σX >0u ¨ber die Transformation X − µX . (7.2.34) Z= σX Dies entspricht jedenfalls der h¨ aufigsten und wichtigsten Variante einer Standardisierung, da sich im Falle einer Normalverteilung dadurch eine standardnormalverteilte Zufallsvariabel Z ergibt (Abschnitt 7.3.2). Eine Standardisierung gem¨aß (7.2.34) entspricht einer Lineartransformation: µX 1 Z=− + X σX σX mit Verschiebungskonstante µX /σX und Umskalierungsfaktor 1/σX . Daraus folgt:  µ 1  µX 1 µX µX X + X =− + E(X) = − + = 0 und E − σX σX σX σX σX σX  µ  1  1  1 σ2 X V ar − + X = V ar X = 2 V ar(X) = X 2 = 1. σX σX σX σX σX

338

7 Theoretische Verteilungen und Abh¨angigkeiten

Kennwerte standardisierter Zufallsvariablen 2 Gegeben sei eine Zufallsvariable X mit Erwartungswert µX und Varianz σX > 0. F¨ ur die standardisierte Gr¨ oße X − µX Z= σX gilt stets: E(Z) = 0 und V ar(Z) = 1.

Endliche und nicht endliche theoretische Momente • Momente • Unter dem k-ten (theoretischen) Moment einer Zufallsvariable X versteht man den Erwartungswert von X k , also E(X k ) f¨ ur k = 1, 2, . . . Speziell ist der Erwartungswert das erste Moment einer Zufallsvariable. Die Varianz   E (X − E(X))2 wird auch als zweites zentriertes (theoretisches) Moment bezeichnet, da die Varianz dem zweiten theoretischen Moment der zentrierten Gr¨oße X − µX entspricht. • Endlichkeit theoretischer Momente • Das k-te Moment E(X k ) einer diskreten bzw. stetigen Zufallsvariable gilt per Definition nur dann als endlich, falls die Kriterien X |akj |fX (aj ) < ∞ bzw. (7.2.35) j

Z



|xk |fX (x)dx < ∞

(7.2.36)

−∞

erf¨ ullt sind. Diese Festlegung hat sich aus theoretischer Sicht als zweckm¨aßig erwiesen. Es gilt dann: X E(X k ) = akj fX (aj ) bzw. (7.2.37) j

E(X k ) =

Z



xk fX (x)dx

(7.2.38)

−∞

Die Kriterien (7.2.35) und (7.2.36) setzen die Eigenschaft der absoluten Summierbarkeit in (7.2.37) bzw. der absoluten Integrierbarkeit in (7.2.38) voraus. Wenn man also davon spricht, dass ein Moment endlich ist, impliziert dies stets die G¨ ultigkeit von (7.2.35) bzw. (7.2.36). Normalerweise wird auch nur dann u ¨berhaupt von der Operatorschreibweise E(X k ) Gebrauch gemacht. Dies bedeutet, dass die rechte Seite von (7.2.37) bzw. (7.2.38) durchaus endlich sein kann, auch wenn keine absolute Summierbarkeit bzw. Integrierbarkeit gegeben ist. Dennoch w¨ are in solchen F¨allen der Erwartungswert per Definition nicht endlich. Sofern das k-te Moment einer Verteilung endlich ist, sind auch alle niedrigeren Momente endlich. Insbesondere ist der Erwartungswert einer Verteilung endlich, falls das zweite Moment, E(X 2 ), endlich ist. In dem Fall ist dann auch die Varianz, also das

7.2 Theoretische Kennwerte

339

zweite zentrierte Moment, endlich. Ist das k-te Moment nicht endlich, so auch nicht alle h¨oheren Momente. Auf formale Nachweise hierzu wird verzichtet. • Momenterzeugende Funktionen • Eine in der Wahrscheinlichkeitstheorie verbreitete (fortgeschrittene) Technik die Momente einer Zufallsvariable zu bestimmen, verwendet sog. momenterzeugenden Funktionen. F¨ ur s ∈ R ist die momenterzeugende Funktion einer Zufallsvariable X definiert als M (s) = E(esX ), sofern der Erwartungswert auf der rechten Seite f¨ ur ein s ∈ (−c, c) mit c > 0 endlich ist. Mithilfe dieser Funktion k¨ onnen dann alle Momente E(X k ) f¨ ur k > 0 relativ einfach bestimmt werden. F¨ ur n¨ ahere Details sei der Leser auf weiterf¨ uhrende B¨ ucher zur Wahrscheinlichkeitstheorie wie etwa Rohatgi und Saleh [2000] oder Knight [2000] verwiesen. • Implikation und Deutung nicht endlicher Momente • Notwendig f¨ ur die Nichtendlichkeit eines Moments ist stets eine unbeschr¨ankte Tr¨agermenge. Ist die Tr¨agermenge beschr¨ankt, d.h. gilt P (−c < X < c) = P (|X| < c) = 1 f¨ ur ein c mit 0 < c < ∞, so sind alle Momente endlich. An diesem Umstand mag man auch die praktische Relevanz dieses Problems beurteilen. Da in der Realit¨at Beobachtungswerte stets durch nat¨ urliche Schranken in ihrem Wertebereich beschr¨ankt sind, braucht man sich zumindest aus praktischer Sicht eigentlich nicht um unbeschr¨ankte Tr¨agermengen bzw. nicht endliche Momente zu sorgen. In gewisser Weise handelt es sich also nur um ein k¨ unst” liches“ mathematisch-technisches Problem. Man beachte hierzu auch die vereinfachenden Annahmen in Abschnitt 8.2.1. Verteilungen mit nicht endlichen Momenten neigen dazu, extreme Ausreißer“ zu erzeugen, da nicht endliche Momente unbeschr¨anktes ” ” Schwankungsverhalten“ von Realisationen erm¨oglichen, sodass das Gesetz der großen Zahlen (Abschnitt 7.4.2) nicht zwingend greift. Dann ist wie etwa bei der CauchyVerteilung selbst f¨ ur großes n eine Aussage x ¯ ≈ E(X) mit − ∞ < E(X) < ∞ oft nicht (sinnvoll) m¨ oglich. Man vergleiche hierzu Aussage (8.1.14) in Abschnitt 8.1.2. • Beispiel S1-d • Sei X eine stetige Zufallsvariable mit Dichte 1 fX (x) = 2 I[1,∞) (x), x vgl. Abbildung 7.2.8, links. Bei der Erwartungswertberechnung ergibt sich nun Z ∞ Z ∞  ∞ 1 E(X) = xfX (x)dx = dx = ln x 1 . x −∞ 1 Der Erwartungswert ist hier nicht endlich, da das Integral nicht endlich ist. Wohlgemerkt ist das Kriterium der absoluten Integrierbarkeit gem¨aß (7.2.36) nicht erf¨ ullt. Jedoch k¨ onnte man hier durchaus E(X) = ∞ definitorisch festlegen.

340

7 Theoretische Verteilungen und Abh¨angigkeiten

• Beispiel S1-e • Sei Y eine stetige Zufallsvariable mit Dichte (Abb. 7.2.8, rechts) 1 fY (y) = π(1 + y 2 ) und Tr¨agermenge R. Die entsprechende Verteilung heißt (Standard-)CauchyVerteilung (Abschnitt 8.1.2). In diesem Fall ist das Integral Z ∞ Z ∞ 1 yfY (y)dy = y dy π(1 + y2 ) −∞ −∞ gem¨aß Integrationstheorie nicht wohldefiniert. Das Kriterium der absoluten Integrierbarkeit ist somit auch nicht erf¨ ullt. Festlegungen wie E(X) = ∞ oder E(X) = −∞ w¨ aren hier nun willk¨ urlich und wenig zweckm¨aßig.

• Weitere Beispiele • Beispiele mit nicht endlichen Momenten bei diskreten Verteilungen finden sich etwa bei Rohatgi und Saleh [2001] oder Knight [2000]. Abb. 7.2.8: Verteilungen mit nicht endlichen Erwartungswerten Beispiel S1−d

f X (x )

1.0

1.0

E (X ) = ∞ q 0.5 = 2

0.8 0.6

0.6 0.4

0.2

0.2

0.0

0.0 1

2

3

x

E (Y ) nicht def. q 0.5 = 0

0.8

0.4

0

Beispiel S1−e

f Y (y )

4

5

6

−3

−2

−1

0

y

1

2

3

7.3 Spezielle eindimensionale Verteilungen Zur statistischen Modellierung bestimmter Probleme eigenen sich h¨aufig spezielle Wahrscheinlichkeitsverteilungen, die aufgrund ihrer großen Bedeutung u ¨ber eigene Bezeichnungen verf¨ ugen. Hierzu z¨ ahlen sowohl spezielle diskrete Verteilungen wie etwa die Binomialverteilung oder die Poisson-Verteilung als auch stetige Verteilungen wie etwa die Exponentialverteilung oder die Normalverteilung . Die Verwendung solcher Verteilungsmodelle sollte aus theoretischer Sicht jedoch begr¨ undbar sein, da diese Verteilungen nur unter bestimmten Annahmen zustande kommen bzw. gerechtfertigt erscheinen. Ein besonderes Augenmerk in der Wahrscheinlichkeitsrechnung und Statistik liegt h¨ aufig auf der Betrachtung stochastischer Summen und Mittelwerte. Hierbei kann zwischen exakten und asymptotischen oder approximativen Aussagen unterschieden werden (Abschnitt 7.4).

7.3 Spezielle eindimensionale Verteilungen

341

7.3.1 Spezielle diskrete Verteilungen Elementare Kombinatorik • Hintergrund • Die Kombinatorik als mathematische Disziplin befasst sich mit der Bestimmung der Anzahl von Anordnungen und Auswahlm¨oglichkeiten von Objekten aus vorgegebenen Mengen. Um beispielsweise die Gewinnwahrscheinlichkeit f¨ ur das Lottospiel 6 aus 49“ angeben zu k¨ onnen, muss ermittelt werden, wie viele M¨oglichkei” ten es insgesamt gibt, 6 Kugeln aus 49 Kugeln zu ziehen. Der f¨ ur solche Fragestellungen verwendete mathematische Apparat st¨ utzt sich auf spezielle Formeln und Schreibweisen aus der Kombinatorik. Im Folgenden werden die Fakult¨ at f¨ ur die Anzahl von Permutationen und der Binomialkoeffizient f¨ ur die Anzahl von Auswahlm¨oglichkeiten vorgestellt. Diese beiden Formeln (Schreibweisen) werden im Rahmen des Urnenmodells f¨ ur die Binomialverteilung und die hypergeometrische Verteilung ben¨otigt. • Fakult¨ at und Permutationen • Zwei Objekte, die wir mit 1 und 2 nummerieren, lassen sich hinsichtlich der Reihenfolge auf zwei verschiedene Weisen anordnen: (1, 2) oder (2, 1). Bei drei Objekten 1, 2 und 3 existieren dagegen schon 6 Anordnungsm¨oglichkeiten: (1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2) und (3, 2, 1). Abbildung 7.3.1 illustriert links die Anordnungsm¨oglichkeiten, auch Permutationen genannt, f¨ ur letzteren Fall. Die Anzahl von Permutationen ist demnach gleich 3 · 2 · 1 = 6. Rechts ist der Fall f¨ ur n = 4 Objekte dargestellt. So gehen von 4 Ausgangszweigen zun¨achst jeweils immer 3 Zweige weiter, von denen dann jeweils wieder 2 Zweige weiterf¨ uhren. Schließlich m¨ undet jeder Pfad in einem einzelnen Zweig. Damit ergeben sich insgesamt 4 · 3 · 2 · 1 = 24 Permutationen. Die allgemeine Berechnungsformel liegt damit auf der Hand. ¨ Uber das Fakult¨ atssymbol !“ lassen sich solche absteigenden Produkte“ kurz ” ” notieren. Dazu schreibt man dann beispielsweise 3 ! (lies: 3 Fakult¨ at) oder 4 ! (lies: 4 Fakult¨ at) anstelle von 3 · 2 · 1 bzw. 4 · 3 · 2 · 1. Fakult¨ at und Permutationen Die Fakult¨ at einer nat¨ urlichen Zahl n wird u ¨ber das Symbol !“ notiert und ist ” definiert als n! = n · (n − 1) · (n − 2) · · · · · 2 · 1 (lies: n Fakult¨ at). F¨ ur n = 1 und n = 0 definiert man dabei 1! = 1 und 0! = 1.

342

7 Theoretische Verteilungen und Abh¨angigkeiten

F¨ ur n ≥ 2 entspricht n! der Anzahl der Anordnungsm¨oglichkeiten (Permutationen) von n verschiedenen Objekten.

Abb. 7.3.1: Anzahl von Permutationen und Auswahlm¨ oglichkeiten

Permutationen

Auswahl von 2 aus 4

3! = 3 × 2 × 1 = 6

3

4! = 4 × 3 × 2 × 1 = 24

4

2 1 4

Auswahl von 2 aus 3 3

2

1

2

1

1

2

3

2

1

3

3

2

2

3

3

2 1 4

2

3 1 4

1

3 2

2 1 3 1 3 2 2 1 4 1 4 2 3 1 4 1 4 3 3 2 4 2 4 3

1 2 1 3 2 3 1 2 1 4 2 4 1 3 1 4 3 4 2 3 2 4 3 4

• Auswahlm¨ oglichkeiten bei Ber¨ ucksichtigung der Reihenfolge • Werden 2 Objekte beliebig aus einer Menge von 3 Objekten ausgew¨ahlt, so gibt es daf¨ ur 3 · 2 = 6 M¨ oglichkeiten. Werden diese aus insgesamt 4 Objekten ausgew¨ahlt, so gibt es daf¨ ur 4 · 3 = 12 M¨oglichkeiten. Man m¨ oge dies anhand von Abbildung 7.3.1 nachvollziehen. Werden 3 aus 8 Objekten ausgew¨ ahlt, gibt es 8 · 7 · 6 = 336 M¨oglichkeiten usw. Auch diese Art von Produkten l¨ asst sich wieder u ¨ber die Verwendung von Fakult¨aten kurz notieren. So schreibt man beispielsweise 4! 8! oder (4 − 2)! (8 − 3)! anstelle von 4 · 3 bzw. 8 · 7 · 6, da 4! 4·3·2 8! 8·7·6·5·4·3·2 = = 4 · 3 bzw. = = 8 · 7 · 6. (4 − 2)! 2 (8 − 3)! 5·4·3·2

7.3 Spezielle eindimensionale Verteilungen

343

Werden allgemein also k Objekte aus n Objekten (k ≤ n) ausgew¨ahlt, so gibt es daf¨ ur n! (7.3.1) (n − k)! M¨ oglichkeiten. Die Reihenfolge wird dabei allerdings ber¨ ucksichtigt. So wird beispielsweise bei einer Auswahl von 2 aus 3“ zwischen den M¨oglichkeiten erst Objekt 1 und ” ” dann Objekt 2“ und erst Objekt 2 und dann Objekt 1“ unterschieden. ” • Binomialkoeffizient und Auswahlm¨ oglichkeiten ohne Reihenfolge • Spielt die Reihenfolge, in der Objekte ausgew¨ ahlt werden, keine Rolle, sondern ist einzig die ausgew¨ahlte Menge entscheidend, reduziert sich die Anzahl von M¨oglichkeiten. Werden beispielsweise 2 aus 3 oder 2 aus 4 Objekten gew¨ahlt, so w¨ urde sich die Anzahl von M¨ oglichkeiten halbieren. Werden 3 aus 8 Objekten gew¨ahlt, ist die Anzahl von M¨oglichkeiten nur noch ein Sechstel, da 3 Objekte auf 3! verschiedene Weisen permutiert werden k¨ onnen. Allgemein wird bei einer Auswahl von k aus n Objekten der Quotient (7.3.1) noch durch k! dividiert, d.h. n! . (7.3.2) (n − k)! · k! Der Ausdruck (7.3.2) definiert zugleich auch den sog. Binomialkoeffizienten. Binomialkoeffizient und Auswahlm¨ oglichkeiten f¨ ur k aus n“ ” F¨ ur zwei nat¨ urliche Zahlen n und k mit k ≤ n ist der Binomialkoeffizient   n (lies: n u ¨ber k ) k definiert als   n n! = . k (n − k)! · k! Der Binomialkoeffizient entspricht der Anzahl von M¨oglichkeiten, aus n Objekten k Objekte auszuw¨ahlen, wobei die Reihenfolge der Auswahl nicht ber¨ ucksichtigt wird.

• Beispiel 7.3.1: Lotto 6 aus 49“ • Beim Lottospiel 6 aus 49“ werden 6 aus ” ” ¨ 49 Kugeln ohne Zur¨ ucklegen gezogen. Daf¨ ur gibt es den vorhergehenden Uberlegungen nach genau   49 = 13 983 816 6 M¨ oglichkeiten. Die Gewinnwahrscheinlichkeit f¨ ur 6 Richtige betr¨agt folglich 1 P ( 6 Richtige“) = ” 13 983 816 oder ca. 0.00000715%. Die Frage, wie sich beispielsweise auch die Wahrscheinlichkeit f¨ ur wenigstens 2 Richtige“ oder wenigstens 3 Richtige“ berechnen l¨asst, wird im Rahmen ” ” der hypergeometrischen Verteilung nachfolgend beantwortet.

344

7 Theoretische Verteilungen und Abh¨angigkeiten

Einpunktverteilung • Modell und Definition • Eine Zufallsvariable X, die einen Wert a mit Wahrscheinlichkeit 1 annimmt, f¨ ur die also P (X = a) = 1

und

P (X = x) = 0 f¨ ur x 6= a

gilt, heißt einpunktverteilt auf a. Die korrespondierende Verteilung heißt Einpunktverteilung . Da die Zufallsvariable kein stochastisches Schwankungsverhalten mehr aufweist, spricht man in diesem Zusammenhang auch von einer deterministischen oder degenerierten Verteilung . • Erwartungswert und Varianz • F¨ ur eine auf a einpunktverteilte Zufallsvariable X gilt: E(X) = a

und

V ar(X) = 0.

Bernoulli-Verteilung • Modell und Definition • Zur Motivation der folgenden Verteilung stellen wir uns am besten eine Urne mit weißen und schwarzen Kugeln vor, aus der zuf¨allig eine bestimmte Anzahl von Kugeln gezogen wird. Betrachten wir als Beispiel die Situation von Abbildung 7.3.2 mit 3 schwarzen und 5 weißen Kugeln. Wird lediglich eine einzige Kugel gezogen, so betr¨ agt die Wahrscheinlichkeit daf¨ ur, dass eine schwarze Kugel gezogen wird, genau 3/8. Formaler definieren wir dazu nun die diskrete 0-1-Variable X mit X = 1 f¨ ur schwarz und

X = 0 f¨ ur weiß.

Dann heißt X Bernoulli-verteilt. Die korrespondierende Verteilung heißt BernoulliVerteilung . Im vorliegenden Beispiel w¨ urde dabei gelten: P (X = 0) = 0.625 und P (X = 1) = 0.375. Allgemein h¨angen die Wahrscheinlichkeiten der beiden Tr¨agerpunkte 0 und 1 immer vom jeweiligen Anteil weißer bzw. schwarzer Kugeln ab. Notiert man nun etwa den Anteil der schwarzen Kugeln mit dem griechischen Kleinbuchstaben π (lies: pi ), so gilt allgemein also stets: P (X = 0) = 1 − π und P (X = 1) = π, wobei π ∈ (0, 1). Die Extremwerte 0 und 1 k¨onnen wahlweise ausgeschlossen werden, da diese jeweils nur Einpunktverteilungen auf 0 bzw. 1 implizieren w¨ urden. • Bernoulli-Verteilung als parametrische Verteilungsfamilie • Da es somit nicht nur eine einzige Bernoulli-Verteilung gibt, sondern die konkrete Gestalt dieser Verteilung von π abh¨angt, umfasst der Begriff Bernoulli-Verteilung“ ein ganzes Ensemble ” von Verteilungen. Dieses Ensemble wird durch alle zul¨assigen Werte π ∈ (0, 1) erzeugt. In der Wahrscheinlichkeitstheorie wird die w¨ahlbare“ Gr¨oße π gew¨ohnlich als ” Parameter bezeichnet. Die Menge der zul¨ assigen Werte des Parameters heißt Parameterraum. Im vorliegenden Fall w¨ are dies gerade das offene Intervall (0, 1). Das durch den Parameter bzw. Parameterraum erzeugte Ensemble von Verteilungen wird

7.3 Spezielle eindimensionale Verteilungen

345

als parametrische Verteilungsfamilie bezeichnet. Zur konkreten Spezifikation der Verteilung einer Zufallsvariable X wird die Kurzschreibweise X ∼ B(1, π) verwendet. Das Symbol ∼“ (lies: Tilde oder Schlange) steht dabei f¨ ur verteilt gem¨ aß ” ” der“. Die Schreibweise B(1, π)“ steht f¨ ur Bernoulli-Verteilung mit Parameter π“. Im ” ” vorliegenden Beispiel mit π = 0.375 schreibt man also kurz X ∼ B(1, 0.375). Die 1“ ” steht dabei nicht etwa f¨ ur die Kodierung 1 f¨ ur schwarz (oder ggf. weiß)“, sondern daf¨ ur, ” dass genau einmal gezogen wird. • Erwartungswert und Varianz • verteilten Zufallsgr¨ oße ergeben sich als

Erwartungswert und Varianz einer B(1, π)-

E(X) = π und V ar(X) = π(1 − π). Letzteres folgt aus E(X 2 ) = 12 · π + 02 · (1 − π) = π 2

und

2

V ar(X) = E(X ) − (E(X)) = π − π 2 = π(1 − π). Im vorliegenden Beispiel gilt also: E(X) = 0.375 und V ar(X) = 0.375 · (1 − 0.375) ≈ 0.2344. Bernoulli-Verteilung Eine Zufallsvariable X heißt Bernoulli-verteilt mit Parameter π ∈ (0, 1), kurz X ∼ B(1, π), wenn gilt: P (X = 0) = 1 − π und P (X = 1) = π. Die korrespondierende Verteilung heißt Bernoulli-Verteilung. Dabei gilt: E(X) = π und V ar(X) = π(1 − π).

Abb. 7.3.2: Urnenmodell – Ziehen mit Zur¨ ucklegen n Mal Ziehen mit Zurücklegen

X 1,...,X n unabhängig B (1, π)−verteilt n

S n = ∑ X i ~ B (n, π)(Anzahl schwarzer Kugeln) i =1

Alle Kombinationen für S 4 = 2:

π = 0.375

(Anteil schwarzer Kugeln)

346

7 Theoretische Verteilungen und Abh¨angigkeiten

Binomialverteilung • Modell und Definition • Zur Motivation betrachten wir erneut die Situation von Abbildung 7.3.2. Angenommen, es werden nun n = 4 Kugeln mit Zur¨ ucklegen gezogen. Dann lassen sich die einzelnen Ergebnisse, d.h. ob eine weiße oder schwarze Kugel gezogen wurde, u ¨ber 4 Bernoulli-verteilte Zufallsvariablen X1 , X2 , X3 und X4 modellierend beschreiben. Dabei gilt f¨ ur i = 1, 2, 3 und 4: Xi = 0, falls im i-ten Zug eine weiße Kugel gezogen wird, Xi = 1, falls im i-ten Zug eine schwarze Kugel gezogen wird. Da die Kugeln immer wieder zur¨ uckgelegt werden, sind die einzelnen Ergebnisse und somit auch die korrespondierenden Zufallsvariablen unabh¨angig, wobei Xi ∼ B(1, 0.375)

f¨ ur i = 1, 2, 3 und 4.

Dies l¨asst sich nat¨ urlich auf beliebige Parameterwerte n ∈ N und π ∈ (0, 1) verallgemeinern. Die Summe der Bernoullivariablen n X Sn = Xi i=1

entspricht stets der Summe der Einsen und somit der Anzahl der schwarzen Kugeln innerhalb der gezogenen Stichprobe. Die Gr¨ oße Sn ist als Funktion von Zufallsvariablen selbst wiederum eine Zufallsvariable, deren Verteilung durch n (Anzahl der Z¨ uge) und π (Anteil von schwarzen Kugeln) bestimmt ist. Die korrespondierende parametrische Verteilungsfamilie heißt Binomialverteilung . Zur konkreten Spezifikation der Verteilung wird gew¨ohnlich die Kurzschreibweise Sn ∼ B(n, π) verwendet. Im vorliegenden Beispiel schreibt man also kurz Sn ∼ B(4, 0.375). Doch wie sieht die Wahrscheinlichkeitsverteilung aus? Abbildung 7.3.2 illustriert beispielhaft die Situation, falls genau 2 schwarze Kugeln gezogen werden. Die Wahrscheinlichkeit P (S4 = 2) l¨asst sich nun mithilfe des Wahrscheinlichkeitskalk¨ uls f¨ ur Zufallsvariablen in Verbindung ¨ mit kombinatorischen Uberlegungen bestimmen. Beispielsweise w¨ urde aus X1 = 1, X2 = 1, X3 = 0, X4 = 0 bzw. (X1 , X2 , X3 , X4 )T = (1, 1, 0, 0), das Ergebnis S4 = 2 folgen. Die Wahrscheinlichkeit f¨ ur genau diesen Fall betr¨agt P (X1 = 1,X2 = 1, X3 = 0, X4 = 0) = P (X1 = 1)P (X2 = 1)P (X3 = 0)P (X4 = 0) = 0.375 · 0.375 · (1 − 0.375) · (1 − 0.375) = 0.3752 · (1 − 0.375)4−2 . Die Zerlegung der gemeinsamen Wahrscheinlichkeit in das Produkt der Einzelwahrscheinlichkeiten erfolgt aufgrund des Multiplikationskriteriums bei Unabh¨angigkeit (Abschnitt 7.1.2). Genauso folgt S4 = 2 aber auch aus den Quartupeln (1, 0, 1, 0), (1, 0, 0, 1), (0, 0, 1, 1), (0, 1, 0, 1) und (0, 1, 1, 0). Folglich gibt es insgesamt 6 verschiedene Ergebnisse f¨ ur (X1 , X2 , X3 , X4 )T , die S4 = 2

7.3 Spezielle eindimensionale Verteilungen

347

implizieren. Die Anzahl m¨ oglicher Ergebnisse ergibt sich dabei aus der Anzahl von M¨ oglichkeiten, 2 aus 4 Positionen f¨ ur das Ergebnis schwarz“ auszuw¨ahlen, d.h. ”   4 = 6. 2 Deshalb gilt:   4 P (S4 = 2) = 0.3752 (1 − 0.375)4−2 = 6 · 0.3752 · (1 − 0.375)2 ≈ 0.3296. 2 Die weiteren Wahrscheinlichkeiten f¨ ur bestimmte Tr¨agerpunkte von S4 bestimmen sich ¨ aufgrund analoger Uberlegungen. So gilt f¨ ur n = 4 und π = 0.375:   4 P (S4 = 0) = 0.3750 (1 − 0.375)4−0 = (1 − 0.375)4 ≈ 0.1526, 0   4 P (S4 = 1) = 0.3751 (1 − 0.375)4−1 = 4 · 0.375 · (1 − 0.375)3 ≈ 0.3662, 1   4 P (S4 = 3) = 0.3753 (1 − 0.375)4−3 = 4 · 0.3753 · (1 − 0.375)1 ≈ 0.1318, 3   4 P (S4 = 4) = 0.3754 (1 − 0.375)4−4 = 0.3754 ≈ 0.0198. 4 Dabei beachte man, dass gilt:     4 4 = = 1. 0 4 • Bernoulli-Verteilung als Spezialfall • Wird lediglich einmal gezogen, ist die Summe der schwarzen Kugeln entweder 1 oder 0. Insofern ist die Bernoulli-Verteilung eine Binomialverteilung mit n = 1. Damit erkl¨ art sich auch die Kurschreibweise B(1,π)“. ” • Binomialverteilung bei unterschiedlichen Parameterwerten • Die Abbildungen 7.3.3 und 7.3.4 zeigen Beispiele f¨ ur unterschiedliche Parameterkonstellationen. Wird der Wert von π unter Konstanz von n variiert, ¨andert sich in der Vorstellung eines Urnenmodells lediglich der Anteil von schwarzen Kugeln. Abbildung 7.3.3 illustriert dies am Beispiel von n = 10. So gilt: Die Binomialverteilung ist f¨ ur (i) π < 0.5 rechtsschief, (ii) π = 0.5 symmetrisch, (iii) π > 0.5 linksschief. Außerdem verlagert sich die Wahrscheinlichkeitsmasse f¨ ur festes n und wachsendes π hin zu gr¨oßeren Werten, da infolge des gestiegenen Anteils schwarzer Kugeln eine h¨ohere Anzahl von schwarzen Kugeln wahrscheinlicher wird. Wird der Wert von n unter Konstanz von π variiert, ¨andert sich lediglich die Zahl gezogener Kugeln (mit Zur¨ ucklegen). Abbildung 7.3.4 illustriert dies am Beispiel von π = 0.1. So gilt: F¨ ur wachsendes n

348

7 Theoretische Verteilungen und Abh¨angigkeiten

(i) verlagert sich die Verteilung hin zu gr¨ oßeren Werten, (ii) werden die Wahrscheinlichkeiten einzelner Werte tendenziell kleiner, (iii) wird die Verteilung zunehmend symmetrisch. Im vorliegenden Beispiel k¨ onnte man in Bezug auf (iii) auch sagen, dass die Rechtsschiefe der Verteilung f¨ ur wachsendes n immer schw¨acher wird. Dieses Ph¨anomen l¨asst sich mithilfe des zentralen Grenzwertsatzes theoretisch erkl¨aren (Abschnitt 7.4.2). Abb. 7.3.3: B(10, π)-Verteilung f¨ ur unterschiedliche Werte von π π = 0.1

f S 10(s ) 0.5 0.4 0.3 0.2 0.1 0.0

0

5

s

π = 0.25

f S 10(s )

10

0.5 0.4 0.3 0.2 0.1 0.0

0

5

0.5 0.4 0.3 0.2 0.1 0.0

10

s

π = 0.5

f S 10(s )

0

5

s

π = 0.8

f S 10(s )

10

0.5 0.4 0.3 0.2 0.1 0.0

0

5

s

10

Abb. 7.3.4: B(n, 0.1)-Verteilung f¨ ur unterschiedliche Werte von n n = 10

f S 10(s ) 0.5 0.4 0.3 0.2 0.1 0.0

0

5

10 15 20

n = 20

f S 20(s ) 0.5 0.4 0.3 0.2 0.1 0.0

0

s

5

n = 30

f S 30(s )

10 15 20

s

0.5 0.4 0.3 0.2 0.1 0.0

0

5

10 15 20

n = 50

f S 50(s ) 0.5 0.4 0.3 0.2 0.1 0.0

s

0

5

10 15 20

s

• Erwartungswert und Varianz • Mit den Rechenregeln f¨ ur Erwartungswerte und Varianzen erh¨alt man n n X  X E(Sn ) = E Xi = E(Xi ) = nπ und i=1

V ar(Sn ) = V ar

n X i=1

i=1



Xi =

n X

V ar(Xi ) = nπ(1 − π).

i=1

Man beachte, dass die Varianz einer Summe von Zufallsvariablen der Summe der einzelnen Varianzen entspricht, falls die Zufallsvariablen unabh¨angig sind (Abschnitt 7.2.1). Binomialverteilung Eine Zufallsvariable Sn heißt binomialverteilt mit Parametern n ∈ N und π ∈ (0, 1),

7.3 Spezielle eindimensionale Verteilungen

349

kurz Sn ∼ B(n, π), wenn gilt:   n s P (Sn = s) = π (1 − π)n−s f¨ ur s = 0, 1, 2, . . . , n. s Die korrespondierende Verteilung heißt Binomialverteilung. Dabei gilt: E(Sn ) = nπ und V ar(Sn ) = nπ(1 − π).

• Anmerkung zur Notation Sn“ • In diesem Lehrbuch notieren wir B(n, π)” verteilte Zufallsvariablen generell mit Sn , um die Interpretierbarkeit der Binomialverteilung als Verteilung einer Summe herauszustellen (vgl. dazu auch Abschnitt 7.4). Selbstverst¨andlich w¨ are auch eine Bezeichnung mit X oder Y korrekt, sofern im jeweiligen Kontext die inhaltliche Zuordnung eindeutig ist und die Summendeutung nicht im Vordergrund steht. • Beispiel 7.3.2 • Angenommen eine Versicherung schließt Versicherungsvertr¨age mit n = 100 Kunden ab. Aus fr¨ uheren Datenbest¨ anden weiß man, dass die Wahrscheinlichkeit f¨ ur einen Versicherungsfall innerhalb eines Jahres pro Kunde bei etwa 0.5% liegt. Mit welcher Wahrscheinlichkeit wird dann im n¨achsten Jahr mindestens ein Versicherungsfall eintreten? Mit welcher Wahrscheinlichkeit werden h¨ochstens zwei Versicherungsf¨alle eintreten? Solche und ¨ ahnliche Fragen lassen sich nun unter Umst¨anden mithilfe einer Binomialverteilung beantworten. Zun¨achst w¨are jedoch zu kl¨ aren, ob eine Modellierung u ¨ber eine Binomialverteilung u ¨berhaupt ad¨aquat erscheint oder nicht. Stellen wir uns dazu eine Urne mit 200 Kugeln vor, wovon eine Kugel schwarz ist. Diese Kugel steht f¨ ur unseren Versicherungsfall. Sie wird mit Wahrscheinlichkeit 0.5% gezogen. Was wir nun weiter annehmen m¨ ussten, w¨ are die Unabh¨angigkeit der Eintritte von Versicherungsf¨allen f¨ ur die einzelnen Versicherungsnehmer. Die Frage w¨ are, ob eine solche Annahme gerechtfertigt erscheint. Denn nur unter dieser Annahme w¨ urde der Eintritt von Versicherungsf¨allen quasi einem 100maligen Ziehen mit Zur¨ ucklegen aus einer solchen Urne entsprechen. Nur dann k¨onnten die einzelnen Versicherungsnehmer durch unabh¨angige B(1, 0.005)-verteilte Zufallsvariablen modelliert werden, deren Summe gerade die Anzahl von Versicherungsf¨allen pro Jahr ergibt. Angenommen, es gehe um Lebensversicherungen. Wenn hier ein Versicherungsnehmer stirbt, sollte dies die Sterbewahrscheinlichkeit eines anderen Versicherungsnehmers nicht ver¨andern. Diese Annahme erscheint weitgehend realit¨atsnah. Modellieren wir dann die Anzahl der Todesf¨ alle S100 mit einer B(100, 0.005)-Verteilung, so erhalten wir   100 P (S100 = 0) = 0.0050 (1 − 0.005)100−0 = 1 · 1 · 0.995100 ≈ 0.6058, 0   100 P (S100 = 1) = 0.0051 (1 − 0.005)100−1 = 100 · 0.005 · 0.99599 ≈ 0.3044, 1   100 P (S100 = 2) = 0.0052 (1 − 0.005)100−2 = 4950 · 0.0052 · 0.99598 ≈ 0.0757. 2

350

7 Theoretische Verteilungen und Abh¨angigkeiten

Die Wahrscheinlichkeit, dass mindestens ein Versicherungsfall eintritt, betr¨agt damit P (S100 > 0) = 1 − P (S100 = 0) ≈ 1 − 0.6058 = 0.3942 und die Wahrscheinlichkeit, dass h¨ ochstens zwei Versicherungsf¨alle eintreten P (S100 ≤ 2) = P (S100 = 0) + P (S100 = 1) + P (S100 = 2) ≈ 0.9859. Geht es dagegen um eine Versicherung f¨ ur Hochwassersch¨aden, so ist stark zu bezweifeln, ob hier Versicherungsf¨ alle als unabh¨angig voneinander angenommen werden k¨onnen. Hochwasserkatastrophen betreffen meist sehr viele Personen gleichzeitig. Die Unabh¨angigkeitsannahme w¨ are in einem solchen Fall nicht realistisch und ein Binomialmodell nicht gerechtfertigt. In diesem Fall w¨ are es unter Umst¨anden praktikabler, das Eintreten einer Hochwasserkatastrophe selbst als stochastisches Ereignis geeignet zu modellieren, um daraus die f¨ ur die Versicherung notwendigen kalkulatorischen Schl¨ usse ziehen zu k¨onnen. Insbesondere die der Binomialverteilung innewohnende Unabh¨angigkeitsannahme ist bei statistischen Modellierungen kritisch zu pr¨ ufen.

Poisson-Verteilung • Modell und Definition • Die Anzahl des Auftretens eines bestimmten Ereignisses in einem fest vorgegebenen Zeitraum kann h¨ aufig als Poisson-verteilt angenommen werden. Die korrespondierende Verteilung heißt Poisson-Verteilung . Es handelt sich dabei um eine diskrete Verteilungsfamilie mit Tr¨agermenge N0 , Parameter λ > 0 (lies: lambda) und Wahrscheinlichkeitsfunktion λx −λ e f¨ ur x = 0, 1, 2, . . . fX (x) = x! Zur konkreten Spezifikation der Verteilung einer Zufallsvariable X wird die Kurzschreibweise X ∼ P o(λ) verwendet. Man beachte hierzu auch Beispiel D1-b aus Abschnitt 7.1.1 mit λ = 3, in dem die Anzahl eingehender Notrufe an einem Rettungswagen-St¨ utzpunkt w¨ahrend einer Stunde betrachtet wird. Die P o(λ)-Verteilung erh¨ alt man als Grenzverteilung der B(n, π)-Verteilung, falls π klein“ ist und n groß“, wobei dann λ = nπ gesetzt werden kann. F¨ ur Werte ” ” π < 0.05 und n ≥ 30 bekommt man bereits eine recht gute Approximation. So w¨are beispielsweise eine B(100, 0.001)-verteilte Zufallsvariable S100 approximativ P o(0.1)-verteilt, d.h. S100

approx



P o(0.1).

N¨ ahere Details hierzu finden sich im nachfolgenden Punkt. Der Zusammenhang zwischen Binomialverteilung und Poisson-Verteilung bietet auch Anhaltspunkte daf¨ ur, ob ein bestimmter Zufallsvorgang durch eine Poisson-Verteilung ad¨aquat modellierbar sein sollte oder nicht. Man beachte hierzu die sp¨ ateren Anwendungsbeispiele.

7.3 Spezielle eindimensionale Verteilungen

351

Weiter besteht ein Zusammenhang zwischen der Poisson-Verteilung und der stetigen Exponentialverteilung (Abschnitt 7.3.2). Mit letzterer lassen sich unter bestimmten Annahmen die Wartezeiten zwischen dem Eintreten bestimmter Ereignisse (des gleichen Typs) modellieren. Erscheinen diese Annahmen in Bezug auf die Wartezeiten realistisch, so ergibt sich f¨ ur die Anzahl von Ereignissen in einem festen Zeitraum implizit eine Poisson-Verteilung.

• Zusammenhang zwischen Binomialverteilung und Poisson-Verteilung • Die folgenden Ausf¨ uhrungen sind skizzenhaft und stellen keinen rigorosen Beweis dar. F¨ ur jedes feste s ∈ N0 und festes λ > 0 k¨onnen folgende Konvergenzresultate nachgewiesen werden: n − s + j n→∞ (7.3.3) −−−−→ 1, falls 1 ≤ j ≤ s, n  λ −s n→∞ 1− −−−−→ 1, (7.3.4) n   n λ n→∞ 1− −−−−→ e−λ . (7.3.5) n In Bezug auf (7.3.5) gilt beispielsweise f¨ ur λ = 1:    1 10 1 100 1 1000 1− ≈ 0.3487, 1 − ≈ 0.3660 und 1 − ≈ 0.3677 10 100 1000 ¨ bis ur n = 1000 ergibt sich also eine Ubereinstimmung und andererseits e−1 ≈ 0.3670. F¨ zur 3. Nachkommastelle. Sei nun S100 eine B(n, π)-verteilte Zufallsvariable. Sofern man nun λ = nπ setzt, gilt:       n s n λ s λ n−s n−s P (Sn = s) = π (1 − π) = 1− s s n n n · (n − 1) · · · · · 2 · 1 λs  λ n  λ −s = · s 1− 1− (n − s)!s! n n n n · (n − 1) · · · · · (n − s + 1) λs  λ n  λ −s = · 1 − 1 − . ns s! n n Aufgrund der Gleichheit n−s+1 n · (n − 1) · · · · · (n − s + 1) n n−1 n−2 · · ··· · = · ns n n n n folgt gem¨aß (7.3.3), dass jeder einzelne Quotient auf der rechten Seite der Gleichung gegen 1 konvergiert. Mit den anderen beiden Resultaten (7.3.4) und (7.3.5) folgt dann schließlich λs −λ n→∞ P (Sn = s) −−−−→ e . s! Man beachte, dass ein konstanter Wert von λ dabei vorausgesetzt wird. Sofern also n gegen Unendlich strebt, muss π gleichzeitig gegen 0 streben damit λ = nπ unver¨andert bleibt. Daraus folgt die Approximationsregel f¨ ur kleines π und großes n“. ”

352

7 Theoretische Verteilungen und Abh¨angigkeiten

Zusammenhang zwischen Binomialverteilung und Poisson-Verteilung Eine B(n, π)-verteite Zufallsvariable Sn ist f¨ ur kleines“ π und großes“ n approxima” ” tiv P o(λ)-verteit mit λ = nπ. Es gilt dann also:   n s λs −λ P (Sn = s) = π (1 − π)n−s ≈ e . s s! Die Approximation ist f¨ ur π < 0.05 und n ≥ 30 hinreichend gut.

• Poisson-Verteilung bei unterschiedlichen Parameterwerten • Abbildung 7.3.5 zeigt Beispiele f¨ ur Wahrscheinlichkeitsfunktionen zu unterschiedlichen Parameterwerten von λ. Die Tr¨ agermenge ist die Menge der nat¨ urlichen Zahlen einschließlich 0. F¨ ur wachsendes λ verlagert sich die Wahrscheinlichkeitsmasse hin zu gr¨oßeren Werten. Die Verteilung wird außerdem zunehmend symmetrisch, was sich mithilfe des zentralen Grenzwertsatzes (Abschnitt 7.4.2) erkl¨ aren l¨ asst. Abb. 7.3.5: P o(λ)-Verteilung f¨ ur unterschiedliche Werte von λ λ = 0.5

f X (x ) 0.6 0.5 0.4 0.3 0.2 0.1 0.0

0

5

10 15 20

λ=3

f X (x ) 0.6 0.5 0.4 0.3 0.2 0.1 0.0

x

0

5

10 15 20

λ=5

f X (x ) 0.6 0.5 0.4 0.3 0.2 0.1 0.0

x

0

5

10 15 20

x

λ = 10

f X (x ) 0.6 0.5 0.4 0.3 0.2 0.1 0.0

0

5

10 15 20

x

• Erwartungswert und Varianz • F¨ ur X ∼ P o(λ) berechnen sich die ersten beiden Momente als ∞ X jλj −λ 2 · λ2 −λ 3 · λ3 −λ E(X) = e = λe−λ + e + e + . . . und j! 2! 3! j=0 E(X 2 ) =

∞ X j 2 λj j=0

j!

e−λ = λe−λ +

22 · λ2 −λ 32 · λ3 −λ e + e + ... 2! 3!

Mit etwas mathematischem Aufwand l¨ asst sich zeigen, dass gilt: E(X) = λ bzw. E(X 2 ) = λ + λ2 . Daraus folgt V ar(X) = E(X 2 ) − (E(X))2 = λ.

7.3 Spezielle eindimensionale Verteilungen

353

Poisson-Verteilung Eine Zufallsvariable X heißt poissonverteilt mit Parameter λ > 0, kurz X ∼ P o(λ), wenn gilt: λx −λ P (X = x) = e f¨ ur x = 0, 1, 2, . . . x! Die korrespondierende Verteilung heißt Poisson-Verteilung . Dabei gilt: E(X) = λ und V ar(X) = λ.

• Beispiel 7.3.3 • Betrachten wir nochmals Beispiel D1-b aus Abschnitt 7.1.1, in dem es um die Anzahl eingehender Notrufe an einem Rettungswagen-St¨ utzpunkt w¨ahrend einer Stunde ging. F¨ ur die Anzahl X wurde dabei eine P o(3)-Verteilung unterstellt, sodass also laut Modell im Durchschnitt theoretisch 3 Notrufe eingehen sollten. Die Wahl von λ = 3 kann, andersherum argumentiert, nat¨ urlich auf empirischen Erfahrungen beruhen, d.h. dass ein auf vielen Stunden beruhender Erfahrungswert bei etwa 3 lag. Weshalb erscheint eine Poisson-Verteilung in einem solchen Kontext jedoch u ¨berhaupt aus theoretischer Sicht gerechtfertigt? Zun¨achst einmal ist die Anzahl eingehender Anrufe nicht nach oben beschr¨ankt (sieht man einmal vom Umstand ab, dass die Anzahl der Erdenbewohner begrenzt ist). In dieser Hinsicht eignet sich schon mal eine Poisson-Verteilung, da ihre Tr¨agermenge alle nat¨ urlichen Zahlen erfasst. Die Anzahl potenzieller Anrufe ist sehr groß“, da f¨ ur ” eine große Zahl von Personen potenziell ein Notfall eintreten kann. Die Wahrscheinlichkeit eines Notfalls sollte f¨ ur jede potenziell in Frage kommende Person gleichzeitig jedoch relativ gering sein. Außerdem erscheint es durchaus realistisch, dass die Notf¨alle f¨ ur einzelne Personen weitgehend unabh¨ angig voneinander eintreten. Ein Autounfall mit einem Schwerverletzten etwa sollte unabh¨ angig von einem Sturz von einer Leiter an einer Baustelle eintreten. Insofern h¨ atten wir, falls wir all diese Annahmen berechtigt treffen k¨onnten, ein verstecktes Binomialmodell. Dabei w¨are n die Anzahl potenzieller Anrufe und π die Wahrscheinlichkeit eines Notfalls. Allerdings kennen wir die konkreten Parameterwerte f¨ ur n und π nicht. Empirisch m¨ usste jedoch feststellbar sein, dass sich die Anzahl von Anrufen n¨ aherungsweise durch eine P o(λ)-Verteilung beschreiben l¨asst. Auch das im Rahmen der Binomialverteilung behandelte Anwendungsbeispiel (Versicherung f¨ ur n = 100 Versicherungsnehmer) k¨onnte man u ¨ber eine Poisson-Verteilung l¨ osen, da hier mit S100 ∼ B(100, 0.005) die Approximationskritieren f¨ ur großes n und ” kleines π“ erf¨ ullt sind. So w¨ are mit nπ = 0.5 die Summe der Versicherungsf¨alle approximativ P o(0.5)-verteilt. Beispielsweise erg¨ abe sich dann (vgl. Abb. 7.3.5) 0.50 −0.5 e ≈ 0.6065, 0! 0.51 −0.5 = 1) ≈ e ≈ 0.3033, 1! 0.52 −0.5 = 2) ≈ e ≈ 0.0758. 2!

P (S100 = 0) ≈ P (S100 P (S100

354

7 Theoretische Verteilungen und Abh¨angigkeiten

Vergleicht man diese approximativen Werte mit den auf Basis der B(100, 0.005)Verteilung ermittelten (exakten) Wahrscheinlichkeiten 0.6058, 0.3044 und 0.0757, ergibt sich f¨ ur diese F¨alle nahezu kein Unterschied. Die Frage der Ad¨ aquatheit einer Modellierung mit der Poisson-Verteilung schließt ¨ wie bei der Binomialverteilung wiederum Uberlegungen in Bezug auf die Unabh¨angigkeit der eintretenden Ereignisse ein.

7.3.2 Spezielle stetige Verteilungen Stetige Gleichverteilung • Modell und Definition • Sind die Realisationen einer Zufallsvariable gleichm¨aßig u ¨ber alle Werte eines Intervalls [a, b] mit a < b verteilt, spricht man von einer stetigen Gleichverteilung oder einer Rechteckverteilung . Jeder gew¨ohnliche Taschenrechner verf¨ ugt in der Regel u ¨ber einen Zufallsgenerator, mit dem sich u ¨ber [0, 1] gleichverteilte Zufallsvariablen erzeugen lassen. Die Dichte einer u ¨ber [a, b] gleichverteilten Gr¨oße X ist gegeben durch 1 fX (x) = I[a,b] (x). b−a Wahlweise kann das Intervall [a, b] auch offen oder halboffen gew¨ahlt werden. Zur konkreten Spezifikation der Verteilung einer Zufallsvariable X verwenden wir die Kurzschreibweise X ∼ G(a, b). Die Familie der stetigen Gleichverteilungen ist eher von theoretischem Interesse und empirisch kaum anzutreffen, wenn man einmal von durch Zufallsgeneratoren erzeugten Zufallszahlen absieht. Im Rahmen einer bedingten Betrachtung kann eine stetig verteilte Gr¨oße in einem bestimmten Intervall jedoch n¨aherungsweise gleichverteilt sein, wie es etwa bei Beispiel S1-a (Abschnitt 7.1.1) abschnittsweise der Fall ist. Weiterhin besitzt die Gleichverteilung eine besondere Bedeutung f¨ ur die Zufallszahlenerzeugung anderer stetiger Verteilungen. Sei X u ¨ber [0, 1] gleichverteilt und Y eine beliebige andere stetige Zufallsvariable mit streng monotoner Verteilungsfunktion FY . Sei FY−1 die Umkehrfunktion von FY . Dann gilt: Y ∼ FY−1 (X). Die mit der Umkehrfunktion transformierte Gr¨ oße X besitzt dann theoretisch die gleiche Verteilung wie Y . Man beachte hierzu das sp¨ atere Anwendungsbeispiel. • Stetige Gleichverteilung bei unterschiedlichen Parameterwerten • Abbildung 7.3.6 zeigt Beispiele von Gleichverteilungen f¨ ur unterschiedliche Parameterwerte von a und b.

7.3 Spezielle eindimensionale Verteilungen

355

Abb. 7.3.6: G(a, b)-Verteilung f¨ ur unterschiedliche Intervalle [a, b] G (0, 1)

f X (x ) 2.5

2.5

2.0

2.5 2.0

1.5

1.0

1.5

1.0

0.5

1.0

0.5 0

1

2

x

0.0

G (0.9, 1.4)

f X (x )

2.0

1.5

0.0

G (0, 2)

f X (x )

0.5 0

1

x

0.0

2

0

1

x

2

• Erwartungswert und Varianz • F¨ ur X ∼ G(a, b) berechnen sich die ersten beiden Momente als Z b Z ∞ 1 x I[a,b] (x)dx = xdx E(X) = b−a a −∞ b − a b b2 − a2 (b + a)(b − a) 1  0.5x2 a = = = 0.5(a + b) = b−a 2(b − a) 2(b − a) und E(X 2 ) =

Z



−∞

1 x2 I[a,b] (x)dx = b−a b−a

Z

b

x2 dx =

a

1 h 1 3 ib x b−a 3 a

(a + b)2 − ab b3 − a3 = ··· = . = 3(b − a) 3 Daraus folgt V ar(X) = E(X 2 ) − (E(X))2 =

(b − a)2 . 12

Stetige Gleichverteilung F¨ ur a < b heißt eine Zufallsvariable X auf [a, b] stetig gleichverteilt, kurz X ∼ G(a, b), wenn sie die Dichte 1 fX (x) = I[a,b] (x) b−a besitzt. Die korrespondierende Verteilung heißt stetige Gleichverteilung oder Rechteckverteilung. Dabei gilt: E(X) =

a+b (b − a)2 und V ar(X) = . 2 12

• Verteilungsfunktion • F¨ ur die Verteilungsfunktion FX einer G(a, b)-verteilten Zufallsvariable X gilt zun¨ achst einmal FX (x) = 0 f¨ ur x ≤ a und FX (x) = 1 f¨ ur x ≥ b.

356

7 Theoretische Verteilungen und Abh¨angigkeiten

F¨ ur x ∈ (a, b) folgt dann Z x Z FX (x) = fX (t)dt = −∞

x

a

h t ix 1 x−a = dt = . b−a b−a a b−a

Die Verteilungsfunktion ist u ¨ber dem Intervall [a, b] linear, wobei die 1. Ableitung an jeder Stelle x ∈ (a, b) gerade dem Dichtewert u ¨ber dem Intervall [a, b] entspricht. Abbildung 7.3.7 zeigt die Verteilungsfunktionen der Dichten von Abbildung 7.3.6. Abb. 7.3.7: Verteilungsfunktionen stetiger Gleichverteilungen G (0, 1)

F X (x )

G (0, 2)

F X (x ) 1.0

1.0

0.6

0.6

0.6

0.8

0.8

0.4 0.0

0.8

0.4

0.2

0.4

0.2 0

1

x

2

0.0

G (0.9, 1.4)

F X (x )

1.0

0.2 0

1

x

2

0.0

0

1

x

2

• Beispiel 7.3.4 • Wir m¨ ochten die Idee der Zufallszahlenerzeugung anhand von Beispiel S1-b aus Abschnitt 7.1.1 erl¨ autern. In diesem Beispiel ging es um eine stetige Zufallsvariable Y mit Dichte fY (y) = 0.05e−0.05y I[0,∞) (y) und Verteilungsfunktion (zur Herleitung siehe Abschnitt 7.1.1) FY (y) = (1 − e−0.05y )I[0,∞) (y). Es handelt sich dabei um eine Exponentialverteilung mit Parameterwert 0.05 (n¨ achster Abschnitt). Die Umkehrfunktion von FY wurde in Abschnitt 7.2.1 im Zusammenhang mit den theoretischen Quantilen hergeleitet. Sie lautet: FY−1 (x) = −20 ln(1 − x) f¨ ur x ∈ [0, 1). F¨ ur eine u oße X gilt nun, dass die transformierte Gr¨oße ¨ber [0, 1] gleichverteilte Gr¨ −20 ln(1 − X) identisch wie Y verteilt ist mit Dichte fY . Abbildung 7.3.8 illustriert diesen Vorgang. Man beachte, dass aufgrund der Stetigkeit der Verteilung formal gilt: P (X = 1) = 0, sodass x = 1 ohne Probleme auch ausgeschlossen werden kann. Im rechten Schaubild wird die Dichte von Y angedeutet. Sie entspricht der mit 20 multiplizierten Dichtefunktion aus Abbildung 7.1.3.

Exponentialverteilung • Modell und Definition • Zur Modellierung von Wartezeiten und Lebensdauern, wird h¨aufig die Exponentialverteilung verwendet, die passenderweise u ¨ber die Tr¨agermenge R+ = [ 0, ∞) verf¨ ugt. Es handelt sich dabei um eine stetige Verteilungsfamilie mit Parameter λ > 0 und Dichtefunktion fX (x) = λe−λx I[0,∞) (x).

7.3 Spezielle eindimensionale Verteilungen

357

Abb. 7.3.8: Zufallszahlenerzeugung illustriert am Beispiel S1-b F Y (y )

f X (x )

X ~ G (0, 1)

1.5

Idealtypische Verteilung von Zufallszahlen

1.0

Y ~ Exp (0.05)

1.0 0.8 0.6

Umskalierte Dichte

0.4

0.5

0.2

0.0

0.0 0.0

0.2

0.4

0.6

0.8

1.0

−10 0

10

x

20

30

40

50

60

70

80

y

Zur konkreten Spezifikation der Verteilung einer Zufallsvariable X wird die Kurzschreibweise X ∼ Exp(λ) verwendet. Man beachte hierzu auch Beispiel S1-b aus Abschnitt 7.1.1 mit λ = 0.05, in dem die Wartezeit in Minuten bis zum n¨ achsten eingehenden Notruf an einem Rettungswagenst¨ utzpunkt betrachtet wird. Es besteht ein enger Zusammenhang zwischen Poisson-Verteilung und Exponentialverteilung, der auch Anhaltspunkte daf¨ ur liefert, ob ein bestimmter Zufallsvorgang durch eine Exponentialverteilung ad¨ aquat modellierbar ist oder nicht. N¨ahere Details hierzu finden sich im nachfolgenden Punkt. Doch nicht f¨ ur jede Warte- oder Lebenszeit eignet sich eine Exponentialverteilung. Insbesondere muss auch die mit der Exponentialverteilung verkn¨ upfte Eigenschaft der Ged¨ achtnislosigkeit ad¨ aquat erscheinen (siehe sp¨aterer Punkt). • Zusammenhang zwischen Poisson-Verteilung und Exponentialverteilung • Die folgenden Ausf¨ uhrungen sind skizzenhaft und stellen keinen rigorosen Beweis dar. In Beispiel D1-b ging es um die Anzahl eingehender Notrufe w¨ahrend einer Stunde. Diese Anzahl X wurde durch eine P o(3)-Verteilung modelliert, wobei der Wert 3 dem theoretischen Durchschnittswert, spricht dem Erwartungswert von X, entspricht. Sofern nun ein Anruf erfolgt (das entsprechende Ereignis eintritt), erfolgt gem¨aß der P o(3)Verteilung innerhalb der darauf folgenden 60 Minuten mit Wahrscheinlichkeit 30 −3 e = e−3 ≈ 0.0498 0! kein weiterer Anruf und mit Wahrscheinlichkeit 1 − e−3 ≈ 0.9502 erfolgt mindestens ein weiterer Anruf. Sofern pro Stunde im Durchschnitt 3 Anrufe eingehen, so gehen in 2 Stunden im Schnitt 6 Anrufe, in einer halben Stunde im Schnitt 1.5 Anrufe, in 10 Minuten im Schnitt 0.5 Anrufe ein usw. Allgemein erfolgen in einem Zeitabschnitt der L¨ange z ≥ 0 (in Stunden gerechnet) im Schnitt also 3z Anrufe. Sei nun Z eine stetige Zufallsvariable, welche die Wartezeit in Stunden angibt, die bis zum n¨achsten Anruf gewartet werden muss, sofern gerade ein Anruf erfolgt ist. Sei weiter FZ die Verteilungsfunktion von Z. Dann folgt f¨ ur z > 0: P (X = 0) =

FZ (z) = P (Z ≤ z) = 1 − P (Z > z) = 1 − e−3z

(7.3.6)

358

7 Theoretische Verteilungen und Abh¨angigkeiten

und dar¨ uber dann f¨ ur z > 0: fZ (z) = FZ0 (z) = 3e−3z . Die Dichte von Z lautet somit insgesamt fZ (z) = 3e−3z I[0,∞) (z). Dies ist aber gerade die Dichte einer Exp(3)-Verteilung. Rechnen wir mit der Wartezeit in Minuten statt in Stunden und bezeichnen diese mit Y , erhalten wir f¨ ur einen Zeitabschnitt der L¨ange y ≥ 0 (in Minuten) u ¨ber Gleichung (7.3.6): FY (y) = P (Y ≤ y) = P (60Z ≤ y) = P (Z ≤ y/60) = 1 − e−3y/60 = 1 − e−0.05y . Daraus folgt dann f¨ ur die Dichte von Y : fY (y) = 0.05e−0.05y I[0,∞) (y). Dies ist gerade die Dichte aus Beispiel S1-b. Die Beispiele D1-b und S1-b sind insofern aufeinander abgestimmt. Die Verallgemeinerung der obigen Ausf¨ uhrungen liegt auf der Hand und l¨asst sich folgendermaßen zusammenfassen. Zusammenhang zwischen Poisson-Verteilung und Exponentialverteilung Sei X die Anzahl des Auftretens eines bestimmten Ereignisses in einem bestimmten Zeitfenster, dessen L¨ ange in einer bestimmten Einheit gemessen wird. Ist X P o(λ)verteilt, so ist die in der gleichen Einheit gemessene Wartezeit zwischen aufeinanderfolgenden Ereignissen Exp(λ)-verteilt. • Eigenschaft der Ged¨ achtnislosigkeit • Eine der Exponentialverteilung innewohnende Eigenschaft ist die der sog. Ged¨ achtnislosigkeit. Dabei gilt, dass f¨ ur jeden Zeitpunkt t eine noch verbleibende Wartezeit (bis zum n¨achsten Eintritt eines bestimmten Ereignisses) oder Lebensdauer (bis zum Verfall eines Objekts) nicht von der bereits bis t verstrichenen Wartezeit bzw. Lebensdauer abh¨angt. Formal ausgedr¨ uckt heißt das P (X ≤ t + s|X > t) = P (X ≤ s) f¨ ur alle t, s ∈ [0, ∞),

(7.3.7)

wobei X eine Exp(λ)-verteilte Warte- oder Lebenszeit ist. Angenommen eine als exponentialverteilt angenommene Wartezeit betr¨ agt beispielsweise bereits 2 Minuten. Dann ist die Wahrscheinlichkeit f¨ ur eine weitere Minute Wartezeit gleich der Wahrscheinlichkeit f¨ ur h¨ochstens 1 Minute, wenn noch keine Zeit verstrichen ist, d.h. P (X ≤ 2 + 1|X > 2) = P (X ≤ 1). Das ist aber auch der Fall, falls bereits 3 Minuten oder 27.5 Minuten Wartezeit verstrichen sind. Es gilt: P (X ≤ 3 + 1|X > 3) = P (X ≤ 27.5 + 1|X > 27.5) = P (X ≤ 1). Unter Verwendung der Verteilungsfunktion (7.3.9) einer Exp(λ)-verteilten Zufallsvariable X (zur Herleitung siehe sp¨ aterer Punkt), die gegeben ist durch FX (x) = (1 − e−λx )I[0,∞) (x),

7.3 Spezielle eindimensionale Verteilungen

359

l¨ asst sich die G¨ ultigkeit der Gleichung (7.3.7) recht einfach nachweisen. Denn es gilt: P (t < X ≤ t + s) P (X ≤ t + s) − P (X ≤ t) P (X ≤ t + s|X > t) = = P (X > t) 1 − P (X ≤ t) 1 − e−λ(t+s) − (1 − e−λt ) −e−λt e−λs + e−λt = −λt 1 − (1 − e ) e−λt −e−λt (1 − e−λs ) = = 1 − e−λs = FX (s). e−λt Zur 2. Gleichung beachte man, dass allgemein gilt: =

P (t < X ≤ t + s) = P (X ≤ t + s) − P (X ≤ t). Die Eigenschaft der Ged¨ achtnislosigkeit liefert ebenfalls Anhaltspunkte dar¨ uber, ob eine Modellierung mit einer Exponentialverteilung u ¨berhaupt in Frage kommt oder nicht. Man beachte hierzu auch die nachfolgenden Anwendungsbeispiele.

• Exponentialverteilung bei unterschiedlichen Parameterwerten • Abbildung 7.3.9 zeigt im linken Schaubild Dichten f¨ ur unterschiedliche Parameterwerte von λ. Die Tr¨agermenge ist stets R+ = [0, ∞). Die Verteilung ist generell rechtsschief. Die St¨arke der Rechtsschiefe nimmt f¨ ur wachsendes λ zu, da die Wahrscheinlichkeitsmasse zunehmend ungleichm¨aßiger verteilt ist. Das rechte Schaubild zeigt die korrespondierenden Verteilungsfunktionen (zur Herleitung siehe sp¨ aterer Punkt). Abb. 7.3.9: Exp(λ)-Verteilung f¨ ur unterschiedliche Werte von λ f X (x )

F X (x )

2.0

1.0

λ = 0.5 λ = 1.0 λ = 2.0

1.5 1.0

0.8 0.6 0.4

0.5

0.2

0.0

0.0 0

1

2

3

4

5

6

0

1

2

3

4

5

6

x

x

• Erwartungswert und Varianz • F¨ ur X ∼ Exp(λ) berechnet sich der Erwartungswert als Z ∞ Z ∞ E(X) = xfX (x)dx = λ x e−λx dx. −∞

0

Mit einigem mathematischen Aufwand l¨ asst sich zeigen, dass die Stammfunktion des Integranden gegeben ist durch e−λx (−λx − 1). λ2

(7.3.8)

360

7 Theoretische Verteilungen und Abh¨angigkeiten

Alternativ bietet sich auch die Technik des sog. partiellen Integrierens an, was hier jedoch nicht weiter vertieft werden soll. Mit (7.3.8) folgt weiter h e−λx 1 i∞  1 E(X) = λ = 0 − λ (−λx − 1) (0 − 1) = . λ2 λ2 λ 0 Man beachte, dass der Ausdruck (7.3.8) als Funktion in x durch die e-Funktion do” miniert“ wird. Deshalb strebt (7.3.8) f¨ ur x → ∞ trotz −λx → −∞ gegen 0. Formal setzt man (7.3.8) f¨ ur x = ∞ deshalb gleich 0. Auf ¨ahnliche Weise l¨asst sich mit etwas Aufwand (doppeltes partielles Integrieren) zeigen, dass gilt: Z ∞ Z ∞ 2 E(X 2 ) = x2 fX (x)dx = λ x2 λe−λx dx = 2 . λ −∞ 0 Daraus folgt dann V ar(X) = E(X 2 ) − (E(X))2 =

1 . λ2

Exponentialverteilung Eine stetige Zufallsvariable X heißt exponentialverteilt mit Parameter λ > 0, kurz X ∼ Exp(λ), wenn sie die Dichte fX (x) = λe−λx I[0,∞) (x) besitzt. Die korrespondierende Verteilung heißt Exponentialverteilung. Dabei gilt: 1 1 E(X) = und V ar(X) = 2 . λ λ

• Verteilungsfunktion • F¨ ur die Verteilungsfunktion FX einer Exp(λ)-verteilten Zufallsvariable X gilt zun¨ achst einmal FX (x) = 0 f¨ ur x ≤ 0. F¨ ur x > 0 folgt dann Z x Z x   x FX (x) = fX (t)dt = λe−λt dt = −e−λt 0 = 1 − e−λx . −∞

0

Insgesamt erhalten wir somit FX (x) = (1 − e−λx )I[0,∞) (x).

(7.3.9)

• Beispiel 7.3.5 • Betrachten wir nochmals Beispiel S1-b aus Abschnitt 7.1.1, in dem es um die Wartezeit zwischen aufeinanderfolgenden Notrufen ging. Die betreffende Wartezeit wurde als Exp(3)- bzw. Exp(0.05)-verteilt angenommen, je nachdem ¨ ob diese in Stunden oder in Minuten gemessen wird. Uber den Zusammenhang zwischen Poisson-Verteilung und Exponentialverteilung (siehe oben) korrespondiert das Beispiel direkt mit Beispiel D1-b, in dem es um die Anzahl eingehender Notrufe an einem Rettungswagen-St¨ utzpunkt w¨ ahrend einer Stunde ging. Diese wurde als P o(3)verteilt angenommen. Insofern erscheint eine Modellierung der Wartezeit (in Stunden) zwischen zwei Notrufen mit einer Exponentialverteilung dann ad¨aquat, falls eine Modellierung der Anzahl w¨ ahrend einer Stunde mit einer Poisson-Verteilung ad¨aquat erscheint. Außerdem kann zus¨ atzlich die Eigenschaft der Ged¨achtnislosigkeit separat auf

7.3 Spezielle eindimensionale Verteilungen

361

Plausibilit¨at gepr¨ uft werden. W¨ are es beispielsweise so, dass tags¨ uber deutlich mehr Notrufe eingehen als nachts, so w¨ are diese Eigenschaft nicht uneingeschr¨ankt g¨ ultig. So ¨ w¨ urde beispielsweise in der Ubergangszeit von Nacht zu Tag, die Wahrscheinlichkeit zunehmen, dass in n¨ achster Zeit“ ein Notruf eintritt, wenn bereits eine bestimmte Zeit ” ¨ gewartet wurde. Beim Ubergang von Tag zu Nacht w¨are es umgekehrt. Angenommen eine U-Bahnlinie verkehre im 20-Minuten-Takt. Man komme ohne Kenntnis des Fahrplans zuf¨ allig an den Bahnsteig. Dann k¨onnte man (in einem subjektiven Sinne) die anstehende Wartezeit als auf dem Intervall [0, 20] stetig gleichverteilt annehmen. In diesem Fall w¨ urde aber die Wahrscheinlichkeit stetig zunehmen, dass die U-Bahn in den n¨achsten 5 Minuten eintrifft, je l¨anger man bereits warten w¨ urde. Nach 10 Minuten w¨ urde diese genau 50% betragen, da P (10 < X ≤ 15) 0.25 P (X ≤ 15|X > 10) = = = 0.5. 1 − P (X ≤ 10) 1 − 0.5 Nach 15 Minuten w¨ urde die U-Bahn mit Sicherheit (100%) in den n¨achsten 5 Minuten eintreffen – zumindest theoretisch. Generell ist die Exponentialverteilung mit allen periodisch oder n¨aherungsweise periodisch auftretenden Ereignissen unvereinbar. Insbesondere die der Exponentialverteilung innewohnende Eigenschaft der Ged¨achtnislosigkeit ist bei statistischen Modellierungen kritisch zu pr¨ ufen.

Normalverteilung • Modell und Definition • Die Normalverteilung ist die in Wahrscheinlichkeitstheorie und Statistik mit Abstand bedeutendste Verteilung. Es handelt sich dabei um eine stetige Verteilung mit Dichtefunktion  1 (x − µ)2  1 fX (x) = √ (7.3.10) exp − 2 σ2 2πσ 2 welche die Gestalt einer unimodalen Glockenkurve“ besitzt (vgl. Abb. 7.3.10 und ” 7.3.11). Alles innerhalb der Klammern von exp( )“ in (7.3.10) bildet den Exponen” ten zur Basis e (Euler’sche Zahl). Mit π“ ist die Kreiszahl 3.1416 gemeint. Weiter ” 2 spezifizieren die beiden Parameter µ und σ die konkrete Gestalt der Verteilung. F¨ ur eine normalverteilte Zufallsvariable X schreibt man auch kurz X ∼ N (µ, σ 2 ). Es handelt sich also um eine zweiparametrige Verteilungsfamilie. Wie anhand der Notation zu vermuten, gilt: E(X) = µ und V ar(X) = σ 2 f¨ ur µ ∈ R und σ 2 > 0. Die Tr¨agermenge ist ganz R, da die Dichtefunktion u ¨berall strikt positiv ist. Die Dichte ist symmetrisch um den Erwartungswert und besitzt an dessen Stelle ihren theoretischen Modalwert (Maximalwert). Speziell die N (0, 1)-Verteilung wird auch als Standardnormalverteilung bezeichnet. Die korrespondierende Dichte wird eigens h¨aufig

362

7 Theoretische Verteilungen und Abh¨angigkeiten

mit dem griechischen Kleinbuchstaben ϕ (lies: Klein-Phi ) notiert, d.h.  1  1 ϕ(x) = √ exp − x2 . (7.3.11) 2 2π Die Normalverteilung besitzt eine wichtige theoretische Fundierung durch den zentralen Grenzwertsatz (Abschnitt 7.4.2), der grob formuliert besagt, dass Summen und Mittelwerte von Zufallsvariablen f¨ ur großes n unter bestimmten Bedingungen approximativ normalverteilt sind. In der Natur ist die Normalverteilung immer dann empirisch beobachtbar, wenn viele einzelne Einflussgr¨oßen, von denen keine dominiert, eine bestimmte Zielvariable bestimmen. W¨ urde man beispielsweise mehrere Exemplare einer Pflanze unter weitgehend identischen Bedingungen anpflanzen und nach einer bestimmten Zeit die Wuchsh¨ ohen messen, w¨ aren diese n¨aherungsweise normalverteilt. W¨ urde man dieselbe Pflanze dagegen unter zwei v¨ollig unterschiedlichen Anbaumethoden anpflanzen, erg¨ abe sich aller Voraussicht nach eine von einer Normalverteilung stark abweichende bimodale Verteilung. • Normalverteilung bei unterschiedlichen Parameterwerten • Abbildung 7.3.10 zeigt im linken Schaubild Dichten der Normalverteilung f¨ ur unterschiedliche Parameterwerte von µ. Das rechte Schaubild zeigt die korrespondierenden Verteilungsfunktionen (siehe sp¨aterer Punkt). Abbildung 7.3.11 zeigt Dichten bzw. Verteilungsfunktionen f¨ ur unterschiedliche Parameterwerte von σ 2 . Mit zunehmender Varianz verteilt sich die Wahrscheinlichkeitsmasse zunehmend gleichm¨aßiger auf die Tr¨agermenge und ist weniger um den Erwartungswert herum konzentriert. Abb. 7.3.10: N (µ, 1)-Verteilung f¨ ur unterschiedliche Werte von µ f X (x ) 0.5

µ = −1

0.4

F X (x )

µ=0

1.0

µ=2

0.8

0.3

0.6

0.2

0.4

0.1

0.2

0.0

0.0 −4

−3

−2

−1

0

x

1

2

3

4

−4

−3

−2

−1

0

1

2

3

4

x

• Erwartungswert und Varianz • F¨ ur X ∼ N (µ, σ 2 ) w¨ urde man den Erwartungswert formal berechnen u ¨ber Z ∞  1 (x − µ)2  1 E(X) = x· √ exp − dx, 2 σ2 2πσ 2 −∞ was jedoch nicht mehr analytisch per Hand“ berechenbar ist. Eine M¨oglichkeit besteht ” darin, die momenterzeugende Funktion von X zu verwenden (vgl. Abschnitt 7.2.3), was hier jedoch nicht weiter vertieft werden soll. Wegen der Symmetrie um µ ist jedoch relativ klar, dass µ dem Erwartungswert entspricht. Letztlich wird dadurch nat¨ urlich auch nur gerechtfertigt, diesen Parameter entsprechend mit µ zu bezeichnen. Mit etwas

7.3 Spezielle eindimensionale Verteilungen

363

Abb. 7.3.11: N (0, σ 2 )-Verteilung f¨ ur unterschiedliche Werte von σ 2 f X (x )

σ2 = 0.5 σ2 = 1.0 σ2 = 2.0

1.0 0.8 0.6

F X (x ) 1.0 0.8 0.6

0.4

0.4

0.2

0.2

0.0

0.0 −4

−3

−2

−1

0

1

2

3

4

x

−4

−3

−2

−1

0

1

2

3

4

x

mathematischem Aufwand (beispielsweise wiederum unter Verwendung der momenterzeugenden Funktion) kann gezeigt werden, dass σ 2 der Varianz entspricht, womit auch die notationelle Regelung f¨ ur diesen zweiten Parameter legitim erscheint. • Lineartransformationen bei Normalverteilung • Falls X ∼ N (µ, σ 2 )-verteilt ist, so ist die linear transformierte Variable Z = a+bX mit b 6= 0 ebenfalls normalverteilt mit E(Z) = a + bµ und V ar(Z) = b2 σ 2 . Hierbei sei bemerkt, dass die Resultate f¨ ur Erwartungswert und Varianz bereits aus den Transformationseigenschaften f¨ ur Erwartungswerte und Varianzen folgen (Abschnitt 7.2.3). Das Neue an diesem Resultat ist, dass Z ebenfalls normalverteilt ist. Um dies zu zeigen, verwenden wir die gleiche Technik, die wir bereits in Abschnitt 7.1.3 verwendet haben und setzen an der Verteilungsfunktion FZ von Z an. Demnach gilt: FZ (z) = P (Z ≤ z) = P (a + bX ≤ z). Bezeichnet man die Verteilungsfunktion von X mit FX erh¨alt man entsprechend dem Vorzeichen von b  z − a z − a FZ (z) = P (a + bX ≤ z) = P X ≤ = FX (7.3.12) b b f¨ ur b > 0 und  z − a z − a FZ (z) = P (a + bX ≤ z) = P X ≥ = 1 − FX (7.3.13) b b f¨ ur b < 0. Die Dichten von Z und X, die wir mit fZ bzw. fX notieren, ergeben sich aus ¨ den 1. Ableitungen von FZ bzw. FX . Uber gew¨ohnliche Regeln der Differentialrechnung (Kettenregel) erh¨alt man deshalb aus (7.3.12) und (7.3.13) z − a  1 [ z−a − µ]2  1 1 1 b fZ (z) = FZ0 (z) = fX =√ √ exp − |b| b 2 σ2 b2 2πσ 2  2 1 [z − (a + bµ)] 1 exp − =√ . 2 2 2 b2 σ 2 2πb σ Der letzte Ausdruck ist gem¨ aß (7.3.10) aber gerade als Dichtefunktion einer Normalverteilung mit Erwartungswert a + bµ und Varianz b2 σ 2 interpretierbar.

364

7 Theoretische Verteilungen und Abh¨angigkeiten

Satz 7.3.1: Lineartransformation bei Normalverteilung Falls X ∼ N (µ, σ 2 )-verteilt ist, so gilt f¨ ur b 6= 0: Z = a + bX ∼ N (a + bµ, b2 σ 2 ).

• Standardisierung bei Normalverteilung • Wie wir bereits aus der Diskussion wichtiger Transformationseigenschaften aus Abschnitt 7.2.3 wissen, ist jede Standardisierung eine spezielle Lineartransformation und jede standardisierte Zufallsvariable besitzt Erwartungswert 0 und Varianz 1. Dies wird aus der Umformung X −µ µ 1 Z= =− + X σ σ σ ersichtlich. F¨ ur µ 1 a = − und b = σ σ folgt nun aus dem Resultat von Satz 7.3.1, dass jede standardisierte normalverteilte Zufallsvariable N (0, 1)-verteilt ist. Standardisierung bei Normalverteilung Ist X ∼ N (µ, σ 2 )-verteilt ist, so ist die standardisierte Gr¨oße X −µ Z= σ standardnormalverteilt, d.h. N (0, 1)-verteilt. • Verteilungsfunktion • Die Verteilungsfunktion FX einer N (µ, σ 2 )-verteilten Zufallsvariable X mit Dichte fX ist streng monoton und ergibt sich formal aus Z x Z x  1 (t − µ)2  1 √ FX (x) = fX (t)dt = exp − dt. (7.3.14) 2 σ2 2πσ 2 −∞ −∞ Die Verteilungsfunktion der Standardnormalverteilung wird eigens h¨aufig mit dem griechischen Großbuchstaben Φ (lies: Groß-Phi ) notiert. F¨ ur X ∼ N (0, 1) gilt demnach: Z x   1 1 √ exp − t2 dt. (7.3.15) Φ(x) = 2 2π −∞ Die Ausdr¨ ucke (7.3.14) und (7.3.15) lassen sich nicht einfacher analytisch darstellen. Die Integration u ¨ber die Dichte einer Normalverteilung erfolgt deshalb numerisch, weshalb letztlich auch nur auf Vertafelungen der Verteilungsfunktion zur¨ uckgegriffen werden kann. Es gen¨ ugt jedoch eine Vertafelung nur f¨ ur die Standardnormalverteilung, wie sie beispielsweise Tabelle A.1 im Anhang zeigt. Denn mithilfe der vorhergehenden Eigenschaften der Normalverteilung bei Lineartransformationen bzw. Standardisierungen l¨ asst sich aus Φ die Verteilungsfunktion f¨ ur jede beliebige N (µ, σ 2 )-verteilten Zufallsvariable X herleiten. Es gilt n¨ amlich: X − µ x − µ P (X ≤ x) = P ≤ . (7.3.16) σ σ

7.3 Spezielle eindimensionale Verteilungen

365

Da die standardisierte Gr¨ oße auf der linken Seite der Ungleichung in (7.3.16) standardnormalverteilt ist, folgt aus (7.3.16) mit der Definition f¨ ur Verteilungsfunktionen direkt x − µ FX (x) = Φ . (7.3.17) σ Die Verteilungsfunktion von X an der Stelle x ist gleich der Verteilungsfunktion der Standardnormalverteilung an der Stelle (x − µ)/σ. Diese Eigenschaft wird allgemein zur h¨andischen Bestimmung“ aller Intervallwahrscheinlichkeiten bei Normalverteilungen ” ausgenutzt (siehe dazu die sp¨ ateren Rechenbeispiele). • Theoretische Quantile • Auch bei der Bestimmung der theoretischen Quantile gen¨ ugt die Vertafelung der Standardnormalverteilung. Betrachten wir dazu eine N (µ, σ 2 )-verteilte Zufallsvariable X. Dann gilt f¨ ur das theoretische α-Quantil, notiert mit qα , gem¨aß Definition: P (X ≤ qα ) = α.

(7.3.18)

Formt man die Ungleichung innerhalb von (7.3.18) gem¨aß einer Standardisierung a¨quivalent um, erh¨alt man X − µ qα − µ  ≤ = α. (7.3.19) P σ σ Da der Ausdruck auf der linken Seite der Ungleichung von (7.3.19) standardnormalverteilt ist, folgt mit der Definition f¨ ur Verteilungsfunktionen q − µ α Φ = α. (7.3.20) σ Mit der Definition der theoretischen Quantile folgt daraus wiederum, dass qα − µ σ gerade dem α-Quantil der N (0, 1)-Verteilung entspricht. Notiert man dieses mit zα , erh¨alt man qα − µ zα = . (7.3.21) σ Durch Standardisierung der Quantile einer (beliebigen) Normalverteilung erh¨alt man die entsprechenden Quantile der Standardnormalverteilung. Umgeformt erh¨alt man daraus dann qα = µ + σ · zα .

(7.3.22)

Mithilfe von Gleichung (7.3.22) lassen sich aus der Vertafelung der Standardnormalverteilung Quantile f¨ ur jede andere Normalverteilung ermitteln (siehe sp¨atere Rechenbeispiele). • Zusammenfassung f¨ ur die Normalverteilung • Fassen wir die wichtigsten Ergebnisse f¨ ur die Normalverteilung nun zusammen.

366

7 Theoretische Verteilungen und Abh¨angigkeiten

Zusammenfassung f¨ ur die Normalverteilung Eine stetige Zufallsvariable X heißt normalverteilt mit Erwartungswert µ und Varianz σ 2 > 0, kurz X ∼ N (µ, σ  ), wenn sie die Dichte  1 (x − µ)2  1 exp − fX (x) = √ 2 σ2 2πσ 2 besitzt. Speziell heißt die N (0, 1)-Verteilung auch Standardnormalverteilung. Mit ϕ bezeichnen wir die Dichte der Standardnormalverteilung. F¨ ur die Verteilungsfunktion FX einer N (µ, σ 2 )-verteilten Zufallsvariable X gilt: x − µ FX (x) = Φ . σ wobei Φ die Verteilungsfunktion der N (0, 1)-Verteilung bezeichnet, deren Werte aus Verteilungstafeln (vgl. A.1) abgelesen werden k¨onnen. Außerdem gilt: qα = µ + σ · zα , wobei qα das theoretische α-Quantil einer N (µ, σ 2 )-Verteilung und zα das theoretische α-Quantil der N (0, 1)-Verteilung bezeichnet.

• Vertafelung der Standardnormalverteilung • Tabelle A.1 im Anhang zeigt eine Vertafelung der Verteilungsfunktion der Standardnormalverteilung. Viele statistische Methoden setzen einen sachgerechten Umgang mit einer solchen Tabelle voraus, insbesondere falls bestimmte Berechnungen nicht ausschließlich softwaregest¨ utzt durch¨ gef¨ uhrt werden sollen (z.B. in Statistik-Ubungen und Statistik-Klausuren). Abb. 7.3.12: Dichte, Verteilungsfunktion und Quantile der Standardnormalverteilung φ(x )

Φ(x )

0.5

1−α

0.4

1.0 0.8

0.3

0.6

0.2

0.4

0.1

α

0.0 −4

−3

−2

α −1

0

z α = − z 1−α

1

z 1−α

α 2

3

4

x

nicht vertafelt

vertafelt

0.2 0.0 −4

−3

−2

−1



0

1

z 1−α

2

3

4

x

F¨ ur die Dichte ϕ(x) gilt aufgrund der Symmetrie um den Wert 0: ϕ(−x) = ϕ(x) f¨ ur jedes x ∈ R. Aus diesem Grund folgt f¨ ur die Verteilungsfunktion Φ(−x) = 1 − Φ(x).

(7.3.23)

7.3 Spezielle eindimensionale Verteilungen

367

Eine Vertafelung f¨ ur lediglich positive Werte reicht wegen der Beziehung (7.3.23) somit aus. F¨ ur die theoretischen Quantile, die mit zα notiert werden, folgt aufgrund der Symmetrieeigenschaft außerdem: zα = −z1−α f¨ ur α ∈ (0, 0.5).

(7.3.24)

• Zur Lesart der Tabelle • In Tabelle A.1 sind die x-Werte in der ersten Spalte der Tabelle (fett) bis zur ersten Nachkommastelle aufgef¨ uhrt. In der ersten Zeile der Tabelle (fett) wird dann die zweite Nachkommastelle abgelesen. Beispielsweise ist der Wert der Verteilungsfunktion an der Stelle 1.75 gleich 0.9599, d.h. Φ(1.75) ≈ 0.9599. F¨ ur eine N (0, 1)-verteilte Zufallsvariable X gilt also P (X ≤ 1.75) ≈ 0.9599. Außerdem gilt P (X ≤ −1.75) = Φ(−1.75) = 1 − Φ(1.75) ≈ 1 − 0.9599 = 0.0401. Der Wert −1.75 wird mit etwa 4% Wahrscheinlichkeit unterschritten. Dies ist zugleich die Wahrscheinlichkeit, mit der +1.75 u ¨berschritten wird. Die theoretischen Quantile k¨ onnen durch R¨ uckw¨artslesen“ der Tabelle ermittelt ” werden. So ist beispielsweise das 0.975-Quantil gegeben durch 1.96, d.h. z0.975 ≈ 1.96. Da der Wert 0.80 als Wahrscheinlichkeitswert in der Tabelle nicht direkt ablesbar ist, nehmen wir zur Ermittlung des 0.80-Quantils den zu 0.80 n¨achsten Wert in der Tabelle. Dies ist der Wert 0.7995. Somit gilt also: z0.80 ≈ 0.84. Unter Verwendung der Beziehung (7.3.24) gilt dann außerdem beispielsweise: z0.25 = −z0.75 ≈ −0.67. Mit 25%iger Wahrscheinlichkeit wird also der Wert −0.67 unterschritten und der Wert +0.67 u ¨berschritten. • Beispiel 7.3.6 • Angenommen X sei N (1, 4)-verteilt. Wie w¨ urde man dann beispielsweise die Wahrscheinlichkeit f¨ ur die Ereignisse X < 0 oder 0 < X < 1 berechnen? Und wie lauten beispielsweise das 5%- bzw. 95%-Quantil dieser Verteilung? Zur Bestimmung von Intervallwahrscheinlichkeiten nutzt man den Standardi” sierungstrick“ gem¨ aß Gleichung (7.3.16) bzw. (7.3.17). So lautet die Rechnung f¨ ur P (X < 0) dann X − 1 0 − 1 0 − 1 √ P (X < 0) = P (X ≤ 0) = P ≤ √ =Φ √ = Φ(−0.5). 4 4 4 Man beachte, dass die erste Gleichung aufgrund der Stetigkeit der Verteilung gilt. Im Zusammenhang der Normalverteilung spielt es bei Ungleichungen keine Rolle, ob das Gleichzeichen noch mit eingeschlossen wird oder nicht, da Wahrscheinlichkeiten f¨ ur spezifische Realisationen ohnehin gleich 0 sind. Unter Ausnutzung von Gleichung (7.3.23)

368

7 Theoretische Verteilungen und Abh¨angigkeiten

erh¨alt man dann Φ(−0.5) = 1 − Φ(0.5) ≈ 1 − 0.6915 = 0.3085. Dabei wird der Wert der Verteilungsfunktion an der Stelle 0.5 Tabelle A.1 entnommen. Insgesamt lautet das Ergebnis somit P (X < 0) ≈ 0.3085. Im Falle von P (0 < X < 1) lautet die Rechnung zun¨ achst P (0 < X < 1) = P (0 < X ≤ 1) = P (X ≤ 1) − P (X ≤ 0). Die letzte Gleichung versteht man am besten, wenn man sich das korrespondierende Integrationsproblem anhand des Fl¨ achenkalk¨ uls vorstellt. Demnach entspricht die zu bestimmende Wahrscheinlichkeit dem Integral der Dichte u ¨ber dem Intervall (0, 1), also der Fl¨ache zwischen 0 und 1. Diese Fl¨ ache ist gleich der Fl¨ache von −∞ bis zum Wert 1 abz¨ uglich der Fl¨ ache von −∞ bis zum Wert 0. Weiter erh¨alt man X − 1 X − 1 1 − 1 0 − 1 P (X ≤ 1) − P (X ≤ 0) = P ≤ ≤ −P 2 2 2 2 = Φ(0) − Φ(−0.5) ≈ 0.5 − 0.3085 = 0.1915. Insgesamt lautet das Ergebnis somit P (0 < X < 1) ≈ 0.1915. Zur Bestimmung theoretischer Quantile lassen sich die Gleichungen (7.3.22) und (7.3.24) nutzen. Sei q0.95 das 0.95-Quantil der N (1, 4)-Verteilung. Dann folgt gem¨aß (7.3.22) zun¨achst q0.95 = µ + σz0.95 = 1 + 2z0.95 . Man beachte, dass hier die Standardabweichung σ = 2 zu verwenden ist und nicht etwa die Varianz, die in diesem Fall σ 2 = 4 w¨ are. Das 0.95-Quantil der Standardnormalverteilung z0.95 wird Tabelle A.1 durch R¨ uckw¨ artslesen entnommen. Dabei stellt man fest, dass mit den beiden Wahrscheinlichkeiten 0.9495 und 0.9505 korrespondierend zu den x-Werten 1.64 bzw. 1.65 zwei Werte gleich weit vom gesuchten Wert 0.95 entfernt liegen. Tats¨achlich liegt der Wert 1.64 n¨ aher. Ansonsten w¨aren solche F¨alle per Konvention zu regeln. Weiter folgt dann q0.95 = 1 + 2z0.95 ≈ 1 + 2 · 1.64 = 4.28. Da aufgrund der Symmetrieeigenschaft (7.3.24) z0.05 = −z0.95 ≈ −1.64 gilt, erh¨alt man das 0.05-Quantil schließlich als q0.05 = 1 + 2z0.05 ≈ 1 − 2 · 1.64 = −2.28. Somit liegen 0.05-Quantil und 0.95-Quantil symmetrisch um den Erwartungswert 1, wie es im Falle einer symmetrischen Verteilung auch zu erwarten ist. • Theoretische Schwankungsintervalle • Die auf empirischen Schwankungsintervallen beruhende Interpretation der empirischen Standardabweichung (Abschnitt 4.4.4) st¨ utzt sich auf ein theoretisches Pendant im Kontext einer Normalverteilung. Betrachten wir dazu eine N (µ, σ 2 )-verteilte Zufallsvariable X. Dann folgt f¨ ur ein Ereignis der Form µ − 2σ ≤ X ≤ µ + 2σ

7.4 Verteilung stochastischer Summen und Mittelwerte

369

gem¨aß des zuvor beschriebenen Rechenkalk¨ uls:   X −µ P (µ − 2σ ≤ X ≤ µ + 2σ) = P −2 ≤ ≤2 σ = Φ(2) − Φ(−2) = Φ(2) − (1 − Φ(2)) = 2Φ(2) − 1 ≈ 2 · 0.9772 − 1 = 0.9545. Auf analoge Weise erh¨ alt man P (µ − σ ≤ X ≤ µ + σ) ≈ 0.6827, P (µ − 3σ ≤ X ≤ µ + 3σ) ≈ 0.9973 usw. Auf diese Weise erh¨ alt man Wahrscheinlichkeitsaussagen in Bezug auf theoretische Schwankungsintervalle der Form µ − kσ ≤ X ≤ µ + kσ f¨ ur k = 1, 2, . . . Die hierbei insbesondere f¨ ur k = 1, 2 und 3 ermittelten Wahrscheinlichkeiten werden h¨aufig als Art Daumenregel bei der Interpretation empirischer Standardabweichungen verwendet. Demgem¨ aß sollten beispielsweise innerhalb von zwei Standardabweichungen um den Mittelwert herum ca. 95% aller Beobachtungswerte liegen. Im Falle normalverteilter Daten w¨are dies mit der korrespondierenden theoretischen Einfallswahrscheinlichkeit konsistent. Abb. 7.3.13: Normalverteilung und theoretische Schwankungsintervalle f X (x )

99.73% 95.45% 68.27% − 3σ

− 2σ

−σ



µ

+ 2σ

+ 3σ

x

7.4 Verteilung stochastischer Summen und Mittelwerte Summen und Mittelwerte aus Zufallsvariablen bezeichnen wir als stochastische Summen bzw. stochastische Mittelwerte. Im Kontext von Stichproben heißen diese sp¨ater auch Stichprobensummen bzw. Stichprobenmittel (vgl. Abschnitt 9.3). Deren theoretische Verteilung ist in der Wahrscheinlichkeitsrechnung und Statistik h¨aufig von besonderem Interesse, da viele induktive Verfahren auf ihnen basieren. Dabei k¨onnen bestimmte Aussagen in Bezug auf die Verteilungen entweder exakt sein oder nur f¨ ur großes n approximativ g¨ ultig sein. In letzterem Fall nehmen das Gesetz der großen Zahlen (GGZ) und der zentrale Grenzwertsatz (ZGWS) eine wichtige Rolle ein.

370

7 Theoretische Verteilungen und Abh¨angigkeiten

7.4.1 Exakte Aussagen Erwartungswerte und Varianzen • Grundrahmen und ben¨ otigte Resultate • Im Folgenden betrachten wir n Zufallsvariablen X1 , . . . , Xn mit jeweils endlichen Erwartungswerten und Varianzen, die wir mit µ1 , . . . , µn

bzw.

σ12 , . . . , σn2

notieren. Dazu definieren wir folgende stochastische bzw. theoretische Statistiken: n n n n X X 1X 1X 2 ¯n = 1 Xi , X Sn = Xi , µ ¯n = µi und σ ¯n2 = σ . n i=1 n i=1 n i=1 i i=1 Wie bereits in Abschnitt 7.2.1 ausgef¨ uhrt, ist der Erwartungswertoperator linear. Es gilt stets: E(c0 + c1 X1 + c2 X2 + · · · + cn Xn ) = c0 + c1 E(X1 ) + c2 E(X2 ) + · · · + cn E(Xn )

(7.4.1)

f¨ ur beliebige Konstanten c0 , c1 , . . . , cn . F¨ ur die Varianz gilt f¨ ur jede Konstante c: V ar(cX) = c2 V ar(X).

(7.4.2)

Weiter gilt unter Verwendung der Definitionen f¨ ur Varianz und Kovarianz f¨ ur jede Zufallsvariable X mit Erwartungswert µ und Varianz σ 2 :     Cov(X, X) = E (X − µ)(X − µ) = E (X − µ)2 = V ar(X). (7.4.3) Die Kovarianz einer Zufallsvariable X mit sich selbst“ ist also gleich der Varianz von ” X. Mithilfe von (7.4.1)–(7.4.3) lassen sich nun alle nachfolgenden Resultate herleiten. • Erwartungswerte stochastischer Summen • W¨ahlen wir f¨ ur die Konstanten in (7.4.1) c0 = 0, c1 = c2 = · · · = cn = 1, erhalten wir als Spezialfall die stochastische Summe: Sn = X1 + X2 + · · · + Xn . F¨ ur den betreffenden Erwartungswert folgt dann E(Sn ) = E(X1 ) + E(X2 ) + · · · + E(Xn ) = µ1 + µ2 + · · · + µn oder mittels Summenoperator ausgedr¨ uckt: n n n X  X X E Xi = E(Xi ) = µi . i=1

i=1

(7.4.4)

i=1

Der Erwartungswert der Summe ist stets gleich der Summe der einzelnen Erwartungswerte. Sind die Erwartungswerte identisch, d.h. gilt E(X1 ) = E(X2 ) = · · · = E(Xn ) = µ, so folgt n n X  X E Xi = µi = nµ. (7.4.5) i=1

i=1

Insbesondere gilt (7.4.5) nat¨ urlich, falls X1 , . . . , Xn identisch verteilt sind.

7.4 Verteilung stochastischer Summen und Mittelwerte

371

• Erwartungswerte stochastischer Mittelwerte • W¨ahlen wir f¨ ur die Konstanten in (7.4.1) c0 = 0, c1 = c2 = · · · = cn = 1/n, erhalten wir als Spezialfall den stochastischen Mittelwert (das stochastische Mittel ) n 1 1 1 1 1X ¯n. X1 + X2 + · · · + Xn = (X1 + X2 + · · · + Xn ) = Xi = X n n n n n i=1 F¨ ur den betreffenden Erwartungswert folgt dann n n n 1 X  1X 1X E Xi = E(Xi ) = µi n i=1 n i=1 n i=1 bzw. unter Verwendung entsprechender Symbole: ¯n) = µ E(X ¯n .

(7.4.6)

Der Erwartungswert des stochastischen Mittels stimmt also mit dem Mittelwert der Erwartungswerte u ¨berein. Sind die Erwartungswerte identisch, erh¨alt man n X 1 ¯n) = 1 (7.4.7) µi = nµ = µ. E(X n i=1 n Der Erwartungswert des stochastischen Mittels stimmt dann mit dem Erwartungswert jeder einzelnen Zufallsvariablen u ¨berein. Insbesondere gilt (7.4.7) bei identischer Verteilung. • Varianz stochastischer Summen • Aus (7.4.3) folgt insbesondere f¨ ur die Summe zweier Zufallsvariablen: V ar(X1 + X2 ) = Cov(X1 + X2 , X1 + X2 ). Unter Beachtung der Linearit¨ at des Erwartungswertoperators und E(X1 + X2 ) = µ1 + µ2 erh¨alt man daraus dann gem¨ aß der Definition f¨ ur die theoretische Kovarianz bzw. Varianz V ar(X1 + X2 ) = Cov(X1 + X2 , X1 + X2 ) i  = E (X1 + X2 − µ1 − µ2 )(X1 + X2 − µ1 − µ2 ) i  = E ((X1 − µ1 ) + (X2 − µ2 ))((X1 − µ1 ) + (X2 − µ2 )) i  = E (X1 − µ1 )2 + (X2 − µ2 )2 + 2(X1 − µ1 )(X2 − µ2 )       = E (X1 − µ1 )2 + E (X2 − µ2 )2 + 2E (X1 − µ1 )(X2 − µ2 ) = V ar(X1 ) + V ar(X2 ) + 2Cov(X1 , X2 ). Auf analoge Weise erh¨ alt man f¨ ur drei Zufallsvariablen: V ar(X1 + X2 + X3 ) = V ar(X1 ) + V ar(X2 ) + V ar(X3 ) + 2Cov(X1 , X2 ) + 2Cov(X1 , X3 ) + 2Cov(X2 , X3 ). Die Varianz der Summe ist gleich der Summe der einzelnen Varianzen plus dem zweifachen der Summe aller wechselseitigen Kovarianzen Cov(Xi , Xj ) mit i 6= j. Wegen

372

7 Theoretische Verteilungen und Abh¨angigkeiten

(7.4.3) und der Symmetrie des Kovarianzoperators ließe sich dies auch schreiben als V ar(X1 + X2 + X3 ) = Cov(X1 , X1 ) + Cov(X2 , X2 ) + Cov(X3 , X3 ) + Cov(X1 , X2 ) + Cov(X2 , X1 ) + Cov(X1 , X3 ) + Cov(X3 , X1 ) + Cov(X2 , X3 ) + Cov(X3 , X2 ) =

3 X 3 X

Cov(Xi , Xj ).

i=1 j=1

Die Verallgemeinerung auf n Zufallsvariablen liegt auf der Hand. Es gilt: n n X n X  X V ar Xi = Cov(Xi , Xj ). i=1

(7.4.8)

i=1 j=1

Die Varianz der Summe ist gleich der Summe aller Elemente der theoretischen Kovarianzmatrix (Abschnitt 8.3.2) des korrespondierenden Zufallsvektors X = (X1 , X2 , . . . , Xn )T . Sind die Zufallsvariablen unkorreliert, d.h. gilt Cov(Xi , Xj ) = 0 f¨ ur i 6= j, so folgt V ar

n X

n n  X X V ar(Xi ) = σi2 . Xi =

i=1

i=1

(7.4.9)

i=1

Die Varianz der Summe ist dann gleich der Summe der einzelnen Varianzen. Insbesondere folgt (7.4.9) bei stochastischer Unabh¨ angigkeit. Gilt außerdem noch V ar(X1 ) = V ar(X2 ) = · · · = V ar(Xn ) = σ 2 , so vereinfacht sich (7.4.9) schließlich noch zu n n X  X V ar Xi = σi2 = nσ 2 . i=1

(7.4.10)

i=1

Insbesondere folgt (7.4.10), falls X1 , . . . , Xn unabh¨angig und identisch verteilt (u.i.v.) sind.

• Varianz stochastischer Mittel • Aus (7.4.2) und (7.4.8) folgt unmittelbar n n n 1 X  1 XX V ar Xi = 2 Cov(Xi , Xj ). (7.4.11) n i=1 n i=1 j=1 Sind X1 , . . . , Xn unkorreliert, so folgt mit (7.4.9) n n 1 X  1 X 2 Xi = 2 σ V ar n i=1 n i=1 i bzw. unter Verwendung entsprechender Symbole: ¯n2 ¯n) = σ . V ar(X n

(7.4.12)

7.4 Verteilung stochastischer Summen und Mittelwerte

373

Bei identischen Varianzen, σ 2 = σi2 , gilt dann schließlich n n 1 X  1 X 1 σ2 V ar Xi = 2 V ar(Xi ) = 2 nσ 2 = n i=1 n i=1 n n bzw. unter Verwendung entsprechender Symbole: 2 ¯n) = σ . (7.4.13) V ar(X n Das letzte Resultat gilt insbesondere, falls X1 , . . . , Xn unabh¨angig und identisch verteilt sind.

• Zusammenfassung • Die vorhergehenden Resultate werden in Wahrscheinlichkeitsrechnung und Statistik sehr h¨ aufig ben¨ otigt. Sie seien deshalb nochmals zusammengefasst. Erwartungswerte und Varianzen von Summen und Mittelwerten F¨ ur n Zufallsvariablen X1 , . . . , Xn mit E(Xi ) = µi und V ar(Xi ) = σi2 f¨ ur i = 1, . . . , n gelten folgende Aussagen allgemein bzw. bei Vorliegen von identischen Erwartungswerten bzw. Varianzen: n X µi bzw. E(Sn ) = nµ, (7.4.14) E(Sn ) = i=1

¯n) = µ ¯ n ) = µ, E(X ¯n bzw. E(X n n XX Cov(Xi , Xj ), V ar(Sn ) =

(7.4.15) (7.4.16)

i=1 j=1

d.h. speziell f¨ ur n = 2: V ar(X1 + X2 ) = V ar(X1 ) + V ar(X2 ) + 2Cov(X1 , X2 ). Sind X1 , . . . , Xn paarweise unkorreliert, so gilt: n X V ar(Sn ) = σi2 bzw. V ar(Sn ) = nσ 2 ,

(7.4.17)

i=1 σ ¯n2 /n

(7.4.18)

¯n) = V ar(X

¯ n ) = σ 2 /n. bzw. V ar(X

Insbesondere gelten die letzten Resultate in (7.4.14), (7.4.15), (7.4.17) und (7.4.18), falls X1 , . . . , Xn unabh¨ angig und identisch verteilt (u.i.v.) sind.

Verteilungen unter bestimmten Ausgangsverteilungen • Allgemeines • Die exakte und vollst¨ andige Bestimmung der Verteilung einer Summe oder eines Mittelwertes ist nur unter bestimmten Verteilungsannahmen noch relativ einfach zu bewerkstelligen. Orientierung hierzu bieten zun¨achst einmal die in Abschnitt 7.1.3 vorgestellten Methoden, mit denen sich Verteilungen von Funktionen aus mehreren

374

7 Theoretische Verteilungen und Abh¨angigkeiten

Zufallsvariablen, in diesem Fall also einer Summe bzw. eines Mittelwertes, bestimmen lassen. Besonders einfach wird die Bestimmung immer dann, wenn die Summe innerhalb der gleichen Verteilungsfamilie bleibt, wie es etwa bei der Binomialverteilung der Fall ist. Ansonsten gestaltet sich die Herleitung wie etwa im Falle einer Gleichverteilung entsprechend aufw¨ andiger. Sind Wahrscheinlichkeits- bzw. Dichtefunktion einer Summe Sn bekannt, so ist es dann relativ einfach, diese f¨ ur den entsprechenden Mittelwert herzuleiten, da sich dieser lediglich aus einer Umskalierung der Form ¯ n = Sn /n X ergibt. Bei einer diskreten Verteilung mit Tr¨ agerpunkten a1 , a2 , . . . , ak , . . . lauten die Tr¨agerpunkte des Mittelwertes dann a1 /n, a2 /n, . . . , ak /n bei unver¨anderten Eintrittswahrscheinlichkeiten. Besitzt Sn eine stetige Verteilung mit Dichte fSn , so lautet die ¯n Dichte von X fX¯ n (x) = nfSn (nx).

(7.4.19)

Dies ergibt sich wiederum mit der in Abschnitt 7.1.3 beschriebenen Methode unter Verwendung der korrespondierenden Verteilungsfunktionen FSn bzw. FX¯ n . Demnach gilt: S  n FX¯ n (x) = P ≤ x = P (Sn ≤ nx) = FSn (nx). (7.4.20) n Die 1. Ableitung von (7.4.20) f¨ uhrt unter Verwendung der Kettenregel zu (7.4.19). Im Folgenden werden f¨ ur einige Ausgangsverteilungen die exakten Verteilungen von Summen und Mittelwerten pr¨ asentiert. Dabei gehen wir, soweit nicht anderslautend, stets von n unabh¨ angigen und identisch verteilten Zufallsvariablen aus. • Diskrete und stetige Gleichverteilung • Abbildung 7.4.1 zeigt im linken Schauurfelwurf). In der bild eine diskrete Gleichverteilung mit der Tr¨ agermenge 1, 2, . . . , 6 (W¨ Mitte ist in schwarz die Summe zweier unabh¨angiger Zufallsvariablen X1 und X2 aus einer solchen Verteilung dargestellt. Diese wurde in Abschnitt 7.1.3 hergeleitet. Offensichtlich ist die Summe diskret gleichverteilter Zufallsvariablen selbst nicht mehr gleichverteilt. Grau angedeutet ist die Verteilung des korrespondierenden Mittelwertes. Im rechten Schaubild sind analog die Verteilungen von Summe und Mittelwert f¨ ur n = 3 abgebildet. Die Tr¨agerpunkte der Verteilung des Mittelwertes lauten {1, 1.5, 2, 2.5, . . . , 6} f¨ ur n = 2 bzw. {1, 4/3, 5/3, 2, 7/3, . . . , 6} f¨ ur n = 3. Erwartungswert und Varianz der Ausgansverteilung sind gegeben durch 3.5 und 2.92. Gem¨aß (7.4.14) und (7.4.17) sind diese im Falle der Summen entsprechend 2 Mal bzw. 3 Mal so groß. Der Erwartungswert des Mittelwerts ist gem¨ aß (7.4.15) stets 3.5, w¨ahrend die Varianzen der Mittelwerte gem¨aß (7.4.18) mit 2.92/2 bzw. 2.92/3 entsprechend kleiner werden. Bildlich gesprochen zieht sich mit wachsendem n die Verteilung des Mittelwertes deshalb u ¨ber dem Erwartungswert 3.5 zusammen. Abbildung 7.4.2 zeigt im linken Schaubild eine stetige Gleichverteilung u ¨ber dem Intervall [0, 1]. In der Mitte ist in schwarz die Dichte von S2 = X1 + X2 dargestellt, wobei X1 und X2 unabh¨ angig und u ¨ber [0, 1] stetig gleichverteilt sind. Wie bereits in Abschnitt 7.1.3 erw¨ ahnt, l¨ asst sich unter Verwendung sog. Faltungss¨ atze zeigen, dass

7.4 Verteilung stochastischer Summen und Mittelwerte

375

Abb. 7.4.1: Verteilung von Summe und Mittelwert bei einer diskreten Gleichverteilung 0.20

Ausgangsverteilung

n=2

0.20

S2

X2

0.15

0.15

0.10

0.10

0.10

0.05

0.05

0.05

0.00

0

6

12

18

0.00

0

6

12

n=3

0.20 0.15

18

0.00

S3

X3

0

6

12

18

Abb. 7.4.2: Verteilung von Summe und Mittelwert bei einer stetigen Gleichverteilung 2.5

Ausgangsverteilung

2.0

2.0

1.5

1.5

1.0

1.0

0.5

0.5

0.0

0

1

2

3

n=2

2.5

0.0

2.5

X2

2.0

X3

n=3

1.5

S2

S3

1.0 0.5

0

1

2

3

0.0

0

1

2

3

diese Summe dreiecksverteilt ist mit Dichte fS2 (s) = sI[0,1] (s) + (2 − s)I(1,2] (s). Wie zu erwarten sind Summen selbst nicht mehr gleichverteilt. Grau angedeutet ist die Dichte des korrespondierenden Mittelwertes. Sie lautet: fX¯ 2 (x) = 4xI[0,0.5] (s) + (4 − 4x)I(0.5,1] (x). Analog sind im rechten Schaubild die Dichten f¨ ur n = 3 dargestellt:   2 2 fS3 (s) = 0.5s I[0,1] (s) + 0.75 − (s − 1.5) I(1,2] (s) + 0.5(s − 3)2 I[2,3] (s) bzw.   fX¯ 3 (x) = 13.5x2 I[0,1/3] (x) + 2.25 − 27(x − 0.5)2 I(1/3,2/3] (x) + 13.5(x − 1)2 I[2/3,1] (x). Erwartungswert und Varianz der Ausgangsverteilung sind gegeben durch 0.5 und 1/12. Die Erwartungswerte und Varianzen der Summen und Mittelwerte verhalten sich analog wie im vorhergehenden Beispiel. Insbesondere zieht sich die Verteilung des Mittelwerts mit wachsendem n u ¨ber dem Erwartungswert 0.5 zusammen. Die Tr¨agermenge des Mittelwertes bleibt stets [0, 1], wobei die Wahrscheinlichkeitsdichte an der Stelle 0.5 f¨ ur wachsendes n zunimmt. Ferner beachte man die G¨ ultigkeit von (7.4.19). So erh¨alt man die Dichte des Mittelwertes f¨ ur n = 2 u ¨ber   fX¯ 2 (x) = 2fS2 (2x) = 2 · 2xI[0,1] (2x) + (2 − 2x)I(1,2] (2x) = 4xI[0,0.5] (s) + (4 − 4x)I(0.5,1] (x).

376

7 Theoretische Verteilungen und Abh¨angigkeiten

¨ Die letzte Gleichung folgt insbesondere aufgrund der Aquivalenz von 0 ≤ 2x ≤ 1 und 0 ≤ x ≤ 0.5 bzw. 1 < 2x ≤ 2 und 0.5 < x ≤ 1. ¯ 3 aus der Dichte von S3 . Analog erh¨alt man die Dichte von X • Binomialverteilung • Die der Binomialverteilung innewohnende Modellvorstellung einer Urne mit schwarzen und weißen Kugeln (vgl. Abschnitt 7.3.1), aus der mit Zur¨ ucklegen gezogen wird, legt es nahe, dass die Binomialverteilung auch bei Summenbildung erhalten bleibt. Sind X1 ∼ B(n1 , π) und X2 ∼ B(n2 , π) unabh¨angig, so gilt: X1 + X2 ∼ B(n1 + n2 , π). In informaler Merkschreibweise“ ausgedr¨ uckt, gilt also: ” B(n1 , π) + B(n2 , π) = B(n1 + n2 , π). In der Modellvorstellung werden demnach in zwei Teilschritten erst n1 Kugeln gezogen und danach nochmals n2 Kugeln. Insgesamt werden damit n1 + n2 Kugeln mit Zur¨ ucklegen gezogen. Die Summe der schwarzen Kugeln entspricht damit nat¨ urlich auch ¨ der Summe der schwarzen Kugeln aus beiden Teilschritten. Aquivalent dazu kann die Begr¨ undung auch u ¨ber den Zusammenhang zwischen Bernoulli-Verteilung und Binomialverteilung gef¨ uhrt werden. Danach l¨ asst sich X1 als Summe von n1 unabh¨angigen B(1, π)-Variablen interpretieren und X2 als Summe von n2 unabh¨angigen B(1, π)Variablen. Dies impliziert entsprechende Eigenschaft f¨ ur X1 + X2 . Entscheidend ist, dass bildlich immer aus der gleichen Urne gezogen wird, also der Parameter π (Anteil der schwarzen Kugeln) konstant bleibt. Abbildung 7.4.3 zeigt die Verteilung der Summe unabh¨angiger B(1, 0.4)-verteilter ur n = 5 bzw. n = 10 als B(5, 0.4)- bzw. B(10, 0.4)-Verteilung. Letztere Zufallsvariablen f¨ Verteilung l¨asst sich wiederum auch als Summe zweier unabh¨angiger B(5, 0.4)-verteilter Zufallsvariablen interpretieren. Grau sind die Verteilungen der korrespondierenden Mittelwerte (relativen H¨ aufigkeiten) angedeutet. Mit wachsendem n konzentrieren sich diese st¨arker um den theoretischen Anteilswert 0.4. In Abbildung 7.1.18 (Abschnitt 7.1.3) finden sich f¨ ur die Summe noch die F¨ alle f¨ ur n = 2, 3 und 10. Abbildung 7.3.4 (Abschnitt 7.3.1) zeigt hingegen die Verteilung der Summe unabh¨angiger B(1, 0.1)-verteilter Zufallsvariablen f¨ ur unterschiedliches n. Abb. 7.4.3: Verteilung von Summe und Mittelwert bei einer Binomialverteilung 0.6

Ausgangsverteilung

0.4

B (1, 0.4)

0.2 0.0

n =5

0.6 0.4

X5

S 5 ~ B (5, 0.4)

0.2

0

2

4

6

8

10

0.0

n = 10

0.6 0.4

X 10 S 10 ~ B (10, 0.4)

0.2

0

2

4

6

8

10

0.0

0

2

4

6

8

10

7.4 Verteilung stochastischer Summen und Mittelwerte

377

• Poisson-Verteilung • Sind X1 , . . . , Xn unabh¨angig P o(λ)-verteilt, so gilt Sn = X1 + · · · + Xn ∼ P o(nλ), informal ausgedr¨ uckt also: P o(λ) + · · · + P o(λ) = P o(nλ). Auf einen formalen Nachweis wird verzichtet. Aufgrund des herstellbaren Bezugs zur Binomialverteilung erscheint das Resultat jedoch nicht u ¨berraschend. Abbildung 7.3.5 (Abschnitt 7.3.1) zeigt Poisson-Verteilungen f¨ ur unterschiedliche Werte von λ, die sich als Verteilungen von Summen interpretieren lassen. So ließe sich etwa die P o(5)Verteilung als Verteilung der Summe von 5 unabh¨angigen P o(1)-verteilten Zufallsvariablen interpretieren. • Normalverteilung • Sind X1 ∼ N (µ1 , σ12 ) und X2 ∼ N (µ2 , σ22 ) unabh¨angig, so gilt: X1 + X2 ∼ N (µ1 + µ2 , σ12 + σ22 ), informal ausgedr¨ uckt also: N (µ1 , σ12 ) + N (µ2 , σ22 ) = N (µ1 + µ2 , σ12 + σ22 ). Auf einen formalen Nachweis hierzu wird verzichtet. Da gem¨aß Satz 7.3.1 bei Lineartransformationen der Form Y1 = c0 + c1 X1 und Y2 = c2 X2 f¨ ur Y1 und Y2 folgen w¨ urde Y1 ∼ N (c0 + c1 µ1 , c21 σ12 ) und Y2 ∼ N (c2 µ2 , c22 σ22 ), erh¨alt man mit obigem Resultat automatisch auch Y1 + Y2 = c0 + c1 X1 + c2 X2 ∼ N (c0 + c1 µ1 + c2 µ2 , c21 σ12 + c22 σ22 ). Induktiv erh¨alt man daraus f¨ ur n Zufallsvariablen die folgenden Resultate: Verteilung von Summen und Mittelwerten bei Normalverteilung Sind X1 , . . . , Xn unabh¨ angig mit Xi ∼ N (µi , σi2 ) f¨ ur i = 1, . . . , n, dann gilt: c0 + c1 X1 + · · · + cn Xn ∼ N (c0 + c1 µ1 + · · · + cn µn , c21 σ12 + · · · + c2n σn2 ).

(7.4.21)

f¨ ur beliebige Konstanten c0 , c1 , . . . , cn , wobei mindestens ein ci 6= 0 f¨ ur i > 0 sei. Speziell folgt daraus: n n X  X Sn ∼ N µi , σi2 bzw. (7.4.22) i=1

i=1

¯ n ∼ N (¯ X µn , σ ¯n2 /n).

(7.4.23) 2

Sind X1 , . . . , Xn unabh¨ angig und identisch verteilt mit Xi ∼ N (µ, σ ) gilt: Sn ∼ N (nµ, nσ 2 ) bzw. ¯ n ∼ N (µ, σ 2 /n). X

(7.4.24) (7.4.25)

378

7 Theoretische Verteilungen und Abh¨angigkeiten

ur (7.4.21) gew¨ahrleistet, dass nicht Die Bedingung mindestens ein ci 6= 0 f¨ ur i > 0“ f¨ ” alle Zufallsvariablen mit 0 multipliziert werden. Dies w¨ urde sonst eine Einpunktverteilung in c0 erzeugen. Mit der Wahl von c0 = 0, c1 = c2 = · · · = cn = 1 bzw. c0 = 0, c1 = c2 = · · · = cn = 1/n erh¨ alt man aus (7.4.21) die Resultate (7.4.22)–(7.4.25). Abbildung 7.4.4 zeigt die Verteilung von Summe und Mittelwert unabh¨angiger N (1, 1)verteilter Zufallsvariablen f¨ ur n = 2 und 3. Die Resultate (7.4.21)–(7.4.25) lassen sich f¨ ur den Fall abh¨angiger Zufallsvariablen verallgemeinern, sofern diese multivariat normalverteilt sind (Abschnitt 8.3.3). Abb. 7.4.4: Verteilung von Summe und Mittelwert bei einer Normalverteilung Ausgangsverteilung 0.8

0.6

0.6

N (1, 1)

0.4

0.8

X 2 ~ N (1, 0.5)

0.4

0.2

−2

0

2

4

6

0.0

X 3 ~ N (1, 0.33)

0.6

S 2 ~ N (2, 2)

0.4

0.2 0.0

n =3

n =2

0.8

S 3 ~ N (3, 3)

0.2

−2

0

2

4

6

0.0

−2

0

2

4

6

• Exponentialverteilung und Erlangverteilung • Die Summe Sn unabh¨angig, identisch exponentialverteilter Zufallsvariablen f¨ uhrt zur Erlangverteilung (vgl. Abschnitt 8.1.2) mit Dichtefunktion λn sn−1 e−λs I[0,∞) (s). (7.4.26) fSn (s) = (n − 1)! Die Tr¨agermenge ist wie bei der Exponentialverteilung R+ = [0, ∞). Die stetige Verteilung wird durch zwei Parameter n ∈ N und λ > 0 bestimmt. Zur konkreten Spezifikation wird dann die Kurzschreibweise Sn ∼ Erlang(n, λ) verwendet. Speziell ist jede Exp(λ)Verteilung eine Erlang(1, λ)-Verteilung. Sind X1 , . . . , Xn unabh¨angig Exp(λ)-verteilt, so gilt: Sn = X1 + · · · + Xn ∼ Erlang(n, λ), oder informal ausgedr¨ uckt: Exp(λ) + · · · + Exp(λ) = Erlang(n, λ). Es ist wie bei der Poisson-Verteilung zu beachten, dass nur Zufallsvariablen mit jeweils gleichem Parameterwert λ addiert werden. Auf einen formalen Nachweis wird verzichtet. Abbildung 7.4.5 zeigt Erlangverteilungen f¨ ur unterschiedliche Werte von n f¨ ur λ = 1, Abbildung 7.4.6 ebensolche f¨ ur λ = 2. Beispielsweise w¨are die Summe von 3 unabh¨angigen Exp(2)-verteilten Zufallsvariablen Erlang(3, 2)-verteilt mit Dichte 23 −2s e I[0,∞) (s) = 4s2 e−2s I[0,∞) (s). 2! Mit (7.4.19) erh¨ alt man aus (7.4.26) allgemein f¨ ur die Dichte des Mittelwertes fS3 (s) =

7.4 Verteilung stochastischer Summen und Mittelwerte

379

Abb. 7.4.5: Verteilung von Summe und Mittelwert bei einer Exp(1)-Verteilung 2.0

Ausgangsverteilung

1.5

1.5

Exp (1)

1.0

1.0

0.5 0.0

n =2

2.0

0

1

2

3

4

5

6

0.0

1.5

X 2 ~ Erlang (2, 2) S 2 ~ Erlang (2, 1)

0.5

0

1

2

3

n =3

2.0

4

5

6

1.0

X 3 ~ Erlang (3, 3) S 3 ~ Erlang (3, 1)

0.5 0.0

0

1

2

3

4

5

6

(nλ)n n−1 −nλx x e I[0,∞) (x). (n − 1)! Dies ist aber gerade die Dichte einer Erlang(n, nλ)-Verteilung. Somit w¨are also beispielsweise der Mittelwert aus 3 unabh¨ angigen Exp(2)-verteilten Zufallsvariablen Erlang(3, 6)-verteilt. Die betreffenden Dichtefunktionen sind grau eingezeichnet. Man beachte, dass der Erwartungswert einer Exp(λ)-verteilten Zufallsvariable gerade 1/λ ist. Im vorliegenden Fall zieht sich die Verteilung des Mittelwerts also u ¨ber dem Wert 1 bzw. 0.5 zusammen. fX¯ n (x) =

Abb. 7.4.6: Verteilung von Summe und Mittelwert bei einer Exp(2)-Verteilung 2.0

Ausgangsverteilung

2.0

1.5

1.5

Exp (2)

1.0

1

2

3

4

5

6

0.0

1.5

S 2 ~ Erlang (2, 2)

0.5

0

2.0

X 2 ~ Erlang (2, 4)

1.0

0.5 0.0

n =2

0

1

2

3

4

5

6

n =3

X 3 ~ Erlang (3, 6)

1.0

S 3 ~ Erlang (3, 2)

0.5 0.0

0

1

2

3

4

5

6

Weiter ergibt sich aus dem Zusammenhang von Exponentialverteilung und Erlangverteilung ein weiteres impliziertes Verteilungsresultat f¨ ur n1 , n2 ∈ N: Erlang(n1 , λ) + Erlang(n2 , λ) = Erlang(n1 + n2 , λ).

7.4.2 Asymptotische und approximative Aussagen Gesetz der großen Zahlen (GGZ) • Hintergrund • Sind X1 , . . . , Xn unabh¨ angig und identisch verteilt mit E(Xi ) = µ und V ar(Xi ) = σ 2 f¨ ur i = 1, . . . , n, so gilt laut (7.4.15) und (7.4.18) f¨ ur den Mittelwert 2 ¯ ¯ E(Xn ) = µ und V ar(Xn ) = σ /n.

380

7 Theoretische Verteilungen und Abh¨angigkeiten

Die Varianz des stochastischen Mittelwerts strebt f¨ ur wachsendes n gegen 0. Damit zieht sich die Verteilung bildlich u ¨ber dem Erwartungswert zusammen. In den Abbildungen 7.4.1–7.4.6 l¨asst sich dies unter verschiedenen Ausgangsverteilungen bereits einigermaßen gut beobachten. So sind mit wachsendem n die Realisationen des Mittelwerts immer n¨aher um den Erwartungswert herum verteilt. Dieser Erwartungswert ist beispielsweise gegeben durch (i) 3.5 in Abbildung 7.4.1, (ii) 0.5 in Abbildung 7.4.2, (iii) 0.4 in Abbildung 7.4.3 usw. Diese Gesetzm¨aßigkeit wird formal durch das Gesetz der großen Zahlen beschrieben bzw. begr¨ undet. Dadurch erh¨ alt der Erwartungswert einer Verteilung letztlich auch seine Deutung. • Schwaches Gesetz der großen Zahlen • Eine f¨ ur unabh¨angige und identisch verteilte Zufallsvariablen h¨ aufig verwendete Variante wird als schwaches GGZ bezeichnet und lautet wie folgt: Satz 7.4.1: Schwaches GGZ f¨ ur u.i.v. Zufallsvariablen Seien X1 , . . . , Xn unabh¨ angig und identisch verteilte Zufallsvariablen mit E(Xi ) = µ f¨ ur i = 1, . . . , n. Dann gilt f¨ ur jedes c > 0: n→∞ n→∞ ¯ ¯ n − µ| > c) −− P (|Xn − µ| ≤ c) −−−−→ 1 bzw. P (|X −−→ 0. Man sagt, das (stochastische) Mittel konvergiert stochastisch (nach Wahrscheinlichkeit) gegen µ. Daf¨ ur schreibt man auch kurz p ¯ n −− X → µ.

Es l¨asst sich zeigen, dass f¨ ur die stochastische Konvergenz des Mittelwerts die Varianz der Ausgangsvariablen nicht zwingend endlich sein muss. Tats¨achlich existieren zahlreiche Varianten des GGZ. Diese unterscheiden sich dahingehend, dass in Bezug auf die Ausgangsbedingungen unterschiedliche Annahmen gestellt werden k¨onnen. Dar¨ uber hinaus existiert noch (wie zu vermuten) ein starkes Gesetz der großen Zahlen mit zahlreichen Varianten, das jedoch auf einer anderen Konvergenzart basiert (vgl. die Erg¨anzungen in Abschnitt 8.2.1) ¯ n im Intervall • Interpretation • Die Wahrscheinlichkeit einer Realisation von X [µ − c, µ + c] strebt (konvergiert) f¨ ur wachsendes n gegen 1. Die Wahrscheinlichkeit f¨ ur eine Realisation außerhalb dieses Intervalls konvergiert entsprechend gegen 0. Dies gilt f¨ ur jeden beliebigen positiven Wert von c, insbesondere also auch (und das ist das Entscheidende) f¨ ur jeden noch so kleinen Wert c > 0. Diese Art von Konvergenz wird als stochastische Konvergenz bezeichnet (vgl. hierzu Abschnitt 8.2.2).

7.4 Verteilung stochastischer Summen und Mittelwerte

381

Betrachten wir hierzu ein Beispiel. Angenommen X1 , . . . , Xn sind unabh¨angig N (0, 1)-verteilt. Dann gilt f¨ ur n = 1, 4 und 10 gem¨aß (7.4.25): ¯ 1 ∼ N (0, 1), (ii) X ¯ 4 ∼ N (0, 0.25), (iii) X ¯ 10 ∼ N (0, 0.1). (i) X Abbildung 7.4.7 zeigt die Verteilung des stochastischen Mittels f¨ ur diese drei F¨alle. Die Wahrscheinlichkeit einer Realisation im Intervall [−0.5, 0.5] wurde jeweils als grau schattierte Fl¨ache markiert. Dies sind also die Wahrscheinlichkeiten zu ¯ n − µ| ≤ c |X f¨ ur µ = 0, c = 0.5 und n = 1, 4 bzw. 10. F¨ ur n = 1 berechnet sich die konkrete Wahrscheinlichkeit als ¯ n − 0| ≤ 0.5) = P (−0.5 ≤ X ¯ n ≤ 0.5) = P (X ¯ n ≤ 0.5) − P (X ¯ n ≤ −0.5) P (|X X   ¯ n − 0 0.5 − 0 ¯ n − 0 −0.5 − 0  X =P − − −P 1 1 1 1 = Φ(0.5) − Φ(−0.5) = 2Φ(0.5) − 1 ≈ 0.3829. ur n = 4 und n = 10 die Wahrscheinlichkeiten 0.6827 bzw. 0.8862. Analog erh¨alt man f¨ Die theoretischen Wahrscheinlichkeiten konvergieren f¨ ur wachsendes n also gegen 1. F¨ ur das kleinere Intervall [−0.1, 0.1] erh¨ alt man dagegen die Wahrscheinlichkeiten (i) 0.0797, (ii) 0.1585 bzw. (iii) 0.2482. Die Wahrscheinlichkeiten sind nun kleiner. Jedoch konvergieren auch diese f¨ ur wachsendes n in gleicher Weise gegen 1. Diese Betrachtungen lassen sich f¨ ur beliebig kleine Intervalle um den Erwartungswert fortsetzen. Abb. 7.4.7: Gesetz der großen Zahlen illustriert anhand eines Schwankungsintervalls n =1

n = 10

n =4

1.5

1.5

1.5

1.0

1.0

1.0

0.5

0.5

0.5

0.0 −2.0

−1.0

0.0

1.0

2.0

0.0 −2.0

−1.0

0.0

1.0

2.0

0.0 −2.0

−1.0

0.0

1.0

2.0

¨ Abbildung 7.4.8 zeigt eine Simulation zu diesen theoretischen Uberlegungen. Die Simulation wurde unter Zuhilfenahme des Statistikprogramms R und des R-Pakets animation“ durchgef¨ uhrt. Zu jedem n = 1, 2, . . . , 50 wurden jeweils 30 Stichproben ” aus einer N (0, 1)-Verteilung gezogen und die jeweiligen Realisationen des stochastischen Mittels berechnet. F¨ ur jedes n liegen also jeweils 30 Realisationen eines auf n Beobachtungen beruhenden Mittelwerts vor. Die schwarz gestrichelten Linien markieren das Intervall [−0.5, 0.5]. Wie man sieht, liegen mit wachsendem n zunehmend mehr Realisationen innerhalb dieses Intervalls. Das Schaubild verdeutlicht auch die Bedeutung der stochastischen Konvergenz . Zu jedem noch so großen n gibt es keine Garantie (100% Wahrscheinlichkeit) daf¨ ur, dass alle Realisationen innerhalb eines bestimmen Intervalls um den Erwartungswert liegen werden. Lediglich die Wahrscheinlichkeit hierf¨ ur

382

7 Theoretische Verteilungen und Abh¨angigkeiten

−2

−1

x

0

1

2

Abb. 7.4.8: Gesetz der großen Zahlen illustriert anhand einer Simulation

0

10

20

n

30

40

50

nimmt mit wachsendem n zu. Bei der stochastischen Konvergenz konvergieren also nicht Realisationen, sondern Wahrscheinlichkeiten. • Satz von Bernoulli • Das GGZ liefert auch eine formale Begr¨ undung f¨ ur den frequentistischen Deutungsansatz von Wahrscheinlichkeiten (vgl. Abschnitt 6.1.1). Betrachten wir dazu eine Zufallsvariable X, die das Ergebnis bei einem W¨ urfelwurf angibt und das Ereignis gerade Zahl“, d.h. A = {2, 4, 6}. Dazu definieren wir nun die Zufalls” variable Y = IA (X), welche den Wert 1 annimmt, falls X ∈ A ist und sonst den Wert 0. Dann gilt: P (Y = 1) = P (X ∈ A) = 0.5 und P (Y = 0) = P (X 6∈ A) = 0.5. Folglich gen¨ ugt Y einer B(1, π)-Verteilung mit π = 0.5. Somit gilt auch: E(Y ) = π und V ar(Y ) = π(1 − π). F¨ ur n unabh¨angige und wie X verteilte Zufallsvariablen X1 , . . . , Xn , (f¨ ur n W¨ urfe) lassen sich entsprechend n unabh¨ angige wie Y verteilte Zufallsvariablen Y1 , . . . , Yn definieren mit Yi = IA (Xi ) f¨ ur i = 1, . . . , n. Nach dem GGZ folgt dann unmittelbar n 1X p Y¯n = Yi −−→ E(Yi ) = π = 0.5. n i=1 Da die Summe der Yi gerade der Anzahl der Einsen entspricht, ist der entsprechende Mittelwert gerade die (stochastische) relative H¨ aufigkeit gerader Zahlen. Diese konvergiert folglich (wie zu erwarten) gegen 0.5. Dies l¨asst sich nat¨ urlich auf beliebige Ereignisse und Situationen verallgemeinern. Formal gefasst wird dies im Satz von Bernoulli .

7.4 Verteilung stochastischer Summen und Mittelwerte

383

Satz 7.4.2: Satz von Bernoulli Seien X1 , . . . , Xn unabh¨ angig und identisch verteilt und sei A ⊂ R ein beliebiges (messbares) Ereignis. Definiere Yi = IA (Xi ) f¨ ur i = 1, . . . , n. Dann sind Y1 , . . . , Yn unabh¨ angig B(1, π)-verteilt mit π = P (Xi ∈ A), und die (stoaufigkeit des Ereignisses A konvergiert stochastisch gegen die chastische) relative H¨ Wahrscheinlichkeit von A, d.h. p Y¯n −−→ P (A).

• Spezialfall: Hauptsatz der Statistik • Einen weiteren speziellen Fall stellt die Betrachtung eines Ereignisses A der Form A = (−∞, x] mit x ∈ R dar. Betrachten wir dazu eine Zufallsvariable X mit Verteilungsfunktion FX . Es gilt dann P (X ∈ A) = FX (x). Die Wahrscheinlichkeit f¨ ur das Ereignis A entspricht gerade dem Wert der Verteilungsfunktion an der Stelle x. Sind nun X1 , . . . , Xn unabh¨angig und wie X verteilte Zufallsvariablen, so sind die Zufallsvariablen Y1 , . . . , Yn mit Yi = I(−∞,x) (Xi ) f¨ ur i = 1, . . . , n unabh¨angig B(1, π)-verteilt mit π = FX (x). Mit dem Satz von Bernoulli folgt dann n 1X p ¯ Yn = I(−∞,x] (Xi ) −−→ F (x). n i=1 Der relative Anteil der Xi , welche kleiner oder gleich x sind, konvergiert stochastisch gegen die entsprechende Wahrscheinlichkeit. Ersteres ist aber gerade der Wert der stochastischen Verteilungsfunktion an der Stelle x. Letzteres ist der Wert der theoretischen Verteilungsfunktion an der Stelle x. Bezeichnet Fn (x) die stochastische Verteilungsfunktion an der Stelle x, so folgt n 1X p Fn (x) = I(−∞,x] (Xi ) −−→ F (x). (7.4.27) n i=1 Da (7.4.27) jedoch f¨ ur jeden beliebigen Wert x gilt, folgt daraus (informal ausgedr¨ uckt): Die stochastische Verteilungsfunktion konvergiert gegen die theoretische. Mit wachsendem n wird sich die empirische Verteilung der theoretischen Verteilung ann¨ahern. Dieser Befund ist in einer etwas komplexeren Fassung als Hauptsatz der Statistik oder als Satz von Glivenko-Cantelli bekannt. Abbildung 7.4.9 illustriert dies anhand einer Simulation mit der Normalverteilung. Dabei wurden Zufallszahlen aus

384

7 Theoretische Verteilungen und Abh¨angigkeiten

einer N (0, 1)-Verteilung gezogen. Das linke Schaubild zeigt das Ergebnis einer Stichprobe vom Umfang n = 20, das rechte Schaubild f¨ ur n = 100. Zumindest links ist noch die Treppengestalt der empirischen Verteilungsfunktion gut zu erkennen. Die durchgezogene graue Linie stellt die theoretische Verteilungsfunktion der Standardnormalverteilung dar. Man sieht, dass die Abweichungen der empirischen von der theoretischen Verteilungsfunktion f¨ ur n = 100 nur noch sehr klein sind. Je mehr Realisationen aus einer Verteilung vorliegen, desto genauer spiegelt die empirische Verteilung die zugrunde liegende theoretische Verteilung wider. Auf dieser fundamentalen und fast schon trivial erscheinenden Erkenntnis beruht im Grunde der gesamte statistische Methodenapparat. Abb. 7.4.9: Hauptsatz der Statistik illustriert anhand einer Simulation F n (x ) / F (x )

F n (x ) / F (x )

n = 20

1.0

n = 100

1.0

0.8

0.8

0.6

0.6

0.4

0.4

0.2

0.2

0.0

0.0 −4

−3

−2

−1

0

1

2

3

4

x

−4

−3

−2

−1

0

1

2

3

4

x

Zentraler Grenzwertsatz (ZGWS) • Hintergrund • Der zentrale Grenzwertsatz ist neben dem Gesetz der großen Zahlen in Wahrscheinlichkeitstheorie und Statistik von herausragender ( zentraler“) ” Bedeutung. Was besagt dieser Satz? Dazu einige Vor¨ uberlegungen. Sind X1 , . . . , Xn unabh¨ angig und identisch normalverteilt mit E(Xi ) = µ und V ar(Xi ) = σ 2 f¨ ur i = 1, . . . , n, so gilt gem¨ aß (7.4.24) und (7.4.25) f¨ ur die Verteilung von Summe und Mittelwert  2 ¯ n ∼ N µ, σ . Sn ∼ N (nµ, nσ 2 ) und X n Werden Summe und Mittelwert standardisiert, erh¨alt man entsprechend Sn − nµ Zn = √ ∼ N (0, 1) bzw. (7.4.28) nσ 2 ¯n − µ X Zn = p ∼ N (0, 1). (7.4.29) σ 2 /n Man beachte, dass die Ausdr¨ ucke (7.4.28) und (7.4.29) numerisch identisch sind. Werden Z¨ahler und Nenner in (7.4.28) jeweils durch n dividiert, ergibt sich daraus (7.4.29). Standardisierte Summe und standardisierter Mittelwert sind also standardnormalverteilt und numerisch identisch.

7.4 Verteilung stochastischer Summen und Mittelwerte

385

Der zentrale Grenzwertsatz besagt, dass die Resultate (7.4.24), (7.4.25), (7.4.28) und (7.4.29), n¨aherungsweise auch f¨ ur nicht normalverteilte unabh¨angige und identisch verteilte Zufallsvariablen gelten, falls n nur hinreichend groß“ ist. Die Approximati” on wird dabei umso besser, je gr¨ oßer n (die Stichprobe) ist. Die in Abschnitt 7.4.1 durchgef¨ uhrten Betrachtungen u ¨ber die Verteilung von Summen und Mittelwerten verdeutlichen und illustrieren anhand der Abbildungen 7.4.1–7.4.6 diese besagte Vertei” lungskonvergenz“. So l¨ asst sich unabh¨ angig von der Ausgangsverteilung stets feststellen, dass mit wachsendem n die Verteilungen der Summen und Mittelwerte zunehmend symmetrischer werden und der Dichtekurve einer Normalverteilung ¨ahnlicher werden. • ZGWS nach Lindeberg-L´ evy • Wie beim GGZ existieren auch zum ZGWS zahlreiche Varianten, die in Bezug auf die Ausgangsbedingungen unterschiedliche Annahmen stellen (vgl. die Erg¨ anzungen in Abschnitt 8.2.1). Eine f¨ ur unbh¨angige und identisch verteilte Zufallsvariablen h¨ aufig verwendete Variante wird auch zentraler Grenzwertsatz nach Lindeberg und L´ evy bezeichnet (zur Namensgebung siehe Abschnitt 8.2.1). Sie lautet wie folgt: Satz 7.4.3: Zentraler Grenzwertsatz nach Lindeberg-L´ evy Seien X1 , . . . , Xn unabh¨ angig und identisch verteilte Zufallsvariablen mit E(Xi ) = µ und V ar(Xi ) = σ 2 mit 0 < σ 2 < ∞ f¨ ur i = 1, . . . , n. Dann ist ¯ Sn − nµ Xn − µ Zn = √ = p asymptotisch N (0, 1)-verteilt, (7.4.30) 2 σ 2 /n nσ d.h. n→∞

P (Zn ≤ x) = FZn (x) −−−−→ Φ(x) f¨ ur jedes x ∈ R,

(7.4.31)

wobei FZn die Verteilungsfunktion von Zn und Φ die Verteilungsfunktion der Standardnormalverteilung bezeichnet. Wir schreiben daf¨ ur auch kurz a

Zn ∼ N (0, 1).

(7.4.32)

Summe und Mittelwert sind damit f¨ ur großes n approximativ normalverteilt. Konkret gelten folgende Approximationen: Sn ¯n X

approx



N (nµ, nσ 2 ),

(7.4.33)

approx

N (µ, σ 2 /n), .

(7.4.34)



Als Daumenregel verwenden wir n ≥ 30 gilt als groß“. ” • Interpretation • Der Begriff asymptotisch“ wird immer nur bei einer Grenzbe” trachtung f¨ ur n → ∞“ (f¨ ur n gegen unendlich) ” verwendet. Sozusagen f¨ ur n = ∞“ ergibt sich als Grenzverteilung der standardi” sierten Summe (des standardisierten Mittelwerts) eine Standardnormalverteilung. Eine solche Grenzverteilung wird auch als asymptotische Verteilung bezeichnet. Bei einer Betrachtung f¨ ur festes (endliches) n ist das asymptotische Resultat im Allgemeinen nur

386

7 Theoretische Verteilungen und Abh¨angigkeiten

noch approximativ erf¨ ullt, d.h. im Hinblick auf (7.4.31) gilt P (Zn ≤ x) = FZn (x) ≈ Φ(x)

f¨ ur großes n.

(7.4.32) bedeutet also, dass man die Verteilungsfunktion von Zn f¨ ur große n durch Φ approximieren kann. Asymptotische Verteilungen sind als Grenzverteilungen stets von n unabh¨angige Verteilungen sein. Deshalb sind die approximativen Verteilungen in (7.4.33) und (7.4.34) nicht zugleich asymptotische Verteilungen, da sie selbst noch mit n variieren. Vergleichbar w¨are dieser Unterschied beispielsweise mit einer Betrachtung des von n abh¨angigen Terms 1/n. Dieser ist f¨ ur unendlich großes n gleich 0 (konvergiert gegen 0), f¨ ur jedes endliche n jedoch nur approximativ gleich 0. Im Grunde haben wir es hier mit einer weiteren Konvergenzart zu tun. Diese wird als Verteilungskonvergenz oder Konvergenz nach Verteilung bezeichnet und formal u ¨blicherweise u ¨ber die Konvergenz von Verteilungsfunktionen definiert (Abschnitt 8.2.2). Verteilungskonvergenz ist deutlich von stochastischer Konvergenz (Konvergenz nach Wahrscheinlichkeit) zu unterscheiden, die wir im Zusammenhang des GGZ kennengelernt haben. Aus der zentralen Aussage (7.4.30) des ZGWS l¨asst sich folgende weitere h¨aufig anzutreffende Variante ableiten: ¯n − µ a √ X Zn = n ∼ N (0, 1). (7.4.35) σ Diese erh¨alt man, indem man im letzten Ausdruck von (7.4.30) die Wurzel aus n im Nenner vor den Quotienten schreibt. Numerisch ¨andert sich dadurch nat¨ urlich nichts. Letztere Darstellung ist interpretatorisch jedoch interessant, da n1/2 in Bezug auf die stochastische Konvergenz als Konvergenzrate oder Konvergenzgeschwindigkeit interpretiert werden kann. Betrachten wir zu diesem Punkt GGZ und ZGWS zusammen. Mit den Annahmen des ZGWS folgt gem¨ aß GGZ p ¯ n −−→ µ, X was wiederum ¯n − µ p X p ¯ n − µ −− −−→ 0 → 0 und X σ impliziert (vgl. zu diesen Implikationen die Ausf¨ uhrungen zur stochastischen Konvergenz im Abschnitt 8.2.2). Die Differenz zwischen Mittelwert und Erwartungswert konvergiert stochastisch also gegen 0. Zur Verteilungskonvergenz (7.4.35) gelangt man nun, indem man diese Differenz sozusagen mit dem Faktor n1/2 wieder aufbl¨ast“. Damit ” zieht sich die Verteilung der Differenz nicht mehr u ¨ber dem festen Wert 0 zusammen. Sie konvergiert also nicht mehr gegen eine Einpunktverteilung auf 0, sondern gegen eine um die 0 herum konzentrierte Wahrscheinlichkeitsverteilung mit positiver Varianz. Der Faktor n1/2 ist ein Maß daf¨ ur, wie sehr die Differenz aufgeblasen werden muss, um die stochastische Konvergenz gegen die 0 zu verhindern. Somit ist dieser Faktor zugleich auch ein Maß f¨ ur die Geschwindigkeit der stochastischen Konvergenz. Tats¨achlich lassen sich unter alternativen Bedingungen auch schnellere oder langsamere Konvergenzraten f¨ ur bestimmte Grenzverteilungen feststellen.

7.4 Verteilung stochastischer Summen und Mittelwerte

387

• Approximationsg¨ ute und Daumenregel • Die Approximationsg¨ ute in (7.4.33) und (7.4.34) f¨ ur festes n h¨ angt ausschließlich von der Ausgangsverteilung ab. Je st¨arker sich diese von einer Normalverteilung unterscheidet (starke Schiefe, m¨oglicherweise bimodal oder ¨ahnliches), desto gr¨ oßer muss n gew¨ahlt werden, um eine gute Approximation zu erhalten. Abbildung 7.4.10 illustriert dies in der Mitte und rechts anhand der BernoulliVerteilung. Dazu wurde den Abbildungen 7.4.3 und 7.3.4 jeweils die Verteilung der ur den Fall n = 10 Summe von B(1, 0.4)- bzw. B(1, 0.1)-verteilten Zufallsvariablen f¨ entnommen. Man beachte, dass diese Summen exakt B(10, 0.4)- bzw. B(10, 0.1)-verteilt sind mit Erwartungswert 4 bzw. 1 und Varianz 2.4 bzw. 0.9 (Abschnitt 7.3.1). Gem¨aß (7.4.33) sind diese Summen approximativ N (4, 2.4)- bzw. N (1, 0.9)-verteilt. Die entsprechenden Dichtekurven wurden dazu grau eingezeichnet. Bei der B(1, 0.1)-Verteilung treten hierbei erwartungsgem¨ aß st¨ arkere Abweichungen auf. Im Falle der symmetrischen Gleichverteilung aus Abbildung 7.4.1 (W¨ urfelwurf) wird hingegen schon f¨ ur n = 3 eine sehr gute Approximation erzielt, wie man im linken Schaubild erkennen kann. An dieser Stelle sollte angemerkt werden, dass sich in ein und demselben Diagramm normalerweise nicht gleichzeitig diskrete und stetige Verteilungen abbilden und vergleichen lassen, da Wahrscheinlichkeits- und Dichtefunktion unterschiedlich konzipiert und in der Regel auch unterschiedlich skaliert sind. Im vorliegenden Fall ist dies jedoch m¨oglich, da die Tr¨ agerpunkte im Abstand von jeweils 1 eine Reihe bilden. Da sich gleichzeitig die Wahrscheinlichkeiten von aufeinanderfolgenden Tr¨agerpunkte kaum unterscheiden, entspricht die Fl¨ ache der Dichte zwischen zwei Punkten approximativ den entsprechenden Wahrscheinlichkeiten. Diese Approximation ist umso besser, desto gr¨oßer n ist. Alternativ kann auch eine Stetigkeitskorrektur gem¨aß (7.4.47) verwendet werden (vgl. sp¨aterer Punkt nach Beispiel 7.4.2). Abbildung 7.4.11 illustriert links die Approximationsg¨ ute anhand einer stetigen Gleichverteilung u ¨ber [0, 1] als Ausgangsverteilung und in der Mitte anhand einer Exp(1)-Verteilung jeweils f¨ ur n = 3. Die entsprechenden Verteilungen wurden den Abbildungen 7.4.2 und 7.4.5 entnommen. Letztere entspricht einer Erlang(3, 1)-Verteilung. Erwartungswert und Varianz betragen in ersterem Fall 1.5 bzw. 0.25 und in letzterem Fall beide 3. Folglich kann die Verteilung der Summe durch eine N (1.5, 0.25)- bzw. eine N (3, 3)-Verteilung approximiert werden. Bei der schiefen Exp(1)-Verteilung als Ausgangsverteilung treten erwartungsgem¨ aß gr¨ oßere Abweichungen auf als bei der bereits symmetrischen Gleichverteilung. In letzterem Fall wird eine nahezu perfekte Ann¨aherung erzielt, wenngleich mit n = 3 l¨ angst noch kein großer Wert vorliegt. Das rechte Schaubild zeigt die Approximationsg¨ ute f¨ ur die Exp(1)-Verteilung f¨ ur den Fall n = 30. Die exakte Verteilung w¨ are hier dann eine Erlang(30, 1)-Verteilung, die sich dann aber sehr gut durch eine N (30, 30)-Verteilung approximieren ließe. Kriterien zur Verwendbarkeit der Approximationen (7.4.33) und (7.4.34) schwanken und erscheinen teils etwas beliebig. Die in vielen Lehrb¨ uchern zu findende Forderung n ≥ 30“ als Daumenregel sollte f¨ ur die meisten F¨allen in der Praxis tauglich sein, ” solange man zumindest von einer halbwegs symmetrischen unimodalen Ausgangsverteilung ausgehen kann. Außerdem sind Verteilungsapproximationen in der Mitte“ meist ” genauer als am Verteilungsrand.

388

7 Theoretische Verteilungen und Abh¨angigkeiten

Abb. 7.4.10: Approximationsg¨ ute des ZGWS bei verschiedenen diskreten Verteilungen n=3

Würfelwurf

0.20 0.15 0.10 0.05 0.00

0

6

12

n = 10 aus B (1, 0.4)

0.6

18

0.4

0.4

0.2

0.2

0.0

0

2

4

6

8

n = 10 aus B (1, 0.1)

0.6

0.0

10

0

2

4

6

8

10

Abb. 7.4.11: Approximationsg¨ ute des ZGWS bei verschiedenen stetigen Verteilungen n=3 aus U (0, 1)

1.0

n =3 aus E xp (1)

1.0

0.8

0.8

0.08

0.6

0.6

0.06

0.4

0.4

0.04

0.2

0.2

0.02

0.0

0.0

0

1

2

3

0

1

2

3

4

n = 30 aus E xp (1)

0.10

5

6

0.00

0

10

20

30

40

50

60

• Spezialfall: Grenzwertsatz von de Moivre • Die G¨ ultigkeit des ZGWS im Kontext der Binomialverteilung wird h¨ aufig auch als Grenzwertsatz von de Moivre bezeichnet (zur Namensgebung siehe Abschnitt 8.2.1). Dabei wird lediglich der spezielle Fall betrachtet, dass die Ausgangszufallsvariablen, Xi , B(1, π)-verteilt sind. Im engeren Sinne wird der ZGWS also auf die Bernoulli-Verteilung angewendet. Da eine B(1, π)-verteilte Zufallsvariable den Erwartungswert π und die Varianz π(1−π) besitzt, spezialisieren sich die Resultate (7.4.30)–(7.4.34) dann wie folgt: Satz 7.4.4: Grenzwertsatz nach de Moivre Seien X1 , . . . , Xn unabh¨ angig B(1, π)-verteilt. Dann gilt: ¯n − π Sn − nπ X a Zn = p =p ∼ N (0, 1), nπ(1 − π) π(1 − π)/n Sn ¯n X

(7.4.36)

approx

N (nπ, nπ(1 − π)) f¨ ur großes n und

(7.4.37)

approx

N (π, π(1 − π)/n) f¨ ur großes n.

(7.4.38)





• Anwendung • Viele inferenztheoretische Betrachtungen und Methoden, die in Teil 3 behandelt werden, basieren auf asymptotischen Resultaten, die sich mithilfe des ZGWS begr¨ unden lassen. Der ZGWS ist jedoch nicht nur aus theoretischer Sicht von großer

7.4 Verteilung stochastischer Summen und Mittelwerte

389

Bedeutung, sondern er kann auch beim Berechnen ganz konkreter Ereigniswahrscheinlichkeiten von großem praktischen Nutzen sein. So ist er immer dann besonders hilfreich, wenn die Bestimmung der exakten Verteilung einer Summe oder eines Mittelwertes nur mit großem Aufwand verbunden w¨ are. Folgende Beispiele m¨ogen dies verdeutlichen.

• Beispiel 7.4.1 • Gegeben sei die Situation aus Beispiel D1-a in Abschnitt 7.1.1. Hierbei wird mit X eine diskrete Zufallsvariable betrachtet, welche die Anzahl mitreisender Kinder bei Pauschalreisen eines Reiseveranstalters angibt. Dabei gilt: P (X = 0) = 0.4, P (X = 1) = 0.2, P (X = 2) = 0.3, P (X = 3) = 0.1. Erwartungswert und Varianz von X wurden in Abschnitt 7.2.1 mit E(X) = 1.1 und V ar(X) = 1.09 bereits berechnet. Angenommen, der Reiseveranstalter m¨ochte ein Kontingent von 50 buchbaren Reisen verkaufen. Mit wie vielen mitreisenden Kindern muss dabei realistischerweise gerechnet werden? Sofern die einzelnen Buchungen u ¨ber identisch wie X verteilte Zufallsvariablen X1 , X2 , . . . , X50 modelliert werden, k¨ onnte man den Wert 55 als erste Orientierungsgr¨ oße angeben. Dies ist ein Erwartungswert und begr¨ undet sich auf dem Kalk¨ ul: E(S50 ) =

50 X

E(Xi ) = 50 · 1.1 = 55.

i=1

ucksichtigt. Aus ¨okonomischer Sicht w¨are Die Zuf¨alligkeit wird hierbei jedoch nicht ber¨ es sicherlich interessanter eine realistische Schwankungsbreite“ angeben zu k¨onnen. ” Da n mit n = 50 bereits groß“ ist, kann man unter der zus¨atzlichen Annahme, dass ” X1 , . . . , X50 unabh¨ angig sind, die Verteilung von S50 mithilfe des ZGWS mit einer Normalverteilung approximieren. Da V ar(S50 ) =

50 X

V ar(Xi ) = 50 · 1.09 = 54.5

i=1

ist, erhalten wir gem¨ aß (7.4.33) konkret die Approximation S50

approx



N (55, 54.5).

Gem¨aß (7.3.22) werden 5%- und 95%-Quantil dieser Verteilung dann berechnet als √ √ q0.05 = 55 + 54.5 · z0.05 bzw. q0.95 = 55 + 54.5 · z0.95 Mit z0.05 ≈ −1.64 und z0.95 ≈ 1.64 (Tab. A.1) erhalten wir konkret q0.05 ≈ 42.9 und q0.95 ≈ 67.1. Mit einer Wahrscheinlichkeit von 95% sollte die Anzahl mitreisender Kinder bei 50 gebuchten Reisen unter diesen Annahmen also irgendwo zwischen 43 und 67 liegen. Angenommen, ab 70 Kindern erleide der Reiseveranstalter bestimmte finanzielle Einbußen, beispielsweise bedingt durch eine zu hohe Anzahl gew¨ahrter Erm¨aßigungen. Wie groß ist dann die Wahrscheinlichkeit, dass ein solcher Fall tats¨achlich eintritt? Mit obiger Verteilungsapproximation bestimmt man f¨ ur diesen Fall die (approximative)

390

7 Theoretische Verteilungen und Abh¨angigkeiten

Wahrscheinlichkeit daf¨ ur, dass die Summe gr¨ oßer oder gleich 70 ist:  S − 55 69 − 55  50 P (S50 ≥ 70) = 1 − P (S50 ≤ 69) = 1 − P √ ≤ √ 54.5 54.5 ≈ 1 − Φ(1.90) ≈ 1 − 0.9713 = 0.0287. Man beachte, dass mit der Approximation durch die stetige Normalverteilung Gleichheitszeichen an sich irrelevant werden. Insofern w¨are es im ersten Schritt auch nicht verkehrt, mit 1 − P (S50 ≤ 70) anzusetzen. Daf¨ ur erhielte man dann eine Wahrscheinlichkeit von 2.1%, was im Grunde keinen wesentlichen Unterschied ausmachen w¨ urde. Insgesamt erscheint der Eintritt dieses Falles unter den gegebenen Annahmen auf jeden Fall sehr unwahrscheinlich.

• Beispiel 7.4.2 • Fluggesellschaften verkaufen manchmal mehr Tickets, als eigentlich Pl¨atze zur Verf¨ ugung stehen, da Buchungen regelm¨aßig kurzfristig storniert werden oder aus anderen Gr¨ unden der Flug nicht angetreten wird. Angenommen, die Wahrscheinlichkeit, dass ein Passagier auf einer bestimmten Strecke seine Reise tats¨achlich antritt, betrage 90%. Auf dieser Strecke werde eine Maschine mit 200 Sitzpl¨atzen eingesetzt. Mit welcher Wahrscheinlichkeit wird diese Maschine dann entweder (i) voll, (ii) mit genau 180 Passagieren, (iii) mit h¨ochstens 190 Passagieren besetzt abheben, sofern genau 200 Tickets verkauft wurden? Prinzipiell werden die Ticketk¨ aufe zun¨ achst einmal u ¨ber B(1, 0.9)-verteilte Zufallsvariablen X1 , . . . , X200 modelliert. Dabei gilt Xi = 1, falls der i-te Passagier seine Reise antritt und Xi = 0, falls dieser seine Reise nicht antritt. Werden die Entscheidungen der Passagiere zum Reiseantritt als unabh¨ angig voneinander angenommen, ist die Anzahl aller Passagiere, die wir mit S200 notieren, exakt B(200, 0.9)-verteilt, d.h. S200 =

200 X

Xi ∼ B(200, 0.9).

(7.4.39)

i=1

ugend groß ist, erhalten wir mit (7.4.37) die ZGWS-Approximation Da n = 200 gen¨ S200

approx



N (180, 18).

(7.4.40)

F¨ ur (i)–(iii) sind P (S200 = 200), P (S200 = 180) und P (S200 ≤ 190) von Interesse. Diese Wahrscheinlichkeiten k¨ onnen aufgrund der G¨ ultigkeit von (7.4.39) prinzipiell exakt bestimmt werden, sofern ein entsprechend f¨ ahiger Taschenrechner“ zur Verf¨ ugung steht. ” Man erh¨alt zu (i): P (S200 = 200) = 0.9200 ≈ 0.000 000 000 7055,   200 zu (ii): P (S200 = 180) = 0.9180 (1 − 0.9)20 ≈ 0.0936 und 180  190  X 200 zu (iii): P (S200 ≤ 190) = 0.9s (1 − 0.9)200−s ≈ 0.9965. s s=0

7.4 Verteilung stochastischer Summen und Mittelwerte

391

Mit der ZGWS-Approximation (7.4.40) erh¨ alt man f¨ ur (iii)  S − 180 190 − 180  200 √ √ P (S200 ≤ 190) = P ≤ ≈ Φ(2.36) ≈ 0.9909, 18 18 usste was gr¨oßenm¨aßig dem exakten Wert sehr nahe kommt. In Bezug auf (i) und (ii) m¨ man aufgrund der Stetigkeit der Normalverteilung eigentlich mit P (S200 = 200) ≈ 0 bzw. P (S200 = 180) ≈ 0 approximieren. Aufgrund der im Punkt Approximationsg¨ ute und Daumenregel“ zuvor ” ¨ durchgef¨ uhrten Uberlegungen ist es in diesem Fall jedoch auch m¨oglich und sinnvoller, den Dichtewert der approximierenden N (180, 18)-Verteilung als N¨aherungswert zu nehmen. Mit  (s − 180)2  1 fS200 (s) = √ exp − (7.4.41) 2 · 18 2π · 18 erh¨alt man dar¨ uber dann P (S200 = 200) ≈ fS200 (200) = 0.000 001 405 bzw. P (S200 = 180) ≈ fS200 (180) = 0.0940. Inhaltlich betrachtet ist es insgesamt auf jeden Fall extrem unwahrscheinlich, dass die Maschine vollbesetzt startet, sofern 200 Tickets verkauft werden. Die Wahrscheinlichkeit f¨ ur h¨ochstens 190 Passagiere, also mindestens 10 frei bleibende Pl¨atzen, liegt bei u ¨ber 99%. Die Wahrscheinlichkeit, dass wie erwartet genau 10% der Sitzpl¨atze frei bleiben, betr¨agt ca. 9%. Abb. 7.4.12: Illustration zu Beispiel 7.4.2. ZGWS-Approximationen und Stetigkeitskorrektur bei Überbuchung

0.08 0.06

90%

0.04 0.02

max. Kapazität

Passagiere... bei Ausverkauf

0.10

10%

0.00 165

170

175

180

185

190

195

200

205

210

Nun k¨onnte man fragen, wie viele Tickets u ¨ber die eigentliche Sitzplatzanzahl hinaus verkauft werden k¨ onnten, sodass h¨ ochstens mit einer Wahrscheinlichkeit von 10% die Pl¨atze nicht ausreichen w¨ urden? Im Rahmen eines solchen Optimierungskalk¨ uls erscheint die Verwendung der ZGWS-Approximation eleganter und praktikabler. Ansonsten k¨onnte man durch Ausprobieren“ verschiedener Binomialverteilungen ” B(201,0.9), B(202,0.9), B(203,0.9) usw.

392

7 Theoretische Verteilungen und Abh¨angigkeiten

die Wahrscheinlichkeit von P (Sn ≤ 200) einer entsprechend verteilten Zufallsgr¨oße berechnen. Da n auf jeden Fall gr¨ oßer als 200 und damit auch weiterhin groß genug sein wird, k¨onnen wir die Approximation Sn

approx



N (n · 0.9, n · 0.9 · 0.1) = N (0.9n, 0.09n)

(7.4.42)

verwenden. Der Ansatz lautet dann  S − 0.9n  200 − 0.9n  200 − 0.9n  n P (Sn ≤ 200) = P √ ≤ √ ≈Φ √ ≥ 0.9, (7.4.43) 0.09n 0.09n 0.09n osen ist. Es ist klar, dass der Ausdruck wobei letzte Ungleichung nach n zu l¨ 200 − 0.9n √ 0.09n wertm¨aßig gr¨oßer oder gleich dem 0.9-Quantil der N (0, 1)-Verteilung sein muss. Anstelle von (7.4.43) betrachten wir deshalb die Ungleichung 200 − 0.9n √ (7.4.44) ≥ z0.9 ≈ 1.28 (vgl. Tab. A.1). 0.09n und l¨osen diese dann nach n auf. Hierbei ist die Restriktion 200 − 0.9n ≥ 0, d.h. n ≤ 222.22,

(7.4.45)

zu beachten. Mit einfachen Umformungen f¨ uhrt (7.4.44) zur quadratischen Ungleichung n2 − 444.63 + 49 382.7 ≥ 0.

(7.4.46)

Mit u ¨blichen Berechnungsformeln ( p-q-Formel“) erhalten wir als L¨osungen ” p n1 = 0.5 · 444.63 − 0.5 444.632 − 4 · 49 382.7 ≈ 215.9 und p n2 = 0.5 · 444.63 + 0.5 444.632 − 4 · 49 382.7 ≈ 228.7. Die linke Seite von (7.4.46) ist eine nach oben offene Parabel, die an den Stellen n1 bzw. n2 den Wert Null annimmt. Ungleichung (7.4.46) ist dann erf¨ ullt, sofern n ≤ 215.9 oder n ≥ 228.7 ist. Aufgrund der Restriktion (7.4.45) lautet die korrekte L¨osung n ≤ 215.9. Folglich d¨ urfen h¨ochstens 216 Tickets verkauft werden. Dann betr¨agt die Wahrscheinlichkeit, dass h¨ochstens 200 Passagiere die Reise antreten, ca. 90%. Die Wahrscheinlichkeit, dass die Sitzpl¨atze nicht ausreichen, betr¨ agt damit also ca. 10%. Abbildung 7.4.12 illustriert den Kalk¨ ul. Eingezeichnet ist die exakte Verteilung der Passagieranzahl bei normalem Ausverkauf von 200 Tickets – eine B(200, 0.9)-Verteilung. Gestrichelt ist die approximierende Dichte (7.4.41) dargestellt. Die in Grau eingezeichnete Dichte ent¨ spricht der approximativen Verteilung bei maximaler Uberbuchung mit 216 Tickets: N (194.4, 19.44) ≈ B(216, 0.9). • Stetigkeitskorrektur f¨ ur einzelne Tr¨ agerpunkte • Eine h¨aufig als Stetigkeitskorrektur bezeichnete Approximationsvariante bei einer diskret verteilten Summe Sn besteht darin, die Wahrscheinlichkeit eines bestimmten Wertes s0 durch Z s0 +0.5 P (Sn = s0 ) ≈ fSn (s)ds (7.4.47) s0 −0.5

7.4 Verteilung stochastischer Summen und Mittelwerte

393

zu approximieren. In Abbildung 7.4.12 wird dies f¨ ur s0 = 180 angedeutet. Dies setzt allerdings voraus, dass die Tr¨ agerpunkte einen Abstand von jeweils 1 haben (siehe vorheriger Punkt Approximationsg¨ ute und Daumenregel“). Im Falle einer B(n, π)-Verteilung, ” bei der dies ja der Fall ist, f¨ uhrt dies allgemein dann zur Approximation P (Sn = s0 ) ≈ P (s0 − 0.5 ≤ Sn ≤ s0 + 0.5)  s − 0.5 − nπ Sn − nπ s0 + 0.5 − nπ  0 =P p ≤p ≤ p nπ(1 − π) nπ(1 − π) nπ(1 − π)  s + 0.5 − nπ   s − 0.5 − nπ  0 0 ≈Φ p −Φ p . (7.4.48) nπ(1 − π) nπ(1 − π) In Beispiel 7.4.2 erhalten daraus dann mit n = 200 und π = 0.9 f¨ ur (i) und (ii): P (S200 = 200) ≈ 0.000 001 5 bzw. P (S200 = 180) ≈ 0.0938. Auch diese Werte sind zu den exakten Wahrscheinlichkeiten f¨ ur (i) und (ii) sehr ¨ahnlich. • Kritische Pr¨ ufung der Annahmen des ZGWS • Die Annahme identisch verteilter Zufallsvariablen mit bestimmten Erwartungswerten und Varianzen muss f¨ ur alle Beobachtungen tats¨ achlich gelten. Sie ist insbesondere dann verletzt, wenn eine gegebene Situation u asentativ f¨ ur diese Annahmen ist. So kann in Beispiel ¨berhaupt nicht repr¨ 7.4.1 die Anzahl mitreisender Kinder beispielsweise zu unterschiedlichen Zeiten im Jahr v¨ollig unterschiedlich verteilt sein. In Beispiel 7.4.2 kann die Zahl kurzfristiger Stornierungen stark vom Reiseziel, dem jeweiligen Kundenkreis oder dem Wochentag abh¨angen. Eine angenommene Ausfallwahrscheinlichkeit von 10% w¨are dann m¨oglicherweise v¨ollig unzutreffend. Von mindestens ebenso großer Wichtigkeit ist die G¨ ultigkeit der Unabh¨angigkeitsannahme. In Beispiel 7.4.1 k¨ onnte diese beispielsweise verletzt sein, wenn Familien mit Kindern immer nur dann eine Reise buchen, falls bereits gen¨ ugend Reisen mit Kindern gebucht wurden ( unsere Kinder sollen mit anderen Kindern spielen k¨onnen“). ” Zus¨atzlich versch¨ arfen k¨ onnte sich dieser Umstand, wenn bereits gebuchte Reisen wieder storniert werden, falls insgesamt zu wenige Kinder mitreisen. Im Extremfall w¨are dann die Summe mitreisender Kinder nur entweder relativ groß oder praktisch gleich 0. Daraus erg¨abe sich im Endeffekt eine bimodale Verteilung f¨ ur die Summenverteilung, aber keine symmetrische Normalverteilung. In Beispiel 7.4.2 w¨are die Unabh¨angigkeitsannahme beispielsweise verletzt, wenn gr¨ oßere Kontingente der Tickets regelm¨aßig von Firmen gebucht werden, die des ¨ ofteren kurzfristig alles wieder stornieren. Der Effekt k¨onnte sich in ¨ahnlicher Weise wie zuvor u ¨ber Bimodalit¨at ¨außern. Ein anderer Fall, in dem die Unabh¨angigkeitsannahme meist verletzt ist, tritt bei Zeitreihen auf. Werden Beobachtungen zu verschiedenen Zeitpunkten erhoben, erscheint es h¨aufig inad¨aquat diese als Realisationen unabh¨ angiger Zufallsvariablen aufzufassen.

Kapitel 8: Erg¨ anzungen und Verallgemeinerungen In Abschnitt 8.1 werden weitere eindimensionale Verteilungen kurz vorgestellt, die zu den allgemein bekannten Standardverteilungen“ z¨ahlen. Auf diese Weise lassen sich ” auch verschiedene Beziehungen einzelner Verteilungen zueinander besser aufzeigen. Darauf folgen in Abschnitt 8.2 einige n¨ utzliche Erg¨anzungen zur asymptotischen Theorie im Zusammenhang des GGZ und ZGWS. In Abschnitt 8.3 werden schließlich einige M¨ oglichkeiten zur Verallgemeinerung verschiedener Konzepte aus Kapitel 7 f¨ ur den Fall von Zufallsvektoren aufgezeigt.

8.1 Weitere eindimensionale Verteilungen Weitere erw¨ahnenswerte Verteilungen sind im diskreten Fall die hypergeometrische Verteilung , die geometrische Verteilung und die negative Binomialverteilung . Im stetigen Fall z¨ ahlen hierzu die Gamma-Verteilung , die χ -, t- und FVerteilung sowie die Cauchy-Verteilung . Außerdem gibt es noch Verteilungen, die weder diskret noch stetig sind, sowie Verteilungsabwandlungen in Form von Mischung, Stutzung oder Zensierung.

8.1.1 Weitere diskrete Verteilungen • Hypergeometrische Verteilung • Gegeben sei eine vergleichbare Situation wie in Abbildung 7.3.2 (Abschnitt 7.3.1). In einer Urne mit N Kugeln seien M Kugeln schwarz und N − M Kugeln weiß. In der Modellvorstellung der Binomialverteilung werden n Kugeln mit Zur¨ ucklegen gezogen, wobei die Anzahl der schwarzen Kugeln in der Stichprobe, bezeichnet mit Sn , dann B(n, π)-verteilt ist mit π = M/N . Werden die Kugeln ohne Zur¨ ucklegen gezogen, gen¨ ugt Sn einer hypergeometrischen Verteilung mit Parametern n, M und N , kurz Sn ∼ H(n, M , N ). Die Wahrscheinlichkeit daf¨ ur, dass genau s schwarze Kugeln gezogen werden, betr¨agt dabei   M N −M P (Sn = s) =

s

n−s  N n

.

Denn insgesamt gibt es  N oglichkeiten aus N Kugeln n St¨ uck, n M¨  M oglichkeiten aus M schwarzen Kugeln s St¨ uck und s M¨  N −M M¨oglichkeiten aus N − M weißen Kugeln n − s St¨ uck n−s

8.1 Weitere eindimensionale Verteilungen

395

zu ziehen. Die Parameter n, M und N unterliegen dabei gewissen Restriktionen. Beispielsweise muss stets gelten n ≤ N , da nicht mehr Kugeln gezogen werden k¨onnen als sich u urlich stets auch M ≤ N gelten. Es ¨berhaupt in der Urne befinden. Ebenso muss nat¨ sollte klar sein, dass sich hypergeometrische Verteilung und Binomialverteilung sehr ¨ahnlich sind, falls nur ein geringer Anteil der Kugeln gezogen wird. Ist der auch als Auswahlsatz bezeichnete Quotient n/N beispielsweise kleiner als 5% (Daumenregel), unterscheiden sich die Wahrscheinlichkeiten beider Verteilungen nur noch geringf¨ ugig. Im Lottospiel 6 aus 49“ k¨ onnen wir die Anzahl richtiger Tipps aus einer entspre” chenden hypergeometrischen Verteilung errechnen. Dabei bilden die richtigen Tipps die schwarzen Kugeln und die falschen Tipps die weißen Kugeln. Bei beispielsweise genau 2 richtigen Tipps zieht man aus den 6 schwarzen Kugeln 2 St¨ uck und aus den 43 weißen Kugeln die 4 restlichen Kugeln. Auf diese Weise erh¨alt man dann etwa die Wahrscheinlichkeit f¨ ur h¨ochstens 2 Richtige im Lotto aus der Summe von     6 49−6 6 49−6 P (S6 = 0) =

0

6 2



P (S6 = 2) =

6−0  49 6  49−6 6−2  49 6

≈ 0.4360, P (S6 = 1) =

1

6−1  49 6

≈ 0.4130,

≈ 0.1324.

ur mehr als 2 richtige Tipps betr¨agt mit Die Wahrscheinlichkeit f¨ 1 − 0.4360 − 0.4130 − 0.1324 = 0.0186 also lediglich etwa 1.9%. • Geometrische Verteilung • Eine diskrete Zufallsvariable X heißt geometrisch verteilt mit Parameter π ∈ (0, 1), kurz X ∼ Geo(π), falls sie die Wahrscheinlichkeitsfunktion ( (1 − π)x π, x = 0, 1, 2, . . . , fX (x) = P (X = x) = 0, sonst, besitzt. Man beachte, dass f¨ ur 0 < π < 1 jeder noch so großen nat¨ urlichen Zahl eine positive Wahrscheinlichkeit zugeordnet wird. Die Tr¨agermenge ist also abz¨ahlbar unendlich groß. Die geometrische Verteilung eignet sich zur Modellierung diskret gemessener Wartezeiten bis zum erstmaligen Eintreten bestimmter Ereignisse. Sie kann damit als diskretes Pendant zur stetigen Exponentialverteilung (Abschnitt 7.3.2) erachtet werden. Beispielsweise kann beim W¨ urfelwurf die Anzahl von Fehlversuchen, die man ben¨otigt, bis zum ersten Mal eine 6 f¨ allt, durch eine Geo(1/6)-Verteilung modelliert werden. F¨allt beispielsweise erst im 4. Versuch eine 6, so impliziert dies genau 3 Fehlversuche. Nach den Rechenregeln f¨ ur unabh¨ angige Ereignisse betr¨agt die Wahrscheinlichkeit daf¨ ur  5 3 1 P (X = 3) = · ≈ 0.0965. 6 6 • Negative Binomialverteilung • Eine diskrete Zufallsvariable X heißt negativ binomialverteilt mit Parametern n ∈ N0 und π ∈ (0, 1), kurz X ∼ N B(n, π), falls

396

8 Erg¨anzungen und Verallgemeinerungen

sie die Wahrscheinlichkeitsfunktion ( fX (x) = P (X = x) =

n+x−1 x

 n π (1 − π)x ,

0,

f¨ ur x = 0, 1, 2, . . . , sonst,

besitzt. Die Tr¨agermenge ist wiederum abz¨ ahlbar unendlich groß. F¨ ur n = 1 ergibt sich gerade eine geometrische Verteilung. Mit der negativen Binomialverteilung lassen sich diskret gemessene Wartezeiten bis zum n-ten Eintreten bestimmter Ereignisse modellieren. Somit stellt die negative Binomialverteilung eine Verallgemeinerung der geometrischen Verteilung dar. Zugleich kann gezeigt werden, dass die Summe aus n unabh¨angigen Geo(π)-verteilten Zufallsvariablen N B(n, π)-verteilt ist. Nichtformal ausgedr¨ uckt gilt also: Geo(π) + · · · + Geo(π) = N B(n, π). Die negative Binomialverteilung stellt damit das diskrete Pendant zur stetigen Erlangverteilung dar (Abschnitt 7.4.1). Beispielsweise kann beim W¨ urfelwurf die Anzahl von Fehlversuchen, die man insgesamt ben¨otigt, bis zum dritten Mal eine 6 f¨allt, durch eine N B(3, 1/6)-Verteilung modelliert werden. So betr¨ agt dann etwa die Wahrscheinlichkeit f¨ ur genau 18 Fehlversuche       1 3 1 18 20 P (X = 18) = · · ≈ 0.0330. 18 6 6

8.1.2 Weitere stetige Verteilungen • Gamma-Verteilung • Eine stetige Zufallsvariable X heißt gammaverteilt mit den Parametern δ > 0 und λ > 0, kurz X ∼ Gamma(δ, λ), falls sie die Dichtefunktion λδ xδ−1 −λx e I[0,∞) (x) (8.1.1) Γ (δ) besitzt. Dabei bezeichnet Γ(·) die Gammafunktion, die f¨ ur δ > 0 definiert ist als Z ∞ Γ (δ) = xδ−1 e−x dx. (8.1.2) fX (x) =

0

Es l¨asst sich zeigen, dass speziell f¨ ur δ = n ∈ N Γ (n) = (n − 1)! gilt. Aus (8.1.1) ergibt sich f¨ ur δ ∈ N die Dichte (7.4.26) einer Erlangverteilung . Wie bereits in Abschnitt 7.4.1 festgehalten, gen¨ ugt die Summe aus n unabh¨angigen Exp(λ)-verteilter Zufallsvariablen einer Erlang(n, λ)-Verteilung. Eine Exp(λ)Verteilung ist damit eine Erlang(1, λ)- und eine Gamma(1, λ)-Verteilung, und eine Erlang(n, λ)-Verteilung ist eine Gamma(n, λ)-Verteilung. Weiter kann gezeigt werden: Sind X1 ∼ Gamma(δ1 , λ) und X2 ∼ Gamma(δ2 , λ) unabh¨angig, so gilt X1 + X2 ∼ Gamma(δ1 + δ2 , λ), informal ausgedr¨ uckt also: Gamma(δ1 , λ) + Gamma(δ2 , λ) = Gamma(δ1 + δ2 , λ).

8.1 Weitere eindimensionale Verteilungen

397

In Abschnitt 7.3.2 wurde der Zusammenhang zwischen der Poisson-Verteilung und der Exponentialverteilung aufgezeigt. Demnach ist die Wartezeit zwischen aufeinander folgenden Ereignissen Exp(λ)-verteilt, sofern die Anzahl des Auftretens solcher Ereignisse in einem vorgegebenen Zeitfenster P o(λ)-verteilt ist. Es l¨asst sich zeigen, dass die (stetige) Wartezeit bis zum n-ten Ereignis Erlang(n, λ)-verteilt ist. Sofern also etwa eine Wartezeit bis zum n¨ achsten Notruf in einer Notrufzentrale durchschnittlich m Minuten betr¨agt, m¨ ussen durchschnittlich n · m Minuten bis zum n-ten Notruf gewartet werden. Die Erlangverteilung stellt damit das stetige Pendant zur diskreten negativen Binomialverteilung dar (voriger Punkt). Spezielle Gamma-Verteilungen F¨ ur λ > 0 und n ∈ N gelten folgende Zusammenh¨ange: Gamma(1, λ) = Exp(λ) = Erlang(1, λ), Gamma(n, λ) = Erlang(n, λ),

(8.1.3) (8.1.4)

Abb. 8.1.1: Dichten der χ2 -Verteilung und t-Verteilung

0.5 0.4 0.3 0.2 0.1 0.0

0.5 0.4 0.3 0.2 0.1

χ2(n)−Dichten n=2 n=5 n=10

0

4

8

12

16

20

t (n ) − Dichten n=1 n=5 N(0,1)

−2

0

2

4

urliches • χ2 -Verteilung • Eine Gamma(n/2, 1/2)-Verteilung bezeichnet man f¨ ur nat¨ n auch als χ2 -Verteilung , kurz X ∼ χ (n). Die Dichte ist damit ein Spezialfall von (8.1.1). Eine χ2 -verteilte Zufallsvariable nimmt nur nichtnegative Werte an. In Abbildung 8.1.1, links, sind die Dichten von χ2 -Verteilungen mit 2, 5 bzw. 10 Freiheitsgraden dargestellt. Folgende wichtige Aussage kann man zeigen: Wenn Z1 , . . . , Zn ∼ N (0, 1) u.i.v. sind, dann ist n X Zi2 = Z12 + · · · + Zn2 ∼ χ2 (n). (8.1.5) X := i=1

F¨ ur standardnormalverteilte Zi sind E(Zi ) = 0, V ar(Zi ) = E(Zi2 ) = 1 und E(Zi4 ) = 3. Daraus folgt nach der Verschiebungformel : V ar(Zi2 ) = E(Zi4 ) − (E(Zi2 ))2 = 3 − 12 = 2. Da die Zi u.i.v. sind, sind die Zi2 auch u.i.v. und es gilt: Aus X ∼ χ2 (n) folgen damit E(X) = E(Z12 + · · · + Zn2 ) = E(Z12 ) + · · · + E(Zn2 ) = n

und

398

8 Erg¨anzungen und Verallgemeinerungen V ar(X) = V ar(Z12 + · · · + Zn2 ) = V ar(Z12 ) + · · · + V ar(Zn2 ) = 2n.

Die χ2 -Verteilung besitzt in der schließenden Statistik eine große Bedeutung. Ihre Quantile werden mit χ2n,α bezeichnet und sind in Tabelle A.3 im Anhang vertafelt. Beziehung der χ2 -Verteilung zu anderen Verteilungen F¨ ur n ∈ N gelten folgende Zusammenh¨ ange: χ2 (n) = Gamma(0.5n, 0.5), 2

χ (2) = Gamma(1, 0.5) = Erlang(1, 0.5) = Exp(0.5).

(8.1.6) (8.1.7)

• t-Verteilung • Eine stetige Zufallsvariable X heißt t-verteilt (auch Studentverteilt) mit n Freiheitsgraden, n > 0, kurz X ∼ t(n), falls sie die Dichtefunktion n+1 x 2 − 2 Γ ((n + 1)/2)  1+ (8.1.8) fX (x) = √ n nπΓ (n/2) besitzt. Das α-Quantil einer t-Verteilung mit n Freiheitsgraden bezeichnen wir mit tn,α . In Abbildung 8.1.1, rechts, sind die Dichten der t-Verteilung mit n = 1 und n = 5 ¨ Freiheitsgraden abgebildet. Die t-Verteilung besitzt große Ahnlichkeit mit der Standardnormalverteilung. Ihre Dichte ist symmetrisch um 0 und hat ebenfalls die Gestalt einer Glockenkurve. Allerdings ist der Gipfel flacher und die R¨ander der Verteilung sind st¨arker ausgepr¨ agt. F¨ ur gr¨ oßer werdendes n konvergiert die Dichte der t-Verteilung gegen die Dichte der Standardnormalverteilung. Diese Konvergenz impliziert, dass die Quanile einer t(n)-Verteilung f¨ ur großes n (n ≥ 30) mithilfe der entsprechenden Quantile der Standardnormalverteilung approximiert werden k¨onnen: tn,α ≈ zα . Der Erwartungswert von X ist aufgrund der Symmetrie der Dichtefunktion bzgl. 0 f¨ ur n > 1 gleich 0. Allerdings existiert er f¨ ur n ≤ 1 nicht. Die Varianz ist f¨ ur n ≤ 2 unendlich und f¨ ur n > 2 gegeben durch n . V ar(X) = n−2 Man kann zeigen: Wenn Z ∼ N (0, 1) und Yn ∼ χ2 (n) unabh¨angig sind, dann ist Z ∼ t(n). (8.1.9) Xn := p Yn /n Mit dieser Darstellung kann man auch die Konvergenz der t-Verteilung gegen eine Normalverteilung erkl¨ aren. Dazu w¨ ahlen wir f¨ ur Yn eine Darstellung gem¨aß (8.1.5), d.h. Z1 , . . . , Zn seien u.i.v. standardnormalverteilt und Yn = Z12 + · · · + Zn2 . Dann gilt nach dem GGZ n Yn 1X 2 p = Z −−→ E(Zi2 ) = 1. n n i=1 i a

Mit Z ∼ N (0, 1) und damit auch Z ∼ N (0, 1) folgt mit (8.2.8) aus Slutsky’s Theorem a (Satz 8.2.5): Xn ∼ N (0, 1). Damit ist Xn f¨ ur große n approximativ standardnormalverteilt.

8.1 Weitere eindimensionale Verteilungen

399

Da die t-Verteilung in der schließenden Statistik eine sehr wichtige Rolle spielt, sind ihre Quantile vertafelt (Tabelle A.2 im Anhang). • Cauchy-Verteilung • Eine stetige Zufallsvariable X heißt Cauchy-verteilt mit den Parametern α ∈ R und β > 0, kurz X ∼ C(α, β), falls sie die Dichtefunktion 1   fX (x) = (8.1.10) 2 πβ 1 + (x−α) β2 besitzt. Dabei bezeichnet π die Kreiszahl (3.1416). Es handelt sich um eine unimodale symmetrische Verteilung, wobei der Parameter α die Lage des Medians bzw. Modalwerts festlegt und der Parameter β in gewisser Weise die Streuung. Speziell f¨ ur α = 0 und β = 1 erh¨alt man eine t(1)-Verteilung (voriger Punkt) und spricht auch von einer Standard-Cauchy-Verteilung . Diese wurde bereits in Beispiel S1-e (Abschnitt 7.2.3) im Kontext nicht endlicher Momente thematisiert. Es l¨asst sich n¨amlich zeigen, dass der Erwartungswert einer Cauchy-verteilten Zufallsvariable im Sinne der in Abschnitt 7.2.3 getroffenen Definition nicht endlich ist. Somit sind auch alle h¨oheren Momente, insbesondere also auch die Varianz, nicht endlich. Sind X1 ∼ C(α1 , β1 ) und X2 ∼ C(α2 , β2 ) unabh¨angig, so gilt: X1 + X2 ∼ C(α1 + α2 , β1 + β2 ), informal ausgedr¨ uckt also: C(α1 , β1 ) + C(α2 , β2 ) = C(α1 + α2 , β1 + β2 ). Ein formaler Beweis dazu findet sich etwa bei Rohatgi und Saleh [2001, Abschnitt 5.3.4]). Die Summe n unabh¨ angiger Cauchy-verteilter Zufallsvariablen Sn = X1 + X2 + · · · + Xn mit Xi ∼ C(αi , βi ) ist demnach n n X  X C αi , βi -verteilt i=1

i=1

mit Dichte " fSn (x) = π

n X i=1

 βi

Pn #−1 (s − i=1 αi )2 Pn . 1+ ( i=1 βi )2

(8.1.11)

Daraus erh¨alt man gem¨ aß (7.4.19) als Dichte des Mittelwerts " n Pn #−1 X  (nx − i=1 αi )2 Pn fX¯ n (x) = nfSn (nx) = n · π βi 1 + ( i=1 βi )2 i=1 " Pn  #−1 n (x − n1 i=1 αi )2 1X Pn = π· βi 1 + . n i=1 ( n1 i=1 βi )2 Folglich gilt n

n

1X 1X ¯ n ∼ C(¯ αi und β¯n = βi . X αn , β¯n ) mit α ¯n = n i=1 n i=1

(8.1.12)

400

8 Erg¨anzungen und Verallgemeinerungen

Sind X1 , . . . , Xn unabh¨ angig und identisch verteilt mit Xi ∼ C(α, β) implizieren (8.1.11) und (8.1.12) Sn ∼ C(nα, nβ) bzw. ¯ n ∼ C(α, β). X

(8.1.13) (8.1.14)

W¨ahrend (8.1.13) dem Resultat (7.4.22) bei einer Normalverteilung sehr ¨ahnlich ist, weicht (8.1.14) fundamental von den bisherigen Resultaten f¨ ur stochastische Mittel ab. Resultat (8.1.14) besagt, dass der Mittelwert identisch verteilt ist wie die Verteilung der Ausgangsvariablen selbst. Die Verteilung zieht sich also nicht u ¨ber dem Lagewert α zusammen (vgl. Abb. 8.1.2). Es liegt keine stochastische Konvergenz gegen α vor. Offensichtlich gilt stattdessen: ¯ n > α) = 0.5 f¨ P (X ur n ≥ 1. Abb. 8.1.2: Verteilung von Summe und Mittelwert bei einer Cauchy-Verteilung 0.4

Ausgangsverteilung C (1, 1)

0.3

0.2

0.1

0.1

−2

0

2

4

6

0.0

n =3

0.4

X 2 ~ C (1, 1)

0.3

0.2

0.0

n =2

0.4

X 3 ~ C (1, 1)

0.3

S 2 ~ C (2, 2)

0.2

S 3 ~ C (3, 3)

0.1

−2

0

2

4

6

0.0

−2

0

2

4

6

8.1.3 Sonstige eindimensionale Verteilungen • Weder diskret noch stetig • Neben diskreten und stetigen Zufallsvariablen existieren auch solche, die weder diskret noch stetig sind. Wird beispielsweise der w¨ochentliche Fernsehkonsum in Stunden erhoben, so mag es vorkommen, dass ein erheblicher Anteil von Personen den (diskreten) Wert 0 (keinerlei Fernsehkonsum) aufweist, w¨ahrend sich f¨ ur die restlichen Personen eine stetige Verteilung auf R+ ergibt. In einem solchen Fall m¨ usste man mit einer Wahrscheinlichkeitsverteilung modellieren, die teils diskret ” und teils stetig“ ist. Auf empirischer Ebene wertet man Daten, die in einem derartigen Kontext anfallen, h¨ aufig so aus, dass man sowohl Methoden zur Analyse kategorialer Merkmale als auch Methoden zur Analyse stetiger Merkmale verwendet. Im vorliegenden Fall k¨onnte man dann beispielsweise zun¨achst einmal nur die jeweiligen Anteile von Personen ermitteln, die fernsehen und die nicht fernsehen. Anschließend k¨onnte man die stetige Verteilung des vorkommenden Fernsehkonsums n¨aher analysieren und auswerten. Auf theoretischer Ebene kann in Bezug auf gemischt skalierte“ Wahrschein” lichkeitsverteilungen analog verfahren werden. Im Hinblick auf die praktische Relevanz erscheint der zus¨atzlich zu erbringende Aufwand, um diesen Sonderfall formal mit einbeziehen zu k¨onnen, hier unverh¨ altnism¨ aßig groß. Deshalb bleiben solche gemischt skalierten eindimensionalen Verteilungen wie weitere existierende Spezialformen, die nicht in die Klasse diskreter oder stetiger Zufallsvariablen hineinfallen, in diesem Lehrbuch unber¨ ucksichtigt.

8.1 Weitere eindimensionale Verteilungen

401

• Mixturverteilungen • Seien f1 , f2 , . . . , fn entweder ausschließlich Wahrscheinlichkeits- oder ausschließlich Dichtefunktionen diskreter bzw. stetiger Zufallsvariablen X1 , X2 , . . . , Xn . Seien weiter pi ≥ 0 f¨ ur i = 1, . . . , n Konstanten (Parameter) mit n X pi = 1. i=1

Dann wird durch fX (x) =

n X

pi fi (x)

(8.1.15)

i=1

die Wahrscheinlichkeits- oder Dichtefunktion einer diskreten bzw. stetigen Zufallsvariable X definiert. Die Verteilung von X heißt Mixturverteilung aus X1 , . . . , Xn . Die Parameter pi werden auch als Mischungsanteile bezeichnet. Angenommen X1 ∼ N (µ1 , σ12 ) und X2 ∼ N (µ2 , σ22 ), d.h. X1 und X2 sind jeweils normalverteilt mit korrespondierenden Dichten  (x − µ )2   (x − µ )2  1 1 1 2 p = f1 (x) = p exp − bzw. f (x) exp − . 2 2σ12 2σ22 2πσ12 2πσ22 Dann w¨are beispielsweise fX (x) = p1 f1 (x) + p2 f2 (x) die Dichte der Mixturverteilung aus X1 und X2 mit den Mischungsanteilen p1 und p2 . Abbildung 8.1.3 zeigt im rechten Schaubild zwei Beispiele einer Mixtur aus einer N (0, 1)- und einer N (3, 0.5)-Verteilung mit unterschiedlichen Mischungsanteilen. oglichen insbesondere die Modellierung multimodaler VerMixturverteilungen erm¨ teilungen. Der Mixturansatz (8.1.15) l¨ asst sich dabei noch dahingehend erweitern, dass u ¨ber ein ganzes Kontinuum von Verteilungen eine Art stetige Mischung“ gebildet wer” den kann. Im Rahmen der Bayes-Statistik ist dieser Ansatz sehr n¨ utzlich. Abb. 8.1.3: Mixturverteilung aus zwei Normalverteilungen X 1 ~ N (0, 1)

0.6

X 2 ~ N (3, 0.5)

0.6

0.5

0.5

0.5

0.4

0.4

0.4

0.3

0.3

0.3

0.2

0.2

0.2

0.1

0.1

0.1

0.0

0.0

−2

0

2

4

6

−2

0

2

4

0.5X 1 + 0.5X 2 0.8X 1 + 0.2X 2

0.6

6

0.0

−2

0

2

4

6

• Gestutzte und zensierte Verteilungen • Diskrete Verteilungen mit abz¨ahlbar unendlich vielen Tr¨agerpunkten oder stetige Verteilungen mit nicht beschr¨ankter Tr¨agermenge eignen sich nur bedingt zur statistischen Modellierung empirischer Daten. Oft erscheint es weitaus realistischer, lediglich einen bestimmten Ausschnitt einer solchen Verteilung zu betrachten. Dies erfolgt h¨ aufig u ¨ber sog. Stutzen (Abschneiden) oder sog. Zensieren.

402

8 Erg¨anzungen und Verallgemeinerungen

F¨ ur die erste Methode betrachten wir erneut Beispiel D1-b aus Abschnitt 7.1.1, in dem es um die Anzahl eingehender Notrufe Y an einem Rettungswagen-St¨ utzpunkt ging. Hier sollte klar sein, dass die Tr¨ agermenge in der Praxis durch nat¨ urliche Schranken nach oben beschr¨ ankt ist. K¨ ame es beispielsweise in der Praxis niemals vor, dass mehr als 5 Notrufe eingehen, so k¨ onnte man mit einer P o(3)-Verteilung modellieren, die an der Stelle 5 gestutzt (abgeschnitten) oder zensiert wird, je nachdem was gerade ad¨aquater erscheint. Bei einer Stutzung wird die verbleibende Wahrscheinlichkeitsmasse, d.h. in diesem Fall P (Y > 5) = 1 − P (Y ≤ 5) auf die Wahrscheinlichkeiten P (Y = 0), P (Y = 1), . . . , P (Y = 5) proportional verteilt. Bei einer Zensierung wird hingegen die verbleibende Masse vollst¨andig P (Y = 5) zugeschlagen. Auf diese Weise erh¨ alt man dann mit P (Y ≤ 5) =

5 X 3y y=0

y!

e−3 ≈ 0.9161 bzw. P (Y > 5) ≈ 0.0839

bei einer Stutzung (Abb. 8.2.1, links) 3y · e−3 f¨ ur y = 0, 1, . . . , 5 0.9161 · y! und bei einer Zensierung (Abb. 8.2.1, zentral) ( y −3 3 e , y = 0, 1, . . . , 4, P (YZ = y) = 35y! e−3 + 0.0839, y = 5. 5! P (YS = y) =

(8.1.16)

(8.1.17)

Letzteres Verfahren erscheint beispielsweise ad¨aquat, wenn bei einer hohen Anzahl eingehender Notrufe eine automatische Weiterleitung zu anderen Rettungsstellen erfolgt. Ist X eine stetige Zufallsvariable mit Dichte fX und Verteilungsfunktion FX , so ist die Dichte der an den Stellen a und b mit a < b gestutzten Verteilung gegeben durch fX (x)I[a,b] (x) . (8.1.18) fXS (x) = FX (b) − FX (a) Man beachte, dass die gestutzte Dichte im Z¨ ahler von (8.1.18) mit der in [a, b] liegenden Wahrscheinlichkeitsmasse (berechnet im Nenner) geeignet umskaliert wird. Abbildung 8.2.1 zeigt rechts in Schwarz eine an den Stellen −2 und 4 gestutzte C(1, 1)-Verteilung (vgl. hierzu auch Abb. 8.1.2). Mit eingezeichnet ist in Grau die nicht gestutzte Dichte. Aufgrund der beschr¨ ankten Tr¨ agermenge sind bei einer gestutzten Cauchy-Verteilung nun alle Momente endlich.

8.2 Erg¨ anzungen zu asymptotischen Aussagen Mithilfe vereinfachender Annahmen lassen sich weitere GGZ- und ZGWS-Varianten ohne gr¨oßere Umst¨ ande formulieren. Die Annahme (M) beinhaltet die Endlichkeit aller Momente, die Annahme (B) die gleichm¨aßige Beschr¨ankung aller Tr¨agermengen. Weiter kann vereinfachend angenommen werden, dass der durchschnittliche Erwartungswert und die durchschnittliche theoretische Varianz jeweils gegen feste Werte

8.2 Erg¨anzungen zu asymptotischen Aussagen

403

konvergieren. Die im Kontext von GGZ- und ZGWS-S¨ atzen verwendeten Konvergenzarten umfassen stochastische Konvergenz und Verteilungskonvergenz . Mit den dazu in Verbindung stehenden Resultaten, wie etwa dem Stetigkeitssatz oder dem Satz nach Slutsky , k¨ onnen GGZ- und ZGWS-Resultate noch deutlich erg¨anzt oder verallgemeinert werden. Abb. 8.2.1: Gestutzte und zensierte Verteilungen Po (3) − gestutzt

Po (3) − zensiert

C (1, 1) − gestutzt

0.4

0.4

0.4

0.3

0.3

0.3

0.2

0.2

0.2

0.1

0.1

0.1

0.0

0

2

4

6

8

0.0

0

2

4

6

8

0.0

−2

0

2

4

6

8.2.1 Alternative GGZ- und ZGWS-Varianten • Vereinfachende Annahmen • In praktisch allen GGZ- und ZGWS-Varianten finden sich mehr oder minder restriktive Annahmen u ¨ber die Endlichkeit bestimmter Momente (Beschr¨ankung nach oben) und h¨ aufig auch Annahmen u ¨ber die Mindestvariabilit¨ at einzelner Zufallsvariablen (Beschr¨ ankung nach unten). Mathematisch sind solche Annahmen zwar notwendig aber meist doch von keiner oder nur geringer praktischer Relevanz. Insbesondere in Bezug auf die Beschr¨ankung nach oben hin ist zu bedenken, dass in der Realit¨ at Beobachtungswerte stets durch nat¨ urliche Schranken in ihrem Wertebereich beschr¨ankt sind. Insofern erscheinen im Prinzip u ¨berhaupt nur Verteilungen mit beschr¨ankter Tr¨ agermenge f¨ ur Modellierungen realer Ph¨anomene ad¨aquat. Anstelle einer Normalverteilung etwa m¨ usste man eigentlich beispielsweise mit einer gestutzten Normalverteilung (vgl. Abschnitt 8.1.3) arbeiten. Wir formulieren an dieser Stelle stark vereinfachende Annahmevarianten, die zwar relativ restriktiv sind, uns jedoch einiges an Formalismus ersparen. Wir werden von diesen dann im Folgenden an verschiedenen Stellen immer wieder Gebrauch machen. Definition 8.2.1: Annahmen (M) und (B) F¨ ur eine gegebene Folge von Zufallsvariablen X1 , . . . , Xn , . . . gelte (i) Annahme (M), falls f¨ ur alle Zufallsvariablen jeweils alle Momente endlich sind, d.h. falls gilt: E(Xik ) < ∞ f¨ ur alle i = 1, . . . , n, . . . und jedes k ∈ N.

404

8 Erg¨anzungen und Verallgemeinerungen

(ii) Annahme (B), falls die Tr¨ agermengen aller Zufallsvariablen gleichm¨aßig beschr¨ankt sind, d.h. falls es einen festen Wert c mit 0 < c < ∞ gibt, sodass P (|Xi | < c) = 1 f¨ ur alle i = 1, . . . , n, . . .

Man beachte, dass Annahme (M) bei allen Verteilungen aus den Abschnitten 7.3, 8.1.1 und 8.1.2 sowie allen Verteilungen mit beschr¨ankter Tr¨agermenge erf¨ ullt ist. Ausgenommen hiervon sind lediglich die t- und F-Verteilung sowie die Cauchy-Verteilung. Ferner gilt sie bei allen aus diesen ableitbaren gestutzten und zensierten Varianten sowie Mixturen im Sinne von (8.1.15). Annahme (B) schließt hingegen Verteilungen mit unbeschr¨ankter Tr¨ agermenge wie etwa die Normalverteilung aus und ist deutlich restriktiver. Sie impliziert Annahme (M). Beispielsweise w¨ urde eine Folge gleichverteilter Zufallsvariablen X1 , . . . , Xn , . . . gem¨ aß X1 ∼ U (0, 1), X2 ∼ U (0, 2), X3 ∼ U (0, 3), X4 ∼ U (0, 4), X5 ∼ U (0, 5), . . . Annahme (M), aber nicht Annahme (B) erf¨ ullen, da die Tr¨agermenge [0, n] mit n stetig w¨ achst und somit nicht gleichm¨ aßig beschr¨ ankt ist. • Konvergenzformen und alternative GGZ-Varianten • Neben dem schwachen GGZ gibt es noch das starke GGZ (in unterschiedlichen Varianten). Dieses beruht jedoch auf einer anderen (wie zu vermuten st¨arkeren“) Konvergenzform, die ” als fast sichere Konvergenz bezeichnet wird. Sie impliziert die schw¨achere“ Form ” der stochastischen Konvergenz , auf der das schwache GGZ beruht. F¨ ur weitergehende Ausf¨ uhrungen hierzu sei der Leser auf maßtheoretisch begr¨ undete Lehrb¨ ucher der Wahrscheinlichkeitstheorie verwiesen. Wir beschr¨anken uns im Folgenden auf das schwache GGZ. Neben der in Abschnitt 7.4.2 formulierten Variante gibt es hierzu noch viele weitere Varianten, in denen in Bezug auf die Ausgangsbedingungen unterschiedliche Annahmen gestellt werden. Die erste Variante eines schwachen GGZ, h¨aufig auch als Satz von Bernoulli bezeichnet (Abschnitt 7.4.2), geht auf Jacob Bernoulli [1713] zur¨ uck und bezog sich lediglich auf die Binomial- bzw. Bernoulli-Verteilung als Ausgangsverteilung. Diese Variante wurde im 18. und 19. Jahrhundert verschiedentlich erweitert, so etwa auch von Poisson [1837], der die Umschreibung Gesetz der großen Zahlen“ erstmals verwen” dete. Die in Abschnitt 7.4.2 vorgestellte allgemeine Standardvariante mit endlichen Varianzen l¨asst sich gem¨ aß Seneta [2013] bereits auf Bienaym´e [1853] zur¨ uckf¨ uhren. Khintschin [1929] zeigte sp¨ ater, dass bereits die Endlichkeit des ersten Moments (des Erwartungswertes) f¨ ur die G¨ ultigkeit dieser Version hinreichend ist. Einige auf Markov [1913] zur¨ uckf¨ uhrbare Varianten erm¨ oglichen Konvergenzaussagen auch f¨ ur unabh¨angige, heterogen verteilte (u.h.v.) Zufallsvariablen. Eine vereinfachte Variante, die sich aus diesen Ergebnissen herleiten l¨ asst, lautet wie folgt: Satz 8.2.1: Schwaches GGZ f¨ ur u.h.v. Zufallsvariablen Seien X1 , . . . , Xn unabh¨ angig. Dabei gelte Annahme (M) sowie n→∞

n→∞

µ ¯n −−−−→ µ und σ ¯n2 −−−−→ σ 2 .

8.2 Erg¨anzungen zu asymptotischen Aussagen

405

Dann folgt daraus p ¯ n −− X → µ. Hinweis: Es gelte die Notation der Abschnitte 7.4.1 und 7.4.2. Diese Variante erlaubt unterschiedliche Verteilungen der einzelnen Zufallsvariablen, wobei der durchschnittliche Erwartungswert und die durchschnittliche theoretische Varianz jedoch gegen feste Werte konvergieren m¨ ussen. F¨ ur u.i.v. Variablen ergibt sich als Spezialfall die Standardvariante aus Abschnitt 7.4.2. Grunds¨atzlich ließen sich die hier aufgef¨ uhrten Annahmen noch betr¨ achtlich abschw¨achen, z.B. durch Verzicht auf Konvergenzannahmen oder durch das Einr¨ aumen schwacher“ Abh¨angigkeiten zwischen den ” Zufallsvariablen. ¨ Weitere Details und Varianten zum GGZ k¨onnen entweder den Ubersichtsartikeln von Seneta [2013, 1992] zum schwachen bzw. starken GGZ entnommen werden oder vielen weiterf¨ uhrenden Lehrb¨ uchern auf dem Gebiet der Wahrscheinlichkeitstheorie und Statistik. • Beispiel 8.2.1 • Gegeben sei folgende Folge unabh¨angiger Zufallsvariablen: X1 ∼ N (0, 1), X2 ∼ N (1, 2), X3 ∼ N (0, 1), X4 ∼ N (1, 2), X5 ∼ N (0, 1), ... F¨ ur endliches n > 1 sind X1 , . . . , Xn stets heterogen normalverteilt, allerdings bei sich stabilisierenden Verh¨ altnissen: Die eine H¨ alfte aller Variablen ist N (0, 1)- und die andere H¨alfte ist N (1, 2)-verteilt ist. Der durchschnittliche Erwartungswert konvergiert damit gegen 0.5 und die durchschnittliche theoretische Varianz gegen 1.5. Damit konvergiert das stochastische Mittel gem¨ aß GGZ stochastisch gegen 0.5. Es sei bemerkt, dass aufgrund der unbeschr¨ ankten Tr¨ agermenge der Normalverteilung Annahme (B) hier beispielsweise nicht erf¨ ullt w¨ are. • Beispiel 8.2.2 • Gegeben sei eine Folge unabh¨angiger Zufallsvariablen X1 ,. . . ,Xn , . . . , die einen identischen Erwartungswert besitzen, jedoch wechselnde Varianzen gem¨aß folgendem Schema (Beispiel gem¨ aß White [1980]): 1, 1, 3, 1,

3, 1, 3, 1,

1, 1, 3, 3, 1, 1, 1, 1, 1, 1, 3, 3, 3, 3, 3, 3, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, ...

Die durchschnittliche theoretische Varianz konvergiert hier gegen keinen festen Wert, sondern oszilliert stattdessen zwischen 1.5 und 2. Es l¨asst sich allerdings zeigen, dass unter Annahme (B) das stochastische Mittel dennoch gegen den Erwartungswert konvergiert. • Normalverteilung und ZGWS-Varianten • Sehr ¨ahnlich wie beim GGZ gibt es auch beim ZGWS neben der in Abschnitt 7.4.2 formulierten Standardvariante nach Lindeberg-L´evy noch viele weitere Varianten, die auf unterschiedlichen Annahmen beru¨ hen. Einen Ubersichtsartikel zur Historie der Grenzwertsatztheorie bietet beispielsweise Le Cam [1986]. Der folgende Kurzabriss orientiert sich an diesem.

406

8 Erg¨anzungen und Verallgemeinerungen

Die ersten Varianten von Grenzwerts¨ atzen bezogen sich auf diskret verteilte Zufallsvariablen, vorrangig im Kontext der Binomialverteilung. Hier gilt Abraham de Moivre [1733, 1738] u ¨blicherweise als Entdecker davon, dass sich die Binomialverteilung unter bestimmten Umst¨ anden durch die Normalverteilung approximieren l¨asst (Abschnitt 7.4.2). Er war es auch, der die Dichtefunktion der Standardnormalverteilung (in diesem Kontext) erstmals einf¨ uhrte und nicht etwa Carl Friedrich Gauß. Gleichwohl verwendet man bis heute Gauß-Verteilung“ als einzige Alternativbezeichnung f¨ ur die Normal” verteilung. Le Cam sieht hier Stigler’s Gesetz (Stigler [1986]) klar best¨atigt, nach dem wissenschaftliche Entdeckungen nie nach ihren urspr¨ unglichen Entdeckern benannt werden. Die Lindeberg-Lev´ y-Variante verdankt ihre Benennung vermutlich den mathematisch rigorosen Beitr¨ agen von Lindeberg [1920, 1922] und Lev´ y [1925] im Kontext verschiedener Grenzwerts¨ atze. Die Frage, ob dies nun gerechtfertigt ist oder nicht, halten wir an dieser Stelle offen. Es existiert jedenfalls eine ganze F¨ ulle von Varianten, so etwa auch f¨ ur heterogen verteilte Zufallsvariablen. Eine Variante lautet wie folgt (vgl. White [2001, Theorem 5.10]): Satz 8.2.2: ZGWS f¨ ur u.h.v. Zufallsvariablen Seien X1 , . . . , Xn unabh¨ angig. Dabei gelte Annahme (B) sowie n→∞

n→∞

µ ¯n −−−−→ µ und σ ¯n2 −−−−→ σ 2 > 0. Dann folgt daraus Zn =

¯n − µ Sn − n¯ µn X ¯n a p = p ∼ N (0, 1) n¯ σn2 σ ¯n2 /n

sowie f¨ ur großes n, sofern σ ¯n2 > 0: n n X  X approx Sn ∼ N µi , σi2 = N (n¯ µn , n¯ σn2 ), i=1

¯n X Zn

approx



approx



(8.2.1)

(8.2.2)

i=1

N (¯ µn , σ ¯n2 /n) und

(8.2.3)

N (0, 1).

(8.2.4)

Die Annahmen der vorhergehenden GGZ-Variante wurden um die Annahme (B) sowie die Annahme einer positiven durchschnittlichen Varianz versch¨arft. Man beachte, dass diese Annahmen f¨ ur die G¨ ultigkeit von (8.2.1)–(8.2.4) hinreichend, aber nicht zwingend notwendig sind. So k¨ onnte man etwa auf die Konvergenz des theoretischen Mittels ohne weiteres verzichten und beispielsweise auch oszillierendes Verhalten wie im vorigen Beispiel 8.2.2 gestatten. Weitere Varianten, die beispielsweise auch schwache“ Abh¨angigkeiten zwischen ” den Zufallsvariablen erlauben oder gar solche, die sowohl Heterogenit¨at als auch Abh¨angigkeiten erlauben, finden sich beispielsweise bei White [2001, Kap. 5]. • Beispiel 8.2.3 • Ein Taxi-Unternehmen verf¨ uge u ¨ber 50 Fahrzeuge, die teils unterschiedlich eingesetzt werden und unterschiedlich viel Kraftstoff verbrauchen. Der durchschnittliche t¨agliche Verbrauch betrage 15 Liter bei einer durchschnittlichen Varianz

8.2 Erg¨anzungen zu asymptotischen Aussagen

407

von 2 (Liter2 ). Dann sollte sich der t¨ agliche Gesamtverbrauch durch eine N (750, 100)Verteilung approximieren lassen, sofern die einzelnen Verbrauchswerte (weitgehend) unabh¨angig voneinander sind. Inhaltlich a¨hnliche Beispiele ließen sich beispielsweise mit der Gesamtnachfrage eines bestimmten Produktes an verschiedenen Standorten konstruieren oder mit dem Energieverbrauch unterschiedlicher Haushalte zu einem bestimmten Zeitpunkt. In all diesen Situationen w¨ are die Annahme identisch verteilter Zufallsvariablen inad¨aquat.

8.2.2 Stochastische Konvergenz und Verteilungskonvergenz ¨ • Hintergrund und Uberblick • Variante gelte p ¯ n −− X → µ.

Angenommen, gem¨aß einer bestimmten GGZ-

Folgt daraus dann p 2 ¯ 2 −− X n →µ ? Man mag es intuitiv bejahen. Allerdings ist der letzte Ausdruck ohne weiteres f¨ ur uns eigentlich (noch) nicht interpretierbar. So wurde das Konzept der stochastischen Konvergenz bisher nur im Kontext des schwachen GGZ verwendet. Hier geht es jedoch um ein quadriertes stochastisches Mittel, also um eine Funktion des stochastischen Mittels. Deshalb wird im n¨ achsten Punkt zun¨ achst eine allgemeine Definition f¨ ur stochastische Konvergenz angegeben, um im Weiteren dann obige Frage beantworten zu k¨onnen. Eine andere Frage w¨ are, ob das stochastische Mittel der quadrierten Zufallsvariablen stochastisch gegen das zweite theoretische Moment konvergiert. Gilt also n 1X 2 p X −−→ E(Xi2 ) ? n i=1 i Mit den in Abschnitt 7.1.3 gewonnenen Erkenntnissen ergibt sich ja, dass die transformierten Gr¨oßen u.i.v. sind, sofern X1 , . . . , Xn u.i.v. sind. Insofern sollte gem¨aß GGZ deren stochastisches Mittel gegen ihren theoretischen Erwartungswert stochastisch konvergieren. Mathematisch betrachtet ist dieser Schluss jedoch nicht ohne Weiteres m¨oglich, da hierzu die Endlichkeit betreffender theoretischer Momente vorausgesetzt werden muss. In diesem Kontext werden wir von der Annahme (M) Gebrauch machen. In den letzten beiden Punkten werden wir schließlich noch das Konzept der Verteilungskonvergenz n¨ aher definieren und f¨ ur Situationen, in denen stochastische Konvergenz und Verteilungskonvergenz parallel auftreten, einige n¨ utzliche Aussagen aufstellen. • Stochastische Konvergenz • Das Konzept der stochastischen Konvergenz betrachten wir in diesem Lehrbuch ausschließlich f¨ ur den Fall, dass eine bestimmte stochastische Statistik (vgl. Abschnitt 9.3) gegen einen festen (nichtstochastischen) Wert stochastisch konvergiert. Im Falle des GGZ etwa betrachten wir dazu eine Menge von Zufallsvariablen X1 , . . . , Xn (Stichprobe) als Ausgangsbasis und das stochastische Mittel n 1X ¯ Xi Xn = n i=1

408

8 Erg¨anzungen und Verallgemeinerungen

als Funktion dieser. Die Definition der stochastischen Konvergenz bezieht sich beim GGZ dann auf die Folge der Zufallsvariablen ¯1, X ¯2, X ¯3, . . . , X ¯ n , . . . , kurz notiert als (X ¯ n ). X Dies l¨asst sich deutlich verallgemeinern. Innerhalb der Kernaussage n→∞ ¯ n − µ| ≤ c) −− P (|X −−→ 1 l¨ asst sich anstelle der Folge stochastischer Mittel auch jede andere Folge von Zufallsvariablen (Yn ) w¨ ahlen. Nochmals allgemeiner kann dann eine solche Folge auch gegen eine stochastische Gr¨ oße, sprich gegen eine andere Zufallsvariable Z konvergieren. Dann erhielte man im Kern eine Aussage der Form n→∞

P (|Yn − Z| > c) −−−−→ 0. Da wir diesen Grad an Verallgemeinerung in diesem Lehrbuch jedoch nicht ben¨otigen, beschr¨anken wir uns auf die Konvergenz gegen feste Werte. Definition 8.2.2: Stochastische Konvergenz (gegen feste Werte) Sei (Yn ) eine Folge von Zufallsvariablen. Sofern f¨ ur einen festen Wert θ und jedes c > 0 n→∞

n→∞

P (|Yn − θ| ≤ c) −−−−→ 1 bzw. P (|Yn − θ| > c) −−−−→ 0 gilt, sagen wir, dass Yn stochastisch (nach Wahrscheinlichkeit) gegen θ konvergiert und schreiben daf¨ ur auch kurz p

Yn −−→ θ.

• Deterministische Konvergenz • F¨ ur feste Werte c1 , . . . , cn k¨onnen X1 , . . . , Xn im Speziellen auch einpunkverteilt sein im Sinne von P (Xi = ci ) = 1 mit ci ∈ R f¨ ur i = 1, . . . , n. Eine deterministische konvergente Folge wie etwa (1/n), die gegen 0 konvergiert, ist deshalb auch immer stochastisch konvergent. • Transformation stochastisch konvergenter Folgen • Zur Beantwortung der ersten Hintergrundfrage zu Beginn dieses Abschnitts ist folgendes h¨aufig als Stetigkeitssatz bezeichnete Resultat hilfreich (vgl. White [2001, Proposition 2.27]): Satz 8.2.3: Stetigkeitssatz Sei (Yn ) eine Folge von Zufallsvariablen, h : R → R eine stetige Funktion und θ ein fester Wert. Sofern h(θ) definiert ist und gilt p

Yn −−→ θ, folgt daraus f¨ ur Un = h(Yn ): p

p

Un −−→ h(θ) bzw. h(Yn ) −−→ h(θ).

8.2 Erg¨anzungen zu asymptotischen Aussagen

409

• Beispiel 8.2.4 • Da h1 (t) = t2 und h2 (t) = 1/t f¨ ur t 6= 0 stetig sind, folgen aus p ¯ n −− → µ beispielsweise die Resultate X p ¯ n2 −− (i) X → µ2 f¨ ur jedes µ und p ¯ n−1 −− (ii) X → 1/µ f¨ ur µ 6= 0.

• GGZ f¨ ur k-te Momente • Zur Beantwortung der zweiten Hintergrundfrage zu Beginn dieses Abschnitts ist folgendes Resultat n¨ utzlich: Satz 8.2.4: GGZ f¨ ur k-te Momente Seien X1 , . . . , Xn u.i.v. mit E(Xik ) < ∞. Dann folgt daraus n 1X m p X −−→ E(Xim ) f¨ ur m ≤ k, wobei k, m ∈ N. n i=1 i Da X1 , . . . , Xn u.i.v. Zufallsvariablen sind, u ¨bertr¨agt sich diese Eigenschaft gem¨aß dem Satz f¨ ur Funktionen aus u.i.v. Zufallsvariablen (Satz 7.1.5) auf deren m-ten Potenzen. Sind deren Erwartungswerte endlich, kann auf diese die Standardvariante des GGZ (Satz 7.4.1) angewendet werden. Damit konvergiert das m-te stochastische Moment stochastisch gegen das m-te theoretische Moment. • Konvergenz nach Verteilung • Das Konzept der Verteilungskonvergenz betrachten wir in diesem Lehrbuch ausschließlich im Kontext von zentralen Grenzwerts¨atzen. Dabei beziehen wir uns meist auf eine standardisierte Summe oder ein standardisiertes Mittel Zn gem¨aß (7.4.30) oder (8.2.1). Die Kernaussage a

Zn ∼ N (0, 1) bedeutet nach Definition 7.4.3 n→∞

P (Zn ≤ x) = FZn (x) −−−−→ Φ(x) f¨ ur jedes x ∈ R,

(8.2.5)

wobei FZn die Verteilungsfunktion von Zn und Φ die Verteilungsfunktion der Standardnormalverteilung bezeichnet. Erstere konvergiert f¨ ur wachsendes n also an jeder Stelle x ∈ R gegen Φ(x). Dies l¨ asst sich deutlich verallgemeinern. So lassen sich innerhalb der Kernaussage (8.2.5) anstelle von (Zn ) auch andere Folgen von Zufallsvariablen (Yn ) betrachten. Nochmals allgemeiner kann dann eine solche Folge auch gegen eine andere Normalverteilung oder eine g¨ anzlich andere Grenzverteilung als die Normalverteilung konvergieren. Im Kern resultiert daraus dann eine Aussage der Form n→∞

P (Yn ≤ x) −−−−→ F (x) f¨ ur jedes x ∈ R, wobei F (x) die theoretische Verteilungsfunktion der entsprechenden Grenzverteilung bezeichnet. Wir beschr¨ anken uns in diesem Lehrbuch auf die Normalverteilung N (µ, σ 2 ) als Grenzverteilung, welche gem¨ aß (7.3.17) allgemein die Verteilungsfunktion F (x) = Φ((x − µ)/σ) besitzt.

410

8 Erg¨anzungen und Verallgemeinerungen

Definition 8.2.3: Verteilungskonvergenz gegen eine Normalverteilung Sei (Yn ) eine Folge von Zufallsvariablen. Sofern gilt: n→∞

P (Yn ≤ x) = FYn (x) −−−−→ Φ((x − µ)/σ) f¨ ur jedes x ∈ R, sagen wir, dass Yn asymptotisch N (µ, σ 2 )-verteilt ist oder dass Yn gegen eine N (µ, σ 2 )-Verteilung konvergiert und schreiben daf¨ ur auch kurz a

Yn ∼ N (µ, σ 2 ).

• Alternative Notation • Sofern sich die Grenzverteilungsfunktion auf eine Zufallsvariable X bezieht, schreibt man zur Kennzeichnung obig definierter Verteilungskonvergenz auch h¨aufig d

Yn −→ X. Dabei steht das d“ f¨ ur Verteilung (engl. distribution). ” • Stochastische Konvergenz und Verteilungskonvergenz parallel • Insbesondere in der induktiven Statistik (Teil 3) ist es auf theoretischer Ebene h¨aufig erforderlich, das gemeinsame stochastische Verhalten von Zufallsvariablen festzustellen, die teils stochastisch und teils verteilungstechnisch konvergieren. In diesem Zusammenhang kommt einem nach Evgeny Slutsky (1880–1948) benannten Theorem eine bedeutende Rolle zu. Die nachfolgende Version ist eine f¨ ur den Fall einer Normalverteilung spezialisierte Variante. Ein Beweis f¨ ur den allgemeineren Fall findet sich etwa bei Rohatgi und Saleh [2001, Theorem 15]. Satz 8.2.5: Slutsky’s Theorem f¨ ur Normalverteilungen Seien (An ), (Bn ) und (Yn ) jeweils Folgen von Zufallsvariablen mit p

p

a

An −−→ a, Bn −−→ b und Yn ∼ N (µ, σ 2 ). Dann folgt daraus: a

An + Bn Yn ∼ N (a + bµ, b2 σ 2 ), falls b 6= 0, p

An + Bn Yn −−→ a, falls b = 0, a

2

2

Yn /Bn ∼ N (µ/b, σ /b ), falls b 6= 0.

(8.2.6) (8.2.7) (8.2.8)

Die Resultate erscheinen vor dem Hintergrund gew¨ohnlicher Rechenregeln f¨ ur die Normalverteilung bei Lineartransformationen (Abschnitt 7.3.2) plausibel. Aus (8.2.7) l¨asst sich ablesen, dass stochastische Konvergenz in gewisser Weise die st¨arkere“ der beiden ” Konvergenzform darstellt. So degeneriert die Grenzverteilung zu einer Einpunktverteilung an der Stelle 0, falls Bn stochastisch gegen 0 konvergiert. Die stochastische Variabilit¨at geht komplett verloren.

8.3 Einige multivariate Verallgemeinerungen

411

• Beispiel 8.2.5 • Sei Zn wie in (8.2.1) und unter den dort getroffenen Annahmen definiert. Es gelte also  X ¯n − µ ¯n X ¯n µ ¯n  a Zn = p = p −p ∼ N (0, 1). σ ¯n2 /n σ ¯n2 /n σ ¯n2 /n Dann gelten gem¨ aß Slutsky’s Theorem auch die beiden Resultate ¯n ¯n − µ  X µ  a X = p −p ∼ N (0, 1) und (8.2.9) Z˜n = p σ 2 /n σ 2 /n σ 2 /n √ a ¯ n − µ) ∼ Z˘n = n(X N (0, σ 2 ). (8.2.10) Um dies zu begr¨ unden, definiert man die beiden deterministischen Folgen r µ µ ¯n σ ¯n2 n→∞ n→∞ − 2 An = 2 −−−−→ 0 und Bn = −−−−→ 1, σ ¯n /n σ ¯n /n σ2 die deterministisch konvergieren. Dies impliziert auch stochastische Konvergenz in Form von p

p

An −−→ 0 bzw. Bn −−→ 1. Mit Z˜n = An + Bn Zn folgt aus (8.2.6) Resultat (8.2.9). Mit Z˘n = A∗n + Bn∗ Z˜n , wobei A∗n = 0 und Bn∗ = σ, f¨ uhrt erneute Anwendung von (8.2.6) mit schließlich zu Resultat (8.2.10).

8.3 Einige multivariate Verallgemeinerungen Viele f¨ ur Zufallsvariablen g¨ ultige Konzepte und Resultate lassen sich f¨ ur den Fall von Zufallsvektoren verallgemeinern. Dazu geh¨oren das Konzept der stochastischen Unabh¨angigkeit, diverse Kenngr¨ oßen zur Messung von Abh¨angigkeiten, die Normalverteilung sowie viele asymptotische S¨ atze. Außerdem lassen sich gemischt skalierte Vektoren, die gleichzeitig diskrete und stetige Komponenten enthalten, betrachten.

8.3.1 Multivariate Abh¨ angigkeiten Abh¨ angigkeit und Unabh¨ angigkeit von Zufallsvektoren • Hintergrund und Definition • In Abschnitt 7.1.2 wurden bereits Zufallsvektoren (mehrdimensionale Zufallsvariablen) auch f¨ ur den Fall n > 2 eingef¨ uhrt. Stochastische Abh¨ angigkeit bzw. Unabh¨ angigkeit wurde jedoch nur f¨ ur den Fall besprochen, dass innerhalb eines Vektors (X1 , ..., Xn )T alle n Zufallsvariablen (vollst¨andig) im Sinne von fX1 X2 ...Xn = fX1 fX2 . . . fXn unabh¨angig voneinander sind. Dies implizierte wiederum die paarweise Unabh¨ angigkeit aller Variablen im Sinn von fX1 X2 = fX1 fX2 , fX1 X3 = fX1 fX3 , fX2 X3 = fX2 fX3 usw.

412

8 Erg¨anzungen und Verallgemeinerungen

Das Unabh¨angigkeitskonzept im multivariaten Fall l¨asst sich jedoch st¨arker verallgemeinern. So k¨onnen innerhalb aller involvierten Variablen auch einzelne Gruppen (Teilvektoren) unabh¨angig voneinander sein. Sofern dann beispielsweise f¨ ur (X1 , X2 , X3 , X4 )T das Kriterium fX1 X2 X3 X4 = fX1 X2 fX3 X4 erf¨ ullt ist, gelten die beiden Vektoren Z1 = (X1 , X2 )T und Z2 = (X3 , X4 )T als unabh¨angig. Die 4-dimensionale gemeinsame Verteilung von Z1 und Z2 ergibt sich dann ¨ aus dem Produkt der zweidimensionalen Randverteilungen von Z1 und Z2 . Aquivalent l¨ asst sich dieses Kriterium auch u ¨ber die multivariaten bedingten Verteilungen im Sinne von fX1 X2 |X3 X4 = fX1 X2 bzw. fZ1 |Z2 = fZ1 und fX3 X4 |X1 X2 = fX3 X4 bzw. fZ2 |Z1 = fZ2 ausdr¨ ucken. Die vollst¨ andige Unabh¨ angigkeit impliziert folglich die Unabh¨angigkeit einzelner (disjunkter) Gruppen, jedoch nicht umgekehrt. Definition 8.3.1: Abh¨ angigkeit und Unabh¨ angigkeit von Zufallsvektoren Zwei Zufallsvektoren (diskret oder stetig) X = (X1 , X2 , . . . , Xp )T und Y = (Y1 , Y2 , . . . , Yq )T sind stochastisch unabh¨ angig, falls sich deren gemeinsame Verteilung aus dem Produkt der Randverteilungen ergibt, d.h. falls gilt fX,Y = fX fY . Anderenfalls sind sie stochastisch abh¨ angig. Man beachte, dass X und Y unterschiedlich dimensioniert sein k¨onnen (p 6= q). Außerdem k¨onnen in X bzw. Y prinzipiell auch diskrete und stetige Zufallsvariablen gleichzeitig enthalten sein. In diesem Fall bezeichnen wir die Vektoren als gemischt skaliert. Hinweise dazu finden sich in Abschnitt 8.3.3. • Interpretation • Um das Unabh¨ angigkeitskonzept f¨ ur Vektoren verstehen zu k¨onnen, betrachten wir folgende illustrative Situation f¨ ur n = 3 Zufallsvariablen. Sei (X, Y )T ein diskreter Vektor, der den Speiseeiskonsum von Ehepaaren an einem Eisstand angibt. Dabei sei X die konsumierte Anzahl von Kugeln des Mannes und Y die konsumierte Anzahl der Frau. Außerdem sei Z eine bin¨are Variable, die angibt, ob die Außentemperatur mehr als 25o C betr¨ agt oder nicht. Sofern Z und (X, Y )T unabh¨angig voneinander sind, h¨ angt die Verteilung des gemeinsamen Konsums nicht vom Wetter ab. Dies ist beispielsweise nicht erf¨ ullt, falls bei w¨armerem Wetter mehr Eis konsumiert wird als bei k¨alterem Wetter. Ungeachtet dessen wird keine Aussage u ¨ber die Abh¨angigkeit von X und Y getroffen. Diese k¨ onnen also durchaus abh¨angig sein, etwa positiv angig sind. Dieses Konzept verallgemeinert korreliert, auch wenn Z und (X, Y )T unabh¨ die bisherig behandelten Konzepte f¨ ur paarweise und vollst¨andige Unabh¨angigkeit, mit der sich solche Situationen nicht ber¨ ucksichtigen lassen.

8.3 Einige multivariate Verallgemeinerungen

413

• Beispiel D3-a fortgesetzt • In dem in Abschnitt 7.1.2 eingef¨ uhrten Beispiel D3-a (Geschlecht, Raucherstatus und Ern¨ ahrungsweise) ergibt sich aus den Tabellen 7.1.9 und 7.1.10, dass die Kriterien fZ|XY = fZ bzw. fXY |Z = fXY mit fZ|XY = fXY Z /fXY bzw. fXY |Z = fXY Z /fZ nicht erf¨ ullt sind. Die bedingten Verteilungen sind unterschiedlich und stimmen somit nicht mit den korrespondierenden Randverteilungen u ¨berein. Deshalb ist auch das Multiplikationskriterium fXY Z = fXY fZ

(8.3.1) T

nicht erf¨ ullt. Infolgedessen sind Z und (X, Y ) nicht unabh¨angig. Inhaltlich bedeutet dies im vorliegenden Fall, dass die Kenntnis von Geschlecht und Raucherstatus gewisse R¨ uckschl¨ usse auf die Ern¨ ahrungsgewohnheiten (vegetarisch oder nicht) zul¨asst. • Beispiel D3-b • Analysiert man mit den gleichen Methoden wie in Beispiel D3-a die Abh¨angigkeitsstruktur in Tabelle 8.3.1, so lassen sich folgende Fakten feststellen: (i) X und Z sind unabh¨ angig, (ii) Y und Z sind unabh¨ angig, (iii) X und Y sind abh¨ angig. Die Randverteilung von Z lautet P (Z = 0) = 0.6 und P (Z = 1) = 0.4. Eine f¨ ur uns interessante Frage ist nun, ob man aus (i) und (ii) auf die Unabh¨angigkeit von Z und (X, Y )T bereits schließen kann. Dies ist zu verneinen, da wir bereits Abschnitt 7.1.2 festgehalten haben, dass paarweise Unabh¨angigkeit keine vollst¨andige Unabh¨angigkeit impliziert. Selbst falls hier auch X und Y noch unabh¨angig w¨aren, w¨ are dieser Schluss nicht m¨ oglich. Abbildung 7.1.12 (Abschnitt 7.1.2) illustriert dazu ein Beispiel. Tabelle 8.3.1: Gemeinsame Verteilung von (X, Y, Z)T von Beispiel D3-b Z=0 X

Y

0

0 1 Summe X

Y

0 1 Summe

1 0.06 0.15 0.21

0

2

0.03 0.21 0.24 Z=1 1

0.04 0.10 0.14

0.00 0.15 0.15

Summe 0.09 0.41 0.60

0.00 0.10 0.10

Summe 0.06 0.34 0.40

2 0.02 0.14 0.16

414

8 Erg¨anzungen und Verallgemeinerungen Tabelle 8.3.2: Randverteilung von (X, Y )T von Beispiel D3-b Z=0 X

Y

0

0 1 P (Y = y)

1 0.10 0.25 0.35

2 0.05 0.35 0.40

0.00 0.25 0.25

P (X = x) 0.15 0.85 1.00

Tabelle 8.3.3: Bedingte Verteilung von (X, Y )T gegeben Z = z von Beispiel D3-b z=0 Y X 0 1 Σ

0

1

2

Σ

0.10 0.25 0.35

0.05 0.35 0.40

0.00 0.25 0.25

0.15 0.85 1.00

z=1 Y X 0 1 Σ

0

1

2

Σ

0.10 0.25 0.35

0.05 0.35 0.40

0.00 0.25 0.25

0.15 0.85 1.00

¨ Zur Uberpr¨ ufung der Unabh¨ angigkeit im vorliegenden Beispiel legen wir das Multiplikationskriterium (8.3.1) zugrunde. Demnach m¨ usste f¨ ur alle x, y und z gelten: P (X = x, Y = y, Z = z) = P (X = x, Y = y)P (Z = z). Vereinfacht gesagt muss sich hier Tabelle 8.3.1 ergeben (innere Zellen), wenn man Tabelle 8.3.2 (innere Zellen) mit den Wahrscheinlichkeiten von Z multipliziert. Tats¨achlich ist dies f¨ ur alle Zelleneintr¨ age auch so erf¨ ullt. So erh¨alt man beispielsweise P (X = 0, Y = 0, Z = 0) = 0.06 = 0.1 · 0.6 = P (X = 0, Y = 0)P (Z = 0), P (X = 0, Y = 0, Z = 1) = 0.04 = 0.1 · 0.4 = P (X = 0, Y = 0)P (Z = 1) usw. Damit sind hier tats¨ achlich auch Z und (X, Y )T unabh¨angig. Alternativ beachte man, dass sich in Tabelle 8.3.1 die Werte des unteren Tabellenteils aus den Werten des oberen Teils ergeben, wenn letztere mit 2/3 multipliziert werden. Die bedingten Verteilungen von (X, Y )T unter Z = z, dargestellt in Tabelle 8.3.3, stimmen somit u ¨berein und entsprechen der Randverteilung.

Bedingte Abh¨ angigkeit und Unabh¨ angigkeit • Definition und Hintergrund • Die in Tabelle 8.3.3 bestehenden Abh¨angigkeiten zwischen X und Y bedingt auf z = 0 bzw. z = 1 werden als bedingte Abh¨ angigkeit bezeichnet. Sofern das in diesem Fall relevante bedingte Multiplikationskriterium fXY |Z = fX|Z fY |Z

(8.3.2)

erf¨ ullt w¨are, w¨ urde man X und Y als unter Z bedingt unabh¨ angig bezeichnen. Offensichtlich ist dieses jedoch nicht erf¨ ullt. Auf notationelle und definitorische Pr¨azisierungen bzw. Verallgemeinerungen sei verzichtet. Bedingte Abh¨ angigkeit ist ein f¨ ur statistische Abh¨angigkeitsanalysen allgemein wichtiger Aspekt. Innerhalb dieses Lehrbuches taucht der Begriff bei der Behandlung von Scheinabh¨ angigkeiten und systematischen Verzerrungen (Abschnitt 5.3.3) als auch im Rahmen des multiplen linearen Regressionsmodells auf (Kap. 12). Folgendes Beispiel mag als Anschauungsbeispiel dienen.

8.3 Einige multivariate Verallgemeinerungen

415

• Beispiel 8.3.1 • F¨ uhrt man f¨ ur Tabelle 8.3.4 im Sinne der Tabellen 8.3.2 und 8.3.3 analoge Berechnungen wie in Beispiel D3-b durch, l¨asst sich feststellen, dass X und Y abh¨angig, unter Z jedoch bedingt unabh¨ angig sind. In diesem Fall l¨asst sich diese Unabh¨angigkeit anhand der jeweils diskret gleichverteilten Zeilen- bzw. Spaltenwerte f¨ ur z = 0 bzw. z = 1 leicht erkennen. Tabelle 8.3.4: Beispiel einer 3-dimensionalen Verteilung mit bedingter Unabh¨ angigkeit Z=0 X

Y

0 1 Summe

0 0.05 0.20 0.25

Z=1 1 0.05 0.20 0.25

Summe 0.10 0.40 0.50

X

Y

0 0 Summe

0 0.05 0.05 0.10

1 0.20 0.20 0.40

Summe 0.25 0.25 0.50

8.3.2 Kenngr¨ oßen multivariater Abh¨ angigkeiten Theoretische Kovarianz- und Korrelationsmatrix • Definition • Auch im multivariaten Fall wird mithilfe der Kovarianz bzw. der Korrelation die St¨arke linearer Abh¨ angigkeit quantifiziert. Dazu definiert man die theoretische Varianz-Kovarianzmatrix bzw. die theoretische Korrelationsmatrix eines Zufallsvektors als Gegenst¨ uck zu den in Abschnitt 5.2.2 beschriebenen empirischen Matrizen. Definition 8.3.2: Theoretische Kovarianz- und Korrelationsmatrizen Die (theoretische) Varianz-Kovarianzmatrix, kurz Kovarianzmatrix, eines Zufallsvektors X = (X1 , X2 , . . . , Xp )T ist definiert als   σ11 σ12 . . . σ1p σ21 σ22 . . . σ2p    ΣX = Cov(X) =  . , wobei . . ..   .. . .  σp1 σp2 . . . σpp σij = Cov(Xi , Xj ) f¨ ur i, j = 1, . . . , p sind. Die (theoretische) Korrelationsmatrix von X ist die zu ΣX korrespondierende Matrix der Korrelationen (sofern σii > 0 f¨ ur i = 1, . . . , p) σij f¨ ur i, j = 1, . . . , p. %ij = Corr(Xi , Xj ) = √ σii σjj F¨ ur gegebene Zufallsvektoren X = (X1 , X2 , . . . , Xp )T und Y = (Y1 , Y2 , . . . , Yq )T ist der aus X und Y gestapelte Vektor Z definiert als   X Z= = (X1 , . . . , Xp , Y1 , . . . , Yq )T . Y

416

8 Erg¨anzungen und Verallgemeinerungen

Dabei gelte folgende Partition:  X  ΣX ΣXY Cov(Z) = Cov = ΣYX ΣY Y Dann ist die Kovarianzmatrix zwischen X und Y gegeben durch

(8.3.3)

ΣXY = Cov(X, Y) und die Kovarianzmatrix zwischen Y und X durch T ΣYX = Cov(Y, X) = ΣXY .

Die Korrelationsmatrix zwischen X und Y bzw. zwischen Y und X ist die zu ΣXY bzw. ΣYX korrespondierende Matrix der Korrelationen. Man beachte, dass hier notationsm¨ aßig gilt: σii = Cov(Xi , Xi ) = V ar(Xi ) f¨ ur i = 1, . . . , p. Auf der Hauptdiagonalen einer Kovarianzmatrix stehen folglich die Varianzen der Xi und auf den Nebendiagonalen alle wechselseitigen Kovarianzen. In vielen F¨allen werden positive Varianzen vorausgesetzt, d.h. σii > 0, f¨ ur i = 1, . . . , p. • Beispiel 8.3.2 • Die theoretische Kovarianzmatrix zwischen den beiden Vektoren X = (X1 , X2 )T und Y = (Y1 , Y2 , Y3 )T ist die (2 × 3)-Matrix   Cov(X1 , Y1 ) Cov(X1 , Y2 ) Cov(X1 , Y3 ) Cov(X, Y) = ΣXY = . Cov(X2 , Y1 ) Cov(X2 , Y2 ) Cov(X2 , Y3 ) T Die (3 × 2)-Matrix ΣXY = ΣYX ist dann die Kovarianzmatrix zwischen Y und X. F¨ ur das vorhergehende Beispiel D3-b erh¨alt man mit den Regeln zur Berechnung von Kovarianzen (Abschnitt 7.2.2) als Varianz-Kovarianzmatrix des Vektors (X, Y, Z)T     X 0.13 0.09 0 Cov  Y  = 0.09 0.59 0  0 0.24 Z 0

Daraus erh¨alt man als Kovarianzmatrizen zwischen (X, Y )T und Z und zwischen Z und (X, Y )T   0 bzw. (0 0). 0 Hierbei ist zu beachten, dass bereits aus der Unabh¨angigkeit von (X, Y )T und Z folgt, dass diese Kovarianzen Null sind.

Bedingte Kennwerte fu ¨r n > 2 • Hintergrund • Im Rahmen statistischer Analysen und Modelle ist es auf theoretischer Ebene immer wieder wichtig, mit bedingten Verteilungen richtig argumentieren und arbeiten zu k¨ onnen. Dies geht regelm¨ aßig u ¨ber den zweidimensionalen Kontext, der in Abschnitt 7.2.2 behandelt wurde, hinaus. Im Folgenden werden einige solcher

8.3 Einige multivariate Verallgemeinerungen

417

Erweiterungsm¨oglichkeiten, die wir sp¨ ater insbesondere im Rahmen des Regressionsmodells (Kapitel 12) ben¨ otigen, besprochen. Dazu beschr¨anken wir uns auf den Fall n = 3 und betrachten speziell nur Beispielrechnungen anhand eines diskreten Zufallsvektors (X, Y, Z)T . Konkret geht es darum, bedingte Kennwerte wie Erwartungswerte und Varianzen auch f¨ ur den Fall mehrerer bedingender Variablen im Sinne von E(Y |X = x, Z = z) oder V ar(Y |X = x, Z = z) berechnen zu k¨onnen. Hinzu kommen im Fall n > 2 außerdem noch bedingte Kovarianzen und Korrelationen, die wir dann z.B. mit Cov(X, Y |Z = z) bzw. Corr(X, Y |Z = z) notieren. Außerdem besprechen wir kurz die Vorgehensweise bei Ausdr¨ ucken wie etwa E(XY |Z = z) oder E(XY Z|Z = z). Auf eine st¨arker verallgemeinernde Behandlung verzichten wir. F¨ ur den gr¨oßten Teil w¨ aren die hierf¨ ur aufzustellenden Definitionen und Regeln v¨ollig analog oder eben so, wie man diese ohnehin erwarten w¨ urde. • Allgemeine Vorgehensweise • Die Berechnung bedingter Kennwerte setzt allgemein stets an der korrespondierenden bedingten Verteilung an. Diese erh¨alt man aus der gemeinsamen Verteilung aller in einem bedingten Ausdruck involvierten Variablen und der Randverteilung aller bedingenden Variablen. Beispielsweise wird dann zur Berechnung von E(Y |X = x, Z = z) oder E(XY |Z = z) mittels Additions- oder Integrationskalk¨ ul die bedingte Verteilung von Y unter X = x und Z = z ben¨otigt bzw. die gemeinsame bedingte Verteilung von (X, Y )T unter Z = z, d.h. fXY Z fXY Z fY |XZ = bzw. fXY |Z = . fXZ fZ H¨ aufig l¨asst sich die bedingte Verteilung unter bestimmten Unabh¨angigkeitsbedingungen betr¨achtlich vereinfachen. Sind beispielsweise X, Y und Z unabh¨angig, so folgt aus dem Multiplikationskriterium fX fY fZ fXY Z fX fY fZ fXY Z = = fY bzw. fXY |Z = = = fX fY . fY |XZ = fXZ fX fZ fZ fZ Sind dagegen nur Z und (X, Y )T unabh¨ angig, so ergibt sich nur f¨ ur letzteren Fall unmittelbar eine K¨ urzungsm¨ oglichkeit, da fXY fZ fXY Z = und fY |XZ = fXZ fXZ fXY Z fXY fZ fXY |Z = = = fXY . fZ fZ Kommt die Unabh¨ angigkeit von X und Z hinzu, erh¨alt man f¨ ur ersten Fall dagegen fXY Z fXY fZ fXY fY |XZ = = = . fXZ fX fZ fX

418

8 Erg¨anzungen und Verallgemeinerungen

Als Konsequenz solcher K¨ urzungen entf¨ allt bei der Berechnung bedingter Kennwerte dann immer ein Teil bedingender Variablen. So erh¨alt man dann beispielsweise E(Y |X = x, Z = z) = E(Y ), E(Y |X = x, Z = z) = E(Y |X = x) oder E(XY |Z = z) = E(XY ). Bei Ausdr¨ ucken mit Variablen, die gleichzeitig auch als bedingende Variablen auftreten, ist zu beachten, dass diese gem¨ aß dem bedingenden Wert festgesetzt werden. Gegebenenfalls k¨onnen diese noch vor den Erwartungswertoperator gezogen werden. So erh¨alt man etwa E(XY Z|Z = z) = E(XY z|Z = z) = zE(XY |Z = z).

(8.3.4)

• Beispiel D3-a fortgesetzt • In Tabelle 7.1.6 (Abschnitt 7.1.2) bestehen keinerlei Unabh¨angigkeiten zwischen den Variablen. Somit erhalten wir beispielsweise (vgl. Tab. 7.1.9): E(Z|X = 0, Y = 0) = 0, E(Z|X = 0, Y = 1) = 0.125 oder E(Z|X = 1, Y = 2) = 0.11. Da Z hier Bernoulli-verteilt ist, lassen sich diese bedingten Erwartungswerte als theoretische Anteilswerte deuten. Inhaltlich gedeutet liegt demgem¨aß der theoretische Anteil von Vegetariern unter weiblichen Rauchern bei 0%, unter weiblichen Gelegenheitsrauchern bei 12.5% und bei m¨ annlichen Nichtrauchern bei 11%. Weiter ergibt sich (vgl. Tab. 7.1.10): E(XY |Z = 0) = 1 · 1 · 0.11 + 1 · 2 · 0.36 = 0.83 und E(XY |Z = 1) = 1 · 1 · 0.2 + 1 · 2 · 0.4 = 1.0 Hier verzichten wir auf eine inhaltliche Deutung und beachten nur die Rechenweise. Die berechneten Gr¨oßen werden jedoch f¨ ur die bedingten Kovarianzen ben¨otigt. Hierbei gilt: Cov(X, Y |Z = 0) = E(XY |Z = 0) − E(X|Z = 0)E(Y |Z = 0) = 0.83 − 0.59 · (0.19 + 2 · 0.65) = −0.0491 und Cov(X, Y |Z = 1) = E(XY |Z = 1) − E(X|Z = 1)E(Y |Z = 1) = 1.0 − 0.7 · (0.3 + 2 · 0.6) = −0.05. Wie auch unbedingt sind X und Y bedingt auf Z negativ korreliert. Inhaltlich gedeutet heißt das hier, dass sowohl bei Vegetariern (Z = 1) als auch Nichtvegetariern (Z = 0) M¨anner zu einem h¨ oheren Rauchkonsum neigen als Frauen (negative Korrelation zwischen X und Y ). F¨ ur den Ausdruck (8.3.4) erhalten wir E(XY Z|Z = 0) = 0 · E(XY |Z = 0) = 0 bzw. E(XY Z|Z = 1) = 1 · E(XY |Z = 0) = 1. Hier verzichten wir wiederum auf eine inhaltliche Deutung und beachten nur die Berechnungsweise.

8.3 Einige multivariate Verallgemeinerungen

419

• Beispiel D3-b fortgesetzt • In Bezug auf Tabelle 8.3.1 wurde bereits festgestellt, dass (i) X und Z , (ii) Y und Z, (iii) Z und (X, Y )T unabh¨angig sind. Dagegen sind X und Y abh¨ angig. Hier ergeben sich bei der Berechnung bedingter Kennwerte diverse Vereinfachungsm¨ oglichkeiten. Gem¨aß der im vorigen Punkt beschriebenen Logik gilt hier f¨ ur jedes x = 0, 1 und y = 0, 1, 2: E(Z|X = x, Y = y) = E(Z) = 0.4. F¨ ur jedes z = 0, 1 folgt außerdem E(Y |X = 0, Z = z) = E(Y |X = 0) = 0.05/0.15 = 1/3, E(X|Y = 0, Z = z) = E(X|Y = 0) = 0.25/0.35 ≈ 0.71 und E(XY 2 |Z = z) = E(XY 2 ) = 1 · 12 · 0.35 + 1 · 22 · 0.25 = 1.35. Aus Tabelle 8.3.2 erhalten wir weiter E(X) = 0.85, E(Y ) = 0.4 + 2 · 0.25 = 0.9 und E(XY ) = 1 · 1 · 0.35 + 1 · 2 · 0.25 = 0.85. Dies f¨ uhrt in (8.3.4) in diesem Beispiel dann zu E(XY Z|Z = 0) = 0 bzw. E(XY Z|Z = 1) = 0.85. Schließlich erhalten wir f¨ ur jedes z = 0, 1 Cov(X, Y |Z = z) = Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 0.85 − 0.85 · 0.9 = 0.085. Aufgrund der Unabh¨ angigkeit von Z und (X, Y )T stimmen die bedingten Korrelationen mit den unbedingten u ¨berein. Im Falle von Tabelle 8.3.4 ist es umgekehrt (siehe n¨achster Punkt). • Beispiel 8.3.3 • In Tabelle 8.3.4 gilt f¨ ur jedes z = 0, 1: Cov(X, Y |Z = z) = 0 Andererseits ist Cov(X, Y ) = −0.0225. Somit sind X und Y unbedingt korreliert und bedingt unkorreliert unter Z.

8.3.3 Sonstige Verallgemeinerungen • Funktionen unabh¨ angiger und identisch verteilter Zufallsvektoren • Nachfolgende Resultate verallgemeinern bestimmte Resultate aus Abschnitt 7.1.3 f¨ ur den Vektorfall.

420

8 Erg¨anzungen und Verallgemeinerungen

Satz 8.3.1: Funktionen von unabh¨ angigen Zufallsvektoren F¨ ur gegebene Zufallsvektoren (diskret oder stetig) X = (X1 , X2 , . . . , Xp )T und Y = (Y1 , Y2 , . . . , Yq )T und beliebige (messbare) Funktionen g1 : Rp → Rr und g2 : Rq → Rs gilt: Sind X und Y (i) stochastisch unabh¨ angig, so sind auch g1 (X) und g2 (Y) stochastisch unabh¨angig. (ii) identisch verteilt, so sind auch g1 (X) und g1 (Y) identisch verteilt. (iii) stochastisch unabh¨ angig und identisch verteilt, so sind auch g1 (X) und g1 (Y) unabh¨angig und identisch verteilt.

Man beachte hier, dass (iii) unmittelbar aus (i) und (ii) folgt. Ferner setzen die Resultate (ii) und (iii) gleiche Dimension der Vektoren (p = q) und die gleiche Transformation (g1 ) voraus. Erweiterungen f¨ ur den Fall von mehr als zwei Zufallsvektoren liegen auf der Hand und stellen eher eine notationelle als eine theoretische Herausforderung dar. Dazu werden m¨oglicherweise unterschiedlich dimensionierte Zufallsvektoren wie etwa X1 , . . . , Xn betrachtet. Diese sind dann unabh¨ angig, falls gilt: fX1 ,X2 ,...,Xn = fX1 fX2 . . . fXn . F¨ ur die individuell mittels g1 , . . . , gn transformierten Gr¨oßen g1 (X1 ), g2 (X2 ), . . . , gn (Xn ) greifen dann die vorhergehenden Resultate (i)–(iii) in analoger Weise. • Beispiel D3-b fortgesetzt • Im gleichnamigen Beispiel aus dem vorhergehenden Abschnitt folgt mit (i) aus der Unabh¨ angigkeit von Z und (X, Y )T die Unabh¨angigkeit von Z und X. Dies ergibt sich aus Resultat (i), wobei hier die Funktionen g1 : R → R und g2 : R2 → R mit g1 (t) = t und g2 (s, t) = s implizit zugrunde gelegt werden. Konkret heißt das, dass g1 (Z) = Z und g2 (X, Y ) = X unabh¨angig sind. Analog folgt die Unabh¨ angigkeit von Z und Y mit g2 (s, t) = t. Die Resultate gelten nat¨ urlich auch f¨ ur komplexere Transformationen. Beispielsweise folgt aus der Unabh¨ angigkeit von Z und (X, Y )T auch die von Z und XY oder die von Z 2 und X 2 + Y . Entscheidend ist, dass Komponenten unabh¨angiger Vektoren nicht vermischt werden, wie es etwa bei XZ und Y + Z der Fall w¨are. • Anwendungsbeispiel: Multivariate Stichproben • H¨aufige Anwendung findet das Konzept unabh¨ angiger Zufallsvektoren in der Statistik bei der stochastischen Modellierung mehrdimensionaler Stichproben (vgl. Abschnitt 9.2).

8.3 Einige multivariate Verallgemeinerungen

421

• Multivariate Normalverteilung • Die multivariate Erweiterung der Normalverteilung f¨ uhrt auf die multivariate Normalverteilung . Wesentliche Grundz¨ uge dieser Verteilung seien kurz skizziert. Ist ein p-dimensionaler Zufallsvektor X = (X1 , X2 , . . . , Xp )T multivariat normalverteilt bzw. sind X1 , . . . , Xn gemeinsam normalverteilt, so lautet seine Dichtefunktion  1 fX (x1 , . . . , xp ) = exp −0.5(x − µ)T Σ −1 (x − µ) , (8.3.5) p/2 1/2 (2π) |Σ| wobei x = (x1 , . . . , xp )T , µ = (µ1 , . . . , µp )T und Σ = Cov(X). Insbesondere bezeichnet µ den Erwartungswertvektor mit E(Xi ) = µi f¨ ur i = 1, . . . , p, Σ die VarianzKovarianzmatrix von X, |Σ| die Determinante und Σ −1 die Inverse von Σ. Das hochgestellte T“ steht f¨ ur die Transponierung des zentrierten Vektors x. Allgemein wird ” |Σ| > 0 vorausgesetzt, was die Invertierbarkeit von Σ gew¨ahrleistet. Dies schließt beispielsweise Null-Varianzen einzelner Variablen oder betragsm¨aßige Korrelationen von 1 aus. In kompakter Form notiert man h¨ aufig auch nur X ∼ Np (µ, Σ). Man beachte, dass f¨ ur p = 1 die Matrix Σ −1 gerade dem Kehrwert der entsprechenden Varianz entspricht und sich aus (8.3.5) deshalb die gew¨ohnliche univariate Dichte einer Normalverteilung in Form von (7.3.10) ergibt. Die mehrdimensionale Normalverteilung ist von ausgesprochen hoher Eleganz. Sowohl f¨ ur die Randverteilungen als auch f¨ ur die bedingten Verteilungen ergeben sich wiederum Normalverteilungen. Ebenso sind Lineartransformationen normalverteilter Zufallsvektoren wiederum normalverteilt. Im Detail gelten folgende allgemeine Resultate (Beweise finden sich beispielsweise in Johnson und Wichern [2014]). Satz 8.3.2: Ableitungen aus der multivariaten Normalverteilung F¨ ur einen r-dimensionalen Zufallsvektor Z gelte Z ∼ Nr (µZ , ΣZZ ). Sei weiter C eine feste (nichtstochastische) (s × r)-Matrix und c0 ein fester (nichtstochastischer) s-dimensionaler Vektor. Dann gilt: c0 + CZ ∼ Ns (CµZ , CΣZZ CT ) und

(8.3.6)

−1 ΣZZ (Z

(8.3.7)

T

(Z − µZ )

2

− µZ ) ∼ χ (r).

In Anlehnung an die Notation aus Abschnitt 8.3.2 gelte    µ   X ΣXX ΣXY X ∼ Np+q , . ΣYX ΣYY Y µY Dann folgt daraus: X ∼ Np (µX , ΣXX ), Y ∼ Nq (µY , ΣYY ) und

(8.3.8) (8.3.9)

−1 −1 Y|X = x ∼ Nq (µY + ΣYX ΣXX (x − µX ), ΣYY − ΣYX ΣXX ΣXY ),

X|Y = y ∼ Np (µX +

−1 ΣXY ΣYY (y

− µY ), ΣXX −

−1 ΣXY ΣYY ΣYX ),

(8.3.10) (8.3.11)

422

8 Erg¨anzungen und Verallgemeinerungen

wobei Y|X = x die bedingte Verteilung von Y unter X = x und X|Y = y die bedingte Verteilung von X unter Y = y bezeichnet.

Abb. 8.3.1: Beispiele von Dichten der bivariaten Normalverteilung µX = µY = 0, σ2X = σ2Y = 1, σX Y = 0

µX = µY = 0, σ2X = 2, σ2Y = 1, σX Y = 0

f X Y (x,y)

f X Y (x,y)

0.20

0.20

0.15

0.15

0.10

0.10

0.05 0.00 −3

−2

−1

x

0

1

2

3 −3

−2

−1

0

1

2

3

0.05 0.00 −3

y

−2

x

µX = µY = 0, σ2X = σ2Y = 1, σX Y = 0.7

0

1

2

3 −3

−2

−1

1

2

3

y

µX = µY = 0, σ2X = σ2Y = 1, σX Y = − 0.7

f X Y (x,y)

f X Y (x,y)

0.20

0.20

0.15

0.15

0.10

0.10

0.05 0.00 −3

−1

0

−2

−1

x

0

1

2

3 −3

−2

−1

0

1

y

2

3

0.05 0.00 −3

−2

−1

x

0

1

2

3 −3

−2

−1

0

1

2

3

y

Man beachte, dass sich aus (8.3.10) und (8.3.11) Formeln f¨ ur bedingte Erwartungswertvektoren und bedingte Kovarianzmatrizen bei gemeinsamer Normalverteilung ergeben. So erh¨alt man beispielsweise aus (8.3.10) die Formeln: −1 µY|X=x = µY + ΣYX ΣXX (x − µX ) bzw.

ΣY|X = ΣYY −

−1 ΣYX ΣXX ΣXY .

(8.3.12) (8.3.13)

Aus (8.3.13) lassen sich die bedingten Varianzen und bedingten Kovarianzen f¨ ur einzelne Komponenten von Y bedingt auf X = x ablesen. Wie man sieht, unterscheidet sich die bedingte Kovarianzmatrix ΣY|X zwar von der Varianz-Kovarianzmatrix Cov(Y) = ΣYY , sie h¨ angt jedoch nicht vom bedingenden Wert x ab, sondern ist konstant. Analoges folgt aus der bedingten Verteilung von X unter Y = y. Anhand der Formeln (8.3.10) und (8.3.11) l¨asst sich feststellen: Sofern X und Y unkorreliert sind, also ΣXY = 0 bzw. ΣYX = 0 gilt, folgt Y|X = x ∼ Nq (µY , ΣYY ) bzw. X|Y = x ∼ Np (µX , ΣXX ). Die bedingten Verteilungen entsprechen dann den Randverteilungen. Damit sind X und Y unabh¨angig. Unkorreliertheit impliziert im Falle einer gemeinsamen Normalverteilung folglich Unabh¨angigkeit. Man beachte, dass dieser Schluss im Allgemeinen nicht zul¨assig ist. Dies belegt etwa Beispiel D2-d aus Abschnitt 7.2.2.

8.3 Einige multivariate Verallgemeinerungen

423

Sind X und Y gemeinsam normalverteilt, so sind Unkorreliertheit und Unabh¨angigkeit ¨aquivalent. In nachfolgenden Beispielen wird die theoretische N¨ utzlichkeit obiger Resultate gezeigt. • Beispiel 8.3.4 • Sei (X, Y )T zweidimensional (bivariat) normalverteilt, d.h.    µ   2 X σX σXY X ∼ N2 , . σXY σY2 Y µY Gem¨aß (8.3.8) und (8.3.9) sind dann X1 und X2 jeweils normalverteilt mit 2 X ∼ N (µX , σX ) bzw. Y ∼ N (µY , σY2 ).

Aus (8.3.6) l¨asst sich beispielsweise die Verteilung der gewichteten Summe c0 +c1 X+c2 Y ableiten. Mit entsprechender Wahl von c0 = c0 und C = (c1

c2 )

erh¨alt man nach einigen Vereinfachungsschritten 2 c0 + c1 X + c2 Y ∼ N (c0 + c1 µX + c2 µY , c21 σX + c2 σY2 + 2c1 c2 σXY ).

(8.3.14)

Auf diese Weise lassen sich die Resultate (7.4.21)–(7.4.25) aus Abschnitt 7.4.1 dahingehend verallgemeinern, dass auf die Annahme der Unabh¨angigkeit verzichtet werden kann. Aus (8.3.10) folgt f¨ ur die bedingte Verteilung von Y unter X = x:  σ2  σXY (8.3.15) Y |X = x ∼ N µY + 2 (x − µX ), σY2 − XY 2 σX σX Interessanterweise erh¨ alt man durch Umschreibung der Formel f¨ ur den bedingten Erwartungswert die theoretischen Regressionskoeffizienten aus Abschnitt 7.2.2: σXY σXY σXY µY |X=x = µY + 2 (x − µX ) = µY − 2 µX + 2 x = β0 + β1 x. (8.3.16) σX σX σX Der bedingte Erwartungswert liegt folglich auf der theoretischen KQ-Regressionsgeraden einer theoretischen Regression von Y auf X. • Beispiel 8.3.5 • Sei (X, Y, Z)T dreidimensional normalverteilt, d.h.      2  σZ σZX σZY Z µZ 2 X  ∼ N3 µX  , σZX σX σXY  . Y µY σY Z σXY σY2 Sofern wir im Sinne einer notationsm¨ aßigen Angleichung setzen X = Z und Y = (X, Y )T , erhalten wir als bedingte Verteilung von (X, Y )T unter Z gerade Formel (8.3.10). Aus Formel (8.3.13) erh¨ alt man als bedingte Kovarianzmatrix von (X, Y )T unter Z  2   2     σX|Z σXY |Z σXZ 1 σX σXY σXY σXZ ΣXY |Z = = − 2 σXY |Z σY2 |Z σXY σY2 σY Z σZ   2 2 2 2 σX − σXZ /σZ σXY − σXZ σY Z /σZ = . 2 2 σXY − σXZ σY Z /σZ σY2 − σY2 Z /σZ

424

8 Erg¨anzungen und Verallgemeinerungen

Daraus ergeben sich Formeln f¨ ur die bedingten Varianzen und f¨ ur die bedingte Kovarianz: 2 2 2 2 σX|Z = V ar(X|Z) = σX − σXZ /σZ ,

(8.3.17)

σY2 |Z

(8.3.18)

= V ar(Y |Z) =

σY2



2 σY2 Z /σZ ,

σXY |Z = Cov(X, Y |Z) = σXY −

2 σXZ σY Z /σZ .

(8.3.19)

Die Formel f¨ ur die bedingte Korrelation zwischen X und Y gegeben Z lautet folglich q 2 %XY |Z = Corr(X, Y |Z) = σXY |Z / σX|Z σY2 |Z . (8.3.20) Setzen wir (8.3.17)–(8.3.19) in (8.3.20) ein, erhalten wir nach einigen Umformungen %XY − %XZ %Y Z %XY |Z = p (8.3.21) (1 − %2XZ )(1 − %2Y Z ) Diese Formel definiert zugleich auch die partielle Korrelation zwischen X und Y gegeben Z (Abschnitt 12.2.1). Sie erweist sich insbesondere im Rahmen des Regressionsmodells (Kap. 12) als recht n¨ utzlich. • Multivariate asymptotische Aussagen • Prinzipiell lassen sich alle in den Abschnitten 7.4.2 und 8.2 behandelten Definitionen und S¨atze in Bezug auf stochastische Konvergenzen und Verteilungskonvergenzen auf den Vektorfall erweitern. Ausgangspunkt ist dann im Allgemeinen eben eine Folge von Zufallsvektoren X1 , . . . , Xn , . . . , kurz notiert mit (Xn ). Zur Vereinfachung betrachten wir den zweidimensionalen Fall und notieren die entsprechende Folge mit (Xn , Yn )T . Sind die Zufallsvektoren (X1 , Y1 )T , . . . , (Xn , Yn )T beispielsweise unabh¨ angig und identisch verteilt mit        2  Xi µX Xi σX σXY µ=E = und Σ = Cov = σXY σY2 Yi µY Yi f¨ ur i = 1, . . . , n und |Σ| > 0, so gilt (vgl. etwa Knight [2000, Theorem 3.12]):    2   ¯ √ X 0 σX σXY a n − µX ˘ ∼N . (8.3.22) , Zn = n ¯ σXY σY2 0 Yn − µY Das ist die zweidimensionale Version von Resultat (8.2.10). (8.3.22) gilt auch bei heterogener Verteilung unter Annahme (B) und den beiden Konvergenzkriterien n→∞ n→∞ ¯n −− ¯ n −−−−→ µ und Σ µ −−→ Σ, ohne dass wir dies n¨ aher ausf¨ uhren m¨ ochten. Auch auf der Ebene der stochastischen Konvergenz ließen sich etliche Erweiterungen formulieren. Es sei lediglich auf folgendes wichtiges Resultat hingewiesen, welches Satz 8.2.3 verallgemeinert (vgl. White [2001, Proposition 2.27]): Satz 8.3.3: Multivariater Stetigkeitssatz Sei (Yn ) eine Folge p-dimensionaler Zufallsvektoren, h : Rp → Rq eine stetige Funktion und θ ein Vektor fester Werte. Sofern h(θ) definiert ist und gilt p

Yn −−→ θ,

8.3 Einige multivariate Verallgemeinerungen

425

folgt daraus f¨ ur Un = h(Yn ): p

p

Un −−→ h(θ) bzw. h(Yn ) −−→ h(θ). Hierbei ist zu bemerken, dass (Yn ) gegen θ stochastisch konvergiert, sofern jede Komponente von (Yn ) gegen die entsprechende Komponente des Vektors θ stochastisch konvergiert. • Beispiel 8.3.6 • Seien (X1 , Y1 )T , . . . , (Xn , Yn )T u.i.v. wie (X, Y )T mit E(X) = µX und E(Y ) = µY . In Erweiterung von Satz 8.3.1 folgt, dass dann folglich auch X1 , . . . , Xn u.i.v. wie X sind, Y1 , . . . , Yn u.i.v. wie Y , X12 , . . . , Xn2 u.i.v. wie X 2 und die gemischten Produkte X1 Y1 , . . . , Xn Yn u.i.v. wie XY sind. Gem¨aß dem GGZ f¨ ur k-te Momente (Satz 8.2.4) folgen daraus unter der Annahme endlicher zweiter Momente die Resultate: p ¯ n −− X → µX , p

Y¯n −−→ µY , n 1X 2 p X −−→ E(X 2 ) und n i=1 i

(8.3.23) (8.3.24) (8.3.25)

n

1X p Xi Yi −−→ E(XY ). n i=1 Vektoriell ausgedr¨ uckt erh¨ alt man daraus dann n n X 1X p ¯ n , Y¯n , 1 Xi2 , Xi Yi )T −−→ (µX , µY , E(X 2 ), E(XY ))T . (X n i=1 n i=1 Aus (8.3.27) folgt dann mit dem multivariaten Stetigkeitssatz n 1X 2 p 2 2 ¯ 2 −− X −X n → E(X ) − µX , d.h. n i=1 i

(8.3.26)

(8.3.27)

(8.3.28)

n

1X p 2 ¯ n )2 −− (Xi − X → V ar(X) = σX und n i=1

(8.3.29)

n

1X p ¯ n Y¯n −− Xi Yi − X → E(XY ) − µX µY , d.h. n i=1

(8.3.30)

n

1X p ¯ n )(Yi − Y¯n ) −− (Xi − X → Cov(X, Y ) = σXY . n i=1

(8.3.31)

Die Ausdr¨ ucke (8.3.29) und (8.3.31) verleihen der theoretischen Varianz bzw. der theoretischen Kovarianz letztlich ihre inhaltlichen Deutungen. Die Ausdr¨ ucke auf den linken Seiten werden wir sp¨ ater als Stichprobenvarianz bzw. Stichprobenkovarianz bezeichnen (Abschnitt 9.3). • Gemischt skalierte Vektoren • In diesem Lehrbuch nennen wir einen Zufallsvektor gemischt skaliert, wenn er sowohl diskrete als auch stetige Zufallsvariablen

426

8 Erg¨anzungen und Verallgemeinerungen

enth¨alt. Diesen Fall haben wir bei allen Betrachtungen zur Erzielung einer einfacheren Darstellung bisher außer Acht gelassen. Prinzipiell stellt dieser Fall jedoch kein Problem dar, wenn beachtet wird, dass dann Additions- und Integrationskalk¨ ul parallel zu verwenden sind. Alle bisher behandelten Definitionen, Konzepte und S¨atze sind auch f¨ ur diesen Fall g¨ ultig, sofern keine bestimmte Verteilung wie etwa eine Normal- oder Binomialverteilung zwingend vorausgesetzt wurde. Gemischte Skalierungen sind durchaus von hoher Relevanz und in der Praxis stochastischer Modellierungen keinesfalls Ausnahmeerscheinungen. • Beispiel 8.3.7 • Analysiert man den Zusammenhang zwischen Haushaltsgr¨oße (in Anzahl von Personen) und Haushaltsbruttoeinkommen (in Euro), so erscheint auf theoretischer Ebene eine Modellierung mit einer diskreten Variablen X (1,2,. . . ) und einer stetigen Variablen Y (Einkommen) ad¨ aquat. Angenommen auf Basis empirischer Erfahrungswerte postuliere man: P (X = 1) = p1 , P (X = 2) = p2 , P (X = 3) = p3 und P (X = 4) = p4 . Weiter gelte f¨ ur die bedingte Verteilung von Y unter X = x: Y |X = 1 ∼ N (µ1 , σ12 ),

Y |X = 2 ∼ N (µ2 , σ22 ),

Y |X = 3 ∼ N (µ3 , σ32 ),

Y |X = 4 ∼ N (µ4 , σ42 ).

Dann sind X und Y unabh¨ angig, falls die bedingten Verteilungen von Y unter X = x identisch sind. Die Wahrscheinlichkeit, dass ein Haushalt beispielsweise weniger als 3 Personen und zugleich ein Einkommen von h¨ ochstens z Euro aufweist, kann dann u ¨ber folgende Rechnung ermittelt werden: P (X ≤ 2, Y ≤ z) = P (X = 1, Y ≤ z) + P (X = 2, Y ≤ z) = P (X = 1)P (Y ≤ z|X = 1) + P (X = 2)P (Y ≤ z|X = 2) z − µ  z − µ  2 1 = p1 Φ + p2 Φ . σ1 σ2 Hierbei wird nun die mithilfe der Verteilungsfunktion der Standardnormalverteilung durchgef¨ uhrte Integration bez¨ uglich Y mit der Addition bez¨ uglich X kombiniert.

Teil 3: Induktive Statistik – Verbindung von Empirie und Theorie Die deskriptiven Methoden aus Teil 1 zielen darauf ab, konkret vorliegende Daten hinsichtlich wesentlicher Eigenschaften mit grafischen und rechnerischen Mitteln zu beschreiben. Sie beruhen auf keinem Wahrscheinlichkeitskalk¨ ul, sondern sind in erster Linie datengest¨ utzt. Im Gegensatz dazu ben¨ otigt der theoretische Kalk¨ ul der Wahrscheinlichkeitsrechnung in Teil 2 keinerlei Daten. Was jetzt in Teil 3 folgt, ist eine Art Vereinigung der ersten beiden Teile zur induktiven Statistik (schließenden Statistik ). Diese ist immer dann notwendig, wenn vorliegende Daten einer gewissen Zufallsabh¨angigkeit unterworfen sind und somit stochastischen Charakter aufweisen. Dies hat dann regelm¨aßig Deutungsprobleme zur Folge. Diese lassen sich in Sch¨ atz- und Testprobleme einteilen und mit den Methoden der statistischen Sch¨ atztheorie bzw. der statistischen Testtheorie handhaben. Wesentliche Elemente davon wurden bereits in Abschnitt 1.2 einf¨ uhrend erl¨ autert. Im Kern geht es darum, die Zufallsabh¨angigkeit der Daten mithilfe der Wahrscheinlichkeitsrechnung ad¨aquat zu modellieren. Dabei wird das empirische Datenmaterial als Realisation einer Stichprobe aus einer (teils unbekannten) u ¨bergeordneten Grundgesamtheit aufgefasst. Alle Aussagen, die man dann von der Stichprobe auf diese Grundgesamtheit u ¨bertr¨agt, formen den eigentlichen statistischen Schluss – die Induktion. Bis etwa zum Jahr 1935 waren alle f¨ ur diesen Teil des Lehrbuches relevanten Grundlagen und Begrifflichkeiten der induktiven (mathematischen) Statistik schon weitestgehend entwickelt bzw. eingef¨ uhrt. Fundamentale Beitr¨age erbrachten hier insbesondere Karl Pearson [1900a, 1904], William Gosset [1908], Ronald Fisher [1922, 1925a, 1925b, 1935] sowie Jerzy Neyman und Egon Pearson [1928, 1933]. In Bezug auf Fisher ist herauszustellen, dass er einerseits auf theoretischer Ebene maßgeblich zur Weiterentwicklung der Test- und Sch¨ atztheorie beitrug und andererseits auf angewandter Ebene mit seinen beiden viel beachteten Werken Statistical Methods for Research Workers“ ” (Fisher [1925a]) und The Design of Experiments“ (Fisher [1935]) die Verwendung sta” tistischer Methoden in Forschungsexperimenten fundamental gepr¨agt hat. Umfassende und detaillierte Darstellungen zur Geschichte der induktiven Statistik bieten beispielsweise Hald [1998, 2007] und David [1995]. In Kapitel 9 wird zun¨ achst die statistische Modellierung und Handhabung von Sch¨atz- und Testproblemen anhand erster Beispiele erl¨autert. Im Gegensatz zu Abschnitt 1.2 kann dabei nun von der Wahrscheinlichkeitsrechnung vollumf¨anglich Gebrauch gemacht werden. In den Kapiteln 10 und 11 werden dann jeweils getrennt die Grundlagen und Verfahren des statistischen Sch¨ atzens bzw. des statistischen Testens ausf¨ uhrlich behandelt. Dem linearen Regressionsmodell ist mit Kapitel 12 ein eigenes Kapitel gewidmet. Es ist das wohl wichtigste und popul¨arste statistische Modell komplexerer Natur.

Kapitel 9: Einfu ¨ hrung in die induktive Statistik In Abschnitt 9.1 wird anhand von Beispielen skizziert, wie sich statistische Probleme mithilfe des Wahrscheinlichkeitsapparats modellieren, interpretieren und handhaben lassen. Die hierbei verwendeten beiden Schlussweisen, Sch¨ atzen und Testen, werden dabei einf¨ uhrend erkl¨ art. Ein wichtiger Begriff, der in diesem Zusammenhang immer wieder ben¨ otigt wird, ist der einer Stichprobe. Differenzierte Ausf¨ uhrungen hierzu finden sich in Abschnitt 9.2. Auf formaler und notationeller Ebene erfordern induktive Methoden aufgrund der gleichzeitigen Verwendung empirischen und theoretischen Kalk¨ uls wichtige Unterscheidungen. Dieser Gesichtspunkt wird in Abschnitt 9.3 thematisiert.

9.1 Modellierung und Handhabung von Sch¨ atz- und Testproblemen Generell unterscheidet man in der induktiven Statistik zwischen Sch¨ atz- und Testproblemen. F¨ ur erstere steht der Methodenapparat der statistischen Sch¨ atztheorie zur Verf¨ ugung. Letztere sind als Entscheidungsprobleme interpretierbar und werden mit den Methoden der statistischen Testtheorie behandelt. Voraussetzung ist in beiden F¨allen eine geeignete statistische Modellierung des Problems. Der Gewinn, der sich in praktischer Hinsicht daraus ergibt, sind konkrete Wahrscheinlichkeitsangaben dar¨ uber, mit welcher Sicherheit oder Unsicherheit bestimmte statistische Angaben oder Entscheidungen einhergehen. ¨ • Hintergrund und Uberblick • In Abschnitt 1.2 wurden die Begriffe statisti” sches Problem“ und statistisches Modell“ eingef¨ uhrt. Ebenso wurden methodi” sche Grundans¨atze der induktiven Statistik bereits exemplarisch erl¨autert. Mithilfe der in Teil 2 behandelten Wahrscheinlichkeitsrechnung werden diese Begriffe und Ans¨atze nun anhand nachfolgender Beispiele pr¨ azisiert und detaillierter erkl¨art. Abbildung 9.1.1 stellt den hierbei zugrunde gelegten Zusammenhang von Problemstellungen, Methoden und Zielen der induktiven Statistik vereinfachend dar. Abb. 9.1.1: Methodik der induktiven Statistik Induktive Statistik Statistisches Problem:

Schätzproblem

Entscheidungs−/Testproblem

Methodischer Ansatz:

Statistisches Schätzen

Statistisches Testen

Quantifizierung von...

Sicherheitswahrscheinlichkeiten

Irrtumswahrscheinlichkeiten

9.1 Modellierung und Handhabung von Sch¨ atz- und Testproblemen

429

• Beispiel 9.1.1: Mensabefragung • Gegeben sei die Situation aus Beispiel 1.2.1 in Abschnitt 1.2. Da Befragungen auf Stichprobenbasis zufallsabh¨angig sind, k¨onnen dar¨ uber erhobene H¨ aufigkeiten und Anteilswerte nicht wortw¨ortlich“ genommen wer” den. Es besteht folglich ein statistisches Problem. Zur Modellierung des stochastischen Verhaltens der in diesem Fall relevanten Statistiken eignet sich die Binomialverteilung (Abschnitt 7.3.1). Bezeichnet π den tats¨ achlichen Anteil von Mensabef¨ urwortern unter allen Studierenden, so l¨asst sich die Pr¨ aferenz eines einzelnen zuf¨allig ausgew¨ahlten Studierenden u ¨ber eine Bernoulli-verteilte Zufallsvariable X mit P (X = 1) = π und P (X = 0) = 1 − π beschreiben. Im Falle von 50 zuf¨ allig ausgew¨ ahlten Studierenden ergibt sich die Anzahl von Mensabef¨ urwortern in der Stichprobe dann aus der Summe S50 =

50 X

Xi ∼ B(50, π),

(9.1.1)

i=1

wobei X1 , . . . , X50 unabh¨ angig B(1, π)-verteilt sind. Diese u.i.v.-Annahme gilt zumindest approximativ, falls der Auswahlsatz klein ist (vgl. Abschnitt 9.2). Die Summe selbst ist dann B(50, π)-verteilt. Diese Rahmenbedingungen stellen hier das statistische Modell dar, u ¨ber das sich die in Beispiel 1.2.1 aufgeworfenen Fragestellungen handhaben lassen. Wir beginnen mit dem statistischen Entscheidungsproblem, ab welchem Mehrheitsverh¨altnis innerhalb einer Stichprobe vom Umfang n = 50 evident“ von ” einer mehrheitlichen Pr¨ aferenz f¨ ur die Mensa unter allen Studierenden auszugehen ist. Mit anderen Worten geht es darum, eine sinnvolle Entscheidungsregel zwischen den beiden M¨oglichkeiten π ≤ 0.5 und π > 0.5

(9.1.2)

zu finden. Nehmen wir hypothetisch an, dass die Anteile von Bef¨ urwortern und Nichtbef¨ urwortern mit jeweils 50% genau gleich sind, gilt: S50 ∼ B(50, π). Das linke Schaubild von Abbildung 1.2.3 zeigt die korrespondierende Wahrscheinlichkeitsfunktion. Dies impliziert dann beispielsweise 50   X 50 P (S50 ≥ 31) = 0.530 ≈ 0.0595 oder i i=31 50   X 50 P (S50 ≥ 36) = 0.530 ≈ 0.0013. i i=36 Die Wahrscheinlichkeit f¨ ur mehr als 30 Bef¨ urworter betr¨agt also nur ca. 6% und f¨ ur mehr als 35 Bef¨ urworter nur ca. 0.1%. Liegt der tats¨achliche Anteil von Bef¨ urwortern unterhalb von 50%, d.h. ist eine Mehrheit gegen die Mensa, so erhalten wir eine B(50, π)-Verteilung mit π < 0.5. Ist tats¨ achlich eine Mehrheit f¨ ur die Mensa, erhalten wir hingegen eine B(50, π)-Verteilung mit π > 0.5. In ersten Fall verschiebt sich die Wahrscheinlichkeitsmasse nach links, womit die Wahrscheinlichkeiten P (S50 ≥ 31) und

430

9 Einf¨ uhrung in die induktive Statistik

P (S50 ≥ 36) kleiner werden als f¨ ur π = 0.5. In zweiten Fall verschiebt sich die Verteilung dagegen nach rechts, womit die betreffenden Wahrscheinlichkeiten gr¨oßer werden (vgl. hierzu auch Abbildung 7.3.3 f¨ ur den Fall einer B(10, π)-Verteilung). Dies bedeutet, dass es nicht nur aus intuitiver, sondern auch aus theoretischer Sicht plausibel ist, bei hohen Werten von S50 auf eine mehrheitliche Pr¨ aferenz f¨ ur die Mensa zu schließen, bei niedrigen Werten jedoch nicht. Was als hoch“ bzw. niedrig“ eingestuft wird, wird anhand der ” ” Wahrscheinlichkeiten, wie sie oben exemplarisch berechnet wurden, festgemacht. Diese werden sp¨ater als Irrtumswahrscheinlichkeiten bezeichnet, die korrespondierenden Entscheidungsgrenzen wie 30 oder 35 als kritische Werte. Insgesamt entspricht diese Vorgehensweise der Methode eines statistischen Testverfahrens. Als n¨achstes befassen wir uns mit dem statistischen Sch¨atzproblem, ein wohlbegr¨ undetes Intervall f¨ ur den tats¨ achlichen Anteilswert von Bef¨ urwortern zu konstruieren. Sofern 40 von 50 Studierenden die Mensa bef¨ urworten, entspricht dies einem Anteilswert von 80% in der Stichprobe. Das rechte Schaubild von Abbildung 1.2.3 zeigt die Verteilung von S50 f¨ ur π = 0.8. Analog wie zuvor gilt wieder, dass sich die Verteilung f¨ ur π > 0.8 nach rechts und f¨ ur π < 0.8 nach links verschiebt. So erscheint es plausibel, nur diejenigen Werte noch als potenziell m¨ ogliche“ Werte zu erachten, die im Sinne der ” B(50, 0.8)-Verteilung nicht allzu groß oder allzu klein sind. Beispielsweise implizieren die Wahrscheinlichkeiten 34   X 50 P (S50 ≤ 34) = 0.8i (1 − 0.8)50−i ≈ 0.0308 und i i=0 50   X 50 P (S50 ≥ 46) = 0.8i (1 − 0.8)50−i ≈ 0.0185 i i=46 ¨ die Grenzwerte 35 und 45, deren Unter- bzw. Uberschreitung in der Summe nur mit ca. 5% Wahrscheinlichkeit m¨ oglich ist. Das hierdurch implizierte Intervall [0.7, 0.9] f¨ ur den zu sch¨ atzenden Parameter π wird sp¨ater als Konfidenzintervall (Sicherheitsintervall ) bezeichnet. Die abgedeckte Wahrscheinlichkeitsmasse von 95% wird in diesem Zuge dann als Konfidenzniveau (Sicherheitswahrscheinlichkeit) bezeichnet. Umgekehrt macht es Sinn, die verbleibende Restunsicherheit von 5% gleichsam wie bei einem Test als Irrtumswahrscheinlichkeit zu bezeichnen. Somit besteht ¨ zwischen Test- und Sch¨ atzproblemen eine gewisse Aquivalenz (vgl. Abschnitt 11.1.3). • Beispiel 9.1.2: Gep¨ ackabfertigungszeiten • Zur Bedarfsermittlung von Personal bei der Gep¨ackannahme an einem Flughafen soll die durchschnittliche Abfertigungszeit gesch¨atzt werden. Hierzu werden stichprobenhaft 10 Abfertigungsvorg¨ange zeitlich gemessen. F¨ ur das hiermit einhergehende statistische Sch¨ atzproblem soll ein geeignetes statistisches Modell verwendet werden. Die 10 gemessenen Zeiten k¨ onnen nun beispielsweise, sofern gerechtfertigt, u ¨ber unabh¨angige und identisch verteilte Zufallsvariablen X1 , . . . , X10 modelliert werden. Mit der zus¨atzlichen Annahme, dass die Abfertigungszeiten insgesamt N (µ, σ 2 )-verteilt sind, erh¨alt man f¨ ur das stochastische Mittel gem¨aß (7.4.25) 10

X ¯= 1 X Xi ∼ N (µ, σ 2 /10). 10 i=1

(9.1.3)

9.1 Modellierung und Handhabung von Sch¨ atz- und Testproblemen

431

Abb. 9.1.2: Schwankungsverhalten des Stichprobenmittels f¨ ur µ = 9.52 Schätzung durch Stichprobenvarianz

f X (x ) 2

X ~ N (9.52, σ 10)

2.5%

95%

q 0.025

9.52

2.5%

q 0.975

x

Die weitere Vorgehensweise w¨ urde dann nach analogen Prinzipien wie in Beispiel 9.1.1 erfolgen. Sofern man als mittlere Abfertigungszeit in der Stichprobe beispielsweise x ¯ = 9.52 erh¨alt, w¨ are ein wohlbegr¨ undetes 95%-Sicherheitsintervall f¨ ur den Parameter µ gegeben durch [q0.025 , q0.975 ], wobei q0.025 und q0.975 die entsprechenden Quantile einer N (9.52, σ 2 /10)-Verteilung sind abe sich freilich noch das Problem, dass die Varianz σ 2 (vgl. Abb. 9.1.2). Im Detail erg¨ unbekannt ist. Inwiefern hier ersatzweise die empirische Varianz in der Stichprobe als Sch¨ atzung f¨ ur σ 2 verwendet werden kann, wird sp¨ater in Kapitel 10 (Beispiel 10.2.2). gekl¨art. • Beispiel 9.1.3: Pflanzenexperiment • Es soll die Tauglichkeit eines bestimmten D¨ ungemittels f¨ ur eine bestimmte Nutzpflanze experimentell untersucht werden. Dazu werden unter sonst identischen Bedingungen jeweils drei Exemplare einmal ohne und einmal mit D¨ ungung angepflanzt. Statistische Problemstellungen, die sich hierbei ergeben, sind Fragen nach der grunds¨ atzlichen Wirksamkeit des D¨ ungemittels (ob es u arke des D¨ ungeeffekts. Anhaltspunkte dar¨ uber sollen ¨berhaupt wirksam ist) und der St¨ die nach einem bestimmten Zeitraum gemessenen Wuchsh¨ohen liefern (vgl. Abb. 1.2.1). Da diese generell zuf¨ alligen Schwankungen unterliegen und somit keine eindeutige Zuordnung von Ursachen m¨ oglich sind, gehen die zu untersuchenden Fragen automatisch mit einem statistischen Test- und Sch¨ atzproblem einher. In einem statistischen Modellierungsansatz k¨onnte man nun beispielsweise, sofern gerechtfertigt, die Wuchsh¨ ohen der ohne D¨ ungung gez¨ uchteten Pflanzen als unabh¨angige N (µ0 , σ 2 )-verteilte Zufallsvariablen Y01 , Y02 und Y03 modellieren und die der ged¨ ungten Pflanzen als unabh¨ angige N (µ1 , σ 2 )-verteilte Zufallsvariablen Y11 , Y12 und Y13 . Die Frage nach der generellen Wirksamkeit l¨ asst sich dann als Entscheidungsproblem zwischen µ0 = µ1

und

µ0 6= µ1

(9.1.4)

aß (7.4.25) auffassen. Da gem¨ 3

3

1X 1X Y¯0 = Y0i ∼ N (µ0 , σ 2 /3) und Y¯1 = Y1i ∼ N (µ1 , σ 2 /3) 3 i=1 3 i=1

432

9 Einf¨ uhrung in die induktive Statistik

gilt, erh¨alt man gem¨ aß (7.4.21) f¨ ur das stochastische Verhalten der Differenz Y¯1 − Y¯0 ∼ N (µ1 − µ0 , 2σ 2 /3).

(9.1.5)

allt, desto eher wird man auf eine positive oder negative Je gr¨oßer diese Differenz ausf¨ Wirkung schließen. Definiert man die Effektst¨ arke als theoretische Differenz µ1 − µ0 , so ¨ l¨asst sich diese u wie zuvor kann ¨ber die Mittelwertdifferenz (9.1.5) sch¨atzen. Ahnlich dabei auch ein Sicherheitsintervall f¨ ur diese Sch¨atzung konstruiert werden. Allerdings muss sowohl beim Testen als auch beim Sch¨ atzen die unbekannte Varianz σ 2 gesch¨atzt werden, was im Detail dann zu leichten Ver¨ anderungen f¨ uhrt (vgl. sp¨atere Fortf¨ uhrung in Beispiel 10.2.3). • Zusammenfassung • Ziel jeder statistischen Modellierung ist es, das stochastische Verhalten der f¨ ur ein Test- oder Sch¨ atzproblem maßgeblichen Statistik mehr oder weniger genau zu bestimmen, wie es etwa in (9.1.1), (9.1.3) oder (9.1.5) der Fall ist. Daraus lassen sich dann wahrscheinlichkeitstheoretisch begr¨ undete Entscheidungsregeln und Angaben ableiten. Die Sch¨ atz- und Testprobleme beziehen sich dabei h¨aufig auf theoretische Kenngr¨oßen (Parameter) der verwendeten Modelle und k¨onnen dar¨ uber pr¨azise formuliert werden.

9.2 Was versteht man unter einer Stichprobe? Stichproben schlagen im Kern die Br¨ ucke zwischen Empirie und Theorie. Auf Basis realisierter Stichproben, d.h. konkret vorliegender Beobachtungswerte, k¨onnen mittels statistischer Modellierung wahrscheinlichkeitstheoretisch fundierte Schl¨ usse in Bezug auf vorgegebene reale oder hypothetische Grundgesamtheiten gezogen werden. Im Zuge dessen sind Repr¨ asentativit¨ at und Ziehungsschema solcher realer oder hypothetischer Stichproben zu pr¨ ufen bzw. zu spezifizieren. • Stichproben und Stichprobenvariablen • Der Begriff der Stichprobe wurde im vorhergehenden Abschnitt bereits mehrfach verwendet. Zur definitorischen Eingrenzung halten wir uns an folgende eher allgemein gehaltene Umschreibung: Definition 9.2.1: Stichprobe und Stichprobenvariablen In der induktiven Statistik versteht man unter einer Stichprobe ein Ensemble von Zufallsvariablen, das bei der statistischen Modellierung eines Sch¨atz- oder Testproblems jeweils relevant ist. Die Zufallsvariablen heißen dann auch Stichprobenvariablen. Beispielsweise besteht die Stichprobe in Beispiel 9.1.1 aus unabh¨angigen Bernoulliverteilten Zufallsvariablen X1 , . . . , Xn , w¨ ahrend sie sich in Beispiel 9.1.2 aus unabh¨angigen normalverteilten Zufallsvariablen zusammensetzt. In Beispiel 9.1.3 wird die Stichprobe aus unabh¨ angigen normalverteilten Zufallsvariablen Y01 , Y02 , Y03 , Y11 , Y12 und Y13 gebildet, wobei die ersten drei m¨ oglicherweise anders verteilt sind. • Realisation einer Stichprobe • Als Ensemble von Zufallsvariablen sind Stichproben zun¨achst einmal nur wahrscheinlichkeitstheoretische Konstrukte. Jedoch kommt ein

9.2 Was versteht man unter einer Stichprobe?

433

wesentlicher Aspekt hinzu, der die Br¨ ucke zwischen Empirie und Theorie schl¨agt und den Unterschied der Statistik zur reinen Wahrscheinlichkeitstheorie ausmacht: Dies sind die Realisationen von Stichproben. Definition 9.2.2: Realisation einer Stichprobe Unter der Realisation einer Stichprobe versteht man die korrespondierend zu einer Stichprobe X1 , . . . , Xn konkret vorliegenden Beobachtungswerte (Realisationen), welche mit Kleinbuchstaben x1 , . . . , xn notiert werden. Eine m¨ogliche Realisation der Stichprobe in Beispiel 9.1.1 mit n = 50 w¨are beispielsweise: 0, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0. Dabei gilt: x1 = 0, x2 = 1, . . . , x50 = 0. W¨ urde man ein weiteres Mal eine Stichprobe vom Umfang 50 ziehen, w¨ urden die neuen Realisationen mit sehr hoher Wahrscheinlichkeit von den gerade vorliegenden abweichen. Wie bereits festgestellt, erzeugt dieser Umstand ein statistisches Problem. • Induktion • Wie aus Definition 9.2.1 hervorgeht, sind Stichproben stets im Zusammenhang statistischer Probleme zu sehen. Ziel jeder statistischen Untersuchung ist es, u ¨ber eine bestimmte Zielmenge von Objekten, Personen oder Vorg¨angen, die sich durch sachliche, r¨ aumliche und zeitliche Identifikationskriterien abgrenzt, bestimmte statistische Aussagen zu treffen. In vielen F¨allen sind dabei die Objekte, Personen oder Vorg¨ange, an denen die Messungen selbst vorgenommen werden, im engeren Sinne nicht von Interesse. Vielmehr werden diese h¨aufig nur als zufallsabh¨angige Teilinformation (Stichprobe) eines u ¨bergeordneten Ganzen interpretiert, das man als Grundgesamtheit bezeichnet. Stichprobenvariablen repr¨asentieren zufallsabh¨angige Daten, wobei konkret vorliegende Beobachtungswerte als Realisationen dieser aufgefasst werden. Letztliches Ziel ist es dann, anhand der realisierten Stichprobe wahrscheinlichkeitstheoretisch begr¨ undete Schl¨ usse mit den Methoden des Sch¨atzens und Testens auf die Grundgesamtheit zu ziehen. Diesen Vorgang bezeichnet man dann als Induktion oder statistische Inferenz . Abbildung 1.2.5 illustriert diesen Vorgang. • Reale Grundgesamtheit und reale Stichprobe • Das, was man meist spontan unter einer Stichprobe versteht, unterliegt der idealtypischen Vorstellung eines Urnenmodells. Dabei wird aus einer gr¨ oßeren Menge von Objekten oder Personen ein kleinerer, mehr oder weniger zuf¨ alliger Teil ausgew¨ ahlt, um darauf basierend dann Aussagen u ¨ber die gesamte Menge zu treffen. Mit Beispiel 9.1.1 liegt ein typisches Beispiel eines solchen Falls vor. Im engeren Sinne sind hier also nicht die 50 Studierenden in der Stichprobe von Interesse, sondern es ist die Gesamtheit aller Studierenden an einer Hochschule, u ¨ber die man bestimmte Aussagen treffen m¨ ochte. In einem solchen Kontext sprechen wir dann von einer realen Grundgesamtheit, da die u ¨bergeordnete Menge eine reale, greifbare Menge von Objekten oder Personen ist. Eine reale Grundgesamtheit k¨onnte prinzipiell

434

9 Einf¨ uhrung in die induktive Statistik

auch immer in einer Totalerhebung vollst¨ andig erfasst werden. Der damit verbundene Organisations-, Kosten- oder Zeitaufwand ist jedoch meist viel zu hoch, sodass lediglich eine stichprobenhafte Erfassung in Frage kommt. In einem solchen Kontext sprechen wir dann von einer realen Stichprobe. • Urnenmodell und Ziehungsschemata • Abbildung 9.2.1 illustriert im linken Schaubild den Fall einer eindimensionalen und im rechten Schaubild den einer zweidimensionalen Stichprobe. Beginnen wir mit dem linken Fall. Eine Urne enth¨alt N = 4 Kugeln, die mit den Zahlen 1, 2, 2 und 3 beschriftet sind. Diese 4 Zahlen stehen f¨ ur das interessierende metrische oder metrisch kodierte Merkmal einer interessierenden Grundgesamtheit. Wird aus dieser Urne nur eine Kugel zuf¨ allig gezogen und modellieren wir dies mit der Zufallsvariable Y , so gilt: P (Y = 1) = 1/4, P (Y = 2) = 1/2 und P (Y = 3) = 1/4. Die theoretische Verteilung von Y deckt sich mit der empirischen Verteilung der Zahlen in der Urne, d.h. mit der empirischen Verteilung in der Grundgesamtheit. Die Wahrscheinlichkeiten bestimmter Zahlen entsprechen genau den relativen Anteilen der jeweiligen Zahlen in der Urne. Ziehen wir zuf¨ allig 2 Kugeln und modellieren diese mit den Zufallsvariablen Y1 und Y2 , so h¨ angt deren gemeinsame Verteilung davon ab, ob wir die zuerst gezogene Kugel wieder zur¨ ucklegen oder nicht. Tabelle 9.2.1 zeigt die jeweiligen gemeinsamen Verteilungen. Abb. 9.2.1: Illustration realer Stichproben n Mal Ziehen

n Mal Ziehen

0,2

2 3

2 1

0,2

u. i. v.

u. i. v.

X 1, ..., X n

(X 1,Y 1), ..., (X n ,Y n )

1,3 0,1

Tabelle 9.2.1: Gemeinsame Verteilung von Y1 und Y2 (mit bzw. ohne Zur¨ ucklegen) Y2

Y1 1 2 3 Σ

1 1/16 1/8 1/16 0.25

2 1/8 1/4 1/8 0.50

3 1/16 1/8 1/16 0.25

Σ 0.25 0.50 0.25 1.00

Y2

Y1 1 2 3 Σ

1 0 1/6 1/12 0.25

2 1/6 1/6 1/6 0.50

3 1/12 1/6 0 0.25

Σ 0.25 0.50 0.25 1.00

Werden die Kugeln mit Zur¨ ucklegen gezogen, sind Y1 und Y2 unabh¨angig. Es gilt dann: P (Y2 = y2 |Y1 = y1 ) = P (Y2 = y2 ).

9.2 Was versteht man unter einer Stichprobe?

435

Die Wahrscheinlichkeit f¨ ur Y2 = y2 h¨ angt nicht davon ab, ob Y1 = y1 eintritt oder nicht. Somit folgt dann f¨ ur jede Kombination (y1 , y2 ) aus der gemeinsamen Tr¨agermenge: P (Y1 = y1 , Y2 = y2 ) = P (Y1 = y1 )P (Y2 = y2 ). Dadurch erhalten wir im vorliegenden Fall P (Y1 = 1, Y2 = 1) = 1/4 · 1/4 = 1/16, P (Y1 = 1, Y2 = 2) = 1/4 · 1/2 = 1/8 usw. Werden die Kugeln dagegen ohne Zur¨ ucklegen gezogen, sind Y1 und Y2 abh¨angig. Dies erkennt man im vorliegenden Fall bereits daran, dass es nicht m¨oglich ist, zwei Mal hintereinander eine 1 zu ziehen. In diesem Fall erhalten wir dann P (Y1 = 1, Y2 = 1) = P (Y2 = y2 |Y1 = y1 )P (Y1 = y1 ) = 0 · 1/4 = 0, P (Y1 = 1, Y2 = 2) = P (Y2 = 2|Y1 = 1)P (Y1 = 1) = 2/3 · 1/4 = 1/6 usw. Insgesamt l¨asst sich feststellen, dass Y1 und Y2 beim Ziehen mit Zur¨ ucklegen unabh¨angig und identisch wie Y verteilt sind. Beim Ziehen ohne Zur¨ ucklegen sind Y1 und Y2 abh¨angig, jedoch weiterhin identisch wie Y verteilt. Auch hier gilt also: P (Yi = 1) = 1/4, P (Yi = 2) = 1/2 und P (Yi = 3) = 1/4 f¨ ur i = 1, 2. Betrachten wir nun den rechten Fall von Abbildung 9.2.1. Eine Urne enth¨alt N = 4 Kugeln, die mit den Zahlenpaaren (0, 1), (0, 2), (0, 2) und (1, 3) beschriftet sind. Diese Situation l¨asst sich auch als direkte Erweiterung der linken Situation erachten, da die zweiten Zahlen rechts mit den Zahlen links u ¨bereinstimmen. Es wird sozusagen noch ein weiteres (hier bin¨ ares) Merkmal X hinzugenommen. Wird hier nun eine Kugel zuf¨allig gezogen und modellieren wir die beiden gezogenen Zahlen mit dem Zufallsvektor (X, Y )T , so gilt: P (X = 0, Y = 1) = 0.25, P (X = 0, Y = 2) = 0.5 und P (X = 1, Y = 3) = 0.25. Die theoretische Verteilung von (X, Y )T stimmt somit mit der empirischen Verteilung in der Grundgesamtheit (Zahlenpaare in der Urne) u ¨berein. Ziehen wir zuf¨allig 2 Kugeln und modellieren diese mit den Vektoren (X1 , Y1 )T und (X2 , Y2 )T , so h¨angt deren gemeinsame 4-dimensionale Verteilung wiederum davon ab, ob mit oder ohne Zur¨ ucklegen gezogen wird. Tabelle 9.2.2 fasst die Verteilung f¨ ur den Fall mit Zur¨ ucklegen“ ” zusammen, Tabelle 9.2.3 f¨ ur den Fall ohne Zur¨ ucklegen“. Man beachte, dass sich Ta” T belle 9.2.1 gerade ergibt, wenn man die Randverteilung von (Y1 , Y2 ) aus diesen beiden Tabellen jeweils ableitet. Tabelle 9.2.2: Gemeinsame Verteilung von (X1 , Y1 )T und ucklegen“ (X2 , Y2 )T beim Ziehen mit Zur¨ ” Tupel Wahrschein. Tupel Wahrschein. (0, 1, 0, 1) 1/16 (1, 3, 0, 1) 1/16 (0, 1, 0, 2) 1/8 (0, 2, 1, 3) 1/8 (0, 2, 0, 1) 1/8 (1, 3, 0, 2) 1/8 (0, 1, 1, 3) 1/16 (1, 3, 1, 3) 1/16

436

9 Einf¨ uhrung in die induktive Statistik Tabelle 9.2.3: Gemeinsame Verteilung von (X1 , Y1 )T und (X2 , Y2 )T bei Ziehen ohne Zur¨ ucklegen“ ” Tupel Wahrschein. Tupel Wahrschein. (0, 1, 0, 1) 0 (1, 3, 0, 1) 1/12 (0, 1, 0, 2) 1/6 (0, 2, 1, 3) 1/6 (0, 2, 0, 1) 1/6 (1, 3, 0, 2) 1/6 (0, 1, 1, 3) 1/12 (1, 3, 1, 3) 0

Beim Ziehen mit Zur¨ ucklegen sind (X1 , Y1 )T und (X2 , Y2 )T unabh¨angig, sodass stets gilt: P (X1 = x1 , Y1 = y1 , X2 = x2 , Y2 = y2 ) = P (X1 = x1 , Y1 = y1 )P (X2 = x2 , Y2 = y2 ). Außerdem sind die beiden Vektoren identisch wie (X, Y )T verteilt. Dies ist auch beim Ziehen ohne Zur¨ ucklegen der Fall, jedoch sind die beiden Vektoren hier dann abh¨angig. Diese Erkenntnisse lassen sich f¨ ur den Fall des n-maligen Ziehens mit und ohne Zur¨ ucklegen und f¨ ur den h¨ oherdimensionalen Fall wie folgt verallgemeinern. Satz 9.2.1: Urnenmodell und Ziehungsschemata Gegeben sei eine Urne mit N ≥ 1 Kugeln, die jeweils mit p ≥ 1 Zahlen beschriftet sind. Es werden n Kugeln zuf¨ allig gezogen, wobei 1 ≤ n ≤ N . Die gezogenen pdimensionalen Zahlentupel werden durch die Zufallsvektoren X1 , . . . , Xn modelliert. Dann sind X1 , . . . , Xn (i) unabh¨angig und identisch verteilt (u.i.v.) wie X, falls mit Zur¨ ucklegen gezogen wird, (ii) abh¨angig identisch verteilt (a.i.v.) wie X, falls ohne Zur¨ ucklegen gezogen wird, (iii) ann¨ahernd unabh¨ angig identisch verteilt wie X, falls ohne Zur¨ ucklegen gezogen wird und der Auswahlsatz n/N sehr klein ist. Dabei steht X f¨ ur ein einmaliges zuf¨ alliges Ziehen. Die Verteilung von X deckt sich dann mit der empirischen Verteilung der Zahlen in der Urne. Unter einem Auswahlsatz versteht man dabei den Quotienten n/N aus Anzahl n der Ziehungen, die vorgenommen werden, und Anzahl N der Kugeln in der Urne. Auf formale Beweise dazu wird verzichtet. Man beachte, dass wegen Satz 8.3.1 Subkomponenten der Vektoren jeweils auch stets u.i.v. sind. Beispielsweise folgt im zweidimensionalen Fall aus der Unabh¨ angigkeit und der identischen Verteilung der Vektoren (X1 , Y1 )T , T (X2 , Y2 ) , . . . , (Xn , Yn )T auch diejenige von X1 , X2 , . . . , Xn bzw. Y1 , Y2 , . . . , Yn . Andererseits k¨onnen die zu gleichen Vektoren (Objekten oder Personen) zugeh¨origen Komponenten durchaus Abh¨ angigkeiten aufweisen. Geht es beispielsweise um die beiden Merkmale Gr¨oße (X) und Gewicht (Y ), so ist davon auszugehen, dass Xi und Yi f¨ ur i = 1, . . . , n jeweils immer positiv korreliert sind. Man beachte, dass dies auch in Tabelle 9.2.2 der Fall ist. Betrachtet man die Zahlenpaare in der Urne in Abbildung 9.2.1,

9.2 Was versteht man unter einer Stichprobe?

437

so l¨asst sich die positive Korrelation recht schnell erkennen, da der gr¨oßere x-Wert 1 mit dem gr¨oßten y-Wert 3 einhergeht. In Bezug auf Resultat (iii) von Satz 9.2.1 sollte einleuchten, dass es bei einem kleinen Auswahlsatz unerheblich ist, ob Kugeln in die Urne wieder zur¨ uckgelegt werden oder nicht. Da die Wahrscheinlichkeit, ein und dieselbe Kugel zwei Mal zu ziehen, sehr klein ist, kann die an sich vorhandene Abh¨angigkeit vernachl¨assigt werden. • Hypothetische Grundgesamtheit und hypothetische Stichprobe • Definition 9.2.1 erlaubt jedoch eine deutlich flexiblere Handhabung des Stichprobenbegriffs als nur die im Sinne eines Urnenmodells. Die Beispiele 9.1.2 und 9.1.3 sind typische Beispiele daf¨ ur, dass die Betrachtung einer Urne mit endlich vielen Kugeln, aus der zuf¨allig gezogen wird, sich h¨ aufig nicht als operabel erweist. In Beispiel 9.1.2 etwa stellen die 10 gemessenen Abfertigungszeiten eine zuf¨ allige Auswahl aus einem als allgemein-typisch unterstellten Potential dar. Man k¨ onnte dieses Potential“ auch als sich langfristig ein” stellende Verteilung der Abfertigungszeiten definieren. In Beispiel 9.1.3 stellen die 6 gemessenen H¨ohen zufallsabh¨ angige Werte dar, die sich teils aus nicht kontrollierten Resteinfl¨ ussen ergeben. Dennoch sollte anzunehmen sein, dass sich bei h¨aufiger Wiederholung des Versuches eine allgemein-typische Verteilung f¨ ur die Wachstumsh¨ohen unter bestimmten Versuchsbedingungen herausbilden sollte. In beiden Beispielen existiert auf jeden Fall keine endliche real greifbare Menge von Objekten oder Personen, die man in irgendeiner Weise total erheben k¨ onnte. Die Vorstellung ist hier vielmehr, dass sich die Stichprobe gleichsam wie bei von einem Zufallsgenerator erzeugten Zufallszahlen ergibt. Die Stichprobe wird bildlich nicht aus einer Urne, sondern aus einem hypothetisch unterstellten Verteilungsmuster gezogen. In Beispiel 9.1.2 ist dies etwa eine N (µ, σ 2 )-Verteilung, in Beispiel 9.1.3 dagegen eine N (µ0 , σ 2 )- in Verbindung mit einer N (µ1 , σ 2 )-Verteilung. In solchen F¨ allen spricht man dann von einer hypothetischen Grundgesamtheit bzw. einer hypothetischen Stichprobe (vgl. Abb. 9.2.2). Abb. 9.2.2: Illustration hypothetischer Stichproben 10 Mal Ziehen

N (µ, σ2)

X 1, ..., X 10 u. i. v.

Beispiel 9.1.2

3 Mal + 3 Mal Ziehen

Y 01,Y 02,Y 03 u. i. v. Y 11,Y 12,Y 13 u. i. v.

N (µ0, σ2)

N (µ1, σ2)

Beispiel 9.1.3

• Real vs. hypothetisch • Tats¨ achlich ist die Unterscheidung zwischen realen und hypothetischen Stichproben nicht immer so klar wie es zun¨achst erscheinen mag. So k¨onnen im Kontext realer Stichproben zus¨ atzliche hypothetische Annahmen u ¨ber die Beschaffenheit der Grundgesamtheit getroffen werden. Zweck solcher zus¨atzlicher Annahmen ist h¨aufig eine einfachere Handhabung bestimmter induktiver Verfahren. Beispielsweise

438

9 Einf¨ uhrung in die induktive Statistik

k¨onnte man im Kontext einer Untersuchung zum Einkommen von Angestellten einer bestimmten Branche annehmen, dass dieses n¨ aherungsweise normalverteilt ist. Im Rahmen großer Bildungsstudien, wie etwa PISA, werden gew¨ohnlich groß angelegte reale Stichproben auf Schul- oder Klassenebene gezogen, um auf Basis von Aufgabenbearbeitungen Leistungsdaten zu erheben. Doch die Leistungsf¨ahigkeit einer Person ist kein derart objektiv messbares Merkmal wie etwa das Einkommen, die K¨orpergr¨oße oder das Alter einer Person. Vielmehr h¨ angt sie von vielf¨altigen zuf¨alligen Faktoren ab und ist tagesformabh¨angig. Insofern w¨ urde man selbst bei einer Totalerhebung das statistische Deutungsproblem nicht v¨ ollig loswerden k¨ onnen. Dies deutet darauf hin, dass es hier dann eigentlich um eine prim¨ ar hypothetische Stichprobe geht. Bei einer prim¨ ar realen Stichprobe w¨ urde sich dagegen das statistische Deutungsproblem erledigen, sobald eine Totalerhebung durchgef¨ uhrt w¨ urde. • Spezifikation des Ziehungsschemas • Im Rahmen jeder statistischen Modellierung muss das Ziehungsschema der zugrunde liegenden Stichprobe mehr oder weniger genau spezifiziert werden. Dies ist deshalb wichtig, da spezifische induktive Verfahren immer nur unter spezifischen Ziehungsschemata anwendbar sind. So k¨onnen dann Stichprobenvariablen beispielsweise als unabh¨ angig identisch verteilt (u.i.v.), unabh¨angig heterogen verteilt (u.h.v.), abh¨ angig identisch verteilt (a.i.v.) oder abh¨angig heterogen verteilt (a.h.v.) angenommen werden. Zus¨ atzlich zu solchen Grundschemata k¨onnen noch ganz spezifische Verteilungen wie etwa Bernoulli-Verteilungen oder Normalverteilungen unterstellt werden. Bei geplanten Erhebungs- oder Experimentalstudien (Abschnitt 5.3.3) l¨asst sich das Ziehungsschema aus dem Stichprobendesign (der Art und Weise, wie die Stichprobe gezogen wird) bzw. dem experimentellen Design ableiten. Bei beobachteten Daten, die nicht direkt einem geplanten Design entspringen, sondern irgendwie“ ” ¨ gewonnen wurden, ist dagegen per Uberlegung“ zu kl¨aren, welches Ziehungsschema ” f¨ ur die gewonnenen Daten realistisch erscheint. In diesem Kontext sprechen wir in diesem Lehrbuch dann auch von Quasi-Stichproben oder Quasi-Experimenten (siehe n¨achster Punkt). So k¨onnte man bei geplanten Erhebungsstudien, wie etwa in Beispiel 9.1.1, ein u.i.v.-Schema unterstellen, sofern das Stichprobendesign einem Ziehen mit Zur¨ ucklegen bei einem Urnenmodell (weitgehend) entspricht. Dies w¨ urde beispielsweise bei einer gr¨oßenproportionalen geschichteten (stratifizierten) Stichprobe nicht zutreffen. Bei einer solchen wird eine reale Grundgesamtheit in mehrere Schichten disjunkt zerlegt und dann aus jeder Schicht jeweils eine separate u.i.v.-Stichprobe gezogen, deren Umfang sich proportional nach der Gr¨ oße der Schicht richtet. Hier ist dann ein u.h.v.-Schema ad¨ aquat. Beispielsweise k¨ onnte man zur Untersuchung der Einkommensverteilung abh¨angig Besch¨ aftigter in Deutschland aus jedem Bundesland eine Stichprobe ziehen, wobei sich deren Umfang immer nach der Einwohnerzahl des jeweiligen Landes richtet. Da nun davon ausgegangen werden muss, dass die Einkommensverteilung in den einzelnen L¨andern verschieden ausf¨ allt, trifft ein u.i.v.-Schema jeweils nur f¨ ur die Stichprobenvariablen innerhalb des gleichen Landes zu, jedoch nicht f¨ ur Stichprobenvariablen verschiedener L¨ ander. Allgemein l¨ asst sich zeigen, dass bei einer entsprechend der Problemstellung guten Schichtung“ stratifizierte Stichproben gem¨aß u.h.v.-Schema ”

9.2 Was versteht man unter einer Stichprobe?

439

durchschnittlich genauer“ sind als Stichproben gem¨aß u.i.v.-Schema. Weitergehende ” Details k¨onnen Lehrb¨ uchern zur Stichprobentheorie entnommen werden. Bei geplanten Experimentalstudien, wie etwa in Beispiel 9.1.3, erscheint ein u.i.v.Schema ebenfalls unpassend. Da bei Experimenten bestimmte Untersuchungseinheiten (Personen oder Objekte) unterschiedlichen Behandlungen ausgesetzt werden, ergeben sich naturgem¨aß heterogen verteilte Variablen. Dies legt ein u.h.v.-Schema nahe. Weitere Situationen, in denen u.h.v.-Schemata realistisch erscheinen, wurden bereits in Beispiel 8.2.3 skizziert. Abb. 9.2.3: Positiv autokorrelierte Zeitreihe 450

xt

400 350

x t +1, x t +2, ...

300 250 200

x

150 100 50 0 1995

1997

1999

2001

2003

2005

2007

2009

2011

2013

Bei der statistischen Modellierung von Zeitreihen erscheinen Ziehungsschemata mit Unabh¨angigkeitsannahmen meist unrealistisch. Betrachten wir dazu beispielhaft die Situation von Abbildung 1.3.2, wobei wir uns auf die EURO-STOXX -Zeitreihe beschr¨anken. Abbildung 9.2.3 zeigt die betreffende Zeitreihe, wobei die beobachteten Monatswerte in Form von Punkten dargestellt werden. Eingezeichnet ist außerdem das arithmetische Mittel des Index u ¨ber den betrachteten Zeitraums. In der Zeitreihenanalyse fasst man die Beobachtungswerte als Realisationen von Zufallsvariablen X1 , . . . , Xn auf, wobei der Index t, t = 1, . . . , n, einer Variable Xt dem Zeitpunkt t entspricht. Im vorliegenden Fall l¨ asst sich nun feststellen: Liegt eine bestimmte Realisation xt u ¨ber dem Durchschnitt, so trifft dies f¨ ur unmittelbar folgende Realisationen xt+1 , xt+2 , . . . in aller Regel auch zu. Liegt eine Realisation unter dem Durchschnitt, so gilt das entsprechend Umgekehrte. ¨ ¨ Auf Uberdurchschnittlichkeit folgt tendenziell also eher Uberstatt Unterdurchschnitt¨ lichkeit und auf Unterdurchschnittlichkeit eher Unter- statt Uberdurchschnittlichkeit. In der Zeitreihenanalyse bezeichnet man ein solches Abh¨angigkeitsschema als positive Autokorrelation. Im Rahmen einer statistischen Modellierung erscheint die Annahme unabh¨angiger Zufallsvariablen jedenfalls v¨ ollig unpassend. Stattdessen m¨ ussen nun a.i.v.- oder a.h.v.-Schemata in Betracht gezogen werden. ¨ Ahnliches trifft auch h¨ aufig auf r¨ aumliche Daten zu. Ermittelt man etwa Bodenoder Klimadaten an verschiedenen Orten eines gr¨oßeren Gebietes, so ist davon auszugehen, dass Werte n¨ aher beieinander liegender Orte sich tendenziell ¨ahnlicher sind als Werte weiter auseinander liegender Orte. Hier ist dann mit sog. r¨ aumlichen Korrelationen zu rechnen. • Quasi-Stichproben • H¨ aufig werden reale oder hypothetische Stichproben nicht in der musterg¨ ultigen Form erhoben, wie es etwa einem u.i.v.- oder einem u.h.v.-Schema

440

9 Einf¨ uhrung in die induktive Statistik

exakt entsprechen w¨ urde. Beispielsweise m¨ usste ein musterg¨ ultiger Stichprobenplan gem¨aß u.i.v.-Schema in Beispiel 9.1.1 etwa so aussehen: Aus einem vollst¨andigen Verzeichnis aller zu einem bestimmten Zeitpunkt eingeschriebenen Studierenden an einer Universit¨at werden zuf¨ allig n Studierende ausgew¨ahlt. Diese Studierenden werden angeschrieben und dazu zwangsverpflichtet, die Frage nach der Mensapr¨aferenz zeitnah zu beantworten. Die gering vorhandene Abh¨ angigkeit durch das Ziehen ohne Zur¨ ucklegen wird dabei vernachl¨ assigt. Dies entspr¨ ache dann einer konsequenten Umsetzung des Urnenmodells. Ein solcher Plan ist in der Praxis jedoch selten durchf¨ uhrbar. Stattdessen wird man irgendwo auf dem Campus mehr oder weniger zuf¨allig Studierende auf freiwilliger Basis befragen und darauf hoffen, dass die so gewonnene Stichprobe weitgehend repr¨ asentativ ist (siehe n¨ achster Punkt). Bei der statistischen Modellierung wird man dann der gewonnenen Stichprobe beispielsweise ein u.i.v.-Schema unterstellen. F¨ ur die Beispiele 9.1.2 und 9.1.3 k¨ onnte man sich ¨ ahnliche Szenarien vorstellen. Wir bezeichnen solche Stichproben als Quasi-Stichproben, da sie einem bestimmten Ziehungsschema nicht faktisch, sondern eben nur quasi entsprechen. Im Zusammenhang von Experimentalstudien ist auch die Bezeichnung Quasi-Experiment“ g¨angig, was einen ¨ahnlichen ” Hintergrund hat (vgl. Abschnitt 5.3.3). • Repr¨ asentativit¨ at • G¨ ultige Inferenz setzt voraus, dass die Stichprobe tats¨achlich auch eine Auswahl von dem darstellt, wof¨ ur man sich im Eigentlichen interessiert. Man spricht hier auch h¨ aufig von der Repr¨ asentativit¨ at einer Stichprobe. Jedoch ist dieser h¨aufig verwendete und sehr problematische Begriff weder eindeutig noch einheitlich definiert. Differenzierte und l¨ angliche Zusammenfassungen zu diesem Punkt bieten beispielsweise die Arbeiten von Kruskal und Mosteller [1979a, 1979b, 1979c, 1980]. Wir verwenden in diesem Lehrbuch eine Umschreibung, die den Versuch eines Kompromisses zwischen Einfachheit, Allgemeing¨ ultigkeit und formal-mathematischer Exaktheit darstellt. Es sei betont, dass auch diese Umschreibung gewisse Defizite aufweist. Definition 9.2.3: Repr¨ asentative Stichprobe Eine repr¨ asentative Stichprobe ist eine solche, bei der sich mit wachsendem Stichprobenumfang die Verteilung der Realisationen der Verteilung der interessierenden Merkmale (Variablen) in der Grundgesamtheit ann¨ahert. Mathematisch ließe sich diese Umschreibung im Prinzip u ¨ber die Konvergenzeigenschaft (7.4.27), die beim Hauptsatz der Statistik verwendet wurde, oder in a¨hnlicher Form ausdr¨ ucken. Die Stichprobe muss die Grundgesamtheit f¨ ur n → ∞ sozusagen 1:1 widerspiegeln. Ist dies nicht der Fall, k¨ onnen von der Stichprobe im Allgemeinen keine g¨ ultigen Schl¨ usse auf die Grundgesamtheit gezogen werden. Die Stichprobe liefert dann ein verf¨alschtes Bild von der Grundgesamtheit. In solchen F¨allen spricht man dann auch von einer verzerrten Stichprobe oder einer Stichprobenverzerrung . Auf eine weitere mathematische Pr¨ azisierung verzichten wir. Man beachte, dass Repr¨ asentativit¨ at so aufgefasst als theoretische Eigenschaft verstanden wird, die sich auf das stochastische Grenzverhalten einer Stichprobe bezieht und nicht auf konkret vorliegende Realisationen (Beobachtungen). Zieht man beispielsweise

9.2 Was versteht man unter einer Stichprobe?

441

aus der linken Urne von Abbildung 9.2.1 zuf¨ allig n Kugeln mit Zur¨ ucklegen, so liegt gem¨aß Hauptsatz der Statistik eine repr¨ asentative Stichprobe vor. Gleichwohl kann f¨ ur n = 5 eine konkrete Realisation beispielsweise aus den Zahlen 1, 2, 2, 1 und 2 bestehen. In diesem Fall w¨ urde die Zahl 3 u ¨berhaupt nicht vorkommen. Sie w¨are im Vergleich zur Grundgesamtheit unterrepr¨ asentiert. Die Zahlen 1 und 2 w¨aren hingegen u ¨berrepr¨asentiert. Mit wachsendem n sollten die Realisationen jedoch die Grundgesamtheit immer besser widerspiegeln. Repr¨asentativit¨ at bezieht sich auf das stochastische Grenzverhalten einer Stichprobe, nicht auf konkrete Realisationen (Beobachtungen). Ein Defizit der vorliegenden Definition liegt darin, dass Repr¨asentativit¨at nur u ¨ber ein Grenzverhalten (quasi f¨ ur unendlich große Stichproben) beschrieben wird. Was man eigentlich noch ben¨ otigen w¨ urde, w¨ are eine mathematische Beschreibung daf¨ ur, dass auch kleine Stichproben die Grundgesamtheit angemessen widerspiegeln. • Pr¨ ufung von Repr¨ asentativit¨ at • In Beispiel 9.1.1 k¨onnten beispielsweise alle zu einem bestimmten Zeitpunkt eingeschriebenen Studierenden einer Hochschule die vorgegebene reale Grundgesamtheit darstellen, f¨ ur die man sich interessiert. F¨ uhrt man nun beispielsweise die Befragung direkt in der Mensa oder in Mensan¨ahe durch, so ist davon auszugehen, dass hier der Anteil von Mensabef¨ urwortern deutlich h¨oher sein sollte als an anderen Stellen. Der potenzielle Auswahlbereich dieser Quasi-Stichprobe w¨ urde sich nicht mit der Grundgesamtheit decken. Die Stichprobe w¨are auch bei wachsendem Stichprobenumfang tendenziell immer verzerrt, sofern man den Standort der Befragung nicht ver¨ andert. Dies w¨ are auch der Fall, falls die Beteiligung von m¨annlichen und weiblichen Studierenden an der Befragung unterschiedlich und gleichzeitig deren Mensapr¨aferenz unterschiedlich w¨ are. In Beispiel 9.1.2 k¨ onnte die hypothetisch vorgegebene Grundgesamtheit eine Normalverteilung sein, mit der man langfristig die Gep¨ackabfertigungszeit an einem Flughafenschalter beschreiben kann. M¨ oglicherweise k¨onnte dies noch auf eine ganz bestimmte Tageszeit oder ganz bestimmte Flugziele (z.B. nur Transatlantikfl¨ uge) eingeschr¨ankt sein. F¨ uhrt man die Erhebung der Zeiten nun beispielsweise an einem Tag durch, in dem es zu streikbedingten Versp¨ atungen kommt, so kann es sein, dass aufgrund von Beschwerden und l¨ angeren Beratungszeiten die gemessenen Zeiten nicht mehr repr¨asentativ f¨ ur eine normale Abfertigung“ sind. Die Zeiten w¨aren insgesamt alle zu lang. ” Dieses Problem ließe sich auch nicht durch eine Erh¨ohung des Stichprobenumfangs l¨ osen. Bei einer Experimentalstudie wie in Beispiel 9.1.3 k¨onnte man Repr¨asentativit¨at als gegeben erachten, sofern das Experiment genau wie geplant“ durchgef¨ uhrt wird. ” Dies bedeutet, dass die zwei Gruppen von Pflanzen tats¨achlich unter identischen Bedingungen (außer der D¨ ungung) angepflanzt w¨ urden. Dies w¨are beispielsweise nicht der Fall, falls die zwei Gruppen unter verschiedenen Raumtemperaturen angepflanzt w¨ urden. Potenziell k¨ onnte dies dann Unterschiede im Wachstum bewirken, sodass die Verteilungsunterschiede m¨ oglicherweise nicht mehr nur auf unterschiedlicher D¨ ungung beruhen w¨ urden. Die Versuchsergebnisse w¨ aren dann tendenziell verzerrt und so gesehen nicht mehr repr¨asentativ.

442

9 Einf¨ uhrung in die induktive Statistik

• Repr¨ asentativit¨ at, Ziehungsschema und Induktion • Allein die Erf¨ ullung eines bestimmten Ziehungsschemas ist f¨ ur g¨ ultige Inferenz jedoch nicht ausreichend. Als einfaches Beispiel dazu betrachte man die linke Urne von Abbildung 9.2.1. Angenommen aus dieser werden n Kugeln mit Zur¨ ucklegen gezogen, wobei die Kugel mit der Zahl 1 am Boden festgeklebt und infolgedessen nicht gezogen werden kann. Der potenzielle Auswahlbereich der Stichprobe ist somit auf die Zahlen 2 und 3 beschr¨ankt und stimmt nicht mit der interessierenden Grundgesamtheit (alle Zahlen in der Urne) u urde man in dieser Situation faktisch eine u.i.v.-Stichprobe ¨berein. Gleichwohl w¨ ur X1 , . . . , Xn ziehen, wobei dann eben P (Xi = 2) = 2/3 und P (Xi = 3) = 1/3 f¨ ¨ i = 1, . . . , n gelten w¨ urde. Ahnliche Beispiele ließen sich auch f¨ ur andere Ziehungsschemata konstruieren. Eine verzerrte Stichprobe liefert insgesamt ein falsches Bild von der Grundgesamtheit und schließt somit jegliche sinnvolle Inferenz aus. Insofern ist Repr¨asentativit¨at eine Grundvoraussetzung f¨ ur die Sinnhaftigkeit jeder statistischen Modellierung. Die ¨ Pr¨ ufung der Repr¨ asentativit¨ at einer Stichprobe erfolgt anhand inhaltlicher Uberlegungen mithilfe fachspezifischer Kenntnisse und ist nichtmathematischer Natur (siehe vorheriger Punkt). Die Spezifikation des Ziehungsschemas erfordert hingegen sowohl inhaltliche als auch mathematisch-statistische Kenntnisse. Sie ist im weiteren Verlauf vor allem f¨ ur die Wahl geeigneter Inferenzverfahren entscheidend. Wendet man beispielsweise ein nur unter einem u.i.v.-Schema g¨ ultiges Sch¨ atz- oder Testverfahren auf eine Zeitreihe an, die faktisch starke Abh¨ angigkeiten aufweist, so sind alle aus diesen Verfahren abgeleiteten Schl¨ usse (Sch¨atzungen und Entscheidungen) und damit einhergehende Sicherheits- und Irrtumswahrscheinlichkeiten letztlich verf¨ alscht. • Ausblick: Beschr¨ ankung auf u.i.v.- und u.h.v.-Schemata • Die in den folgenden drei Kapiteln pr¨ asentierten Verfahren der induktiven Statistik beschr¨anken sich auf Rahmenbedingungen und Beispiele, in denen u.i.v.- oder u.h.v.-Schemata angenommen werden k¨onnen. Daf¨ ur kommen u ¨berwiegend nur Querschnittsdaten in Frage. Darunter versteht man Daten, die allesamt zum gleichen Zeitpunkt erhoben werden. Zeitreihendaten, sog. Paneldaten (eine Mischung aus Querschnitts- und Zeitreihendaten) oder r¨aumliche Daten kommen hierf¨ ur also entweder nicht oder nur sehr eingeschr¨ankt in Frage. Induktive Verfahren hierf¨ ur sind Gegenstand weiterf¨ uhrender, spezialisierter Lehrb¨ ucher.

9.3 Formale Unterscheidungsebenen Die Verbindung von Theorie und Empirie erfordert die Unterscheidung zwischen stochastischen und empirischen (nichtstochastischen) Gr¨oßen und zwischen empirischem und theoretischem Kalk¨ ul. Dar¨ uber hinaus gibt es u ¨ber das GGZ eine logische Verbindung zwischen stochastischen, theoretischen und empirischen Kennwerten • Zufallsvariablen und Realisationen • Zufallsvariablen werden in der Statistik gew¨ohnlich mit lateinischen Großbuchstaben wie etwa X, Y, Z oder X1 , X2 , . . . , Xn

9.3 Formale Unterscheidungsebenen

443

notiert. Konkrete Beobachtungswerte (Realisationen) notiert man mit den entsprechenden Kleinbuchstaben, also x, y, z oder x1 , x2 , . . . , xn . Analoges gilt f¨ ur Zufallsvektoren wie etwa (X1 , Y1 , Z1 ), . . . , (Xn , Yn , Zn ) oder X1 = (X11 , X12 , X13 , X14 ), . . . , Xn = (Xn1 , Xn2 , Xn3 , Xn4 ) und entsprechende Realisationen (x1 , y1 , z1 ), . . . , (xn , yn , zn ) bzw. x1 = (x11 , x12 , x13 , x14 ), . . . , xn = (xn1 , xn2 , xn3 , xn4 ). • Stochastische und empirische Statistiken • Aus Zufallsvariablen oder Beobachtungen gebildete Funktionen bezeichnet man allgemein als Statistiken, wobei entsprechend zwischen stochastischen Statistiken und empirischen Statistiken unterschieden werden kann. Das auf den Beobachtungswerten x1 , . . . , xn beruhende arithmetische Mittel x ¯ w¨are beispielsweise eine empirische Statistik. Die aus den Zufallsvariablen X1 , . . . , Xn gebildete Statistik n X ¯= 1 X Xi n i=1 w¨ are hingegen eine stochastische Statistik. Diese k¨onnte man als stochastisches Mittel bezeichnen oder, sofern X1 , . . . , Xn als Stichprobe interpretiert wird, als Stichprobenmittel . Stochastische Statistiken sind objekttechnisch Zufallsvariablen (zumindest sofern es sich um messbare Funktionen von Zufallsvariablen handelt). Deshalb verwenden wir auch hier zur Unterscheidung wieder die Groß- und Kleinschreibung f¨ ur stochastische bzw. empirische Gr¨ oßen (vgl. Tab. 9.3.1). • Empirischer vs. theoretischer Kalk¨ ul • Alle auf konkreten Beobachtungswerten beruhende Berechnungen z¨ ahlen zum empirischen Kalk¨ ul, w¨ahrend Berechnungen in Bezug auf Zufallsvariablen zum theoretischen oder stochastischen Kalk¨ ul z¨ahlen. Beim empirischen Kalk¨ ul geht es um absolute oder relative H¨aufigkeiten oder H¨aufigkeitsdichten, w¨ahrend es beim theoretischen Kalk¨ ul um Wahrscheinlichkeiten und Wahrscheinlichkeitsdichten geht. • Empirische vs. theoretische Kennwerte • Empirische Kennwerte sind empirische Statistiken, die empirische Verteilungen spezifizierend beschreiben, wie es beispielsweise arithmetisches Mittel und empirische Varianz in Bezug auf Lage und Streuung tun. Sie ergeben sich anhand eines empirischen Kalk¨ uls und werden mit lateinischen Buchstaben symbolisiert. Ihre stochastischen Gegenst¨ ucke k¨onnte man als stochastische Kennwerte bezeichnen. Theoretische Kennwerte spezifizieren hingegen die Wahrscheinlichkeitsverteilungen von Zufallsvariablen. Zu den wichtigsten z¨ahlen Erwartungswert und theoretische Varianz. Sie ergeben sich aus einem theoretischen Kalk¨ ul und werden u ¨blicherweise mit griechischen Buchstaben symbolisiert. Alternativ k¨onnen sie auch u uckt werden, sofern die Rechen¨ber Operatoren wie E(·) oder Var(·) ausgedr¨ operation selbst im Vordergrund stehen soll. • Theoretische Statistiken • Da stochastische Statistiken selbst wiederum Zufallsvariablen sind, lassen sich f¨ ur solche ebenso wieder theoretische Kennwerte berechnen. Angenommen, man betrachte die u.h.v.-Stichprobe X1 , X2 , . . . , Xn , wobei E(Xi ) = µi und V ar(Xi ) = σi2 f¨ ur i = 1, . . . , n

444

9 Einf¨ uhrung in die induktive Statistik Tabelle 9.3.1: Empirische vs. stochastische Statistiken und ihre Bezeichnungen Empirische Statistiken (empirische Kennwerte) Merkmalssumme n P xi

Stochastische Statistiken (stochastische Kennwerte) Stochastische Summe/Stichprobensumme n P Xi

i=1

i=1

arithmetisches Mittel n P x ¯ = n1 xi

Stochastisches Mittel/Stichprobenmittel n ¯ = 1 P Xi X

empirische Varianz n P s˜2X = n1 (xi − x ¯)2

Stochastische Varianz/Stichprobenvarianz n P ¯ 2 S˜2 = 1 (Xi − X)

empirische Kovarianz n P s˜XY = n1 (xi − x ¯)(yi − y¯)

Stochastische Kovarianz/Stichprobenkovarianz n P ¯ i − Y¯ ) S˜XY = 1 (Xi − X)(Y

empirische Korrelation rXY = s˜s˜XXY s˜Y

Stochastische Korrelation/Stichprobenkorrelation ˜ RXY = S˜SXY ˜ S

gr¨oßter Wert (Maximum) x(n)

stochastisches Maximum/Stichprobenmaximum X(n)

n

i=1

X

i=1

i=1

n

n

i=1

i=1

i=1

X

Y

Tabelle 9.3.2: Empirische vs. theoretische Kennwerte Empirische Kennwerte arithmetische Mittel: empirische Varianz: empirische Kovarianz: empirische Korrelation: usw.

Theoretische Kennwerte x ¯ s˜2X s˜XY rXY

Erwartungswert: theoretische Varianz: theoretische Kovarianz: theoretische Korrelation: usw.

µX = E(X) 2 = V ar(X) σX σXY = Cov(X, Y ) %XY = Corr(X, Y )

gelte. Dann w¨ urde gem¨ aß (7.4.15) und (7.4.18) gelten: ¯ ¯ =σ E(X) = µ ¯n und V ar(X) ¯n2 /n. Dabei k¨onnte man nun die hierbei verwendeten beiden Ausdr¨ ucke n n X X 1 1 µ ¯n = µi und σ ¯n2 = σ2 n i=1 n i=1 i als theoretische Statistiken bezeichnen, da sie aus theoretischen Kennwerten gebildete Statistiken darstellen. Die Betrachtung theoretischer Statistiken wird beispielsweise bei der Formulierung von GGZ- oder ZGWS-Varianten f¨ ur u.h.v.-Schemata h¨aufig ben¨otigt (vgl. hierzu Abschnitt 8.2.1).

9.3 Formale Unterscheidungsebenen

445

• Zusammenhang stochastischer, theoretischer und empirischer Kennwerte • Stochastische, theoretische und empirische Kennwerte stehen sind in einem logischen Zusammenhang zueinander. So lassen sich empirische Kennwerte zun¨achst einmal als Realisationen der entsprechenden stochastischen Gegenst¨ ucke auffassen. Letztere konvergieren unter einem u.i.v.-Schema aufgrund des GGZ in der Regel gegen theoretische Kennwerte, die in großen Stichproben approximativ mit den empirischen Kennwerten u ¨bereinstimmen. Abbildung 9.3.1 illustriert dies anhand von Mittelwert, Varianz und Kovarianz. Die theoretischen Begr¨ undungen hierf¨ ur finden sich in Beispiel 8.3.6. Mithilfe des multivariaten Stetigkeitssatzes (Satz 8.3.3) ließe sich daraus auch noch p

RXY −−→ %XY = Corr(X, Y ) ≈ rXY ableiten. Allerdings gilt nicht f¨ ur jeden Kennwert ein solcher Zusammenhang. So konvergiert beispielsweise das Stichprobenmaximum nicht einmal zwingend gegen einen festen Wert. Grundlage des hier vereinfacht skizzierten Zusammenhangs bildet das GGZ, das sich nur auf Mittelwerte bezieht. So ist ja die Varianz letztlich nur ein Mittelwert mittelwertzentrierter Gr¨ oßen und die Kovarianz ein Mittelwert gemischter Produkte aus mittelwertzentrierten Gr¨ oßen. Entsprechende Zusammenh¨ange k¨onnen auch f¨ ur u.h.v.Schemata formuliert werden, sofern bestimmte Konvergenzkriterien wie etwa n→∞

n→∞

µ ¯n −−−−−→ µ oder σ ¯n2 −−−−−→ σ 2 erf¨ ullt sind. Hierzu sei auf die alternativen GGZ- und ZGWS-Varianten in Abschnitt 8.2.1 verwiesen. Abb. 9.3.1: Zusammenhang stochastischer, theoretischer und empirischer Kennwerte

(X 1,Y 1), ..., (X n ,Y n ) u. i. v.

p

µX ≈ x

~2 SX

p

σ2X ≈ s~2X

~ S XY

p

σXY ≈ s~XY

Xn

Kapitel 10: Statistisches Sch¨ atzen Die beiden grundlegenden Techniken beim statistischen Sch¨atzen sind die Punktsch¨ atzung und die Intervallsch¨ atzung , die jeweils separat in den Abschnitten 10.1 und 10.2 besprochen werden. Dabei stellt sich auch die Frage nach allgemeinen Sch¨atzmethoden, die unabh¨ angig von der Komplexit¨at eines statistischen Modells zu sinnvollen Sch¨atzergebnissen f¨ uhren. Mit diesem Thema befasst sich der letzte Abschnitt 10.3.

10.1 Punktsch¨ atzung Bei einer Punktsch¨ atzung wird ein unbekannter Kennwert einer Grundgesamtheit mithilfe eines Sch¨ atzers quantifiziert. Dabei lassen sich Sch¨atzer hinsichtlich unterschiedlicher G¨ utekriterien bewerten und miteinander vergleichen. Ein erwartungstreuer Sch¨atzer liefert im Mittel“ den richtigen Wert. Mit dem MSE l¨asst sich die ” Genauigkeit eines Sch¨ atzers messen. Ist ein Sch¨atzer konsistent, so wird er (grob gesagt) mit wachsendem Stichprobenumfang immer genauer. Ist ein Sch¨atzer effizienter als ein anderer, so ist er (grob gesagt) unter allen Konstellationen“ genauer ” als der andere.

10.1.1 Sch¨ atzer und ihre Gu ¨ tekriterien • Sch¨ atzprobleme • Ausgangspunkt jeder Punktsch¨atzung ist ein Sch¨atzproblem. Ein Sch¨ atzproblem ist ein statistisches Problem, bei dem es meist darum geht, anhand einer Stichprobe einen bestimmten unbekannten Kennwert einer zugrunde gelegten Grundgesamtheit zu quantifizieren (zu sch¨atzen). Dieser unbekannte Kennwert wird klassischerweise als Verteilungsparameter eines statistischen Modells oder als Funktion eines solchen interpretiert, unabh¨angig davon, ob eine reale oder hypothetische Grundgesamtheit (Abschnitt 9.2) unterstellt wird. Im Kontext realer Stichproben handelt es sich bei den zu sch¨atzenden Kennwerten h¨aufig um empirische Kennwerte, die sich mithilfe von Totalerhebungen exakt ermitteln lassen w¨ urden. In Beispiel 9.1.1 w¨ are dies beispielsweise der Anteil unter allen Studierenden an einer Hochschule, welcher die Mensa pr¨aferiert. Im Rahmen des Urnenmodells l¨asst sich dies jedoch auch als Sch¨ atzproblem des theoretischen Anteilswerts (Wahrscheinlichkeitswerts) π einer unterstellen B(n, π)-Verteilung formulieren. Insofern sind auch unbekannte empirische Kennwerte einer realen Grundgesamtheit statistisch wiederum als theoretische Kennwerte modellierbar. Im Kontext hypothetischer Stichproben handelt es sich um theoretische Kennwerte einer mehr oder weniger genau spezifizierten hypothetischen Grundgesamtheit. In Beispiel 9.1.2 w¨are dies beispielsweise der Erwartungswertparameter µ einer N (µ, σ 2 /10)-

10.1 Punktsch¨atzung

447

Verteilung, der sich als mittlere Abfertigungszeit interpretieren l¨asst. Im Falle von Beispiel 9.1.3 geht es um die Sch¨ atzung der theoretischen Differenz µ1 − µ0 bei Vorliegen einer N (µ0 , σ 2 /3)- und einer N (µ1 , σ 2 /3)-Verteilung, die sich als Effektst¨arke interpretieren l¨asst. Wie bereits festgestellt, kann es f¨ ur die Konstruktion von Sicherheitsintervallen hierbei auch notwendig sein, die theoretischen Varianzen mit sch¨atzen zu m¨ ussen. Insbesondere in der nichtparametrischen Statistik gibt es jedoch auch Sch¨atzprobleme, die etwas allgemeiner gefasst sind und sich nicht zwingend als parametrische Sch¨atzprobleme formulieren lassen. Hierzu geh¨ ort beispielsweise die Sch¨atzung kompletter Dichtefunktionen anhand von Stichproben oder die Sch¨atzung nichtlinearer funktionaler Beziehungen zwischen verschiedenen Variablen. Die in diesem Lehrbuch behandelten Sch¨atzprobleme sind jedoch ausnahmslos auf parametrische Sch¨atzprobleme beschr¨ankt und k¨ onnen deshalb der parametrischen Statistik zugeordnet werden. • Sch¨ atzer • Im klassischen parametrischen Fall bestimmt man anhand einer realen oder hypothetischen Stichprobe einen oder mehrere unbekannte Parameter. Dieser Vorgang wird als Sch¨ atzen bezeichnet. Der dabei konkret ermittelte Wert heißt Sch¨ atzwert, Punktsch¨ atzung oder Sch¨ atzung . Die Bezeichnung Punktsch¨atzung“ ” basiert auf der Angabe eines einzelnen Wertes. Im Gegensatz dazu wird bei der Intervallsch¨ atzung (Abschnitt 10.2) ein ganzes Intervall f¨ ur die Lage eines unbekannten Parameterwerts angegeben. In Beispiel 9.1.1 etwa wird man in aller Regel den relativen Anteil der Mensabef¨ urworter in der Stichprobe bestimmen und diesen Wert als Sch¨atzung f¨ ur den relativen Anteil der Mensabef¨ urworter in der Grundgesamtheit, notiert mit π, verwenden. Das stochastische Mittel n X ¯ = Sn = 1 X Xi n n i=1 stellt in diesem Fall die allgemeing¨ ultige Funktion zur Sch¨atzung von π dar. Diese Funktion wird als Sch¨ atzfunktion, Punktsch¨ atzer oder Sch¨ atzer bezeichnet. Die Realisation dieses Sch¨ atzers ist dann der konkrete Sch¨atzwert, d.h. in diesem Fall der empirische Anteilswert, der sich f¨ ur die konkreten Beobachtungen der Stichprobe ergibt. Sofern wie im Beispiel 40 von 50 befragten Studierenden die Mensa pr¨aferieren, erh¨alt man dann beispielsweise x ¯ = 0.8 als Sch¨atzwert f¨ ur π. In Beispiel 9.1.2 wird man Stichprobenmittel und Stichprobenvarianz als Sch¨atzer f¨ ur Erwartungswert und theoretische Varianz der Abfertigungszeit verwenden. In Beispiel 9.1.3 wird die theoretische Effektst¨ arke u ¨ber die Differenz der beiden Gruppenmittelwerte gem¨aß Versuchsausgang gesch¨ atzt. Bei parametrischen Sch¨ atzproblemen sind Sch¨atzer nichts anderes als stochastische Statistiken (Abschnitt 9.3), deren Realisationen die Sch¨atzwerte f¨ ur bestimmte theoretische Parameter oder Funktionen dieser bilden. Sch¨ atzer sind stochastische Statistiken (Zufallsvariablen) deren Realisationen als Sch¨ atzwerte verwendet werden.

448

10 Statistisches Sch¨atzen Abb. 10.1.1: Parametrisches Sch¨ atzen in den Beispielen 9.1.1–9.1.3 zu schätzende(r)

Statistische Modellierung

Parameter(funktion)

50

S 50 = ∑ X i ~ B (50, π) i =1

X ~ N (µ, σ2 10) Y 1 − Y 0 ~ N (µ1 − µ0, 2σ2 3)

Schätzfunktion

π

^ = X = S 50 50 π

µ, σ2

~2 ^ = X, σ ^2 = S µ X

µ1 − µ0, σ2

^2 = ? µ1 − µ0 = Y 1 − Y 0, σ

• Notation f¨ ur Sch¨ atzer • Wird beispielsweise das stochastische Mittel als Sch¨atzer f¨ ur einen theoretischen Anteilswert π verwendet, so schreibt man daf¨ ur gew¨ohnlich ¯ π ˆ = X. Die Notation hebt den zu sch¨ atzenden Parameter hervor. Das Dach“ steht dabei f¨ ur ” die Funktion als Sch¨ atzer. Genauso w¨ urde man also auch ¯ oder σ µ ˆ=X ˆ 2 = S˜2 X

notieren, sofern es um die Sch¨ atzung eines Erwartungswertes bzw. einer theoretischen Varianz geht. Streng genommen m¨ usste man zur Unterscheidung zwischen Sch¨atzer und realisiertem Sch¨atzwert große bzw. kleine griechische Buchstaben verwenden, also etwa 2 ˆ =X ¯ und π ˆ =X ¯ und µ ˆ 2 = S˜X Π ˆ=x ¯ oder M ˆ=x ¯ oder Σ und σ ˆ 2 = s˜2X . Jedoch hat sich diese Unterscheidung in der Lehrbuchliteratur nicht etabliert. Es wird meist nur von der Kleinschreibung Gebrauch gemacht. Wir passen uns hier dem allgemeinen Standard an. Normalerweise ist mit der Dachschreibweise“ vorrangig die ” stochastische Gr¨oße gemeint. Sofern es um einen konkreten Sch¨atzwert geht, schreibt man dann beispielsweise π ˆ = 0.8, sodass auch f¨ ur diesen Fall die inhaltliche Deutung klar w¨are. • Statistische Sch¨ atztheorie • H¨ aufig wird ein zu sch¨atzender theoretischer Kennwert einfach durch das entsprechende stochastische Pendant gesch¨atzt. Bei n¨aherem Hinsehen erscheint dies jedoch nicht unbedingt selbstverst¨andlich. Betrachten wir zu diesem Punkt die Sch¨ atzung des Erwartungswertparameters µ bei einer Normalverteilung wie etwa in Beispiel 9.1.2. Da die Normalverteilung symmetrisch ist, sind Erwartungswert und theoretischer Median identisch. Insofern k¨onnte man nun auch auf die Idee kommen, den Erwartungswert durch den Stichprobenmedian zu sch¨atzen (siehe dazu auch n¨achster Punkt). Sobald alternative Sch¨atzer in Betracht gezogen werden, stellt sich sofort die Frage, welcher Sch¨ atzer der bessere ist. Ebenso stellt sich die Frage, wie man in bestimmten Situationen u ¨berhaupt sinnvolle Sch¨atzer konstruieren kann, insbesondere, falls das Sch¨ atzproblem nicht mehr derart intuitiv l¨osbar erscheint. Um solche und ¨ahnliche Fragestellungen k¨ ummert sich die statistische Sch¨ atztheorie. Im

10.1 Punktsch¨atzung

449

Rahmen dieser werden G¨ utekriterien von Sch¨atzern definiert und darauf basierend theoretische Aussagen zur Optimalit¨ at bestimmter Sch¨atzmethoden entwickelt. Einige Elemente davon werden in den nachfolgenden Abschnitten auszugsweise thematisiert. Eine umfassende mathematische Behandlung der Sch¨atztheorie bietet beispielsweise das klassische Lehrbuch Theory of Point Estimation“ von Lehmann und Casella [1998], das ” Lehmann 1983 erstmals ver¨ offentlichte. • Beispiel 10.1.1: Eine Simulation zur Illustration der Sch¨ atzproblematik • Angenommen es geht um die Sch¨ atzung des Erwartungswerts µ anhand einer u.i.v.Stichprobe. Als Sch¨ atzer werden nun folgende drei Alternativen in Betracht gezogen: ¯ (i) das Stichprobenmittel X, ˜ 0.5 und (ii) der Stichprobenmedian X (iii) der Stichproben-Midrange SM R = 0.5(X(1) + X(n) ). Der Stichproben-Midrange ist der aus Minimum und Maximum gebildete Mittelwert. Abbildung 10.1.2 zeigt nun das Ergebnis einer Simulation von u.i.v.-Stichproben aus einer Standardnormalverteilung, Abbildung 10.1.3 √ √hingegen das Ergebnis einer solchen Simulation f¨ ur eine Gleichverteilung u ¨ber [− 3, 3] ≈ [−1.73, 1.73]. Hierbei wurden jeweils immer 1000 Stichproben vom Umfang n = 5 bzw. n = 25 aus der betreffenden Verteilung gezogen und f¨ ur jede Realisation der Stichprobe die drei Sch¨atzer berechnet. Alle dargestellten Boxplots basieren somit jeweils auf 1000 Werten. Man beachte, dass die Erwartungswerte bzw. Varianzen beider Verteilungen u ¨bereinstimmen; beide Erwartungswerte sind gleich 0 und beide Varianzen gleich 1. Anhand der Schaubilder k¨onnen nun einige wesentliche Feststellungen getroffen werden. Abb. 10.1.2: Stichproben aus einer N (0, 1)-Verteilung n =5

n = 25

SMR ~ X 0.5

SMR ~ X 0.5

X

X −3

−2

−1

0

1

2

3

−3

−2

−1

0

1

2

3

Zun¨achst einmal wird deutlich, dass Sch¨ atzwert und tats¨achlicher Wert in aller Regel nicht u ¨bereinstimmen. Im vorliegenden Fall ist es sogar denkbar, dass kein einziger der insgesamt 12 000 Sch¨ atzwerte genau 0 war. Je nach Ausgangsverteilung, Sch¨atzmethode und Stichprobenumfang streuen die Sch¨atzwerte stets mehr oder weniger stark um den wahren Wert (hier also 0) herum. Bei beiden Ausgangsverteilungen scheinen die Realisationen aller drei Sch¨ atzer symmetrisch um die Null zu streuen. Der h¨ohere Stichprobenumfang geht dabei regelm¨ aßig mit einer kleineren Streuung bei allen Sch¨atzern einher. Bei der Normalverteilung scheint das Stichprobenmittel insgesamt

450

10 Statistisches Sch¨atzen Abb. 10.1.3: Stichproben aus einer G(−1.73, 1.73)-Verteilung n =5

n = 25

SMR ~ X 0.5

SMR ~ X 0.5

X

X −3

−2

−1

0

1

2

3

−3

−2

−1

0

1

2

3

die genauesten Sch¨ atzungen zu liefern. Danach scheint der Median zu folgen, w¨ahrend der Stichproben-Midrange am st¨ arksten zu streuen scheint. Allerdings ist diese Rangfolge f¨ ur n = 5 nicht so deutlich erkennbar wie f¨ ur n = 25. Bemerkenswerterweise gilt diese Rangfolge bei der Gleichverteilung nicht mehr. Hier erweist sich nun der StichprobenMidrange (zumindest dem Simulationsergebnis nach zu urteilen) als bester Sch¨atzer, w¨ ahrend der Median die schlechteste Alternative zu sein scheint. Die Simulation verdeutlicht in gewisser Weise die Nichttrivialit¨at der Sch¨atzproblematik und motiviert die Entwicklung einer statistischen Sch¨atztheorie. • Verteilung von Sch¨ atzern • Sch¨ atzer sind Zufallsvariablen. Sofern Ausgangsverteilung (Grundgesamtheit), Ziehungsschema und Stichprobenumfang feststehen, weisen diese spezifische Wahrscheinlichkeitsverteilungen auf. Diese bilden die Basis zur Beurteilung und Einstufung von Sch¨ atzern. Die Herleitung der exakten Verteilung eines Sch¨atzers erweist sich jedoch nicht immer als einfach, insbesondere falls die Ausgangsverteilung nicht genau spezifiziert werden kann. Dann ist man h¨aufig auf asymptotische Resultate, wie sie sich etwa aus Grenzwerts¨ atzen ergeben, angewiesen. Simulationen werden vor allem dann verwendet, wenn die Herleitung exakter Verteilungen einen zu großen Aufwand darstellt. Hierbei ist dann zu beachten, dass sich aus Simulationen prinzipiell keine sicheren und exakten Aussagen u ¨ber die Qualit¨at von Sch¨atzern ableiten lassen, da die Ergebnisse von Simulationen nun einmal zuf¨allig sind. Freilich dient eine m¨ oglichst hohe Anzahl simulierter Stichproben dazu, zufallsbedingte Fehlinterpretationen zu vermeiden. Wir betrachten zur Veranschaulichung noch einmal Beispiel 10.1.1, bei dem jede Ausgangskonstellation mit N = 1000 Stichproben simuliert wurde. Hier kann beispielsweise die Verteilung des Stichprobenmittels als Sch¨atzer f¨ ur µ auch ohne gr¨oßeren Aufwand exakt angegeben werden. Denn gem¨aß (7.4.25) gilt: ¯ ∼ N (µ, σ 2 /n), µ ˆA = X (10.1.1) sofern eine u.i.v.-Stichprobe aus einer Normalverteilung gezogen wird. F¨ ur µ = 0, σ 2 = 1 und n = 5 etwa erg¨ abe sich also eine N (0, 0.2)-Verteilung. Bei einer stetigen Gleichverteilung als Ausgangsverteilung gestaltet sich die Bestimmung der exakten Verteilung als sehr zeitaufwendig und m¨ uhsam. Anhaltspunkte hier¨ uber liefern die in Abschnitt 7.4.1 durchgef¨ uhrten Betrachtungen u ¨ber die Verteilung stochastischer Summen und Mittelwerte bei einer stetigen Gleichverteilung (vgl. auch Abb. 7.4.2). Um dieses Problem zu umgehen, kann man sich auf große“ Stichprobenumf¨ange beschr¨anken und ”

10.1 Punktsch¨atzung

451

Grenzwertsatzresultate bem¨ uhen. So gilt ja (10.1.1) gem¨aß Satz 7.4.3 approximativ f¨ ur großes n bei (fast) allen Ausgangsverteilungen, d.h. ¯ µ ˆA = X

approx



N (µ, σ 2 /n).

(10.1.2)

Im Falle des Stichprobenmedians l¨ asst sich zeigen (vgl. z.B. Mood, Graybill und Boes [1974, Theorem 12]), dass f¨ ur ungerades n dessen Dichte gegeben ist durch n! (10.1.3) fX˜ 0.5 (x) = [F (x)]m−1 [1 − F (x)]n−m f (x), (m − 1)!(n − m)! wobei m = (n + 1)/2 ist und F bzw. f Verteilungsfunktion bzw. Dichtefunktion der Ausgangsverteilung bezeichnen. F¨ ur eine Standardnormalverteilung erg¨abe sich damit 2 1 n! fX˜ 0.5 (x) = [Φ(x)]m−1 [1 − Φ(x)]n−m √ e−0.5x . (10.1.4) (m − 1)!(n − m)! 2π F¨ ur Ausgangsverteilungen mit streng monotoner Verteilungsfunktion bei denen Erwartungswert und theoretischer Median u ¨bereinstimmen (etwa bei symmetrischen Verteilungen), erh¨alt man als asymptotisches Resultat (vgl. z.B. Mood, Graybill und Boes [1974, Theorem 14]):   1 ˜ 0.5 approx µ ˆB = X ∼ N µ, . (10.1.5) 2 4nf (µ) Bei einer Standardnormalverteilung als Ausgangsverteilung erg¨abe sich also etwa   1 π  ˜ 0.5 approx µ ˆB = X ∼ N 0, = N 0, . (10.1.6) 4nf 2 (0) 2n ucke f¨ ur die DichteF¨ ur den Stichproben-Midrange sind ebenfalls analytische Ausdr¨ funktion unter einer Normalverteilung, einer Gleichverteilung oder anderen Verteilungen ableitbar (vgl. hierzu z. B. Pillai [1950] zur Normalverteilung, Mood, Graybill und Boes [1974, Theorem 13 mit Beispiel] zur Gleichverteilung oder in allgemeinerem Kontext David und Nagaraja [2003]). Da diese jedoch teils sehr l¨anglich und komplex sind, verzichten wir hier auf weitere Details. Abbildung 10.1.4 zeigt nun korrespondierend zum Simulationsergebnis von Abbildung 10.1.2 die theoretischen Verteilungen von Stichprobenmittel und Stichprobenmedian im Falle der Standardnormalverteilung. Konkret erh¨alt man ¯ ∼ N (0, 0.2) und X ¯ ∼ N (0, 0.04) X f¨ ur n = 5 bzw. n = 25. Die Verteilung des Stichprobenmedians ergibt sich hingegen aus der Dichtefunktion (10.1.4), wobei entsprechend n = 5 bzw. n = 25 gesetzt wird. • G¨ utekriterien • Allgemein kann man bei zwei Sch¨atzern denjenigen als besser einstufen, dessen Verteilung sich st¨ arker um den zu sch¨atzenden Parameter konzentriert. Im Falle der Beispiele von Abbildung 10.1.4 ist in dieser Hinsicht sowohl f¨ ur n = 5 als auch f¨ ur n = 25 das Stichprobenmittel besser als der Stichprobenmedian. Die Beurteilung ist hier insofern einfach, da beide Verteilungen jeweils symmetrisch um die Null liegen. Die Erwartungswerte beider Sch¨ atzer sind damit gleich 0. Die Varianz des Stichprobenmittels ist indes erkennbar kleiner ist als die des Medians. Es l¨asst sich zeigen, dass dieser qualitative Befund auch f¨ ur jede andere Konstellation der Werte von µ und n ≥ 1 gelten w¨ urde. Somit ist das Stichprobenmittel bei einer normalverteilten Grundgesamtheit

452

10 Statistisches Sch¨atzen

Abb. 10.1.4: Stichprobenmittel und Stichprobenmedian bei einer Normalverteilung n =5

f µ^ A (x ) / f µ^ B (x ) 2.0

2.0

X ~ X 0.5

1.5 1.0

n = 25

f µ^ A (x ) / f µ^ B (x ) X ~ X 0.5

1.5 1.0

0.5

0.5

0.0

0.0 −1.5

−1.0

−0.5

0.0

0.5

1.0

1.5

−1.5

x

−1.0

−0.5

0.0

0.5

1.0

1.5

x

tats¨achlich uneingeschr¨ ankt besser“ als der Stichprobenmedian. Außerdem weisen die ” Sch¨atzer bei h¨oherem Stichprobenumfang eine kleinere Varianz auf, werden f¨ ur wachsendes n im Durchschnitt“ also genauer. Den Simulationen nach zu urteilen, scheint ” diese Konvergenzeigenschaft ganz offensichtlich auch f¨ ur den Stichproben-Midrange zu gelten. Die nachfolgenden Abschnitte werden sich nun im Einzelnen mit verschiedenen G¨ utekriterien befassen. Hierzu z¨ ahlen: (i) Erwartungstreue, (ii) Erwartete quadratische Abweichung (MSE ), (iii) Konsistenz und (iv) Effizienz. Unter einem erwartungstreuen Sch¨ atzer versteht man einen solchen, der im Mittel“ den ” zu sch¨atzenden Parameter richtig sch¨ atzt. Formal bedeutet dies, dass der Erwartungswert des Sch¨atzers dem Parameterwert entsprechen muss, wie es etwa in den Beispielen von Abbildung 10.1.4 der Fall ist. Detailliert wird die Eigenschaft der Erwartungstreue im n¨achsten Abschnitt behandelt. Als Maß f¨ ur die Genauigkeit eines Sch¨atzers wird h¨aufig der MSE bestimmt. Dieser ist als erwartete quadratische Abweichung (engl. Mean Squared Error ) des Sch¨ atzers vom Parameterwert definiert. Bei erwartungstreuen Sch¨atzern ist der MSE gleich der Varianz des Sch¨atzers. Dieses Kriterium wird in Abschnitt 10.1.3 thematisiert. Sofern sich die Verteilung des Sch¨atzers f¨ ur wachsendes n immer st¨arker um den interessierenden Parameterwert konzentriert, spricht man von einem konsistenten Sch¨ atzer. Formal konvergiert der Sch¨atzer dann stochastisch gegen den wahren Parameterwert. Damit werden große“ Sch¨atzfehler mit wachsendem ” n immer unwahrscheinlicher. Die Eigenschaft der Konsistenz mit ihren unterschiedlichen Formen wird in Abschnitt 10.1.4 besprochen. Fragen nach dem besseren“ oder ” besten“ Sch¨atzer werden unter dem Begriff der Effizienz abschließend in Abschnitt ” 10.1.5 behandelt.

10.1 Punktsch¨atzung

453

10.1.2 Erwartungstreue • Definition • Kommen wir zun¨ achst zur formalen Definition von Erwartungstreue und einigen weiteren Begriffen in diesem Zusammenhang. Unterstellt wird ein Sch¨atzproblem im Rahmen eines parametrischen statistischen Modells mit einem unbekannten Parameter θ. Definition 10.1.1: Erwartungstreue und Verzerrung Ein Sch¨atzer θˆ heißt erwartungstreu f¨ ur θ, falls ˆ E(θ) = θ f¨ ur jeden zul¨assigen Wert θ gilt. Anderenfalls spricht man von einem verzerrten Sch¨atzer. Die Verzerrung (engl. Bias) ist dabei definiert als ˆ = E(θ) ˆ − θ. Bias(θ) Ein Sch¨atzer heißt asymptotisch erwartungstreu, falls gilt: ˆ = θ. lim E(θ) n→∞

Die inhaltliche Deutung dieser Begriffe wird im Rahmen der nachfolgenden Beispiele gekl¨art. • Beispiel 10.1.2: Sch¨ atzung des Erwartungswerts • Sind X1 , . . . , Xn identisch verteilt mit E(Xi ) = µ f¨ ur i = 1, . . . , n, dann gilt gem¨aß (7.4.15): ¯ E(X) = µ. ¯ ist folglich erwartungstreu. Das Stichprobenmittel als Sch¨ atzer f¨ ur µ, d.h. µ ˆ = X, Die Stichprobenvariablen m¨ ussen dazu nicht einmal zwingend unkorreliert oder gar unabh¨angig sein. Selbst die Ausgangsverteilung ist unerheblich. • Beispiel 10.1.3: Sch¨ atzung des Mittelwerts einer realen Grundgesamtheit • Der Mittelwert einer realen Grundgesamtheit und der Erwartungswert der Stichprobenvariable bei einmaligem zuf¨ alligem Ziehen stimmen u ¨berein. Betrachten wir dazu beispielhaft die Situation von Abbildung 9.2.1. Sofern wir aus linker Urne zuf¨allig eine Kugel ziehen und die gezogene Zahl mit der Zufallsvariable X modellieren, erhalten wir µ = E(X) = 1 · 0.25 + 2 · 0.5 + 3 · 0.25 = 2. Der Erwartungswert von X stimmt somit mit dem arithmetischen Mittel aller Zahlen in der Urne u ucklegen und modellieren die gezogenen ¨berein. Ziehen wir n Kugeln mit Zur¨ Zahlen mit X1 , . . . , Xn , so erhalten wir gem¨ aß Satz 9.2.1 (i) unabh¨angige, identisch wie X verteilte Stichprobenvariablen. Insbesondere gilt dann also auch wieder ¯ = 2. E(Xi ) = 2 f¨ ur i = 1, . . . , n und folglich E(X) Dies alles w¨ urde nat¨ urlich auch f¨ ur jeden anderen Mittelwert der Grundgesamtheit gelten. Gem¨aß Satz 9.2.1 (ii) sind X1 , . . . , Xn auch identisch wie X verteilt, falls ohne Zur¨ ucklegen gezogen wird. Somit ist das Stichprobenmittel erwartungstreu f¨ ur das

454

10 Statistisches Sch¨atzen

arithmetische Mittel der Grundgesamtheit unabh¨angig davon, ob nun mit oder ohne Zur¨ ucklegen gezogen wird. Im Falle eines metrisch 0-1-kodierten kategorialen Merkmals, wie etwa in Beispiel 9.1.1, entspricht das Stichprobenmittel gerade der relativen H¨aufigkeit der mit 1 ko¨ dierten Auspr¨agung (vgl. hierzu Satz 7.4.2). Insofern ergibt sich aus diesen Uberlegungen auch die Erwartungstreue des Stichprobenmittels f¨ ur den relativen Anteil einer bestimmten Merkmalsauspr¨ agung in der Grundgesamtheit. Dieser wird h¨aufig mit π anstelle von µ notiert. • Beispiel 10.1.4: Verzerrte und asymptotisch erwartungstreue Sch¨ atzung • Gegeben sei eine quadratische Metallplatte, deren Fl¨ache zu bestimmen ist. Angenommen, eine Person A misst eine Kantenl¨ ange von 32.1 cm und schließt daraus auf eine Fl¨ache von 32.1 × 32.1 cm2 = 1030.41 cm2 . Eine andere Person B misst dagegen eine Kantenl¨ange von 31.8 cm und schließt daraus auf eine Fl¨ache von nur 1011.24 cm2 . In dieser Situation liegt ein statistisches Problem aufgrund von Messfehlern vor. Solche k¨onnen h¨aufig als normalverteilt angenommen werden. Im vorliegenden Fall w¨are µ die tats¨achliche Kantenl¨ ange und µ2 die tats¨ achliche Fl¨ache, sofern die Platte exakt quadratisch ist. Sei nun X eine einzelne Messung, wobei X als N (µ, σ 2 )-verteilt angenommen werden kann und X 2 als Sch¨ atzer f¨ ur µ2 verwendet wird. Mit der Verschiebungsformel f¨ ur die theoretische Varianz gilt nun aber E(X 2 ) = V ar(X) + (E(X))2 = σ 2 + µ2 . Das bedeutet, dass X 2 nicht erwartungstreu ist, sondern die Fl¨ache im Allgemeinen u ¨bersch¨atzt. Die Verzerrung entspricht dabei der theoretischen Varianz einer Messung. Was w¨ urde passieren, wenn aus zwei oder mehreren Einzelsch¨atzungen das Stichprobenmittel gebildet w¨ urde? Sofern X1 , . . . , Xn unabh¨angig N (µ, σ 2 )-verteilt w¨aren, w¨ urde gelten: n n n  1 X 1X 2 1X E Xi2 = E(Xi2 ) = (σ + µ2 ) = σ 2 + µ2 . (10.1.7) n i=1 n i=1 n i=1 Man erhielte f¨ ur den Erwartungswert das gleiche Resultat. Am Ausmaß der erwarteten ¨ Ubersch¨ atzung w¨ urde sich nichts ver¨ andern. Wie l¨asst sich diese Verzerrung nun eigentlich erkl¨aren? Die Messfehler schwanken aufgrund der Symmetrie der Normalverteilung symmetrisch um die wahre Kantenl¨ange. ¨ Beim Quadrieren geht diese Symmetrie jedoch verloren, da Ubersch¨ atzungen st¨arker zu Buche schlagen als Untersch¨ atzungen. Angenommen, die tats¨achliche Kantenl¨ange betr¨agt 30 cm, was einer Fl¨ ache von 900 cm2 bedeutet. Wird nun, um das Beispiel extrem zu gestalten, die Kantenl¨ ange einmal mit 20 cm untersch¨atzt und einmal mit 40 cm u ¨bersch¨atzt, lauten die dazu entsprechenden verzerrten Fl¨achensch¨atzungen 400 cm2 bzw. 1600 cm2 . Wohlgemerkt liegen diese beiden Werte nicht symmetrisch um die wahre Fl¨ache 900 cm2 . Eine alternative Vorgehensweise w¨ urde darin bestehen, den Mittelwert der vermessenen Kantenl¨angen zu nehmen und diesen dann zu quadrieren, d.h. den Sch¨atzer ¯2 µ ˆ2 = X

10.1 Punktsch¨atzung

455

zu verwenden. Wegen ¯ = σ 2 /n und E(X) ¯ =µ V ar(X) w¨ urde mit der Verschiebungsformel folgen: ¯ + (E(X)) ¯ 2 = σ 2 /n + µ2 . E(ˆ µ2 ) = V ar(X)

(10.1.8)

Dies bedeutet, dass auch das quadrierte Stichprobenmittel ein verzerrter Sch¨atzer ist. Jedoch strebt die Verzerrung σ 2 /n f¨ ur wachsendes n gegen 0. Folglich erh¨alt man einen asymptotisch erwartungstreuen Sch¨ atzer. • Beispiel 10.1.5: Sch¨ atzung der theoretischen Varianz • Sind X1 , . . . , Xn u.i.v. mit E(Xi ) = µ und V ar(Xi ) = σ 2 f¨ ur i = 1, . . . , n, dann gilt gem¨aß (7.4.15) und (7.4.18): ¯ = µ bzw. V ar(X) ¯ = σ 2 /n. E(X) Nach der allgemeinen Verschiebungsformel (4.4.1) gilt auch: n n 1X 1X ¯ 2 + (X ¯ − c)2 f¨ (Xi − c)2 = (Xi − X) ur jedes beliebige c. n i=1 n i=1 F¨ ur c = µ erh¨alt man damit durch Umstellen dieser Gleichung f¨ ur die Stichprobenvarianz n n X 1X ¯ 2= 1 ¯ − µ)2 . S˜2 = (Xi − X) (Xi − µ)2 − (X n i=1 n i=1 Dar¨ uber ergibt sich dann n n h1 X i h X i   ¯ 2 =E 1 ¯ − µ)2 E(S˜2 ) = E (Xi − X) (Xi − µ)2 − E (X n i=1 n i=1 n

=

n

X    1X  ¯ − E(X)) ¯ 2 = 1 ¯ E (Xi − µ)2 − E (X V ar(Xi ) − V ar(X) n i=1 n i=1

n−1 2 σ2 = ·σ . n n Folglich ist die Stichprobenvarianz kein erwartungstreuer Sch¨atzer f¨ ur die theoretische Varianz σ 2 . Die Verzerrung ist gegeben durch Bias(S˜2 ) = −σ 2 /n. (10.1.9) = σ2 −

Die theoretische Varianz wird systematisch untersch¨atzt, wobei die Verzerrung f¨ ur wachsendes n gegen Null strebt. Die Stichprobenvarianz ist jedoch asymptotisch erwartungstreu. Ein erwartungstreuer Sch¨ atzer kann jedoch leicht konstruiert werden. Dazu muss die Stichprobenvarianz lediglich mit dem Vorfaktor n/(n − 1) multipliziert werden. Daraus resultiert dann die korrigierte Stichprobenvarianz : n 1 X n ˜2 ¯ 2. S2 = S = (Xi − X) n−1 n − 1 i=1 F¨ ur diese gilt: E(S 2 ) = E

i h n n n n−1 2 S˜2 = E(S˜2 ) = · · σ = σ 2 . (10.1.10) n−1 n−1 n−1 n

456

10 Statistisches Sch¨atzen

• Beispiel 10.1.6: Sch¨ atzung der empirischen Varianz einer realen Grundgesamtheit • Die empirische Varianz einer realen Grundgesamtheit ist identisch mit der theoretischen Varianz der Stichprobenvariable bei einmaligem zuf¨alligem Ziehen. Betrachten wir dazu wiederum beispielhaft die Situation von Abbildung 9.2.1. Sofern wir aus der linken Urne zuf¨ allig eine Kugel ziehen und die gezogene Zahl mit der Zufallsvariable X modellieren, erhalten wir E(X) = 1 · 0.25 + 2 · 0.5 + 3 · 0.25 = 2, E(X 2 ) = 12 · 0.25 + 22 · 0.5 + 32 · 0.25 = 4.5 und damit σ 2 = V ar(X) = E(X 2 ) − (E(X))2 = 0.5. Die Berechnung der empirischen Varianz erfolgt analog zum theoretischen Kalk¨ ul. F¨ ur die betreffenden empirischen Werte wird lediglich die Notation angepasst. F¨ ur die N = 4 Kugeln zu Abbildung 9.2.1 ergibt sich N 1 X 1 zi = (1 + 2 + 2 + 3) = 2, N i=1 4 N 1 X 2 1 zi = (12 + 22 + 22 + 32 ) = 4.5 N i=1 4

und schließlich s˜2 =

N N 1 X 1 X 2 (zi − z¯)2 = z − z¯2 = 0.5. N i=1 N i=1 i

Man beachte, dass die Anzahl der Kugeln hier nicht mit n notiert werden darf, da n bereits f¨ ur die Anzahl der gezogenen Kugeln (Stichprobenumfang) verwendet wird. Ziehen wir nun n Kugeln mit Zur¨ ucklegen und modellieren die gezogenen Zahlen mit X1 , . . . , Xn , so sind diese gem¨ aß Satz 9.2.1 (i) unabh¨angig und identisch wie X verteilt. Insbesondere gilt also auch V ar(Xi ) = 0.5 f¨ ur i = 1, . . . , n. Mit (10.1.10) folgt damit dann auch E(S 2 ) = 0.5. M¨ oglicherweise irritierend k¨ onnte hier sein, dass die korrigierte Stichprobenvarianz mit Divisor (n − 1) erwartungstreu f¨ ur die (nichtkorrigierte) empirische Varianz mit Divisor n ist. Dies alles w¨ urde auch f¨ ur jede andere empirische Varianz der Grundgesamtheit gelten. Die Resultate (10.1.9) und (10.1.10) gelten jedoch nicht, sofern ohne Zur¨ ucklegen gezogen wird. Die Formeln zur erwartungstreuen Sch¨atzung der theoretischen Varianz sind dann etwas komplexer. Auf weitere Details hierzu sei verzichtet. Jedenfalls w¨are im Allgemeinen weder die (nichtkorrigierte) Stichprobenvarianz noch die korrigierte Stichprobenvarianz erwartungstreu f¨ ur die theoretische Varianz. • Zusammenfassung • Die in den Beispielen dieses Abschnitts gewonnenen Erkenntnisse seien nun kompakt zusammengefasst.

10.1 Punktsch¨atzung

457

Satz 10.1.1: Erwartungstreue Sch¨ atzung von Erwartungswert und theoretischer Varianz Seien X1 , . . . , Xn identisch verteilte Stichprobenvariablen mit Erwartungswert µ und Varianz σ 2 . Weiter seien das Stichprobenmittel bzw. die korrigierte Stichprobenvarianz n 1 X ¯ bzw. σ ¯ 2. µ ˆ=X ˆ2 = S2 = (Xi − X) n − 1 i=1 Dann gilt: E(ˆ µ) = µ, 2

2

E(ˆ σ ) = σ , falls X1 , . . . , Xn unabh¨angig sind.

(10.1.11) (10.1.12)

Satz 10.1.2: Erwartungstreue Sch¨ atzung von Mittelwert und empirischer Varianz bei realer Grundgesamtheit (Urnenmodell) Gegeben sei eine Urne mit N ≥ 1 Kugeln, die mit Zahlen z1 , . . . , zN beschriftet sind. Sei µ = z¯ das arithmetische Mittel aller Zahlen und σ 2 = s˜2Z die empirische Varianz. Es werden n ≥ 1 Kugeln zuf¨ allig gezogen und die gezogenen Zahlen mit den Stichprobenvariablen X1 , . . . , Xn modelliert. Dann gilt: ¯ = µ = z¯, falls mit oder ohne Zur¨ E(X) ucklegen gezogen wird, (10.1.13) E(S 2 ) = σ 2 = s˜2Z , falls mit Zur¨ ucklegen gezogen wird.

(10.1.14)

Bemerkung: F¨ ur das Ziehen ohne Zur¨ ucklegen in (10.1.13) wird implizit N ≥ n vorausgesetzt. Man beachte, dass die Unterscheidung von Sch¨ atzproblemen im Kontext hypothetischer und realer Grundgesamtheiten in gewisser Weise unn¨otig ist. Im Zuge der statistischen Modellierung realer Stichproben wird aus dem arithmetischen Mittel der Grundgesamtheit ein Erwartungswert und aus der empirischen Varianz der Grundgesamtheit eine theoretische Varianz. Dadurch begr¨ unden sich auch die Gleichsetzungen µ = z¯ bzw. σ 2 = s˜2Z . Hierbei ist zu beachten, dass wir nicht µ = x ¯ und σ 2 = s˜2X setzen d¨ urften, da die rechten Ausdr¨ ucke f¨ ur die Realisationen der betreffenden Sch¨atzer verwendet werden.

10.1.3 Erwartete quadratische Abweichung (MSE) • Hintergrund und Definition • Beispiel 10.1.1 hat gezeigt, dass Erwartungstreue ( im Mittel richtig sch¨ atzen“) nicht das einzige G¨ utekriterium zur Beurteilung eines ” Sch¨atzers sein sollte. Entscheidend ist vielmehr, wie sehr sich die Verteilung eines Sch¨atzers um den wahren Wert konzentiert. Was wir somit ben¨otigen, ist ein objektives Maß, mit dem sich die Genauigkeit eines Sch¨atzers quantifizieren l¨asst. Im Falle erwartungstreuer Sch¨ atzer w¨ are es naheliegend, daf¨ ur gerade die theoretische Varianz

458

10 Statistisches Sch¨atzen

des Sch¨atzers zu nehmen, im Falle verzerrter Sch¨atzer jedoch nicht. Wie sollte denn auch beispielsweise ein Sch¨ atzer, der mit kleiner Varianz um den falschen Wert herum streut, n¨ utzlich sein? Ein h¨ aufig verwendetes Maß ist das folgende. Definition 10.1.2: Erwartete quadratische Abweichung (MSE) Gegeben sei ein Sch¨ atzer θˆ f¨ ur einen Parameter θ. Die erwartete quadratische Abweichung, die auch als MSE (engl. Mean Squared Error ) bezeichnet wird, ist definiert als  ˆ = E [θˆ − θ]2 = V ar(θ) ˆ + (Bias(θ)) ˆ 2. M SE(θ)

Die letzte Gleichung der Definition ergibt sich wie folgt:   ˆ + E(θ) ˆ − θ]2 E [θˆ − θ]2 = E [θˆ − E(θ)    ˆ 2 + 2E [θˆ − E(θ)][E( ˆ ˆ − θ] + E [E(θ) ˆ − θ]2 = E [θˆ − E(θ)] θ)    ˆ 2 + 2[E(θ) ˆ − θ] · E θˆ − E(θ) ˆ + [E(θ) ˆ − θ]2 = E [θˆ − E(θ)] ˆ + 2[E(θ) ˆ − θ] · 0 + (Bias(θ)) ˆ 2. = V ar(θ) Der MSE ist der Erwartungswert der quadrierten Abweichung des Sch¨atzers vom zu sch¨atzenden Parameter. Im Falle eines erwartungstreuen Sch¨atzers entspricht der MSE gerade der Varianz. Ansonsten geht als zweite Komponente noch die quadrierte Verzerrung mit ein. Der MSE eines Sch¨ atzers ist umso gr¨oßer, je gr¨oßer seine Varianz und seine Verzerrung ist. • Beispiel 10.1.7 • Stellen wir uns als Beispiel unabh¨angige N (µ, σ 2 )-verteilte Zufallsvariablen X1 , . . . , Xn vor. Zur Sch¨ atzung des Erwartungswertes betrachten wir nun folgende 3 Sch¨atzer: ¯ ¯ + 1/n. µ ˆA = X, µ ˆB = X1 , µ ˆC = X Die Sch¨atzer µ ˆA und µ ˆB sind erwartungstreu. Der Sch¨atzer µ ˆC weist die Verzerrung 1/n auf. Da wir von normalverteilten Zufallsvariablen ausgehen, gilt gem¨aß (7.4.21) und (7.4.25): µ ˆA ∼ N (µ, σ 2 /n),

µ ˆB ∼ N (µ, σ 2 ),

µ ˆC ∼ N (µ + 1/n, σ 2 /n).

Abbildung 10.1.5 zeigt die Verteilungen aller drei Sch¨atzer f¨ ur den Fall µ = 0, σ 2 = 1 und n = 2 bzw. n = 10. Betrachtet man die Konzentration der einzelnen Verteilungen um den wahren Wert 0, so besitzt die Verteilung des Stichprobenmittels µ ˆA offensichtlich die besten Eigenschaften. Die Verteilung von µ ˆC sieht zumindest f¨ ur den Fall n = 10 g¨ unstiger aus als die von µ ˆB , obwohl µ ˆC verzerrt ist. Diese Verzerrung geht aber f¨ ur wachsendes n gegen Null. Außerdem ist zu sehen, dass die Verteilungen von µ ˆA und µ ˆC f¨ ur n = 10 enger beieinander liegen als f¨ ur n = 2. Im Fall n = 2 ist nicht ganz eindeutig, ob der erwartungstreue Sch¨ atzer µ ˆB oder der verzerrte Sch¨atzer µ ˆC die bessere Wahl ist. Daf¨ ur kommt aber die Verteilung von µ ˆC mit der Gesamtheit seiner Wahrscheinlichkeitsmasse

10.1 Punktsch¨atzung

459

Abb. 10.1.5: Verteilung der drei Sch¨ atzer von Beispiel 10.1.7 n =2

f 1.5

1.5

^ µ A ^ µ B

1.0

^ µ A ^ µ B

1.0

^ µ C

0.5

n = 10

f

^ µ C

0.5

0.0

0.0 −3

−2

−1

0

x

1

2

3

−3

−2

−1

0

x

1

2

3

recht nahe an die 0 heran. Berechnet man f¨ ur jeden Sch¨atzer den MSE, erh¨alt man: ¯ = V ar(X) ¯ = M SE(ˆ µA ) = M SE(X)

σ2 , n

M SE(ˆ µB ) = M SE(X1 ) = σ 2 , 2    ¯ + 1 = V ar X ¯ + 1 + Bias X ¯+1 =σ + 1. M SE(ˆ µC ) = M SE X n n n n n2 Zun¨achst einmal ist klar, dass hinsichtlich des MSE-Kriteriums der Sch¨atzer µ ˆA den anderen beiden Sch¨ atzern u ˆA ist stets kleiner oder gleich ¨berlegen ist. Der MSE von µ den MSE’s der anderen beiden Sch¨ atzer. Die Pr¨aferenzordnung zwischen µ ˆB und µ ˆC ist dagegen nicht eindeutig. F¨ ur den Fall σ 2 = 1 und n = 2 erhalten wir beispielsweise M SE(ˆ µB ) = 1 bzw. M SE(ˆ µC ) = 0.5 + 0.52 = 0.75. Der Sch¨atzer µ ˆC w¨ are in diesem Fall dem Sch¨atzer µ ˆB vorzuziehen. F¨ ur σ 2 = 0.1 und n = 2 erhalten wir dagegen M SE(ˆ µB ) = 0.1 bzw. M SE(ˆ µC ) = 0.05 + 0.52 = 0.30. Bei dieser Konstellation w¨ are also µ ˆB besser als µ ˆC .

10.1.4 Konsistenz • Hintergrund und Definition • Ein entscheidender Punkt ist die Abh¨angigkeit des MSE vom Stichprobenumfang. So sollte der MSE als Maß f¨ ur die Genauigkeit eines Sch¨atzers f¨ ur wachsenden Stichprobenumfang kleiner werden. Bildlich gesprochen, sollte sich die Verteilung eines Sch¨ atzers u ¨ber dem wahren Wert zusammenziehen“. ” Sind X1 , . . . , Xn beispielsweise u.i.v. Stichprobenvariablen mit Erwartungswert µ ¯ als Sch¨atzer f¨ ur µ und Varianz σ 2 < ∞, so ist der MSE des Stichprobenmittels X gegeben durch ¯ = σ 2 /n. M SE(X) In diesem Fall gilt dann: n→∞ ¯ −− M SE(X) −−−→ 0.

460

10 Statistisches Sch¨atzen

Auf der anderen Seite wissen wir auch, dass das Stichprobenmittel aufgrund des GGZ (Satz 7.4.1) stochastisch gegen den Erwartungswert konvergiert. Es gilt also auch: n→∞ n→∞ ¯ − µ| < ε) −− ¯ − µ| ≥ ε) −− P (|X −−−→ 1 bzw. P (|X −−−→ 0 f¨ ur jedes ε > 0 bzw. in Kurznotation: p ¯ −− X → µ. Die Wahrscheinlichkeit, dass sich das Stichprobenmittel außerhalb eines beliebig kleinen Bereichs um µ herum realisiert, konvergiert f¨ ur wachsendes n gegen Null. Auf diesen beiden Konzepten, also der Konvergenz des MSE gegen 0 einerseits und der stochastischen Konvergenz gegen den wahren Wert andererseits, wird die Eigenschaft der Konsistenz eines Sch¨ atzers definiert. Definition 10.1.3: MSE-Konsistenz und schwache Konsistenz Ein Sch¨atzer θˆn f¨ ur einen Parameter θ heißt (i) MSE-konsistent, falls gilt: n→∞ M SE(θˆn ) −−−−−→ 0. ur jedes ε > 0 gilt: (ii) schwach konsistent, falls f¨ n→∞ n→∞ ˆ P (|θn − θ| < ε) −−−−−→ 1 bzw. P (|θˆn − θ| ≥ ε) −−−−−→ 0, p in Kurzschreibweise: θˆn −−→ θ.

• Bemerkung zur Notation • Man beachte, dass in der hier gew¨ahlten Notation der Sch¨atzer zus¨atzlich mit dem Index n versehen wurde. Dadurch wird die Abh¨angigkeit des Sch¨atzers vom Stichprobenumfang deutlicher erkennbar gemacht. Formal wird dann eigentlich die Folge der Sch¨ atzer θˆ1 , θˆ2 , θˆ3 , . . . ¨ betrachtet. Ublich ist diese Schreibweise vor allem bei der Formulierung asymptotischer Sachverhalte (n → ∞). M¨ ochte man beispielsweise asymptotische Eigenschaften des Stichprobenmittels formal beschreiben, so ist in der Regel die Schreibweise ¯ n gegen¨ ¯ X uber X zu bevorzugen. Anderenfalls kann auf die Indizierung mit n auch verzichtet werden. • MSE-Konsistenz impliziert schwache Konsistenz • Eine Frage, die sich stellt, ist, ob MSE-Konsistenz und schwache Konsistenz a¨quivalent sind, d.h. das eine das jeweils andere impliziert. Es mag teils u ¨berraschen, dass dies nicht der Fall ist. MSEKonsistenz ist eine st¨ arkere Form von Konvergenz und impliziert schwache Konsistenz. Die Umkehrung gilt jedoch nicht, d.h. ein schwach konsistenter Sch¨atzer ist nicht zwingend MSE-konsistent. MSE-Konsistenz impliziert schwache Konsistenz. Die Umkehrung gilt nicht.

10.1 Punktsch¨atzung

461

Wir zeigen zun¨achst, dass MSE-Konsistenz schwache Konsistenz impliziert. Dazu betrachten wir einen MSE-konsistenten Sch¨ atzer θˆn f¨ ur einen Parameter θ. Dann gilt f¨ ur jedes ε > 0: P (|θˆn − θ| ≥ ε) = P ((θˆn − θ)2 ≥ ε2 ) ≤ M SE(θˆn )/ε2 . (10.1.15) Bei einem MSE-konsistenten Sch¨ atzer konvergiert die rechte Seite der Ungleichung f¨ ur jedes ε > 0 f¨ ur wachsendes n gegen Null. Dies impliziert f¨ ur die linke Seite n→∞ P (|θˆn − θ| ≥ ε) −−−−−→ 0, atzers. Zum Beweis der Ungleichung definiert man d.h. die schwache Konsistenz des Sch¨ die diskrete Zufallsvariable Yn mit ( 0, f¨ ur |θˆn − θ| < ε, Yn = 1, f¨ ur |θˆn − θ| ≥ ε, Damit gilt generell (θˆn − θ)2 . (10.1.16) ε2 Denn f¨ ur Yn = 0 ist Ungleichung (10.1.16) auf jeden Fall erf¨ ullt, da die rechte Seite nicht negativ sein kann. F¨ ur Yn = 1 gilt hingegen (θˆn − θ)2 ≥ ε2 , d.h. (θˆn − θ)2 /ε2 ≥ 1. Yn ≤

ullt. F¨ ur den Erwartungswert impliziert Somit ist Ungleichung (10.1.16) ebenfalls erf¨ dies  P (|θˆn − θ| ≥ ε) = E(Yn ) ≤ E [θˆn − θ]2 /ε2 , wobei der Z¨ahler des Quotienten auf der rechten Seite der Ungleichung gerade dem MSE des Sch¨atzers entspricht. Damit ist Ungleichung (10.1.15) bewiesen. Das sp¨atere Beispiel 10.1.11 belegt, dass ein schwach konsistenter Sch¨atzer nicht zwingend MSE-konsistent sein muss. • Konsistente Sch¨ atzung von Funktionen eines Parameters • Aus dem Stetigkeitssatz (Satz 8.2.3) ergibt sich folgendes n¨ utzliche Resultat. Dazu beachte man das sp¨atere Beispiel 10.1.9. Satz 10.1.3: Konsistente Sch¨ atzung von Funktionen eines Parameters Ist θˆn ein schwach konsistenter Sch¨ atzer f¨ ur einen Parameter θ und g eine stetige Funktion, dann ist g(θˆn ) ein schwach konsistenter Sch¨atzer f¨ ur g(θ), sofern g(θ) definiert ist.

• Nachweis von MSE-Konsistenz • Zum Nachweis der MSE-Konsistenz eines Sch¨atzers ist im Allgemeinen der MSE analytisch zu bestimmen und dann zu kl¨aren, ob dieser f¨ ur wachsendes n gegen Null konvergiert. Im vorhergehenden Beispiel 10.1.7 ergibt sich daraus dann, dass lediglich µ ˆA und µ ˆC MSE-konsistent sind, nicht aber µ ˆB . Aus der Zerlegbarkeit des MSE in Varianz und Verzerrung (Def. 10.1.2) erh¨alt man außerdem folgendes Resultat:

462

10 Statistisches Sch¨atzen

Ein erwartungstreuer oder asymptotisch erwartungstreuer Sch¨atzer ist genau dann MSE-konsistent, falls dessen Varianz f¨ ur wachsendes n gegen Null konvergiert.

• Nachweis von schwacher Konsistenz • Da MSE-Konsistenz schwache Konsistenz impliziert, ist letztere automatisch nachgewiesen, sofern sich erstere Konsistenzform nachweisen l¨asst. So impliziert in Beispiel 10.1.7 die MSE-Konsistenz von µ ˆA und µ ˆC automatisch auch deren schwache Konsistenz. Bisweilen erweist sich jedoch die analytische Herleitung einer MSE-Formel als sehr schwierig, sodass man anders vorgehen muss. Dann greift man h¨ aufig auf das Gesetz der großen Zahlen zur¨ uck, m¨oglicherweise noch in Kombination mit dem Stetigkeitssatz bzw. Satz 10.1.3. Das sp¨atere Beispiel 10.1.8 f¨ uhrt diese Variante n¨ aher aus. Scheidet auch diese Variante aus, so bleibt h¨aufig nur der direkte Nachweis bzw. die direkte Widerlegung anhand der Definition der schwachen Konsistenz. So gilt etwa f¨ ur den Sch¨atzer µ ˆB in Beispiel 10.1.7: P (|X1 − µ| > σ) ≈ 1 − 0.6827 = 0.3173

(vgl. Abb. 7.3.13)

f¨ ur jedes n ≥ 1. Die Wahrscheinlichkeit konvergiert f¨ ur wachsendes n also nicht gegen 0. Dies liegt daran, dass von den n Stichprobenvariablen X1 , . . . , Xn immer nur die erste Beobachtung als Sch¨ atzung verwertet wird. Die schwache Konsistenz wurde somit direkt anhand der Definition widerlegt. Schwache Konsistenz l¨ asst sich, sofern vorhanden, 1. u arkere Form der MSE-Konsistenz, ¨ber die st¨ 2. anhand asymptotischer Resultate (GGZ + Stetigkeitssatz) oder 3. direkt anhand der Definition nachweisen. • Beispiel 10.1.8: Konsistente Sch¨ atzung von Erwartungswert und Varianz • ¨ Mit den vorhergehenden Uberlegungen folgt, dass das Stichprobenmittel bei u.i.v.Stichproben sowohl ein MSE-konsistenter als auch ein schwach konsistenter Sch¨atzer f¨ ur µ ist. In Bezug auf die Sch¨ atzung der theoretischen Varianz muss etwas weiter ausgeholt werden. Aus Abschnitt 10.1.2 (Satz 10.1.1) wissen wir bereits, dass die korrigierte Stichprobenvarianz S 2 ein erwartungstreuer Sch¨atzer f¨ ur σ 2 ist. Zum Nachweis der 2 MSE-Konsistenz muss nun die Varianz von S bestimmt werden. Dies erweist sich als recht aufw¨andig (vgl. hierzu auch die Resultate von Beispiel 10.3.1). Das Resultat lautet 1  ∗ n − 3 4 V ar(S 2 ) = µ − σ , wobei µ∗4 = E([Xi − µ]4 ) < ∞ (10.1.17) n 4 n−1 vorausgesetzt wird. Unter der Annahme endlicher 4. Momente (oder alternativ unter der strengeren Annahme (M) aus Definition 8.2.1) gilt folglich  n − 1   σ 2 2 M SE(S˜n2 ) = V ar(S˜n2 ) + (Bias(S˜n2 ))2 = V ar Sn2 + − n n

10.1 Punktsch¨atzung

463

(n − 1)2 σ 4 n→∞ 2 V ar(S ) + −−−−−→ 0. n n2 n2 Somit sind korrigierte und nichtkorrigierte Stichprobenvarianz sowohl MSE-konsistente als auch schwach konsistente Sch¨ atzer f¨ ur die theoretische Varianz. Um lediglich die schwache Konsistenz nachzuweisen, gen¨ ugt bereits die Annahme endlicher zweiter Momente. Gem¨ aß (8.3.29) in Beispiel 8.3.6 gilt dann: =

p S˜n2 −−→ σ 2

(10.1.18)

Durch Anwendung des multivariaten Stetigkeitssatzes (Satz 8.3.3) folgt aus (10.1.18) n ˜2 p Sn2 = S −−→ σ 2 . (10.1.19) n−1 n n→∞

wegen n/(n − 1) −−−−−→ 1. Satz 10.1.4: Konsistente Sch¨ atzung von Erwartungswert und Varianz Seien X1 , . . . , Xn u.i.v. mit Erwartungswert µ und Varianz σ 2 und E(Xi4 ) < ∞. Dann gilt: ¯ ist ein MSE-konsistenter und schwach konsistenter (i) Das Stichprobenmittel X Sch¨atzer f¨ ur µ. (ii) Die korrigierte (nichtkorrigierte) Stichprobenvarianz S 2 (S˜2 ) ist ein MSEkonsistenter und schwach konsistenter Sch¨atzer f¨ ur σ 2 .

• Beispiel 10.1.9: Konsistente Sch¨ atzung einer Funktionen eines Parameters • Gegeben sei die Situation aus Beispiel 10.1.4. Ausgehend von unabh¨angigen und identische verteilten Zufallsvariablen X1 , . . . , Xn mit Erwartungswert µ betrachten ¯ 2 . Mit dem GGZ wir zur Sch¨atzung von µ2 (Fl¨ ache einer Metallplatte) den Sch¨atzer X gilt dann: p ¯ −− X → µ. W¨ ahlen wir die stetige Funktion g(t) = t2 , so folgt mit dem Stetigkeitssatz (Satz 8.2.3) p ¯ =X ¯ 2 −− g(X) → g(µ) = µ2 .

Der Sch¨atzer ist somit schwach konsistent. Nicht viel anders verh¨alt es sich, falls X1 , . . . , Xn unabh¨ angig Exp(λ)-verteilt sind mit E(Xi ) = 1/λ p

f¨ ur i = 1, . . . , n. p

¯ −−→ λ. Der Kehrwert des Stichprobenmittels ¯ −−→ 1/λ folgt unmittelbar 1/X Aus X ist ein schwach konsistenter Sch¨ atzer f¨ ur λ. Als Funktion g w¨ahlen wir in diesem Fall g(t) = 1/t. Man beachte, dass die Funktion g im gesamten Definitionsbereich stetig ist. An der Stelle 0 ist g jedoch nicht definiert. • Beispiel 10.1.10: Konsistente Sch¨ atzung eines theoretischen Maximums • Seien X1 , . . . , Xn unabh¨ angig und stetig gleichverteilt (Abschnitt 7.3.2) u ¨ber dem Intervall [0, θ], wobei der Parameter θ > 0 die Obergrenze der Tr¨agermenge (theoretisches

464

10 Statistisches Sch¨atzen

Maximum) bildet. Sofern dieser Parameter unbekannt ist, stellt sich die Frage nach einem sinnvollen Sch¨ atzer. Aufgrund des GGZ ist das Stichprobenmittel ein schwach konsistenter Sch¨atzer f¨ ur den Erwartungswert der Verteilung, der in diesem Fall gegeben ist durch θ/2 (die Intervallmitte): p ¯ −− X → θ/2.

Durch Betrachtung der stetigen Funktion g(t) = 2t folgt dann mit dem Stetigkeitssatz p

¯ −−→ θ. 2X Somit w¨are das Zweifache des Stichprobenmittels ein schwach konsistenter Sch¨atzer f¨ ur diese Obergrenze. Tats¨ achlich ist dieser auch MSE-konsistent. Der MSE l¨asst sich auch relativ einfach bestimmen. Eine alternative M¨ oglichkeit besteht darin, das Stichprobenmaximum X(n) als Sch¨atzer zu w¨ahlen. Hierbei muss man zum Nachweis der schwachen Konsistenz direkt an der Definition ansetzen. So gilt f¨ ur jedes ε > 0 zun¨achst einmal: P (|X(n) − θ| ≤ ε) = P (θ − ε ≤ X(n) ≤ θ + ε) = P (X(n) ≤ θ + ε) − P (X(n) < θ − ε) = 1 − P (X(n) < θ − ε).

(10.1.20)

Die letzte Gleichung gilt, da θ das theoretische Maximum ist, und somit das Stichprobenmaximum keinen gr¨ oßeren Wert realisieren kann. Ist die gr¨oßte Beobachtung kleiner θ − ε, so trifft dies f¨ ur alle Werte zu, d.h. man erh¨alt weiter P (X(n) < θ − ε) = P (X1 < θ − ε, X2 < θ − ε, . . . , Xn < θ − ε) = [P (X1 < θ − ε)]n

(10.1.21)

Letzte Gleichung ergibt sich aus dem Multiplikationskriterium, da X1 , . . . , Xn unabh¨angig und identisch verteilt sind. F¨ ur ε ≥ θ erh¨alt man aus (10.1.21) [P (X1 < θ − ε)]n = 0n = 0, da das theoretische Minimum durch die untere Intervallgrenze 0 gebildet wird. F¨ ur 0 < ε < θ erh¨alt man hingegen (vgl. Abb. 10.1.6) θ−ε . (10.1.22) P (X1 < θ − ε) = P (X1 ≤ θ − ε) = FX1 (θ − ε) = θ Somit ergibt sich aus (10.1.20)–(10.1.22) f¨ ur jedes ε ≥ θ P (|X(n) − θ| ≤ ε) = 1 − 0 = 1

(10.1.23)

und f¨ ur jedes 0 < ε < θ P (|X(n) − θ| ≤ ε) = 1 −

 θ − ε n

. (10.1.24) θ Wegen (θ − ε)/θ < 1 f¨ ur 0 < ε < θ konvergiert die rechte Seite von (10.1.24) f¨ ur wachsendes n gegen 1. Insgesamt erh¨ alt man aus (10.1.23) und (10.1.24) die schwache Konsistenz des Stichprobenmaximums f¨ ur die theoretische Obergrenze θ.

10.1 Punktsch¨atzung

465

Abb. 10.1.6: Illustration zu Gleichung (10.1.22) X 1 ~ G (0, θ) 1 θ

θ−ε θ 0

θ θ−ε

ε

• Beispiel 10.1.11: Schwache Konsistenz impliziert keine MSE-Konsistenz • Seien X1 , . . . , Xn unabh¨ angig mit 1 1 P (Xi = θ) = 1 − und P (Xi = θ + i) = f¨ ur i = 1, . . . , n, wobei θ ∈ R. i i Wir beachten, dass die Zufallsvariablen nicht identisch verteilt sind. Die Verteilung h¨angt jeweils vom Index i ab. Jedes Xi gen¨ ugt hier einer diskreten Verteilung mit zwei Tr¨agerpunkten. Der erste Tr¨ agerpunkt ist konstant gleich θ, w¨ahrend der zweite den Wert θ + i besitzt und f¨ ur wachsendes i und n gegen Unendlich strebt. Gleichzeitig wird die Wahrscheinlichkeit des ersten Tr¨ agerpunktes immer gr¨oßer und die des zweiten immer kleiner. Damit konzentriert sich die Verteilung f¨ ur wachsendes i immer st¨arker um den Parameterwert θ. Als Sch¨ atzer f¨ ur θ betrachten wir nun die n-te Beobachtung Xn . Dabei gilt: P (Xn = θ) = 1 − 1/n und P (Xn = θ + n) = 1/n. Daraus folgt: P (|Xn − θ| = 0) = 1 − 1/n und P (|Xn − θ| = n) = 1/n. Damit ist Xn schwach konsistent f¨ ur θ, da n→∞

1 ≥ P (|Xn − θ| < ε) ≥ P (|Xn − θ| = 0) −−−−−→ 1 f¨ ur jedes ε > 0, d.h. n→∞

P (|Xn − θ| < ε) −−−−−→ 1 f¨ ur jedes ε > 0. Andererseits gilt: E(Xn ) = θ(1 − 1/n) + (θ + n)/n = θ + 1, E(Xn2 ) = θ2 (1 − 1/n) + (θ + n)2 /n = θ2 + 2θ + n, Bias(Xn ) = E(Xn ) − θ = θ + 1 − θ = 1 und V ar(Xn ) = E(Xn2 ) − (E(Xn ))2 = θ2 + 2θ + n − (θ + 1)2 = n − 1. Somit folgt f¨ ur den MSE M SE(Xn ) = V ar(Xn ) + (Bias(Xn ))2 = n − 1 + 12 = n. Der MSE strebt f¨ ur wachsendes n gegen Unendlich und nicht gegen 0. Dies ist darauf zur¨ uckzuf¨ uhren, dass die Varianz der Verteilung aufgrund der auseinanderstrebenden Tr¨agerpunkte zunimmt. Deshalb ist Xn als Sch¨atzer f¨ ur θ nicht MSE-konsistent.

466

10 Statistisches Sch¨atzen

Dieses Beispiel ist sicherlich sehr konstruiert und besitzt kaum praktische Relevanz. Dennoch a¨ndert dies nichts an der Tatsache, dass schwache Konsistenz keine MSEKonsistenz impliziert. Weitere Gegenbeispiele lassen sich immer dann konstruieren, falls die Ausgangsverteilung der Stichprobenvariablen einen endlichen Erwartungswert aber keine endliche Varianz besitzt. Dann gilt gem¨ aß GGZ (Satz 7.4.1) zwar, dass das Stichprobenmittel bei einem u.i.v.-Schema schwach konsistent f¨ ur den Erwartungswert ist, jedoch l¨asst sich aufgrund der nicht endlichen Varianz keine MSE-Konsistenz erzielen. Beispielsweise w¨ urde dies bei einer t-Verteilung mit 2 Freiheitsgraden als Ausgangsverteilung zutreffen (Abschnitt 8.1.2). • Konsistenz ist Mindestanforderung • Die Konsistenz ist die wichtigste Eigenschaft eines Sch¨atzers und zugleich auch eine Mindestanforderung, die man an einen Sch¨atzer stellt. Denn jeder sinnvoll konstruierte Sch¨atzer sollte f¨ ur wachsenden Stichprobenumfang genauer werden.

10.1.5 Effizienz • Hintergrund • In der Praxis arbeitet man in der Regel mit einem festen Stichprobenumfang, der mehr oder weniger vorgegeben ist. Stehen nun mehrere sinnvolle Sch¨atzer zur Auswahl, ist i.d.R. derjenige zu bevorzugen, der den kleineren MSE aufweist. Folgendes Beispiel verdeutlicht, dass die Frage nach dem besseren“ oder gar besten“ ” ” Sch¨atzer jedoch keinesfalls immer eindeutig beantwortet werden kann. Vielmehr l¨auft es h¨aufig auf ein es kommt darauf an“ hinaus. ” • Beispiel 10.1.12: Sch¨ atzung eines theoretischen Anteilswerts • Seien X1 , . . . , Xn unabh¨angig B(1, π)-verteilt, wobei der Parameter π gesch¨atzt werden soll. In der Praxis k¨onnte damit beispielsweise die Sch¨ atzung eines Anteilswerts in einer dichotomen Grundgesamtheit wie etwa in Beispiel 9.1.1 (Anteil von Mensabef¨ urwortern) modelliert werden. Es werden nun folgende 4 Sch¨ atzer betrachtet, wobei n als gerade Zahl vorausgesetzt wird: n/2

n

π ˆA =

1X Xi , n i=1

π ˆB =

2X Xi , n i=1

n

π ˆC = 0.5,

π ˆD =

1 X 1 Xi + . n + 2 i=1 n+2

Der Sch¨atzer π ˆA ist das Stichprobenmittel und entspricht der relativen H¨aufigkeit der Einsen in der Stichprobe. Der Sch¨ atzer π ˆB verwendet nur die erste H¨alfte der Stichprobe. Die zweite H¨alfte der Beobachtungen wird sozusagen ignoriert. Der Sch¨atzer π ˆC ist eigentlich kein richtiger“ Sch¨ atzer, da er die Stichprobe u ¨berhaupt nicht verwertet. Egal ” wie die Beobachtungswerte auch ausfallen, wird als Sch¨atzung der Wert 0.5 verwendet. Man k¨onnte diesen Sch¨ atzer als auf 0.5 einpunktverteilte Zufallsvariable interpretieren. Der Sch¨atzer π ˆD erscheint zun¨ achst einmal nur eigenartig. F¨ ur großes n entspricht er approximativ dem ersten Sch¨ atzer, weist jedoch den Divisor (n+2) und eine zus¨atzliche Verschiebungskonstante 1/(n + 2) auf. Im Folgenden werden die MSE-Eigenschaften dieser 4 Sch¨atzer miteinander verglichen.

10.1 Punktsch¨atzung

467

Da der Erwartungswert einer B(1, π)-Verteilung gleich π ist, folgt n n n 1 X  1X 1X E(ˆ πA ) = E Xi = E(Xi ) = π = π, n i=1 n i=1 n i=1 E(ˆ πB ) = E

n/2 2 X

n

i=1

n/2

Xi



n/2

2X 2X = E(Xi ) = π = π, n i=1 n i=1

E(ˆ πC ) = E(0.5) = 0.5, n  1 X 1  nπ + 1 E(ˆ πD ) = E Xi + . = n + 2 i=1 n+2 n+2 Die Erwartungstreue von π ˆA folgt bereits aus Satz 10.1.1 f¨ ur µ = π. Die Sch¨atzer π ˆA und π ˆB sind erwartungstreu, die Sch¨ atzer π ˆC und π ˆD sind es nicht. Die Verzerrungen der Sch¨atzer π ˆC und π ˆD lauten Bias(ˆ πC ) = E(ˆ πC ) − π = 0.5 − π und nπ + 1 1 − 2π Bias(ˆ πD ) = E(ˆ πD ) − π = −π = . n+2 n+2 Mit den Rechenregeln f¨ ur die Varianz erh¨ alt man dann weiter n n n 1 X  X 1 X π(1 − π) 1 V ar(ˆ πA ) = V ar Xi = 2 V ar(Xi ) = 2 π(1 − π) = , n i=1 n i=1 n i=1 n V ar(ˆ πB ) = V ar

n/2 2 X

n/2 n/2  4 X 2π(1 − π) 4 X Xi = 2 V ar(Xi ) = 2 π(1 − π) = , n i=1 n i=1 n i=1 n

V ar(ˆ πC ) = V ar(0.5) = 0, n n  1 X  nπ(1 − π)  1 X 1  V ar(ˆ πD ) = V ar Xi + Xi = . = V ar n + 2 i=1 n+2 n + 2 i=1 (n + 2)2 Daraus resultiert schließlich π(1 − π) , n 2π(1 − π) M SE(ˆ πB ) = V ar(ˆ πB ) = , n M SE(ˆ πC ) = V ar(ˆ πC ) + (Bias(πC ))2 = 0 + (0.5 − π)2 = (0.5 − π)2 M SE(ˆ πA ) = V ar(ˆ πA ) =

und nπ(1 − π) (1 − 2π)2 + . (n + 2)2 (n + 2)2 Es ist offensichtlich, dass der Sch¨ atzer π ˆA dem Sch¨atzer π ˆB vorzuziehen ist, da der MSE von π ˆA unter allen Konstellationen, d.h. f¨ ur alle Werte von π und n, in der Regel kleiner und auf jeden Fall nie gr¨ oßer ist als derjenige von π ˆB . Zieht man jedoch die anderen beiden Sch¨atzer in Betracht, l¨ auft die Antwort auf die Frage nach dem besten Sch¨atzer auf ein es kommt darauf an“ hinaus. Denn der MSE h¨angt bei allen Sch¨atzern mit ” M SE(ˆ πD ) = V ar(ˆ πD ) + (Bias(πD ))2 =

468

10 Statistisches Sch¨atzen

Ausnahme von π ˆC sowohl von π als auch von n ab. Abbildung 10.1.7 illustriert diesen Sachverhalt f¨ ur n = 10 und n = 20. Abb. 10.1.7: MSE-Kurven der Sch¨ atzer von Beispiel 10.1.12 n = 10

MSE (π)

^B π

0.06 0.05 0.04

0.06

^C π

0.04

0.00 0.4

π

0.6

^A π

0.02

^D π

0.01 0.2

^B π

0.03

0.02

0.0

^C π

0.05

^A π

0.03

n = 20

MSE (π)

0.01

^D π

0.00 0.8

1.0

0.0

0.2

0.4

π

0.6

0.8

1.0

Die beiden Schaubilder zeigen die jeweilige Abh¨angigkeit des MSE vom Parameter π. Gut zu erkennen ist, dass der MSE bei allen Sch¨atzern mit Ausnahme von π ˆC f¨ ur n = 20 kleiner ist als f¨ ur n = 10. Dahinter steckt die Eigenschaft der Konsistenz. Dennoch kann der Sch¨ atzer π ˆC unter gewissen Umst¨anden der beste“ sein. Dies ist ” insbesondere f¨ ur π = 0.5 der Fall. F¨ ur Werte im Randbereich (kleine oder große Werte von π) erscheint π ˆA als beste Wahl, f¨ ur mittlere Werte“ hingegen π ˆD . ” • Fazit • Im Allgemeinen gibt es selten einen uneingeschr¨ankt besten“ Sch¨atzer. Dies ” liegt schon daran, dass stets auch einpunktverteilte Sch¨atzer wie π ˆC in Betracht gezogen werden k¨onnen, die immer genau dann am besten sind, wenn ihr einziger Tr¨agerpunkt dem tats¨achlichen Parameterwert entspricht. Eine M¨oglichkeit, solche unsinni” gen Sch¨atzer“ ausschließen zu k¨ onnen, besteht darin, die Klasse der in Betracht kommenden Sch¨atzer von Vorneherein einzuschr¨ anken. Beispielsweise k¨onnte man sich nur auf die Klasse der erwartungstreuen Sch¨ atzer beschr¨anken und innerhalb dieser Klasse dann nach dem besten Sch¨ atzer suchen. Dies w¨ urde im vorhergehenden Beispiel π ˆC auf jeden Fall ausschließen. Denn zur Erwartungstreue gen¨ ugt es laut Definition 10.1.1 nicht, wenn E(ˆ πC ) = π

(10.1.25)

lediglich f¨ ur π = 0.5 erf¨ ullt ist. Vielmehr muss Gleichung (10.1.25) f¨ ur jedes π ∈ (0, 1) gelten. Das Optimierungskriterium besteht dann bildlich ausgedr¨ uckt darin, denjenigen Sch¨atzer zu ermitteln, dessen MSE-Kurve im gesamten Parameterraum – im Beispiel ist dies das Intervall [ 0, 1] – m¨ oglichst flach verl¨auft. Tats¨achlich existiert hierzu in der mathematischen Statistik eine ausgebaute Theorie, die formal unter dem Begriff der Effizienz behandelt wird. So k¨ onnen beispielsweise unter bestimmten Annahmen gleichm¨ aßig beste erwartungstreue Sch¨ atzer bestimmt werden. Dies sind Sch¨atzer, die innerhalb der Klasse der erwartungstreuen Sch¨atzer im gesamten Parameterraum minimale Varianzen aufweisen.

10.2 Intervallsch¨atzung

469

10.2 Intervallsch¨ atzung Stochastisch betrachtet ist ein Konfidenzintervall ein Zufallsintervall, das mit einer vorgegebenen Wahrscheinlichkeit, die als Sicherheitswahrscheinlichkeit oder als Konfidenzniveau bezeichnet wird, einen zu sch¨atzenden Parameter u ¨berdeckt. H¨ aufig wird ein Konfidenzintervall auf Basis der Verteilung eines Sch¨atzers konstruiert. Dabei geht neben einem Punktsch¨ atzer insbesondere auch dessen Varianz, d.h. die Unsicherheit der Sch¨ atzung, mit ein. Regelm¨aßig ist dabei die Ad¨aquatheit der verwendeten Modellannahmen zu u ufen. ¨berpr¨

10.2.1 Was versteht man unter einem Konfidenzintervall? ¨ • Hintergrund und Uberblick • Im Alltag verwenden wir h¨aufig Intervallangaben, um unsere Unsicherheit in Bezug auf bestimmte statistische Gr¨oßen auszudr¨ ucken. Dies f¨ uhrt dann zu Aussagen wie etwa Das Durchschnittsalter der Konzertbesucher gestern ” Abend d¨ urfte irgendwo zwischen 25 und 30 Jahren gelegen haben“. Solche statistischen ” Angaben“ beruhen jedoch u ¨berwiegend auf subjektiven Einsch¨atzungen und fallen mehr oder weniger willk¨ urlich aus. In diesem Abschnitt werden wir uns mit der Konstruktion von Konfidenzintervallen befassen. Dies sind Intervalle, die anhand von Beobachtungswerten einer Stichprobe berechnet werden und mit einer spezifisch vorgegebenen Wahrscheinlichkeit einen bestimmten Parameterwert enthalten. Es geht also darum, Intervalle zu konstruieren, die eine theoretische Fundierung aufweisen und somit auch objektiv sind. Was genau ein Konfidenzintervall ist und wie ein solches konstruiert und interpretiert werden kann, wird anhand der nachfolgenden Ausf¨ uhrungen exemplarisch vorgef¨ uhrt.

• Herleitung eines Konfidenzintervalls f¨ ur µ • Seien X1 , . . . , Xn unabh¨angig N (µ, σ 2 )-verteilt, wobei σ 2 bekannt und µ unbekannt ist. Dann gilt gem¨aß (7.4.25) ¯ ∼ N (µ, σ 2 /n). X ¯ Daraus folgt Dies ist zugleich eine Aussage u ˆ = X. ¨ber die Verteilung des Sch¨atzers µ ¯ −µ X Z=p ∼ N (0, 1). σ 2 /n Das standardisierte Stichprobenmittel bzw. der standardisierte Sch¨atzer ist standardnormalverteilt. Bezeichnet zα das α-Quantil der Standardnormalverteilung f¨ ur α ∈ (0, 0.5), so gilt (Abb. 10.2.1):   ¯ −µ X 1 − α = P (zα/2 ≤ Z ≤ z1−α/2 ) = P −z1−α/2 ≤ p ≤ z1−α/2 . σ 2 /n Das standardisierte Stichprobenmittel realisiert sich zwischen dem α/2-Quantil und dem (1 − α/2)-Quantil mit Wahrscheinlichkeit 1 − α. Man beachte, dass aufgrund der Symmetrie der N (0, 1)-Verteilung das α/2-Quantil dem (1 − α/2)-Quantil mit umgekehrtem Vorzeichen entspricht.

470

10 Statistisches Sch¨atzen Abb. 10.2.1: Schwankungsverhalten des standarisierten Stichprobenmittels f Z (z )

Z ~ N (0, 1) α 2

1−α

z α 2 = − z 1−α

2

0

α 2 z 1−α

2

z

Es lassen sich nun folgende weitere Umformungen vornehmen:   ¯ −µ X 1 − α = P −z1−α/2 ≤ p ≤ z1−α/2 σ 2 /n p p  ¯ − µ ≤ z1−α/2 σ 2 /n = P −z1−α/2 σ 2 /n ≤ X p p  ¯ − z1−α/2 σ 2 /n ≤ µ ≤ X ¯ + z1−α/2 σ 2 /n . =P X Mit der letzten Gleichung erhalten wir ein wichtiges Ergebnis. Man beachte zun¨achst, dass das Stichprobenmittel eine Zufallsvariable ist. Deshalb sind p p ¯ − z1−α/2 σ 2 /n und Go = X ¯ + z1−α/2 σ 2 /n Gu = X wiederum Zufallsvariablen. Diese schließen den (unbekannten) Parameterwert µ mit einer Wahrscheinlichkeit von 1 − α ein und bilden somit die untere und obere Grenze des Intervalls p p   ¯ − z1−α/2 σ 2 /n, X ¯ + z1−α/2 σ 2 /n . X (10.2.1) Dieses stochastische Intervall u ¨berdeckt den gesuchten Parameterwert mit einer Wahrscheinlichkeit von (1 − α). Fachterminologisch bezeichnet man das Intervall dann als ein (1– α)-Konfidenzintervall und die Wahrscheinlichkeit (1−α) als Konfidenzniveau oder Sicherheitswahrscheinlichkeit. • Beispiel 10.2.1: Gep¨ ackabfertigungszeiten • Gegeben sei die Situation aus Beispiel 9.1.2. Hierbei liegen folgende 10 Beobachtungswerte einer Stichprobe (u.i.v.) vor: 7.8, 10.1, 9.0, 8.0, 11.6, 10.7, 8.1, 8.6, 9.4, 11.9. Unter der Annahme normalverteilter Abfertigungszeiten lautet die Realisation des 0.95Konfidenzintervalls dann p p   ¯ + z1−α/2 σ 2 /n . x ¯ − z1−α/2 σ 2 /n, x mit x ¯ = 9.52 und z0.975 ≈ 1.96. Sofern die Varianz bekannt ist, l¨asst sich das Intervall konkret bestimmen. Angenommen, es gelte σ 2 = 2, dann ergibt sich aus (10.2.1) das konkrete Intervall p p   9.52 − 1.96 · 2/10, 9.52 + 1.96 · 2/10 ≈ [8.64, 10.40]. Abbildung 10.2.2 illustriert die mit der Datenlage einhergehende Unsicherheit u ¨ber die Lage des Erwartungswerts bei einem Sicherheitsniveau von 95%. Man beachte, dass f¨ ur

10.2 Intervallsch¨atzung

471

µ = 9.52, σ 2 = 2 und n = 10 das Stichprobenmittel N (9.52, 0.2)-verteilt ist. Deshalb entsprechen die Grenzen 8.64 und 10.40 aufgrund der Beziehung (7.3.22), d.h. qα = µ + σzα , dem 0.025- bzw. 0.975-Quantil einer N (9.52, 0.2)-Verteilung. Man beachte, dass in (7.3.22) hierf¨ ur entsprechend µ = 9.52 und σ 2 = 0.2 zu setzen ist. Diese Sichtweise korrespondiert dann direkt mit der Darstellung von Abbildung 9.1.2. Ist die Varianz hingegen unbekannt ist, was in der Praxis der realistischere Fall ist, kann zun¨achst kein konkretes Intervall angeben werden. Die Varianz w¨are dann ebenfalls anhand der Stichprobe zu sch¨ atzen. Die Frage, ob man hierf¨ ur dann einfach die realisierte Stichprobenvarianz s2 = 1.50 als Sch¨ atzwert verwenden kann, wird sp¨ater in Abschnitt 10.2.2 gekl¨art. Abb. 10.2.2: Realisierte Konfidenzintervalle aus einer Stichprobe (n = 10) 99%

95% 6

90% 7

8

9

x

10

11

12

13

• Interpretation • Im vorhergehenden Beispiel w¨aren wir nun vermutlich geneigt zu sagen Mit einer Wahrscheinlichkeit von 95% liegt µ zwischen 8.64 und 10.40“. Im fre” quentistischen Sinne (Abschnitt 6.1.1) w¨ are eine solche Aussage jedoch nicht zul¨assig. Hierbei k¨onnen sich Wahrscheinlichkeitsaussagen immer nur auf Zufallsvorg¨ange bzw. auf das stochastische Verhalten von Zufallsvariablen beziehen, nicht aber auf bereits realisierte Zust¨ande. Im Zusammenhang mit Konfidenzintervallen bezieht sich die Wahrscheinlichkeitsaussage auf das stochastische Verhalten des Intervalls als Zufallsintervall. Liegt eine konkrete Realisation wie etwa [8.64,10.40] vor, so liegt der unbekannte Parameter entweder in diesem realisierten Intervall drin oder eben nicht. In der Regel wird man den wahren Wert des Parameters nie erfahren und damit auch die Frage nicht beantworten k¨onnen, ob das Intervall diesen nun tats¨achlich eingeschlossen hat oder nicht. Abbildung 10.2.3 illustriert ein Simulationsexperiment dazu, wie Wahrscheinlichkeiten im Zusammenhang von Konfidenzintervallen zu verstehen sind. Dabei wurden insgesamt N = 50 Stichproben vom Umfang n = 10 aus einer Normalverteilung mit Erwartungswert µ = 10 und Varianz σ 2 = 2 gezogen. F¨ ur jede Stichprobe wurde dann ein 0.95-Konfidenzintervall gem¨ aß (10.2.1) berechnet. Der wahre Parameterwert, der fiktiv als unbekannt angenommen wird, entspricht damit dem Wert 10. Die Varianz wird hingegen als bekannt angenommen. Im vorliegenden Fall war in genau 2 der 50 Stichproben die 10 nicht im realisier¨ ten Konfidenzintervall enthalten (Stichproben Nr. 35 und 46). Die empirische Uberdeckungsrate der Simulation betrug damit 96%. Mit wachsendem N , d.h. mit wachsender Anzahl von Stichproben vom Umfang n = 10, sollte die empirische Abdeckungsrate als relative H¨aufigkeit aufgrund des Satzes von Bernoulli (Satz 7.4.2) jedoch immer n¨aher an der theoretischen Wahrscheinlichkeit von 0.95 liegen.

472

10 Statistisches Sch¨atzen

Abb. 10.2.3: Realisierte Konfidenzintervalle aus 50 Stichproben bei bekannter Varianz N = 50, n = 10, µ = 10, σ2 = 2, 1 − α = 0.95

Konfidenintervall

13 12 11 10 9 8 7 0

5

10

15

20

25

N

30

35

40

45

50

Ein Konfidenzintervall ist ein Zufallsintervall, das mit einer vorgegebenen Wahrscheinlichkeit einen zu sch¨ atzenden Parameter u ¨berdeckt.

• Definition • Je nach Sch¨ atzproblem erweist sich die Herleitung eines Konfidenzintervalls als nicht immer so einfach wie im vorhergehenden Beispiel 10.2.1. Die grunds¨atzliche Vorgehensweise kann mitunter dennoch ¨ ahnlich sein. Folgende Definition f¨allt deshalb recht allgemein aus. Weitere konkrete Beispiele werden dann in den n¨achsten Abschnitten folgen. Definition 10.2.1: Konfidenzintervall Seien X1 , . . . , Xn Stichprobenvariablen und θ ein unbekannter Parameter einer zugrunde liegenden Grundgesamtheit. Dann liefern die stochastischen Intervallgrenzen Gu (X1 , . . . , Xn )

und Go (X1 , . . . , Xn )

ein (1 − α)-Konfidenzintervall f¨ ur θ, falls gilt: (i) P (Gu ≤ Go ) = 1 und (ii) P (Gu ≤ θ ≤ Go ) = 1 − α. Der Wert 1 − α wird dabei als Konfidenzniveau oder als Sicherheitswahrscheinlichkeit bezeichnet. Bedingung (i) erscheint recht selbstverst¨ andlich, da zur sinnvollen Konstruktion eines Intervalls vorausgesetzt werden muss, dass die obere Intervallgrenze auf jeden Fall nicht kleiner ist als die untere. • Grundlegende Eigenschaften von Konfidenzintervallen • Betrachten wir erneut die Situation des vorhergehenden Beispiels 10.2.1 mit den 10 konkret vorliegenden Beobachtungswerten, um einige grundlegende Eigenschaften von Konfidenzintervallen

10.2 Intervallsch¨atzung

473

zu beleuchten. Ein wichtiger Gesichtspunkt ist dabei die Intervalll¨ange. Gem¨aß (10.2.1) ist diese im vorliegenden Beispiel durch folgende Formel gegeben: p p ¯ + z1−α/2 σ 2 /n) − (X ¯ − z1−α/2 σ 2 /n) LZ = Go − Gu = (X p = 2z1−α/2 σ 2 /n. (10.2.2) Die L¨ange dieses Intervalls h¨ angt offensichtlich von α, σ 2 und n ab und wohlgemerkt nicht von der Realisation des Stichprobenmittels. Wie w¨ urde sich dieses Intervall nun ¨ andern, falls ein anderes Konfidenzniveau zugrunde gelegt w¨ urde? Bei der Bestimmung dieser Intervallgrenzen geht das Konfidenzniveau gem¨aß (10.2.1) maßgeblich nur u ¨ber das Quantil z1−α/2 ein. Dabei gilt folgender logischer Zusammenhang f¨ ur α ∈ (0, 0.5): Ein h¨oheres Konfidenzniveau 1 − α geht mit einem niedrigeren Wert von α einher. Dies impliziert wiederum einen h¨oheren Wert von 1 − α/2. Ein h¨oherer Wert von 1 − α/2 geht mit einem h¨oheren oberen Quantilswert der Standardnormalverteilung einher. Das Intervall wird deshalb l¨anger. Umgekehrt geht ein niedrigeres Konfidenzniveau mit einem k¨ urzeren Intervall einher. Die Intuition dahinter liegt auf der Hand: Ein l¨ angeres Intervall f¨ uhrt zu einer h¨oheren Sicherheit. Betrachten wir einige konkrete Rechenbeispiele. Das 0.95-Konfidenzintervall lautete [8.64, 10.4]. Bei einem h¨ oheren Konfidenzniveau von 1 − α = 0.99 erh¨alt man mit α = 0.01 und z1−α/2 = z0.995 ≈ 2.58 das l¨angere Intervall p p   9.52 − 2.58 · 2/10, 9.52 + 2.58 · 2/10 ≈ [8.37, 10.67]. Bei einem niedrigeren Konfidenzniveau von 1 − α = 0.9 erh¨alt man mit α = 0.1 und z1−α/2 = z0.95 ≈ 1.64 hingegen das k¨ urzere Intervall p p   9.52 − 1.64 · 2/10, 9.52 + 1.64 · 2/10 ≈ [8.79, 10.25]. Eine h¨ohere Streuung σ 2 in der Grundgesamtheit verl¨angert das Konfidenzintervall gem¨aß (10.2.2). Auch dies ist intuitiv nachvollziehbar. Je st¨arker die Werte innerhalb einer Grundgesamtheit streuen, desto schwieriger wird es, den Erwartungswert zu lokalisieren. Im Extremfall, wenn alle Werte gleich w¨aren, k¨onnte man anhand einer einzelnen Beobachtung bereits den Erwartungswert korrekt sch¨atzen. Mit wachsendem Stichprobenumfang wird das Konfidenzintervall gem¨aß (10.2.2) k¨ urzer, wobei eine Vervierfachung von n zu einer Halbierung der L¨ange f¨ uhrt. Auch dieser Zusammenhang sollte plausibel erscheinen. Je mehr Information u ¨ber die Grundgesamtheit vorliegt, desto genauer kann die zu sch¨atzende Gr¨oße lokalisiert werden. Die Varianz des Stichprobenmittels als Sch¨ atzer f¨ ur µ nimmt mit wachsendem n ab. ¨ • Ubertragung auf andere Konfidenzintervalle • Die anhand der Formel (10.2.2) aufgezeigten Eigenschaften gelten zun¨ achst einmal nur f¨ ur das in Beispiel 10.1.2 hergeleitete Konfidenzintervall. Im Grunde k¨ onnen diese jedoch auf s¨amtliche in der Praxis verwendeten Konfidenzintervalle im Wesentlichen“ u ¨bertragen werden, wie sich in ” nachfolgenden Abschnitten noch zeigen wird. Halten wir deshalb folgende Merkregel fest:

474

10 Statistisches Sch¨atzen

Ein Konfidenzintervall wird i.d.R. l¨ anger, falls (i) die Sicherheitswahrscheinlichkeit zunimmt, (ii) die Streuung in der Grundgesamtheit zunimmt, (iii) der Stichprobenumfang abnimmt.

• Fazit • Die Kunst der Konfidenzsch¨ atzung besteht aufgrund des Zusammenhangs zwischen Sicherheitswahrscheinlichkeit und Intervalll¨ange darin, m¨oglichst kurze Intervalle mit m¨oglichst hoher Sicherheitswahrscheinlichkeit zu konstruieren. Allein die Erzielung einer hohen Sicherheitswahrscheinlichkeit stellt indes keine Schwierigkeit dar, da eine solche stets durch entsprechende Verl¨ angerung des Intervalls erreicht werden kann. ¨ Allzu lange Konfidenzintervalle verlieren jedoch ihre N¨ utzlichkeit. Ahnlich wie bereits bei der Effizienzbetrachtung von Sch¨ atzern (Abschnitt 10.1.5) existiert auch hierzu in der mathematischen Statistik eine ausgebaute Theorie zur optimalen Konstruktion von Konfidenzintervallen.

10.2.2 Konfidenzintervalle fu ¨ r Erwartungswerte ¨ • Modellrahmen und Uberblick • Ausgehend von unabh¨angig und identisch verteilten Stichprobenvariablen X1 , . . . , Xn mit Erwartungswert µ und Varianz σ 2 k¨onnen unter verschiedenen Ausgangsbedingungen Konfidenzintervalle f¨ ur µ konstruiert werden. Die in den folgenden Punkten vorgestellten Konfidenzintervalle ber¨ ucksichtigten Situationen, in denen X1 , . . . , Xn (i) normalverteilt sind mit bekannter Varianz, (ii) normalverteilt sind mit unbekannter Varianz, (iii) einer beliebigen Ausgangsverteilung gen¨ ugen.

• Sch¨ atzung von µ bei Normalverteilung und bekannter Varianz • Sind X1 , . . . , Xn unabh¨ angig N (µ, σ 2 )-verteilt mit bekannter Varianz, so liegt eine Situation wie in Beispiel 10.2.1 vor. Ein geeignetes Konfidenzintervall ist in diesem Fall durch Formel (10.2.1) gegeben. Diese Situation wurde bereits ausf¨ uhrlich im vorhergehenden Abschnitt besprochen. • Sch¨ atzung von µ bei Normalverteilung und unbekannter Varianz • In den meisten Anwendungen ist die theoretische Varianz der Grundgesamtheit unbekannt und muss anhand der Stichprobe gesch¨ atzt werden. Ein naheliegender Sch¨atzer f¨ ur σ 2 ist die korrigierte Stichprobenvarianz, d.h. n 1 X ¯ 2. (Xi − X) σ ˆ2 = S2 = n − 1 i=1

10.2 Intervallsch¨atzung

475

Dieser liefert gem¨aß den Erkenntnissen aus Abschnitt 10.1 (Satz 10.1.1 und 10.1.4) eine erwartungstreue und konsistente Sch¨ atzung. Die Frage, die sich stellt, ist, ob Formel (10.2.1) dann einfach zu p p   ¯ − z1−α/2 S 2 /n, X ¯ + z1−α/2 S 2 /n . X (10.2.3) umfunktioniert werden kann. Die Antwort darauf lautet: in großen Stichproben zumindest approximativ, in kleinen Stichproben jedoch nicht. Ausgangspunkt zur Herleitung der Formel (10.2.1) war die Statistik ¯ −µ X Z=p ∼ N (0, 1), (10.2.4) σ 2 /n die unter den gegebenen Umst¨ anden N (0, 1)-verteilt ist. Verschiedene Umformungsschritte f¨ uhrten dann zur Formel (10.2.1). Das Problem besteht nun darin, dass Z in (10.2.4) nicht mehr N (0, 1)-verteilt ist, sofern σ 2 durch S 2 ersetzt wird. Es w¨are freilich auch erstaunlich, wenn diese Ersetzung keinerlei Auswirkungen auf die Verteilung h¨atte. Aus diesem Grund ist aber auch Formel (10.2.1) nicht mehr ohne Weiteres g¨ ultig. Vielmehr l¨asst sich zeigen, dass ¯ −µ X ∼ t(n − 1) (10.2.5) T := p S 2 /n gilt. Die Statistik T gen¨ ugt einer t-Verteilung mit n − 1 Freiheitsgraden, kurz t(n − 1)Verteilung, wobei n dem Stichprobenumfang entspricht. N¨ahere Details zur t-Verteilung finden sich in Abschnitt 8.1.2. Die t-Verteilung konvergiert f¨ ur wachsendes n gegen die N (0, 1)-Verteilung. Daher k¨ onnen anstelle der t-Quantile auch die Quantile der N (0, 1)Verteilung verwendet werden, falls n gen¨ ugend groß“ ist. Diese Konvergenz ergibt ” sich daraus, dass sich die Verteilungen der beiden Statistiken (10.2.4) und (10.2.5) f¨ ur wachsendes n angleichen, weil S 2 stochastisch gegen σ 2 konvergiert (siehe hierzu nachfolgender Punkt Konfidenzintervall bei unbekannter Ausgangsverteilung“). ” Die Herleitung eines Konfidenzintervalls aus der Verteilung der T -Statistik (10.2.5) erfolgt v¨ollig analog wie in Beispiel 10.2.1 bei bekannter Varianz. An die Stelle der Quantile einer Standardnormalverteilung treten nun die Quantile einer t(n − 1)-Verteilung. Bezeichnet tn−1,α das α-Quantil einer t(n − 1)-Verteilung f¨ ur α ∈ (0, 0.5), so gilt (vgl. Abb. 10.2.4): 1 − α = P (tn−1,α/2 ≤ T ≤ tn−1,1−α/2 )   ¯ −µ X = P −tn−1,1−α/2 ≤ p ≤ tn−1,1−α/2 S 2 /n p p  ¯ − tn−1,1−α/2 S 2 /n ≤ µ ≤ X ¯ + tn−1,1−α/2 S 2 /n . =P X Daraus resultiert als (1 − α)-Konfidenzintervall schließlich p p   ¯ − tn−1,1−α/2 S 2 /n, X ¯ + tn−1,1−α/2 S 2 /n . X

Die L¨ange des Konfidenzintervalls (10.2.6) ist gegeben durch p LT = 2tn−1,1−α/2 S 2 /n.

(10.2.6)

(10.2.7)

476

10 Statistisches Sch¨atzen Abb. 10.2.4: Schwankungsverhalten der T -Statistik f¨ ur n = 10

f T (t )

T ~ t (9) 1−α

α 2 t 9, α 2 = − t 9, 1−α

2

α 2

0

t 9, 1−α

2

t

Im Unterschied zu (10.2.2) ist die L¨ ange nun stochastisch, da S 2 eine Zufallsvariable ist. Je nach Stichprobenergebnis, kann die L¨ ange des Intervalls unterschiedlich ausfallen. Abbildung 10.2.5 illustriert die mit bestimmten Datenlagen einhergehende Unsicherheit, falls die Varianz unbekannt ist und gesch¨atzt werden muss. Die gesch¨atzten Standardabweichungen sowie die Stichprobenumf¨ange sind jeweils mit angegeben. Wie man sieht, werden die Konfidenzintervalle bei gleichem Stichprobenumfang l¨anger, falls die Streuung in der Stichprobe gr¨ oßer ist. Bei gleichem Konfidenzniveau sind die Intervalle in den vorliegenden F¨ allen f¨ ur n = 30 uneingeschr¨ankt k¨ urzer als diejenigen f¨ ur n = 10, auch wenn f¨ ur n = 30 die Standardabweichung gr¨oßer ist als f¨ ur n = 10 (1.47 zu 0.99). Allerdings u ¨berkompensiert der gr¨oßere Stichprobenumfang den Effekt der gr¨oßeren Standardabweichung. Abb. 10.2.5: Konfidenzintervalle f¨ ur µ bei unbekannter Varianz (n = 10 und n = 30) s X = 1.63 n = 10

5

s X = 0.99 n = 10

5

s X = 1.47 n = 30

5

s X = 1.28 n = 30

5

6

7

8

9

10

11

12

13

6

7

8

9

10

11

12

6

7

8

9

10

11

6

7

8

9

10

11

99% 90%95% 14

15

13

14

15

12

13

14

15

12

13

14

15

Abbildung 10.2.6 illustriert eine Simulation mit insgesamt N = 50 Stichproben vom Umfang n = 10 aus einer Normalverteilung mit Erwartungswert µ = 10 und Varianz σ 2 = 2, wobei die theoretische Varianz nun anhand der Stichprobenvarianz gesch¨atzt wurde. F¨ ur jede Stichprobe wurde ein 0.95-Konfidenzintervall gem¨aß (10.2.6) berechnet. Die empirische Abdeckungsrate des fiktiv unbekannten Parameterwerts µ = 10 betr¨agt hier 0.92, da in genau 4 der 50 Stichproben die 10 nicht im realisierten Konfidenzintervall enthalten ist. Mit wachsendem N sollte diese sich jedoch der theoretischen Wahrscheinlichkeit von 0.95 ann¨ ahern.

10.2 Intervallsch¨atzung

477

Abb. 10.2.6: Realisierte Konfidenzintervalle aus 50 Stichproben bei unbekannter Varianz N = 50, n = 10, µ = 10, σ2 = 2, 1 − α = 0.95

Konfidenintervall

13 12 11 10 9 8 7 0

5

10

15

20

25

N

30

35

40

45

50

Auch wenn das 0.975-Quantil der t(9)-Verteilung mit t9,0.975 ≈ 2.26 an sich gr¨ oßer als dasjenige der N (0, 1)-Verteilung mit z0.975 ≈ 1.96 ist, l¨asst sich daraus nicht grunds¨atzlich schließen, dass 0.95-Konfidenzintervalle bei unbekannter Varianz l¨anger sind als bei bekannter Varianz (Abb. 10.2.3). Es kann jedoch gezeigt werden, dass der Erwartungswert der L¨ ange gr¨ oßer ist als bei bekannter Varianz. So gilt f¨ ur gleiches Konfidenzniveau und gleichen Stichprobenumfang n ≥ 2 stets: E(LT ) ≥ E(LZ ), wobei LZ und LT den Ausdr¨ ucken (10.2.2) und (10.2.7) entsprechen. Durchschnittlich betrachtet f¨ uhrt das Weniger an Information folglich zu einem l¨angeren Intervall. • Sch¨ atzung von µ bei beliebiger Ausgangsverteilung • In vielen F¨allen erscheint es unrealistisch, von normalverteilten Stichprobenvariablen auszugehen, da bestimmte Merkmale schief oder multimodal verteilt sind oder verteilt sein k¨onnen. Wie lassen sich in solchen Situationen dann wohlbegr¨ undete Konfidenzintervalle konstruieren? Zum ” Gl¨ uck“ gibt es f¨ ur solche F¨ alle eine einfache L¨ osung, sofern der Stichprobenumfang nur gen¨ ugend groß ist. Sind X1 , . . . , Xn u.i.v. mit Erwartungswert µ und Varianz 0 < σ 2 < ∞, so gilt gem¨aß ZGWS (7.4.32) f¨ ur großes n ¯ X −µ a p ∼ N (0, 1). (10.2.8) σ 2 /n Das standardisierte Stichprobenmittel ist f¨ ur großes n approximativ N (0, 1)-verteilt. Unter Verwendung dieses Sachverhalts kann zun¨achst mit der gleichen Vorgehensweise wie in Beispiel 10.2.1 bei Vorliegen einer Normalverteilung und bekannter Varianz ein zu (10.2.1) identisches Konfidenzintervall f¨ ur µ konstruiert werden. Allerdings handelt es sich dann nur noch um ein approximatives Konfidenzintervall. Dies bedeutet, dass das vorgegebene Niveau 1 − α aufgrund der Approximation (10.2.8) nicht exakt eingehalten wird. Je gr¨oßer n jedoch ist, desto genauer wird diese Approximation sein. Im Falle, dass die Varianz unbekannt ist, wird diese durch die Stichprobenvarianz gesch¨atzt. Gem¨aß Beispiel 10.1.8 liefert diese eine konsistente Sch¨atzung, d.h. unter den

478

10 Statistisches Sch¨atzen

obigen Annahmen gilt: p p S 2 −−→ σ 2 bzw. S˜2 −−→ σ 2 .

(10.2.9)

Aufgrund des Stetigkeitssatzes (Satz 8.2.3) impliziert dies f¨ ur die korrespondierenden Stichprobenstandardabweichungen p p S −−→ σ bzw. S˜ −−→ σ. (10.2.10) Deshalb gilt f¨ ur großes n ebenfalls ¯ −µ a ¯ −µ a X X p ∼ N (0, 1) bzw. q ∼ N (0, 1). 2 S /n S˜2 /n

(10.2.11)

Um die G¨ ultigkeit von (10.2.11) nachzuweisen, nutzen wir Slutsky’s Theorem (Satz 8.2.5). Unter Verwendung der Notation aus Satz 8.2.5 setzen wir daf¨ ur zun¨achst ¯n − µ a X Yn = p ∼ N (0, 1), An = 0 und Bn = σ. σ 2 /n Daraus erhalten wir gem¨ aß (8.2.6) das asymptotische Verteilungsresultat √ a ¯ n − µ) ∼ An + Bn Yn = n(X N (0, σ 2 ).

(10.2.12)

Anschließend dividieren wir (10.2.12) durch die korrigierte bzw. nichtkorrigierte Stichprobenstandardabweichung und erhalten gem¨aß (8.2.8) das nachzuweisende Resultat (10.2.11). Das approximative (1 − α)-Konfidenzintervall lautet somit p p   ¯ + z1−α/2 S 2 /n bzw. ¯ − z1−α/2 S 2 /n, X (10.2.13) X q q   ¯ − z1−α/2 S˜2 /n, X ¯ + z1−α/2 S˜2 /n . X (10.2.14) Die Wahl zwischen (10.2.13) oder (10.2.14) ist im Prinzip unerheblich, da beide Intervalle auf asymptotischer Theorie basieren. • Notwendiger Stichprobenumfang zur Erzielung bestimmter Intervalll¨ angen • Die L¨ ange des Konfidenzintervalls f¨ ur µ ist bei bekannter Varianz durch Formel (10.2.2) gegeben. Den Umstand, dass diese L¨ange nichtstochastischer Natur ist und bereits vor Realisation der Stichprobe feststeht, kann man sich zunutze machen, um f¨ ur eine vorgegebene L¨ ange LZ den daf¨ ur erforderlichen Stichprobenumfang zu bestimmen. Dazu wird (10.2.2) entsprechend nach n aufgel¨ost. Dies ergibt: n = (2z1−α/2 · σ/LZ )2 .

(10.2.15)

Bei unbekannter Varianz ist die Intervalll¨ ange LT in (10.2.7) hingegen stochastisch und eine derart einfache Formel wie (10.2.15) nicht nutzbar. Jedoch k¨onnte man hier in einer Art Vorstichprobe mit relativ kleinem Stichprobenumfang eine erste Sch¨atzung f¨ ur σ 2 erhalten, um dann Formel (10.2.15) nutzend eine Absch¨atzung f¨ ur einen notwendigen Stichprobenumfang zu gewinnen. Ebenso kann eine erste Absch¨atzung von σ 2 auch auf vorhergehenden Studien oder lediglich fachlichen Plausibilit¨ats¨ uberlegungen ohne jede Datengrundlage basieren. Bei einer solchen zweistufigen Vorgehensweise kann die exakte Einhaltung einer vorgegebenen L¨ ange allerdings nicht mehr garantiert werden.

10.2 Intervallsch¨atzung

479

• Zusammenfassung von Resultaten • Fassen wir die verschiedenen F¨alle dieses Abschnitts formal zusammen. Satz 10.2.1: Konfidenzintervalle f¨ ur Erwartungswerte Seien X1 , . . . , Xn unabh¨ angig und identisch verteilt mit Erwartungswert µ und Varianz ur µ, falls 0 < σ 2 < ∞. Dann ist ein (1 − α)-Konfidenzintervall f¨ (i) X1 , . . . , Xn normalverteilt sind mit bekannter Varianz, gegeben durch p p   ¯ − z1−α/2 σ 2 /n, X ¯ + z1−α/2 σ 2 /n , X (ii) X1 , . . . , Xn normalverteilt sind mit unbekannter Varianz, gegeben durch p p   ¯ − tn−1,1−α/2 S 2 /n, X ¯ + tn−1,1−α/2 S 2 /n , X (iii) n groß ist und die Varianz bekannt ist, gegeben durch p p   ¯ − z1−α/2 σ 2 /n, X ¯ + z1−α/2 σ 2 /n , X (iv) n groß ist und die Varianz unbekannt ist, gegeben durch q q   ¯ − z1−α/2 S˜2 /n, X ¯ + z1−α/2 S˜2 /n . X In den F¨allen (iii) und (iv) handelt es sich um approximative Konfidenintervalle f¨ ur n ≥ 30. In (iv) kann sowohl die nichtkorrigierte als auch die korrigierte Stichprobenvarianz verwendet werden. • Allgemeine Merkregel via Standardfehler • Da das Stichprobenmittel ein Sch¨atzer f¨ ur µ ist, spezifizieren die Verteilungsresultate (10.2.4) bzw. (10.2.8) zugleich auch die exakte bzw. approximative Verteilung des Sch¨atzers bei normalverteilten bzw. ¯ auch beliebig verteilten Stichprobenvariablen. Entsprechend k¨onnen wir f¨ ur µ ˆ = X notieren: µ ˆ ∼ N (µ, σ 2 /n)

bzw.

µ ˆ

approx



N (µ, σ 2 /n).

Die Varianz von µ ˆ bezeichnen wir mit σµ2ˆ . Dann ist σµ2ˆ = V ar(ˆ µ) = σ 2 /n. Alternativ k¨onnen wir damit schreiben: µ ˆ ∼ N (µ, σµ2ˆ )

bzw.

µ ˆ

approx



N (µ, σµ2ˆ ).

Die Varianz des Sch¨ atzers spiegelt die mit der Sch¨atzung einhergehende Unsicherheit wider und ist entweder bekannt oder unbekannt. In letzterem Fall kann diese etwa durch q σ ˆµ2ˆ = S 2 /n, wobei σ ˆµˆ = σ ˆµ2ˆ sei, gesch¨atzt werden. Die zugeh¨ orige bekannte bzw. gesch¨atzte Standardabweichung, σµˆ bzw. σ ˆµˆ , wird auch als Standardfehler bezeichnet. Die in Satz 10.2.1 aufgestellten Konfidenzintervalle lassen sich nun auch alternativ formulieren als     µ ˆ − q1−α/2 · σµˆ , µ ˆ + q1−α/2 · σµˆ bzw. µ ˆ − q1−α/2 · σ ˆµˆ , µ ˆ + q1−α/2 · σ ˆµˆ ,

480

10 Statistisches Sch¨atzen

wobei q1−α/2 ein jeweils geeignetes Quantil ist. Rein verbal ausgedr¨ uckt, impliziert dies dann als allgemeine Merkregel zur Konstruktion der Konfidenzintervalle: Sch¨ atzwert ± Quantil · (gesch¨atzter) Standardfehler

• Beispiel 10.2.2: Gep¨ ackabfertigungszeiten • Wir betrachten zun¨achst die gleiche Situation wie in Beispiel 10.2.1 mit n = 10 Beobachtungswerten. Unter der Annahme einer Normalverteilung und einer bekannten Varianz von σ 2 = 2 ergab sich als 0.95Konfidenzintervall f¨ ur µ p p   9.52 − 1.96 · 2/10, 9.52 + 1.96 · 2/10 ≈ [8.64, 10.40]. Ist die Varianz hingegen unbekannt, m¨ ussen wir diese durch die korrigierte Stichprobenvarianz sch¨atzen. Im vorliegenden Fall erhalten wir daf¨ ur als Sch¨atzwert σ ˆ 2 = s2 = 1.50. Mit t9,0.975 ≈ 2.26 (vgl. Tab. A.2) resultiert daraus mit p p   9.52 − 2.26 · 1.5/10, 9.52 + 2.26 · 1.5/10 ≈ [8.64, 10.40] fast genau das gleiche Intervall (gleich bis zur 2. Nachkommastelle). Der kleinere Wert der gesch¨atzten Varianz wird durch das gr¨ oßere Quantil gerade wieder kompensiert. Dennoch beachte man, dass bei einer gesch¨ atzten Varianz von genau 2 das Intervall l¨anger w¨are. Jedenfalls sollte die langfristige durchschnittliche Abfertigungszeit bei einem Niveau von 95% irgendwo zwischen 8.64 und 10.4 Minuten liegen. Soll das 0.95-Konfidenzintervall bei einer als bekannt angenommenen Varianz von σ 2 = 1.5 die L¨ange LZ = 1 aufweisen, was einer ±0.5 Minuten genauen Sch¨atzung gleichkommt, so erh¨ alt man gem¨ aß (10.2.15) als erforderlichen Stichprobenumfang √ √ 2 2 n = 2z0.975 1.5/1 ≈ 2 · 1.96 1.5/1 ≈ 23.04. onnte man als erforderlichen Umfang beispielsweise die Da n ganzzahlig sein muss, k¨ n¨achstgr¨oßere ganze Zahl 24 w¨ ahlen. Gem¨ aß (10.2.2) w¨are damit die tats¨achliche L¨ange mit 0.98 dann geringf¨ ugig k¨ urzer. Allerdings setzt dieser Ansatz voraus, dass die Varianz der Abfertigungszeiten mit 1.5 Minuten auch tats¨achlich korrekt ist. Beruht der Wert σ 2 = 1.5 beispielsweise nur auf einer Sch¨ atzung aus einer relativ kleinen Vorstichprobe (n < 30), so ist es ad¨ aquater, im Rahmen der eigentlichen Hauptstichprobe vom Umfang n = 24 die Varianz erneut zu sch¨ atzen und ein Konfidenzintervall gem¨aß Fall (ii) statt (i) von Satz 10.2.1 zu konstruieren. Dieses k¨ onnte am Ende dann freilich auch l¨anger als 1 sein.

10.2.3 Konfidenzintervalle fu ¨ r Erwartungswertdifferenzen ¨ • Hintergrund, Modellrahmen und Uberblick • Zu den wichtigsten Zielen empirischer Studien z¨ ahlt die Untersuchung kausaler Abh¨angigkeiten. In diesem Zusammenhang werden h¨ aufig gewisse Gruppenvergleiche durchgef¨ uhrt, die sich u ¨ber Differenzbetrachtungen von Erwartungswerten unterschiedlicher Verteilungen statistisch modellieren lassen. Teils lassen sich solche theoretischen Differenzen dann als kausale Effekte interpretieren. Man beachte hierzu etwa Beispiel 9.1.3 (Pflanzenexperiment).

10.2 Intervallsch¨atzung

481

Die Herleitung wohlbegr¨ undeter Konfidenzintervalle f¨ ur Erwartungswertdifferenzen vollzieht sich in nahezu analoger Weise wie im vorhergehenden Abschnitt f¨ ur Erwartungswerte. In Anlehnung an die Notation von Beispiel 9.1.3 gehen wir im Folgenden von insgesamt n0 + n1 Stichprobenvariablen aus, die wir gem¨aß einer nicht zwingend balancierten (gleichgewichtigen) Gruppierung mit Y01 , Y02 , . . . , Y0n0 bzw. Y11 , Y12 , . . . , Y1n1 notieren. Die Stichprobenvariablen sind innerhalb der Gruppen jeweils identisch verteilt mit E(Y0i ) = µ0 , V ar(Y0i ) = σ02 mit 0 < σ02 < ∞ f¨ ur i = 1, ..., n0 , E(Y1i ) = µ1 , V ar(Y1i ) = σ12 mit 0 < σ12 < ∞ f¨ ur i = 1, ..., n1 . Die in den folgenden Punkten vorgestellten Konfidenzintervalle f¨ ur die Gr¨oße µ1 − µ0 ber¨ ucksichtigen Situationen, in denen Y01 , Y02 , . . . , Y0n0 , Y11 , Y12 , . . . , Y1n1 (i) normalverteilt sind mit bekannten Varianzen, (ii) normalverteilt sind mit unbekannten Varianzen, (iii) beliebigen Ausgangsverteilungen gen¨ ugen, (iv) abh¨angig sind in Form verbundener Werte. • Sch¨ atzung von µ1 − µ0 bei Normalverteilung und bekannten Varianzen • Sind alle Stichprobenvariablen unabh¨ angig und normalverteilt, d.h. gilt Y0i ∼ N (µ0 , σ02 ) und Y1i ∼ N (µ1 , σ12 ), so folgt daraus f¨ ur die jeweiligen Stichprobenmittel zun¨achst einmal ¯ Y0 ∼ N (µ0 , σ02 /n0 ) und Y¯1 ∼ N (µ1 , σ12 /n1 ). Da die beiden Stichprobenmittel gem¨ aß Satz 8.3.1 (i) unabh¨angig sind, folgt aus Resultat (7.4.21) (w¨ahle n = 2, c0 = 0, c1 = 1 und c2 = −1) f¨ ur die Mittelwertdifferenz  2 2 σ σ Y¯1 − Y¯0 ∼ N µ1 − µ0 , 0 + 1 . (10.2.16) n0 n1 Analog zur Herleitung des Konfidenzintervalls f¨ ur µ in Beispiel 10.2.1 l¨asst sich nun ein solches f¨ ur µ1 −µ0 herleiten. Dazu betrachtet man zun¨achst die standardisierte Differenz Y¯1 − Y¯0 − (µ1 − µ0 ) ∼ N (0, 1), (10.2.17) ZD := p 2 σ0 /n0 + σ12 /n1 welche standardnormalverteilt ist. Ausgehend von (10.2.17) erh¨alt man dann nach einigen Umformungen aus dem Ansatz 1 − α = P (−z1−α/2 ≤ ZD ≤ z1−α/2 ): s s  2 2 σ σ2  σ σ02 0 1 1 − α = P Y¯1 − Y¯0 − z1−α/2 + ≤ µ1 − µ0 ≤ Y¯1 − Y¯0 + z1−α/2 + 1 . n0 n1 n0 n1 Daraus resultiert als (1 − α)-Konfidenzintervall f¨ ur µ1 − µ0 : s s h 2 2 σ σ σ02 σ2 i 0 Y¯1 − Y¯0 − z1−α/2 + 1 , Y¯1 − Y¯0 + z1−α/2 + 1 n0 n1 n0 n1

(10.2.18)

482

10 Statistisches Sch¨atzen

Man beachte, dass die Stichprobendifferenz Y¯1 − Y¯0 f¨ ur wachsendes n0 und n1 eine konsistente Sch¨atzung f¨ ur die theoretische Differenz µ1 − µ0 liefert. Dies ergibt sich aus dem gew¨ohnlichen GGZ f¨ ur jedes einzelne Stichprobenmittel und dem multivariaten Stetigkeitssatz, angewendet auf deren Differenz. Zugleich entspricht (10.2.16) der Verteilung des Sch¨ atzers der unbekannten Erwartungswertdifferenz, aus welcher das Konfidenzintervall abgeleitet wird. Abb. 10.2.7: Stichprobe bei homoskedastischer und heteroskedastischer Varianz n 0 Mal + n 1 Mal Ziehen

n 0 Mal + n 1 Mal Ziehen Y 01,Y 02,, ..., ..., Y 0n u. i. v. Y 11,Y 12,, ..., ..., Y 1n u. i. v.

N (µ0, σ2) N (µ1, σ2)

N (µ0, σ20) N (µ1, σ21)

• Sch¨ atzung von µ1 − µ0 bei Normalverteilung und unbekannten Varianzen • Sind alle Stichprobenvariablen unabh¨ angig normalverteilt, die Varianzen jedoch unbekannt (was dem realistischeren Fall in der Praxis entspricht), so k¨onnen diese durch die korrespondierenden Stichprobenvarianzen n0 n1 1 X 1 X 2 2 2 ¯ ˜ ˜ (Y0i − Y0 ) und S1 = (Y1i − Y¯1 )2 S0 = n0 i=1 n1 i=1 erwartungstreu und konsistent gesch¨ atzt werden. Das (große) Problem besteht nun allerdings darin, dass die zun¨ achst naheliegend erscheinende Statistik Y¯1 − Y¯0 − (µ1 − µ0 ) TD := q (10.2.19) S˜02 /n0 + S˜12 /n1 keiner einfach zu spezifizierenden Verteilung gen¨ ugt. Lediglich f¨ ur großes n0 und n1 kann man hier den ZGWS bem¨ uhen (siehe sp¨ aterer Punkt). Auch gen¨ ugt die Statistik TD nicht etwa einer t-Verteilung wie die Statistik T in Formel (10.2.5). Eine einfache L¨ osung f¨ ur dieses Problem gibt es nur, falls die beiden Gruppenvarianzen gleich sind (homoskedastische Varianz), d.h. f¨ ur σ02 = σ12 . F¨ ur diesen Fall l¨asst sich dann folgendes Resultat zeigen: Y¯1 − Y¯0 − (µ1 − µ0 ) T˜D := q ∼ t(n0 + n1 − 2), Sp2 /n0 + Sp2 /n1

(10.2.20)

wobei Sp2 =

n0 n1 X  X 1 (Y0i − Y¯0 )2 + (Y1i − Y¯1 )2 n0 + n1 − 2 i=1 i=1

1 (n0 S˜02 + n1 S˜12 ) n0 + n1 − 2 ein erwartungstreuer (und konsistenter) Sch¨ atzer f¨ ur die mit σ 2 notierte einheitliche 2 2 2 Gruppenvarianz ist, d.h. f¨ ur σ = σ0 = σ1 . Dieser Sch¨atzer kombiniert die beiden =

10.2 Intervallsch¨atzung

483

Gruppenvarianzen anteilig nach den jeweiligen Gruppengr¨oßen zu einer einheitlichen ( gepoolten“) Sch¨ atzung. Die Statistik T˜D gen¨ ugt dann einer t(n0 + n1 − 2)-Verteilung ” gen¨ ugt. Ausgehend von (10.2.20) erh¨ alt man dann nach einigen Umformungen 1 − α = P (−tn0 +n1 −2,1−α/2 ≤ T˜D ≤ tn0 +n1 −2,1−α/2 ) = . . . s  Sp2 Sp2 = P Y¯1 − Y¯0 − tn0 +n1 −2,1−α/2 + ≤ µ1 − µ0 n0 n1 s Sp2 Sp2  + , ≤ Y¯1 − Y¯0 + tn0 +n1 −2,1−α/2 n0 n1 woraus sich das (1 − α)-Konfidenzintervall f¨ ur µ1 − µ0 ergibt: s s h Sp2 Sp2 Sp2 Sp2 i + , Y¯1 − Y¯0 + tn0 +n1 −2,1− α2 + . Y¯1 − Y¯0 − tn0 +n1 −2,1− α2 n0 n1 n0 n1

(10.2.21)

• Sch¨ atzung von µ − µ bei beliebigen Ausgangsverteilungen • Liegen keine Normalverteilungen vor und sind die Varianzen unbekannt und m¨oglicherweise noch verschieden (heteroskedastische Varianz ), so gilt f¨ ur großes n0 und n1 :  2 2 σ σ approx Y¯1 − Y¯0 ∼ N µ1 − µ0 , 0 + 1 . (10.2.22) n0 n1 Dies l¨asst sich mithilfe des ZGWS f¨ ur u.h.v. Zufallsvariablen (Satz 8.2.2) begr¨ unden. Um dies im Einzelnen zu sehen, schreiben wir die Mittelwertdifferenz zun¨achst wie folgt um: n1 n0 n1 n0 i X 1 X 1 hX n n 1 X Y1i − Y1i = Y1i − Y0i (10.2.23) Y¯1 − Y¯0 = n1 i=1 n0 i=1 n i=1 n1 n i=1 0 Dabei entspricht n = n0 + n1 der Gesamtanzahl aller involvierten Zufallsvariablen. Der letzte Ausdruck von (10.2.23) l¨ asst sich nun dahingehend deuten, dass die Mittelwertdifferenz dem Stichprobenmittel aus n unabh¨ angigen, heterogen verteilten Stichprobenvariablen entspricht. Konkret handelt es sich dabei um die Variablen n n n n n n Y11 , Y12 , . . . , Y1n1 , Y01 , Y02 , . . . , Y0n0 , n1 n1 n1 n0 n0 n0 wobei die ersten n1 und die letzten n0 Variablen jeweils identisch verteilt sind. Dabei gilt: n  n  n2 n ur i = 1, . . . , n1 bzw. E Y1i = µ1 und V ar Y1i = 2 σ12 f¨ n1 n1 n1 n1 n  n  n2 n E Y0i = µ0 und V ar Y0i = 2 σ02 f¨ ur i = 1, . . . , n0 . n0 n0 n0 n0 Unter Verwendung der Notation f¨ ur u.h.v.-Zufallsvariablen folgt daraus f¨ ur das theoretische Mittel und die theoretische Varianz des Stichprobenmittels obiger n Variablen: 1 n n  µ ¯n = n1 µ1 − n0 µ0 = µ1 − µ0 bzw. (10.2.24) n n1 n0

484

10 Statistisches Sch¨atzen

1  n2 n2  n 2 n 2 n1 2 µ1 + n0 2 µ0 = σ + σ . (10.2.25) n n1 n0 n1 1 n0 0 Damit ist das zweite Konvergenzkriterium von Satz 8.2.2 allerdings noch nicht zwingend erf¨ ullt. Wir treffen deshalb die zus¨ atzliche Konvergenzannahme n1 n→∞ n0 n→∞ −−−−−→ π > 0 und −−−−−→ 1 − π > 0. (10.2.26) n n Mit der Annahme, dass die relativen Anteile gegen feste, von Null verschiedene Werte konvergieren, folgt σ ¯n2 =

σ12 σ02 + > 0. (10.2.27) π 1−π ugt nicht, wenn n0 und n1 nur absolut jeweils hinreichend groß sind, vielmehr Es gen¨ ¨ muss dies auch relativ gelten. Uber Resultat (8.2.1) von Satz 8.2.2 erh¨alt man dann mit der zus¨atzlich getroffenen Annahme (B) aus Definition 8.2.1 Y¯1 − Y¯0 − (µ1 − µ0 ) Y¯1 − Y¯0 − µ ¯n a p p ∼ N (0, 1). (10.2.28) = 2 2 2 σ ¯n /n σ0 /n0 + σ1 /n1 n→∞

σ ¯n2 −−−−−→

Damit ist auch Resultat (10.2.22) nachgewiesen. Weiter ergibt sich aus (10.2.27) und (10.2.28) (vgl. Beispiel 8.2.5) das asymptotische Verteilungsresultat  a  √ σ2 σ2  n Y¯1 − Y¯0 − (µ1 − µ0 ) ∼ N 0, 0 + 1 . (10.2.29) 1−π π Mit der stochastischen Konvergenz von p p S˜2 −−→ σ 2 und S˜2 −−→ σ 2 , 0

0

1

1

den Konvergenzannahmen (10.2.26) und dem Stetigkeitssatz gilt außerdem s s nS˜02 σ02 σ2 nS˜12 p −−→ + 1. + n0 n1 1−π π

(10.2.30)

Dividieren wir nun die Statistik (10.2.29) durch den stochastischen Ausdruck auf der linken Seite von (10.2.30), d.h. durch die gesch¨atzte Standardabweichung der Mittelwertdifferenz, erhalten wir mittels Slutsky’s Theorem schließlich Y¯1 − Y¯0 − (µ1 − µ0 ) a ∼ N (0, 1). (10.2.31) TD = q S˜02 /n0 + S˜12 /n1 Dies impliziert f¨ ur µ1 − µ0 das approximative (1 − α)-Konfidenzintervall s s h ˜2 ˜2 S S S˜02 S˜2 i 0 Y¯1 − Y¯0 − z1−α/2 + 1 , Y¯1 − Y¯0 + z1−α/2 + 1 . n0 n1 n0 n1

(10.2.32)

Man beachte, dass anstelle der nichtkorrigierten Stichprobenvarianzen ohne Weiteres auch die korrigierten Varianten verwendet werden k¨onnen. • Sch¨ atzung von µ1 −µ0 bei Abh¨ angigkeit in Form verbundener Werte • Angenommen, eine weltweit operierende Schnellrestaurant-Kette betreibt eine groß angelegte ¨ Werbekampagne. Zur Uberpr¨ ufung der Wirksamkeit der Kampagne werden stichprobenartig einige Filialen ausgew¨ ahlt und deren w¨ochentliche Ums¨atze sowohl vor als auch

10.2 Intervallsch¨atzung

485

nach der Werbekampagne ermittelt. Wie l¨ asst sich nun eine Intervallsch¨atzung f¨ ur den Werbeeffekt konstruieren? In diesem Fall muss beachtet werden, dass die Ums¨atze vor bzw. nach der Werbekampagne f¨ ur die jeweils gleichen Filialen betrachtet werden. Bezeichnen wir den Umsatz einer zuf¨ allig ausgew¨ ahlten Filiale vor und nach der Werbekampagne mit Y0 bzw. Y1 , so erhalten wir f¨ ur n zuf¨ allig ausgew¨ahlte Filialen unabh¨angige und identisch wie Y0 verteilte Zufallsvariablen Y01 , Y02 , . . . , Y0n und unabh¨angige und identisch wie Y1 verteilte Zufallsvariablen Y11 , Y12 , . . . , Y1n . Allerdings sind die Zufallsvariablen Y01 , Y02 , . . . , Y0n , Y11 , Y12 , . . . , Y1n insgesamt nicht unabh¨angig, da Y0i und Y1i f¨ ur i = 1, . . . , n jeweils an den gleichen Merkmalstr¨ager (die i-te Filiale) gebunden sind. Es liegt also im Grunde eine zweidimensionale Stichprobe (Y01 , Y11 ), (Y02 , Y12 ),. . . , (Y0n , Y1n ) vom Umfang n vor. Im vorliegenden Beispiel w¨are es naheliegend davon auszugehen, dass Y0 und Y1 positiv korreliert sind. So sollte eine Filiale, die vor der Werbeaktion bereits u ¨berdurchschnittlich hohen Umsatz erzielte, dies tendenziell auch nach der Werbeaktion tun. Aufgrund m¨ oglicher Abh¨angigkeit innerhalb der Wertepaare sind die Verteilungsresultate der vorhergehenden F¨ alle in Form von (10.2.17), (10.2.20) oder (10.2.32) nicht nutzbar. Insbesondere gilt n¨ amlich nicht: σ02 σ2 + 1. n n Die L¨osung besteht darin, anstelle der Differenz der Stichprobenmittel, das Stichprobenmittel der Differenzen Y11 − Y01 , Y12 − Y02 , . . . , Y1n − Y0n zu betrachten (Abb. 10.2.8). Setzt man V ar(Y¯1 − Y¯0 ) =

Di := Y1i − Y0i f¨ ur i = 1, . . . , n, so sind D1 , . . . , Dn als Funktionen der u.i.v.-Paare (Y01 , Y11 ), . . . , (Y0n , Y1n ) ebenfalls unabh¨angig und identisch verteilt mit 2 E(Di ) = δ und V ar(Di ) = σ02 + σ12 − 2σ01 =: σD ,

ur wobei σ01 = Cov(Y0 , Y1 ). Letzteres Resultat ergibt sich aus Formel (7.4.16) und den f¨ Varianzen und Kovarianzen geltenden Rechenregeln. Denn es gilt: V ar(Y1 − Y0 ) = V ar(Y1 + (−1)Y0 ) = V ar(Y1 ) + V ar(−Y0 ) + 2Cov(Y1 , −Y0 ) = V ar(Y1 ) + V ar(Y0 ) − 2Cov(Y1 , Y0 ). Die bisherigen Formeln f¨ ur Konfidenzintervalle werden nun auf die Differenzen D1 , . . . , Dn bezogen und angewendet. Gleichwohl entspricht dabei der Erwartungswert der Differenz δ der Differenz der Erwartungswerte und das Stichprobenmittel der Differenzen der Differenz der Stichprobenmittel, da gilt: E(D) = E(Y1 − Y0 ) = µ1 − µ0 bzw. n n X 1X ¯ = 1 D Di = (Y1i − Y0i ) = Y¯1 − Y¯0 . n i=1 n i=1 Im vorliegenden Fallbeispiel kann der Werbeeffekt deshalb unver¨andert u ¨ber die theoretische Differenz δ definiert und anhand der Differenz der Stichprobenmittel gesch¨atzt werden. Es ¨andert sich sozusagen nur die Sch¨atzung der zugeh¨origen Varianz. Hier2 bei ist zu beachten, dass es zur Sch¨ atzung von σD nicht notwendig ist, die Varianzen von Y0 und Y1 sowie deren Kovarianz im Einzelnen zu sch¨atzen. Vielmehr wird diese,

486

10 Statistisches Sch¨atzen

sofern unbekannt, anhand der Stichprobenvarianz der Differenzenwerte quasi en bloc gesch¨atzt. 2 Sofern nun D1 , . . . , Dn als unabh¨ angig N (δ, σD )-verteilt angenommen werden k¨ onnen, gilt in Anlehnung an die Resultate (10.2.4) und (10.2.5): ¯ −δ D Z=p 2 ∼ N (0, 1) bzw. (10.2.33) σD /n n ¯ −δ D 1 X 2 ¯ 2. p (Di − D) (10.2.34) T = ∼ t(n − 1) mit SD = 2 /n n − 1 i=1 SD

Die Normalverteilung w¨ are beispielsweise dann gerechtfertigt, falls Y0 und Y1 gemeinsam (bivariat) normalverteilt w¨ aren. Aus     µ   2 Y0 σ0 σ01 0 ∼N , σ01 σ12 Y1 µ1 w¨ urde dann gem¨ aß (8.3.6) folgen: D = Y1 − Y0 ∼ N (µ1 − µ0 , σ02 + σ12 − 2σ01 ). Ansonsten gilt in Anlehnung an die Resultate (10.2.8) und (10.2.11), sofern n groß ist: ¯ −δ a D Z=p 2 ∼ N (0, 1) bzw. (10.2.35) σD /n ¯ −δ a D T =q ∼ N (0, 1). (10.2.36) 2 /n S˜D Als (1 − α)-Konfidenzintervalle f¨ ur die als Effektst¨arke interpretierbare, theoretische Gr¨oße δ resultieren daraus die verschiedenen F¨alle gem¨aß Satz 10.2.1, wobei lediglich ¯ durch D ¯ X

und

2 S 2 durch SD

bzw.

2 S˜2 durch S˜D

ersetzt werden. Abb. 10.2.8: Modellierung einer Stichprobe bei verbundenen Werten ODER

n Mal Ziehen

Y0

n Mal Ziehen

(Y 01,Y 11), ..., (Y 0n ,Y 1n )

Y 11 − Y 01, ...,Y 1n − Y 0n

u. i. v.

u. i. v.

Y1

Y1 − Y0

• Zusammenfassung der Resultate • Fassen wir die verschiedenen F¨alle dieses Abschnitts formal zusammen. In Bezug auf verbundene Werte sei auf die Ausf¨ uhrungen des vorherigen Punktes verwiesen.

10.2 Intervallsch¨atzung

487

Satz 10.2.2: Konfidenzintervalle f¨ ur Erwartungswertdifferenzen Gegeben seien n = n0 + n1 unabh¨ angige Stichprobenvariablen Y01 , Y02 , . . . , Y0n0 und Y11 , Y12 , . . . , Y1n1 , die innerhalb der beiden Gruppen jeweils identisch verteilt sind mit E(Y0i ) = µ0 , V ar(Y0i ) = σ02 mit 0 < σ02 < ∞ f¨ ur i = 1, ..., n0 , E(Y1i ) = µ1 , V ar(Y1i ) = σ12 mit 0 < σ12 < ∞ f¨ ur i = 1, ..., n1 . Dann ist ein (1 − α)-Konfidenzintervall f¨ ur µ1 − µ0 , falls (i) alle Variablen normalverteilt sind mit bekannten Varianzen, gegeben durch s s h 2 2 σ σ σ02 σ2 i 0 1 Y¯1 − Y¯0 − z1−α/2 + , Y¯1 − Y¯0 + z1−α/2 + 1 , n0 n1 n0 n1 (ii) alle Variablen normalverteilt sind mit unbekannter gleicher Varianz (σ02 = σ12 , homoskedastischer Fall), gegeben durch s s h Sp2 Sp2 Sp2 Sp2 i Y¯1 − Y¯0 − tn0 +n1 −2,1−α/2 + , Y¯1 − Y¯0 + tn0 +n1 −2,1−α/2 + n0 n1 n0 n1 1 mit Sp2 = (n0 S˜02 + n1 S˜12 ), n0 + n1 − 2 (iii) n0 und n1 groß sind, Annahme (B) von Definition 8.2.1 und die Bedingung n1 n→∞ −−−−−→ π ∈ (0, 1) n erf¨ ullt und die Varianzen bekannt sind, gegeben durch s s h 2 2 σ σ σ02 σ2 i 0 Y¯1 − Y¯0 − z1−α/2 + 1 , Y¯1 − Y¯0 + z1−α/2 + 1 , n0 n1 n0 n1 (iv) die Varianzen unbekannt und sonst alle Annahmen von (iii) erf¨ ullt sind, gegeben durch s s h ˜2 ˜2 S S˜2 i S S˜02 0 Y¯1 − Y¯0 − z1−α/2 + 1 , Y¯1 − Y¯0 + z1−α/2 + 1 . n0 n1 n0 n1 In den F¨allen (iii) und (iv) handelt es sich um approximative Konfidenzintervalle f¨ ur n0 , n1 ≥ 30. Hierzu beachte man, dass Annahme (B) erf¨ ullt ist, sofern die Tr¨agermengen der Verteilungen der beiden Gruppen beschr¨ankt sind. Außerdem k¨onnen im Fall (iv) sowohl nichtkorrigierte als auch korrigierte Stichprobenvarianzen verwendet werden. • Allgemeine Merkregel via Standardfehler • Die nach Satz 10.2.1 formulierte Merkregel l¨asst sich auch hier wieder in analoger Weise anbringen. Mit δ = µ1 − µ0 und δˆ = Y¯1 − Y¯0

488

10 Statistisches Sch¨atzen

erh¨alt man nach Wahl eines entsprechenden Quantils q1−α/2 das Intervall   δˆ − q1−α/2 · σδˆ, δˆ + q1−α/2 · σδˆ . Bei unbekannten Varianzen σ02 und σ12 , muss die Standardabweichung σδˆ entsprechend mittels s s Sp2 Sp2 S˜02 S˜2 σ ˜δˆ = + bzw. σ ˆδˆ = + 1 (10.2.37) n0 n1 n0 n1 gesch¨atzt werden, je nachdem ob Fall (ii) oder Fall (iv) vorliegt. Das Intervall wird allgemein also aus Sch¨ atzwert, Quantil und (gesch¨atztem) Standardfehler konstruiert. • Beispiel 10.2.3: Pflanzenexperiment Nr.1 • Gegeben sei die Situation aus Beispiel 9.1.3 (Pflanzenexperiment). Hierbei liegen folgende 6 gemessene Wuchsh¨ohen (in cm) vor: Gruppe 0 (ohne D¨ ungung): 14, 25, 36, Gruppe 1 (mit D¨ ungung): 64, 46, 55. Das linke Schaubild von Abbildung 10.2.9 illustriert die Situation maßstabsgerecht. Abb. 10.2.9: Pflanzenexperimente der Beispiele 10.2.3 und 10.2.4 y 11 y1 y 03

y1 − y0

y 02 y 01

Gruppe 0:

ohne Düngung

y 12

y 13

(y 03, y 13) (y 02, y 12) (y 01, y 11)

y0

Gruppe 1:

mit Düngung

Zeitpunkt 0

Zeitpunkt 1

... die gleichen Pflanzen ...

Angenommen, die Wuchsh¨ ohen der ohne D¨ ungung gez¨ uchteten Pflanzen werden als unabh¨angige N (µ0 , σ 2 )-verteilte Stichprobenvariablen Y01 , Y02 und Y03 modelliert und die der ged¨ ungten Pflanzen als unabh¨ angige N (µ1 , σ 2 )-verteilte Zufallsvariablen Y11 , Y12 und Y13 . Dann l¨asst sich der D¨ ungeeffekt als theoretische Differenz δ = µ1 − µ0 definieren und u ¨ber die Differenz der Stichprobenmittelwerte sch¨atzen. Konkret ergibt dies im vorliegenden Fall δˆ = y¯1 − y¯0 = 55 − 25 = 30. Demnach bewirkt die D¨ ungung eine um durchschnittlich 30 cm h¨ohere Wuchsh¨ohe. Ein ad¨aquates 0.95-Konfidenzintervall f¨ ur δ, das diesem Modellrahmen, in dem insbesondere auch eine in beiden Gruppen einheitliche Varianz angenommen wird, gen¨ ugt, erhalten wir aus Satz 10.2.2, Fall (ii). Mit n0 = n1 = 3, s˜20 ≈ 80.67 und s˜21 = 54.0

10.2 Intervallsch¨atzung

489

ergibt sich als Sch¨ atzwert f¨ ur σ 2 zun¨ achst einmal 1 1 2 2 2 σ ˆ = sp = (n0 s˜0 + n1 s˜21 ) ≈ (3 · 80.67 + 3 · 53.0) ≈ 101. n1 + n2 − 2 4 Mit t4,0.975 ≈ 2.7764 (Tab. A.2) ergibt dies dann das Intervall r r h 101 101 101 101 i 30 − 2.7764 ≈ [7.2, 52.8]. + , 30 + 2.7764 + 3 3 3 3 ungeeffekt folglich irgendwo zwischen 7.2 und Bei einem Niveau von 95% sollte der D¨ 52.8 cm liegen. Die L¨ ange dieses Intervalls spiegelt eine denkbar große Unsicherheit wider. So u ur die gesch¨atzte Effektst¨arke selbst die ¨bersteigt die obere Intervallgrenze f¨ Spannweite aller Beobachtungen, die bei 50 liegt. Hauptgrund hierf¨ ur ist die Gr¨oße der Stichprobe von insgesamt nur 6 Beobachtungen. Stellen wir uns f¨ ur einen Moment vor, die exakt gleichen Stichprobenmittel und Stichprobenvarianzen beruhten auf jeweils 30 Beobachtungswerten. Mit n0 = n1 = 30 und t58,0.975 ≈ z0.975 ≈ 1.96 erg¨abe dies das deutlich k¨ urzere Intervall r r h 101 101 101 101 i 30 − 1.96 + , 30 + 1.96 + ≈ [26.4, 33.6]. 30 30 30 30 • Beispiel 10.2.4: Pflanzenexperiment Nr.2 • Gegeben sei ein weiteres Pflanzenexperiment, bei dem das Wachstum von Efeu in einem bestimmten Zeitfenster untersucht wird. Dazu werden 3 vergleichbare Ableger einer Efeupflanze angepflanzt und deren Wuchsl¨angen zu 2 verschiedenen Zeitpunkten gemessen. Damit liegt ein klassischer Fall verbundener Werte vor. In Anlehnung an die vorhergehende Notation lassen sich die L¨angen u ¨ber 3 Zufallsvektoren (Y01 , Y11 ), (Y02 , Y12 ) und (Y03 , Y13 ) modellieren, wobei die ersten Komponenten mit dem ersten Zeitpunkt (Zeitpunkt 0) und die zweiten Komponenten mit dem zweiten Zeitpunkt (Zeitpunkt 1) korrespondieren. Das rechte Schaubild von Abbildung 10.2.9 illustriert diese Situation f¨ ur folgende Daten:

Zeitpunkt 0 Zeitpunkt 1

Pflanze 1 14 46

Pflanze 2 25 55

Pflanze 3 36 64

Man beachte, dass insgesamt die gleichen Zahlen wie im vorhergehenden Beispiel verwendet wurden. Mit E(Y0i ) = µ0 und E(Y1i ) = µ1 f¨ ur i = 1, 2, 3 l¨asst sich nun der zwischen den beiden Zeitpunkten zu erwartende L¨angenzuwachs als theoretische Differenz δ = µ1 − µ0 definieren. Dieses wird mittels der entsprechenden Differenz der Stichprobenmittel bzw. mittels des Stichprobenmittels der Differenzen gesch¨atzt. Ein ad¨aquates 0.95-Konfidenzintervall f¨ ur µ basiert dann auf den Differenzen Y11 − Y01 , Y12 − Y02 und Y13 − Y03 und ist unter der Annahme einer Normalverteilung durch Fall (ii) von Satz 10.2.1 gegeben. Mit den obigen Daten erhalten wir zun¨achst einmal d1 = y11 − y01 = 32, d2 = y12 − y02 = 30 und d3 = y13 − y03 = 28, δˆ = d¯ = y¯1 − y¯0 = 30 und s2 = 4. D

490

10 Statistisches Sch¨atzen

Mit t2,0.975 ≈ 4.3027 (Tab. A.2) resultiert daraus dann als realisiertes Intervall r r i h 4 4 30 − 4.3027 ≈ [25.0, 35.0]. , 30 + 4.3027 3 3 Bei einem Niveau von 95% sollte der zu erwartende L¨angenzuwachs folglich irgendwo zwischen 25 und 35 cm liegen. Man beachte, dass das resultierende Intervall trotz des sehr kleinen Stichprobenumfangs deutlich k¨ urzer als im vorhergehenden Beispiel 10.2.3 f¨ ur n0 = n1 = 3 ist. Dies liegt daran, dass die Differenzenwerte nur eine relativ geringe Streuung aufweisen. Gleichwohl entsprechen die zu den jeweiligen Zeitpunkten korrespondierenden Varianzen der L¨ angen exakt den Gruppenvarianzen des vorgehenden Beispiels (es wurden im Ganzen ja die gleichen Zahlen verwendet). Dies verdeutlicht, dass es einen erheblichen Unterschied ausmachen kann, ob das stochastische Verhalten einer Differenz von Stichprobenmitteln oder eines Stichprobenmittels von Differenzen betrachten wird. • Bemerkung zum Zweistichproben-Gedanken • In manchen Lehrb¨ uchern wird die Gruppierung der Stichprobenvariablen in Y01 , Y02 , . . . , Y0n0 und Y11 , Y12 , . . . , Y1n1 gleichsam als Vorliegen von zwei verschiedenen Stichproben interpretiert. Gem¨aß den Ausf¨ uhrungen in Kapitel 9 ziehen wir es vor, immer nur von einer einzigen Stichprobe auszugehen. Dabei kommt es dann zu einer heterogenen Verteilung der Stichprobenvariablen innerhalb einer solchen Stichprobe. Dieser interpretatorische Ansatz bringt den Vorteil mit sich, dass man F¨ alle, in denen sich die jeweiligen Gruppenumf¨ange n0 und n1 zuf¨allig ergeben, mit dem gleichen Stichprobenkonzept behandeln kann. Man beachte hierzu die Ausf¨ uhrungen in Abschnitt 10.2.5 (Punkt nichtstochastische vs. ” stochastische Gruppenumf¨ ange“). ¨ • Aquivalente Darstellungen im Regressionsmodell • Erwartungswertvergleiche lassen sich teils ¨aquivalent als statistische Probleme im Rahmen des Regressionsmodells formulieren und behandeln. Ausf¨ uhrungen und Beispiele hierzu finden sich in Abschnitt 12.1.4 ( Spezialfall: Bin¨ arer Regressor“). ”

10.2.4 Weitere Konfidenzintervalle • Konfidenzintervalle f¨ ur Anteilswerte • In Abschnitt 10.2.2 wurden approximative Konfidenzintervalle f¨ ur Erwartungswerte vorgestellt, die, vereinfacht gesagt, unter beliebigen Ausgangsverteilungen gelten. Ein wichtiger Spezialfall stellt dabei die Bernoulli-Verteilung dar, mit der sich statistische Probleme in Bezug auf Anteilsbetrachtungen dichotomer Merkmale modellieren lassen. Da f¨ ur eine B(1, π)-verteilte Zufallsvariable X insbesondere E(X) = π und V ar(X) = π(1 − π) gilt, k¨onnen die approximativen Intervalle gem¨aß Satz 10.2.1 f¨ ur den Fall µ = π spezialisiert werden. Der Erwartungswert entspricht dann einem theoretischen Anteilswert (einer Wahrscheinlichkeit). Da in diesem Fall die Varianz selbst vom zu sch¨atzenden

10.2 Intervallsch¨atzung

491

Parameter π abh¨angt, schließen wir den Fall einer bekannten Varianz aus. Weiter beachte man, dass aufgrund der Tr¨ agermenge {0, 1} die Zufallsvariable X identisch wie X 2 verteilt ist. F¨ ur n Bernoulli-verteilte Stichprobenvariablen X1 , . . . , Xn f¨ uhrt dies deshalb zur Gleichung ¯ − X). ¯ S˜2 = X(1 (10.2.38) Dies folgt wegen n

n

X 1X ¯ 2= 1 ¯2 S˜2 = (Xi − X) X2 − X n i=1 n i=1 i n

=

1X ¯2 = X ¯ −X ¯ 2, Xi − X n i=1

wobei hier im ersten Umformungsschritt die Verschiebungsformel f¨ ur die Stichprobenvarianz ausgenutzt wurde. Man beachte, dass hier die Gleichheit (10.2.38) lediglich erf¨ ullt ist, weil Xi = Xi2 f¨ ur Xi ∼ B(1, π) ist. Die Gleichheit gilt jedoch nicht unter beliebigen Verteilungsannahmen. Insgesamt erhalten wir damit q q   ¯ − z1−α/2 X(1 ¯ − X)/n, ¯ ¯ + z1−α/2 X(1 ¯ − X)/n ¯ X X (10.2.39) in direkter Entsprechung zu Formel (10.2.14) als approximatives (1 − α)-Konfidenzintervall f¨ ur π. Man beachte dabei, dass das auf Grundlage Bernoulli-verteilter Zufallsvariablen gebildete Stichprobenmittel der relativen H¨aufigkeit der Einsen in der Stichprobe entspricht. Mit der f¨ ur dieses Sch¨ atzproblem zutreffenden Notation ¯ π ˆ=X erhalten wir die bedeutungsgleiche g¨ angigere Formel p p   π ˆ − z1−α/2 π ˆ (1 − π ˆ )/n, π ˆ + z1−α/2 π ˆ (1 − π ˆ )/n . Sie beruht auf dem f¨ ur Bernoulli-Variablen spezialisierten ZGWS-Resultat π ˆ−π a p ∼ N (0, 1) bzw. π(1 − π)/n  π(1 − π)  approx π ˆ ∼ N π, . n

(10.2.40)

(10.2.41) (10.2.42)

Satz 10.2.3: Konfidenzintervalle f¨ ur Anteilswerte Seien X1 , . . . , Xn unabh¨ angig B(1, π)-verteilt mit 0 < π < 1 und n ≥ 30. Dann ist ein approximatives (1 − α)-Konfidenzintervall f¨ ur π gegeben durch r r h π ˆ (1 − π ˆ) π ˆ (1 − π ˆ) i π ˆ − z1−α/2 ,π ˆ + z1−α/2 . n n ¯ die relative H¨ Dabei ist π ˆ=X aufigkeit der Einsen in der Stichprobe. • Notwendiger Stichprobenumfang zur Erzielung bestimmter Genauigkeiten • Die Intervalll¨ ange von (10.2.40) ist gegeben durch p Lπˆ = 2z1−α/2 π ˆ (1 − π ˆ )/n

492

10 Statistisches Sch¨atzen

und damit stochastisch. Da relative H¨ aufigkeiten zwischen 0 und 1 liegen k¨onnen, kann diese L¨ange jedoch nach oben absch¨ atzt werden. So nimmt π ˆ (1 − π ˆ ) maximal den Wert 0.25 an. Am gr¨oßten werden die Konfidenzintervalle, wenn π ˆ = 0.5 ist. Dann ist die Unsicherheit der Sch¨ atzung am gr¨ oßten. Je n¨aher die relativen H¨aufigkeiten dagegen an den Extremwerten 0 und 1 liegen, d.h. je homogener eine Grundgesamtheit ist, desto genauer kann π bestimmt werden. Die maximale L¨ange f¨ ur ein vorgegebenes Konfidenzniveau 1 − α betr¨ agt somit √ Lmax = z1−α/2 / n. (10.2.43) π ˆ Diesen Umstand kann man sich in einer Art Worst-Case-Kalk¨ ul“ zunutze machen, um ” f¨ ur eine angestrebte maximale L¨ ange den erforderlichen Mindeststichprobenumfang zu bestimmen. Dazu l¨ ost man (10.2.43) nach n auf und erh¨alt die Formel 2 n = z1−α/2 /Lmax . (10.2.44) π ˆ Soll also etwa ein 0.95-Konfidenzintervall nicht l¨anger als 0.02 sein, was einer ±1% genauen Sch¨atzung entspricht, erh¨ alt man n = (z0.975 /0.02)2 ≈ (1.96/0.02)2 = 9604 als erforderlichen Mindestumfang. Bei einer Stichprobe vom Umfang 9604 wird das entsprechende Konfidenzintervall also in aller Regel k¨ urzer als 0.02 sein. Die L¨ange 0.02 w¨ urde dabei nur im ung¨ unstigsten Falle von π ˆ = 0.5 realisiert werden. • Exakte Konfidenzintervalle f¨ ur Anteilswerte • Prinzipiell lassen sich auch Konfidenzintervalle beruhend auf der exakten Verteilung des Stichprobenmittels konstruieren. Da die Stichprobensumme B(n, π)-verteilt ist, l¨asst sich die Verteilung des Stichprobenmittels spezifizieren. Jedoch treten bei dieser Vorgehensweise im Detail einige Probleme auf, die darauf zur¨ uckgef¨ uhrt werden k¨onnen, dass die Binomialverteilung zum einen eine diskrete und zum anderen eine (f¨ ur π 6= 0.5) asymmetrische Verteilung ist. Man beachte hierzu die Bemerkungen im nachfolgenden Beispiel. • Beispiel 10.2.5: Mensabefragung • Gegeben sei die Situation aus Beispiel 1.2.1 (Mensabefragung). Votieren 40 von 50 befragten Studierenden f¨ ur die Mensa, so gilt π ˆ = 40/50 = 0.8. Mit z0.975 = 1.96 erh¨ alt man daraus als approximatives 0.95-Konfidenzintervall f¨ ur π: p p   0.8 − 1.96 0.8 · 0.2/50, 0.8 + 1.96 0.8 · 0.2/50 ≈ [0.69, 0.91]. Bei einem Niveau von 95% sollte der Anteil von Mensabef¨ urwortern unter allen Studierenden folglich zwischen 69% und 91% liegen. Alternativ l¨ asst sich f¨ ur π = 0.8 auch die Verteilung der Summe S50 =

50 X

Xi ∼ B(50, 0.8)

i=1

der Stichprobenvariablen betrachten (vgl. rechtes Schaubild von Abb. 1.2.3) und dann durch Stutzen“ der entsprechenden Tr¨ agermenge am oberen und unteren Ende ein ” Konfidenzintervall konstruieren. Dies f¨ uhrt dann zu Berechnungen, wie sie im Detail in Beispiel 9.1.1 ausgef¨ uhrt wurden. Im vorliegenden Fall ergibt dies dann das Intervall

10.2 Intervallsch¨atzung

493

[0.70, 0.90], was sehr ¨ ahnlich zum obigen ist. Die exakte Aussch¨opfung eines vorgegebenen Konfidenzniveaus l¨ asst sich i.d.R. nicht bewerkstelligen, da die Tr¨agerpunkte der Binomialverteilung nur bestimmte Wahrscheinlichkeiten auf sich vereinen. Damit l¨asst sich die Verteilung nicht auf jede beliebig vorgegebene Wahrscheinlichkeitsmasse stutzen, wie es etwa bei der stetigen Normalverteilung der Fall ist. M¨ochte man zu einem vorgegebenen Konfidenzniveau m¨ oglichst kurze Intervalle konstruieren, dann sollte die Stutzung meist nicht v¨ ollig symmetrisch vorgenommen werden. Die hierf¨ ur notwendigen Berechnungen erweisen sich dann als nicht ganz trivial. Im vorliegenden Beispiel wurden unten 3.08% und oben 1.85% der Wahrscheinlichkeitsmasse gestutzt. Asymptotisch f¨ uhrt die Stutzung aber auch zu (10.2.40), da gem¨aß ZGWS Sn

approx



N (nπ, nπ(1 − π))

gilt. Beispiel 10.2.6: Politbarometer und Wahlergebnis der Bundestagswahl 2013 Tabelle 10.2.1 zeigt das Ergebnis der letzten Telefonbefragung der Forschungsgruppe Wahlen (Politbarometer) vor der Bundestagswahl 2013 und das offizielle Wahlergebnis. Die Telefonbefragung wurde am 18.09. und 19.09.2013 durchgef¨ uhrt und umfasste insgesamt n = 1369 befragte Personen. Die Bundestagswahl fand drei Tage sp¨ater am 22.09.2013 statt. Abbildung 10.2.10 illustriert die Ergebnisse und deutet die mit den Umfrageergebnissen einhergehenden 0.95-Konfidenzintervalle f¨ ur jede Partei an. Die jeweiligen Genauigkeiten zum Niveau 95% sind in der Tabelle mit angegeben. Alle Intervalle u ¨berdecken jeweils den bei der Wahl erzielten Stimmenanteil. Insofern war das Politbarometer erfolgreich.

Stimmenanteil in %

Abb. 10.2.10: Politbarometer und Wahlergebnis der Bundestagswahl 2013 50

Umfrage

40

Wahl

30 20 10 0

Union

SPD

FDP

Linke

Grüne

AfD

Sonstige

Daten: Der Bundeswahlleiter [2016], Forschungsgruppe Wahlen [2016] Tabelle 10.2.1: Umfrageergebnis und Wahlergebnis (in %) der Bundestagswahl 2013 Partei Union SPD FDP Linke Gr¨ une AfD Sonst. Umfrage und 40.0 27.0 5.5 8.5 9.0 4.0 6.0 Genauigkeit ±2.6% ±2.4% ±1.2% ±1.5% ±1.5% ±1.0% ±1.3% Endergebnis 41.5 25.7 4.8 8.6 8.4 4.7 6.3 Daten: Der Bundeswahlleiter [2016], Forschungsgruppe Wahlen [2016]

494

10 Statistisches Sch¨atzen

• Konfidenzintervalle f¨ ur Anteilswertdifferenzen • Zur Konstruktion von Konfidenzintervallen f¨ ur Differenzen von Anteilswerten lassen sich die approximativen Intervalle f¨ ur Erwartungswertdifferenzen von Satz 10.2.2 wiederum auf die BernoulliVerteilung spezialisieren. Die Konstruktion folgt den gleichen Prinzipien, die zu Satz 10.2.3 gef¨ uhrt haben. Der Logik der vorhergehenden Notation folgend ist dann ein (1 − α)-Konfidenzintervall f¨ ur die theoretische Differenz π1 − π0 gegeben durch: s h ˆ1 (1 − π ˆ1 ) π ˆ0 (1 − π ˆ0 ) π π ˆ1 − π ˆ0 − z1−α/2 + , n0 n1 s π ˆ0 (1 − π ˆ0 ) π ˆ1 (1 − π ˆ1 ) i π ˆ1 − π ˆ0 + z1−α/2 + . (10.2.45) n0 n1 • Konfidenzintervalle f¨ ur σ 2 • Auch f¨ ur die theoretische Varianz lassen sich Konfidenzintervalle konstruieren. Diese basieren zumeist auf der Annahme normalverteilter Stichprobenvariablen und verwenden dann Stichprobenvarianz und Quantile der sog. Chi-Quadrat-Verteilung zur Konstruktion. Allerdings geschieht dies in Abweichung von der bisherigen Regel, dass sich die Intervallgrenzen aus Sch¨ atzwert ± Quantil · (gesch¨atzter) Standardfehler ergeben. N¨ahere Ausf¨ uhrungen hierzu finden sich etwa bei Bamberg et al. [2012, Abschnitt 13.2]. Bei der Konstruktion approximativer Intervalle f¨ ur große Stichproben ohne Normalverteilungsannahme kann man sich jedoch wieder den ZGWS zunutze machen und basierend auf den Quantilen der Standardnormalverteilung obige Konstruktionsregel anwenden. Dabei kann der Standardfehler mittels der sog. Momentenmethode (Abschnitt 10.3.1) gesch¨ atzt werden. Man beachte hierzu Formel (10.3.9) in Beispiel 10.3.3. • Konfidenzintervalle f¨ ur sonstige Gr¨ oßen • Auch f¨ ur Quotienten theoretischer Varianzen, theoretische Quantile, Variationskoeffizienten und Korrelationskoeffizienten und noch viele weitere theoretische Gr¨ oßen lassen sich Konfidenzintervalle unter bestimmten Annahmen konstruieren. Einen Einblick hierzu bieten etwa Sachs und Hedderich [2012, Kapitel 6].

10.2.5 Ad¨ aquatheit bestimmter Modellannahmen ¨ • Hintergrund und Uberblick • Jede statistische Modellierung beruht auf spezifischen Annahmen, welche die Eigenheiten der Stichprobe bzw. der Stichprobenvariablen formal beschreiben. Nur sofern diese Annahmen auch tats¨achlich erf¨ ullt sind, ist statistische Inferenz zul¨ assig, akkurat und sinnvoll. Doch was genau bedeutet das? Angenommen, im Rahmen eines Sch¨ atzproblems f¨ ur einen Erwartungswert µ seien die zugrunde gelegten Stichprobenvariablen X1 , . . . , Xn zwar identisch N (µ, σ 2 )-verteilt aber nicht unabh¨ angig. Wird nun f¨ alschlicherweise Unabh¨angigkeit unterstellt und ein

10.2 Intervallsch¨atzung

495

Konfidenzintervall gem¨ aß Satz 10.2.1, Fall (i), konstruiert, so ist dieses nicht mehr kor¯ nicht mehr σ 2 /n rekt. Dies liegt daran, dass die Varianz des Stichprobenmittels X betr¨agt, sondern gem¨ aß Formel (7.4.11): n X n X ¯ = 1 V ar(X) Cov(Xi , Xj ). (10.2.46) n2 i=1 j=1 ¯ w¨ F¨ ur µ ˆ=X urde bspw. bei Vorliegen positiver Korrelationen gelten: ¯ > σ 2 /n. V ar(X) Man beachte, dass speziell f¨ ur n = 2 aus (10.2.46) V ar(0.5(X1 + X2 )) = 0.5(σ 2 + Cov(X1 , X2 )) > 0.5σ 2 are, sofern σ 2 bekannt ist, zu klein und das folgt. Der unterstellte Standardfehler w¨ resultierende Intervall zu kurz. Dies alles f¨ uhrt dann dazu, dass das Konfidenzniveau tats¨achlich kleiner ist als vorgegeben. Ist die Annahme identischer Verteilung verletzt, kann sogar jegliche Sinnhaftigkeit verloren gehen. Dies gilt insbesondere dann, falls kein sinnvoll interpretierbarer Erwartungswert µ mehr existiert. Im Folgenden werden wir uns mit den obigen und noch einigen weiteren kritischen Punkten in Bezug auf die Modellannahmen befassen. Die Problematik der einzelnen Punkte soll dabei vorrangig anhand der Beispiele 9.1.1–9.1.3 (Mensabefragung, Gep¨ackabfertigung, Pflanzenexperiment) verdeutlicht werden. Zu diesen kritischen Punkten geh¨oren (i) das Vorliegen von Repr¨ asentativit¨ at, (ii) die Annahmen in Bezug auf die Verteilung, (iii) die Unabh¨angigkeitsannahme, (iv) spezielle Annahmen bei Differenzensch¨ atzungen. • Zu allererst: Repr¨ asentativit¨ at • Grundvoraussetzung f¨ ur die Sinnhaftigkeit jeglicher Inferenz ist das Vorliegen einer repr¨ asentativen Stichprobe. Die Stichprobe muss die interessierende Grundgesamtheit so gut es geht widerspiegeln. Definition und Problematik von Repr¨ asentativit¨ at wurden bereits ausf¨ uhrlich in Abschnitt 9.2 behandelt und anhand der obigen drei Beispiele erl¨ autert. Wie bereits festgestellt, geh¨ort Repr¨asentativit¨at nicht zu den Modellannahmen im engeren Sinne, sondern ist eine nichtmathema¨ tische Eigenschaft, die anhand inhaltlicher Uberlegungen und mithilfe fachspezifischer Kenntnisse u uft werden muss. Dabei ist zu beachten, dass allein die Erf¨ ullung ¨berpr¨ bestimmter Ziehungsschemata (u.i.v., u.h.v. oder andere) nicht ausreichend ist. • Identisch vs. heterogen verteilt • Gegeben sei die Situation aus Beispiel 9.1.2 (fortgesetzt in den Beispielen 10.2.1 und 10.2.2). Werden hier beispielsweise s¨amtliche Gep¨ackabfertigungszeiten einer kompletten Fr¨ uhschicht von 5 Uhr bis 13 Uhr als (hypothetische) Stichprobe genommen, so w¨ are es denkbar, dass die Annahme identisch verteilter Stichprobenvariablen f¨ ur diesen gesamten Zeitraum nicht realistisch ist. So k¨onnte es etwa sein, dass sich die morgendlichen Abfertigungszeiten von den mitt¨aglichen aufgrund unterschiedlicher Anteile von Kurz- und Langstreckenfl¨ ugen systematisch

496

10 Statistisches Sch¨atzen

unterscheiden. Sofern die jeweiligen Anteile jedoch langfristig stabil sind und die Stichprobe dies repr¨asentativ abdeckt, kann man auch unter dieser Heterogenit¨at sinnvolle und g¨ ultige Inferenz betreiben. Mithilfe des ZGWS f¨ ur u.h.v. Zufallsvariablen (Satz 8.2.2) l¨asst sich hierf¨ ur ein identisches approximatives Konfidenzintervall begr¨ unden, wie in Fall (iv) von Satz 10.2.1. Die zu sch¨ atzende mittlere Abfertigungszeit kann hierbei als langfristiger Durchschnittswert aller zur Fr¨ uhschicht abgefertigten Fl¨ uge, zu denen eben sowohl Kurz- als auch Langstreckenfl¨ uge z¨ahlen, sinnvoll interpretiert werden. W¨are es nun allerdings so, dass sich die betreffenden Anteile tagt¨aglich ver¨andern, w¨ are ein langfristiges Mittel nicht mehr sinnvoll definierbar. Die Sinnhaftigkeit jeglicher Inferenz ginge somit auch verloren. Auf theoretischer Ebene w¨aren die Konvergenzbedingungen des ZGWS f¨ ur u.h.v. Zufallsvariablen nicht erf¨ ullt. Eine naheliegende L¨osung best¨ unde dann darin, die Inferenz f¨ ur Kurz- und Langstreckenabfertigungen getrennt zu betreiben, was m¨ oglicherweise ohnehin n¨ utzlicher sein k¨onnte. Im Pflanzenexperiment von Beispiel 9.1.3 (fortgesetzt in Beispiel 10.2.3) interpretieren wir die Wuchsh¨ ohen der in zwei Gruppen eingeteilten Versuchspflanzen als eine Stichprobe vom Umfang n = 6. Aufgrund der Variation der D¨ ungung in den beiden Gruppen nehmen wir sinnvollerweise heterogen verteilte Stichprobenvariablen an, wobei die Variablen innerhalb der Behandlungsgruppen jeweils identisch verteilt sind. Diese Annahme ist dann gerechtfertigt, falls alle weiteren Versuchsbedingungen v¨ollig identisch sind. W¨ urde man nun beispielsweise die Pflanzen innerhalb der Gruppen systematisch unterschiedlich stark bew¨ assern, w¨are diese Annahme verletzt, zumindest sofern die Bew¨asserung die Wuchsh¨ ohe beeinflusst. Die statistische Modellierung w¨are dann falsch und die Inferenz ung¨ ultig. Intuitiv sollte auf jeden Fall einleuchten, dass der D¨ ungeeffekt nicht richtig gesch¨ atzt werden kann, sofern außer der D¨ ungung noch andere Einflussfaktoren systematisch variieren. Entweder muss dann in einem solchen Fall die st¨orende Variation beseitigt oder im Rahmen eines anderen Modellierungsansatzes mit ber¨ ucksichtigt werden. • Normal- vs. nicht normal verteilt • Bei der Konstruktion von Konfidenzintervallen f¨ ur Erwartungswerte und Erwartungswertdifferenzen wird in verschiedenen F¨allen von der Normalverteilungsannahme Gebrauch gemacht. Ist diese Annahme verletzt, so stimmen die verwendeten Verteilungsquantile aus der Normal- oder t-Verteilung nicht mehr. Man beachte, dass unter dem u.i.v.-Schema Stichprobenmittel und Stichprobenvarianz immer noch erwartungstreue und konsistente Sch¨atzer f¨ ur Erwartungswert und theoretische Varianz sind. Aufgrund der falsch verwendeten Quantile werden die Intervalle jedoch zu lang oder zu kurz. Das tats¨ achliche Konfidenzniveau weicht dann im Allgemeinen von dem vorgegebenen ab. Aufgrund des ZGWS wird diese Abweichung mit wachsendem n jedoch immer kleiner. Außerdem ist die f¨alschliche Unterstellung einer Normalverteilung selbst in kleinen Stichproben praktisch vernachl¨assigbar, sofern die tats¨achliche Verteilung unimodal und einigermaßen symmetrisch ist. In Beispiel 9.1.2 k¨ onnte man sich gem¨ aß dem im vorigen Punkt beschriebenen Szenario vorstellen, dass die Gep¨ ackabfertigungszeit aufgrund der systematischen Unterschiede von Kurz- und Langstreckenabfertigungen einer bimodalen Mixturverteilung (Abschnitt 8.1.3) gen¨ ugt. Bei kleinen Stichproben w¨are deshalb Vorsicht mit der Normalverteilungsannahme geboten, insbesondere falls man sich nicht f¨ ur eine getrennte Analyse von Kurz- und Langstreckenabfertigungen entscheidet.

10.2 Intervallsch¨atzung

497

Die Annahme normalverteilter Wuchsh¨ ohen innerhalb der beiden Pflanzengruppen in Beispiel 9.1.3 (fortgesetzt im Beispiel 10.2.3) erscheint realistisch, sofern die Bedingungen ansonsten v¨ ollig identisch sind. Eine sich langfristig einstellende mittlere Wuchsh¨ohe mit symmetrischer Schwankung um diesen Wert erscheint absolut plausibel. Zudem ist es bekannt, dass die Normalverteilung bei derartig kontrollierten Experimenten regelm¨aßig als nat¨ urliche Verteilung“ beobachtet werden kann. ” • Verwendung der Approximationsregeln • Die approximativen Konfidenzintervalle der S¨atze 10.2.1 und 10.2.2 beruhen auf einer durch den ZGWS begr¨ undbaren Normalverteilung der Stichprobensumme bzw. des Stichprobenmittels. Ist die Stichprobe f¨ ur eine gute Approximation noch zu klein, so ist das berechnete Intervall aus den gleichen Gr¨ unden wie im vorherigen Punkt zu kurz oder zu lang, da die Verwendung der Normalverteilungsquantile noch nicht gerechtfertigt ist. Das vorgegebene Konfidenzniveau wird deshalb i.d.R. nicht eingehalten. Den Ausf¨ uhrungen zur Approximationsg¨ ute von Abschnitt 7.4.2 folgend, h¨ angt die G¨ ute der Approximation maßgeblich von der Ausgangsverteilung ab. Dabei wird umso schneller eine hohe Approximationsg¨ ute erzielt, je ¨ahnlicher die Ausgangsverteilung bereits der Normalverteilung ist. In den meisten F¨allen sollten die hier vorgeschlagenen Empfehlungen n ≥ 30 bzw. n0 , n1 ≥ 30 eine ausreichend gute Approximationsg¨ ute gew¨ ahrleisten. • Unabh¨ angig vs. abh¨ angig • Auch bei abh¨angigen, identisch verteilten Stichprobenvariablen kann das Stichprobenmittel immer noch ein konsistenter Sch¨atzer f¨ ur den Erwartungswert sein. Theoretische Resultate hierzu liefern GGZ-Varianten f¨ ur a.i.v.Schemata (abh¨angig identisch verteilt). Diese werden besonders bei der Modellierung von Zeitreihendaten h¨ aufig verwendet werden, da dort die Unabh¨angigkeitsannahme meist unrealistisch erscheint (vgl. Abschnitt 9.2). Erwartungstreu ist das Stichprobenmittel gem¨aß Resultat (7.4.15) auf jeden Fall. Selbst bei Abh¨angigkeit ist es deshalb m¨ oglich, dass das Konfidenzintervall im Durchschnitt richtig zentriert liegt. Allerdings weist es aufgrund der anders gearteten Varianz des Stichprobenmittels gem¨aß (10.2.46) bei irrt¨ umlicher Unterstellung von Unabh¨ angigkeit die falsche L¨ange auf und h¨alt das vorgegebene Niveau i.d.R. nicht ein. Ist die Abh¨angigkeit zu stark“ ausgepr¨agt, kann ” sogar die Konsistenzeigenschaft des Stichprobenmittels verloren gehen und das Konfidenzniveau weit unterhalb dem vorgegebenen liegen. Wir machen uns dies kurz an einem Extrembeispiel klar. Angenommen, im Rahmen einer Anteilssch¨atzung seien X1 , . . . , Xn ∼ B(1, π)-verteilt, wobei X1 = X2 = · · · = Xn gelte. Da alle Stichprobenvariablen stets u ¨bereinstimmen sind diese maximal ” abh¨angig“. Gleichwohl sind die Variablen identisch verteilt. Allerdings kann das Stichprobenmittel aufgrund dessen nur noch die beiden Werte 1 und 0 annehmen. Dabei gilt: ¯ = 1) = P (X1 = 1) = π, P (X ¯ = 0) = P (X1 = 0) = 1 − π P (X und infolgedessen auch ¯ − X) ¯ = 0) = 1. P (X(1 Somit kann selbst in großen Stichproben kein sinnvolles Konfidenzintervall mehr konstruiert werden. Das approximative Intervall“ besteht entweder nur aus dem Wert 0 ”

498

10 Statistisches Sch¨atzen

oder 1. F¨ ur 0 < π < 1 enth¨ alt dieses Intervall“ den wahren Parameterwert sogar mit ” Sicherheit nicht. Somit ist gerade im Kontext sog. Quasi-Stichproben stets zu hoffen, dass etwaige nicht ber¨ ucksichtigte Abh¨ angigkeiten nur schwach ausgepr¨agt sind und das Konfidenzniveau nur leicht verf¨ alscht wird. Sofern in Beispiel 9.1.1 (fortgesetzt in Beispiel 10.2.5) bei der Befragung zur Mensa etwa nebeneinander Studierende befragt werden, k¨onnte es passieren, dass diese nicht mehr ganz unabh¨ angig voneinander antworten. Allerdings kann hier auch ohne Expertenwissen eine stark verf¨ alschende Abh¨ angigkeit sicherlich ausgeschlossen werden. Auch in Beispiel 9.1.2 (Gep¨ ackabfertigungszeiten) ist denkbar, dass aufeinander folgende Zeiten positiv korreliert sein k¨ onnten. Eine M¨oglichkeit, diese Abh¨angigkeit zu verhindern oder wenigstens zu reduzieren, best¨ unde darin, zwischen einzelnen Messungen zeitliche oder ¨ ortliche Spr¨ unge einzubauen und nicht einfach hintereinander in der Warteschlange stehende Reisende zu erfassen. Im Rahmen des kontrollierten Pflanzenexperiments von Beispiel 9.1.3 k¨onnte Abh¨angigkeit durch gegenseitige positive oder negative Beeinflussung der einzelnen Pflanzen dadurch entstehen, dass diese zu dicht nebeneinander platziert werden. Unter Verwendung von Expertenwissen muss hier ein geeignetes Versuchsdesign solche Effekte ausschließen. • Homoskedastizit¨ at vs. Heteroskedastizit¨ at • Besitzen alle Stichprobenvariablen die gleiche Varianz, spricht man von Homoskedastizit¨ at, andernfalls von Heteroskedastizit¨ at. Die korrespondierenden Adjektive zu diesen Eigenschaften lauten homoskedastisch bzw. heteroskedastisch. Diese Begriffe, die in der Regressionstheorie besonders verbreitet sind (Kapitel 12), sind nicht zwingend an eine Normalverteilungsannahme gebunden. Die Annahme einer homoskedastischen Varianz erscheint in vielen F¨allen unrealistisch, da mit zunehmendem Niveau der Daten in der Regel eine gr¨oßere Streuung verbunden ist. Mithilfe eines speziellen F-Tests (vgl. etwa Schira [2012, Abschnitt 15.8]) l¨ asst sich statistisch u ufen (testen), ob die Annahme einer ho¨berpr¨ moskedastischen Varianz plausibel ist oder nicht. Im Pflanzenexperiment von Beispiel 9.1.3 k¨onnte man etwa erwarten, dass die Varianz in der Gruppe der gr¨ oßeren Pflanzen gr¨oßer ist als diejenige in der Gruppe ¨ der kleineren Pflanzen. Ahnliche Sachverhalte k¨onnten sich beispielsweise im Rahmen eines Einkommensvergleichs von abh¨ angig Besch¨aftigten mit Abitur und solchen ohne Schulabschluss ergeben. • Nichtstochastische vs. stochastische Gruppenumf¨ ange • Erwartungswertdifferenzen lassen sich auch dann statistisch analysieren, falls sich die beiden Gruppenumf¨ange n0 und n1 zuf¨ allig ergeben. Dabei k¨onnen die in Satz 10.2.2 aufgestellten Formeln f¨ ur die verschiedenen F¨ alle (i) bis (iv) unver¨andert verwendet werden. Es ¨andert sich im Grunde nur die modelltheoretische Beschreibung. Dies sei im Folgenden nur kurz skizziert. Auf detaillierte Beweisf¨ uhrungen wird verzichtet. Allerdings ergibt sich ein direkter Bezug zur einfachen Regression mit bin¨arem Regressor. Hierzu beachte man die Ausf¨ uhrungen in Abschnitt 12.1.4. Angenommen, es soll das Einkommen m¨annlicher und weiblicher Angestellter in einer bestimmten Branche miteinander verglichen werden. Dazu wird nun eine Stichprobe von Angestellten dieser Branche gezogen, wobei sich allerdings erst im Rahmen

10.2 Intervallsch¨atzung

499

der Stichprobe das Geschlecht einer gezogenen Person ergibt. Im Rahmen einer statistischen Modellierung wird man dies nun mit einer zweidimensionalen Stichprobe ber¨ ucksichtigen. Dabei bezeichnet X das Geschlecht und Y das Einkommen einer zuf¨allig gezogenen Person, wobei X = 0 beispielsweise f¨ ur m¨annlich und X = 1 f¨ ur weiblich steht. Somit gen¨ ugt X einer B(1, π)-Verteilung, wobei π = P (X = 1) den Anteil der weiblichen Angestellten in der Grundgesamtheit darstellt. Die Stichprobe besteht dann aus n zweidimensionalen Stichprobenvariablen (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn ), die (beispielsweise) unabh¨ angig und identisch wie (X, Y ) verteilt sind. Gilt dann etwa auch Y |X = 0 ∼ N (µ0 , σ02 ) und Y |X = 1 ∼ N (µ1 , σ12 ), d.h. ist Y bedingt auf X = 0 bzw. X = 1 jeweils normalverteilt, kann die zu Fall (i) korrespondierende Formel von Satz 10.2.2 unver¨andert verwendet werden. Man beachte, dass hierbei dann gem¨ aß Notation gilt: µ0 = E(Y |X = 0),

σ02 = V ar(Y |X = 0),

µ1 = E(Y |X = 1),

σ12 = V ar(Y |X = 1).

Das Konfidenzintervall bezieht sich somit auf die Differenz der bedingten Erwartungswerte anstelle auf die Differenz gew¨ ohnlicher“ (unbedingter) Erwartungswerte bei ” nichtstochastischen Stichprobenumf¨ angen. Zur Berechenbarkeit muss einzig vorausgesetzt werden, dass die Realisationen n0 und n1 der stochastischen Umf¨ange N0 bzw. N1 jeweils positiv sind. Es muss also gelten: n n X X N1 = Xi ≥ 1 und N0 = (1 − Xi ) ≥ 1. i=1

i=1

Sofern die bedingten Varianzen unbekannt, aber gleich groß sind (bedingte Homoskedastizit¨ at), kann gem¨ aß der Formel nach Fall (ii) verfahren werden, wobei dann zur Berechenbarkeit die jeweiligen Gruppenumf¨ange in der Summe mindestens 3 betragen m¨ ussen. In den F¨ allen (iii) und (iv) ist die zus¨atzliche Konvergenzannahme bei nichtstochastischen Gruppenumf¨ angen n1 n→∞ −−−−−→ π ∈ (0, 1) n hinf¨allig. Stattdessen gilt gem¨ aß GGZ f¨ ur π ∈ (0, 1): n 1X N1 p Xi = −−→ π > 0. n i=1 n ussen zur G¨ ultigkeit der approximativen Intervalle lediglich die trivialen F¨alle Insofern m¨ π = 0 und π = 1 ausgeschlossen werden. Bei der Modellierung mit stochastischen Stichprobenumf¨angen kann also im Allgemeinen weiterhin mit einem u.i.v.-Schema gearbeitet werden. Die Bildung der Gruppen kommt dabei u ¨ber die Betrachtung bedingter Verteilungen zustande. Abbildung 10.2.11 illustriert das Ganze. Bei stochastischen Umf¨ angen l¨asst sich die Verteilung von Y als Mixturverteilung (Abschnitt 8.1.3) der bedingten Verteilungen von Y unter X = 1 und Y unter X = 0 mit den Mischungsanteilen π bzw. 1 − π interpretieren. Bei nicht-

500

10 Statistisches Sch¨atzen Abb. 10.2.11: Nichtstochastische vs. stochastische Gruppenumf¨ ange n 0 Mal + n 1 Mal Ziehen Y |X =0

f0

Y |X =1

(x i ,Y i ) u. h. v.

n Mal Ziehen (X X i ,,Y i ) u. i. v.

f1

X ~ B (n, π) Y

f Y = πf 0 + (1 − π)f 1

stochastischen Umf¨ angen sind die Werte des gruppenbildenden Merkmals X hingegen determiniert. Prinzipiell k¨ onnte man dies auch als zweidimensionales Problem auffassen, wobei man dann (x1 , Y1 ), (x2 , Y2 ), . . . , (xn , Yn ) notieren w¨ urde; die Kleinschreibweise steht dabei f¨ ur nichtzuf¨allige Werte. Die einzelnen Vektoren sind hierbei heterogen verteilt, da die xi -Werte in der Regel nicht alle identisch sind. In der Situation von Beispiel 10.2.3 w¨ urde gem¨aß dieser Sichtweise dann gelten: x1 = x2 = x3 = 0, x4 = x5 = x6 = 1 und Y1 = Y01 , Y2 = Y02 , . . . , Y6 = Y13 .

10.3 Sch¨ atzmethoden Die Momentenmethode basiert auf dem GGZ und ist in einfachen Modellen h¨aufig die intuitivste Sch¨ atzmethode. Die Maximum-Likelihood-Methode w¨ahlt als Sch¨atzung denjenigen Parameterwert, unter dem die Beobachtungen am wahrscheinlichsten erscheinen. Dar¨ uber hinaus gibt es noch viele weitere Sch¨atzmethoden, wie etwa die Bayes-Methode oder die Kleinste-Quadrate-Methode. Teils k¨ onnen unterschiedliche Methoden zu identischen oder sehr ¨ahnlichen Sch¨atzergebnissen f¨ uhren.

10.3.1 Momentenmethode • Allgemeiner Ansatz • Die Momentenmethode basiert darauf, dass die stochastischen Momente (Stichprobenmomente) gem¨aß GGZ stochastisch gegen die korrespondierenden theoretischen Momente konvergieren (Satz 8.2.4). F¨ ur eine u.i.v.Stichprobe X1 , . . . , Xn gilt also: n 1X m p X −−→ E(Xim ) f¨ ur m ≤ k, wobei k, m ∈ N, n i=1 i sofern das k-te Moment endlich ist. Bei vielen (parametrischen) Sch¨atzproblemen lassen sich die theoretischen Momente als Funktionen der zu sch¨atzenden Parameter darstellen. Im Rahmen der Momentenmethode werden diese funktionalen Beziehungen nach den interessierenden Parametern umgestellt und die Parameter so in Abh¨angigkeit der theoretischen Momente dargestellt. Sofern dies m¨oglich ist, werden im zweiten Schritt die theoretischen Momente durch die korrespondierenden Stichprobenmomente ersetzt.

10.3 Sch¨atzmethoden

501

Die Konsistenz der daraus resultierenden und als Momentensch¨ atzer bezeichneten Funktionen l¨asst sich mithilfe des GGZ und des Stetigkeitssatzes (Satz 8.3.3) begr¨ unden. Stelle, sofern m¨ oglich, zun¨ achst die zu sch¨ atzenden Parameter als Funktionen theoretischer Momente dar. Ersetze dann letztere durch die korrespondierenden Stichprobenmomente. • Beispiel 10.3.1: Exponentialverteilung • Angenommen, X1 , . . . , Xn seien unabh¨angig Exp(λ)-verteilt. Es soll der Parameter λ gesch¨atzt werden. Bekanntlich gilt nun (Abschnitt 7.3.2): E(Xi ) = 1/λ. Durch Umstellen erhalten wir λ = 1/E(Xi ). Damit lautet der resultierende Momentensch¨ atzer ˆ ¯ λM M = 1/X. • Beispiel 10.3.2: Sch¨ atzung von µ und σ 2 • Mit der Momentenmethode lassen sich auch bereits bekannte und hergeleitete Resultate nochmals best¨atigen. Sind X1 , . . . , Xn u.i.v. mit Erwartungswert µ und Varianz σ 2 und sollen beide Parameter gesch¨atzt werden, so beginnen wir mit dem Aufstellen der beiden Momentengleichungen: (i) E(Xi ) = µ, (ii) E(Xi2 ) = σ 2 + µ2 . In Gleichung (i) ist µ als Funktion des ersten theoretischen Moments bereits dargestellt. Gleichung (ii), die sich mit dem Verschiebungssatz f¨ ur die theoretische Varianz (7.2.15) ergibt, wird nach σ 2 aufgel¨ ost. Dies ergibt dann σ 2 = E(Xi2 ) − µ2 = E(Xi2 ) − (E(Xi ))2 . Als Momentensch¨ atzer resultieren daraus somit n 1X 2 2 ¯ 2 = S˜2 . ¯ und σ X −X µ ˆM M = X ˆM M = n i=1 i • Beispiel 10.3.3: Approximatives Konfidenzintervall f¨ ur die Varianz • Im Folgenden leiten wir ein approximatives Konfidenzintervall f¨ ur die theoretische Varianz her. Basierend auf einem ZGWS-Resultat, st¨ utzt sich dies auf die sehr gebr¨auchliche Konstruktionsregel Sch¨ atzwert ± Quantil · (gesch¨ atzter) Standardfehler. Dabei wird zur Sch¨ atzung des Standardfehlers die Momentenmethode verwendet. Angenommen, die Stichprobenvariablen X1 , . . . , Xn sind u.i.v. mit E(Xi ) = µ und 0 < V ar(Xi ) = σ 2 < ∞. Dann folgt mit Satz 7.1.5, dass auch die transformierten Gr¨oßen (X1 − µ)2 , . . . , (Xn − µ)2

502

10 Statistisches Sch¨atzen

u.i.v. sind mit      2   E (Xi − µ)2 = σ 2 und V ar (Xi − µ)2 = E (Xi − µ)4 − E(Xi − µ)2 Letztere Umformung ergibt sich durch Anwendung des Verschiebungssatzes auf das zweite zentrierte Moment. Hier m¨ usste man endliche vierte Momente voraussetzen. Setzen wir nun   µ∗4 = E (Xi − µ)4 , erhalten wir u ohnlichen ZGWS das Verteilungsresultat ¨ber den gew¨ n   X √ 1 a (Xi − µ)2 − σ 2 ∼ N (0, µ∗4 − σ 4 ). n n i=1

(10.3.1)

Dies impliziert auch n  √ √ 1 X a 2 2 ˜ ¯ 2 − σ2 ∼ n(S − σ ) = n (Xi − X) N (0, µ∗4 − σ 4 ). n i=1

(10.3.2)

Die nichtkorrigierte Stichprobenvarianz ist somit asymptotisch normalverteilt. Zum Beweis von Resultat (10.3.2), k¨ onnen wir zun¨ achst die folgenden beiden Resultate nutzen: √ a 2 ¯ n(X − µ) ∼ N (0, σ ) und (10.3.3) p ¯ − µ −− X → 0.

(10.3.4)

Ersteres Resultat folgt mit dem ZGWS, letzteres mit dem GGZ. Mit (8.2.7) aus Slutsky’s Theorem (Satz 8.2.5) implizieren (10.3.3) und (10.3.4) zusammen √ √ p ¯ − µ)2 = n(X ¯ − µ)(X ¯ − µ) −− n(X → 0. (10.3.5) Weiter l¨asst sich die in (10.3.1) aufgestellte Statistik wie folgt umschreiben: n n   √ h 1 X i √ 1 X ¯2 + X ¯ 2] ¯ + µ2 − σ 2 + [−X n (Xi − µ)2 − σ 2 = n Xi2 − 2µX n i=1 n i=1 n  √ √ 1 X ¯ 2 − σ 2 + n(X ¯ − µ)2 = n Xi2 − X n i=1 √ √ ¯ − µ)2 = n(S˜2 − σ 2 ) + n(X

Aufgrund der G¨ ultigkeit von (10.3.1) und (10.3.5) folgt nun durch erneute Anwendung von Slutsky’s Theorem Resultat (10.3.2). Dazu nutzt man (8.2.6), indem man n  √ 1 X √ ¯ − µ)2 und Bn = 1 Yn = n (Xi − µ)2 − σ 2 , An = − n(X n i=1 setzt. Basierend auf (10.3.2) kann man ein approximatives (1 − α)-Konfidenzintervall f¨ ur σ 2 herleiten: r r h µ∗4 − σ 4 ˜2 µ∗4 − σ 4 i 2 ˜ S − z1−α/2 , S + z1−α/2 . (10.3.6) n n Der Haken dabei ist freilich, dass die theoretischen Gr¨oßen des Standardfehlers unbekannt sind und somit gesch¨ atzt werden m¨ ussen. Hierzu bietet sich nun die Momentenmethode an. Dazu stellen wir das vierte zentrierte Moment zun¨achst als Funktion der

10.3 Sch¨atzmethoden

503

nichtzentrierten Momente dar. Dies ergibt:   µ∗4 = E (Xi − µ)4 = E(Xi4 ) − 4E(Xi3 )µ + 6E(Xi2 )µ2 − 4E(Xi )µ3 + µ4 = E(Xi4 ) − 4E(Xi3 )µ + 6E(Xi2 )µ2 − 3µ4 . Ein sinnvoller Momentensch¨ atzer f¨ ur µ∗4 lautet somit n n n n X 1X 4 4X 3¯ 6 X 2 ¯2 ¯ 4 . (10.3.7) ¯4 = 1 µ ˆ∗4 = Xi − Xi X + Xi X − 3X (Xi − X) n i=1 n i=1 n i=1 n i=1 Die theoretische Varianz σ 2 wird gem¨ aß dem vorhergehenden Beispiel durch die nichtkorrigierte Stichprobenvarianz gesch¨ atzt. Dies impliziert dann σ ˆ 4 = (S˜2 )2 . (10.3.8) Insgesamt erhalten wir somit als approximatives Intervall mit gesch¨atztem Standardfehler: r r h µ ˆ∗4 − σ ˆ 4 ˜2 µ ˆ∗4 − σ ˆ4 i 2 ˜ , S + z1−α/2 . (10.3.9) S − z1−α/2 n n

10.3.2 Maximum-Likelihood-Methode • Vorbemerkung • Modellparameter sind h¨aufig Erwartungswerte oder Varianzen einer vorgegebenen Verteilung oder k¨ onnen als Funktionen dieser Kennwerte ausgedr¨ uckt werden. Oft ist dann schon intuitiv klar, welche Sch¨atzer in Frage kommen. Im Rahmen komplexerer Modelle ist jedoch nicht immer klar ersichtlich, wie bestimmte Parameter gesch¨atzt werden k¨ onnen. Neben der Momentenmethode stellt die MaximumLikelihood-Methode eine der g¨ angigsten Konstruktionsmethoden dar, die ungeachtet der Komplexit¨at eines vorgegebenen Modells im Allgemeinen zu sinnvollen Sch¨atzern f¨ uhrt. Als Anwendungsbeispiele werden wir im Folgenden lediglich einfache Verteilungsmodelle heranziehen. Zum Verst¨ andnis ist dies jedoch unerheblich, da bei komplexeren statistischen Modellen analytische Berechnungen von Hand“ ohnehin oft nicht mehr ” m¨ oglich sind. Hier m¨ ussen dann rechnergest¨ utzte numerische Verfahren weiterhelfen, wobei die eigentliche Sch¨ atzmethode jedoch die gleiche bleibt. Prim¨ares Ziel im Folgenden ist also das Verst¨ andnis des methodischen Ansatzes. Die jeweils gewonnenen Ergebnisse werden indes wenig u ¨berraschen und Altbekanntes nur best¨atigen. • Allgemeiner Ansatz • In Kapitel 6 wurde im Rahmen von Beispiel 6.2.6 bereits der Grundansatz des Maximum-Likelihood-Kalk¨ uls anhand der Wahrscheinlichkeiten f¨ ur Zufallsereignisse vorgestellt. Diesen Ansatz gilt es nun auf statistische Verteilungen und parametrische Sch¨ atzprobleme zu u ¨bertragen. Stellen wir uns dazu zun¨achst folgende Situation vor. Es liege nur eine einzige Realisation einer diskreten Zufallsvariable X vor, von der wir wissen, dass sie einer von drei m¨oglichen Verteilungen gen¨ ugen muss. Wir wissen jedoch nicht welcher. Zur Wahl stehen dabei Verteilung 1: P (X = 1) = 0.5, P (X = 2) = 0.25, P (X = 3) = 0.25, Verteilung 2: P (X = 1) = 0.1, P (X = 2) = 0.1, P (X = 3) = 0.8, Verteilung 3: P (X = 1) = 0.5, P (X = 2) = 0.3, P (X = 3) = 0.2.

504

10 Statistisches Sch¨atzen

Beobachten wir nun die Realisation x = 3, so vergleichen wir die Wahrscheinlichkeiten der drei Verteilungen an dieser Stelle. Demnach besitzt Verteilung Nr. 2 die h¨ochste Wahrscheinlichkeit f¨ ur diese Auspr¨ agung. Es w¨are somit plausibel auf diese Verteilung zu tippen. Lautet die Realisation hingegen x = 2, so k¨ame am ehesten Verteilung Nr. 3 in Frage. Im Falle von x = 1 w¨ are man bei dieser Verfahrensweise indifferent zwischen den Verteilungen 1 und 3. Das Maximum-Likelihood-Prinzip ist w¨ortlich das Prinzip der gr¨ oßten Wahrscheinlichkeit. Gem¨aß diesem entscheidet man sich stets f¨ ur diejenige Verteilung, unter der vorliegende Beobachtungswerte am ehesten“ zustande ” kommen (am wahrscheinlichsten sind). Dieses Prinzip gilt es nun auf parametrische Sch¨atzprobleme zu u ¨bertragen. Im Unterschied zum obigen Fall h¨angen die zur Wahl stehenden Verteilungen hier von einem zu sch¨ atzenden Verteilungsparameter direkt ab. Somit lautet die zu stellende Grundfrage: Unter welchem Parameterwert sind die Beobachtungen am wahrscheinlichsten?

Abb. 10.3.1: Drei zur Wahl stehende Verteilungen f 1(x)

1.0

f 2(x)

Verteilung 1

1.0

0.8

1.0

0.8

0.6

0.6

0.4

0.2

0.4

0.2 0

1

2

x

3

4

0.0

Verteilung 3

0.8

0.6

0.4 0.0

f 3(x)

Verteilung 2

0.2 0

1

2

x

3

4

0.0

0

1

2

x

3

4

• Beispiel 10.3.4: Sch¨ atzung von λ bei einer Poisson-Verteilung f¨ ur n=1 • ur unterschiedliche Werte von λ. AngeAbbildung 7.3.5 zeigt die P o(λ)-Verteilung f¨ nommen, es liege nur eine einzige Realisation einer P o(λ)-Verteilung vor, wobei λ nicht bekannt ist. F¨ ur welche Verteilung w¨ urde man sich dann gem¨aß ML-Prinzip entscheiden? Tats¨achlich l¨ asst sich dies analytisch berechnen. Die Wahrscheinlichkeitsfunktion einer P o(λ)-verteilten Zufallsvariable X lautet λx −λ fX (x) = e f¨ ur x = 0, 1, 2, . . . x! ur welchen Wert von λ ist die WahrscheinlichF¨ ur n = 1 lautet somit die Grundfrage: F¨ keit λx −λ P (X = x) = e x! am gr¨oßten? Analytisch betrachten wir diese Wahrscheinlichkeit als Funktion von λ f¨ ur vorliegendes x und maximieren diese bez¨ uglich λ. Formal definiert man dazu die Funktion λx −λ e , L(λ|x) = fX (λ|x) = x!

10.3 Sch¨atzmethoden

505

die als Likelihood-Funktion bezeichnet wird. Zur einfacheren Bestimmung der Extremstellen verwenden wir die logarithmierte Form l(λ|x) = ln L(λ|x) = x ln(λ) − ln(x!) − λ. Nach Ableiten, Nullsetzen der Ableitung und Aufl¨osen nach λ ergibt sich dann ∂l(λ|x) x ! = − 1 = 0, also λ = x. ∂λ λ Der Sch¨atzer f¨ ur n = 1 lautet somit ˆ λM L = X. Die Poisson-Verteilung mit λ = x ist diejenige Verteilung, welche die Wahrscheinlichkeit von P (X = x) maximiert. Der allgemeine Fall n ≥ 1 wird sp¨ater in Beispiel 10.3.7 behandelt. • Beispiel 10.3.5: Sch¨ atzung von µ bei einer Normalverteilung f¨ ur n=1 • Abur unterschiedliche Werte bildung 7.3.10 zeigt Dichtefunktionen der N (µ, 1)-Verteilung f¨ von µ. Dieses Mal handelt es sich um eine stetige Verteilung. Angenommen, es liege wiederum nur eine einzige Realisation vor. Hier ist zu bedenken, dass Dichtewerte keine Wahrscheinlichkeiten sind und generell gilt: P (X = x) = 0 f¨ ur jedes x ∈ R. Ungeachtet dessen erscheint es in einem solchen Kontext sinnvoll, diejenige Verteilung zu w¨ahlen, unter der eine Beobachtung den gr¨ oßten Dichtewert besitzt. Der entsprechende Kalk¨ ul ist somit im Prinzip der gleiche wie bei diskreten Verteilungen. Die Likelihood-Funktion im Rahmen einer Sch¨atzung von µ f¨ ur n = 1 lautet somit  2 1 1 (x − µ) L(µ|x) = √ exp − . 2 2 σ2 2πσ Aus Abbildung 7.3.10 ist leicht ersichtlich, dass diese Funktion f¨ ur µ = x maximiert wird, da die Normalverteilung an der Stelle des Erwartungswerts die gr¨oßte Dichte aufweist. Zur formalen Herleitung gehen wir aus den gleichen Gr¨ unden wie im vorhergehenden Beispiel zur Betrachtung der Log-Likelihood-Funktion 1 (x − µ)2 2 σ2 u osen nach µ ergibt dann ¨ber. Ableiten, Nullsetzen und Aufl¨ ∂l(µ|x) x−µ ! = = 0, d.h. µ = x. ∂µ σ2 Der Sch¨atzer f¨ ur n = 1 lautet somit, wie ohnehin bereits klar war, l(µ|x) = ln L(µ|x) = −0.5 ln(2πσ 2 ) −

µ ˆM L = X. Der allgemeine Fall n ≥ 1 wird sp¨ ater in Beispiel 10.3.8 behandelt. • Beispiel 10.3.6: Sch¨ atzung von λ bei einer Exponentialverteilung f¨ ur n=1 • ur unterschiedliche WerAbbildung 7.3.9 zeigt Dichtefunktionen der Exp(λ)-Verteilung f¨ te von λ. F¨ ur n = 1 ergibt sich das ML-Kalk¨ ul analog wie in Beispiel 10.3.5. F¨ ur x > 0

506

10 Statistisches Sch¨atzen

erh¨alt man hier L(λ|x) = λe−λx . Man beachte, dass die Annahme x > 0 keine Einschr¨ankung darstellt, da wir x als realisierte Beobachtung interpretieren. Deshalb gilt ohnehin aufgrund der Stetigkeit der Verteilung: P (X > 0) = 1 und P (X = 0) = 0. Auch hier erweist sich wieder die Betrachtung der Log-Likelihood-Funktion l(λ|x) = ln(λ) − λx als vorteilhaft. Ableiten, Nullsetzen und Aufl¨ osen nach λ ergibt hier ∂l(λ|x) 1 1 ! = − x = 0 und λ = . ∂λ λ x Der Sch¨atzer f¨ ur n = 1 lautet somit ˆ M L = 1/X. λ Der allgemeine Fall n ≥ 1 wird sp¨ ater in Beispiel 10.3.9 behandelt. • Beispiel 10.3.7: Sch¨ atzung von λ bei einer Poisson-Verteilung f¨ ur n ≥1 • Liegen mehrere Beobachtungen x1 , . . . , xn vor, so ist entsprechend dem ML-Prinzip diejenige n-dimensionale Verteilung auszuw¨ ahlen, f¨ ur welche die gemeinsame Wahrscheinlichkeit P (X1 = x, X2 = x, . . . , Xn = x) maximal ist. F¨ ur eine u.i.v.-Stichprobe X1 , . . . , Xn aus einer P o(λ)-Verteilung erh¨alt man die gemeinsame Einzelwahrscheinlichkeit als Produkt der Randeinzelwahrscheinlichkeiten, d.h. n Y λxi −λ e . fX1 ...Xn (x1 , . . . , xn ) = x! i=1 i Die zu maximierende Likelihood-Funktion lautet dann n Y λxi −λ L(λ|x1 , . . . , xn ) = e x! i=1 i und die Log-Likelihood-Funktion entsprechend n n n  λxi  X X X l(λ|x1 , . . . , xn ) = ln e−λ = ln(λ) xi − nλ − ln(xi !). xi ! i=1 i=1 i=1 Ableiten, Nullsetzen und Aufl¨ osen nach λ ergibt dann n ∂l 1X ! (λ|x1 , . . . , xn ) = xi − n = 0 und λ = x ¯. ∂λ λ i=1 Der Sch¨atzer f¨ ur n ≥ 1 lautet somit ¯ µ ˆM L = X. Da der Erwartungswert der Verteilung dem Parameterwert λ entspricht, ist das Ergebnis

10.3 Sch¨atzmethoden

507

u atzer ist erwartungstreu und gem¨aß GGZ konsistent. ¨beraus plausibel. Der Sch¨ • Beispiel 10.3.8: Sch¨ atzung von µ und σ 2 bei einer Normalverteilung f¨ ur n ≥1 • Sind X1 , . . . , Xn unabh¨ angig N (µ, σ 2 )-verteilt und beide Parameter unbekannt, dann lautet die Likelihood-Funktion f¨ ur gegebene Realisationen x1 , . . . , xn : n  1 (x − µ)2  Y 1 i √ L(µ, σ 2 |x1 , . . . , xn ) = . exp − 2 2 σ2 2πσ i=1 Sie ergibt sich aus dem gemeinsamen Produkt aller Randdichten. Alternativ l¨asst sich die Funktion auch schreiben als n   1 X (xi − µ)2 . L(µ, σ 2 |x1 , . . . , xn ) = (2πσ 2 )−n/2 exp − 2 2σ i=1 Die Log-Likelihood-Funktion ist dann l(µ, σ 2 |x1 , . . . , xn ) = −

n n n 1 X (xi − µ)2 . ln(2π) − ln(σ 2 ) − 2 2 2 2σ i=1

Im Falle mehrerer Parameter werden die ersten partiellen Ableitungen berechnet und gleich Null gesetzt. Im vorliegenden Fall ergibt dies n n ∂l 1 X 1 X nµ ! (µ, σ 2 |x1 , . . . , xn ) = 2 (xi − µ) = 2 xi − 2 = 0 und (i) ∂µ σ i=1 σ i=1 σ n ∂l n 1 X ! 2 (xi − µ)2 = 0. (µ, σ |x , . . . , x ) = − + 1 n ∂σ 2 2σ 2 2σ 4 i=1

(ii)

Hierzu beachte man, dass in (ii) nach σ 2 abgeleitet wird und nicht etwa nach σ. Diese sog. Likelihood-Gleichungen formen nun ein Gleichungssystem mit den zwei zu sch¨atzenden Parametern als unbekannte Gr¨ oßen. Das L¨osen der ersten Gleichung f¨ uhrt dabei zu µ=x ¯. Setzt man dies in (ii) ein, erh¨ alt man n n 1 X ! (xi − x ¯)2 = 0. − 2+ 4 2σ 2σ i=1 Aufl¨osen nach σ 2 ergibt dann n 1X (xi − x ¯)2 . σ2 = n i=1 Die ML-Sch¨atzer f¨ ur µ und σ 2 lauten somit n 1X 2 ¯ bzw. σ ¯ 2 = S˜2 . (Xi − X) µ ˆM L = X ˆM L = n i=1 Auch diese Ergebnisse sind u ¨beraus plausibel. Beide Sch¨atzer sind konsistent. In letzterem Fall stimmt der Sch¨ atzer mit dem Momentensch¨atzer (Beispiel 10.3.2) u ¨berein, ist jedoch nicht erwartungstreu. Nebenbei bemerkt, erh¨alt man f¨ ur n = 1 als ML-Sch¨atzung

508

10 Statistisches Sch¨atzen

f¨ ur σ 2 den Wert 0, was f¨ ur eine normale“ Normalverteilung zwar keinen zul¨assigen Wert ” darstellt, dennoch aber das formal korrekte und an sich sinnvolle Sch¨atzergebnis. Abb. 10.3.2: ML-Sch¨ atzung von µ bei Vorliegen von zwei Beobachtungen

0.03

−3 −2 −1

1

x1

2

3

−3

0.03

0

0.04

) 0. 8

7

0.0

0.01

2 0.0

−2

0.01

−3 −2 −1

1

x 2 −1

6

2, −

8)

0

0. 2, −

0.1

0.0

0.14

0.13 0.09

1

6

(1 .

09

0.12

0.07

−2

5 0.0

0

0.

8) 2, −0 . (1 .

0.0

9

0.13

0.11

01

0.1

0

x 2 −1

1

0.1

0. 0

0.0

0.08

0.

6

0.12

2

0.03

2

2

0.0

−3

0.0

7

1

2)

0.0

0.04

08 0.

0

x 2 −1 −2

0.01

2

0.0

0. 2,

1

0.05 0.04 0. 08 0.13

5

0.0

0.0

2

. (0

2

3 0.02

0.1

3

(1 .

3

1

x1

2

−3

3

−3 −2 −1

0

1

x1

2

3

Abbildung 10.3.2 illustriert die ML-Sch¨ atzung f¨ ur µ bei Vorliegen von zwei Beobachtungswerten x1 = 1.2 und x2 = −0.8. Da wir von unabh¨angigen jeweils N (µ, σ 2 )verteilten Stichprobenvariablen X1 und X2 ausgehen, ist die Gestalt der gesuchten gemeinsamen Dichte sph¨ arisch (unkorreliert und gleiche Varianzen). Ohne Einschr¨ankung k¨ onnen wir zur Illustration σ 2 = 1 annehmen, da die Varianz den Sch¨atzwert f¨ ur µ nicht beeinflusst. Aufgrund des identischen Erwartungswerts muss die maximierende Dichte auf der Winkelhalbierenden, x2 = x1 , zentriert liegen, sprich den Erwartungswertvektor (µ, µ)T aufweisen. F¨ ur ¯ = 0.5(1.2 − 0.8) = 0.2 µ ˆM L = X erh¨alt man f¨ ur den Beobachtungspunkt (1.2, −0.8)T als dichtemaximierende bivariate Normalverteilung diejenige mit Erwartungswert (0.2, 0.2)T . Geometrisch betrachtet, ist dies diejenige Verteilung, die den euklidischen Abstand zwischen (µ, µ)T und (1.2, −0.8)T minimiert. • Beispiel 10.3.9: Sch¨ atzung von λ bei einer Exponentialverteilung f¨ ur n ≥1 • Sind X1 , . . . , Xn unabh¨ angig Exp(λ)-verteilt, so lautet die Likelihood-Funktion n n   Y X L(λ|x1 , . . . , xn ) = λe−λxi = λn exp −λ xi . i=1

i=1

Die Log-Likelihood-Funktion ergibt sich dann als n X l(λ|x1 , . . . , xn ) = n ln(λ) − λ xi . i=1

Ableiten, Nullsetzen und Aufl¨ osen nach λ ergibt n ∂l n X 1 ! (λ|x1 , . . . , xn ) = − xi = 0 und λ = . ∂λ λ i=1 x ¯ Der Sch¨atzer f¨ ur n ≥ 1 lautet somit ¯ µ ˆM L = 1/X.

10.3 Sch¨atzmethoden

509

Dies deckt sich mit dem Ergebnis der Momentenmethode in Beispiel 10.3.1. • Abschließende Bemerkungen • Die Likelihood-Gleichungen sind im Falle mehrerer Parameter analytisch nicht immer l¨ osbar. Dann m¨ ussen rechnergest¨ utzte numerische Verfahren die Gleichungssysteme l¨ osen. Zu bemerken ist außerdem, dass die MLMethode nicht immer zu eindeutigen L¨ osungen f¨ uhrt. Theoretisch l¨ asst sich zeigen, dass unter der G¨ ultigkeit bestimmter Annahmen, welche auch als Regularit¨ atsbedingungen bezeichnet werden, die ML-Methode asymptotisch zu effizienten Sch¨ atzungen f¨ uhrt (vgl. etwa Knight [2000, Kapitel 6]. Dies bedeutet, dass die ML-Sch¨atzer konsistent sind und f¨ ur wachsenden Stichprobenumfang unter allen Sch¨atzern die kleinsten Varianzen aufweisen. Sie sind unter gewissen Bedingungen also optimal. In den vorhergehenden Beispielen stimmen die ML-Sch¨atzer mit den Momentensch¨atzern stets u ¨berein. Daraus sollte jedoch keine feste Regel abgeleitet werden. Gerade bei komplexen statistischen Modellen k¨onnen die beiden Methoden zu recht unterschiedlichen Ergebnissen f¨ uhren.

10.3.3 Weitere Sch¨ atzmethoden • Bayes-Methode • Wie das ML-Kalk¨ ul wurde auch das Bayes-Kalk¨ ul bereits in ¨ Beispiel 6.2.6 vorgestellt. Zur Ubertragung dieses Ansatzes auf parametrische Sch¨atzprobleme k¨onnen wir zur Einf¨ uhrung wiederum die Situation von Abbildung 10.3.1 betrachten. Allerdings belegen wir die Verteilungen nun mit einer subjektiven Vor” ahnung“. Dabei ordnen wir den drei m¨ oglichen Verteilungen von vornherein (a priori) Wahrscheinlichkeiten zu. Diese k¨ onnen sich auf subjektive Einsch¨atzungen oder empirische Vorerfahrungen st¨ utzen und ausdr¨ ucken aus, wie wahrscheinlich das Auftreten der verschiedenen Verteilungen vor der eigentlichen Datenerhebung eingesch¨atzt wird. Dies bewerkstelligen wir im vorliegenden Beispiel u unstlichen“ Parameter ¨ber einen k¨ ” θ, wobei θ = 1 f¨ ur Verteilung 1, θ = 2 f¨ ur Verteilung 2 und θ = 3 f¨ ur Verteilung 3 steht. F¨ ur das Beispiel setzen wir: P (θ = 1) = 0.6, P (θ = 2) = 0.1, P (θ = 3) = 0.3. Diese auf den Parameter θ bezogene Verteilung heißt dann A-priori-Verteilung . Gem¨aß dem Bayes-Kalk¨ ul entscheidet man sich dann f¨ ur denjenigen Parameterwert, der unter gegebenen Beobachtungen am wahrscheinlichsten ist. Die zu stellende Grundfrage lautet jetzt also: Welcher Parameterwert ist unter den Beobachtungen am wahrscheinlichsten? Beobachten wir etwa x = 3, so vergleichen wir die drei Wahrscheinlichkeiten der als A-posteriori-Verteilung bezeichneten bedingten Verteilung von θ unter X = 3: P (X = 3|θ = 1)P (θ = 1) 0.25 · 0.6 0.15 P (θ = 1|X = 3) = = = , P (X = 3) P (X = 3) P (X = 3) P (X = 3|θ = 2)P (θ = 2) 0.8 · 0.1 0.08 P (θ = 2|X = 3) = = = , P (X = 3) P (X = 3) P (X = 3)

510

10 Statistisches Sch¨atzen

0.2 · 0.3 0.06 P (X = 3|θ = 3)P (θ = 3) = = . P (X = 3) P (X = 3) P (X = 3) F¨ ur X = 3 ist somit θ = 1 am wahrscheinlichsten. Man beachte, dass die Wahrscheinlichkeit von X = 3 dabei unerheblich ist. Gleichwohl l¨asst sich diese hier berechnen als 3 X P (X = 3) = P (X = 3|θ = i)P (θ = i) = 0.15 + 0.08 + 0.06 = 0.29. P (θ = 3|X = 3) =

i=1

Analog erscheint auch unter x = 2 und x = 1 der Zustand θ = 1 am wahrscheinlichsten. Damit erh¨alt man also u ¨berwiegend andere Ergebnisse als zuvor bei der ML-Methode. ¨ Ubertragen auf typische Sch¨ atzprobleme, gestaltet sich der mit der Bayes-Methode einhergehende Rechenapparat h¨ aufig als recht aufwendig. Auf detaillierte Beispiele hierzu wird verzichtet. Eine umfassende Behandlung Bayes’scher Methodik bieten beispielsweise Gelman et al. [2014]. • Kleinste-Quadrate-Methode • Vor allem zur Sch¨atzung der Regressionskoeffizienten in einem Regressionsmodell spielt die Kleinste-Quadrate-Methode eine herausragende Rolle. N¨ahere Ausf¨ uhrungen hierzu finden sich in Kapitel 12.

Kapitel 11: Statistisches Testen In Abschnitt 11.1 wird anhand von Beispielen das Grundkonzept und die Grundstruktur statistischer Tests vorgestellt. Die wichtigsten Begriffe werden dabei bereits sukzessive eingef¨ uhrt und erkl¨ art. In Abschnitt 11.2 befassen wir uns dann vertiefend mit einigen besonders wichtigen Aspekten der Testtheorie. Abschließend werden in Abschnitt 11.3 wichtige und weit verbreitete Standardtests vorgestellt.

11.1 Was versteht man unter einem Test? Ausgangspunkt eines jeden Tests ist ein Testproblem. Ein Testproblem ist ein statistisches Problem in Form eines Entscheidungsproblems. Dabei muss zwischen zwei sich gegenseitig ausschließenden Aussagen in Bezug auf eine zugrunde gelegte reale oder hypothetische Grundgesamtheit eine Entscheidung gef¨allt werden. Im Rahmen eines geeigneten statistischen Modells lassen sich diese beiden Alternativen, auch Hypothesen genannt, h¨ aufig mittels bestimmter Modellparameter ausdr¨ ucken. Ein statistischer Test ist dann eine auf einer Stichprobe basierende formale Entscheidungsregel, die stets zugunsten einer der beiden Hypothesen eine Entscheidung herbeif¨ uhrt.

11.1.1 Einfu ¨ hrende Beispiele • Vorbemerkung • In Abschnitt 9.1 wurden bereits Grundz¨ uge des Testens anhand von Beispielen angedeutet. Dies soll in diesem Abschnitt nun etwas detaillierter fortgesetzt werden, wobei die wichtigsten Grundbegriffe der Testtheorie eingef¨ uhrt werden. Besonders wichtige Aspekte werden dann sp¨ ater in Abschnitt 11.2 nochmals separat behandelt. • Beispiel 11.1.1: Raten vs. Wissen • Angenommen, eine Multiple-Choice-Klausur besteht aus 30 Aussagen, die entweder richtig oder falsch sind. Falls nun ein Student 19 dieser Fragen korrekt und 11 Fragen falsch beantwortet, wie ist dann eine solche Leistung einzustufen? Zun¨achst einmal ist klar, dass die korrekte Bearbeitung einer Frage keine Garantie daf¨ ur ist, dass der Student die Antwort tats¨ achlich auch gewusst hat. Er k¨onnte nur zuf¨allig richtig geraten haben. Sofern der Student tats¨achlich eine Antwort r¨at, liegt er mit 50% Wahrscheinlichkeit richtig. Somit kann es nat¨ urlich keine ausreichende Leistung sein, wenn ein Student beispielsweise die H¨ alfte aller Fragen richtig bearbeitet und die andere H¨alfte falsch. Die Frage, die sich im vorliegenden Fall nun stellt, ist, ob 19 richtige Antworten bei 30 gestellten Fragen bereits gen¨ ugend viele sind, um zumindest pures Raten ausschließen zu k¨ onnen. Somit liegt ein Entscheidungsproblem zwischen Raten“ und Wissen“ vor. ” ”

512

11 Statistisches Testen

Eines ist jedoch bereits jetzt schon klar: Wie auch immer die Entscheidung am Ende ausfallen wird, unterliegt sie der Gefahr eines Irrtums. Denn auch ein Student, der die eine H¨alfte richtig und die andere H¨ alfte falsch bearbeitet, kann ja tats¨achlich etwas gewusst haben. Andererseits ist es theoretisch m¨oglich, dass ein Student alleine durch Raten alle 30 Fragen korrekt beantwortet, wenngleich die Wahrscheinlichkeit daf¨ ur auch nur klein sein mag. Somit existiert keine absolut sichere Entscheidung, sofern sich diese nur auf die beobachteten Daten (Anzahl korrekter und falscher Antworten) st¨ utzt. Das Ziel eines statistischen Testverfahrens besteht nun im Wesentlichen darin, die Wahrscheinlichkeit einer falschen Entscheidung m¨oglichst klein zu halten. Wie k¨ onnte das im vorliegenden Fall funktionieren? Der erste Schritt zur Beantwortung dieser Fragen besteht darin, ein geeignetes statistisches Modell zu finden, in welches die gesamte Problemstellung eingebettet und gel¨ ost werden kann. Gegeben seien die Antworten eines dem Pr¨ ufer nicht bekannten Studenten, die man sich als Ergebnisse von Bernoulli-verteilten Zufallsvariablen vorstellen kann: Wir erinnern uns, dass diese lediglich die Werte 0 oder 1 annehmen k¨onnen. Dabei k¨onnte 0 beispielsweise f¨ ur falsch bearbeitet“ und 1 f¨ ur richtig bearbeitet“ stehen. Werden ” ” insgesamt 30 Fragen beantwortet, so l¨ asst sich dies dann u ¨ber B(1, π)-verteilte Zufallsvariablen X1 , . . . , X30 modellieren, wobei der Parameter π der Wahrscheinlichkeit einer richtigen Beantwortung entspricht. Nehmen wir zus¨atzlich noch an, dass die einzelnen Fragen unabh¨angig voneinander bearbeitet werden, lautet der vollst¨andige Modellansatz: X1 , . . . , X30 sind unabh¨ angige B(1, π)-verteilte Zufallsvariablen. F¨ ur einen ausschließlich ratenden Studenten, der jede einzelne Frage quasi durch Werfen einer M¨ unze ( Kopf“ f¨ ur richtig“ und Zahl“ f¨ ur falsch“) bearbeitet, gilt dann π = 0.5. ” ” ” ” Aus Sicht des Pr¨ ufers ist ein Student nur dann besser als ein ratender Student, falls π > 0.5 als Hypothese plausibel erscheint. Ein wissender Student muss langfristig“ also ” mehr als die H¨alfte aller Aufgaben richtig bearbeiten. Die Entscheidungsalternativen lauten somit: Raten: π = 0.5 versus (vs.)

Wissen: π > 0.5.

Diese zwei Entscheidungsalternativen heißen in der statistischen Testtheorie Nullhypothese, kurz H0 , und Alternativhypothese oder Alternative, kurz H1 . Kurz notiert man das mit H0 : π = 0.5 vs. H1 : π > 0.5. F¨ ur den Pr¨ ufer ist es zun¨ achst am wichtigsten zu vermeiden, dass ein ausschließlich ratender Student als wissend eingestuft und belohnt wird. Formal ausgedr¨ uckt m¨ochte er sich also nicht irrt¨ umlich f¨ ur H1 entscheiden, falls in Wirklichkeit H0 vorliegt. Die ausschlaggebende Statistik, anhand derer in diesem Fall die Entscheidung gef¨allt wird, ist die Summe aller korrekt bearbeiteten Aufgaben, also S30 =

30 X

Xi .

i=1

Sofern H0 zutrifft, d.h. π = 0.5 wahr ist, gilt: S30

π=0.5

∼ B(30, 0.5).

11.1 Was versteht man unter einem Test?

513

Die Anzahl richtiger Antworten eines ausschließlich ratenden Studenten ist B(30, 0.5)verteilt. Das linke Schaubild von Abbildung 11.1.1 illustriert diese Verteilung. Abb. 11.1.1: Einseitiger oberer Binomialtest – Testverteilung und Simulation S 30

P (S 30 = s )

Anzahl richtiger Antworten

0.15 0.10

95.1%

30 25 20 15 10 5 0

4.9%

0.05 0.00 0

5

10

15

s

20

25

30

Verwerfung von H 0

Beibehaltung von H 0 0

20

40

60

80

100

Student Nr.

Die Wahrscheinlichkeit, dass durch pures Raten beispielsweise mehr als 19 Fragen richtig beantwortet werden, ergibt sich aus der Summe der Einzelwahrscheinlichkeiten der Tr¨agerpunkte von 20 bis 30 und betr¨ agt gerundet 4.9%. Wir sehen, dass durch pures Raten jede noch so große Anzahl richtiger Antworten mit positiver Wahrscheinlichkeit realisiert werden kann. Im Entscheidungszwang zwischen H0 und H1 ist es dann naheliegend, sich erst dann f¨ ur H1 (Wissen) zu entscheiden, wenn H0 sehr unwahrscheinlich erscheint. Legt der Pr¨ ufer beispielsweise fest, dass erst ab 20 richtig bearbeiteten Fragen Wissen unterstellt wird, so betr¨ agt die Wahrscheinlichkeit einer Fehlentscheidung knapp 5%. Genauer gesagt ist dies die Wahrscheinlichkeit irrt¨ umlich Wissen zu unterstellen, falls tats¨achlich nur geraten wurde. Das rechte Schaubild von Abbildung 11.1.1 illustriert diesen Sachverhalt anhand einer Simulation. Die einzelnen Punkte markieren jeweils die erreichte Anzahl richtiger Bearbeitungen von insgesamt N = 100 ausschließlich ratenden Studenten. Wir sehen, dass der Wert 19 genau 4 Mal zuf¨allig u ¨bersprungen wurde. Mit steigender Anzahl ratender Studenten, d.h. mit wachsendem N , sollte der Anteil der Studenten mit mindestens 20 korrekten Antworten gegen die Wahrscheinlichkeit P (S30 ≥ 20) ≈ 0.049 stochastisch konvergieren (Satz von Bernoulli). Der Wert, welcher die Entscheidungsgrenze zwischen H0 und H1 bildet, wird als ¨ kritischer Wert bezeichnet. Wir notieren diesen hier mit c. Ublicherweise geh¨ort der kritische Wert selbst noch zum Annahmebereich von H0 . Entscheidet sich der Pr¨ ufer also ab dem Wert 20 f¨ ur H1 , so lautet der kritische Wert c = 19. Insgesamt lautet die formale Entscheidungsregel dann: Falls S30 > 19, wird H0 verworfen (Entscheidung f¨ ur H1 ) falls S30 ≤ 19, wird H0 beibehalten. Eine solche Entscheidungsregel stellt den Kern des Testverfahrens dar. Speziell handelt es sich im vorliegenden Fall um einen exakten Binomialtest, wobei man einseitig ” nach oben“ testet. Die allgemeine Struktur der verschiedenen Varianten dieses Tests wird sp¨ater in Abschnitt 11.3.4 beschrieben. Die f¨ ur einen Test maßgebliche Statistik wird als Teststatistik oder Pr¨ ufgr¨ oße bezeichnet. Die Verteilung der Teststatistik unter dem maßgeblichen Nullhypothesenwert heißt Testverteilung . Im vorliegenden

514

11 Statistisches Testen

Fall ist die Teststatistik also die Summe S30 und die Testverteilung eine B(30, 0.5)Verteilung. Die maximale Irrtumswahrscheinlichkeit eines Tests, sich f¨alschlicherweise f¨ ur H1 zu entscheiden, falls H0 wahr ist, heißt Testniveau oder Signifikanzniveau und wird u ur ¨blicherweise mit α notiert. Im vorliegenden Fall betr¨agt das Testniveau f¨ c = 19 also α = 0.049 und w¨ are f¨ ur gr¨ oßeres c entsprechend kleiner. Im Falle einer Verwerfung von H0 spricht man auch von einem signifikanten (bedeutsamen) Ergebnis. Allerdings erweist sich die Verwendung dieses Begriffs als problematisch (vgl. hierzu die Ausf¨ uhrungen in Abschnitt 11.2.4). Somit kommen wir nun endlich zur Beantwortung der Ausgangsfrage. Sofern ein Student 19 von 30 Fragen korrekt beantwortet, kann im Rahmen der eben vorgestellten Entscheidungsregel bei einem Niveau von 4.9% kein Wissen unterstellt werden. Die gezeigte Leistung ist nicht signifikant. Die Anzahl korrekter Antworten ist noch nicht groß genug, um den Vorwurf reiner Zuf¨ alligkeit verwerfen zu k¨onnen. Bei einem Testniveau von ca. 10% (c = 18) oder mehr w¨ are dies allerdings m¨oglich. Jedoch stellt sich dann die Frage, ob die Einr¨ aumung einer Irrtumswahrscheinlichkeit von 10% nicht schon zu groß w¨are. • Beispiel 11.1.2: Kein R¨ uckgang vs. R¨ uckgang • Gegeben sei eine ¨ahnliche Situation wie in Beispiel 1.2.1. Studierende werden zu ihrer Zufriedenheit mit der Mensa befragt. Angenommen, die Zufriedenheitsquote lag in einem vorhergehenden Jahr bei 80%. In einer Blitzumfrage ¨ außerten sich aktuell nun 15 von 20 Befragten zufrieden. Dies entspricht einem aktuellen Anteil von nur noch 75%. Ist damit die Zufriedenheit unter allen Studierenden in der Grundgesamtheit nun tats¨achlich zur¨ uckgegangen? Zun¨achst einmal ist klar, dass das Ergebnis jeder Stichprobe zuf¨allig ist. So ist es im vorliegenden Fall durchaus denkbar, dass die Zufriedenheitsquote in der Grundgesamtheit tats¨achlich unver¨ andert bei 80% liegt oder gar gestiegen ist. Die Frage, die sich quasi stellt, ist somit, ob 75% bei einem Stichprobenumfang von 20 signifikant (bedeutsam) weniger sind als 80%. Ab welchem Anteilswert erscheint es plausibel genug, auf einen R¨ uckgang der Zufriedenheit zu schließen? Sicherheit gibt es auch hier wieder nicht. Wir k¨onnen am Ende einen R¨ uckgang der Zufriedenheit unterstellen, obwohl diese konstant geblieben oder sogar gestiegen ist. Genauso k¨onnen wir aber auch bei der Auffassung bleiben, dass die Zufriedenheit nicht gesunken ist, obwohl dies tats¨achlich der Fall ist. Abb. 11.1.2: Einseitiger unterer Binomialtest – Testverteilung und Simulation S 20

P (S 20 = s )

Anzahl Zufriedener

0.25

3.2%

0.20

96.8%

0.15

15

0.10

10

0.05

5

0.00

0 0

5

10

s

15

20

Beibehaltung von H 0

20

Verwerfung von H 0 0

20

40

60

Stichprobe Nr.

80

100

11.1 Was versteht man unter einem Test?

515

Auch f¨ ur dieses Testproblem eignet sich wiederum ein exakter Binomialtest, wobei dieser im Unterschied zum vorhergehenden Beispiel dieses Mal einseitig nach unten ” hin“ durchgef¨ uhrt wird. Die Stichprobe der 20 befragten Studenten wird u ¨ber 20 unabh¨angige B(1, π)-verteilte Stichprobenvariablen X1 , . . . , X20 modelliert, wobei Xi = 1 f¨ ur zufrieden“ und Xi = 0 f¨ ur unzufrieden“ steht. Damit entspricht der Parameter ” ” π gerade der Zufriedenheitsquote in der Grundgesamtheit. Die Testhypothesen lauten dann H0 : π ≥ 0.80 vs. H1 : π < 0.80. Die Teststatistik ist die Summe der Zufriedenen in der Stichprobe, also S20 =

20 X

Xi .

i=1

F¨ ur π = 0.8 ist die Teststatistik B(20, 0.8)-verteilt. Es gilt also: S20

π=0.8

∼ B(20, 0.8).

Das linke Schaubild von Abbildung 11.1.2 illustriert die Testverteilung. Erst wenn die Anzahl von Zufriedenen in der Stichprobe bedeutsam klein“ ist, wird man sich f¨ ur H1 ” entscheiden. Um die Wahrscheinlichkeit eines Irrtums dabei m¨oglichst klein zu halten, wird der kritische Wert am unteren Ende der Verteilung festgemacht. W¨ahlt man etwa c = 13, so betr¨agt die Wahrscheinlichkeit einer Unterschreitung dieses Werts 3.2% f¨ ur π = 0.8. Die Entscheidungsregel lautet dann: Falls S20 < 13, wird H0 verworfen, falls S20 ≥ 13, wird H0 beibehalten. Man beachte, dass sich die Wahrscheinlichkeitsmasse der Verteilung von S20 f¨ ur π > 0.8 weiter nach rechts verschieben w¨ urde. F¨ ur π = 0.9 beispielsweise erhielte man dann eine B(20, 0.9)-Verteilung. Die Wahrscheinlichkeit einer irrt¨ umlichen Entscheidung f¨ ur H1 w¨are f¨ ur Werte π > 0.8 somit auf jeden Fall nicht gr¨oßer als das Testniveau. Das festgelegte Testniveau α = 0.032 bildet somit eine obere Grenze f¨ ur alle Irrtumswahrscheinlichkeiten unter H0 . Das rechte Schaubild von Abbildung 11.1.2 zeigt das Ergebnis einer Simulation. Die einzelnen Punkte markieren jeweils die Anzahl Zufriedener von insgesamt N = 100 simulierten Stichproben vom Umfang n = 20 mit π = 0.8. Wir sehen, dass der kritische Wert genau 3 Mal unterboten wurde. Mit wachsendem N sollte dieser Anteil dann stochastisch gegen α = 0.032 konvergieren. Beantworten wir nun die Ausgangsfrage. Im Rahmen des eben vorgestellten Tests k¨onnen wir bei einem Niveau von 3.2% keinen signifikanten Verlust attestieren. Dies w¨are erst bei 12 oder weniger zufriedenen Studierenden in der Stichprobe der Fall, was dann einer Zufriedenheitsquote von 60% oder weniger entspr¨ache. Aus statistischer Sicht fehlt somit noch einiges, um von einem signifikanten R¨ uckgang der Zufriedenheit sprechen zu k¨onnen. • Beispiel 11.1.3: Norm vs. Abweichung • In der Kunststoffverarbeitung m¨ ussen bei der Herstellung eines bestimmten Produktes ein weißes und ein schwarzes Kunst-

516

11 Statistisches Testen

stoffgranulat im Verh¨ altnis von 2:3 miteinander vermischt werden. Das korrekte Mischungsverh¨altnis wird dabei in regelm¨ aßigen Abst¨anden kontrolliert. Dazu wird mithilfe eines Messbechers der laufenden Produktion eine Stichprobe entnommen, von der dann 500 K¨orner maschinell nach Farben sortiert und ausgez¨ahlt werden. Der Anteil schwarzer K¨orner darf hierbei vom Sollanteil 0.6 nicht signifikant abweichen. Doch wo sind hier die Grenzen zu setzen? Abb. 11.1.3: Zweiseitiger Binomialtest – Testverteilung und Simulation S 500

P (S 500 = s )

Anzahl schwarzer Körner

95.1%

0.04

340

0.03 0.02

Verwerfung von H 0

320 2.5%

2.4%

0.01

280

0.00

260 270

280

290

300

s

310

320

Beibehaltung von H 0

300

330

Verwerfung von H 0 0

20

40

60

Kontrolle Nr.

80

100

Auch hierf¨ ur eignet sich wiederum ein exakter Binomialtest, wobei dieser zweisei” tig“ durchgef¨ uhrt wird. Die Stichprobe wird nun u ¨ber 500 unabh¨angige B(1, π)-verteilte Stichprobenvariablen X1 , . . . , X500 modelliert, wobei Xi = 1 f¨ ur schwarz“ und Xi = 0 ” f¨ ur weiß“ steht f¨ ur i = 1, . . . , 500. Damit entspricht π dem Anteil schwarzer K¨orner in ” der laufenden Produktion. Die Testhypothesen lauten jetzt H0 : π = 0.6 vs. H1 : π 6= 0.6. altnis, sprich unter H0 , gilt dann: Bei korrektem Mischungsverh¨ S500 =

500 X

Xi

π=0.6

∼ B(500, 0.6).

i=1

Das linke Schaubild von Abbildung 11.1.3 illustriert diese Testverteilung auszugsweise. Eine signifikante Abweichung vom Sollwert 300 wird attestiert, sofern ein oberer kritischer u ¨berschritten oder ein unterer kritischer Wert unterschritten wird. W¨ahlt man etwa c1 = 279 als unteren und c2 = 321 als oberen kritischen Wert, so lautet die Entscheidungsregel Falls S500 < 279 oder S500 > 321, wird H0 verworfen, falls 279 ≤ S500 ≤ 321, wird H0 beibehalten. Das implizierte Testniveau ist dann α ≈ 0.049. Dieser Wert entspricht der Wahrscheinlichkeit einer Verwerfung von H0 , obwohl π = 0.6 zutrifft. Er ergibt sich aus der Summe P (S500 < 279) + P (S500 > 321) ≈ 0.025 + 0.024 = 0.049. Die kritischen Werte korrespondieren zu den Anteilswerten 55.8% und 64.2%. Bei einem Testniveau von 4.9% w¨ urde man also erst eine Abweichung von etwas mehr als 4 Prozentpunkten als signifikant erachten und m¨ oglicherweise in die Produktion eingreifen.

11.1 Was versteht man unter einem Test?

517

Das rechte Schaubild von Abbildung 11.1.3 zeigt das Ergebnis einer Simulation. Die einzelnen Punkte markieren jeweils die Anzahl schwarzer K¨orner von insgesamt N = 100 simulierten Kontrollstichproben vom Umfang n = 500 mit π = 0.6. Wir sehen, dass die Pr¨ ufgr¨ oße insgesamt genau 6 Mal außerhalb des Toleranzbereichs lag. Mit wachsendem N sollte dieser Anteil dann stochastisch gegen α = 0.049 konvergieren. Ferner sei bemerkt, dass die beiden kritischen Werte hier nicht mit genau gleicher Wahrscheinlichkeit unter- bzw. u ¨berschritten werden, wenngleich sie symmetrisch um den Sollwert 300 liegen. Dies ist auf die leichte Schiefe der Verteilung zur¨ uckzuf¨ uhren (nur f¨ ur π = 0.5 ist die Binomialverteilung symmetrisch). F¨ ur kleineres n und Werte von π nahe 0 oder 1 ist die Schiefe noch viel deutlicher ausgepr¨agt. In solchen F¨allen k¨onnen die kritischen Werte auch asymmetrisch um den hypothetischen Sollwert gew¨ahlt wer¨ den, sodass Unter- und Uberschreitungswahrscheinlichkeit in etwa gleich sind. Anderenfalls w¨ urde man den beiden Arten von Abweichungen unterschiedliche Wichtigkeit beimessen. • Approximative Binomialtests – nichtstandardisierte Varianten • Jeder exakte Binomialtest l¨ asst sich auch immer approximativ mit der Normalverteilung als Testverteilung durchf¨ uhren, sofern der Stichprobenumfang n groß genug ist. Dies folgt aus den Resultaten des ZGWS, insbesondere aus Satz 7.4.4. Als erstes Beispiel vergegenw¨ artigen wir uns nochmals die Situation des vorhergehenden Beispiels 11.1.3 (Norm vs. Abweichung). Mit Resultat (7.4.37) aus Satz 7.4.4 folgt hier f¨ ur π = 0.6 und n = 500: S500

approx



N (300, 120).

(11.1.1)

In Abbildung 11.1.3 zeichnet sich die Gestalt dieser approximierenden Verteilung bereits deutlich ab. Da nun eine symmetrische und stetige Testverteilung vorliegt, k¨onnen zu jedem vorgegebenen Niveau unterer und oberer kritischer Wert symmetrisch um den Erwartungswert liegend gew¨ ahlt werden. F¨ ur das am h¨aufigsten gew¨ahlte Testniveau von α = 0.05 etwa w¨ahlt man das 0.025- und das 0.975-Quantil der N (300, 120)-Verteilung als kritische Werte. Diese werden mit jeweils 2.5% unter- bzw. u ¨berschritten. Gem¨aß Formel (7.3.22) erhalten wir daf¨ ur √ √ q0.025 = 300 + 120 · z0.025 ≈ 300 − 120 · 1.96 ≈ 278.5 und √ √ q0.975 = 300 + 120 · z0.975 ≈ 300 + 120 · 1.96 ≈ 321.5. ucksichtigung der Tatsache, dass S500 nur ganze Zahlen annehmen kann, lautet Unter Ber¨ die Entscheidungsregel f¨ ur das Testproblem H0 : π = 0.6 vs. H1 : π 6= 0.6 somit: Falls S500 < 279 oder S500 > 321, wird H0 verworfen, falls 279 ≤ S500 ≤ 321, wird H0 beibehalten. Diese Entscheidungsregel ist mit der vorhergehenden des exakten Tests identisch, wobei lediglich das Testniveau mit α = 0.05 minimal h¨oher ist. Da dieses allerdings ja auch nur approximativ erf¨ ullt ist, sind die beiden Tests aufgrund der guten Approximation mit der Normalverteilung f¨ ur n = 500 ¨ aquivalent.

518

11 Statistisches Testen

Analog ließe sich in der Situation von Beispiel 11.1.1 (Raten vs. Wissen) verfahren. Hier folgt f¨ ur π = 0.5 und n = 30 zun¨ achst das approximative Resultat: S30

approx



N (15, 7.5).

(11.1.2)

ahlt man hier f¨ ur das Testproblem Bei einem Testniveau von α = 0.05 w¨ H0 : π = 0.5 vs. H1 : π > 0.5 das 0.95-Quantil der N (15, 7.5)-Verteilung als kritischen Wert: √ √ q0.95 = 15 + 7.5 · z0.95 ≈ 15 + 7.5 · 1.64 ≈ 19.5. ucksichtigung der Tatsache, dass S30 nur ganze Zahlen annehmen Wiederum unter Ber¨ kann, lautet die Entscheidungsregel dann: Falls S30 > 19, wird H0 verworfen, falls S30 ≤ 19, wird H0 beibehalten. Auch diese Entscheidungsregel ist mit der des exakten Tests zum Niveau 4.9% identisch. F¨ ur die Situation von Beispiel 11.1.2 (Kein R¨ uckgang vs. R¨ uckgang) erhalten wir f¨ ur π = 0.8 und n = 20: S20

approx



N (16, 3.2).

(11.1.3)

Man beachte, dass mit n = 20 < 30 die Faustregel zur Zul¨assigkeit der Approximation eigentlich noch nicht erf¨ ullt ist. Bei einem Testniveau von α = 0.05 w¨ahlt man hier f¨ ur das Testproblem H0 : π ≥ 0.8 vs. H1 : π < 0.8 das 0.05-Quantil der N (16, 3.2)-Verteilung als kritischen Wert: √ √ q0.05 = 16 + 3.2 · z0.05 ≈ 16 − 3.2 · 1.64 ≈ 13.1. Die Entscheidungsregel lautet dann: Falls S20 < 14, wird H0 verworfen, falls S20 ≤ 14, wird H0 beibehalten. Der kritische Wert dieser Entscheidungsregel w¨are um 1 gr¨oßer als die des exakten Tests zum Niveau 3.2% in Beispiel 11.1.2. Bei der Wahl eines Testniveaus von α = 0.03 oder gar α = 0.031 w¨ urde man mit q0.03 = 12.6 bzw. q0.031 = 12.7 jedoch die identische Entscheidungsregel erhalten. Allerdings sind Tests zu solchen Niveaus eher un¨ ublich (vgl. Abschnitt 11.1.2). Abbildung 11.1.4 illustriert in den oberen drei Schaubildern die verschiedenen Testvarianten der soeben beschriebenen Beispiele. Die Dichtefunktionen wurden jeweils mit einem Schlangensymbol notiert, um herauszustellen, dass diese die jeweiligen Summenverteilungen approximieren, aber nicht exakt widergeben. ¨ • Approximative Binomialtests - standardisierte Varianten • Ublicherweise werden die aus Bernoulli-Variablen gebildeten Summenausdr¨ ucke approximativer Binomialtests standardisiert. Dies hat den Vorteil, dass man ausschließlich mit der Standardnormalverteilung als Testverteilung arbeiten kann.

11.1 Was versteht man unter einem Test?

519

Abb. 11.1.4: Approximative Binomialtests – Testverteilungen S 30

~ f S 30 (s ) 0.15

0.04 0.03

0.15 95%

0.05

0.10

5%

5

10

15

20

s

25

Z 30

~ f Z 30 (z )

5%

0.05

N (15, 7.5)

0.00

0.02

95% N (16, 3.2)

10

12

14

16

s

18

20

22

Z 20

~ f Z 20 (z )

0.00 260

0.4

0.3

0.3

0.3

0.1 0.0

0.2

5%

0.1

N (0, 1) −3 −2 −1

0

z

5%

1

2

3

0.0

0.1

N (0, 1) 0

z

1

2

3

0.0

2.5%

N (300, 120) 280

300

320

s

340

Z 500

0.2 2.5%

95%

−3 −2 −1

95%

~ f Z 500 (z )

0.4

95%

2.5%

0.01

0.4

0.2

S 500

~ f S 500 (s )

0.20

0.10

0.00

S 20

~ f S 20 (s )

95%

2.5%

N (0, 1) −3 −2 −1

0

z

1

2

3

Betrachten wir die im vorhergehenden Punkt beschriebene Entscheidungsregel zu Beispiel 11.1.1 (Raten vs. Wissen) nochmals genauer. Das Testproblem hierzu lautete H0 : π = 0.5 vs. H1 : π 6= 0.5. Falls S30 > 15 +



7.5 · z0.95 ,

(11.1.4)

wird H0 verworfen, sonst nicht. Diese Verwerfungsregel (Ungleichung) kann nun ¨aquivalent umgeformt werden zu S30 − 15 √ (11.1.5) > z0.95 ≈ 1.64. 7.5 Anstelle der Summe kann man also auch immer die standardisierte Summe als Teststatistik verwenden, wobei dann Quantile aus der Standardnormalverteilung als kritische Werte verwendet werden. Hierzu beachte man, dass aufgrund von Resultat (11.1.2) gilt: S30 − 15 a Z30 ∼ N (0, 1) mit Z30 = √ . (11.1.6) 7.5 Die N (0, 1)-Verteilung ist somit die auf der standardisierten Summe basierende (approximative) Testverteilung. Bearbeitet ein Student also etwa 19 der 30 Fragen korrekt, so ergibt dies gem¨aß (11.1.5) als Wert der Teststatistik 19 − 15 z30 = √ ≈ 1.46 < 1.64. (11.1.7) 7.5 Dieser liegt unterhalb des kritischen Wertes. Somit wird H0 nicht verworfen. V¨ollig

520

11 Statistisches Testen

analog kann man in den Beispielen 11.1.2 und 11.1.3 verfahren. Allgemein geht man bei approximativen Binomialtests von n unabh¨angigen B(1, π)-verteilten Stichprobenvariablen X1 , . . . , Xn aus. F¨ ur großes n gilt dann f¨ ur einen hypothetischen Wert π = π0 : n X approx Sn = Xi ∼ N (nπ0 , nπ0 (1 − π0 )) und (11.1.8) i=1

Zn = p

Sn − nπ0 nπ0 (1 − π0 )

a

∼ N (0, 1).

(11.1.9)

Dividiert man nun Z¨ ahler und Nenner von Zn in (11.1.9) jeweils durch n, erh¨alt man n X ¯ n − π0 X a ¯n = 1 Xi . (11.1.10) Zn = p ∼ N (0, 1) mit X n i=1 π0 (1 − π0 )/n Ein approximativer Binomialtest l¨ asst sich folglich auch immer u ¨ber das standardisierte Stichprobenmittel durchf¨ uhren, welches mit der standardisierten Summe u ¨bereinstimmt. F¨ ur Beispiel 11.1.1 erh¨ alt man gem¨ aß (11.1.10) ¯ 30 − 0.5 X Z30 = p . 0.5 · 0.5/30 Man beachte, dass das Stichprobenmittel dem relativen Anteil von Einsen in der Stichprobe entspricht. Bearbeitet ein Student also 19 der 30 Fragen korrekt, so entspricht dies einem Anteilswert von 19/30 ≈ 0.633 und ergibt mit 19/30 − 0.5 z30 = p ≈ 1.46 0.5 · 0.5/30 genau den gleichen Wert wie zuvor. Analog lassen sich in den Beispielen 11.1.2 und 11.1.3 die Teststatistiken ¯ 20 − 0.8 ¯ 500 − 0.6 X X Z20 = p bzw. Z30 = p . 0.8 · 0.2/20 0.6 · 0.4/500 verwenden, wobei die kritischen Werte der N (0, 1)-Verteilung entnommen werden. Abbildung 11.1.4 illustriert in den unteren drei Schaubildern die verschiedenen standardisierten Testvarianten der soeben beschriebenen Beispiele. Wie zuvor wurden die Dichtefunktionen mit Schlangensymbol f¨ ur die Approximation notiert. Diese stellen Spezialf¨alle approximativer Gauß-Tests dar. Eine allgemeine Zusammenfassung f¨ ur die verschiedenen Testvarianten findet sich in Abschnitt 11.3.4. • Beispiel 11.1.4: Keine Wirkung vs. Wirkung • Gegeben sei das Pflanzenexperiment aus Beispiel 9.1.3 (fortgesetzt mit Beispiel 10.2.3). Wie l¨asst sich hier statistisch pr¨ ufen und entscheiden, ob ein gemessener Unterschied zwischen den beiden Behandlungsgruppen signifikant oder m¨ oglicherweise nur Zufall ist? Ab wann kann man von einer systematischen Wirkung der D¨ ungung ausgehen? Unter Verwendung der eingef¨ uhrten Notation gilt unter der Annahme normalverteilter Wuchsh¨ohen, einer homoskedastischen Varianz σ 2 und n0 = n1 = 3:  2σ 2  Y¯1 − Y¯0 ∼ N µ1 − µ0 , . (11.1.11) 3

11.1 Was versteht man unter einem Test?

521

Dies folgt mit Resultat (10.2.16). Da die Differenz der beiden Stichprobenmittel eine geeignete Statistik darstellt, anhand der sich eine m¨ogliche Wirkung ablesen l¨asst, kann diese auch als Teststatistik verwendet werden. Das Testproblem keine Wirkung vs. ” Wirkung“ l¨asst sich innerhalb dieses Modellrahmens dann ausdr¨ ucken als H0 : µ0 = µ1 vs. H1 : µ0 6= µ1 oder ¨aquivalent H0 : µ1 − µ0 = 0 vs. H1 : µ1 − µ0 6= 0. Unter H0 gilt dann:  2σ 2  Y¯1 − Y¯0 ∼ N 0, . (11.1.12) 3 Sofern die D¨ ungung also keine Wirkung hat, sollte die Stichprobendifferenz mit Varianz 2σ 2 /3 um den Erwartungswert 0 normalverteilt sein. Diese Verteilung definiert die Testverteilung, aus der die kritischen Werte entnommen werden. Im vorliegenden Fall sprechen besonders große und besonders kleine Werte f¨ ur eine systematische Wirkung, sprich f¨ ur eine Verwerfung von H0 . ¨ Aquivalent dazu kann wie beim approximativen Binomialtest die Teststatistik auch wieder standardisiert werden. Teststatistik und Testverteilung unter H0 ergeben sich dann als Y¯1 − Y¯0 ZD = p (11.1.13) ∼ N (0, 1). 2σ 2 /3 Die Testverteilung ist dann eine Standardnormalverteilung. Aus dieser werden die kritischen Werte entnommen. Zum Niveau α = 0.05 mit den kritischen Werte z0.025 ≈ −1.96 und z0.975 ≈ 1.96 etwa lautet die Entscheidungsregel dann: Falls ZD < −1.96 oder ZD > 1.96, wird H0 verworfen, falls −1.96 ≤ ZD ≤ 1.96, wird H0 beibehalten. Das linke Schaubild von Abbildung 11.1.5 illustriert den Test, der zugleich ein Beispiel eines zweiseitigen Gauß-Tests f¨ ur Erwartungswertdifferenzen ist (vgl. Abschnitt 11.3.2). Abb. 11.1.5: Zweiseitiger Gauß-Test und zweiseitiger t-Test – Testverteilungen ZD

f Z D (z )

~ TD

f T~D (t )

0.4

0.4

0.3

0.3

0.2

2.5%

95%

0.1

0.2

2.5%

−4

−3

−2

−1

0

z

95%

0.1

N (0, 1)

0.0

2.5%

t (4)

0.0 1

2

3

4

2.5%

−4

−3

−2

−1

0

1

2

3

4

t

Der Verwendung des Gauß-Tests steht jedoch entgegen, dass die Varianz σ 2 in den meisten F¨allen in der Praxis unbekannt ist. Hiermit ergibt sich dann eine vergleichbare

522

11 Statistisches Testen

Situation wie in Beispiel 10.2.3 bei der Konstruktion eines Konfidenzintervalls f¨ ur µ1 −µ0 bei unbekannter Varianz. Die Varianz wird dann anhand der Stichprobe gesch¨atzt. Bei homoskedastischer Varianz verwendet man hierf¨ ur den Sch¨atzer 1 Sp2 = (n0 S˜02 + n1 S˜12 ). n0 + n1 − 2 Gem¨aß Resultat (10.2.20) gilt dann unter H0 : Y¯1 − Y¯0 ∼ t(n0 + n1 − 2). T˜D = q Sp2 /n0 + Sp2 /n1 Im vorliegenden Fall mit n0 = n1 = 3 ergibt sich daraus konkret Y¯1 − Y¯0 T˜D = q ∼ t(4). 2Sp2 /3 Die Testverteilung ist eine t(4)-Verteilung. Zum Niveau α = 0.05 lauten die kritischen Werte t4,0.025 ≈ −2.78 und t4,0.975 ≈ 2.78. Die Entscheidungsregel ist dann gegeben durch: Falls T˜D < −2.78 oder T˜D > 2.78, wird H0 verworfen, falls −2.78 ≤ T˜D ≤ 2.78, wird H0 beibehalten. Das rechte Schaubild von Abbildung 11.1.5 illustriert den Test. Dieser ist zugleich ein Beispiel eines zweiseitigen t-Tests f¨ ur Erwartungswertdifferenzen ist (vgl. Abschnitt 11.3.2). Man beachte, dass die t(4)-Verteilung ¨ahnlich zur Normalverteilung ist. Sie besitzt (wie jede t-Verteilung) in den R¨ andern jedoch etwas mehr Wahrscheinlichkeitsmasse (n¨ahere Details zur t-Verteilung finden sich in Abschnitt 8.1.2). Damit fallen bei gleichem Testniveau die kritischen Werte stets gr¨oßer aus als bei einem Gauß-Test. Dies liegt daran, dass das Sch¨ atzen der Varianz eine gr¨oßere Streuung der Teststatistik verursacht. Somit muss die Stichprobendifferenz gr¨oßer ausfallen als bei bekannter Varianz, um noch als signifikant zu gelten. Als konkretes Rechenbeispiel betrachten wir nochmals die Daten aus Beispiel 10.2.3. F¨ uhren wir hier einen zweiseitigen t-Test durch, erhalten wir mit y¯1 − y¯0 = 30 und s2p = 101 als Wert der Teststatistik 30 T˜D = p = 3.66 > 2.78. 2 · 101/3 Somit kann H0 verworfen werden. Bei einem Niveau von 5% ist der Unterschied von 30 cm signifikant. Folglich kann von einer Wirkung der D¨ ungung ausgegangen werden. • Statistische Testtheorie • Die Kunst des Testens besteht darin, f¨ ur ein Testproblem eine geeignete Teststatistik zu finden, die unter der Nullhypothese einer wohldefinierten Verteilung gen¨ ugt. Nur so lassen sich dann sinnvolle Entscheidungsgrenzen begr¨ unden. Mit der Frage, wie man f¨ ur bestimmte Testprobleme allgemein sinnvolle ¨ Testverfahren konstruieren kann, befasst sich die statistische Testtheorie. Ahnlich wie beim Vergleich von Sch¨ atzern lassen sich auch f¨ ur statistische Tests bestimmte G¨ ute-

11.1 Was versteht man unter einem Test?

523

und Optimalit¨atskriterien formulieren, auf die wir hier im engeren Sinne jedoch nicht eingehen werden. Dazu sei lediglich bemerkt, dass die hier vorgestellten Testverfahren aus theoretischer Sicht bereits optimal oder zumindest weitgehend optimiert“ sind. ” Dennoch setzt die sachgerechte Anwendung statistischer Tests die Ber¨ ucksichtigung einiger wichtiger theoretischer Aspekte voraus. Einige besonders wichtige davon werden deshalb sp¨ater in Abschnitt 11.2 vertieft besprochen. Eine umfassende mathematische Behandlung der Testtheorie bietet etwa das klassische Lehrbuch Testing Statistical Hy” potheses“ von Lehmann und Romano [2008]. Lehmann ver¨offentlichte die erste Ausgabe dieses Buches bereits 1959. Daran schloss er 1983 mit der Theory of Point Estimation“ ” sein zweites großes Lehrbuch zur induktiven Statistik an.

11.1.2 Grundstruktur und Durchfu ¨ hrung ¨ • Uberblick • Die Grundstruktur eines statistischen Tests ist im Prinzip immer gleich. Im Folgenden soll dies anhand der Beispiele des vorhergehenden Abschnitts, hier als (B1)–(B4) bezeichnet, nochmals in kompakter Form verdeutlicht werden. Die allgemeine Grundstruktur kann in folgende 5 Bestandteile zerlegt werden: • das statistische Entscheidungsproblem, • das statistische Modell, • die Teststatistik und die Testverteilung, • das Testniveau und die Entscheidungsregel, • die Testdurchf¨ uhrung und die Testentscheidung. Art und Strenge der Testdurchf¨ uhrung h¨ angen dabei von der eigentlichen Zielsetzung ab. Darauf gehen wir im letzten Punkt ein. • Statistisches Entscheidungsproblem • Zu jedem statistischen Test gibt es ein statistisches Problem in Form eines Entscheidungsproblems zwischen zwei Hypothesen. B1: B2: B3: B4:

Multiple Choice Mensa-Befragung Qualit¨ atskontrolle Pflanzenexperiment

Raten vs. Wissen Kein R¨ uckgang vs. R¨ uckgang Norm vs. Abweichung Keine Wirkung vs. Wirkung

• Statistisches Modell • Im Rahmen eines statistischen Modells werden die beiden Entscheidungsm¨oglichkeiten in geeigneter Weise u ¨ber die Modellparameter als Nullhypothese (H0 ), und Alternativhypothese (H1 ) formuliert. Welche der beiden M¨oglichkeiten dabei als Nullhypothese formuliert wird, ist ein außerordentlich wichtiger Gesichtspunkt, auf den wir in Abschnitt 11.2.1 n¨ aher eingehen.

524

11 Statistisches Testen B1 B2 B3 B4

Modellrahmen: X1 , . . . , X30 unabh¨angig B(1, π)-verteilt Testproblem: H0 : π = 0.5 vs. H1 : π > 0.5. Modellrahmen: X1 , . . . , X20 unabh¨angig B(1, π)-verteilt Testproblem: H0 : π ≥ 0.8 vs. H1 : π < 0.8. Modellrahmen: X1 , . . . , X500 unabh¨angig B(1, π)-verteilt Testproblem: H0 : π = 0.6 vs. H1 : π 6= 0.6. Modellrahmen: Y01 , Y02 , Y03 unabh¨angig N (µ0 , σ 2 )-verteilt und Y11 , Y12 , Y13 unabh¨angig N (µ1 , σ 2 )-verteilt Testproblem: H0 : µ0 = µ1 vs. H1 : µ0 6= µ1 .

• Teststatistik und Testverteilung • Anhand einer geeigneten Teststatistik (Pr¨ ufgr¨ oße) l¨asst sich sinnvoll beurteilen, ob H0 verworfen werden soll oder nicht. Dazu muss sie unter einem maßgeblichen Nullhypothesenwert (i.d.R. der Schwellenwert zwischen H0 und H1 ) einer bekannten Verteilung gen¨ ugen. Diese wird als Testverteilung (Pr¨ ufverteilung ) bezeichnet. B1: B2:

S30 = S20 =

30 P i=1 20 P

Xi ∼ B(30, 0.5) f¨ ur π = 0.5. Xi ∼ B(20, 0.8) f¨ ur π = 0.8.

i=1 500 P

B3:

S500 =

∼ B(500, 0.6) f¨ ur π = 0.6.

B4:

T˜D =

∼ t(4) f¨ ur µ0 = µ1 .

Xi i=1 Y¯1 −Y¯0 √ 2Sp2 /3

• Testniveau und Entscheidungsregel • Maßgeblich zur Festlegung der Entscheidungsgrenzen ist das Testniveau oder Signifikanzniveau. Die Wahrscheinlichkeit, sich irrt¨ umlich f¨ ur H1 zu entscheiden, obwohl H0 wahr ist, bezeichnet man als Irrtumswahrscheinlichkeit 1. Art; die maximale Irrtumswahrscheinlichkeit 1. Art als Testniveau. Bei zusammengesetzten Nullhypothesen, d.h. wenn die Nullhypothese nicht nur aus einem einzelnen Wert besteht, wie etwa bei H0 : π ≥ 0.80 in (B2), sind also alle Irrtumswahrscheinlichkeiten 1. Art kleiner oder gleich dem Testniveau. N¨ahere Hinweise dazu finden sich in Abschnitt 11.2.2. Zu einem vorgegebenen Testniveau werden dann passende Quantile der Testverteilung als Entscheidungsgrenzen verwendet. Diese heißen kritische Werte. Sie trennen den Annahmebereich und den kritischen Bereich der Testverteilung. Unter dem Annahmebereich versteht man die Menge aller Werte der Teststatistik, f¨ ur die H0 beibehalten wird. Der kritische Bereich ist entsprechend die Menge aller Werte der Teststatistik, f¨ ur die H0 verworfen wird. Beispielsweise w¨aren im Fall (B1) Annahmebereich und kritischer Bereich gegeben durch {0, 1, 2, . . . , 19} bzw. {20, 21, . . . , 30}. Beide zusammen implizieren die zum vorgegebenen Testniveau g¨ ultige Entscheidungsregel , den eigentlichen Kern des Tests.

11.1 Was versteht man unter einem Test? B1

Testniveau: Entscheidungsregel:

B2

Testniveau: Entscheidungsregel:

B3

Testniveau: Entscheidungsregel:

B4

Testniveau: Entscheidungsregel:

525

α = 0.049. Falls S30 > 19, verwerfe H0 , falls S30 ≤ 19, behalte H0 bei. α = 0.032. Falls S20 < 13, verwerfe H0 , falls S20 ≥ 13, behalte H0 bei. α = 0.049. Falls S500 < 279 oder S500 > 321, verwerfe H0 , falls 279 ≤ S500 ≤ 321, behalte H0 bei. α = 0.05. Falls T˜D < −2.78 oder T˜D > 2.78, verwerfe H0 , falls −2.78 ≤ T˜D ≤ 2.78, behalte H0 bei.

• Testdurchf¨ uhrung und Testentscheidung • Im letzten Schritt wird f¨ ur konkret vorliegende Daten die Teststatistik berechnet und anhand der gew¨ahlten Entscheidungsregel eine Entscheidung gef¨ allt. Wird hierbei H0 verworfen und H1 angenommen, so gilt das in H1 repr¨asentierte Ergebnis als signifikant. Anderenfalls bleibt man lediglich bei H0 . Das in H0 repr¨ asentierte Ergebnis wird also nicht als signifikant bezeichnet. Zu den Hintergr¨ unden dieser asymmetrischen Auslegung beachte man die Ausf¨ uhrungen in Abschnitt 11.2.1. B1 B2 B3 B4

Sofern von 30 Fragen mindestens 20 korrekt beantwortet werden, liegt bei einem Niveau von 4.9% signifikantes Wissen vor. Sofern weniger als 13 von 20 Befragten die Mensa pr¨aferieren, ist ihr Anteil bei einem Niveau von 3.2% signifikant geringer als 80%. Sofern mehr als 321 oder weniger als 279 von 500 K¨ornern schwarz sind, weicht dies bei einem Niveau von 4.9% signifikant vom Normanteil 0.6 ab. Sofern T˜D den Wert 2.78 betragsm¨ aßig u ungung ¨berschreitet, wirkt sich die D¨ bei einem Niveau von 5% signifikant auf das Wachstum aus.

Definition 11.1.1: Statistischer Test Ein statistischer Test ist eine auf einer Stichprobe basierende Entscheidungsregel, die zugunsten einer der beiden Hypothesen eines Testproblems eine Entscheidung herbeif¨ uhrt. • Deskriptiv vs. konfirmatorisch • In vielen Situationen werden Testniveaus erst nach Erhebung der Daten (ex post) gekl¨ art. Im Hinblick auf die dann vorliegenden Daten fragt man sich dabei, zu welchem Niveau man bestimmte Nullhypothesen noch verwerfen k¨onnte bzw. welche signifikanten Sachverhalte sich u ¨berhaupt finden lassen. In dieser Weise werden Tests quasi deskriptiv oder explorativ verwendet. Je nach Ergebnis ist dann etwa von nicht signifikanten, signifikanten oder hoch signifikanten“ Resultaten ” die Rede. Solche ex post beobachteten oder feststellbaren Testniveaus bezeichnet man als p-Werte. Auf diese gehen wir in Abschnitt 11.2.3 n¨aher ein.

526

11 Statistisches Testen

Es gibt jedoch auch Situationen, in denen die Testdurchf¨ uhrung einem vorher (a priori) genau festgelegten Ablauf folgen muss. Hier sei vor allem auf die Tests im Zusammenhang klinischer Studien vor der Marktzulassung von Medikamenten verwiesen (vgl. etwa Schuhmacher und Schulgen [2008]). Die Durchf¨ uhrung biometrischer Tests zu Wirksamkeit und Risiko von Medikamenten unterliegt strengen gesetzlichen Vorschriften. F¨ ur die genaue Einhaltung spezifischer Normen gelten vor der Datenerhebung festgelegte Signifikanzniveaus, die ex post auf keinen Fall mehr ver¨andert werden d¨ urfen. Um jegliche Manipulation auszuschließen, m¨ ussen hier auch Versuchs- und Testdesign a priori festgelegt, detailliert beschrieben und teils notariell hinterlegt werden. Generell gestalten sich statistische Tests, mit denen man gezielt spezifische Forschungshypothesen nachzuweisen oder zu widerlegen versucht, als deutlich st¨arker geregelt als deskriptive ” Tests“ f¨ ur bereits vorliegende Daten. Zur Hervorhebung ihrer Nachweisfunktion“ wer” den solche Tests manchmal als konfirmatorische Tests bezeichnet. Auch wenn deren sachgerechte Durchf¨ uhrung nicht immer beh¨ ordlich u ¨berwacht wird, gilt es doch den Eindruck zu vermeiden, Daten und Testverfahren seien bewusst so ausgew¨ahlt und verarbeitet ( manipuliert“) worden, um bestimmte gew¨ unschte Resultate herbeizuf¨ uhren. ” Man denke in diesem Zusammenhang nur etwa an die vielen Kausalit¨atsstudien im Zusammenhang (potenziell) krebserzeugender Stoffe oder Lebensmittel.

11.1.3 Zusammenhang zur Intervallsch¨ atzung • Hintergrund • Zwischen Sch¨ atzen und Testen besteht ein enger Zusammenhang. So lassen sich die nicht in einem (1 − α)-Konfidenzintervall f¨ ur einen Parameter θ enthaltenen Werte als verworfene Nullhypothesenwerte zweiseitiger Tests zum Niveau α interpretieren (vgl. Abb. 11.1.6). Alternativ ausgedr¨ uckt, impliziert die mit einem Konfidenzintervall einhergehende Sicherheitswahrscheinlichkeit von 1 − α eine Irrtumswahrscheinlichkeit von α. Angenommen, ein Sch¨ atzer f¨ ur einen Parameter θ sei normalverteilt oder f¨ ur großes n zumindest approximativ normalverteilt, d.h. approx θˆ ∼ N (θ, σ 2ˆ) bzw. θˆ ∼ N (θ, σ 2ˆ). θ

θ

Um auf fortw¨ahrende Fallunterscheidungen verzichten zu k¨onnen, nehmen wir im Folgenden nur den letzteren realistischeren Fall an. Ein Beispiel w¨are hier das Stichprobenmittel als Sch¨ atzer f¨ ur den Erwartungswert, das in großen u.i.v.-Stichproben approximativ normalverteilt ist, d.h. ¯ approx X ∼ N (µ, σ 2 ) mit σ 2 = σ 2 /n. µ ˆ

µ ˆ

Allgemein folgt dann θˆ − θ a ∼ N (0, 1). σθˆ Sei nun σ ˆθˆ ein konsistenter Sch¨ atzer f¨ ur die Standardabweichung σθˆ. Dann gilt nach Slutsky’s Theorem (Satz 8.2.5) θˆ − θ a ∼ N (0, 1). (11.1.14) σ ˆθˆ

11.1 Was versteht man unter einem Test?

527

Aus (11.1.14) erh¨alt man daraus die (approximative) Wahrscheinlichkeitsaussage   θˆ − θ P −z1−α/2 ≤ ≤ z1−α/2 ≈ 1 − α (11.1.15) σ ˆθˆ f¨ ur großes n, die mit entsprechender Umformung zur Formel f¨ ur ein approximatives (1 − α)-Konfidenzintervall f¨ ur θ f¨ uhrt (Abschnitt 10.2.1):   KI = θˆ − z1−α/2 · σ ˆ ˆ, θˆ + z1−α/2 · σ ˆˆ . θ

θ

Andererseits erh¨alt man aus (11.1.14) zugleich eine sinnvolle Teststatistik f¨ ur das Testproblem H0 : θ = θ0 vs. H1 : θ 6= θ0 . Die zu H0 passende (standardisierte) Teststatistik lautet dann θˆ − θ0 Z= . σ ˆθˆ

(11.1.16)

Diese ist gem¨aß (11.1.14) unter H0 approximativ standardnormalverteilt, wobei besonders große und besonders kleine Werte f¨ ur H1 sprechen. Die Entscheidungsregel lautet somit: Falls Z < −z1−α/2 oder Z > z1−α/2 , wird H0 verworfen, falls −z1−α/2 ≤ Z ≤ z1−α/2 , wird H0 beibehalten. Aus dieser Entscheidungsregel und (11.1.15) ist schnell ersichtlich, dass jeder Nullhypothesenwert θ0 beibehalten (nicht verworfen) wird, sofern er im (1−α)-Konfidenzintervall f¨ ur θ enthalten ist: θ0 ∈ KI gilt genau dann, falls |Z| ≤ z1−α/2 . Auf analoge Weise l¨ asst sich auch f¨ ur andere Verteilungen von Sch¨atzern bzw. Teststatistiken ein Zusammenhang zwischen Intervallsch¨atzung und Tests herstellen (vgl. folgendes Beispiel). Zu beachten ist lediglich, dass Test- und Konfidenzniveau, d.h. Irrtums- und Sicherheitswahrscheinlichkeit, zueinander passen m¨ ussen. Zu einem 99%Konfidenzintervall korrespondieren also zweiseitige Tests zum Niveau 1% und zu einem 95%-Intervall zweiseitige Tests zum Niveau 5%. Abb. 11.1.6: Zusammenhang von Konfidenzintervallen und Testentscheidungen H 0: θ = θ0

Verwerfung

Beibehaltung von H 0

Konfidenzintervall

Verwerfung

528

11 Statistisches Testen

• Beispiel 11.1.5 • Betrachten wir als konkretes Beispiel nochmals das Pflanzenexperiment aus Beispiel 9.1.3. Fortgesetzt mit Beispiel 10.2.3 wurde hierf¨ ur ein 95%Konfidenzintervall f¨ ur den D¨ ungeeffekt δ = µ1 − µ0 bestimmt. Notationsm¨aßig den vorhergehenden Ausf¨ uhrungen angepasst, ergab sich dabei f¨ ur n0 = n1 = 3 q q   δˆ − t4,0.975 σ ˆδ2ˆ , δˆ + t4,0.975 σ ˆδ2ˆ ≈ [7.2, 52.8]. Weiter fortgesetzt mit Beispiel 11.1.4 wurde dann das Testproblem H0 : δ = δ0 vs. H1 : δ 6= δ0 mit der Teststatistik δˆ − δ0 T˜D = q , σ ˆδ2ˆ betrachtet, die unter H0 einer t(4)-Verteilung gen¨ ugt. Der Test zum Niveau 5% f¨ ur das Testproblem H0 : δ = 0 vs. H1 : δ 6= 0 uhrte hierbei mit den beiden kritischen Werten −t4,0.975 ≈ −2.79 und t4,0.975 ≈ 2.79 f¨ zur Verwerfung von H0 . Wie man sieht, ist der Wert 0 auch nicht im Konfidenzintervall enthalten. Prinzipiell wird hier jeder außerhalb des Intervalls [7.2, 52.8] liegende Nullhypothesenwert δ0 zum Niveau 5% verworfen und jeder im Intervall liegende Wert nicht verworfen. Satz 11.1.1: Konfidenzintervalle und Tests Es sei KI = [Gu , Go ] ein (1 − α)-Konfidenzintervall f¨ ur einen Parameter θ. Wir betrachten das zweiseitige Testproblem H0 : θ = θ0

vs

H1 : θ 6= θ0 .

(*)

ur (*) erhalten wir dann durch die Entscheidungsregel: Einen α-Niveau-Test f¨ Falls θ0 6∈ KI, wird H0 verworfen, falls θ0 ∈ KI, wird H0 beibehalten.

11.2 Wichtige Aspekte beim Testen Statistische Tests werden in gewisser Weise asymmetrisch konstruiert. So treten Fehlentscheidungen mit unterschiedlich großen Wahrscheinlichkeiten auf. Das Signifikanzniveau eines Tests ist die maximale Irrtumswahrscheinlichkeit 1. Art. Diese gilt es prim¨ar klein zu halten. Gleichzeitig ist man bestrebt, auch die Irrtumswahrscheinlichkeit 2. Art zu minimieren. Dieser Aspekt betrifft die G¨ ute eines Tests. Der p-Wert eines Tests gibt an, zu welchem Testniveau man gerade noch H0 verworfen h¨atte. Stets ist zu beachten, dass Signifikanz nicht automatisch mit inhaltlicher Relevanz einhergeht.

11.2 Wichtige Aspekte beim Testen

529

11.2.1 Hypothesenwahl und Fehlerarten • Arten von Testproblemen • Es gibt viele Arten von Testproblemen, die sich nicht immer zwingend u ucken lassen. Dennoch stellen parametri¨ber Parameterwerte ausdr¨ schen Testprobleme eine wichtige Klasse von Testproblemen dar, die sich terminologisch wie folgt einteilen und benennen lassen: Definition 11.2.1: Typische parametrische Testprobleme Sei θ ein Parameter. Dann bezeichnet man ein Testproblem der Form H0 : θ = θ0 vs. H1 : θ 6= θ0 als zweiseitiges Testproblem und den dazu korrespondierenden Test als zweiseitigen Test ( Test nach unten und oben“). Die Testprobleme ” H0 : θ ≥ θ0 vs. H1 : θ < θ0 und H0 : θ ≤ θ0 vs. H1 : θ > θ0 werden als einseitige Testprobleme bezeichnet und die korrespondierenden Tests als einseitiger unterer Test ( Test nach unten“) und einseitiger oberer Test ” ( Test nach oben“). ” Besteht H0 (H1 ) nur aus einem einzelnen Wert (wie etwa bei einem zweiseitigen Test), so liegt eine einfache Nullhypothese (Alternative) vor. Umfasst H0 (H1 ) hingegen mehrere Werte, so spricht man von einer zusammengesetzten Nullypothese (Alternative). Es sei bemerkt, dass im Falle der Multiple-Choice-Klausur von Beispiel 11.1.1 mit H0 : π = 0.5 vs. H1 : π > 0.5 (Raten vs. Wissen)

(11.2.1)

ebenfalls ein einseitiges Testproblem, jedoch mit einfacher Nullhypothese vorliegt. Dies liegt daran, dass Werte von π < 0.5 ( schlechter als Raten“) wenig sinnvoll erscheinen. ” • Asymmetrische Auslegung von Testentscheidungen • Entscheidungsregeln statistischer Tests wohnt stets eine gewisse Asymmetrie in Bezug auf die Auslegung von Testentscheidungen inne. Vergegenw¨ artigen wir uns dazu nochmals die Situation aus Beispiel 11.1.1 (Raten vs. Wissen). Die Entscheidungsregel des einseitigen oberen Binomialtests zum Niveau 4.9% sieht hier vor, ab 20 korrekten Antworten von Wissen auszugehen und die Hypothese des Ratens zu verwerfen. Denn sofern der kritische Wert u ¨berschritten wird, besteht aus wahrscheinlichkeitstheoretischer Sicht starke Evidenz gegen H0 , da allein durch Raten ein solches Ergebnis nur mit geringer Wahrscheinlichkeit (konkret 4.9%) erzielt werden kann. Gleichzeitig besteht starke Evidenz f¨ ur H1 , also f¨ ur vorhandenes Wissen. Umgekehrt besteht jedoch nicht zwingend starke Evidenz gegen Wissen und starke Evidenz f¨ ur Raten, falls der kritische Wert nicht u ¨berschritten wird. Dies gilt insbesondere dann, falls die Anzahl korrekter Antworten nur knapp unterhalb des kritischen Werts liegt. Wurden beispielsweise genau 19 Fragen korrekt beantwortet, so ist dies bei 30 Fragen zwar schon deutlich mehr als die H¨alfte, zum Ni¨ Sachverhalte veau 4.9% aber eben noch nicht signifikant mehr als die H¨alfte. Ahnliche

530

11 Statistisches Testen

w¨ urden auch f¨ ur Werte wie 18, 17 oder 16 gelten. Erst wenn die Anzahl korrekter Antworte deutlich unterhalb der H¨ alfte (15) liegen w¨ urde, k¨onnte man unter Umst¨anden starke Evidenz gegen Wissen ablesen. Sofern jemand alle 30 Fragen falsch beantwortet, w¨ urde man jedoch sicherlich die gesamte Situation in Frage stellen, da auch dieses Ergebnis bei ausschließlichem Raten sehr unwahrscheinlich erscheint. In ¨ahnlicher Weise l¨ asst sich diese Art von Asymmetrie auch anhand aller anderen bisherig behandelten Beispiele aufzeigen. Allgemein ist festzuhalten, dass statistische Tests stets so konstruiert werden, dass zu einer Verwerfung von H0 starke wahrscheinlichkeitstheoretische Evidenz vorliegen muss, zu einer Beibehaltung jedoch nicht. In textlichen Formulierungen wird diesem Umstand dadurch Rechnung getragen, dass man einerseits von einer Verwerfung von ” H0“ oder Annahme von H1“ spricht, niemals jedoch (zumindest ist es absolut un¨ ublich) ” von einer Verwerfung von H1“ oder Annahme von H0“. Stattdessen spricht man in ” ” letzterem Fall lediglich von einer Beibehaltung von H0“. Damit soll zum Ausdruck ” gebracht werden, dass die Evidenz der Daten gegen H0 einfach noch nicht stark genug ist. Zugleich wird damit aber auch nicht gesagt, dass man von der G¨ ultigkeit von H0 u ¨berzeugt w¨are. Bei Testentscheidungen wird H0 verworfen (abgelehnt) und H1 angenommen, falls H0 sehr unplausibel und H1 sehr plausibel erscheint. Ist dies nicht der Fall, bleibt man bei H0 . • Wahl der Hypothesen • Insbesondere f¨ ur konfirmatorische Tests (vgl. Abschnitt 11.1.2) hat die im vorhergehenden Punkt beschriebene Asymmetrie wichtige Konsequenzen in Bezug auf die Hypothesenwahl. Soll ein bestimmter Sachverhalt mithilfe eines statistischen Tests nachgewiesen werden, so muss das Nachzuweisende stets der Alternativhypothese eines Tests entsprechen und nicht der Nullhypothese. Soll ein bestimmter Sachverhalt hingegen widerlegt werden, so ist es genau umgekehrt. Das zu Widerlegende muss dann als Nullhypothese formuliert werden. Denn Nachweise ( Bewei” se“) und Widerlegungen ( Gegenbeweise“) erscheinen nur vor dem Hintergrund starker ” Evidenzen, d.h. geringer Irrtumswahrscheinlichkeiten, glaubhaft. Statistisch nachwei” sen“ heißt also immer aufzuzeigen, wie unwahrscheinlich das Gegenteil des Behaupteten ist und wie plausibel zugleich das Behauptete. Statistisch widerlegen“ heißt hingegen ” aufzuzeigen, wie unwahrscheinlich das zu Widerlegende ist, und wie plausibel zugleich das Gegenteil davon. Nachzuweisendes wird in der Alternativhypothese formuliert, zu Widerlegendes hingegen in der Nullhypothese. • Grenzen bei der Hypothesenwahl • Der Umsetzung der vorhergehenden Regel sind jedoch auch Grenzen gesetzt, da sich statistische Tests nicht f¨ ur jede Pr¨aferenzrichtung gut konstruieren lassen. Betrachten wir hierzu nur nochmals die Situation von Beispiel 11.1.1 (Raten vs. Wissen). Angenommen, ein Dozent m¨ochte statistisch nachweisen, dass ein Student nur geraten hat. Dazu formuliert er das Testproblem H0 : π > 0.5 vs. H1 : π = 0.5.

11.2 Wichtige Aspekte beim Testen

531

Das Problem dabei ist, dass f¨ ur diesen Fall keine sinnvolle Testverteilung abgeleitet werden kann. F¨ ur welchen Wert aus H0 sollte denn nun die Testverteilung u ¨berhaupt gelten? Welche Anzahl korrekter Antworten spricht hier stark gegen Wissen und stark f¨ ur Raten? Wie bereits im vorhergehenden Punkt erl¨autert, w¨ urde eine sehr geringe Anzahl korrekter Antworten zwar gegen Wissen sprechen, im Extremfall jedoch auch ein zuf¨alliges Raten als unwahrscheinlich erscheinen lassen. Wenn u ¨berhaupt k¨onnte man dann als Testproblem H0 : π ≥ 0.5 vs. H1 : π < 0.5. w¨ahlen. Hierf¨ ur h¨ atte man f¨ ur π = 0.5 zumindest eine wohldefinierte Testverteilung. Allerdings kann die Sinnhaftigkeit der Alternative hierbei in Frage gestellt werden. Testprobleme lassen sich also nicht in beliebiger Weise aufstellen. Es gibt keine sinnvollen statistischen Tests zu einem Testproblem der Form H0 : θ 6= θ0 vs. H1 : θ = θ0 . Das ergibt sich aus den schlechten G¨ uteeigenschaften eines solchen Tests unter der Alternative (Abschnitt 11.2.2). Allerdings k¨ onnen Tests zu Nullhypothesen der Form H0 : [θ1 , θ2 ] oder H0 : (−∞, θ1 ] ∪ [θ2 , ∞) konstruiert werden. Dies gestaltet sich allerdings deutlich komplizierter. Ausf¨ uhrungen dazu finden sich etwa bei Lehmann und Romano [2008]. • Verh¨ altnis zum Signifikanzbegriff • Nur falls die Nullhypothese verworfen wird, gilt das in der Alternativhypothese repr¨ asentierte Ergebnis als signifikant. Bei Beibehaltung der Nullhypothese spricht man nicht von einem signifikanten Ergebnis. Dieser Umstand ist auf die zuvor beschriebene Asymmetrie zur¨ uckzuf¨ uhren. Auf die dem Signifikanzbegriff innewohnende Deutungsproblematik gehen wir gesondert in Abschnitt 11.2.4 ein. • Fehlerarten • So wie wir bei der Intervallsch¨atzung in vielen F¨allen nie erfahren werden, ob ein zu sch¨ atzender Wert nun tats¨ achlich im berechneten Konfidenzintervall Intervall lag oder nicht, werden wir auch bei einem statistischen Test h¨aufig nie erfahren, ob die Testentscheidung korrekt war oder nicht. Man k¨onnte diesen Umstand als das grunds¨atzliche Dilemma statistischer Methodik schlechthin erachten. Im Falle des Testens k¨ onnen wir einerseits H0 verwerfen, obwohl H0 wahr ist, oder wir k¨onnen H0 beibehalten, obwohl H1 wahr ist. Andererseits k¨onnen wir nat¨ urlich auch H0 richtigerweise verwerfen oder richtigerweise bei H0 bleiben. Vor dem Hintergrund der asymmetrischen Auslegung der Testentscheidungen bezeichnet man eine f¨alschliche Verwerfung von H0 als Fehler 1. Art, eine f¨ alschliche Beibehaltung dagegen als Fehler 2. Art. Der Fehler 1. Art ist sozusagen der schlimmere der beiden Fehler. Diesen gilt es vorrangig zu verhindern. Folgende Tabelle fasst die 4 m¨oglichen Konstellationen bei Testentscheidungen zusammen. In Beispiel 11.1.1 (Raten vs. Wissen) begeht man einen Fehler 1. Art, sofern man einen Studenten als wissend einstuft, obwohl dieser nur geraten hat. Man begeht einen Fehler 2. Art, sofern man bei der Nullhypothese des Ratens bleibt, obwohl ein Student etwas gewusst hat. In Beispiel 11.1.4 (keine Wirkung vs. Wirkung) begeht man einen Fehler 1. Art, sofern man eine Wirkung des D¨ ungers unterstellt, obwohl dieser keine

532

11 Statistisches Testen Tabelle 11.2.1: Entscheidungsmatrix beim Testen Testentscheidung Wahrer Zustand H0 H1

H0 richtig Fehler 2.Art

H1 Fehler 1.Art richtig

Wirkung hat. Man begeht einen Fehler 2. Art, sofern man bei der Nullhypothese bleibt, dass der D¨ unger keine Wirkung hat, obwohl er eine hat.

11.2.2 Irrtumswahrscheinlichkeiten und Gu ¨ te • Allgemeines Optimierungsbestreben • Allgemein wird man bestrebt sein einen statistischen Test so zu konstruieren, dass am Ende eine richtige Entscheidung gef¨allt wird und beide Fehlerarten vermieden werden. Der Idealfall w¨are im Grunde eine Entscheidungsregel, die stets zu einer richtigen Entscheidung f¨ uhrt. Solch eine Traumre” gel“ l¨asst sich jedoch nur in sehr speziellen Situationen konstruieren, deren Betrachtung meist uninteressant sein d¨ urfte. Man stelle sich als Beispiel vor, es soll festgestellt werden, ob sich in einer Urne ausschließlich weiße oder ausschließlich schwarze Ku¨ geln befinden. Bei der Ubersetzung dieses Entscheidungsproblems in ein parametrisches Testproblem w¨ urde man dann f¨ ur den Anteil schwarzer Kugeln nur die Anteilswerte 0 und 1 zulassen. Entsprechend w¨ urde das Testproblem dann entweder H0 : π = 0 vs. H1 : π = 1

oder

H0 : π = 1 vs. H1 : π = 0

lauten. Es ist klar, dass bereits ein einzelner Zug gen¨ ugen w¨ urde, um eine mit Sicherheit richtige Entscheidung zu f¨ allen. Solche Konstellationen entsprechen jedoch nicht den typischen Situationen von Testproblemen und stellen eigentlich auch keine statistischen Probleme dar, da die hierbei erhobenen Statistiken eindeutige Schl¨ usse erlauben. Bei richtigen Testproblemen“ kann es deshalb nur darum gehen, die Wahrscheinlichkei” ten von Fehlentscheidungen m¨ oglichst klein zu halten. Um die Frage zu kl¨aren, wie dies am besten geschehen kann, muss zun¨ achst der Begriff der Irrtumswahrscheinlichkeit differenziert gekl¨ art werden. Wir verwenden hierzu einerseits ein nichtstatistisches Entscheidungsproblem und andererseits das Testproblem von Beispiel 11.1.1 (Raten vs. Wissen) zur Erl¨auterung. • Ein nichtstatistisches Beispiel zur Begriffserl¨ auterung • Dem Prinzip im ” Zweifel f¨ ur den Angeklagten“ folgend ergibt sich f¨ ur die Rechtsprechung eine Entscheidungsmatrix gem¨ aß Tabelle 11.2.2. Demnach w¨ urde man es als den gr¨oßeren Fehler erachten, einen Unschuldigen zu bestrafen als einen Schuldigen nicht zu bestrafen. Gem¨aß den Begrifflichkeiten aus der Testtheorie w¨ urde man somit ersteren Fehler als Fehler 1. Art und letzteren als Fehler 2. Art bezeichnen. Tabelle 11.2.3 zeigt eine fiktive Historie von Urteilen eines Gerichts in 10 verschiedenen Strafprozessen. Prim¨ ar fiktiv ist dabei vor allem die Vorstellung, dass die Information u ¨ber den wahren Hintergrund des Angeklagten vorliegt. Hierbei stehe S“ ” f¨ ur schuldig und U“ f¨ ur unschuldig. Demnach wurden in den insgesamt 10 Prozessen ” (i) 3 Unschuldige freigesprochen, (ii) 2 Unschuldige bestraft, (iii) 4 Schuldige nicht bestraft, (iv) 1 Schuldiger bestraft.

11.2 Wichtige Aspekte beim Testen

533

Tabelle 11.2.2: Entscheidungsmatrix bei einem Strafprozess Urteil Angeklagter unschuldig schuldig

unschuldig richtig Fehler 2.Art

schuldig Fehler 1.Art richtig

Tabelle 11.2.3: Fiktive Historie von 10 Strafprozessen mit jeweiligen Entscheidungen Prozess-Nr. Angeklagter Endurteil

1 S U

2 U U

3 U S

4 U S

5 S U

6 S U

7 S S

8 U U

9 S U

10 U U

• Globale Irrtumswahrscheinlichkeit • Empirisch betrachtet betrug die globale Fehlerrate 60%, da nur in 4 der 10 F¨ alle ein richtiges Urteil gef¨allt wurde. In einer theoretischen Betrachtung k¨ onnte man diese Fehlerrate als Wahrscheinlichkeit einer Fehlentscheidung interpretieren und als globale Irrtumswahrscheinlichkeit bezeichnen. Betrachten wir im Gegenzug nochmals die Situation aus Beispiel 11.1.1 (Raten vs. Wissen) mit dem parametrischen Testproblem H0 : π = 0.5 vs. H1 : π > 0.5. ur H1 (Wissen) zu Die Entscheidungsregel sieht vor, sich ab 20 korrekten Antworten f¨ entscheiden. Mit welcher globalen Irrtumswahrscheinlichkeit geht diese Regel einher? Wie groß ist die Wahrscheinlichkeit, dass man mit dieser Regel eine richtige Testentscheidung f¨allt? Diese Fragen lassen sich nicht ohne Weiteres beantworten. Dies liegt daran, dass wir weder u ¨ber eine empirische (es gibt keine Gesamtanzahl von Tests) noch u ¨ber eine theoretisch unterstellte Verteilung des Parameters π verf¨ ugen, zumindest sofern wir keinen Bayes-Test durchf¨ uhren (vgl. Abschnitt 11.3.4 Sonstige Tests“). Deshalb las” sen sich Wahrscheinlichkeitsaussagen immer nur aufstellen, wenn f¨ ur π bestimmte feste Werte angenommen werden. Dies f¨ uhrt dann zu zwei Arten von Irrtumswahrscheinlichkeiten, die sich als eine Art Pseudoform bedingter Wahrscheinlichkeiten auffassen lassen. Bei einem klassischen statistischen Test kann keine globale Wahrscheinlichkeit f¨ ur eine falsche (oder eine richtige) Entscheidung angegeben werden.

• Irrtumswahrscheinlichkeit 1. Art • Im Falle der Strafprozesse wurde 2 Mal ein Fehler 1. Art begangen (dunkelgrau). Bei 10 Prozessen entspricht dies einer Rate von 20%. Theoretisch betrachtet k¨ onnte man hier deshalb die globale Irrtumswahrscheinlichkeit 1. Art mit 20% quantifizieren. Andererseits k¨onnte man im Rahmen einer bedingten Betrachtung sagen, dass 2 der insgesamt 5 Unschuldigen bestraft wurden, was einer Wahrscheinlichkeit von 40% entspricht. Formal l¨asst sich dies folgendermaßen ausdr¨ ucken: P (Urteil = S, Angeklagter = U) = 0.2 und P (Urteil = S|Angeklagter = U) = 0.4.

534

11 Statistisches Testen

Eine unbedingte Wahrscheinlichkeit w¨ are hier also von einer bedingten Wahrscheinlichkeit zu unterscheiden. Betrachten wir nun wiederum Beispiel 11.1.1. Da wir π als feste und nicht als stochastische Gr¨oße auffassen, kann hier keine globale Irrtumswahrscheinlichkeit 1. Art der Form P (Verwerfung von H0 , H0 wahr) angegeben werden. Sofern wir jedoch π = 0.5 als gegeben annehmen, k¨onnen wir eine Wahrscheinlichkeit einer falschen Entscheidung zugunsten von H1 angeben. W¨ahlen wir etwa 19 als kritischen Wert, so betr¨ agt diese als Irrtumswahrscheinlichkeit 1. Art bezeichnete Wahrscheinlichkeit 4.9%. Dies ist zugleich die Definition des Testniveaus. Formal ausgedr¨ uckt heißt das: P (Verwerfung von H0 |π = 0.5) ≈ 0.049. Definition 11.2.2: Irrtumswahrscheinlichkeit 1. Art Unter einer Irrtumswahrscheinlichkeit 1. Art (auch Fehlerwahrscheinlichkeit 1. Art) eines Tests versteht man eine Wahrscheinlichkeit, sich f¨ ur H1 zu entscheiden, falls ein bestimmter Wert aus H0 zutrifft. Die sehr g¨angige und zugleich sehr missverst¨ andliche Sprechweise die Wahrscheinlichkeit f¨ ur einen Fehler 1. Art betr¨agt x%“ ” bedeutet also nicht, wie man meinen k¨ onnte, dass langfristig in x% aller getroffenen Testentscheidungen ein Fehler 1. Art begangen wird. Vielmehr ist damit gemeint, dass man sich langfristig in x% aller Testentscheidungen, in denen ein bestimmter Wert aus H0 vorliegt, sich f¨ alschlicherweise f¨ ur H1 entscheidet. • Irrtumswahrscheinlichkeit 2. Art • Analoges gilt f¨ ur den Fehler 2. Art. Im Falle der Strafprozesse wurden in den 10 Prozessen insgesamt 4 Schuldige nicht bestraft (hellgrau), was theoretisiert einer globalen Irrtumswahrscheinlichkeit 2. Art von 40% entspricht. Andererseits wurden 4 von insgesamt 5 Schuldigen nicht bestraft, was einer Wahrscheinlichkeit von 80% entspricht. Formal haben wir hier also: P (Urteil = U, Angeklagter = S) = 0.4 und P (Urteil = U|Angeklagter = S) = 0.8. Im Falle des Parameterproblems von Beispiel 11.1.1 kann keine globale Irrtumswahrscheinlichkeit 2. Art der Form P (Beibehaltung von H0 , H1 wahr) angegeben werden. Sofern wir jedoch f¨ ur π einen bestimmten Wert mit π > 0.5 annehmen, k¨onnen wir eine spezifische Wahrscheinlichkeit einer f¨alschlichen Beibehaltung von H0 angeben. W¨ ahlen wir etwa 19 als kritischen Wert (was einem Testniveau von Niveau 4.9% entspricht) und π = 0.6, so betr¨agt diese als Irrtumswahrscheinlichkeit

11.2 Wichtige Aspekte beim Testen

535

2. Art bezeichnete Wahrscheinlichkeit 70.9%. W¨ahlen wir zum gleichen Testniveau hingegen π = 0.8, so betr¨ agt die Irrtumswahrscheinlichkeit 2. Art nur noch 2.6%. Formal h¨atten wir also beispielsweise P (Beibehaltung von H0 |π = 0.6) = 0.709 oder P (Beibehaltung von H0 |π = 0.8) = 0.026. Definition 11.2.3: Irrtumswahrscheinlichkeit 2. Art Unter einer Irrtumswahrscheinlichkeit 2. Art (auch Fehlerwahrscheinlichkeit 2. Art) eines Tests versteht man eine Wahrscheinlichkeit, H0 beizubehalten, falls ein bestimmter Wert aus H1 zutrifft. • Quantifizierung von Irrtumswahrscheinlichkeiten • Bei parametrischen Testproblemen lassen sich beide Arten von Irrtumswahrscheinlichkeiten aus den unter bestimmten Parameterwerten jeweils g¨ ultigen Verwerfungswahrscheinlichkeiten der Nullhypothese herleiten und quantifizieren. Dies sei im Folgenden anhand von Beispiel 11.1.1 erl¨autert. In diesem Beispiel ergeben sich die Verwerfungswahrscheinlichkeiten aus der Betrachtung einer B(30, π)-verteilten Zufallsvariable X, die je nach Wert von π mit bestimmten Wahrscheinlichkeiten einen vorgegebenen kritischen Wert u ur ¨berschreitet. F¨ c = 19 und π = 0.5, 0.6 und 0.8 etwa erh¨ alt man dann P (Verwerfung von H0 |π = 0.5) = P0.5 (X > 19) ≈ 0.049, P (Verwerfung von H0 |π = 0.6) = P0.6 (X > 19) ≈ 0.291, P (Verwerfung von H0 |π = 0.8) = P0.8 (X > 19) ≈ 0.974. Abb. 11.2.1: Verwerfungswahrscheinlichkeiten der Nullhypothese in Beispiel 11.1.1 P (H 0 verwerfen | π)

H 0: π = 0.5 vs. H 1: π > 0.5

1.0 0.8 0.6

0.291 α = 0.049

0.4

P (H 0 beibehalten | 0.6) = 0.709

1 − α = 0.951

0.2 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

H0

π

H1

Abbildung 11.2.1 illustriert die Abh¨ angigkeit der Verwerfungswahrscheinlichkeit vom Parameterwert π. Je tiefer wir in die Alternative vordringen, d.h. je mehr wir uns vom Nullhypothesenwert 0.5 entfernen und dem Wert 1 ( perfektes Wissen“) ann¨ahern, desto ” eher werden wir die Nullhypothese (Raten) verwerfen. F¨ ur π = 1 wird H0 mit 100%iger

536

11 Statistisches Testen

Wahrscheinlichkeit verworfen. Dies macht nat¨ urlich auch Sinn, da bei perfektem Wis” sen“ stets alle 30 Fragen richtig beantwortet werden. Auch f¨ ur Werte π < 0.5 wurden hier die Verwerfungswahrscheinlichkeiten dargestellt, wenngleich sie bei diesem Testproblem keine Relevanz besitzen, da sie weder zu H0 noch zu H1 geh¨oren. Es ist jedoch einsichtig, dass auch f¨ ur diese Werte die Verwerfungswahrscheinlichkeiten alle unterhalb des Testniveaus liegen. F¨ ur π = 0 w¨ urde sie dann exakt 0% betragen. W¨ urde man in einem anderen Zusammenhang also das Testproblem H0 : π ≤ 0.5 vs. H1 : π > 0.5 betrachten, so w¨ are mit der gleichen Entscheidungsregel gew¨ahrleistet, dass unter allen Werten der Nullhypothese die Irrtumswahrscheinlichkeit 1. Art maximal 4.9% betr¨agt. Das Testniveau bildet somit eine Obergrenze f¨ ur die Irrtumswahrscheinlichkeit 1. Art und wird an der Schwelle zwischen Nullhypothese und Alternative exakt eingehalten. Doch welcher Zusammenhang besteht nun zwischen Verwerfungswahrscheinlichkeit und den verschiedenen Irrtumswahrscheinlichkeiten? F¨ ur Werte aus H0 ist die Verwerfungswahrscheinlichkeit definitionsgem¨ aß gleich der Irrtumswahrscheinlichkeit 1. Art. Statistische Tests werden i.d.R. so konstruiert, dass f¨ ur einen vorgegebenen Wert α ∈ (0, 1) gilt: P (Verwerfung von H0 |π) ≤ α f¨ ur alle Werte π aus H0 .

(11.2.2)

Ein typischer Wert f¨ ur α ist 0.05. Nach Definition ist das Testniveau dann h¨ochstens α. Idealerweise konstruiert man Tests so, dass Testniveau und α u ¨bereinstimmen. Bei diskreten Testverteilungen ist das aber nicht immer m¨oglich (vgl. Beispiel 11.1.1, 11.1.2 und 11.1.3). F¨ ur Werte aus H1 ist die Verwerfungswahrscheinlichkeit die Wahrscheinlichkeit einer korrekten Entscheidung f¨ ur H1 . Die entsprechende Gegenwahrscheinlichkeit ist dann definitionsgem¨ aß die Irrtumswahrscheinlichkeit 2. Art. F¨ ur π aus H1 ergibt sich diese u ¨ber P (Beibehaltung von H0 |π) = 1 − P (Verwerfung von H0 |π).

(11.2.3)

Bei gut konstruierten Tests strebt die Irrtumswahrscheinlichkeit 2. Art gegen 0, je tiefer man in die Alternative vordringt. Im vorliegenden Fall etwa betr¨agt sie f¨ ur π = 1 exakt 0%. Eine Obergrenze f¨ ur die Irrtumswahrscheinlichkeit 2. Art ergibt sich aus der minimalen Verwerfungswahrscheinlichkeit aller Werte aus H1 . Im vorliegenden Fall ist diese kurz nach“ dem Schwellenwert π = 0.5 mit knapp u ¨ber“ 4.9% am geringsten. ” ” Eine Obergrenze f¨ ur die Irrtumswahrscheinlichkeit 2. Art w¨are hier somit im Grenzfall 95.1% oder allgemeiner P (Beibehaltung von H0 |θ) ≤ 1 − α f¨ ur alle Werte θ aus H1 .

(11.2.4)

Allgemein muss ein Test zum Niveau α Eigenschaft (11.2.4) im Gegensatz zu (11.2.2) jedoch nicht zwingend erf¨ ullen. Allerdings erscheint Eigenschaft (11.2.4) als Forderung an einen Test durchaus sinnvoll. Ein derartiger Test wird dann auch als unverf¨ alscht bezeichnet. Bei einem verf¨ alschten Test hingegen ist die Verwerfungswahrscheinlichkeit f¨ ur Werte aus H1 teils oder g¨ anzlich geringer als f¨ ur Werte aus H0 .

11.2 Wichtige Aspekte beim Testen

537

Definition 11.2.4: Niveau-α-Test Es sei α ∈ (0, 1). Ein statistischer Test zu einem Testproblem u ¨ber einen Parameter θ heißt Niveau-α-Test oder Test zum Signifikanzniveau α, wenn die Irrtumswahrscheinlichkeit 1. Art stets kleiner oder gleich α ist: P (Verwerfung von H0 | θ) ≤ α f¨ ur alle Werte θ aus H0 .

Ein Niveau-α-Test heißt unverf¨ alscht, wenn die Irrtumswahrscheinlichkeit 2. Art stets kleiner oder gleich 1 − α ist: P (Beibehaltung von H0 | θ) ≤ 1 − α f¨ ur alle Werte θ aus H1 . • G¨ ute und G¨ utefunktion • Im Allgemeinen wird man bestrebt sein, einen Test zu verwenden, der f¨ ur jeden Wert von H1 eine m¨ oglichst hohe Verwerfungswahrscheinlichkeit von H0 aufweist. Schließlich m¨ ochte man sich f¨ ur die Alternativhypothese entscheiden, sofern diese tats¨ achlich wahr ist. Eine f¨ ur einen Wert aus H1 geltende Verwerfungswahrscheinlichkeit wird auch als G¨ ute eines Tests bezeichnet. Die Funktion, welche den zul¨ assigen Werten eines Parameters die jeweilige Verwerfungswahrscheinlichkeit zuordnet, heißt G¨ utefunktion. Definition 11.2.5: G¨ utefunktion und G¨ ute Gegeben sei ein parametrischer Test bez¨ uglich eines Parameters θ. Dann bezeichnet man die Funktion g mit g(θ) = P (Verwerfung von H0 | θ) als G¨ utefunktion des Tests. F¨ ur jeden Wert θ aus H1 wird g(θ) als G¨ ute oder Macht des Tests an der Stelle θ bezeichnet. Beispielsweise zeigt Abbildung 11.2.1 den Verlauf der G¨ utefunktion des Binomialtests von Beispiel 11.1.1. Dabei gilt etwa g(0.5) ≈ 0.049 und g(0.6) ≈ 0.291, wobei letzterer ¨ Wert die G¨ ute des Tests an der Stelle 0.6 ist. Aquivalent zu (11.2.3) ergibt sich dann folgender Zusammenhang zwischen G¨ ute und Irrtumswahrscheinlichkeit 2. Art: P (Beibehaltung von H0 |θ) = 1 − g(θ) f¨ ur alle Werte θ aus H1

(11.2.5)

oder kurz gesagt: Irrtumswahrscheinlichkeit 2. Art = 1 − G¨ ute An der G¨ utefunktion lassen sich alle wichtigen Eigenschaften eines Tests ablesen. Gleichwohl kann die analytische Herleitung einer G¨ utefunktion mitunter sehr umst¨andlich oder schwierig sein. Im Falle eines sog. Gauß-Tests (Abschnitt 11.3.1) lassen sich jedoch f¨ ur alle drei g¨angigen Testvarianten kompakte funktionale Ausdr¨ ucke der jeweiligen G¨ utefunktionen formulieren. Diese sind vor allem deshalb interessant, da wichtige daran auszumachende Eigenschaften und Zusammenh¨ange auch f¨ ur viele andere Tests gelten.

538

11 Statistisches Testen

• G¨ utefunktionen der Gauß-Test-Varianten • Ausgangsbasis eines Gauß-Tests ist eine Stichprobe aus unabh¨ angigen N (µ, σ 2 )-verteilten Stichprobenvariablen X1 , . . . , Xn . Die Testprobleme beziehen sich dabei auf den Erwartungswert, wobei die Varianz als bekannt angenommen wird. Die Testprobleme der drei g¨angigen Testvarianten lauten (i) H0 : µ ≥ µ0 vs. H1 : µ < µ0 , (ii) H0 : µ ≤ µ0 vs. H1 : µ > µ0 , (iii) H0 : µ = µ0 vs. H1 : µ 6= µ0 . atzlich zun¨ achst einmal das Stichprobenmittel verwendet Als Teststatistik kann grunds¨ werden. F¨ ur die Testverteilung ergibt sich dann in allen drei F¨allen: ¯ ∼ N (µ0 , σ 2 /n) X (11.2.6) Der f¨ ur die Testverteilung maßgebliche Parameterwert in den F¨allen (i) und (ii) ist der zu H0 geh¨orige Schwellenwert µ0 zwischen den beiden Hypothesen. Die kritischen Werte ergeben sich nach der Logik des jeweiligen Testproblems aus den Quantilen dieser Verteilung. Bei einem Niveau-α-Test w¨ urde dann etwa die Entscheidungsregel zu Testproblem (i) lauten: ¯ < qα , wird H0 verworfen, Falls X ¯ ≥ qα , wird H0 beibehalten, falls X wobei qα das α-Quantil der N (µ0 , σ 2 /n)-Verteilung ist. Sehr ¨ahnlich wie bei den approximativen Binomialtests in Abschnitt 11.1.1 kann jedoch auch a¨quivalent das standardisierte Stichprobenmittel als Teststatistik verwendet werden. Dies hat den Vorteil, dass die Testverteilung stets gleich bleibt. Es gilt dann: ¯ − µ0 X Z= p ∼ N (0, 1) f¨ ur µ = µ0 . (11.2.7) σ 2 /n Die Entscheidungsregel zu Testproblem (i) lautet dann: Falls Z < zα , wird H0 verworfen, falls Z ≥ zα , wird H0 beibehalten, wobei zα das α-Quantil der N (0, 1)-Verteilung ist. Entscheidend zur Ermittlung der G¨ utefunktion ist die Verteilung der (nicht standardisierten bzw. standardisierten) Teststatistik f¨ ur einen beliebigen zul¨assigen Parameterwert. Wir leiten im Folgenden exemplarisch die G¨ utefunktion des einseitigen unteren Gauß-Tests f¨ ur das Testproblem (i) her, wobei wir uns an der nichtstandardisierten Teststatistik, d.h. dem Stichprobenmittel, orientieren. F¨ ur beliebigen vorgegebenen Wert µ gilt ¯ ∼ N (µ, σ 2 /n) bzw. X (11.2.8) ¯ −µ X p ∼ N (0, 1). σ 2 /n

(11.2.9)

11.2 Wichtige Aspekte beim Testen

539

Der kritische Wert qα leitet sich indes aus dem nur f¨ ur µ = µ0 g¨ ultigen Resultat (11.2.6) ab, wobei gem¨aß (7.3.22) gilt: p qα = µ0 + zα σ 2 /n. (11.2.10) √ Man beachte hierbei, dass die Standardabweichung des Stichprobenmittels durch σ/ n und nicht etwa durch σ gegeben ist. Folglich erhalten wir f¨ ur die G¨ utefunktion p ¯ < qα |µ) = P (X ¯ < µ0 + zα σ 2 /n|µ). g(µ) = P (H0 verwerfen|µ) = P (X Wird nun f¨ ur jeden Funktionswert von g der Parameterwert µ als wahr angenommen, erh¨alt man mittels Standardisierung p X ¯ −µ p σ 2 /n  µ − µ + z 0 α 2 ¯ < µ0 + zα σ /n|µ) = P p p g(µ) = P (X < µ σ 2 /n σ 2 /n   µ − µ0  µ0 − µ  = Φ −z1−α − p . = Φ zα + p σ 2 /n σ 2 /n wobei Φ die Verteilungsfunktion der Standardnormalverteilung bezeichnet. Die vorletzte Gleichung folgt dabei aus (11.2.9). Die letzte Gleichung folgt mit zα = −z1−α und Umschreibung des Quotienten. Analog lassen sich die G¨ utefunktionen des einseitigen oberen Gauß-Tests und des zweiseitigen Gauß-Tests f¨ ur die Testprobleme (ii) und (iii) herleiten. Im letzteren Fall w¨ are der Aufwand aufgrund der zweiseitigen Betrachtung etwas aufw¨andiger. Satz 11.2.1: G¨ utefunktionen des Gauß-Tests Die G¨ utefunktion des Gauß-Tests ist im Falle des Testproblems (a) H0 : µ ≥ µ0 vs. H1 : µ < µ0 gegeben durch  µ − µ0  g(µ) = Φ −z1−α − p , σ 2 /n (b) H0 : µ ≤ µ0 vs. H1 : µ > µ0 gegeben durch  µ − µ0  , g(µ) = Φ −z1−α + p σ 2 /n (c) H0 : µ ≤ µ0 vs. H1 : µ > µ0 gegeben durch   µ − µ0  µ − µ0  g(µ) = Φ −z1−α/2 − p + Φ −z1−α/2 + p . σ 2 /n σ 2 /n

Wichtige Eigenschaften und Zusammenh¨ ange sollen anhand des nachfolgenden Beispiels aufgezeigt werden. • Beispiel 11.2.1: G¨ utefunktionen eines einseitigen Gauß-Tests • Angenommen, eine Maschine produziere Metallstifte der L¨ange 40 mm. Laut Herstellerangaben arbeite die Maschine mit einer Standardabweichung von σ = 1 mm. Die L¨ange der

540

11 Statistisches Testen

Metallstifte kann dabei als normalverteilt angenommen werden. Im Rahmen der Qualit¨atskontrolle werden in regelm¨ aßigen Abst¨ anden n Stifte entnommen und deren mittlere L¨ange festgestellt. Bei einer signifikanten Abweichung von der Soll-L¨ange, muss die Produktion auf jeden Fall kurzeitig unterbrochen werden, wobei irrt¨ umliche Produktionsstopps m¨oglichst zu vermeiden sind. Die Situation l¨ asst sich im Rahmen eines Gauß-Tests statistisch l¨osen, wobei die Wahl des konkreten Testproblems davon abh¨angt, in welche Richtung prim¨ar keine Abweichung auftreten darf. Sind prim¨ ar zu kurze Stifte zu vermeiden, so ist ein unterer Gauß-Test ad¨ aquat. Zur Vermeidung von zu langen Stiften ist hingegen ein oberer Gauß-Test zu verwenden. Sind sowohl zu lange als auch zu kurze Stifte zu vermeiden, muss schließlich zweiseitig gepr¨ uft werden. F¨ ur alle F¨alle wird die Stichprobe u ¨ber ein Ensemble von n unabh¨ angigen Stichprobenvariablen X1 , . . . , Xn modelliert, welche N (µ, 1)-verteilt sind. Der Parameter µ entspricht dabei der wahren mittleren L¨ange aller Metallstifte. Angenommen, es werde nur nach unten hin“ gepr¨ uft, sodass das ” Testproblem formal H0 : µ ≥ 40 vs. H1 : µ < 40. lautet. Gem¨aß (11.2.6) ist das Stichprobenmittel N (40, 1/n)-verteilt, sofern die Maschine korrekt arbeitet. In der nichtstandardisierten Testvariante ergibt sich dann beispielsweise f¨ ur n = 4 als kritischer Wert zum Niveau 5%: p √ q0.05 = µ0 + z0.05 σ 2 /n ≈ 40 − 1.64 0.25 ≈ 39.2. (11.2.11) urzer als 39.2 mm ausf¨allt, l¨age eine signifikante Sofern das Stichprobenmittel also k¨ Abweichung nach unten vor. Was passiert nun, falls die Maschine tats¨achlich abweichend vom Sollwert produziert? Gem¨ aß (11.2.8) sieht hier der Modellrahmen f¨ ur das Stichprobenmittel dann eine N (µ, 0.25)-Verteilung mit µ 6= 40 vor. Das linke Schaubild von Abbildung 11.2.2 illustriert die Situation f¨ ur zwei verschiedene Abweichungen von der Soll-Verteilung“. Einmal produziert die Maschine mit µ = 39.5 zu kurze Stifte ” und einmal mit µ = 40.5 zu lange Stifte. In ersterem Fall wird die Unterschreitung des kritischen Werts wahrscheinlicher. Die G¨ ute f¨allt also h¨oher als das Testniveau aus. In letzterem Fall wird eine Verwerfung von H0 hingegen deutlich weniger wahrscheinlich. Beide Wahrscheinlichkeiten lassen sich nun auch u utefunktion des Tests ¨ber die G¨ berechnen. Diese lautet allgemein  √ µ − 40  g(µ) = Φ −z1−α − n · . (11.2.12) 1 F¨ ur n = 4 und α = 0.05 ergibt sich daraus konkret  √ µ − 40  ≈ Φ(−1.64 − 2(µ − 40)). (11.2.13) g4,0.05 (µ) = Φ −z1−α − n · 1 Hieraus wiederum erh¨ alt man f¨ ur die Stellen 39.5 und 40.5 die Wahrscheinlichkeiten g4,0.05 (39.5) ≈ Φ(−0.64) ≈ 0.26 bzw. g4,0.05 (40.5) ≈ Φ(−2.64) ≈ 0.004. F¨ uhren wir genau die gleichen Betrachtungen f¨ ur n = 8 (doppelte Stichprobengr¨oße) unter ansonsten identischen Bedingungen durch, so erh¨alt man eine N (40, 0.125)Verteilung als Testverteilung. Da die Varianz des Stichprobenmittels nun kleiner ist, k¨onnen systematische Unterschiede bereits fr¨ uher festgestellt werden. Der kritische Wert

11.2 Wichtige Aspekte beim Testen

541

Abb. 11.2.2: Verteilung des Stichprobenmittels f¨ ur verschiedene Konstellationen n =4

f (x )

1.0

µ0

0.8

26%

0.6 0.4

µ0

1.2

1.0 0.8

n =8

f (x )

1.2

41%

0.6 0.4

0.2

0.2

0.0

0.0 38

39

q 0.05

40

41

42

38

x

39

q 0.05

40

41

42

x

f¨allt entsprechend h¨ oher aus und betr¨ agt zum Niveau 5% nun 39.4. Auf Basis der G¨ utefunktion  √ µ − 40  √ g8,0.05 (µ) = Φ −z0.95 − 8 · ≈ Φ(−1.64 − 8(µ − 40)) (11.2.14) 1 erh¨alt man dann g8,0.05 (39.5) ≈ Φ(0.23) ≈ 0.41 bzw. g8,0.05 (40.5) ≈ Φ(−3.06) ≈ 0.001. F¨ ur µ = 39.5 ergibt sich eine deutlich h¨ ohere Verwerfungswahrscheinlichkeit (G¨ ute) als f¨ ur n = 4. F¨ ur µ = 40.5 sinkt die Verwerfungswahrscheinlichkeit nochmals. Das rechte Schaubild von Abbildung 11.2.2 illustriert die Situation f¨ ur n = 8 und α = 0.05. Das linke Schaubild von Abbildung 11.2.3 korrespondiert mit Abbildung 11.2.2 und zeigt die G¨ utefunktionen g4,0.05 und g8,0.05 f¨ ur n = 4 bzw. n = 8 und α = 0.05. Abb. 11.2.3: G¨ utefunktionen eines einseitigen unteren Gauß-Tests α = 0.05

g (µ)

1.0

0.8

n =4 n =8

0.6 0.41 0.4 0.26 0.2

α

α = 0.1

g (µ)

1.0

0.8

α

0.0 38

39 39.5 40

41

µ0

H0

H1

42

µ

n =4 n =8

0.55 0.6 0.39 0.4 0.2 0.0 38

39 39.5 40

41

µ0

H0

H1

42

µ

Analoge Sachverhalte ergeben sich, wenn anstelle des Stichprobenumfangs n die Varianz σ 2 variiert wird. Je kleiner die Varianz in der Grundgesamtheit ist, desto pr¨aziser kann der Erwartungswert durch das Stichprobenmittel gesch¨atzt werden. Damit k¨ onnen Abweichungen von einem Nullhypothesenwert auch schneller entdeckt werden. Die G¨ ute an jeder Stelle der Alternative nimmt somit zu. Schließlich ist klar, dass bei Wahl eines h¨ oheren Testniveaus α > 0.05 die G¨ ute des

542

11 Statistisches Testen

Tests an der Stelle 39.5 steigen w¨ urde. Der kritische Wert w¨are gr¨oßer und infolgedes¨ sen w¨ urde der Uberlappungsbereich der N (39.5, 0.25)- und der N (40, 0.25)-Verteilung zunehmen. Konkret w¨ urde beispielsweise bei einem Testniveau von 10% f¨ ur n = 4  √ 39.5 − 40  √ g4,0.1 (39.5) = Φ −z0.9 − 4 · ≈ Φ(−1.28 − 4(−0.5)) ≈ 0.39 1 ur n = 8 gelten und f¨  √ 39.5 − 40  √ g8,0.1 (39.5) = Φ −z0.9 − 8 · ≈ Φ(−1.28 − 8(−0.5)) ≈ 0.55. 1 utefunktionen g4,0.1 und g8,0.1 Das rechte Schaubild von Abbildung 11.2.3 zeigt die G¨ f¨ ur n = 4 bzw. n = 8 und α = 0.1. Man kann sich leicht u utefunktionen des einseitigen oberen ¨berlegen, dass die G¨ Gauß-Tests zum Testproblem H0 : µ ≤ 40 vs. H1 : µ > 40 genau spiegelverkehrt w¨ aren. Beispielsweise w¨ urde dann die G¨ ute an der Stelle 40.5 bei einem Testniveau von α = 0.05 und n = 4 entsprechend 26% betragen. utefunktionen eines zweiseitigen Gauß-Tests • Quasi ana• Beispiel 11.2.2: G¨ log lassen sich alle im vorhergehenden Beispiel durchgef¨ uhrten Betrachtungen f¨ ur den zweiseitigen Gauß-Test zum Testproblem H0 : µ = 40 vs. H1 : µ 6= 40 durchf¨ uhren. Hierbei wird dann von der G¨ utefunktion (c) in Satz 11.2.1 Gebrauch gemacht. Abb. 11.2.4: G¨ utefunktionen eines zweiseitigen Gauß-Tests α = 0.05

g (µ) 1.0

1.0

n =4 n =8

0.8 0.6

n =4 n =8

0.8 0.6

0.4 0.29 0.17 0.2

α

α = 0.1

g (µ)

0.41 0.4 0.26 0.2

α

0.0 38

39 39.5 40

41

H0

H1

H1

42

µ

0.0 38

39 39.5 40

41

H0

H1

H1

42

µ

Wie Abbildung 11.2.4 zeigt, wird das Testniveau an der Stelle der einfachen Nullhypothese exakt eingehalten. Aufgrund des zweiseitigen Testens werden die kritischen Werte gr¨oßer. Deshalb ist die G¨ ute des zweiseitigen Tests an gleicher Stelle kleiner als beim einseitigen Test. Wie man sieht, entsprechen die G¨ utewerte zum Niveau 10% an der Stelle 39.5 den G¨ utewerten des einseitigen Tests zum Niveau 5%. Dies liegt daran, dass der untere kritische Wert zum Niveau 10% beim zweiseitigen Test mit dem kritischen Wert des einseitigen Tests zum Niveau 5% u ¨bereinstimmt. Ansonsten gelten

11.2 Wichtige Aspekte beim Testen

543

sehr ¨ahnliche Sachverhalte, wie sie zuvor beim einseitigen Testen beobachtet werden konnten. • Eigenschaften von G¨ utefunktionen • Wir fassen die in den vorhergehenden beiden Beispielen beobachteten Eigenschaften der G¨ utefunktionen zusammen. Sie gelten in dieser oder a¨hnlicher Weise auch f¨ ur viele andere parametrische Testprobleme. Eigenschaften von G¨ utefunktionen Im Rahmen eines Testproblems bez¨ uglich eines Parameters θ gelten f¨ ur die G¨ utefunktion g(θ) im Allgemeinen folgende Eigenschaften: (i) g(θ) ≤ α f¨ ur alle Werte θ aus H0 . (ii) Die G¨ ute nimmt zu, je weiter man in die Alternative vordringt“. ” (iii) Die G¨ ute nimmt f¨ ur wachsendes n zu, d.h. die Fehlerwahrscheinlichkeit 2. Art nimmt f¨ ur wachsendes n ab. (iv) Die G¨ ute nimmt f¨ ur wachsendes α zu, d.h. die Fehlerwahrscheinlichkeit 2. Art nimmt f¨ ur wachsendes α ab.

• Praktische Implikation zur Fehlervermeidung • Bei einem statistischen Test wird die Irrtumswahrscheinlichkeit 1. Art durch das Testniveau kontrolliert. Ein kleines Testniveau wie etwa 5% oder 1% gew¨ ahrleistet somit, dass diese Irrtumswahrscheinlichkeit klein ist. Allerdings besteht zwischen den beiden Arten von Irrtumswahrscheinlichkeiten ein Zielkonflikt. W¨ ahlt man ein kleines Testniveau, so geht dies stets auf Kosten der G¨ ute. Ein gr¨ oßeres Testniveau erh¨ oht hingegen die Irrtumswahrscheinlichkeit 1. Art und senkt gleichzeitig die Irrtumswahrscheinlichkeit 2. Art. Die einzige M¨oglichkeit, beide Irrtumswahrscheinlichkeiten m¨ oglichst klein zu halten, besteht darin, bei einem m¨oglichst kleinen Testniveau eine m¨ oglichst große Stichprobe zu ziehen. W¨ ahle α m¨ oglichst klein und n m¨oglichst groß! • Optimale Tests • Die G¨ utefunktion eines optimalen Tests“ zum Niveau α nimmt ” f¨ ur jeden Wert θ aus H1 eine h¨ ohere oder zumindest nicht geringere G¨ ute an als jeder andere Test zum Niveau α. Ein wesentlicher Inhalt der statistischen Testtheorie ist es, Aussagen dar¨ uber zu treffen, unter welchen Umst¨anden und auf welche Weise sich solche gleichm¨aßig besten“ Tests konstruieren lassen (vgl. etwa Lehmann und Romano ” [2008]).

11.2.3 p-Werte • Hintergrund und Definition • Bei der Durchf¨ uhrung eines statistischen Tests wird der Wert einer Teststatistik berechnet, der anschließend mit dem zu einem bestimmten Testniveau korrespondierenden kritischen Wert (bei zweiseitigen Tests mit zwei kritischen Werten) verglichen wird. Je nach Ergebnis wird die Nullhypothese dann verworfen

544

11 Statistisches Testen

oder nicht. F¨ ur die Testentscheidung ist dabei v¨ollig unerheblich, wie weit der kritische Wert dabei unter- oder u ¨berschritten bzw. nicht unter- oder u ¨berschritten wird, d.h. wie deutlich“ die Nullhypothese verworfen oder nicht verworfen wird. Gleichwohl stellt ” die Deutlichkeit“ einer Testentscheidung eine interessante ex-post-Information dar. Sie ” f¨ uhrt zum Konzept der sog. p-Werte. Definition 11.2.6: p-Wert Der p-Wert ist das ex post ermittelte Testniveau, zu dem H0 f¨ ur die vorliegenden Daten gerade noch verworfen werden k¨ onnte. Bei stetigen Testverteilungen m¨ usste es eigentlich gerade noch bzw. gerade nicht mehr“ ” heißen (vgl. hierzu Beispiel 11.2.4). Der p-Wert ist eine Gr¨oße, die im Nachhinein berechnet wird. Insofern handelt es sich um eine deskriptive (empirische) Gr¨oße f¨ ur vorliegende Daten. • p-Werte als Ausgabewerte statistischer Software • Statistische Softwareprogramme geben f¨ ur implementierte Tests am Ende h¨aufig p-Werte aus. Eine formale Testentscheidung wird dabei nicht getroffen. M¨ochte man dann einen konfirmatorischen Test sachgerecht durchf¨ uhren, so vergleicht man den p-Wert mit dem a priori festgelegten Testniveau α. Ist der p-Wert kleiner oder gleich α, so wird H0 verworfen, ansonsten nicht. • Beispiel 11.2.3: p-Wert bei diskreter Testverteilung • Betrachten wir nochmals die Situation aus Beispiel 11.1.1 (Raten vs. Wissen) mit dem Testproblem H0 : π = 0.5 vs. H1 : π > 0.5. Die Teststatistik S30 ist die Summe der richtig bearbeiteten Aufgaben, welche unter der Nullhypothese B(30, 0.5)-verteilt ist. Folgende Tabelle gibt auszugsweise die Verteilungsfunktion dieser Testverteilung wider. Tabelle 11.2.4: Verteilungsfunktion der B(30, 0.5)-Verteilung – auszugsweise s P (S30 ≤ s)

14 0.428

15 0.572

16 0.708

17 0.819

18 0.900

19 0.951

20 0.979

Bei einem Signifikanzniveau von 4.9% lautet der kritische Wert 19, da unter H0 gerade P (S30 > 19) ≈ 0.049 gilt. Beantwortet nun ein Student lediglich 19 Fragen korrekt, so wird H0 nicht verworfen. Der Wert 19 selbst ergibt damit einen p-Wert von P (S30 ≥ 19) = P (S30 > 18) = 1 − P (S30 ≤ 18) ≈ 0.100. Um mit dem Wert 19 gerade noch verwerfen zu k¨onnen, m¨ usste der kritische Wert 18 lauten, was dann einem Testniveau von 10.0% entspr¨ache. Bei 15 korrekten Antworten lautet der p-Wert P (S30 ≥ 15) = P (S30 > 14) = 1 − P (S30 ≤ 14) ≈ 0.572. Hier k¨onnte man erst bei einem Testniveau von 57.2% verwerfen.

11.2 Wichtige Aspekte beim Testen

545

Betrachtet man ungeachtet der Sinnhaftigkeit f¨ ur das vorliegende Problem den einseitigen unteren Binomialtest zum Testproblem H0 : π = 0.5 vs. H1 : π < 0.5, ur 19 korrekte Antworten als errechnet sich der p-Wert f¨ P (S30 < 20) = P (S30 ≤ 19) ≈ 0.951. Denn um mit dem Wert 19 gerade noch verwerfen zu k¨onnen, m¨ usste der kritische Wert gleich 20 sein. Analog erh¨ alt man f¨ ur 15 korrekte Antworten als p-Wert P (S30 < 16) = P (S30 ≤ 15) ≈ 0.571. Dieser w¨ urde mit dem p-Wert des oberen Tests u ¨bereinstimmen. Die Bestimmung von p-Werten f¨ ur die zweiseitige Testvariante soll an dieser Stelle nicht besprochen werden. Sie ist davon abh¨ angig, in welcher Weise unterer und oberer kritischer Wert bestimmt werden, was nicht eindeutig geregelt ist. Man beachte hierzu die Ausf¨ uhrungen zum exakten Binomialtest in Abschnitt 11.3.4. Abb. 11.2.5: Ermittlung von p-Werten in den Beispielen 11.2.3 und 11.2.4 S 30

P (S 30 = s ) 0.15

18

Z

φ(x )

0.4

0.10

90.0%

0.05

0.3

10.0%

0.2

6.7%

6.7%

0.1

0.00

0.0 0

5

10

15

20

19

25

30

s

−3

−2

−1

−1.5

0

1

2

1.5

3

z

• Beispiel 11.2.4: p-Wert bei stetiger Testverteilung • Gegeben sei ein zweiseitiger Gauß-Test (Abschnitt 11.3.1) f¨ ur ein Testproblem H0 : µ = µ0 vs. H1 : µ 6= µ0 , der anhand der standardisierten Teststatistik ¯ − µ0 X Z= p σ 2 /n durchgef¨ uhrt wird. Die kritischen Werte zum Niveau 5% lauten dann z0.025 ≈ −1.96 und z975 ≈ 1.96. Ergibt sich aus vorliegenden Daten nun z = 1.5, so wird H0 nicht verworfen. Welches Testniveau m¨ usste man nun w¨ ahlen m¨ ussen, um gerade noch die Nullhypothese zu verwerfen? Um mit dem Wert 1.5 verwerfen zu k¨onnen, m¨ usste der obere kritische Wert ¨ minimal kleiner“ als 1.5 sein. Uber diesen Umstand sieht man jedoch hinweg. Statt” dessen setzt man den Wert der Teststatistik gleich dem kritischen Wert. So wird der Wert 1.5 wird von einer N (0, 1)-verteilten Zufallsgr¨oße mit etwa 6.7% Wahrscheinlichkeit u ¨berschritten (Tab. A.1). Bei einem einseitigen oberen Gauß-Test w¨are der p-Wert entsprechend 0.067, bei einem einseitigen unteren Gauß-Test hingegen 1−0.067 = 0.933.

546

11 Statistisches Testen

¨ Beim zweiseitigen Gauß-Test ergibt sich der p-Wert als das Zweifache der Uberschreitungswahrscheinlichkeit von 1.5 (Abb. 11.2.5, rechts), also 2 · 0.067 = 0.134. Berechnung von p-Werten Sei t die Realisierung der Teststatistik eines Tests und die Zufallsvariable T entsprechend der Testverteilung des Tests verteilt. F¨ ur die in diesem Lehrbuch besprochenen Tests gelten die folgenden Berechnungsformeln: Ist der Test ein a) unterer einseitiger Test, der f¨ ur kleine Werte der Teststatistik ablehnt, dann berechnet sich der p-Wert als P (T ≤ t). b) oberer einseitiger Test, der f¨ ur große Werte der Teststatistik ablehnt, dann berechnet sich der p-Wert als P (T ≥ t). c) zweiseitiger Test, der f¨ ur betragsm¨ aßig große Werte der Teststatistik ablehnt, und die Testverteilung symmetrisch um 0, dann berechnet sich der p-Wert als P (|T | ≥ |t|).

• Sachgerechte Verwendung von p-Werten • Bei konfirmatorischen Tests (Abschnitt 11.1.2) werden die zu u ufenden Hypothesen und Testverfahren bereits ¨berpr¨ vor Erhebung der Daten festgelegt. Dazu geh¨ ort insbesondere auch das Testniveau. Bei biometrischen Tests etwa, mit denen die Wirksamkeit bestimmter Medikamente statistisch nachgewiesen werden soll, muss eine nachtr¨agliche Anpassung des Testniveaus zur Erzielung signifikanter Resultate ausgeschlossen werden. Hier sind Signifikanzniveaus teils gesetzlich vorgegeben. In einem derartigen Kontext ist ein p-Wert immer nur eine rein deskriptive Statistik, die niemals eine nachtr¨agliche Anpassung des Testverfahrens nach sich ziehen sollte – zumindest nicht unter Verwendung der gleichen Daten.

11.2.4 Signifikanz vs. Relevanz • Deutung von Signifikanz • Ausgangspunkt eines statistischen Tests ist stets die Feststellung, dass eine bestimmte Statistik zuf¨ alligen Schwankungen ausgesetzt ist und deshalb eine eindeutige, zweifelsfreie Interpretation eines bestimmten Sachverhalts nicht m¨ oglich ist. Hierdurch implizierte Fragen lauten dann typischerweise: Ist das tats¨ achlich oder nur zuf¨ allig gr¨ oßer als ... ?“, ” Ist das tats¨ achlich oder nur zuf¨ allig kleiner als ... ?“, ” Ist das tats¨ achlich oder nur zuf¨ allig verschieden?“ usw. ” Ein Test schafft einen formalen Rahmen, innerhalb dessen man unter Verwendung von Wahrscheinlichkeitsargumenten plausible Entscheidungen f¨allen kann. Gelangt man dann zu einer Verwerfung der Nullhypothese, so nimmt man einen Befund als tats¨achlich vorliegend“, nicht mehr nur zuf¨allig“ oder statistisch nachgewiesen“ an ” ” ” (vgl. hierzu Abschnitt 11.2.1). Fachsprachlich bezeichnet man den Befund dann als signifikant. So heißt es dann etwa:

11.2 Wichtige Aspekte beim Testen

547

Der Wert ist signifikant gr¨ oßer als ...“, ” Der Wert ist signifikant kleiner als ...“, ” Die beiden Werte sind signifikant verschieden“ usw. ” Im Grunde geht es darum, empirische Aussagen wahrscheinlichkeitstheoretisch zu untermauern. Das Testniveau ist ein Gradmesser f¨ ur die hierbei verwendete Strenge. Es legt fest, wie unwahrscheinlich“ eine Nullhypothese erscheinen muss, damit man sie ” verwerfen kann. ¨ • Ubliche Signifikanzniveaus • Die Festlegung des Testniveaus ist zun¨achst einmal willk¨ urlich. Als verbreiteter Standard gilt jedoch, dass man oberhalb eines Testniveaus von 5% normalerweise nicht mehr von signifikanten Befunden spricht. Im Rahmen konfirmatorischer Tests werden zum Ausschluss schwerwiegender Fehlschl¨ usse meist deutlich strengere Testniveaus wie etwa 1%, 0.1% oder gar noch kleinere zugrunde gelegt. • G¨ ute und Signifikanz f¨ ur großes n • Wie bereits in Abschnitt 11.2.2 festgehalten wurde, steigt im Allgemeinen die G¨ ute eines Tests mit wachsendem n f¨ ur jeden Wert aus H1 an. Dies hat eine besondere Bewandtnis, wenn n ausgesprochen groß“ ” ist. Man beachte hierzu nochmals Beispiel 11.2.1 (Produktion von Metallstiften). Das linke Schaubild von Abbildung 11.2.6 entspricht Abbildung 11.2.2 – allerdings jetzt f¨ ur n = 200. Die unter dem Nullhypothesenwert µ = 40 g¨ ultige Testverteilung ist nun wahrscheinlichkeitsm¨ aßig von den beiden Alternativverteilungen unter µ = 39.5 bzw. µ = 40.5 fast komplett separiert. Auch f¨ ur Alternativwerte, die n¨aher an der 40 liegen wie etwa 39.6 oder 39.7, w¨ are dies aufgrund des geringen Schwankungsverhaltens des Stichprobenmittels noch der Fall. Das rechte Schaubild zeigt die zum Testproblem H0 : µ = 40 vs. H1 : µ 6= 40 utefunktionen des zweiseitigen Tests zum Niveau 5% f¨ ur verschiedene geh¨orenden G¨ Werte von n. Wie man sieht, konvergiert die G¨ ute an jeder Stelle der Alternative gegen 1, sofern n nur hinreichend groß gew¨ ahlt wird. Sofern ein Alternativwert also zutrifft, steigt die Wahrscheinlichkeit, dies zu entdecken und somit ein signifikantes Resultat zu erhalten. Abb. 11.2.6: G¨ ute und Signifikanz f¨ ur wachsendes n n = 200

f (x )

g (µ)

µ0

6

1.0

5

0.8

4

0.6

3

0.4

2

n =5 n = 20

0.2 α = 0.05 0.0

1 0 38

39

40

41

42

x

38

39

n = 200 n = 1000 40

µ0

41

42

µ

548

11 Statistisches Testen

• Signifikanz 6= Relevanz • Jede noch so kleine Abweichung von der Nullhypothese kann zu einer signifikanten Abweichung werden, sofern die Stichprobe nur groß genug gew¨ahlt wird. Zumindest ist dann die Wahrscheinlichkeit einer Verwerfung von H0 sehr groß. In dem im vorhergehenden Punkt verwendeten Beispiel etwa betr¨agt die G¨ ute an der Stelle 40.1 f¨ ur n = 1000 bereits 88.5%. Somit wird eine Abweichung von nur 0.1 mm vom Sollwert bereits mit einer Wahrscheinlichkeit von fast 90% entdeckt und als signifikant eingestuft. Es sollte damit klar werden, dass das Adjektiv signifikant“ eine v¨ollig ” andere Bedeutung hat als groß“, bedeutsam“ oder relevant“. Eine Abweichung von ” ” ” 0.1 mm kann als v¨ ollig irrelevant (bedeutungslos) eingestuft werden, falls beispielsweise u ¨berhaupt nur mit einer Genauigkeit von 1 mm produziert werden muss. Insofern ist der Signifikanzbegriff etwas ungl¨ ucklich gew¨ ahlt, da signifikant“ aus dem Lateinischen ” w¨ ortlich mit wichtig“ oder bedeutsam“ u ¨bersetzt werden kann. Signifikant heißt in der ” ” Statistik jedoch nur nicht zuf¨ allig“. Die Frage, ob etwas auch aus praktischer Sichtwei” se relevant“ ist und beispielsweise wichtige inhaltliche Konsequenzen nach sich zieht, ” ist stets separat zu kl¨ aren. Prinzipiell kann es sein, dass selbst ein als hochsignifikant“ ” eingestufter Befund inhaltlich v¨ ollig unbedeutend ist und jeglicher Relevanz entbehrt. Signifikanz ist nicht gleich Relevanz! Ein signifikanter Befund ist lediglich ein als nicht zuf¨allig erachteter. Die Gleichsetzung von Signifikanz und Relevanz stellt eine der schwerwiegendsten Fehldeutungen in der Statistik dar. Weitergehende Ausf¨ uhrungen zu diesem Signifikanz-Relevanz-Problem finden sich etwa bei Quatember [2005].

11.3 Ausgew¨ ahlte Testverfahren Tests u ¨ber Erwartungswerte und Erwartungswertdifferenzen werden meist als GaußTests, approximative Gauß-Tests oder t-Tests durchgef¨ uhrt und basieren entsprechend auf einer Normalverteilung bzw. t-Verteilung als Testverteilung. Eine weitere wichtige Klasse von Tests sind die χ2 -Tests, die auf der χ2 -Verteilung basieren. Hierzu z¨ahlen der χ2 -Anpassungstest und der χ2 -Unabh¨ angigkeitstest. Mit ersterem Test kann die hypothetische Verteilung einer kategorialen (oder kategorisierten) Variablen u uft werden. Mit letzterer wird die Unabh¨angigkeit zweier kategorialer ¨berpr¨ (oder kategorisierter) Variablen u uft. Dar¨ uber hinaus gibt es noch viele weitere ¨berpr¨ Tests, die sich, wie etwa die Tests u ¨ber Anteilswerte, teils als Spezialf¨alle der vorhergehenden ergeben.

11.3.1 Tests u ¨ ber Erwartungswerte ¨ • Modellrahmen und Uberblick • Ausgehend von unabh¨angig und identisch verteilten Stichprobenvariablen X1 , . . . , Xn mit Erwartungswert µ und Varianz σ 2 k¨onnen unter verschiedenen Ausgangssituationen Tests bez¨ uglich µ konstruiert werden. Die in den folgenden Punkten vorgestellten Tests ber¨ ucksichtigten Situationen, in denen X1 , . . . , Xn

11.3 Ausgew¨ahlte Testverfahren

549

(i) normalverteilt sind mit bekannter Varianz, (ii) normalverteilt sind mit unbekannter Varianz, (iii) einer beliebigen Ausgangsverteilung gen¨ ugen. • Tests u ¨ ber µ bei Normalverteilung und bekannter Varianz • In der Praxis ist die Varianz in der zugrunde gelegten Grundgesamtheit in den meisten F¨allen unbekannt. Lediglich in besonderen F¨ allen, wie etwa in Beispiel 11.2.1, k¨onnte die Annahme einer bekannten Varianz ad¨ aquat sein. Ein geeigneter Test bez¨ uglich µ ist in diesem Fall der Gauß-Test, der sowohl in einer nichtstandardisierten als auch in einer standardisierten Variante durchgef¨ uhrt werden kann. Im ersteren Fall wird als Testverteilung die Verteilung des Stichprobenmittels f¨ ur einen Nullhypothesenwert µ0 verwendet, d.h. konkret ¯ ∼ N (µ0 , σ 2 /n) f¨ X ur µ = µ0 . In letzterem Fall verwendet man das standardisierte Stichprobenmittel als Teststatistik und erh¨alt als Testverteilung die Standardnormalverteilung. Die beiden Testvarianten sind ¨aquivalent, was sich in gleicher Weise zeigen l¨asst wie f¨ ur den approximativen Binomialtest in Abschnitt 11.1.1. Sp¨ ater wird in Satz 11.3.1 nur die standardisierte Variante zusammengefasst. • Beispiel 11.3.1: Gauß-Tests u ¨ ber µ • Als Beispielanwendung beachte man Beispiel 11.2.1. • Tests u ¨ ber µ bei Normalverteilung und unbekannter Varianz • Sofern die Varianz unbekannt ist, wie es bei den meisten Anwendungen der Fall sein d¨ urfte, wird diese durch die korrigierte Stichprobenvarianz gesch¨atzt. Wie bereits in Abschnitt 10.2.2 ausgef¨ uhrt, gen¨ ugt die Statistik ¯ −µ X T =p ∼ t(n − 1) S 2 /n dann einer t-Verteilung mit n−1 Freiheitsgraden. Damit l¨asst sich T auch als sinnvolle Teststatistik verwenden, die f¨ ur einen Nullhypothesenwert µ0 entsprechender Testverteilung gen¨ ugt. Dies f¨ uhrt zu einem sog. t-Test. Da sich die t(n)-Verteilung f¨ ur wachsendes n der Standardnormalverteilung ann¨ahert, k¨onnen ab etwa n = 30 Freiheitsgraden anstelle von t-Quantilen auch Quantile der Standardnormalverteilung verwendet werden. Von praktischer Relevanz (etwa ¨ f¨ ur Ubungen und Klausuren) ist dies deshalb, da die t-Verteilung h¨aufig nur bis n = 30 Freiheitsgraden vertafelt vorliegt (vgl. Tab. A.2). • Beispiel 11.3.2: t-Test u ¨ ber µ • Gegeben seien folgende 10 Realisationen einer Stichprobe aus einer Normalverteilung: 7.8, 10.1, 9.0, 8.0, 11.6, 10.7, 8.1, 8.6, 9.4, 11.9. Hierbei gilt: x ¯ = 9.52 und s2 = 1.50.

550

11 Statistisches Testen

Testen wir nun beispielsweise H0 : µ ≥ 10 vs. H1 : µ < 10 zum Niveau 5%, erhalten wir als Wert der Teststatistik 9.52 − 10 t= p ≈ −1.24. 1.5/10 Der kritische Wert ergibt sich aus dem 0.05-Quantil der t(9)-Verteilung (Tab. A.2): t9,0.05 = −t9,0.95 ≈ −1.83. Wegen t ≈ −1.24 > −1.83 wird H0 nicht verworfen. Das arithmetische Mittel ist bei einem Niveau von 5% folglich nicht signifikant kleiner als 10. Der korrespondierende pWert betr¨agt 12.3%. Dieser Wert l¨ asst sich beispielsweise mit statistischer Software wie R exakt berechnen. Alternativ l¨ asst sich der p-Wert auch mithilfe der Quantilstabelle A.2 absch¨atzen. Da der Wert +1.24 zwischen dem 0.8- und dem 0.9-Quantil liegt, muss der Wert −1.24 aufgrund der Symmetrie der Verteilung zwischen dem 0.1- und dem 0.2-Quantil liegen. Damit liegt der p-Wert irgendwo zwischen 10% und 20%. Der Wert der Teststatistik bleibt gleich, falls wir alternativ H0 : µ = 10 vs. H1 : µ 6= 10 testen. Die kritischen Werte zum Niveau 5% lauten dann t9,0.025 ≈ −2.26 und t9,0.975 ≈ 2.26. Die Nullhypothese kann hierbei (erst recht) nicht verworfen werden. Der korrespondierende exakte p-Wert betr¨ agt dann das Zweifache des einseitigen Tests von zuvor, also 24.6%. Man beachte, dass die obigen Daten bereits in Beispiel 10.2.1 (Gep¨ackabfertigungszeiten) bei der Konstruktion eines Konfidenzintervalls f¨ ur µ verwendet wurden. Das 0.95-Konfidenzintervall ergab sich dabei als p p  x ¯ − t9,0.975 s2 /n, x ¯ + t9,0.975 s2 /n] ≈ [8.64, 10.40]. Dabei ist der Wert 10 im Intervall enthalten, was mit dem bestehenden Zusammenhang zwischen Intervallsch¨ atzung und zweiseitigem Testen konform ist (Abschnitt 11.1.3). • Tests u ¨ ber µ bei beliebiger Ausgangsverteilung • Sowohl beim Gauß-Test als auch beim t-Test geht man von unabh¨ angigen, normalverteilten Stichprobenvariablen aus. Unter dieser Annahme ist die Teststatistik unter dem maßgeblichen Nullhypothesenwert dann exakt normalverteilt bzw. exakt t-verteilt. In vielen Anwendungen erscheint die Normalverteilungsannahme jedoch nicht realistisch. Abhilfe verschafft hier der zentrale Grenzwertsatz (ZGWS). Sind X1 , . . . , Xn u.i.v. mit Erwartungswert µ und Varianz 0 < σ 2 < ∞, so gilt gem¨aß ZGWS (7.4.32) f¨ ur großes n sowohl ¯ −µ a ¯ −µ a X X Z=p ∼ N (0, 1) als auch T = p ∼ N (0, 1). 2 σ /n S 2 /n Zum Nachvollziehen insbesondere des letzteren Resultats beachte man die Ausf¨ uhrungen in Abschnitt 10.2.2 (Sch¨ atzung von µ bei beliebiger Ausgangsverteilung). Unter

11.3 Ausgew¨ahlte Testverfahren

551

Verwendung dieses Sachverhalts k¨ onnen Tests bez¨ uglich µ anhand der gleichen Teststatistik wie bei einem Gauß-Test bzw. t-Test durchgef¨ uhrt werden. Allerdings sind diese nur approximativ zu verstehen. Dies bedeutet, dass ein vorgegebenes Testniveau α aufgrund der Verteilungsapproximation nicht exakt eingehalten wird. Je gr¨oßer n ist, desto genauer sollte diese Approximation jedoch sein. Einen entsprechenden Test bezeichnen wir dann als approximativen Gauß-Test bei bekannter bzw. unbekannter Varianz. Einen Spezialfall stellen die approximativen Binomialtests dar, bei denen die Stichprobenvariablen Bernoulli-verteilt sind. Die in Betracht gezogenen Erwartungswerte entsprechen dabei theoretischen Anteilswerten aus dichotomen Grundgesamtheiten. Einige Beispiele solcher Tests wurden bereits in Abschnitt 11.1.1 angegeben. Eine Zusammenfassung findet sich in Abschnitt 11.3.4. • Zusammenfassung • Fassen wir die verschiedenen Tests dieses Abschnitts zusammen. Satz 11.3.1: Tests u ¨ ber Erwartungswerte Seien X1 , . . . , Xn unabh¨ angig und identisch verteilt mit Erwartungswert µ und Varianz 0 < σ 2 < ∞. Gegeben seien folgende Testprobleme u ¨ber µ: a) H0 : µ ≥ µ0 vs. H1 : µ < µ0 , b) H0 : µ ≤ µ0 vs. H1 : µ > µ0 , c) H0 : µ = µ0 vs. H1 : µ 6= µ0 . Dann basieren die Entscheidungsregeln eines Tests zum Niveau α, falls (i) X1 , . . . , Xn normalverteilt sind mit bekannter Varianz, auf dem Resultat ¯ − µ0 X Z= p ∼ N (0, 1) f¨ ur µ = µ0 σ 2 /n und lauten: Verwerfe H0 in a) , falls z < −z1−α , b) , falls z > z1−α , c) , falls |z| > z1−α/2 , d.h. z < −z1−α/2 oder z > z1−α/2 . (ii) X1 , . . . , Xn normalverteilt sind mit unbekannter Varianz, auf dem Resultat ¯ − µ0 X ∼ t(n − 1) f¨ ur µ = µ0 T =p S 2 /n und lauten: Verwerfe H0 in a) , falls t < −tn−1,1−α , b) , falls t > tn−1,1−α , c) , falls |t| > tn−1,1−α/2 , d.h. t < −tn−1,1−α/2 oder t > tn−1,1−α/2 .

552

11 Statistisches Testen

(iii) n groß und die Varianz bekannt ist, auf dem Resultat a

Z ∼ N (0, 1) f¨ ur µ = µ0 und sind identisch zu denen in (i), (iv) n groß und die Varianz unbekannt ist, auf dem Resultat a

T ∼ N (0, 1) f¨ ur µ = µ0 und sind identisch zu denen in (i), wobei mit z durch t zu ersetzen ist. Die Tests in (i) werden als Gauß-Tests und die Tests in (ii) als t-Tests bezeichnet. In den F¨allen (iii) und (iv) handelt es sich um approximative Gauß-Tests, die man f¨ ur n ≥ 30 anwenden kann. Anstelle der korrigierten Stichprobenvarianz kann in Fall (iv) auch die nichtkorrigierte verwendet werden. • Allgemeine Merkregel via Standardfehler • In Analogie zur Konstruktion von Konfidenzintervallen f¨ ur µ (Abschnitt 10.2.2) l¨asst sich die Bildung der Teststatistiken bei bekannter oder unbekannter Varianz auf die Formel µ ˆ − µ0 µ ˆ − µ0 bzw. σµˆ σ ˆµˆ reduzieren. Verbal ausgedr¨ uckt impliziert dies dann als allgemeine Merkregel: (Sch¨atzwert − Hypothetischer Wert) / (gesch¨atzter) Standardfehler.

11.3.2 Tests u ¨ ber Erwartungswertdifferenzen ¨ • Modellrahmen und Uberblick • Unter den gleichen Rahmenbedingungen wie in Abschnitt 10.2.3 (Konfidenzintervalle f¨ ur Erwartungswertdifferenzen) werden im Folgenden Testverfahren f¨ ur Erwartungswertdifferenzen vorgestellt. Dabei werden Situationen ber¨ ucksichtigt, in denen die Stichprobenvariablen (i) normalverteilt sind mit bekannten Varianzen, (ii) normalverteilt sind mit unbekannten Varianzen, (iii) beliebigen Ausgangsverteilungen gen¨ ugen, (iv) abh¨angig sind in Form verbundener Werte. • Tests u ¨ ber µ − µ bei Normalverteilung und bekannten Varianzen • Tests u ¨ber Erwartungswertdifferenzen basieren stets auf einer Differenz zweier Stichprobenmittel. Die hierbei geltenden Verteilungsresultate wurden bereits in Abschnitt 10.2.3 begr¨ undet. Demnach gilt f¨ ur die Verteilung der Mittelwertdifferenz  σ2  σ2 Y¯1 − Y¯0 ∼ N µ1 − µ0 , 0 + 1 n0 n1

11.3 Ausgew¨ahlte Testverfahren

553

oder alternativ in der standardisierten Form Y¯1 − Y¯0 − (µ1 − µ0 ) ZD = p 2 ∼ N (0, 1). σ0 /n0 + σ12 /n1 In der nichtstandardisierten Variante wird die Mittelwertdifferenz direkt als Teststatistik verwendet, wobei die kritischen Werten dann aus der f¨ ur einen bestimmten Nullhypothesenwert δ0 = µ1 − µ0 geltenden Verteilung hergeleitet werden. In der standardisierten Variante bildet ZD die Teststatistik mit der Standardnormalverteilung als Testverteilung. Die Entscheidungsregeln f¨ uhren in beiden Varianten zu identischen Entscheidungen. Sp¨ater wird in Satz 11.3.2 nur die standardisierte Variante zusammengefasst. Die Tests bezeichnen wir hier als Gauß-Tests u ¨ber Erwartungswertdifferenzen. • Tests u ¨ ber µ − µ bei Normalverteilung und unbekannten Varianzen • Die Durchf¨ uhrung der Gauß-Tests setzt die Bekanntheit der Varianzen voraus, was in den meisten Anwendungsf¨ allen unrealistisch ist. Eine naheliegende Idee ist es, die unbekannten Varianzen durch die korrespondierenden Stichprobenvarianzen n0 n1 1 X 1 X (Y0i − Y¯0 )2 und S˜12 = (Y1i − Y¯1 )2 S˜02 = n0 i=1 n1 i=1 zu sch¨atzen und als Teststatistik Y¯1 − Y¯0 − (µ1 − µ0 ) TˆD = q S˜02 /n0 + S˜12 /n1 zu verwenden. Allerdings gen¨ ugt TD , wie bereits in Abschnitt 10.2.3 ausgef¨ uhrt, keiner einfach zu spezifizierenden Verteilung. Lediglich f¨ ur großes n0 und n1 schafft hier der ZGWS wieder Abhilfe (siehe sp¨ aterer Punkt). Eine einfache L¨osung gibt es nur, falls man die Zusatzannahme einer homoskedastischen Varianz σ02 = σ12 treffen kann. F¨ ur diesen Fall l¨ asst sich dann das Verteilungsresultat Y¯1 − Y¯0 − (µ1 − µ0 ) T˜D = q ∼ t(n0 + n1 − 2) mit Sp2 /n0 + Sp2 /n1 1 (n0 S˜02 + n1 S˜12 ) n0 + n1 − 2 ausnutzen. Die auf dem gepoolten“ Sch¨ atzer f¨ ur die einheitliche Varianz basierende ” Teststatistik gen¨ ugt dann einer t-Verteilung. Die entsprechenden Tests bezeichnen wir hier als t-Tests u ¨ber Erwartungswertdifferenzen. Sp2 =

• Beispiele • Ein Anwendungsbeispiel f¨ ur einen Gauß-Test bzw. einen t-Test einer Erwartungswertdifferenz wurde bereits in Beispiel 11.1.4 (Pflanzenexperiment) geliefert. ¨ In diesem Beispiel ging es um die Uberpr¨ ufung eines kausalen Effekts (D¨ ungung), der u ¨ber eine theoretische Differenz µ1 − µ0 modelliert wurde.

554

11 Statistisches Testen

• Tests u ¨ ber µ − µ bei beliebiger Ausgangsverteilung • Ohne Normalverteilungsannahme sind die Teststatistiken ZD und TD unter bestimmten Bedingungen zumindest asymptotisch standardnormalverteilt. Die verteilungstheoretischen Grundlagen hierzu wurden bereits in Abschnitt 10.2.3 (Sch¨atzung von µ1 − µ0 bei beliebigen Ausgangsverteilungen) besprochen. Dies bildet zugleich die Basis der approximativen Gauß-Tests u ¨ber Erwartungswertdifferenzen bei bekannten oder unbekannten Varianzen. Die approximativen Binomialtests u ¨ber Anteilswertdifferenzen stellen dabei Spezialf¨alle dar. Ein Beispiel und eine Zusammenfassung findet sich in Abschnitt 11.3.4. • Tests u angigkeit in Form verbundener Werte • Das ¨ ber µ − µ bei Abh¨ Problem sog. verbundener Werte wurde bereits in Abschnitt 10.2.3 besprochen. Hierbei geht es darum, dass im Grunde eine zweidimensionale Stichprobe (Y01 , Y11 ), (Y02 , Y12 ), . . . , (Y0n , Y1n ) vorliegt und somit die jeweils mit gleichen Merkmalstr¨agern verbundenen Variablen nicht mehr als unabh¨ angig angenommen werden k¨onnen. Wie auch die Konfidenzintervalle werden deshalb auch die Tests u ¨ber die Betrachtung der unabh¨angigen Differenzen Y11 − Y01 , Y12 − Y02 , . . . , Y1n − Y0n konstruiert, die eine eindimensionale Stichprobe bilden. Je nach Situation kann dann entweder ein Gauß-Test, ein t-Test oder ein approximativer Gauß-Test zur Anwendung kommen. Betrachten wir nochmals die Situation aus Beispiel 10.2.4 (Pflanzenexperiment Nr. 2). Das durchschnittliche Wachstum der drei Pflanzen betrug d¯ = y¯1 − y¯0 = 30 bei einer Standardabweichung von sD = 2. Testen wir nun gem¨aß den Rahmenbedingungen von Fall (ii) in Satz 11.3.1 beispielsweise H0 : µ ≤ 20 vs. H1 : µ > 20, so erhalten wir als Wert der t-Teststatistik d¯ − µ0 30 − 20 t= p = p ≈ 8.66. 2 s /n 22 /3 Der kritische Wert zum Niveau 5% lautet dabei t2,0.95 ≈ 2.92. Damit kann H0 klar verworfen werden. Das durchschnittliche Wachstum betrug bei einem Niveau von 5% somit signifikant mehr als 20 cm. • Zusammenfassung • Fassen wir die verschiedenen Tests dieses Abschnitts zusammen. In Bezug auf verbundene Werte sei auf die Ausf¨ uhrungen des vorherigen Punktes verwiesen. Satz 11.3.2: Tests u ¨ ber Erwartungswertdifferenzen Gegeben seien n = n0 + n1 unabh¨ angige Stichprobenvariablen Y01 , Y02 , . . . , Y0n0

und Y11 , Y12 , . . . , Y1n1 ,

11.3 Ausgew¨ahlte Testverfahren

555

die innerhalb der beiden Gruppen jeweils identisch verteilt sind mit E(Y0i ) = µ0 , V ar(Y0i ) = σ02 mit 0 < σ02 < ∞ f¨ ur i = 1, ..., n0 , E(Y1i ) = µ1 , V ar(Y1i ) = σ12 mit 0 < σ12 < ∞ f¨ ur i = 1, ..., n1 . Gegeben seien folgende Testprobleme u ¨ber µ1 − µ0 : a) H0 : µ1 − µ0 ≥ δ0 vs. H1 : µ1 − µ0 < δ0 , b) H0 : µ1 − µ0 ≤ δ0 vs. H1 : µ1 − µ0 > δ0 , c) H0 : µ1 − µ0 = δ0 vs. H1 : µ1 − µ0 6= δ0 . Dann basieren die Entscheidungsregeln eines Tests zum Niveau α, falls (i) alle Variablen normalverteilt sind mit bekannten Varianzen, auf dem Resultat Y¯1 − Y¯0 − δ0 ∼ N (0, 1) f¨ ur µ1 − µ0 = δ0 ZD = p 2 σ0 /n0 + σ12 /n1 und lauten: Verwerfe H0 in a) , falls zD < −z1−α , b) , falls zD > z1−α , c) , falls |zD | > z1−α/2 , d.h. zD < −z1−α/2 oder zD > z1−α/2 . (ii) alle Variablen normalverteilt sind mit unbekannter, homoskedastischer Varianz (σ02 = σ12 ), auf dem Resultat Y¯1 − Y¯0 − δ0 ∼ t(n0 + n1 − 2) f¨ ur µ1 − µ0 = δ0 T˜D = q Sp2 /n0 + Sp2 /n1 und lauten: Verwerfe H0 in a) , falls t˜D < −tn0 +n1 −2,1−α , b) , falls t˜D > tn0 +n1 −2,1−α , c) , falls |t˜D | > tn0 +n1 −2,1−α/2 . (iii) n0 und n1 groß sind, Annahme (B) von Definition 8.2.1 und die Bedingung n→∞

n1 /n −−−−−→ π ∈ (0, 1) gelten und die Varianzen bekannt sind, auf dem Resultat a

ZD ∼ N (0, 1) f¨ ur µ1 − µ0 = δ0 und sind identisch, wie die in (i). (iv) die Varianzen unbekannt und sonst alle Annahmen von (iii) erf¨ ullt sind, auf dem Resultat Y¯1 − Y¯0 − δ0 a TˆD = q ∼ N (0, 1) f¨ ur µ1 − µ0 = δ0 2 2 S˜0 /n0 + S˜1 /n1 und lauten wie in (i), wobei zD durch tˆD zu ersetzen ist.

556

11 Statistisches Testen

Die Tests in (i) werden hier als Gauß-Tests u ¨ ber Erwartungswertdifferenzen, die Tests in (ii) als t-Tests u ¨ ber Erwartungswertdifferenzen bezeichnet. In den F¨ allen (iii) und (iv) handelt es sich um approximative Gauß-Tests u ¨ ber Erwartungswertdifferenzen, die f¨ ur n0 , n1 ≥ 30 anwendbar sind. Hierzu beachte man, dass Annahme (B) erf¨ ullt ist, sofern die Tr¨ agermengen der Verteilungen der beiden Gruppen beschr¨ ankt sind. Außerdem k¨ onnen in Fall (iv) sowohl nichtkorrigierte als auch korrigierte Stichprobenvarianzen verwendet werden. • Bemerkung zu anderen F¨ allen • Man beachte, dass in Satz 11.3.2 die F¨alle bekannte homoskedastische Varianz“ und unbekannte homoskedastische Varianz“ f¨ ur ” ” großes n0 und n1 nicht aufgef¨ uhrt sind. Letzterer Fall w¨ urde auf der Teststatistik T˜D basieren, ersterer Fall auf ZD , wobei f¨ ur beide Varianzen die homoskedastische Varianz σ 2 eingesetzt w¨ urde. In beiden F¨ allen w¨ urde man dann die N (0, 1)-Verteilung als approximative Testverteilung verwenden. • Bemerkung zum Zweistichproben-Gedanken • H¨aufig werden die in Satz 11.3.2 zusammengefassten Tests auch als Zweistichproben-Tests bezeichnet. Gem¨aß den Ausf¨ uhrungen in Kapitel 9 ziehen wir es vor, im Rahmen statistischer Modellierungen hingegen nur von einer einzigen Stichprobe auszugehen. Dabei kommt eine Gruppierung u ¨ber heterogen verteilte Stichprobenvariablen innerhalb einer solchen Stichprobe zustande. Dieser interpretatorische Ansatz bringt den Vorteil mit sich, dass man die F¨alle, in denen sich die jeweiligen Gruppenumf¨ ange n0 und n1 zuf¨allig ergeben, mit dem gleichen Stichprobenkonzept behandeln kann. Man beachte hierzu den entsprechenden Punkt in Abschnitt 11.3.5. ¨ • Aquivalente Darstellungen im Regressionsmodell • Erwartungswertvergleiche lassen sich teils ¨aquivalent als statistische Probleme im Rahmen des Regressionsmodells formulieren und behandeln. Ausf¨ uhrungen und Beispiele hierzu finden sich in Abschnitt 12.1.4 (Punkt Spezialfall: Bin¨ arer Regressor“). ”

11.3.3 Nichtparametrische χ2 -Tests ¨ Allgemeiner Uberblick Ausgangspunkt der von Pearson [1900a] eingef¨ uhrten χ2 -Tests ist entweder eine einoder zweidimensionale Stichprobe mit einer bzw. zwei kategorialen (ggf. auch kategorisierten) Variablen. Das Datenmaterial basiert entsprechend auf einer ein- oder zweidimensionalen H¨aufigkeitstabelle (Kontingenztabelle). In ersterem Fall geht es darum zu testen, ob eine kategoriale Variable einer bestimmten hypothetischen Verteilung gen¨ ugt oder nicht. Dies f¨ uhrt zum χ2 -Anpassungstest ( passt eine bestimmte Verteilung ” oder nicht?“) In letzterem Fall geht es darum zu testen, ob zwei Variablen stochastisch unabh¨angig voneinander sind oder nicht. Dies f¨ uhrt zum χ2 -Unabh¨ angigkeitstest. Beide Tests sind nichtparametrische, approximative Tests und basieren auf einer χ2 Verteilung als approximative Testverteilung.

11.3 Ausgew¨ahlte Testverfahren

557

χ2 -Anpassungstest • Verteilungstheoretische Grundlagen • Sei X diskret verteilt mit Tr¨agermenge TX = {1, . . . , k}, wobei k ≥ 2, und die zugeh¨origen Eintrittswahrscheinlichkeiten P (X = i) = πi , f¨ ur i = 1, . . . , k, sind. Die Wahrscheinlichkeit πi entspricht also gerade der Wahrscheinlichkeit, dass X die Realisation i annimmt. Seien weiter X1 , . . . , Xn unabh¨angig und identisch wie X verteilt. Dazu definiere man Ni als absolute H¨aufigkeit des Auftretens der Auspr¨agung i in der Stichprobe, d.h. ( n X 1, falls Xj = i, I{i} (Xj ), wobei I{i} (Xj ) = Ni = 0, sonst. j=1 Dann l¨asst sich (mit gr¨ oßerem Aufwand) zeigen, dass f¨ ur großes n gilt: n 2 X (Ni − nπi ) a 2 χ2A = ∼ χ (k − 1). nπi i=1

(11.3.1)

Man beachte hierzu, dass die absoluten H¨ aufigkeiten Ni jeweils B(n, πi )-verteilt sind – mit entsprechenden Erwartungswerten nπi . Insofern l¨asst sich nπi als erwartete absolute H¨ aufigkeit der i-ten Auspr¨ agung interpretieren, w¨ahrend Ni die tats¨achlich beobachtete H¨ aufigkeit ist. Dieses Resultat kann f¨ ur den vielseitig einsetzbaren χ2 -Anpassungstest verwendet werden. In welcher Weise dies geschehen kann, sollen nachfolgende Beispiele ausf¨ uhren. • Approximationsregel • Entscheidend f¨ ur die Anwendbarkeit der Verteilungsapproximation (11.3.1) ist die Gr¨ oße der erwarteten Werte f¨ ur die H¨aufigkeiten. B¨ uning und Trenkler [1994, Abschnitt 4.2.2] diskutieren hierzu teils sich widersprechende Vorschl¨age und stellen fest, dass sich die meisten Autoren von Lehrb¨ uchern auf 5 oder 10 ” geeinigt haben“. Wenngleich ein wenig willk¨ urlich, empfehlen wir in diesem Buch die etwas großz¨ ugigere Bedingung: nπi ≥ 5 f¨ ur i = 1, . . . , k.

(11.3.2)

• Beispiel 11.3.3 Unterschied von Umfragewerten und Wahlergebnissen • Betrachten wir nochmals die Situation aus Beispiel 10.2.6 (Politbarometer und Wahlergebnis der Bundestagswahl 2013). Basierend auf den Zahlen von Tabelle 10.2.1 k¨onnte man sich nun fragen, ob sich das letzte Umfrageergebnis vom eigentlichen Endergebnis signifikant unterscheidet. Wie bereits festgestellt, sind die prozentualen Stimmenanteile aller Parteien in den jeweils aus den Umfragewerten konstruierten 95%-Konfidenzintervallen enthalten. Auf Basis zweiseitiger approximativer Binomialtests ergeben sich f¨ ur die einzelnen Parteien deshalb auch keine signifikanten Unterschiede zwischen Umfragewert und Wahlergebnis (vgl. hierzu Beispiel 10.2.6). Doch wie k¨onnen die Unterschiede von Umfrage und Wahl insgesamt eingeordnet werden? Da die separate Ausf¨ uhrung eines zweiseitigen Tests f¨ ur jede Partei der Problematik des multiplen Testens unterliegt,

558

11 Statistisches Testen

erscheint f¨ ur eine Gesamtbewertung die Ausf¨ uhrung eines einzelnen Tests geeigneter. Hierf¨ ur eignet sich nun ein Anpassungstest. Zur Modellierung nummerieren wir zun¨ achst alle Parteien, einschließlich Sonsti” ge“, mit den Zahlen 1 bis 7 durch und definieren fi als relativen Stimmenanteil von Partei i in der Umfrage, ni als absolute Stimmenanzahl von Partei i in der Umfrage und πi als relativen Stimmenanteil von Partei i bei der Wahl. Tabelle 11.3.1 fasst demgem¨ aß Umfrage- und Wahlergebnisse zusammen. Mit n = 1369 gilt hier ni = n · fi f¨ ur i = 1, . . . , 7, wobei jeweils noch auf ganze Zahlen zu runden ist. Die Werte in der letzten Zeile der Tabelle k¨ onnen als theoretisch zu erwartende absolute H¨ aufigkeiten interpretiert werden, falls die Wahlpr¨aferenzen zum Zeitpunkt der Umfrage genau gleich gewesen w¨ aren wie am eigentlichen Wahltag. Dann h¨atten beispielsweise 41.5% der 1369 Befragten Partei 1 (CDU/CSU) und 25.7% Partei 2 (SPD) w¨ahlen m¨ ussen, was (ungerundet) 568.1 bzw. 351.8 Stimmen entsprochen h¨atte. Je st¨arker nun die tats¨achlich beobachteten H¨ aufigkeiten (die ni ’s) von den theoretisch erwarteten H¨ aufigkeiten (den nπi ’s) abweichen, desto eher spricht dies f¨ ur signifikante Unterschiede. Tabelle 11.3.1: Beobachtete vs. erwartete H¨ aufigkeiten in Beispiel 11.3.3 Auspr¨agung i fi ni = n · fi πi nπi

1 0.400 548 0.415 568.1

2 0.270 370 0.257 351.8

3 0.055 75 0.048 65.7

4 0.085 116 0.086 117.7

5 0.09 123 0.084 115.0

6 0.040 55 0.047 64.3

7 0.060 82 0.063 86.2

Das Testproblem l¨ asst sich formal u ¨ber eine diskrete Zufallsvariable X formulieren, welche die Parteipr¨ aferenz eines zuf¨ allig ausgew¨ahlten W¨ahlers angibt. Dabei testen wir konkret H0 : P (X = i) = πi , f¨ ur i = 1, . . . , 7 vs. H1 : P (X = i) 6= πi f¨ ur mindestens ein i. Aufgrund von Resultat (11.3.1) liegt es nahe, die Gr¨oße χ2A als Teststatistik zu verwenden, da in diese die Abweichungen der beobachteten H¨aufigkeiten von den unter H0 theoretisch erwarteten H¨ aufigkeiten (Ni − nπi ) eingehen. Genauer gesagt wird die Summe aller quadrierten Abweichungen gebildet, wobei jeder einzelne Summand jeweils noch durch die erwartete H¨ aufigkeit dividiert wird. Dies l¨asst sich dahingehend interpretieren, dass eine bestimmte Abweichung umso h¨oher gewichtet wird, desto kleiner die erwartete H¨ aufigkeit ist. Ein absoluter Unterschied geht bei einer kleinen zu erwartenden H¨aufigkeit folglich st¨ arker in die Teststatistik ein als bei einer großen zu erwartenden H¨aufigkeit. Die Abweichungen werden so in gewisser Weise standardisiert. Die Teststatistik nimmt den Wert 0 an, falls beobachtete und erwartete H¨aufigkeiten exakt u ¨bereinstimmen. Sie nimmt hingegen umso gr¨oßere Werte an, desto gr¨oßer die

11.3 Ausgew¨ahlte Testverfahren

559

Werte im Sinne dieser Standardisierung voneinander abweichen. Große Werte der Teststatistik, und nur solche, sprechen somit f¨ ur H1 . Damit wird der Test einseitig nach ” oben hin“ durchgef¨ uhrt. Im vorliegenden Fall gen¨ ugt χ2A unter H0 einer asymptotischen χ2 (6)-Verteilung (Abb. 11.3.4, links). Dazu beachte man, dass die Approximationsbedingung (11.3.2) auf jeden Fall erf¨ ullt ist, da alle erwarteten H¨ aufigkeiten nπi gr¨oßer gleich 5 sind. Damit kann im Sinne der Quantile dieser Verteilung objektiv beurteilt werden, was als große ” Abweichung“ einzuordnen ist und was nicht. F¨ uhrt man den Anpassungstest nun zum Niveau 5% durch, wird als kritischer Wert das 0.95-Quantil der χ2 (6)-Verteilung verwendet. Gem¨aß Tabelle A.3 ist dies χ26,0.95 ≈ 12.592. aß Tabelle 11.3.1 Als Wert der Teststatistik ergibt sich gem¨ n X (ni − nπi )2 χ2A = nπi i=1 (82 − 86.2)2 (548 − 568.1)2 (370 − 351.8)2 + + ··· + ≈ 5.10. 568.1 351.8 86.2 Damit wird H0 nicht verworfen, da der Wert der Teststatistik den kritischen Wert nicht u ¨bertrifft. Bei einem Niveau von 5% weicht das Umfrageergebnis also nicht signifikant vom Wahlergebnis ab. Gem¨ aß Tabelle A.3 ist der p-Wert gr¨oßer als 0.5 (er betr¨agt ca. 0.53). ≈

Angenommen, wir h¨ atten im Rahmen der Umfrage anstelle von n = 1369 Personen die dreifache Anzahl, sprich 3 · n = 9507 Personen, befragt und dabei genau die gleichen Stimmenanteile f¨ ur jede Partei erhalten. Dies bedeutet, dass die Stimmenanzahl f¨ ur jede Partei entsprechend auch drei Mal so groß gewesen w¨are. Dann erg¨abe sich als Wert der Teststatistik auch der dreifache Wert, da n X (3ni − 3nπi )2 = 3χ2A ≈ 15.3. 3nπ i i=1 Da der kritische Wert unver¨ andert bleibt, erg¨ abe sich gem¨aß Tabelle A.3 nun ein p-Wert zwischen 0.01 und 0.025. Die gleichen“ Unterschiede w¨aren somit auf einmal signifikant. ” Dieser zwischen Stichprobengr¨ oße und Signifikanz bestehende Zusammenhang ist in Einklang mit den in Abschnitt 11.2.4 bereits getroffenen Feststellungen. ¨ • Beispiel 11.3.4: Uberpr¨ ufung einer hypothetischen Normalverteilung • Betrachten wir nochmals die Situation aus Beispiel 11.2.1 (L¨ange von Metallstiften). Angenommen, eine Stichprobe um Umfang n = 50 ergibt (der Gr¨oße nach sortiert) folgende gemessenen L¨angen: 37.4, 38.7, 39.5, 40.4, 41.3,

38.1, 38.8, 39.6, 40.5, 41.4,

38.2, 38.8, 39.6, 40.5, 41.8,

38.3, 39.0, 39.8, 40.6, 41.9,

38.4, 39.1, 39.8, 40.8, 41.9,

38.5, 39.2, 39.8, 40.8, 42.0,

38.5, 39.4, 39.8, 41.0, 42.4,

38.5, 39.4, 39.9, 41.0, 42.6,

38.6, 39.5, 39.9, 41.2, 43.7,

38.6, 39.5, 40.0, 41.2, 44.0.

560

11 Statistisches Testen

F¨ ur das arithmetische Mittel und die empirische Standardabweichung erhalten wir hier x ¯ = 40.06

und s ≈ 1.47.

Testen wir nun etwa H0 : µ ≥ 40 vs. H1 : µ < 40, erhalten wir in der standardisierten Gauß-Test-Variante unter der Annahme σ = 1 x ¯ − 40 40.06 − 40 z=p = p ≈ 0.42 2 σ /n σ 2 /50 aß Tabelle A.1 entspricht dies beim unteren einseitigen als Wert der Teststatistik. Gem¨ Test einem p-Wert von etwa 0.66. Zu u urde man somit H0 auf ¨blichen Testniveaus w¨ jeden Fall nicht verwerfen. Die Metallstifte sind also nicht signifikant k¨ urzer als 40 mm. Bei diesem Gauß-Test wird unterstellt, dass die Maschine mit einer Genauigkeit von σ = 1 mm arbeitet und die L¨ angen der einzelnen Stifte bei normm¨aßiger Produktion einer N (40, 1)-Verteilung gen¨ ugen. Vergleicht man nun allerdings die empirische Verteilung der Stichprobenwerte mit dieser theoretisch postulierten Verteilung, erscheint diese Annahme nicht ganz realistisch (vgl. Abb. 11.3.1). So ist die Streuung in der Stichprobe mehr als doppelt so groß wie die angenommene. Außerdem deutet die empirische Verteilung auf eine m¨ aßig rechtsschiefe Verteilung hin, was im Widerspruch zu einer Normalverteilung st¨ unde. Es liegt deshalb nahe, die im Rahmen der Qualit¨atskontrolle getroffene Verteilungsannahme statistisch zu u ufen. Auch hierf¨ ur l¨asst sich ein ¨berpr¨ χ2 -Anpassungstest verwenden. Abb. 11.3.1: Empirische vs. hypothetische Verteilung in Beispiel 11.3.4 ~ f (x ) / f n (x )

2 ~ f (x ) / f n (x ) Klassierung gemäß χ −Test

Standard−Histogramm

0.5

0.5

0.4

0.4

0.3

0.3

0.2

0.2

0.1

0.1

0.0

0.0 36

38

40

42

44

x

36

38

40

42

44

x

Da der Anpassungstest auf das Pr¨ ufen von diskreten Verteilungen ausgelegt ist, muss zun¨achst ein geeigneter Modellrahmen geschaffen werden, in dem sich das Verteilungsproblem der stetig verteilten L¨ angen bearbeiten l¨asst. Dies l¨asst sich u ¨ber Bildung einzelner Gr¨oßenklassen, sprich mittels Kategorisierung , erzielen. Sei Y die L¨ange eines Metallstifts. W¨ ahlt man nun beispielsweise die Gr¨oßenklassen [36, 39], (39, 40], (40, 41] und (41, 44], so erh¨ alt man unter der Annahme Y ∼ N (40, 1) folgende Einfallswahrscheinlichkeiten (vgl. Abb. 11.3.1, rechts): π1 = P (Y ∈ [36, 39]) ≈ 0.16, π3 = P (Y ∈ (40, 41]) ≈ 0.34,

π2 = P (Y ∈ (39, 40]) ≈ 0.34, π4 = P (Y ∈ (41, 44]) ≈ 0.16,

die sich (gerundet) zu 1 addieren. Man beachte, dass man aufgrund der unendlichen Tr¨agermenge der Normalverteilung f¨ ur die erste Klasse eigentlich (−∞, 39] und f¨ ur

11.3 Ausgew¨ahlte Testverfahren

561

usste, damit die Summe aller Wahrscheinlichkeiten die vierte Klasse (41, ∞) w¨ ahlen m¨ tats¨achlich exakt 1 erg¨ abe. Die geringe Wahrscheinlichkeitsmasse außerhalb von [36, 44] kann jedoch vernachl¨ assigt werden. Die Kategorisierung erhalten wir, indem wir nun eine diskrete Zufallsvariable X definieren, welche den Wert 1 annimmt, falls die L¨ange in die 1. Gr¨oßenklasse f¨ allt, den Wert 2, falls die L¨ange in die 2. Gr¨oßenklasse f¨allt usw. Formal definieren wir also  ur Y ∈ [36, 39], 1, f¨   2, f¨ ur Y ∈ (39, 40], X=  3, f¨ ur Y ∈ (40, 41],    4, f¨ ur Y ∈ (41, 44]. Das Testproblem l¨ asst sich nun alternativ formulieren als H0 : P (X = i) = πi , i = 1, . . . , 4 vs. H1 : P (X = i) 6= πi f¨ ur mindestens ein i. Eine Stichprobe wird dann u angige wie Y verteilte Zufallsvariablen Y1 , . . . , Yn ¨ber unabh¨ modelliert, welche ihrerseits unabh¨ angige wie X verteilte Zufallsvariablen X1 , . . . , Xn implizieren. Als Teststatistik kann wiederum die Gr¨oße χ2A verwendet werden. Dabei ist Ni die absolute H¨ aufigkeit der L¨ angen, die in die i-te Gr¨oßenklasse fallen. Gem¨aß (11.3.1) ist χ2A unter H0 asymptotisch χ2 (3)-verteilt (Abb. 11.3.4, Mitte). Anhand der Werte nπi in Tabelle 11.3.2 sehen wir, dass bei dieser Klassenbildung die Approximationsbedingung (11.3.2) erf¨ ullt ist, da alle erwarteten H¨aufigkeiten gr¨oßer oder gleich 5 sind. Tabelle 11.3.2: Beobachtete vs. erwartete H¨ aufigkeiten in Beispiel 11.3.4 (gerundet) Auspr¨ agung i fi ni = n · fi πi nπi

1 0.280 14 0.16 8

2 0.320 16 0.34 17

3 0.160 8 0.34 17

4 0.240 12 0.16 8

Als Wert der Teststatistik ergibt sich χ2A =

4 X (ni − nπi )2 i=1

nπi

(14 − 8)2 (16 − 17)2 (8 − 17)2 (12 − 8)2 + + + ≈ 11.32. 8 17 17 8 F¨ uhren wir den Test zum Niveau α = 0.05 durch, verwenden wir als kritischen Wert ≈

c = χ23,0.95 ≈ 7.81. Damit wird H0 zum Niveau 5% klar verworfen. Gem¨aß Tabelle A.3 ist der p-Wert sogar noch kleiner als 1%. Die empirische Verteilung f¨ ur die einzelnen Gr¨oßenklassen weicht somit signifikant von der hypothetischen diskreten Verteilung von X ab. Dies wiederum bedeutet, dass die empirische Verteilung der Daten signifikant von einer N (40, 1)Verteilung abweicht.

562

11 Statistisches Testen

• Zusammenfassung • Fassen wir den Test zusammen. Satz 11.3.3: χ2 -Anpassungstest Seien X1 , . . . , Xn u.i.v. wie X verteilt, wobei X diskret verteilt sei mit Tr¨agermenge TX = {1, . . . , k} und k ≥ 2. Gegeben sei folgendes Testproblem: H0 : P (X = i) = πi f¨ ur jedes i ∈ TX vs. H1 : P (X = i) 6= πi f¨ ur mindestens ein i ∈ TX . Dann basiert die Entscheidungsregel eines Tests zum Niveau α auf dem Resultat χ2A =

k X (Ni − nπi )2 i=1

nπi

a

∼ χ2 (k − 1) unter H0 ,

wobei Ni die absolute H¨ aufigkeit der Auspr¨ agung i ist, und lautet: Verwerfe H0 , falls χ2A > χ2k−1,1−α , und sonst nicht. Der Test ist anwendbar, falls nπi ≥ 5 f¨ ur i = 1, . . . , k. Ferner kann X auch eine kategorisierte (diskretisierte) Zufallsvariable sein. • Die Frage der Klassenwahl bei Kategorisierung • Im Gegensatz zu Beispiel 11.3.3 musste in Beispiel 11.3.4 eine stetige Zufallsvariable durch Klassenbildung zun¨achst kategorisiert (diskretisiert) werden, um den χ2 -Anpassungstest anwenden zu k¨ onnen. Die hierbei vorgenommene Klasseneinteilung unterliegt in diesem Fall und auch allgemein einer gewissen Willk¨ ur. Gem¨ aß B¨ uning und Trenkler [1994] gibt es zwar zahlreiche Untersuchungen zu diesem Thema, aber letztlich keine allgemein g¨ ultigen Regeln, wie nun Anzahl und Breiten von Klassen festgelegt werden sollen. Klar ist allerdings, dass zumindest die Approximationsbedingung erf¨ ullt sein sollte (die freilich wiederum nicht einheitlich geregelt ist). M¨ oglicherweise erscheint es nat¨ urlicher“, gleich brei” te Klassen anzustreben oder die Klassengrenzen so zu w¨ahlen, dass die theoretischen Einfallswahrscheinlichkeiten (die πi ’s) identisch sind. Insbesondere im Kontext konfirmatorischer Tests stellt es methodisch ein schweres Vergehen“ dar, wenn an der ” Klasseneinteilung solange herumgespielt wird, bis sich ein (gew¨ unschtes) signifikantes oder nicht signifikantes Ergebnis einstellt. Denn es sollte klar sein, dass eine empirische Verteilung immer in irgendeiner Weise von einer hypothetischen Verteilung abweicht und mit dieser so gut wie nie exakt u ugend ¨bereinstimmt. Insofern stellt es dann bei gen¨ großer Stichprobe keine Schwierigkeit dar, eine signifikante Abweichung festzustellen. Man muss nur an der richtigen Stelle suchen bzw. den Test auf die auff¨alligen Abweichungen hin ausrichten. Um die Problematik der Klassenwahl zu verdeutlichen, betrachten wir eine fiktive Beispielsituation wie sie in Abbildung 11.3.2 dargestellt ist. Das linke Schaubild zeigt eine Situation, in der f¨ ur die empirische Verteilung der Daten 6 Klassen der Breite 1 gew¨ahlt wurden (Variante A). Das rechte Schaubild zeigt f¨ ur die gleichen Daten die empirische Verteilung bei einer alternativen Klassierung mit nur 3 Klassen der Breite 2 (Variante B). Wir nehmen an, dass in beiden Varianten die Approximationsbedingung zur Durchf¨ uhrung eines entsprechenden χ2 -Tests erf¨ ullt ist. Wie man sieht, werden bei Variante A die Unterschiede von empirischer und hypothetischer Verteilung deutlich sichtbar

11.3 Ausgew¨ahlte Testverfahren

563

Abb. 11.3.2: Einfluss der Klassenwahl auf die Testentscheidung – fiktives Beispiel ~ f (x ) / f n (x )

~ f (x ) / f n (x )

Klassenwahl Variante A

0.5

Klassenwahl Variante B

0.5

0.4

0.4

0.3

0.3

0.2

0.2

0.1

0.1

0.0

0.0 36

38

40

42

44

36

x

38

40

42

44

x

w¨ ahrend sie bei Variante B nahezu kaschiert werden. So kann es durchaus passieren, dass bei Variante A die Nullhypothese verworfen wird und bei Variante B nicht. • Abzug von Freiheitsgraden bei Parametersch¨ atzungen • Sofern zur Spezifizierung einer konkreten hypothetischen Verteilung zun¨achst bestimmte Verteilungsparameter gesch¨atzt werden (m¨ ussen), sind die verteilungstheoretischen Grundlagen f¨ ur den χ2 -Anpassungstests anzupassen. Betrachten wir dazu nochmals die Situation aus Beispiel 11.3.4. Die hypothetische Normalverteilung, die statistisch u uft wird, ist hier eindeutig, da Erwartungswert ¨berpr¨ und Varianz der Verteilung inhaltlich u ¨ber den Sollwert und die Genauigkeitsangabe der Maschine vorgegeben werden. M¨ ochte man nun jedoch pr¨ ufen, ob die Verteilung der Metallstifte u ¨berhaupt (irgendwie) normalverteilt ist, stellt sich die Frage, welche Werte f¨ ur µ und σ 2 gew¨ahlt werden sollen. Hier k¨ onnte man auf die Idee kommen, anhand der vorliegenden Daten die betreffenden Parameter zun¨achst zu sch¨atzen, um anschließend anhand der gleichen Daten auf die entsprechende Normalverteilung zu testen. Verwendet man Stichprobenmittel und Stichprobenvarianz als Sch¨atzer so erg¨abe sich mit µ ˆ=x ¯ = 40.06 und σ ˆ 2 = s2 ≈ 1.472 eine N (40.06, 1.472 )-Verteilung als hypothetische Verteilung. Abb. 11.3.3: Empirische vs. hypothetische Verteilung nach Parametersch¨ atzung ~ f (x ) / f n (x )

2 ~ f (x ) / f n (x ) Klassierung gemäß χ −Test

Standard−Histogramm

0.5

0.5

0.4

0.4

0.3

0.3

0.2

0.2

0.1

0.1

0.0

0.0 36

38

40

42

44

x

36

38

40

42

44

x

Wie man in Abbildung 11.3.3 gut erkennen kann, erscheinen die Abweichungen zwischen empirischer und hypothetischer Verteilung nicht mehr so stark aus wie in Abbil-

564

11 Statistisches Testen Tabelle 11.3.3: Beobachtete vs. erwartete H¨ aufigkeiten nach Parametersch¨ atzung (gerundet) Auspr¨ agung i fi n i = n · fi πi nπi

1 0.28 14 0.23 11.5

2 0.32 16 0.25 12.5

3 0.16 8 0.26 13

4 0.24 12 0.26 13

dung 11.3.1. Dies liegt hier in erster Linie daran, dass die Streuung der Verteilung nun viel besser zu den Daten passt. Basierend auf den neuen Einfallswahrscheinlichkeiten (Tab. 11.3.3) ergibt sich nun mit χ2A =

4 X (ni − nπi )2 i=1

nπi



(16 − 12.5)2 (14 − 11.5)2 + 11.5 12.5

(8 − 13)2 (12 − 13)2 + ≈ 3.52 13 13 ein deutlich kleinerer Wert der Teststatistik. Der zuvor verwendete kritische Wert zum Niveau 5% von 7.81 wird bei weitem nicht mehr u ¨bersprungen. Jedoch gibt es ein Problem. +

Wie bereits eingangs erw¨ ahnt, sind die verteilungstheoretischen Grundlagen bei Sch¨atzung von Parametern nicht mehr die gleichen. Im Detail sehen diese um einiges komplizierter aus. Eine Regel sieht vor, dass die Anzahl der Freiheitsgrade der Testverteilung um die Anzahl der gesch¨ atzten Parameter reduziert werden muss. Dies hat zur Folge, dass die kritischen Werte kleiner werden. Man beachte, dass mit der Sch¨atzung der Parameter in gewisser Weise eine (optimale) Anpassung der hypothetischen Verteilung an die Daten erfolgt und somit eine Verwerfung von H0 erschwert wird. Kleinere kritische Werte erscheinen vor diesem Hintergrund insofern plausibel, da sie dieser Anpassung entgegenwirken und eine Verwerfung wieder erleichtern. Da wir im vorliegenden Fall zwei Parameter gesch¨atzt haben, m¨ ussten wir den neuen kritischen Wert einer χ2 -Verteilung mit 3 − 2 = 1 Freiheitsgraden, sprich einer χ2 (1)-Verteilung, entnehmen (Abb. 11.3.4). Gem¨aß Tabelle A.3 erhalten wir dann c = χ21,0.95 ≈ 3.84. Dieser Wert ist deutlich kleiner, aber immer noch gr¨oßer als der Wert der Teststatistik. Zum Niveau 5% wird eine Normalverteilung also weiterhin nicht verworfen. Allerdings gibt es zu dieser Vorgehensweise noch einen Einwand (siehe n¨achster Punkt). • Abzug von Freiheitsgraden setzt bestimmte Sch¨ atzmethoden voraus • Die Regel, die Anzahl der Freiheitsgrade um die Anzahl gesch¨atzter Parameter zu reduzieren, ist eigentlich nur g¨ ultig, falls die Parameter mit speziellen Sch¨atzmethoden bestimmt werden. So k¨ onnen etwa zur Sch¨ atzung von Erwartungswert und Varianz nicht automatisch Stichprobenmittel und Stichprobenvarianz verwendet werden. Diese speziellen Sch¨atzmethoden (wie etwa die sog. χ2 -Minimum-Methode) sind jedoch deutlich aufwendiger und komplizierter, sodass u ¨ber diesen Umstand in der Praxis meist hinweggesehen wird (vgl. B¨ uning und Trenkler [1994, Abschnitt 4.2.2]).

11.3 Ausgew¨ahlte Testverfahren

565

Abb. 11.3.4: Testverteilungen von χ2 -Tests χ(6)

f χ2(x )

0.10

0.00

95% 0

5

x

10

0.4

0.15

0.3 95%

0.05 0.00

15

0.5

0.20

0.10

5%

0

χ(1)

f χ2(x )

0.25

0.15

0.05

χ(3)

f χ2(x )

2

4

0.2

5%

x

6

8

95%

0.1

10

0.0

0

1

5%

2

x

3

4

5

χ2 -Unabh¨ angigkeitstest • Verteilungstheoretische Grundlagen • Sei (X, Y ) zweidimensional diskret verteilt mit Tr¨agermenge TXY = {1, . . . , k} × {1, ..., l}, wobei k, l ≥ 2, und korrespondierenden Eintrittswahrscheinlichkeiten P (X = i, Y = j) = πij f¨ ur i = 1, . . . , k und j = 1, . . . , l. Die Wahrscheinlichkeit πij entspricht also gerade der Wahrscheinlichkeit, dass (X, Y ) die Realisation (i, j) annimmt. Entsprechend lassen sich die Randwahrscheinlichkeiten P (X = i) = πi• f¨ ur i = 1, . . . , k und P (Y = j) = π•j f¨ ur j = 1, . . . , l definieren. Seien weiter (X1 , Y1 ), . . . , (Xn , Yn ) unabh¨angig und identisch wie (X, Y ) verteilt. Dazu definiere man Nij als absolute H¨ aufigkeit der Auspr¨agung (i, j) in der Stichprobe, d.h. n X n X Nij = I{i} (Xr )I{j} (Ys ), wobei r=1 s=1

( 1, I{i} (Xr ) = 0,

falls Xr = i, sonst,

( 1, I{j} (Ys ) = 0,

falls Ys = j, sonst.

Weiter seien die absoluten Randh¨ aufigkeiten der Auspr¨agungen i bzw. j: Ni• =

l X

Nij f¨ ur i = 1, . . . , k bzw. N•j =

j=1

k X

Nij f¨ ur j = 1, . . . , l.

i=1

Dann l¨asst sich (mit gr¨ oßerem Aufwand) zeigen, dass f¨ ur großes n gilt:  2 k l N N X X Nij − i• •j a n χ2 = ∼ χ2 ((k − 1)(l − 1)), Ni• N•j i=1 j=1

(11.3.3)

n

falls X und Y stochastisch unabh¨ angig sind. Man beachte hierbei, dass im Falle der Unabh¨angigkeit das Multiplikationskriterium P (X = i, Y = j) = P (X = i)P (Y = j)

f¨ ur alle i und j

566

11 Statistisches Testen

erf¨ ullt ist, d.h. πij = πi• π•j . Sofern man nun die relativen H¨ aufigkeiten der einzelnen Auspr¨agungen von X und Y als Sch¨atzer der theoretischen Wahrscheinlichkeiten πi• bzw. π•j auffasst, d.h. π ˆi• = Ni• /n bzw. π ˆ•j = N•j /n, lassen sich die Terme Ni• N•j =n·π ˆi• · π ˆ•j , n als gesch¨atzte erwartete H¨ aufigkeiten auffassen. Denn theoretisch w¨ urde man die Auspr¨agung (i, j) bei Unabh¨ angigkeit genau n · πij = n · πi• · π•j Mal erwarten. • Verbindung zum Chi-Quadrat- und Kontingenzkoeffizienten • In gewisser Weise wurden obige Sachverhalte im deskriptiven Teil dieses Lehrbuches schon einmal besprochen. So wurde die empirische Version der Statistik χ2 in Abschnitt 5.1.2 als Chi-Quadrat-Koeffizient bezeichnet und als nichtnormiertes Zusammenhangsmaß f¨ ur Kontingenztabellen verwendet. Darauf baute dann der Kontingenzkoeffizient als normiertes Zusammenhangsmaß auf. Fasst man im Rahmen einer statistischen Modellierung die Beobachtungen als Realisierungen von Zufallsvektoren (Xi , Yi ) auf, kann man jetzt feststellen, dass diese Kontingenzmessung zum statistischen Testproblem ¨ der Uberpr¨ ufung der Unabh¨ angigkeit X und Y f¨ uhrt. Der Chi-Quadrat-Koeffizient selbst wird dabei als Teststatistik verwendet. Der korrespondierende Test heißt χ2 Unabh¨ angigkeitstest. Wie der Anpassungstest ist auch dieser Test als oberer einseitig Test durchzuf¨ uhren. Ein Wert von 0 bedeutet, dass das Multiplikationskriterium f¨ ur Unabh¨angigkeit perfekt erf¨ ullt ist. Große Werte der Teststatistik sprechen hingegen ge¨ gen Unabh¨angigkeit. Die interpretatorischen Uberlegungen wurden bereits in Abschnitt 5.1.2 durchgef¨ uhrt. ¨ • Approximationsregel • Ahnlich wie schon beim χ2 -Anpassungstest gibt es auch hier wieder unterschiedliche Auffassungen dar¨ uber, unter welchen Bedingungen die Verteilungsapproximation (11.3.3) noch zul¨ assig ist (vgl. B¨ uning und Trenkler [1994, Abschnitt 8.2]). Wir schließen uns hier der Empfehlung von Bamberg et al. [2012] an, gem¨aß der alle erwarteten H¨ aufigkeiten gr¨ oßer oder gleich 5 sein sollten, d.h. Ni• N•j ≥ 5 f¨ ur alle i, j. (11.3.4) n Damit stimmt die Approximationsbedingung mit derjenigen des Anpassungstests u ¨berein, wobei jetzt allerdings die erwarteten H¨ aufigkeiten lediglich gesch¨atzt sind. Speziell f¨ ur den Fall von 2×2-Tabellen existieren jedoch gesonderte Empfehlungen, da sich hier die Approximationsbedingung (11.3.4) h¨aufig als recht ungenau erweist. So wurde von Yates [1934] zur Verbesserung der Verteilungsapproximation eine Stetigkeitskorrektur vorgeschlagen, die teils auch von statistischen Software-Programmen (wie etwa R) automatisch verwendet wird. F¨ ur n ≤ 40 wird teils auch empfohlen den

11.3 Ausgew¨ahlte Testverfahren

567

exakten Test nach Fisher (kurz: Fisher-Test) zu verwenden (vgl. B¨ uning und Trenkler [1994, S. 228]. • Beispiel 11.3.5: Geschlecht und Raucherstatus • Wir betrachten nochmals die Situation aus Beispiel 5.1.1 mit der Fortsetzung in Beispiel 5.1.2. Auf Basis der (2 × 3)-Kontingenztabelle 5.1.9 ergaben sich Chi-Quadrat-Koeffizient bzw. korrigierter Kontingenzkoeffizient als χ2 = 1.875 bzw. CK ≈ 0.1919. aren, ob die festgestellte Abh¨angigkeit als solche tats¨achlich vorliegt Nun gilt es zu kl¨ (signifikant ist) oder m¨ oglicherweise nur zuf¨ allig ist. Wie sieht ein geeignetes statistisches Modell f¨ ur den vorliegenden Fall dann aus? Sei X das Geschlecht und Y der Raucherstatus einer zuf¨allig ausgew¨ahlten Person aus der interessierenden Grundgesamtheit. Konkret definieren wir ( 1, falls Frau, X= und 2, falls Mann,   1, falls Raucher, Y = 2, falls Gelegenheitsraucher,  3, falls Nichtraucher. Hier gilt also k = 2 und l = 3. Die Stichprobe vom Umfang n = 100 wird durch unabh¨angige, wie (X, Y ) verteilte Zufallsvektoren (X1 , Y1 ), . . . , (Xn , Yn ) modelliert. Auf Basis des Multiplikationskriteriums l¨ asst sich das Testproblem nun formulieren als H0 : P (X = i, Y = j) = P (X = i)P (Y = j) f¨ ur alle i = 1, 2 und j = 1, 2, 3 vs. H1 : P (X = i, Y = j) 6= P (X = i)P (Y = j) f¨ ur mindestens ein Paar (i, j). Die Teststatistik (11.3.3) gen¨ ugt unter H0 (bei Unabh¨angigkeit) approximativ einer χ2 (2)-Verteilung. Da nur große Werte von χ2 f¨ ur die Alternative sprechen, w¨ahlen wir als kritischen Wert ein oberes Quantil“ aus der Testverteilung. Bei einem Testniveau ” von 5% etwa erh¨alt man dann (Tabelle A.3) c = χ22,0.95 ≈ 5.99. Da der Wert der Teststatistik mit χ2 = 1.875 diesen kritischen Wert nicht u ¨bersteigt, wird H0 bei einem Niveau von 5% nicht verworfen. Die gemessene Abh¨angigkeit zwischen Geschlecht und Raucherstatus ist bei einem Niveau von 5% folglich nicht signifikant. • Beispiel 11.3.6: Weißer und schwarzer W¨ urfel • Weiter betrachten wir ebenfalls nochmals das W¨ urfelexperiment aus Abschnitt 5.3.3 in Verbindung mit der (2 × 6)Tabelle 5.3.5. Zur Durchf¨ uhrung eines Unabh¨ angigkeitstest wird diese zu Tabelle 11.3.4 erweitert. Die statistische Modellierung erfolgt analog zum vorhergehenden Beispiel, wobei X mit k = 2 die W¨ urfelfarbe angibt (1=weiß, 2=schwarz) und Y mit l = 3 die geworfene Zahl. Mit (k − 1) × (l − 1) = 5 gen¨ ugt die Teststatistik unter H0 approximativ einer

568

11 Statistisches Testen Tabelle 11.3.4: Tats¨ achliche und zu erwartende H¨ aufigkeiten mit jeweiligen Abweichungen

Zahl W¨ urfel Weiß Schwarz n•j

1 9 (9) 0 9 (9) 0 18

2 6 (11) -5 16 (11) -5 22

3 14 (12) 2 10 (12) 2 24

4 10 (8) 2 6 (8) 2 16

5 8 (7.5) 0.5 7 (7.5) 0.5 15

6 13 (12.5) 0.5 12 (12.5) 0.5 25

ni• 60 60 120

χ2 (5)-Verteilung. Bei einem Testniveau von 5% lautet der kritische Wert dann (Tab. A.3) c = χ25,0.95 ≈ 11.07. Der Wert der Teststatistik ergibt sich als k X l n n 2 X nij − i•n •j (−5)2 22 (−0.5)2 02 2 χ = + + + · · · + ≈ 6.32. = ni• n•j 9 11 12 12.5 n i=1 j=1 urlich Damit wird H0 bei einem Niveau von 5% nicht verworfen, was normalerweise nat¨ auch richtig sein sollte. Die gemessene Abh¨ angigkeit zwischen W¨ urfelfarbe und geworfener Zahl ist bei einem Niveau von 5% nicht signifikant. Somit er¨ ubrigt sich auch eine inhaltliche Deutung der empirisch feststellbaren Abh¨angigkeit im Sinne des korrigierten Kontingenzkoeffizienten von immerhin CK = 0.32. Streng genommen trifft hier der gew¨ ahlte Modellrahmen nicht ganz auf die Situation zu. So ergeben sich die H¨ aufigkeiten n1• und n2• nicht etwa zuf¨allig, sondern entsprechen den Vorgaben eines geplanten Experiments. Weißer und schwarzer W¨ urfel werden jeweils 60 Mal gew¨ urfelt. Deshalb betrachtet man eine Stichprobe heterogen verteilter Zufallsvariablen, die sich entsprechend den Farben Weiß und Schwarz (x = 1 und x = 2) gem¨aß Y1,1 , Y1,2 , . . . , Y1,60 und Y2,1 , Y2,2 , . . . , Y2,60 gruppieren lassen und innerhalb ihrer Gruppen jeweils identisch verteilt sind. Alternativ zum obigen Modellansatz testet man dann, ob die den beiden Gruppen zugrunde liegenden diskreten Ausgangsverteilungen f¨ ur die W¨ urfelergebnisse u ¨bereinstimmen (homogen sind) oder nicht. Dies f¨ uhrt dann zum sog. χ2 -Homogenit¨ atstest, der rein rechnerisch jedoch v¨ollig identisch wie der Unabh¨ angigkeitstest durchgef¨ uhrt wird. Auf formalistische Ausf¨ uhrungen hierzu verzichten wir (vgl. etwa Fahrmeir et al. [2010, Abschnitt 11.2.2]). Nat¨ urlich besteht trotz dieser anderen Sichtweise ein enger Zusammenhang zum Konzept der stochastischen Unabh¨ angigkeit von Zufallsvariablen. Die Situation ist vergleichbar mit derjenigen bei den approximativen Gauß-Tests f¨ ur Erwartungswertdifferenzen, bei denen die Umf¨ ange n0 und n1 sowohl nichtstochastisch als auch stochastisch modellierbar sind. • Beispiel 11.3.7: Placebo vs. Medikament • Im Rahmen einer klinischen Studie wird die Wirkung eines Medikaments im Vergleich zu einem Placebo untersucht. Stellen

11.3 Ausgew¨ahlte Testverfahren

569

wir uns vor, das Ergebnis sei in der linken H¨ alfte von Tabelle 11.3.5 zusammengefasst. Von 85 erkrankten Probanden, denen ein Placebo verabreicht wurde, waren nach einer bestimmten Zeit 45 Personen wieder gesund. Demgegen¨ uber waren von 110 erkrankten Probanden, die das (echte) Medikament erhielten, im selben Zeitraum 62 Personen wieder gesund. Unterscheidet sich nun die Wirkung von Medikament und Placebo signifikant? Wie in Abschnitt 5.1.2 ausgef¨ uhrt, vereinfacht sich die Berechnungsformel f¨ ur den Chi-Quadrat-Koeffizienten bei (2 × 2)-Tabellen. Das Gleiche gilt dann auch f¨ ur die Teststatistik, also f¨ ur die stochastische Version davon. Diese lautet n(N11 N22 − N12 N21 ) χ2 = N•1 N•2 N1• N2• und ist unter der Nullhypothese der Unabh¨ angigkeit χ2 (1)-verteilt. Im vorliegenden Fall erh¨alt man konkret 200(45 · 62 − 45 · 48)2 χ2links = ≈ 0.2268. 88 · 107 · 85 · 110 Bei einem Testniveau von 5% ergeben sich mit dem kritischen Wert (Tab. A.3) c = χ21,0.95 ≈ 3.84 somit keine signifikante Unterschiede. Die Merkmale verabreichtes Mittel“ und Ge” ” sundung“ scheinen unabh¨ angig zu sein. Man beachte, dass in dieser Testausf¨ uhrung auf die Stetigkeitskorrektur nach Yates verzichtet wurde (vgl. hierzu Punkt Approximati” onsregel“ von zuvor), da die Besetzungsh¨ aufigkeiten ausreichend hoch sind. Tabelle 11.3.5: Gleichstarker Zusammenhang bei unterschiedlicher Signifikanz Placebo Medikament

krank 40 48

gesund 45 62

Placebo Medikament

krank 4000 4800

gesund 4500 6200

Im Vergleich dazu betrachte man nun die rechte H¨alfte von Tabelle 11.3.5. Sie ergibt sich aus der linken H¨ alfte, indem alle Besetzungsh¨aufigkeiten mit 100 multipliziert werden. Relativ betrachtet ist die gemeinsame Verteilung der beiden Variablen also identisch. Gem¨ aß den in Abschnitt 5.1.2 besprochenen Transformationseigenschaften erh¨alt man als Chi-Quadrat-Koeffizienten bzw. als Teststatistik dann den 100-fachen Wert, d.h. χ2rechts ≈ 22.68. Wenngleich der korrigierte Kontingenzkoeffizient links und rechts mit CK = 0.05 gleich ist, erh¨alt man im rechten Fall nun auf einmal ein hoch signifikantes“ Ergebnis. Dies ” liegt daran, dass G¨ ute und Testentscheidung bei einem Test maßgeblich vom Stichprobenumfang abh¨angen. Wie in Abschnitt 11.2.4 besprochen, kann jeder noch so kleine Unterschied signifikant sein, sofern der Stichprobenumfang nur gen¨ ugend groß ist. So unterscheiden sich die Gesundungsanteile von Medikament und Placebo hier nur um ca. 3 Prozentpunkte. Sie betr¨ agt f¨ ur das echte Medikament 56.4% und f¨ ur das Placebo 52.9%. Das echte Medikament erscheint zwar wirksamer, aber eben nicht viel. Signifikanz ist deutlich von Relevanz zu unterscheiden.

570

11 Statistisches Testen

Analog wie im vorhergehenden Beispiel k¨onnen die Umf¨ange der beiden Probandengruppen auch nichtstochastisch modelliert werden, insbesondere falls diese geplant waren. Dies f¨ uhrt dann zum χ2 -Homogenit¨ atstest, der, wie bereits gesagt, rechnerisch v¨ollig identisch durchgef¨ uhrt wird. Dieser Test ist ¨aquivalent zu einem speziellen approximativen Binomialtest f¨ ur eine Anteilswertdifferenz bei nichtstochastischen Gruppenumf¨angen. Der χ2 -Unabh¨ angigkeitstest ist hingegen ¨aquivalent zu demselben Test bei stochastischen Umf¨ angen. Man beachte hierzu Satz 11.3.7 in Verbindung mit Beispiel 11.3.8. • Zusammenfassung • Fassen wir den χ2 -Unabh¨angigkeitstest zusammen. In Bezug auf den eng verwandten χ2 -Homogenit¨ atstest sei auf die Erl¨auterungen in den vorhergehenden Beispielen 11.3.6 und 11.3.7 verwiesen. Satz 11.3.4: χ2 -Unabh¨ angigkeitstest Seien (X1 , Y1 ), . . . , (Xn , Yn ) u.i.v. wie (X, Y ), wobei (X, Y ) diskret verteilt ist mit Tr¨agermenge TXY = {1, . . . , k} × {1, . . . , l}, wobei k, l ≥ 2. Gegeben sei folgendes Testproblem: H0 : P (X = i, Y = j) = P (X = i)P (Y = j) f¨ ur alle (i, j) ∈ TXY vs. H1 : P (X = i, Y = j) 6= P (X = i)P (Y = j) f¨ ur mindestens ein (i, j) ∈ TXY . Dann basiert die Entscheidungsregel eines Tests zum Niveau α auf dem Resultat k X l N N 2 X Nij − i•n •j a 2 χ = ∼ χ2 ((k − 1)(l − 1)) unter H0 . Ni• N•j i=1 j=1

n

Dabei lehnt sich die Notation an diejenige f¨ ur Kontingenztabellen an. Die Entscheidungsregel lautet dann: Verwerfe H0 , falls χ2 > χ2(k−1)(l−1),1−α und sonst nicht. Der Test ist anwendbar, falls ni• n•j ≥ 5 f¨ ur alle (i, j) ∈ TXY . n Ferner k¨onnen X und Y auch kategorisierte (diskretisierte) Zufallsvariablen sein.

11.3.4 Weitere Tests Tests u ¨ ber Anteilswerte • Exakter Binomialtest • Sei X1 , . . . , Xn eine Stichprobe unabh¨angiger B(1, π)verteilter Stichprobenvariablen. Beispiele f¨ ur die Durchf¨ uhrung von Tests in Bezug auf den theoretischen Anteilswert π wurden bereits in Abschnitt 11.1.1 ausf¨ uhrlich besprochen. Basiert ein Test auf der Summe n X Sn = Xi i=1

11.3 Ausgew¨ahlte Testverfahren

571

als Teststatistik und einer Binomialverteilung als Testverteilung, so bezeichnet man den Test als exakten Binomialtest (vgl. hierzu die Beispiele 11.1.1 bis 11.1.3). Die diskrete Testverteilung bringt es mit sich, dass im Gegensatz zu stetigen Testverteilungen nicht zu jedem vorgegegebenen Testniveau α ein Test so durchgef¨ uhrt werden kann, dass α ausgesch¨opft wird. Betrachten wir hierzu nochmals kurz Beispiel 11.1.1 in Verbindung mit Abbildung 11.1.1. Soll hier etwa ein exakter Binomialtest genau zum Niveau α = 5% durchgef¨ uhrt werden, so ist dies (mit herk¨ ommlichen Mitteln) nicht m¨oglich. W¨ahlt man wie im Beispiel c = 19 als kritischen Wert, so liegt das Testniveau mit 4.9% leicht darunter, w¨ ahlt man hingegen 18 als kritischen Wert, so ist man mit 10.0% schon deutlich dar¨ uber. Eine m¨ ogliche Konvention k¨onnte deshalb darin bestehen, dass bei Vorgabe eines bestimmten Niveaus, der kritische Wert stets so gew¨ahlt wird, dass das Testniveau entweder exakt eingehalten wird (was nur selten der Fall sein d¨ urfte) oder n¨achstm¨oglich unterboten wird. Bei einem Testniveau von 5% w¨ urde man sich dann also f¨ ur c = 19 entscheiden. Bei einem zweiseitigen exakten Binomialtest, wie etwa in Beispiel 11.1.3, w¨are die Regelung freilich wieder komplizierter, da hier ein unterer und ein oberer kritischer Wert zu w¨ ahlen w¨ aren. Wir verzichten an dieser Stelle auf eine detaillierte Besprechung bzw. konventionelle Regelung. • Approximativer Binomialtest • Binomialtests lassen sich in großen Stichproben auch als approximative Gauß-Tests sowohl in einer nichtstandardisierten als auch in einer standardisierten Variante durchf¨ uhren. Grundlage hierf¨ ur bilden die Verteilungsresultate (11.2.7) und (11.2.8) bzw. (11.2.9). Dies wurde anhand der Einf¨ uhrungsbeispiele in Abschnitt 11.1.1 bereits ausf¨ uhrlich dargestellt. Im Folgenden sei nur die standardisierte Variante auf Basis von Resultat (11.2.9), d.h. des Stichprobenmittels, zusammengefasst. Satz 11.3.5: Approximativer Binomialtest Seien X1 , . . . , Xn unabh¨ angig B(1, π)-verteilt mit 0 < π < 1. Gegeben seien folgende Testprobleme: a) H0 : π ≥ π0 vs. H1 : π < π0 , b) H0 : π ≤ π0 vs. H1 : π > π0 , c) H0 : π = π0 vs. H1 : π 6= π0 , Dann basieren die Entscheidungsregeln eines Tests zum Niveau α, falls n groß ist, auf dem Resultat π ˆ − π0 a Z=p ∼ N (0, 1) f¨ ur π = π0 π0 (1 − π0 )/n und lauten: Verwerfe H0 in a) , falls z < −z1−α , b) , falls z > z1−α , c) , falls |z| > z1−α/2 , d.h. z < −z1−α/2 oder z > z1−α/2 . Dabei ist π ˆ der Anteil von Einsen in der Stichprobe. Der Test wird als approximativer Binomialtest bezeichnet und ist f¨ ur n ≥ 30 anwendbar.

572

11 Statistisches Testen

Man beachte, dass die Varianz der Grundgesamtheit nicht durch die Stichprobenvarianz gesch¨atzt werden muss. Vielmehr ergibt sich diese aus dem hypothetischen Anteilswert π0 als σ 2 = π0 (1 − π0 ). Dennoch w¨are es nicht ganz richtig oder zumindest missverst¨andlich, von einer bekannten Varianz“ zu sprechen. Denn der Wert π0 ist le” diglich ein hypothetisch angenommener Wert, der zur Testdurchf¨ uhrung ben¨otigt wird und im Allgemeinen nicht mit dem wahren Anteilswert u ¨bereinstimmt. Insofern trifft hier Fall (iii) von Satz 11.3.1 nur in einer speziellen Konstellation zu. • Binomialtests als Tests u ur π0 = 0.5 kann der Bi¨ ber den Median • Speziell f¨ nomialtest (exakt oder approximativ) auch als Test u ¨ber den theoretischen Median q0.5 einer stetigen Verteilung verwendet werden. Ausgangspunkt ist dann eine Stichprobe (u.i.v.) stetig verteilter Zufallsvariablen. Nimmt man nun hypothetisch den Wert m0 als theoretischen Median der zugrunde liegenden Verteilung an, d.h. q0.5 = m0 , so impliziert dies P (Xi > m0 ) = 0.5 f¨ ur i = 1, . . . , n, da der Median gerade mit 50%iger Wahrscheinlichkeit u ¨berschritten wird. Anstelle von >“ kann aufgrund der Stetigkeit der Verteilung ohne Weiteres auch ≥“ gew¨ahlt wer” ” den. Dies wiederum impliziert, dass die dichotomisierten Variablen Y1 , . . . , Yn mit Yi = I(m0 ,∞) (Xi )

f¨ ur i = 1, . . . , n

unabh¨angig B(1, 0.5)-verteilt sind. Ist der Median tats¨achlich gr¨oßer, d.h. q0.5 > m0 , so sind diese hingegen B(1, π)-verteilt mit π > 0.5. Da nun mehr als 50% Wahrscheinlich¨ keitsmasse oberhalb des Wertes m0 liegt, steigt die Wahrscheinlichkeit einer Uberschreitung von m0 . Gilt umgekehrt q0.5 < m0 , so sind diese entsprechend B(1, π)-verteilt mit π < 0.5. Somit l¨ asst sich ein Test zum Testproblem H0 : q0.5 ≤ m0 vs. H1 : q0.5 > m0 als Binomialtest zum Testproblem H0 : π ≤ 0.5 vs. H1 : π > 0.5 durchf¨ uhren. Analoges w¨ urde f¨ ur einen unteren einseitigen Test und f¨ ur einen zweiseitigen Test gelten. Betrachten wir nochmals die Situation aus Beispiel 11.3.4. Wir fassen nun die 50 gemessenen L¨angen von Metallstiften als Realisation einer Stichprobe aus irgendeiner stetigen, aber unbekannten Verteilung auf. Uns interessiert, ob signifikant mehr als die H¨alfte der Schrauben k¨ urzer sind als 40 mm. Dazu betrachten wir das Testproblem H0 : q0.5 ≥ 40 vs. H1 : q0.5 < 40. Entsprechend f¨ uhren wir hierzu einen approximativen Binomialtest (nach unten) u ¨ber H0 : π ≥ 0.5 vs. H1 : π < 0.5 durch. Da von den insgesamt 50 Werten nur 20 Werte gr¨oßer sind als 40, weicht der relative Anteil von 0.4 schon einmal nach unten hin vom Sollanteil 0.5 ab. Als Wert der Teststatistik erh¨alt man damit 0.4 − 0.5 z=p ≈ −1.4142. 0.5(1 − 0.5)/50

11.3 Ausgew¨ahlte Testverfahren

573

Bei einem Testniveau von 5% mit dem kritischen Wert −z0.95 ≈ −1.64 erweist sich diese Abweichung jedoch nicht als signifikant, da z ≈ −1.4142 6< −1.64 ist. Somit kann nicht behauptet werden, dass eine signifikante Mehrheit der Schrauben zu kurz ist. ¨ • Approximativer Binomialtest u wie ¨ ber eine Anteilswertdifferenz • Ahnlich im vorhergehenden Punkt lassen sich approximative Gauß-Tests auch f¨ ur Anteilswertdifferenzen spezialisieren. Hierbei kommt Fall (iv) von Satz 11.3.2 in spezieller Weise zur Anwendung. Satz 11.3.6: Approximativer Binomialtest u ¨ ber eine Anteilswertdifferenz Gegeben seien n = n0 + n1 unabh¨ angige Stichprobenvariablen Y01 , Y02 , . . . , Y0n0 und Y11 , Y12 , . . . , Y1n1 , die innerhalb der beiden Gruppen jeweils identisch verteilt sind mit Y0i ∼ B(1, π0 ) mit 0 < π0 < 1 f¨ ur i = 1, . . . , n0 , Y1i ∼ B(1, π1 ) mit 0 < π1 < 1 f¨ ur i = 1, . . . , n1 . Gegeben seien folgende Testprobleme u ¨ber π1 − π0 : a) H0 : π1 − π0 ≥ δ0 vs. H1 : π1 − π0 < δ0 , b) H0 : π1 − π0 ≤ δ0 vs. H1 : π1 − π0 > δ0 , c) H0 : π1 − π0 = δ0 vs. H1 : π1 − π0 6= δ0 . Dann basieren die Entscheidungsregeln eines Tests zum Niveau α, falls n0 und n1 groß und die Bedingung n→∞

n1 /n −−−−−→ π ∈ (0, 1) erf¨ ullt sind, auf dem Resultat π ˆ1 − π ˆ 0 − δ0 a TˆD = q ∼ N (0, 1) f¨ ur π1 − π0 = δ0 π ˆ 1 (1−ˆ π1 ) π ˆ 0 (1−ˆ π0 ) + n0 n1 und lauten: Verwerfe H0 in a) , falls tˆD < −z1−α , b) , falls tˆD > z1−α , c) , falls |tˆD | > z1−α/2 , d.h. tˆD < −z1−α/2 oder tˆD > z1−α/2 , Dabei sind π ˆ0 = Y¯0 und π ˆ1 = Y¯1 die Anteile von Einsen in den jeweiligen Gruppen. Der Test wird hier als approximativer Binomialtest u ur ¨ ber eine Anteilswertdifferenz bezeichnet und ist f¨ n0 , n1 ≥ 30 anwendbar. Man beachte, dass Annahme (B) von Definition 8.2.1 erf¨ ullt ist, da die Tr¨agermengen

574

11 Statistisches Testen

der beiden Verteilungen mit T0 = T1 = {0, 1} beschr¨ankt sind. Ferner gilt aufgrund von Resultat (10.2.38): n0 1 X π ˆ0 (1 − π ˆ0 ) = S˜02 = (Y0i − Y¯0 )2 und n0 i=1 n1 1 X (Y1i − Y¯1 )2 . π ˆ1 (1 − π ˆ1 ) = S˜12 = n1 i=1

Die Sch¨atzung der Varianzen basiert also auf den nichtkorrigierten Stichprobenvarianzen. Somit handelt es sich tats¨ achlich um eine Spezialisierung des vierten Falls von Satz 11.3.2. Wie bereits nach Satz 11.3.2 angemerkt, vermeiden wir es, diesen Test als Zweistichproben-Test zu bezeichnen, sondern pr¨aferieren die Betrachtung einer einzigen Stichprobe mit heterogen verteilten Zufallsvariablen. Speziell f¨ ur δ0 = 0 sind die n Stichprobenvariablen identisch B(1, π)-verteilt mit π = π0 = π1 . Aufgrund der damit verbundenem Homoskedastizit¨ at kann die Sch¨atzung des Standardfehlers deshalb effizienter gestaltet werden gem¨aß: s π ˆ (1 − π ˆ) π ˆ (1 − π ˆ) 1 ˆ 0 + n1 π ˆ1 ). + mit π ˆ = (n0 π n0 n1 n Satz 11.3.7: Test u ¨ ber eine Anteilswertdifferenz δ0 = 0 Gegeben seien die Voraussetzungen und Testprobleme von Satz 11.3.6. Dann basieren die Entscheidungsregeln f¨ ur δ0 = 0 auf dem Resultat π ˆ1 − π ˆ0 1 a T˜˜D = q ∼ N (0, 1) mit π ˆ = (n0 π ˆ 0 + n1 π ˆ1 ). π ˆ (1−ˆ π) π ˆ (1−ˆ π) n + n0

n1

Sofern dieser Test zweiseitig durchgef¨ uhrt wird, ist dieser v¨ollig ¨aquivalent zu einem χ2 -Homogenit¨atstest. Denn es gilt: 2 (i) T˜˜D = χ2 , wobei χ2 die Teststatistik aus (11.3.3) ist, und a a ˜ ∼ N (0, 1). (ii) T˜˜2 ∼ χ2 (1), falls T˜ D

D

Quadriert man die Teststatistik u ¨ber die Anteilsdifferenz, erh¨alt man gerade die Teststatistik eines entsprechenden Homogenit¨ atstests. Außerdem gen¨ ugt eine quadrierte N (0, 1)-verteilte Zufallsvariable einer χ2 (1)-Verteilung, sodass sich die kritischen Werte der Testverteilungen direkt umrechnen lassen. Der approximative Binomialtest u ¨ber H0 : π1 − π0 = 0“ ist ” ¨aquivalent zu einem entsprechenden χ2 -Homogenit¨atstest.

11.3 Ausgew¨ahlte Testverfahren

575

• Beispiel 11.3.7 fortgesetzt (Placebo vs. Medikament) • Betrachten wir erneut die Situation aus Beispiel 11.3.7 (Placebo vs. Medikament). Die Wirksamkeit der beiden Verabreichungsformen werde nun u ¨ber deren Genesungswahrscheinlichkeiten“ definiert ” und statistisch verglichen. Dies l¨ asst sich entsprechend mittels Tests u ¨ber theoretische Anteilsdifferenzen modellieren. In Anlehnung an die Notation von Satz 11.3.6 werden die Probanden u ¨ber Bernoulli-verteilte Stichprobenvariablen Y01 , Y02 , . . . , Y0n0 und Y11 , Y12 , . . . , Y1n1 , modelliert, wobei erstere n0 Variablen f¨ ur die Ergebnisse der Placebo-Behandlung stehen und letztere n1 Variablen f¨ ur die der Medikament-Behandlung. Dabei seien π0 und π1 die Wahrscheinlichkeiten, nach Einnahme des Placebos bzw. des Medikaments gesund zu werden ( Genesungswahrscheinlichkeiten“). ” Angenommen, man interessiere sich zun¨ achst daf¨ ur, ob sich die beiden Wahrscheinlichkeiten bei einem Niveau von 5% signifikant unterscheiden. Das Testproblem lautet dann H0 : π1 − π0 = 0 vs. H1 : π1 − π0 6= 0. ur die Daten der linken H¨ alfte als auch der rechten H¨alfte von Tabelle 11.3.5 Sowohl f¨ erh¨alt man als gesch¨ atzte Wahrscheinlichkeiten π ˆ0 = 45/85 ≈ 0.5294

bzw. π ˆ1 = 62/110 ≈ 0.5636.

Gem¨aß Satz 11.3.7 erh¨ alt man daraus dann 1 π ˆ = (n0 π ˆ 0 + n1 π ˆ1 ) = (45 + 62)/195 ≈ 0.5487 n als gesch¨atzte globale Genesungswahrscheinlichkeit“ und als Teststatistiken ” π ˆ1 − π ˆ0 ˜ links ˜ TD =q ≈ 0.4762 bzw. π ˆ (1−ˆ π) π ˆ (1−ˆ π) + 85 110 rechts =q T˜˜D

π ˆ1 − π ˆ0 π ˆ (1−ˆ π) 8500

+

≈ 4.7624

π ˆ (1−ˆ π) 11000

oßere Stichprobe. Da der Test zweiseitig durchgef¨ uhrt wird, f¨ ur die kleinere bzw. die gr¨ lautet der kritische Wert z0.975 ≈ 1.96 (Tab. A.1), der betragsm¨aßig u ¨berschritten werden muss. Somit ist die Wirkung nur bei der gr¨oßeren Stichprobe signifikant nachweisbar. Ein Abgleich mit Beispiel 11.3.7 zeigt, dass die im vorhergehenden Punkt beschrie¨ bene Aquivalenz zum χ2 -Homogenit¨ atstest tats¨achlich erf¨ ullt ist. So gilt (von Rundungsfehlern abgesehen) zum einen f¨ ur die Teststatistiken (T˜˜links )2 ≈ 0.2268 ≈ χ2 bzw. (T˜˜rechts )2 ≈ 22.68 ≈ χ2 D

links

D

rechts

und zum anderen f¨ ur die kritischen Werte (z0.975 )2 ≈ 1.962 ≈ 3.84 ≈ χ21,0.95 . • Beispiel 11.3.8: Test auf klinische Relevanz • Die allgemeinere Form des approximativen Binomialtests f¨ ur Anteilswertdifferenzen mit δ0 6= 0 erlaubt Tests, die auch Aussagen u ¨ber einen Mindestabstand zweier Anteilswerte machen. Gerade im Hinblick auf die Wirksamkeit eines Medikaments mag dies interessant sein. In der Situation des vorhergehenden Beispiels sollte das echte Medikament im Vergleich zum Placebo nicht

576

11 Statistisches Testen

nur signifikant wirksamer sein, sondern auch relevant wirksamer“ sein. Man beachte ” hierzu die Ausf¨ uhrungen zum Signifikanz-Relevanz-Problem in Abschnitt 11.2.4. Das Medikament sollte also um einen als relevant eingestuften Mindestunterschied besser sein als das Placebo. In Absetzung zum Signifikanzbegriff hat sich in der Medizin hierf¨ ur der Begriff der klinischen Relevanz etabliert (vgl. hierzu etwa Windeler und Conradt [1999] oder Baulig et al. [2008]). Angenommen, ein Medikament erhalte nur dann eine Zulassung, wenn es eine um mindestens 5 Prozentpunkte h¨ ohere Genesungswahrscheinlichkeit aufweist als ein Placebo. In der Situation aus dem vorhergehenden Beispiel w¨ urde das Testproblem dann lauten: H0 : π1 − π0 ≤ 0.05 vs. H1 : π1 − π0 > 0.05. aß Satz 11.3.6 (b) mit Da der Z¨ahler der Teststatistik gem¨ π ˆ1 − π ˆ0 − δ0 ≈ 0.5636 − 0.5294 − 0.05 = −0.0158 bereits negativ ist, f¨ uhrt dies auf jeden Fall zu einem p-Wert, der gr¨oßer als 0.5 ist . Es sollte klar sein, dass sich die beiden Wahrscheinlichkeiten zu u ¨blichen Testniveaus nicht signifikant um mehr als 0.05 unterscheiden k¨onnen, falls die gesch¨atzte Differenz mit 3.42 Prozentpunkten bereits geringer ausf¨allt. Testet man hingegen H0 : π1 − π0 ≤ 0.02 vs. H1 : π1 − π0 > 0.02, so erh¨alt man mit π ˆ1 − π ˆ0 − δ0 ≈ 0.5636 − 0.5294 − 0.02 = 0.0142 gem¨aß Satz 11.3.6 (b) die Teststatistiken 0.0142 links T˜˜D =q ≈ 0.1975 und π ˆ 0 (1−ˆ π0 ) π ˆ 1 (1−ˆ π1 ) + 85 110 rechts =q T˜˜D

0.0142 π ˆ 0 (1−ˆ π0 ) 8500

+

≈ 1.9755.

π ˆ 1 (1−ˆ π1 ) 11000

Mit z0.95 ≈ 1.64 als kritischen Wert zum Niveau 5% wird H0 somit bei der gr¨oßeren, nicht aber bei der kleineren Stichprobe verworfen. Die Genesungswahrscheinlichkeit des echten Medikaments ist im Falle der gr¨ oßeren Stichprobe folglich um mindestens 2 Prozentpunkte signifikant h¨ oher als beim Placebo.

Tests auf Unkorreliertheit und Unabh¨ angigkeit • Korrelationstest • Sofern metrisch skalierte Daten vorliegen, kann ein Test auf Korreliertheit auf Basis des Korrelationskoeffizienten nach Pearson durchgef¨ uhrt werden. Der Test und seine verteilungstheoretischen Grundlagen wurden maßgeblich von Fisher [1915, 1921] eingef¨ uhrt. In der klassischen Variante wird er als t-Test durchgef¨ uhrt. Folgender Satz fasst Rahmenbedingungen, Grundlagen und Entscheidungsregeln der einzelnen Testvarianten zusammen.

11.3 Ausgew¨ahlte Testverfahren

577

Satz 11.3.8: Korrelationstest Seien (X1 , Y1 ), . . . , (Xn , Yn ) unabh¨ angig gemeinsam normalverteilt und %XY die theoretische Korrelation zwischen Xi und Yi , d.h. %XY = Corr(Xi , Yi ) f¨ ur i = 1, . . . , n. Gegeben seien folgende Testprobleme u ¨ber %XY : a) H0 : %XY ≥ 0 vs. H1 : %XY < 0, b) H0 : %XY ≤ 0 vs. H1 : %XY > 0, c) H0 : %XY = 0 vs. H1 : %XY 6= 0. Dann basieren die Entscheidungsregeln eines Tests zum Niveau α auf dem Resultat √ RXY TR = p n − 2 ∼ t(n − 2) f¨ ur %XY = 0 2 1 − RXY und lauten: Verwerfe H0 in a) , falls tR < −tn−2,1−α , b) , falls tR > tn−2,1−α , c) , falls |tR | > tn−2,1−α/2 , d.h. tR < −tn−2,1−α/2 oder tR > tn−2,1−α/2 , Dabei bezeichnet RXY die Stichprobenkorrelation. Der Test wird hier als t-Test auf Unkorreliertheit oder kurz als Korrelationstest bezeichnet. Man beachte, dass der Nullhypothesenwert %XY = 0 die Unabh¨angigkeit von X und Y impliziert, da Unabh¨ angigkeit und Unkorreliertheit bei gemeinsamer Normalverteilung ¨aquivalent sind (Abschnitt 8.3.3). Insofern ist Testvariante c) zugleich ein Test auf Unabh¨angigkeit. Die Durchf¨ uhrung von Tests f¨ ur Testprobleme der Form H0 : %XY = %0 mit %0 6= 0 beruht auf der sog. z-Transformation nach Fisher zur Erzielung einer approximativen Normalverteilung. Sie wird hier nicht besprochen. N¨ahere Hinweise hierzu finden sich etwa bei Sachs und Hedderich [2012, Abschnitt 7.7.2]. Der Korrelationstest l¨ asst sich im Rahmen des einfachen linearen Regressionsmodells ¨aquivalent als Test u uhren. ¨ber den theoretischen Steigungskoeffizienten durchf¨ Ausf¨ uhrungen hierzu finden sich in Abschnitt 12.1.4. Die Annahme einer gemeinsamen (bivariaten) Normalverteilung stellt f¨ ur die Praxis eine sehr restriktive Bedingung dar. Eine alternative M¨oglichkeit, die Unabh¨angigkeit zweier stetiger Zufallsvariablen zu u ufen, best¨ unde darin, beide Va¨berpr¨ riablen X und Y auf Gr¨ oßenklassen zu kategorisieren und dann auf Basis der Stichprobe einen χ2 -Unabh¨angigkeitstest durchzuf¨ uhren. Allerdings unterliegt die Klassenbildung einer gewissen Willk¨ ur. Der mit der Klassenbildung einhergehende Informationsverlust (Werte innerhalb der Klassen werden quasi als gleich erachtet) k¨onnte außerdem auch zu einem G¨ uteverlust f¨ uhren, insbesondere falls insgesamt nur wenige Beobachtungen bzw. Klassen vorliegen. Der Korrelationstest kann aber auch unter allgemeineren Annahmen zur Pr¨ ufung der Unabh¨ angigkeit verwendet werden (n¨achster Punkt).

578

11 Statistisches Testen

• Approximativer Gauß-Test auf Unabh¨ angigkeit • Es kann gezeigt werden, dass die Teststatistik TR auch bei Nichtvorliegen einer gemeinsamen Normalverteilung approximativ normalverteilt ist. Gem¨ aß Witting und M¨ uller-Funk [1995, S. 108] gilt dies etwa, falls X und Y unabh¨ angig sind, die vierten Momente existieren und die Stichprobe gen¨ ugend groß ist. Hiermit l¨ asst sich zumindest Testvariante c) von Satz 11.3.8 zu einem approximativen Test auf Unabh¨angigkeit wie folgt umfunktionieren. Satz 11.3.9: Approximativer Gauß-Test auf Unabh¨ angigkeit Seien (X1 , Y1 ), . . . , (Xn , Yn ) unabh¨ angig identisch verteilt wie (X, Y ), wobei die Momente aller Stichprobenvariablen endlich sind, d.h. Annahme (M) von Definition 8.2.1 erf¨ ullt ist. Gegeben sei folgendes Testproblem: H0 : X und Y sind unabh¨ angig vs. H1 : X und Y sind abh¨angig. Dann basiert die Entscheidungsregel eines Tests zum Niveau α auf dem Resultat a

TR ∼ N (0, 1) unter H0 und lautet: Verwerfe H0 , falls |tR | > z1−α/2 , d.h. tR < −z1−α/2 oder tR > z1−α/2 . Der Test wird hier als approximativer Gauß-Test auf Unabh¨ angigkeit bezeichnet und ist f¨ ur n ≥ 30 anwendbar. Man beachte, dass wir (wie bisher schon immer) von der st¨arkeren und leichter einpr¨agsamen Annahme (M) Gebrauch machen. An sich w¨aren endliche vierte Momente ausreichend. Zur Formulierung von H0 bzw. H1 wird die theoretische Korrelation nicht verwendet, da aus Unkorreliertheit keine Unabh¨angigkeit folgt und H1 als Gegenteil von H0 formuliert werden sollte. Ungeachtet dessen w¨ urde man im Falle einer Verwerfung von H0 sicherlich davon ausgehen, dass Corr(X, Y ) 6= 0 ist, auch wenn die Alangigkeit) keine Korreliertheit impliziert. Dennoch liegt dieser ternativhypothese (Abh¨ Schluss nahe, da die Teststatistik nun einmal maßgeblich auf dem Korrelationskoeffizienten basiert. Eine Verwerfung von H0 unter Corr(X, Y ) = 0 erscheint deshalb relativ unwahrscheinlich. • Welche Korrelation gen¨ ugt zur Signifikanz? • Man k¨onnte sich nun auch fragen, ab welcher Korrelation H0 u ¨berhaupt verworfen wird. Bei einem Testniveau von α mit α ∈ (0, 0.5) betrachten wir hierf¨ ur beim t-Test die Ungleichung |TR | > tn−2,1−α/2 . Mit entsprechenden Umformungen f¨ uhrt dies zum Kriterium v u u t2n−2,1−α/2 |rXY | > t . n − 2 + t2n−2,1−α/2

(11.3.5)

Man beachte, dass f¨ ur n ≥ 30 anstelle der t-Quantile Normalverteilungsquantile verwendet werden k¨onnen, sodass (11.3.5) f¨ ur n ≥ 30 auch f¨ ur den approximativen Gauß-Test auf Unabh¨angigkeit G¨ ultigkeit besitzt. F¨ ur n = 10 und α = 0.05 beispielsweise erhalten

11.3 Ausgew¨ahlte Testverfahren

579

wir s |rXY | >

t28,0.975 ≈ 8 + t28,0.975

r

2.30602 ≈ 0.63. 8 + 2.30602

aßig kleiner ist als 0.63 ist, w¨are f¨ ur n = 10 und α = 0.05 Jede Korrelation, die betragsm¨ folglich nicht mehr signifikant von 0 verschieden. Abbildung 11.3.5 illustriert den Zusammenhang zwischen Korrelation und Teststatistik f¨ ur n = 10, 30 und 100. Dazu wurde in das rechte Schaubild das 0.975-Quantil der Standardnormalverteilung eingezeichnet, also die Signifikanzgrenze zum Niveau 5% f¨ ur großes n. Demnach ist selbst bei einem Stichprobenumfang von n = 100 noch eine Mindestkorrelation von 0.20 zur Erzielung von Signifikanz erforderlich. Abb. 11.3.5: Zusammenhang von Korrelation und Teststatistik tR

tR

100

5

n = 100 n = 30 n = 10

80 60 40

4 3 2

20 0

α = 0.05

1 0.0

0.2

0.4

rXY

0.6

0.8

1.0

0

0.0

0.2

0.4 rXY

0.6

0.8

Es gilt die Faustregel: Jede Korrelation, die betragsm¨aßig kleiner als 0.20 ist, ist f¨ ur n ≤ 100 nicht signifikant. • Beispiel 11.3.9: Einige Fallbeispiele f¨ ur Tests auf Unkorreliertheit und Unabh¨ angigkeit • Betrachten wir zun¨ achst die Situation aus Beispiel 5.2.5 in Verbindung mit dem Streudiagramm von Abbildung 5.2.5. Sofern die Daten als Realisation einer Stichprobe interpretiert werden, erscheint die Annahme einer bivariaten Normalverteilung durchaus realistisch. So ist die Punktwolke mit der elliptischen Gestalt einer solchen Verteilung gut vereinbar. Auf Basis von Tabelle 5.2.2 ergibt sich eine Korrelation von 2.45 rXY ≈ √ ≈ 0.6730. 5.89 · 2.25 Testen wir nun etwa zweiseitig H0 : %XY = 0 vs. H1 : %XY 6= 0, so erhalten wir f¨ ur n = 10 als Wert der Teststatistik √ 0.6730 tR ≈ 8 √ ≈ 2.5736. 1 − 0.67302 Bei einem Testniveau von 5% kommen wir mit c = t8,0.975 ≈ 2.31 als kritischen Wert zu einer Verwerfung von H0 . Die Korrelation ist zum Niveau 5% also signifikant von 0 verschieden. Da t8,0.995 ≈ 3.36 ist, ergibt sich ein p-Wert, der gr¨oßer als 0.01 ist.

580

11 Statistisches Testen

Als n¨achstes betrachten wir nochmals die Situation aus Beispiel 5.2.2 mit der korrespondierenden Korrelationsmatrix Gr¨ oße Gewicht Schuhgr¨ oße Schlaf

Gr¨ oße 1.0000 0.7149 0.8444 0.0209

Gewicht 0.7149 1.0000 0.7189 −0.0058

Schuhgr¨oße 0.8444 0.7189 1.0000 −0.0168

Schlaf 0.0209 −0.0058 −0.0168 1.0000

Da die Korrelationswerte jeweils auf u ¨ber 200 Beobachtungswerten beruhen, sind alle Werte bis auf die Korrelationen mit der Variable Schlaf“ signifikant von 0 verschieden. ” Dies ergibt sich aus vorhergehender Faustregel. Inhaltlich ist dies nat¨ urlich ¨außerst plausibel. Schließlich betrachten wir nochmals das W¨ urfelexperiment gem¨aß dem linken Schaubild von Abbildung 5.3.20. Zwei W¨ urfel werden hier jeweils 10 Mal geworfen. Die hierbei auftretende Korrelation ist rein zuf¨ allig. Gem¨aß dem Kriterium (11.3.5) w¨are diese erst ab etwa 0.63 signifikant. Allerdings muss hier angemerkt werden, dass die W¨ urfelergebnisse diskret verteilt sind und die Normalverteilungsannahme somit nicht zutreffend ist. Auch der approximative Gauß-Test auf Unabh¨angigkeit gem¨aß Satz 11.3.9 ist mit n = 10 noch nicht anwendbar. Dennoch gibt die auf der Normalverteilungsannahme basierende Signifikanzgrenze von 0.63 einen ersten groben Anhaltspunkt. Eine M¨oglichkeit zur Gewinnung einer genaueren Entscheidungsgrenze w¨are die Durchf¨ uhrung eines Monte-Carlo-Test (siehe n¨ achster Punkt).

Sonstige Tests und Testmethoden • Vorbemerkung • Die Anzahl und Variationsbreite statistischer Tests im Rahmen mehr oder weniger komplexer statistischer Modelle ist sehr groß. Die bisher vorgestellten Verfahren geh¨oren allesamt zur Gruppe der bekanntesten Standard-Tests. Einen selektiven Einblick in die Vielfalt vieler weiterer Testprobleme und Tests bieten beispielsweise Sachs und Hedderich [2012]. Wir beschr¨ anken uns im Folgenden darauf, einige weitere Tests kurz zu skizzieren, die einen relativ engen Bezug zu den bisherig behandelten aufweisen und sich ohne gr¨ oßeren Aufwand im Eigenstudium erschließen lassen. • Binomialtests u ¨ ber Quantile • So wie sich der Binomialtest (exakt oder approximativ) als Test u ¨ber den Median spezialisieren l¨asst, kann er auf analoge Weise als Test u ¨ber jedes andere Quantil verwendet werden. Hierzu ist lediglich die entsprechende Wahrscheinlichkeit π0 anzupassen und die korrespondierende Testverteilung anzugleichen. Bezeichne beispielsweise q0.25 das 0.25-Quantil der stetigen u.i.v. Zufallsvariablen X1 , . . . , Xn , d.h. P (X > q0.25 ) = 0.75. Unter ansonsten gleichen Rahmenbedingungen w¨ are dann das Testproblem H0 : q0.25 ≤ m0 vs. H1 : q0.25 > m0 ¨aquivalent zu einem Testproblem H0 : π ≤ 0.75 vs. H1 : π > 0.75. Mit Yi = I(m0 ,∞) (Xi ) f¨ ur i = 1, . . . , n

11.3 Ausgew¨ahlte Testverfahren

581

ergibt sich dann eine B(n, 0.75)-Verteilung als Testverteilung. • F-Tests u ¨ ber Varianzen • Nicht nur Erwartungswerte lassen sich statistisch vergleichen, sondern auch theoretische Varianzen. Hierf¨ ur verwendet man einen speziellen F -Test, der, wie der Name schon vermuten l¨ asst, auf der F -Verteilung als Testverteilung beruht (vgl. etwa Schira [2012, Abschnitt 15.8]). Dieser Test mag insbesondere auch interessant sein, um in bestimmten Situationen die Annahme der Homoskedastizit¨ at zu pr¨ ufen. • F-Tests auf Gleichheit von Erwartungswerten und ANOVA • Den in Satz 11.3.2 vorgestellten Tests u ¨ber Erwartungswertdifferenzen liegt eine Stichprobe zugrunde, die sich in zwei Gruppen von Stichprobenvariablen aufteilen l¨asst. Dies l¨asst sich prinzipiell auch auf k Gruppen mit k ≥ 2 verallgemeinern. Speziell wird dann aus einem Test zum Testproblem H0 : µ0 = µ1 vs. H1 : µ0 6= µ1 ein Test u ¨ber die Gleichheit von k Erwartungswerten, d.h. H0 : µ1 = µ2 = · · · = µk vs. H1 : µi 6= µj f¨ ur mindestens ein Paar (i, j), i 6= j. Diese Tests werden wie im vorhergehenden Punkt ebenfalls als F-Tests durchgef¨ uhrt, jedoch anders konstruiert. Sie werden auch als ANOVA-F-Tests bezeichnet, da sie auf dem Gebiet der Varianzanalyse (Analysis of Variance) h¨aufig verwendet werden. Die korrespondierenden statistischen Modelle (Varianzanalyse-Modelle oder ANOVAModelle) lassen sich dabei als spezielle Regressionsmodelle darstellen (vgl. Fallbeispiel 4 in Abschnitt 12.2.3). • Tests auf Normalverteilung • Im Rahmen vieler statistischer Modelle wird regelm¨aßig von einer Normalverteilungsannahme Gebrauch gemacht. Sofern sich diese auf eine beobachtbare Variable bezieht, l¨ asst sich diese auch statistisch pr¨ ufen. Prinzipiell l¨asst sich hierf¨ ur der χ2 -Anpassungstest, wie in Beispiel 11.3.4 demonstriert, verwenden. Allerdings unterliegt dieser Test, wie im Punkt Die Frage der Klassenwahl ” bei Kategorisierung“ besprochen, aufgrund der vorzunehmenden Klasseneinteilung stets einer gewissen Willk¨ ur. In der Praxis wird deshalb meist von anderen Testverfahren wie etwa dem Kolmogoroff-Smirnov-Test, dem Shapiro-Wilk-Test, dem JarqueBera-Test oder dem Anderson-Darling-Test Gebrauch gemacht. An Alternativen mangelt es offensichtlich nicht. Zur Bedeutung der Normalverteilungsannahme beachte man jedoch auch den entsprechenden Punkt Normal- vs. nicht normalverteilt“ in ” Abschnitt 10.2.5. • Korrelationstests nach Spearman • Gegeben sei die Situation aus Beispiel 5.1.5 (Glaube und Sternzeichen). An sich ist hier aus Abbildung 5.1.8 ein offensichtlicher Zusammenhang bereits gut erkennbar. Ein Test auf Unkorreliertheit oder Unabh¨angigkeit gem¨aß Satz 11.3.8 bzw. 11.3.9 erscheint f¨ ur diesen Fall jedoch nicht angebracht, da hier ordinale Merkmale in gewisser Weise beliebig metrisiert wurden (vgl. hierzu den Punkt Zusammenhangsmaße f¨ ur ordinale Merkmale“ in Abschnitt 5.3.1). Geeig” nete Zusammenhangsmaße w¨ aren hier etwa der korrigierte Kontingenzkoeffizient oder

582

11 Statistisches Testen

der Korrelationskoeffizient nach Spearman. F¨ ur ersteres Maß k¨onnte man einen χ2 Unabh¨angigkeitstest durchf¨ uhren. F¨ ur letzteres lassen sich unter bestimmten Bedingungen exakte oder approximative Tests durchf¨ uhren (vgl. B¨ uning und Trenkler [1994, Abschnitt 8.4]). So l¨ asst sich etwa zeigen, dass √ a n − 1 · RS ∼ N (0, 1) (11.3.6) gilt, wenn die Merkmale unabh¨ angig sind, was auf einen approximativen Gauß-Test auf Unabh¨angigkeit hinausl¨ auft. Weniger problematisch sieht es hingegen in Beispiel 5.2.8 (Wirtschaftsleistung und Lebenserwartung) aus. F¨ ur n = 200 und rXY ≈ 0.54 ergibt sich hier mit √ rXY 0.54 √ tR = p n − 2 ≈ 198 ≈ 9.03 2 1 − 0.542 1 − rXY ein klar signifikanter Zusammenhang. Man beachte, dass wir hierbei auf Basis des approximativen Gauß-Tests auf Unabh¨ angigkeit gem¨aß Satz 11.3.9 argumentieren, da in Anbetracht von Abbildung 5.2.12 die Annahme einer bivariaten Normalverteilung unangebracht erscheint. Andererseits erh¨ alt man f¨ ur rS ≈ 0.82 mit √ √ n − 1 · rS ≈ 199 · 0.82 ≈ 11.57. gem¨aß (11.3.6) ein noch signifikanteres“ Ergebnis. Dies liegt daran, dass die Monotonie ” des Zusammenhangs deutlich st¨ arker ausgepr¨ agt ist als die Linearit¨at. • Monte-Carlo-Tests • Bei bestimmten Testproblemen gestaltet sich eine analytische Herleitung einer exakten oder asymptotischen Testverteilung als außerordentlich schwierig. In solchen F¨ allen kann eine solche dann m¨oglicherweise nur mithilfe einer sog. Monte-Carlo-Simulation n¨ aherungsweise gesch¨atzt“ werden. Dies setzt im Allge” meinen jedoch voraus, dass die Ausgangsverteilung der Stichprobenvariablen bekannt ist. Einen auf einer solchen simulierten Testverteilung basierenden Test bezeichnet man entsprechend als Monte-Carlo-Test. Betrachten wir als Beispiel nochmals das W¨ urfelexperiment korrespondierend zum linken Schaubild von Abbildung 5.3.20. Zwei W¨ urfel werden jeweils 10 Mal geworfen und die Korrelation der Ergebnisse gemessen. Wie bereits bei den Fallbeispielen zu den Tests auf Unkorreliertheit und Unabh¨ angigkeit bemerkt, eignet sich hier weder ein Korrelationstest gem¨ aß Satz 11.3.8 noch ein Unabh¨angigkeitstest gem¨aß Satz 11.3.9, da die Verteilung der W¨ urfelergebnisse einerseits diskret ist und andererseits n = 10 noch nicht ausreichend groß ist. Die Verteilung von TR unter H0 kann nun aber durch Simulation n¨aherungsweise gesch¨ atzt werden. Bei einer Stichprobengr¨oße von n = 10 und N = 1000 simulierten Stichproben entspricht dies im Prinzip der Simulation von Abbildung 5.3.20, wobei die Korrelationswerte jedoch noch gem¨aß TR transformiert werden. An sich k¨onnte man auch die simulierte Verteilung von RXY direkt zur Konstruktion eines Tests verwenden. Dadurch w¨ urde aber der direkte Vergleich mit dem Korrelationstest erschwert. M¨ ogliche Extremf¨ alle der Simulation werden zur Vereinfachung ignoriert, da rXY bzw. TR in diesen F¨ allen nicht definiert w¨aren. Das w¨are z.B. dann der Fall, wenn ein W¨ urfel 10 Mal hintereinander das gleiche Ergebnis liefert. Typischerweise sollte N m¨oglichst groß genug gew¨ ahlt werden, um eine m¨oglichst genaue N¨aherung zur wahren Testverteilung“ zu erhalten. Aus den (empirischen) Quantilen dieser simulier” ten Testverteilung werden dann die kritischen Werte gewonnen. Beispielsweise erh¨alt

11.3 Ausgew¨ahlte Testverfahren

583

man f¨ ur N = 1 Mio. qˆ0.025 ≈ −2.33 und qˆ0.975 ≈ 2.33. Diese empirischen Sch¨ atzwerte liegen erstaunlich nahe an den theoretischen Quantilen der t(8)-Verteilung mit t8,0.025 ≈ −2.30 bzw. t8,0.975 ≈ 2.30. Dies impliziert gem¨aß Formel (11.3.5), dass man erst ab einer empirischen Korrelation von etwa 0.63 die Unabh¨angigkeitsannahme verwerfen w¨ urde. Zumindest zum Niveau 5% sollten die Entscheidungen bei diesem Monte-Carlo-Test also fast immer wie bei einem gew¨ohnlichen Korrelationstest ausfallen. • Bayes-Tests • Die im Rahmen dieses Lehrbuches vorgestellte Testtheorie entspricht dem, was man allgemein unter frequentistischer Inferenz oder klassischer Inferenz versteht. Dem gegen¨ uber gibt es auch die sog. Bayes-Inferenz , im Rahmen derer die Parameter statistischer Modelle nicht als feste, sondern als stochastische Gr¨oßen aufgefasst werden. Dieser Ansatz definiert mit der Bayes-Statistik ein eigenes Gebiet innerhalb der Statistik. Inhalte und Konsequenzen des Bayes-Kalk¨ uls wurden bereits in Abschnitt 6.2.3 im Rahmen der Wahrscheinlichkeitsrechnung aufgezeigt. In Abschnitt 10.3.3 wurde dann skizziert wie sich dieses Kalk¨ ul auf Sch¨atzprobleme anwenden l¨asst. In ¨ahnlicher Weise l¨ asst sich dies nun auch auf Testprobleme anwenden. Im Rahmen eines Bayes-Tests k¨ onnen die in Abschnitt 11.2.2 getroffenen Aussagen zur Deutung von Irrtumswahrscheinlichkeiten revidiert werden. So sind dann die Irrtumswahrscheinlichkeiten 1. und 2. Art tats¨ achlich als (echte) bedingte Wahrscheinlichkeiten zu verstehen. Dar¨ uber hinaus kann nun vor allem aber auch eine globale Irrtumswahrscheinlichkeit definiert und angegeben werden. So l¨asst sich zeigen, dass ein Bayes-Test genau in dieser Hinsicht auch optimal ist. Er minimiert n¨amlich die globale Irrtumswahrscheinlichkeit, d.h. die Wahrscheinlichkeit einer falschen Entscheidung u ¨berhaupt (vgl. hierzu etwa Liese und Miescke [2008]). Trotz dieser in diesem Punkt attraktiven theoretischen Eigenschaft besteht ein wesentlicher Nachteil darin, dass die Durchf¨ uhrung eines Bayes-Tests i.d.R. mit einem deutlich h¨oheren rechentechnischen Aufwand verbunden ist als bei einem klassischen Test. Außerdem stellt sich nat¨ urlich auch die Frage, wie man die Verteilung der Modellparameter (die A-priori-Verteilung) festlegen soll. Eine umfassende Darstellung zur Bayes-Inferenz bieten etwa Gelman et al. [2014].

11.3.5 Allgemein zu beachtende Punkte • Ad¨ aquatheit von Modellannahmen • G¨ ultige Inferenz setzt sowohl beim Sch¨atzen als auch beim Testen die Ad¨ aquatheit des getroffenen Modellrahmens voraus. Sind bestimmte Annahmen verletzt, so f¨ uhrt dies zu mehr oder weniger starken Verf¨alschungen vorgegebener Sicherheits- oder Irrtumswahrscheinlichkeiten. Einer Sch¨atzung oder einer Testentscheidung wird damit ihre wahrscheinlichkeitstheoretische Fundierung entzogen. Aufgrund der engen Beziehung zwischen Sch¨atzen und Testen l¨asst sich die Ad¨aquatheit bestimmter Modellannahmen beim Testen anhand der gleichen Punkte pr¨ ufen und diskutieren wie in Abschnitt 10.2.5. So gilt auch weiterhin, dass Repr¨asentativit¨at die allererste Grundvoraussetzung f¨ ur die Sinnhaftigkeit jeglicher Inferenz darstellt. Weiter sind Verletzungen der Unabh¨ angigkeitsannahme, wie sie beispielsweise

584

11 Statistisches Testen

bei Zeitreihendaten auftreten, deutlich schwerwiegender als Abweichungen von einer Normalverteilungsannahme. Allerdings spielt auch die St¨arke der Abh¨angigkeit eine Rolle. Schwache Abh¨ angigkeit“ f¨ uhrt im Allgemeinen nur zu leichten Verf¨alschungen. ” Grunds¨atzlich beachte man: Modellannahmen sind in der Praxis niemals perfekt erf¨ ullt. • Stochastische Gruppenumf¨ ange • Die statistischen Tests u ¨ber Erwartungswertdifferenzen und Anteilswertdifferenzen (S¨ atze 11.3.2 und 11.3.6) werden rechnerisch in gleicher Weise durchgef¨ uhrt, falls sich die jeweiligen Gruppenumf¨ange zuf¨allig ergeben. Die Beschreibung des Modellrahmens muss dazu nur leicht angepasst werden. Ausf¨ uhrungen hierf¨ ur finden sich bereits in Abschnitt 10.2.5 im Kontext der Differenzensch¨atzung. Diese k¨ onnen auf das Testen u uber hinaus lassen ¨bertragen werden. Dar¨ sich diese Sch¨atz- und Testprobleme auch ¨ aquivalent im Rahmen des linearen Regressionsmodells darstellen. Darauf werden wir sp¨ater nochmals in Abschnitt 12.1.4 zu sprechen kommen (Punkt Spezialfall: Bin¨ arer Regressor“). ” • Abh¨ angigkeit und Kausalit¨ at • Es gilt weiterhin der Grundsatz: Korrelation impliziert keine Kausalit¨at. Dies gilt auch f¨ ur jede signifikante Korrelation. Man beachte dazu nur das W¨ urfelexperiment mit den zwei W¨ urfeln, die unabh¨ angig voneinander jeweils 10 Mal geworfen werden. Der Zufall kann daf¨ ur sorgen, dass die Ergebnisse stark oder zumindest signifikant korrelieren. Andererseits m¨ ussen im Mehrvariablenkontext immer auch Scheinabh¨ angigkeiten und systematische Verzerrungen in Erw¨agung gezogen werden. In letzterem Fall geht es dann darum, weitere Einflussgr¨oßen herauszurechnen“ bzw. ” modellm¨aßig mit zu ber¨ ucksichtigen. Ein wichtiges Instrument ist in diesem Kontext das lineare Regressionsmodell , das Inhalt des nachfolgenden Kapitels sein wird.

Kapitel 12: Das lineare Regressionsmodell Idee und Konzept der einfachen linearen Regression wurden bereits im deskriptiven ¨ Teil dieses Lehrbuchs vorgestellt (Abschnitt 5.2.3). Was nun folgt, ist die Ubersetzung des Regressionsproblems in ein statistisches Modell. In gewisser Weise stellt Kapitel 12 ein einziges großes Anwendungsbeispiel der in den Kapiteln 10 und 11 ausf¨ uhrlich behandelten Schlussweisen dar. Der Begriff regression“ wurde erstmals von Galton [1885a, 1885b, 1886] im Zu” sammenhang anthropologischer Studien (Gr¨ oßen von Eltern und Kindern) verwendet. Dem ging der Begriff reversion“ im Zusammenhang botanischer Studien voraus. Eine ” Formel zur Berechnung des Steigungskoeffizienten einer KQ-Geraden findet sich bereits bei Pearson [1896, S.268], allerdings nur unter der Rahmenbedingung einer bivariaten Normalverteilung. Die Leistung von Yule [1897a, 1897b] bestand darin, die Regression zu einer linearen Approximationstechnik im Kontext statistischer Analysen zu verallgemeinern. Heute stellt das lineare Regressionsmodell das wohl am meisten verwendete statistische Modell f¨ ur Abh¨ angigkeitsanalysen in vielen empirischen Wissenschaften dar. Ausf¨ uhrliche Abhandlungen zur Theorie und den vielf¨altigen Anwendungs- und Erweiterungsm¨oglichkeiten des linearen Modells bieten beispielsweise Fahrmeir et al. [2013], Schlittgen [2013] oder Rencher [2012]. In Abschnitt 12.1 wird zun¨ achst das einfache lineare Regressionsmodell behandelt. Dazu werden zu verschiedenen Modellannahmen jeweils g¨ ultige Inferenzverfahren begr¨ undet. Abschnitt 12.2 bietet dann eine kompakte Einf¨ uhrung in das multiple Regressionsmodell, mit dem man im Gegensatz zum einfachen Modell mehrere erkl¨arende Variablen, die auf eine (kausal) abh¨ angige Variable Einfluss nehmen, ber¨ ucksichtigen kann.

12.1 Einfaches lineares Regressionsmodell Im Rahmen des einfachen linearen Regressionsmodells sind die KQ-Sch¨ atzer unter bestimmten Modellannahmen konsistent und exakt oder asymptotisch normalverteilt. Nach Sch¨atzung der Varianzen sind zum Zwecke der Inferenz geeignete Statistiken entweder t-verteilt oder asymptotisch normalverteilt.

12.1.1 Grundmodell und KQ-Methode Statistisches Grundmodell • Hintergrund • Im Folgenden wird das Ergebnis einer Regression vor dem Hintergrund interpretiert, dass dieses zufallsabh¨ angig ist und auf einer zweidimensionalen Stichprobe beruht. Die inhaltliche Konzeption des Stichprobenbegriffs aus Kapitel 9 bleibt dabei erhalten.

586

12 Das lineare Regressionsmodell Abb. 12.1.1: Zusammenhang von Gr¨ oße und Gewicht von Studenten 140 ^ β0 = − 100.12 120 ^ 100 β 1 = 0.96 kg 80 60 40 150 170

140 120 100 kg 80 60 40

^ β0 = − 90.07

2012

cm

190

140 ^ β0 = − 100.08 120 ^ 100 β 1 = 0.96 kg 80 60 40 210 150 170

190

140 ^ β0 = − 114.65 120 ^ 100 β 1 = 1.04 kg 80 60 40 210 150 170

2014

^ β1 = 0.9

150

170

cm

2013

cm

190

210

190

210

2015

cm

Daten: Eigene Erhebungen Angenommen, man m¨ ochte f¨ ur eine bestimmte Personengruppe den Zusammenhang zwischen Gr¨ oße und Gewicht mittels linearer Regression ermitteln. Sofern sich die hierbei gewonnenen Erkenntnisse nicht ausschließlich nur auf die erfassten Personen beziehen sollen, sondern diese als eine mehr oder weniger zuf¨allige Auswahl aus einer u ¨bergeordneten Gesamtheit aufgefasst werden, liegt ein klassisches statistisches Problem vor. Abbildung 12.1.1 illustriert diesen Gedanken. Sie zeigt den Zusammenhang zwischen K¨orpergr¨ oße (in cm) und Gewicht (in kg) von Studentenkohorten verschiedener Jahrg¨ange. Man sieht, dass sich die jeweils berechneten Regressionsgeraden mehr oder weniger stark unterscheiden. In den Jahren 2012 und 2013 war der Steigungskoeffizient zuf¨alligerweise“ nahezu identisch. Die Vorstellung liegt hier deshalb nahe, dass ” eine f¨ ur einen bestimmten Jahrgang stattfindende Erhebung einer (hypothetischen) Stichprobe aus einer zugrunde liegenden (hypothetischen) Grundgesamtheit entspricht. Diese Grundgesamtheit l¨ asst sich etwa als langfristige und f¨ ur die erhobene Zielgruppe allgemeintypische Verteilung der beiden Variablen definieren. Die Berechnung einer KQ-Geraden wird hierbei als Sch¨ atzung aufgefasst und inferenzmethodisch mit dem Apparat der statistischen Sch¨ atz- und Testtheorie behandelt. Dazu muss jedoch zun¨achst ein geeigneter Modellrahmen aufgestellt werden.

• Definition • Das statistische Grundmodell einer einfachen linearen Regression ohne konkretisierende Annahmen ist wie folgt definiert:

12.1 Einfaches lineares Regressionsmodell

587

Definition 12.1.1: Einfaches lineares Regressionsmodell Gegeben sei eine Stichprobe aus n beobachtbaren Zufallsvektoren (X1 , Y1 ), . . . , (Xn , Yn ) und n nicht beobachtbaren Zufallsvariablen U1 , . . . , Un . Gilt dann (A0) Yi = β0 + β1 Xi + Ui f¨ ur i = 1, . . . , n, so bezeichnet man (A0) als einfaches lineares Regressionsmodell. Die Parameter β0 und β1 werden als theoretische Regressionskoeffizienten und die Zufallsvariablen U1 , . . . , Un als stochastische Fehler oder stochastische Residuen bezeichnet. Die Funktion y(x) = β0 + β1 x definiert die theoretische Regressionsgerade, wobei der Definitionsbereich von x fallabh¨angig einzuschr¨ anken ist.

• Interpretation • Wie man sieht, u ¨bersetzt Definition 12.1.1 den rein deskriptiven Rahmen der Regression aus Abschnitt 5.2.3 lediglich in eine stochastische (theoretische) Version. Die nachfolgenden Sch¨ atz- und Testprobleme werden sich allesamt auf die theoretischen Regressionskoeffizienten β0 und β1 (theoretischer Achsenabschnitt und theoretische Steigung) beziehen. Ein entscheidender Punkt wird dann sein, mit welcher Methode diese gesch¨ atzt werden und welche weiteren Annahmen dem Modell unterstellt werden. F¨ ur Ersteres werden wir uns im Folgenden auf die KQ-Methode beschr¨anken. Alternative Sch¨ atzmethoden wie etwa die in Abschnitt 5.2.3 vorgestellte LAD-Methode werden hier also nicht inferenzmethodisch behandelt werden. In Bezug auf konkretisierende Modellannahmen werden wir analoge Unterscheidungen wie in den Kapiteln 10 und 11 treffen, die mehr oder weniger restriktiv sein k¨onnen und exakte oder approximative Inferenz erm¨ oglichen.

Herleitung der KQ-Sch¨ atzer • L¨ osung des empirischen Kleinste-Quadrate-Problems • Basierend auf n zweidimensionalen Beobachtungswerten (x1 , y1 ), . . . , (xn , yn ) betrachten wir nochmals das Minimierungsproblem aus Abschnitt 5.2.3 n X ˆ 0 , β1 ) mit Q(β ˆ 0 , β1 ) = min Q(β (yi − β0 − β1 xi )2 . β0 ,β1

i=1

Es handelt sich folglich um ein zweidimensionales Minimierungsproblem. Wir gehen an dieser Stelle davon aus, dass der Leser mit den elementaren Grundlagen der mehrdimensionalen Differentialrechnung vertraut ist. Der allgemeine L¨ osungsweg sieht hier vor, zun¨achst die beiden ersten partiellen Ableitungen zu berechnen, diese gleich Null zu setzen und anschließend das daraus resultierende Gleichungssystem nach den Gr¨ oßen β0 und β1 zu l¨osen. Gegebenenfalls u uft man dann noch anhand der Hesse-Matrix , ob es sich tats¨achlich auch um ¨berpr¨ ein Minimum handelt.

588

12 Das lineare Regressionsmodell Das Berechnen und Nullsetzen der ersten partiellen Ableitungen ergibt zun¨achst n X ˆ 0 , β1 ) ∂ Q(β = −2 (yi − β0 − β1 xi ) ∂β0 i=1 = −2

n X

yi + 2nβ0 + 2β1

i=1 n X

n X

xi = 0 und

(i)

i=1

ˆ 0 , β1 ) ∂ Q(β = −2 (yi − β0 − β1 xi )xi ∂β1 i=1 = −2

n X

xi yi + 2β0

i=1

n X

xi + 2β1

i=1

n X

x2i = 0.

(ii)

i=1

Die beiden Gleichungen (i) und (ii) werden auch als Normalengleichungen bezeichnet. Das L¨osen dieser nach den Parametern liefert n n X X nβ0 = yi − β1 xi und (i) i=1 n X

xi yi = β0

i=1

n X

i=1

xi + β1

i=1

n X

x2i .

(ii)

i=1

Gleichung (i) ergibt dann β0 = y¯ − β1 x ¯.

(12.1.1)

Einsetzen in (ii) liefert n n n X X X xi + β1 x2i . xi yi = (¯ y − β1 x ¯) i=1

i=1

(12.1.2)

i=1

Dividieren beider Seiten der Gleichung durch n und Aufl¨osen nach β1 ergibt schließlich Pn 1 xi yi − x ¯y¯ s˜XY sXY n β1 = 1 Pi=1 (12.1.3) = 2 = 2 . n 2 2 s˜X sX ¯ i=1 xi − x n Wir setzen an dieser Stelle s˜2X > 0 voraus. Die KQ-L¨ osungen, die wir zur besonderen Kennzeichnung mit Dach“ notieren, ” ergeben sich aus (12.1.1) und (12.1.3) und lauten somit s˜XY βˆ0 = y¯ − βˆ1 x ¯ und βˆ1 = 2 . (12.1.4) s˜X ˆ tats¨achlich minimieren, kann entfallen, da eiDie formale Pr¨ ufung, ob diese L¨ osungen Q ne Maximierung aus logischen Gr¨ unden ausscheidet. Da eine potenzielle Gerade beliebig weit von der Datenwolke“ verschoben werden kann, kann die Summe der quadrierten ” Abweichungen nach oben hin nicht beschr¨ ankt sein. Ungeachtet dessen erh¨alt man f¨ ur

12.1 Einfaches lineares Regressionsmodell

589

die auf den zweiten partiellen Ableitungen basierende Hesse-Matrix  2ˆ   n ˆ 0 , β1 )  P ∂ Q(β0 , β1 ) ∂ 2 Q(β n x i   ∂β02 ∂β1 ∂β0  i=1  n  . H= n P  ∂ 2 Q(β  ˆ 0 , β1 )  = 2  P ˆ 0 , β1 ) ∂ 2 Q(β xi x2i i=1 i=1 ∂β0 ∂β1 ∂β12 Da deren Determinante mit n n n h X X h1 X i 2 i det(H) = 2 n x2i − xi = 2n2 x2i − x ¯2 = 2n2 s˜2X n i=1 i=1 i=1 achlich ein Minimum vor. f¨ ur s˜2X > 0 positiv ist, liegt tats¨ • Der Fall einer nicht eindeutigen L¨ osung • Im Falle von s˜2X = 0 weisen die x-Werte keinerlei Variation auf und sind folglich identisch. F¨ ur irgendein x gilt also x = xi

f¨ ur i = 1, . . . , n.

Man beachte hierzu Abbildung 5.2.17. Aus Gleichung (12.1.2) erhalten wir dann n n n X X X x + β1 x2 , (12.1.5) yi = (¯ y − β1 x) x i=1

i=1

i=1

was sich weiter zu n n X X x yi = x yi − β1 nx2 + β1 nx2 i=1

i=1

vereinfacht. Offensichtlich ist diese Gleichung f¨ ur jedes β1 erf¨ ullt. Mit (12.1.1) impliziert dies dann die nicht eindeutige L¨ osung βˆ1 beliebig und βˆ0 = y¯ − βˆ1 x. Als Hesse-Matrix erh¨ alt man   n nx H=2 nx nx2

mit

det(H) = 2[n2 x2 − n2 x2 ] = 0.

Folglich muss es sich entweder um ein Minimum oder einen Sattelpunkt handeln. Da nun f¨ ur jede L¨osung n n X X ˆ βˆ0 , βˆ1 ) = Q( (yi − βˆ0 − βˆ1 x)2 = (yi − y¯)2 i=1

i=1

gilt, muss es sich aufgrund der Minimumeigenschaft des arithmetischen Mittels (Abschnitt 4.9.1) tats¨ achlich um ein Minimum handeln. Halten wir fest: Falls alle x-Werte gleich sind, ist die KQ-Gerade nicht eindeutig festgelegt. Im Zusammenhang des multiplen Regressionsmodells wird das Problem einer nicht eindeutigen L¨osung unter dem Begriff der Multikollinearit¨ at behandelt.

590

12 Das lineare Regressionsmodell

¨ • Ubersetzung in eine Sch¨ atzmethode • Werden vorliegende Beobachtungen (x1 , y1 ), . . . , (xn , yn ) als Realisation einer Stichprobe (X1 , Y1 ), . . . , (Xn , Yn ) aufgefasst, wobei ein einfaches lineares Regressionsmodell unterstellt wird, l¨asst sich die KQMethode als Sch¨atzmethode f¨ ur die Parameter β0 und β1 auffassen. Im u ¨blichen Stile werden die theoretischen Kennwerte dann mit griechischen Buchstaben notiert. Die KQ-Sch¨ atzer f¨ ur β0 und β1 lauten entsprechend ˜ 2 ¯ und βˆ1 = SXY mit S˜X βˆ0 = Y¯ − βˆ1 X > 0. S˜2 X

Es wird lediglich Großschreibweise gewechselt. Entsprechend ergeben sich die stochastischen gefitteten Werte und stochastischen KQ-Residuen als ˆi = Yi − Yˆi f¨ Yˆi = βˆ0 + βˆ1 Xi bzw. U ur i = 1, . . . , n.

Eigenschaften der empirischen KQ-Regression ¨ • Ubersicht • Im Zusammenhang einer einfachen linearen KQ-Regression gelten einige spezielle Eigenschaften und rechnerische Besonderheiten. Im Folgenden gehen wir davon aus, dass s˜2X > 0 ist. Satz 12.1.1: Eigenschaften der empirischen KQ-Regression 1. Die KQ-Gerade geht durch den Schwerpunkt (¯ x, y¯). 2. Die Summe der gefitteten Werte ist gleich der Summe der y-Werte. 3. Die Summe der KQ-Residuen ist gleich 0. 4. KQ-Residuen und x-Werte sind unkorreliert. 5. Gefittete Werte und KQ-Residuen sind unkorreliert. 6. Es gilt die Streuungszerlegungsformel der KQ-Regression.

Nachfolgend werden diese 6 Eigenschaften nachgewiesen und erl¨autert. Man beachte, dass die ersten drei Eigenschaften bereits in Abschnitt 5.2.3 vorgestellt und erl¨autert wurden. • Die KQ-Gerade geht durch den Schwerpunkt • Gegeben die KQ-Gerade yˆ(x) = βˆ0 + βˆ1 x, ergibt sich durch ein Einsetzen der Formel f¨ ur βˆ0 yˆ(¯ x) = (¯ y − βˆ1 x ¯) + βˆ1 x ¯ = y¯. Somit verl¨auft die KQ-Gerade stets durch den Schwerpunkt (¯ x, y¯).

12.1 Einfaches lineares Regressionsmodell

591

• Die Summe der gefitteten Werte ist gleich der Summe der y-Werte • Bezeichne y¯ˆ das arithmetische Mittel der gefitteten Werte, d.h. n 1X y¯ˆ = yˆi . n i=1 Dann gilt: n

n

n

1X 1X ˆ 1X yˆi = (β0 + βˆ1 xi ) = βˆ0 + βˆ1 xi = βˆ0 + βˆ1 x ¯ = y¯. n i=1 n i=1 n i=1 Die letzte Gleichung folgt gerade aus der zuvor nachgewiesenen Eigenschaft Nr. 1. Der Mittelwert der gefitteten Werte ist also gleich dem Mittelwert der y-Werte: y¯ˆ = y¯. (12.1.6) Multiplizieren wir beide Seiten von (12.1.6) mit n, erhalten wir die Gleichheit der Summen. ¯ˆ das arithmetische • Die Summe der KQ-Residuen ist gleich 0 • Bezeichne u Mittel der KQ-Residuen, d.h. n X ¯ˆ = 1 u ˆi . u n i=1 Dann gilt: n

n

n

n

1X 1X 1X 1X u ˆi = (yi − yˆi ) = yi − yˆi = 0. n i=1 n i=1 n i=1 n i=1 Die letzte Gleichung folgt dabei mit der zuvor nachgewiesenen Gleichung (12.1.6). Der Mittelwert der KQ-Residuen ist gleich 0: ¯ˆ = 0. u (12.1.7) Multiplizieren wir beide Seiten von (12.1.7) mit n, erhalten wir das nachzuweisende Resultat. • KQ-Residuen und x-Werte sind unkorreliert • Die Kovarianz zwischen KQResiduen und x-Werten ergibt sich mit der Verschiebungsformel f¨ ur die Kovarianz als n n n X 1X 1X ¯ ¯ˆ = 1 (xi − x ¯)(ˆ ui − u ˆ) = xi u ˆi − x ¯·u xi u ˆi . s˜X Uˆ = n i=1 n i=1 n i=1 Die letzte Gleichung folgt dabei mit der zuvor nachgewiesenen Eigenschaft (12.1.7). Somit bleibt nur zu zeigen, dass der verbleibende Term gleich 0 ist. Hier gilt zun¨achst einmal: n n n n 1X 1X 1X 1X xi u ˆi = xi (yi − yˆi ) = xi yi − xi yˆi . n i=1 n i=1 n i=1 n i=1 Mit dem Einsetzen des KQ-Koeffizienten (12.1.4) erh¨alt man dann weiter n n n 1X 1X 1X 2 ˆ ˆ ˆ ˆ xi yˆi = xi (β0 + β1 xi ) = (¯ y − β1 x ¯)¯ x + β1 x n i=1 n i=1 n i=1 i

592

12 Das lineare Regressionsmodell n

n

 1X 2 1X =x ¯y¯ + βˆ1 xi − x ¯2 = xi yi , n i=1 n i=1 durch Anwendung der Formel f¨ ur βˆ1 P n 1 xi yi − x ¯y¯ s˜XY . βˆ1 = 2 = n1 Pi=1 n 2−x 2 s˜X ¯ x i=1 i n Die Kovarianz zwischen KQ-Residuen und x-Werten ist damit stets 0: n n n 1X 1X 1X s˜X Uˆ = xi u ˆi = xi yi − xi yˆi n i=1 n i=1 n i=1 n

=

n

1X 1X xi yi − xi yi = 0. n i=1 n i=1

(12.1.8)

Damit sind die KQ-Residuen und x-Werte (empirisch) unkorreliert. Abbildung 12.1.2 illustriert die Intuition hinter dieser Eigenschaft. Im linken Schaubild ist ein Streudiagramm mit 10 Beobachtungswerten zu sehen. Dazu eingezeichnet wurde in Schwarz die KQ-Gerade. Im rechten Schaubild wurden die korrespondierenden KQ-Residuen gegen die x-Werte, also die Wertepaare (xi , u ˆi )

f¨ ur i = 1, . . . , 10,

ur eine nach einer anderen Methode als schwarze Punkte abgetragen. Analoges wurde f¨ konstruierten Gerade gemacht, die grau eingezeichnet ist. Hierf¨ ur wurden die korrespondierenden Residuen in Form grauer Kreise eingezeichnet. In diesem Fall sind Residuen und x-Werte deutlich positiv korreliert. Eigenschaft 4 erscheint insofern intuitiv, dass eine allzu starke Korrelation mit einer guten Anpassung in der Regel nicht vereinbar sein sollte. Abb. 12.1.2: Illustration zu Eigenschaft 4 yi

u^i

8

3 2

6

1

4

0

2

−1

0

−2 0

2

4

6

8

10

12

xi

0

2

4

6

8

10

12

xi

• Gefittete Werte und KQ-Residuen sind unkorreliert • Die Kovarianz zwischen gefitteten Werten und KQ-Residuen ist gegeben durch n n 1X 1X ¯ ¯ yˆi u ˆi − yˆ · u ˆ= yi u ˆi , n i=1 n i=1

12.1 Einfaches lineares Regressionsmodell

593

wobei die letzte Gleichung mit Eigenschaft (12.1.7) folgt. Weiter ergibt sich n n n n 1X 1X ˆ 1X 1X yˆi u ˆi = (β0 + βˆ1 xi )ˆ ui = βˆ0 u ˆi + βˆ1 xi u ˆi = 0, n i=1 n i=1 n i=1 n i=1

(12.1.9)

wobei sich letzte Gleichung aus (12.1.7) und (12.1.8) ergibt. Da die gefitteten Werte lediglich linear transformierte x-Werte sind, ist die Intuition hinter dieser Eigenschaft praktisch gleich wie bei der vorhergehenden. • Es gilt die Streuungszerlegungsformel • Die Streuungszerlegungsformel der KQ-Regression lautet n n n X X X (yi − y¯)2 = (ˆ yi − y¯)2 + (yi − yˆi )2 . (12.1.10) i=1

i=1

i=1

Sie wird im Folgenden hergeleitet und interpretiert. Zun¨achst einmal gilt: yi = yˆi + (yi − yˆi ) = yˆi + u ˆi

f¨ ur i = 1, . . . , n.

Subtrahieren des Mittelwerts der y-Werte und Quadrieren ergibt (yi − y¯)2 = [(ˆ yi − y¯) + u ˆi ]2 = (ˆ yi − y¯)2 + u ˆ2i + 2(ˆ yi − y¯)ˆ ui . Aufsummieren u ¨ber alle Beobachtungswerte ergibt n n n n X X X X u ˆ2i + 2 (ˆ yi − y¯)ˆ ui . (ˆ yi − y¯) + (yi − y¯)2 = i=1

i=1

i=1

(12.1.11)

i=1

Da mit den Eigenschaften (12.1.7) und (12.1.9) f¨ ur den letzten Term auf der rechten Seite n n n X X X (ˆ yi − y¯)ˆ ui = yˆi u ˆi − y¯ u ˆi = 0 − 0 = 0 i=1

i=1

i=1

folgt, erh¨alt man aus (12.1.11) schließlich die Streuungszerlegungsformel (12.1.10). Die Streuungszerlegungsformel der KQ-Regression kann als Verallgemeinerung der Streuungszerlegungsformel f¨ ur gruppierte Daten (Abschnitt 4.5.1) verstanden werden. Betrachten wir hierzu nochmals Gleichung (12.1.10). Dividieren wir beide Seiten durch n, so k¨ onnen wir unter Verwendung der Eigenschaften (12.1.6) und (12.1.7) auch n n n 1X 1X 1X ¯ˆ)2 (yi − y¯)2 = (ˆ yi − y¯ ˆ)2 + (ˆ ui − u (12.1.12) n i=1 n i=1 n i=1 schreiben. Bezeichnen wir nun die Varianz der gefitteten Werte bzw. die Varianz der Residuen mit s˜2Yˆ bzw. s˜2Uˆ , erhalten wir aus (12.1.12) s˜2Y = s˜2Yˆ + s˜2Uˆ .

(12.1.13)

Die Varianz der y-Werte setzt sich folglich aus der Varianz der gefitteten Werte und der Varianz der Residuen zusammen. Die Varianz der gefitteten Werte wird auch als

594

12 Das lineare Regressionsmodell

erkl¨ arte Streuung und die Varianz der Residuen als Residualstreuung bezeichnet. Sie bilden die Pendants zur externen und internen Streuung bei der Streuungszerlegungsformel f¨ ur gruppierte Daten. Die Residualstreuung ist gleich Null, falls alle Beobachtungswerte auf einer Geraden liegen. Dann gilt n¨ amlich u ˆi = yi − yˆi = 0

f¨ ur i = 1, . . . , n.

Dies impliziert s˜2Uˆ = 0 und folglich s˜2Y = s˜2Yˆ . Die Gesamtstreuung ergibt sich in diesem Fall zu 100% aus der erkl¨arten Streuung. Die Gesamtstreuung ergibt sich hingegen zu 100% aus der Residualstreuung, falls x- und y-Werte unkorreliert sind. Denn dann ist auch der Steigungskoeffizient der KQ-Geraden gleich 0: s˜XY 0 βˆ1 = 2 = 2 = 0. s˜X s˜X Dies wiederum impliziert f¨ ur den Achsenabschnitt ˆ ˆ β0 = y¯ − β1 x ¯ = y¯. Die KQ-Gerade verl¨ auft dann horizontal auf H¨ohe des arithmetischen Mittels der yWerte. Wenn also bez¨ uglich des linearen Zusammenhangs zwischen x- und y-Werten keine Richtung ausgemacht werden kann, wird jeder beliebige x-Wert mit dem Mittelwert der y-Werte prognostiziert. Damit stimmen alle gefitteten Werte mit diesem u ¨berein, d.h. es gilt: yˆi = y¯

f¨ ur i = 1, . . . , n.

Dies impliziert s˜2Yˆ = 0 und folglich s˜2Y = s˜2Uˆ .

Bestimmtheitsmaß und Standardfehler der Regression • Bestimmtheitsmaß der KQ-Regression • Die Streuungszerlegungsformel kann direkt zur Konstruktion des Bestimmtheitsmaßes der KQ-Regression verwendet werden. Dieses misst den Anteil der erkl¨ arten Streuung an der Gesamtstreuung und kann somit auch als G¨ utemaß f¨ ur die Regression aufgefasst werden. F¨ ur die folgenden Betrachtungen gehen wir davon aus, dass sowohl die x- als auch die y-Werte nicht alle identisch sind, d.h. s˜2X > 0 und s˜2Y > 0. Bestimmtheitsmaß der KQ-Regression Gegeben seien metrisch skalierte Beobachtungswerte (x1 , y1 ), . . . , (xn , yn ) mit s˜2X > 0 und s˜2Y > 0. Im Zusammenhang der KQ-Regression gilt dann: n n n X X X 2 2 (yi − y¯) = (ˆ yi − y¯) + (yi − yˆi )2 (12.1.14) i=1

i=1

i=1

12.1 Einfaches lineares Regressionsmodell

595

oder ¨aquivalent s˜2Y = s˜2Yˆ + s˜2Uˆ .

(12.1.15)

Dabei wird s˜2Y als Gesamtstreuung, s˜2Yˆ als erkl¨ arte Streuung und s˜2Uˆ als Residualstreuung bezeichnet. Die Terme in (12.1.14) heißen Gesamtquadratsumme, erkl¨ arte Quadratsumme und Residuenquadratsumme. Darauf basierend ist das Bestimmtheitsmaß definiert als Pn Pn ˆi )2 (ˆ yi − y¯)2 2 i=1 (yi − y i=1 P = 1 − (12.1.16) R = Pn n ¯)2 ¯)2 i=1 (yi − y i=1 (yi − y bzw. R2 =

s˜2Yˆ s˜2Y

=1−

s˜2Uˆ s˜2Y

.

(12.1.17)

Dabei gilt: (i) R2 ∈ [0, 1] und s˜2

2 = βˆ12 s˜X (ii) R2 = rXY 2 , Y

wobei rXY die empirische Korrelation ist.

Eigenschaft (i) folgt sofort aus der Definition und (12.1.14). Das Bestimmtheitsmaß l¨ asst sich direkt anhand der Definition oder u ¨ber die Korrelation berechnen. Mit n n X X 1 1 yˆi = (βˆ0 + βˆ1 xi ) = βˆ0 + βˆ1 x ¯ y¯ˆ = n i=1 n i=1 gilt n¨amlich n n n X X X (ˆ yi − y¯)2 = (ˆ yi − y¯ ˆ)2 = (βˆ0 + βˆ1 xi − βˆ0 − βˆ1 x ¯)2 i=1

i=1

i=1

n n X s˜2 X = βˆ12 (xi − x ¯)2 = XY (xi − x ¯)2 . 4 s ˜ X i=1 i=1

Damit erhalten wir Pn Pn ¯ )2 (ˆ yi − y¯)2 s˜2XY i=1 (xi − x s˜2 s˜2X 2 P = = XY R2 = Pni=1 n 4 s 2 = rXY . 4 2 2 s ˜ ˜ (y − y ¯ ) s ˜ (y − y ¯ ) X Y X i=1 i i=1 i ur das BestimmtAus diesem Zusammenhang motiviert sich auch die Bezeichnung R2 f¨ heitsmaß. • Beispiel 12.1.1 • Wir setzen das Rechenbeispiel 5.2.9 zur KQ-Regression fort. In diesem Fall ist es bequem, die Beziehung 2

s˜ R2 = βˆ12 X s˜2Y

596

12 Das lineare Regressionsmodell

auszunutzen, da der Steigungsparameter mit βˆ1 = ˆb1 = 0.3 bereits berechnet wurde und sich auch die restlichen Bestandteile Tabelle 5.2.4 recht einfach entnehmen lassen. Mit x ¯ = 3 und y¯ = 1.8 gilt zun¨achst Pn xi − n¯ x2 s˜2X 55 − 5 · 32 10 Pi=1 = = = . n 2 2 2 s˜Y 19 − 5 · 1.8 2.8 y − n¯ y i i=1 Daraus folgt dann s˜2X 10 = 0.32 · ≈ 0.3214. s˜2Y 2.8 Alternativ gelangt man mit n n 1X 1X 2 1 2 2 ¯ s˜Uˆ = (ˆ ui − u ˆ) = u ˆ = 1.9 = 0.38 und n i=1 n i=1 i 5 R2 = βˆ12

n

s˜2Y =

n

1X 1X 2 1 (yi − y¯)2 = yi − y¯2 = 19 − 1.8 = 0.56 n i=1 n i=1 5

exakt zum gleichen Ergebnis: R2 = 1 −

s˜2Uˆ s˜2Y

=1−

0.38 ≈ 0.3214. 0.56

art somit etwa 32% der Streuung der y-Werte. Die KQ-Gerade erkl¨ • Standardfehler der Regression • Der Standardfehler der Regression, kurz SER (f¨ ur Standard Error of Regression) ist definiert als v u r n u 1 X n u ˆ2i = SER = t · s˜2 . (12.1.18) n − 2 i=1 n − 2 Uˆ W¨ urde man die Residuenquadratsumme durch n statt durch n−2 dividieren, entspr¨ache dies gerade der der Wurzel aus der Residualstreuung . Damit entspricht der SER ungef¨ahr der (empirischen) Standardabweichung der KQ-Residuen. Folgt man der Interpretation der Standardabweichung anhand empirischer Schwankungsintervalle (Abschnitt 4.4.4), w¨ urde man etwa 95% aller Beobachtungen nicht mehr als zwei Standard¯ˆ = 0 impliziert abweichungen vom arithmetischen Mittel entfernt erwarten. Wegen u dies, dass etwa 95% aller Beobachtungen innerhalb eines Schlauches der Breite 4 · SER um die KQ-Gerade herum liegen sollten (Abb. 12.1.3). Zwischen Bestimmtheitsmaß und SER besteht gem¨ aß (12.1.17) und (12.1.18) folgender Zusammenhang: n 2 SER2 = s˜ (1 − R2 ). (12.1.19) n−2 Y Demnach ist der SER umso kleiner, je kleiner die Gesamtstreuung und je gr¨oßer

12.1 Einfaches lineares Regressionsmodell

597

das Bestimmtheitsmaß ist. Dies erscheint insofern logisch, da ein hoher Erkl¨arungsgehalt des Modells die Residualstreuung reduzieren sollte. Gesamtstreuung und Standardfehler lassen sich in gewisser Weise wie unbedingte und bedingte Streuungskennwerte interpretieren. Abb. 12.1.3: Standardfehler der Regression 140 120

y

100

2012 2

R = 0.55 s~Y = 12.50 y ± 2 × s~

y^(x ) ± 2 × S E R

Y

80 60

S E R = 8.38

40 150

160

170

180

190

200

210

x

• Beispiel 12.1.2 • Korrespondierend zu Abbildung 12.1.1 zeigt Abbildung 12.1.3 nochmals den Zusammenhang von Gr¨ oße und Gewichte f¨ ur die Kohorte 2012. So erkl¨ arte hier die K¨ orpergr¨ oße 55% der Gesamtstreuung der Gewichte bei einem Standardfehler von 8.38 kg. Die (nichtkorrigierte) Standardabweichung der Gewichte betrug dabei 12.50 kg. Ohne Kenntnis der K¨ orpergr¨ oße sollten demnach dann 95% aller Gewichte nicht mehr als zwei Standardabweichungen vom mittleren Gewicht entfernt liegen. Im vorliegenden Fall f¨ uhrt dies bei einem Durchschnittsgewicht von 72.01 kg auf das Intervall [47.1 kg, 97.1 kg]. Sofern man den gesch¨ atzten linearen Zusammenhang als wahr unterstellt, kann man das Gewicht mit einer Sicherheit von etwa 95% immerhin schon auf 2 × 8.38kg = 16.76 kg Genauigkeit prognostizieren. Mit yˆ(180) = βˆ0 + βˆ1 · 180 = −100.12 + 0.96 · 180 = 72.68 sollte dann beispielsweise eine 180 cm große Person zwischen 55.92 und 89.44 kg wiegen. Tats¨achlich liegen 96.7% aller Gewichte (233 von 241) innerhalb der durch den SER implizierten 95%-Schranken“. ” Es sei deutlich darauf hingewiesen, dass es sich beim Intervall [55.92, 89.44] um kein Prognoseintervall im konventionellen Sinne handelt, da bei diesem Kalk¨ ul die mit der Sch¨atzung der Geraden verbundene Unsicherheit außer Acht gelassen wurde. Auf die Widergabe von Formeln zur Konstruktion valider Prognoseintervalle verzichten wir in diesem Lehrbuch und verweisen auf Fahrmeir et. al [2013] oder Rencher [2012, Abschnitt 8.6.5].

598

12 Das lineare Regressionsmodell

12.1.2 Modellannahmen und theoretische KQ-Regression Ensembles von Modellannahmen • Modell KN: Nichtstochastischer Regressor • Im klassischen linearen Regressionsmodell werden die Werte der erkl¨ arenden Variable gew¨ohnlich als nichtstochastisch angenommen. Vor allem im Kontext wiederholbarer Experimente, in denen die Einflussgr¨ oßen typischerweise kontrolliert werden, erscheint dies meist ad¨aquat. Man beachte hierzu etwa Fallbeispiel 1 in Abschnitt 12.1.4. Definition 12.1.2: Klassisches Modell mit nichtstochastischem Regressor Wir sprechen von einem klassischen linearen Regressionsmodell mit nichtstochastischem Regressor, falls folgende Annahmen gelten: (A0*) Yi = β0 + β1 xi + Ui f¨ ur i = 1, . . . , n und 2 (A1*) die Fehler U1 , . . . , Un sind unabh¨ angig N (0, σU )-verteilt.

Dabei sind x1 , . . . , xn nichtstochastisch und s˜2X > 0.

Abb. 12.1.4: Klassisches Modell mit nichtstochastischem Regressor

stochastisch

y

Y 1 ~ N (β0 + β1x 1, σ2U) β0 + β1 × x

E (Y 3 ) E (Y 2 ) E (Y 1 ) x1

x2

...

nichstochastisch

xn

x

Annahme (A0*) stellt insofern einen Spezialfall von (A0) in Definition 12.1.1 dar, dass x1 , . . . , xn als Tr¨ agerpunkte einpunktverteilter Zufallsvariablen X1 , . . . , Xn aufgefasst werden k¨onnten, d.h. P (Xi = xi ) = 1 f¨ ur i = 1, . . . , n. Die xi -Werte d¨ urfen dabei nicht alle gleich sein. Dies w¨ urde sonst im Rahmen der KQSch¨atzung zu nicht eindeutigen Sch¨ atzungen f¨ uhren (Abschnitt 12.1.1). Daraus ergibt sich, dass sich die Stichprobe (x1 , Y1 ), . . . , (xn , Yn ) aus heterogen verteilten Zufallsvektoren zusammensetzt. Annahme (A1*) impliziert E(Ui ) = 0

und

2 V ar(Ui ) = σU f¨ ur i = 1, . . . , n.

12.1 Einfaches lineares Regressionsmodell

599

Die Fehler streuen in dem Sinne gleichm¨ aßig“ um die theoretische Regressionsgerade, ” dass ihr Erwartungswert 0 ist und somit auch gilt: E(Yi ) = E(β0 + β1 xi + Ui ) = β0 + β1 xi f¨ ur i = 1, . . . , n.

(12.1.20)

Die zu erwartenden Werte der abh¨ angigen Variablen liegen auf der KQ-Geraden. Sie ist somit als Durchschnittsgerade“ interpretierbar. Außerdem streuen die Fehler an jeder ” Stelle xi mit gleicher Varianz. Diese Eigenschaft wird im Rahmen des Regressionsmodells als Homoskedastizit¨ at bezeichnet. Es gilt dann weiter: 2 V ar(Yi ) = V ar(β0 + β1 xi + Ui ) = σU f¨ ur i = 1, . . . , n.

(12.1.21)

Da Ui normalverteilt ist, ist auch Yi normalverteilt. Mit den Ergebnissen aus (12.1.20) und (12.1.21) folgt 2 Yi ∼ N (β0 + β1 xi , σU ) f¨ ur i = 1, . . . , n.

(12.1.22)

Damit sind Y1 , . . . , Yn f¨ ur β1 6= 0 auf jeden Fall heterogen verteilt. Abbildung 12.1.4 illustriert den Modellrahmen. Zur Vereinfachung wird x1 < x2 < · · · < xn angenommen. • Modell KS: Stochastischer Regressor • Sofern die erkl¨arende Variable stochastisch modelliert wird, wie es etwa im Falle zweidimensionaler Stichproben außerhalb von Experimenten h¨ aufig ad¨ aquat erscheint, werden die vorhergehenden Annahmen gem¨aß folgender Definition erweitert bzw. modifiziert. Definition 12.1.3: Klassisches Modell mit stochastischem Regressor Wir sprechen von einem klassischen linearen Regressionsmodell mit stochastischem Regressor, falls folgende Annahmen gelten: (A0)

Yi = β0 + β1 Xi + Ui f¨ ur i = 1, . . . , n,

2 (A1**) Ui |Xi = xi ∼ N (0, σU ) f¨ ur i = 1, . . . , n,

(A2)

(X1 , Y1 ), . . . , (Xn , Yn ) sind u.i.v. und

(A3)

alle Zufallsvariablen gen¨ ugen Annahme (M) aus Definition 8.2.1 und besitzen positive Varianzen.

Die Kleinschreibweise f¨ ur die erkl¨ arende Variable wird gegen die Großschreibweise ausgetauscht. Aus den unbedingten Verteilungen der Fehler des Modells mit nichtstochastischem Regressor werden bedingte Verteilungen. Allerdings sind wegen (A2) und Ui = Yi − β0 − β1 Xi die Fehler als transformierte Gr¨ oßen der Vektoren (Xi , Yi ) ebenfalls unabh¨angig und identisch verteilt. Da die bedingte Verteilung der Fehler nicht von Xi abh¨angt, sind 2 U1 , . . . , Un jeweils N (0, σU )-verteilt und von X1 , . . . , Xn unabh¨angig. Folglich wird Annahme (A1*) aus Definition 12.1.2 durch (A1**) impliziert. Mit E(Ui |Xi = xi ) = E(Ui ) = 0 f¨ ur i = 1, . . . , n

(12.1.23)

600

12 Das lineare Regressionsmodell

folgt mit den u ur bedingte Erwartungswerte ¨blichen Rechenregeln f¨ E(Yi |Xi = xi ) = E(β0 + β1 Xi + Ui ) = β0 + β1 xi + E(Ui |Xi = xi ), also mit (12.1.23) E(Yi |Xi = xi ) = β0 + β1 xi .

(12.1.24)

Weiterhin gilt: 2 V ar(Ui |Xi = xi ) = V ar(Ui ) = σU .

(12.1.25)

Daraus ergibt sich dann f¨ ur die bedingte Verteilung der abh¨angigen Variablen 2 Yi |Xi = xi ∼ N (β0 + β1 xi , σU ) f¨ ur i = 1, . . . , n.

(12.1.26)

Anstelle der unbedingten Verteilungsaussage heterogen verteilter Stichprobenvariablen, (12.1.22), erhalten wir hier eine bedingte Verteilungsaussage identisch verteilter Stichprobenvariablen. Man beachte, dass nicht nur die unbedingte, sondern auch die bedingte Varianz des Fehlers konstant ist. Man spricht hier deshalb auch von bedingter Homoskedastizit¨ at. In Bezug auf die Verteilung der Xi werden, von (A3) abgesehen, keine konkreteren Annahmen getroffen. Somit kann der Regressor durchaus auch einer schiefen oder diskreten Verteilung gen¨ ugen. (A3) ist eine technische Annahme, welche sp¨ater f¨ ur die Formulierung von Verteilungsaussagen der KQ-Sch¨ atzer ben¨ otigt wird. Abbildung 12.1.5 illustriert den betreffenden Modellrahmen. Zur Vereinfachung wird wieder x1 < x2 < · · · < xn angenommen. Da die Regressoren stochastisch sind, k¨ onnen ihre Realisationen gr¨ oßenm¨ aßig nat¨ urlich auch eine andere Reihenfolge einnehmen. Tats¨achlich erscheinen die Unterschiede zum klassischen Modell (Abb. 12.1.4) eher notationeller als inhaltlicher Natur. Abb. 12.1.5: Klassisches Modell mit stochastischem Regressor

stochastisch

y

Y 1 | X 1 = x 1 ~ N (β0 + β1x 1, σ2U) β0 + β1 × x

E (Y n | X n = x n ) E (Y 2 | X 2 = x 2) E (Y 1 | X 1 = x 1)

X 1 = x1 X 2 = x2

...

stochastisch

X n = xn

x

• Beispiel 12.1.3 Bivariate Normalverteilung • Ausgehend von einem klassischen Modell mit stochastischem Regressor k¨ onnten Regressor und abh¨angige Variable bivariat normalverteilt sein. Man beachte hierzu Abbildung 12.1.3 mit der gemeinsamen Verteilung von K¨orpergr¨ oße und Gewicht, wo diese Annahme zumindest n¨aherungsweise ad¨aquat sein mag. Unter Beibehaltung der Annahmen (A0), (A1*) und (A3) ließe sich Annahme (A2) dann konkretisieren zu:

12.1 Einfaches lineares Regressionsmodell

601

(A2*) (X1 , Y1 ), . . . , (Xn , Yn ) sind u.i.v. wie (X, Y ) mit    µ   2 X σX σXY X ∼ N2 , . σXY σY2 Y µY

Man beachte, dass (A3) in Bezug auf X und Y bereits durch die Normalverteilungsannahme abgedeckt ist. Gem¨ aß Beispiel 8.3.4 gilt dann:  σ2  σXY Yi |Xi = xi ∼ N µY + 2 (xi − µX ), σY2 − XY f¨ ur i = 1, . . . , n, (12.1.27) 2 σX σX wobei in Anbetracht von (12.1.26) gilt: σXY σXY β0 = µY − 2 µX und β1 = 2 σX σX 2 σU = σY2 −

sowie

(12.1.28)

2 σXY 2 . σX

(12.1.29)

Tats¨achlich l¨asst sich zeigen, dass (12.1.28) und (12.1.29) bereits unter (A2) und sogar noch unter allgemeineren Annahmen gelten (Satz 12.1.2). In Bezug auf (12.1.28) bedeutet dies, dass theoretische Regressionsgerade und theoretische KQ-Gerade u ¨bereinstimmen. Abb. 12.1.6: Klassisches Modell bei bivariater Normalverteilung µX = µY = 0, σ2X = σ2Y = 1, σX Y = 0.7



β0 = 0, β1 = 0.7,

µX = µY = 0, σ2X = 3, σ2Y = 1, σX Y = − 0.9

= 0.51

y 3

2

2

1

1

stochastisch

stochastisch

y 3

σ2U

0 −1 −2 −3



β0 = 0, β1 = − 0.3, σ2U = 0.73

0 −1 −2

−3 −2 −1

0

1

stochastisch

2

3

−3 x

−3 −2 −1

0

1

stochastisch

2

3

x

Abbildung 12.1.6 illustriert die Situation mit Randverteilungen und bedingten Verteilungen. Die Konturplots korrespondieren dabei teils mit Abbildung 8.3.1. Man beachte, dass entgegen der Intuition nicht nur die unbedingte, sondern auch die bedingte Varianz des Fehlers konstant ist. Dem Schaubild nach entsteht der Eindruck, dass die bedingte Varianz f¨ ur große und kleine x-Werte kleiner wird. Dies erweist sich jedoch als Trugschluss. Hauptgrund hierf¨ ur ist, dass die Tr¨agermenge der Normalverteilung einerseits unbeschr¨ankt ist und andererseits große und kleine Werte weniger wahrscheinlich

602

12 Das lineare Regressionsmodell

sind. Dadurch treten extreme x-Werte seltener auf und es kommt daher dort auch seltener zu großen Abweichungen von der Regressionsgeraden. Es mag u ¨berraschen, dass die theoretische KQ-Gerade nicht durch die erste Hauptachse der Ellipsen verl¨auft. Dies liegt an der Lage des bedingten Erwartungswerts von Y unter X, der außerhalb des theoretischen Schwerpunkts (µX , µY ) nicht auf der ersten Hauptachse liegt, falls X und Y abh¨angig sind. • Modell BH: Bedingt heteroskedastischer Fehler • Die Annahmen des klassischen Modells lassen sich modifizieren und verallgemeinern. Insbesondere erweisen sich die Annahme einer Normalverteilung und die eines bedingt homoskedastischen Fehlers in der Praxis h¨aufig als inad¨ aquat. Weniger restriktiv ist in dieser Hinsicht das folgende Annahmeensemble. Definition 12.1.4: Modell mit bedingt heteroskedastischem Fehler Wir sprechen von einem linearen Regressionsmodell mit bedingt heteroskedastischem Fehler, falls gilt: (A0) Yi = β0 + β1 Xi + Ui f¨ ur i = 1, . . . , n, (A1) E(Ui |Xi = xi ) = 0 f¨ ur i = 1, . . . , n, (A2) (X1 , Y1 ), . . . , (Xn , Yn ) sind u.i.v. und (A3) alle Zufallsvariablen gen¨ ugen Annahme (M) aus Definition 8.2.1 und besitzen positive Varianzen.

Abb. 12.1.7: Modell mit bedingt heteroskedastischem Fehler

stochastisch

y

Var( Y 1 | X 1 = x 1) Var( Y n | X n = x n ) Var( Y 2 | X 2 = x 2) β0 + β1 × x

E (Y n | X n = x n ) E (Y 2 | X 2 = x 2) E (Y 1 | X 1 = x 1)

X 1 = x1

X 2 = x2

...

stochastisch

X n = xn

x

Annahme (A1) legt in Bezug auf die bedingte Verteilung der Fehler lediglich den Erwartungswert auf 0 fest. Da keine Aussage u ¨ber die bedingte Varianz getroffen wird, muss diese nicht zwangsl¨ aufig konstant (homoskedastisch) sein. Sofern die bedingte Varianz variiert, spricht man von bedingter Heteroskedastizit¨ at bzw. einem bedingt heteroskedastischem Fehler . Abbildung 12.1.7 illustriert die Situation, wobei zur

12.1 Einfaches lineares Regressionsmodell

603

Vereinfachung der formalen Darstellung die Realisationen des Regressors wieder der Gr¨oße nach geordnet sind. Die Fehler streuen hier nun bedingt auf verschiedenen xWerten unterschiedlich stark und m¨ oglicherweise nach unterschiedlichen Verteilungen um die theoretische Regressionsgerade. Da Annahme (A1) weder einen bedingt homoskedatischen Fehler noch eine bedingte Normalverteilung ausschließt, stellt (A1) eine Verallgemeinerung von (A1*) bzw. (A1**) dar. Die Eigenschaften (12.1.23) und (12.1.24) bleiben dabei erhalten, da sie weder Normalverteilung noch bedingte Homoskedastizit¨at voraussetzen. Insbesondere gilt also weiterhin E(Ui ) = 0 f¨ ur i = 1, . . . , n. Im Allgemeinen sind Xi und Ui jedoch nicht mehr unabh¨angig wie im klassischen Modell. Sie sind jedoch unkorreliert, d.h. es gilt: Cov(Xi , Ui ) = 0 f¨ ur i = 1, . . . , n.

(12.1.30)

Durch iterierte Erwartungswertbildung (Satz 7.2.7) und Annahme (A1) erh¨alt man dies aus Cov(Xi , Ui ) = E(Xi Ui ) = E[E(Xi Ui |Xi )] = E[Xi E(Ui |Xi )] = 0. ¨ Eigenschaft (12.1.30), stellt bei der Uberpr¨ ufung zur Ad¨aquatheit von (A1) eine besonders wichtige Implikation dar. Außerdem sind Xi und Uj f¨ ur i 6= j aufgrund der Unabh¨angigkeit der Zufallsvektoren (X1 , Y1 ), . . . , (Xn , Yn ) weiterhin unabh¨angig. Aus diesem Grund sind auch die Fehler U1 , . . . , Un als transformierte Gr¨oßen der (Xi , Yi ) unabh¨angig und identisch verteilt. Die unbedingte Varianz der Fehler ist folglich homoskedastisch. Dabei gilt gem¨ aß Satz 7.2.7 (ii) und (A1): V ar(Ui ) = E[V ar(Ui |Xi )] + V ar[E(Ui |Xi )] = E[V ar(Ui |Xi )].

(12.1.31)

Die (unbedingte) Fehlervarianz entspricht der durchschnittlichen bedingten Varianz“. ” Wie im klassischen Modell mit stochastischem Regressor gelten unter den Annahmen (A0)–(A3) auch weiterhin die Eigenschaften (12.1.28) und (12.1.29), sodass theoretische Regressionsgerade und theoretische KQ-Gerade stets u ¨bereinstimmen (Satz 12.1.2). • Modell UHV: Heterogen verteilte Stichprobenvariablen • In vielen F¨allen erscheint das in Annahme (A2) unterstellte u.i.v.-Ziehungsschema inad¨aquat. Wie bereits bemerkt, l¨ asst sich beispielsweise ein klassisches Modell mit nichtstochastischem Regressor als Modell mit unabh¨ angigen heterogen verteilten Zufallsvektoren (x1 , Y1 ), . . . , (xn , Yn ) auffassen. Wir verzichten an dieser Stelle auf die exakte Widergabe eines f¨ ur die Inferenz g¨ ultigen Annahmeensembles. Der formale Aufwand erscheint uns hier zu groß. Interessierte Leser seien hier auf White [1980] verwiesen. Unter Beibehaltung der Annahmen (A0) und (A1) wird (A2) zu (X1 , Y1 ), . . . , (Xn , Yn ) sind u.h.v.“ verallgemeinert. Annahme ” (A3) ist durch eine deutlich komplexere Annahme zu ersetzen, welche die Endlichkeit bzw. gleichm¨aßige Beschr¨ anktheit bestimmter Momente gew¨ahrleistet. Wie beim ZGWS f¨ ur u.h.v.-Zufallsvariablen k¨ onnte man hierbei etwa von Annahme (B) gem¨aß Definition 8.2.1 Gebrauch machen. Weiter m¨ ussen bestimmte Konvergenzkriterien theoretischer Statistiken erf¨ ullt sein. Da nun beispielsweise U1 , . . . , Un im Allgemeinen heterogen ver-

604

12 Das lineare Regressionsmodell

teilt sind mit V ar(Ui ) = σi2 f¨ ur i = 1, . . . , n, (unbedingte Heteroskedastizit¨ at), m¨ usste man beispielsweise n 1 X 2 n→∞ 2 σ −−−−−→ σU >0 n i=1 i ¨ voraussetzen. Ahnliches m¨ usste f¨ ur X1 , . . . , Xn und bestimmte gemischte Terme gelten. Die Eigenschaften (12.1.23), (12.1.24), (12.1.30) und (12.1.31) bleiben indes erhalten, da sie nur von (A0) und (A1) abh¨ angen. Die theoretischen Kennwerte in (12.1.28) und (12.1.29) sind hingegen durch asymptotische Grenzwerte zu ersetzen.

• Zusammenfassung • Tabelle 12.1.1 fasst die spezifischen Eigenschaften aller zuvor vorgestellten Modellvarianten zusammen. Tabelle 12.1.1: Modellimmanente Eigenschaften der verschiedenen Annahmeensembles Eigenschaft

KN

KS

BH

UHV

(1) Yi = β0 + β1 Xi + Ui

3

3

3

3

(2) (X1 , Y1 ), . . . , (Xn , Yn ) sind unabh¨ angig

3

3

3

3

(3) (X1 , Y1 ), . . . , (Xn , Yn ) sind identisch verteilt

7

3

3

7

(4) U1 , . . . , Un sind unabh¨ angig

3

3

3

3

(5) U1 , . . . , Un sind identisch verteilt

3

3

3

7

2 (6) U1 , . . . , Un sind N (0, σU )-verteilt

3

3

7

7

(7) Ui und Xi sind unabh¨ angig

3

3

7

7

(8) Cov(Xi , Ui ) = E(Xi Ui ) = 0

3

3

3

3

(9) E(Ui ) = E(Ui |Xi = xi ) = 0

3

3

3

3

(10) E(Yi |Xi = xi ) = β0 + β1 xi

3

3

3

3

(11) V ar(Ui ) = E[V ar(Ui |Xi )]

3

3

3

3

3

3

3

7

3

3

7

7

3

3

7

7

3

3

7

7

7

3

3

7

7

3

3

7

(12) V ar(Ui ) =

2 σU

(unbedingte Homoskedastizit¨ at) 2 (13) V ar(Ui |Xi = xi ) = σU

(bedingte Homoskedastizit¨ at) 2 (14) Ui |Xi = xi ∼ N (0, σU )

(15) (16) (17)

2 Yi |Xi = xi ∼ N (β0 + β1 xi , σU ) 2 β0 = µY − β1 µX , β1 = σXY /σX 2 2 2 σU = σY2 − σXY /σX

12.1 Einfaches lineares Regressionsmodell

605

• Alternativ auch (Xi , Ui ) statt (Xi , Yi ) • In manchen Lehrb¨ uchern wird die auf das Ziehungsschema der Stichprobe bezogene Annahme, hier die Annahme (A2), f¨ ur die Zufallsvektoren (X1 , U1 ), . . . , (Xn , Un ) anstelle f¨ ur (X1 , Y1 ), . . . , (Xn , Yn ) formuliert. Aufgrund der exakten linearen Beziehung zwischen den drei Variablen Yi , Xi und Ui gem¨aß Annahme (A0) ist dies v¨ ollig ¨ aquivalent. Sind beispielsweise (X1 , Y1 ), . . . , (Xn , Yn ) unabh¨angig und identisch verteilt, so auch (X1 , U1 ), . . . , (Xn , Un ) und umgekehrt (vgl. Satz 8.3.1). • Sonstige Verallgemeinerungen • Es bestehen zahlreiche weitere M¨oglichkeiten von Verallgemeinerungen und Modifikationen. Zudem sind auch Mischf¨alle“ denkbar. ” So k¨onnte man etwa innerhalb des klassischen Modells lediglich auf die Normalverteilungsannahme verzichten oder umgekehrt innerhalb des Modells mit bedingter Heteroskedastizit¨at zus¨atzlich von der Normalverteilungsannahme Gebrauch machen. Weitere Annahmeensembles, die etwa schwache Abh¨ angigkeiten“ oder bestimmte Formen von ” Heterogenit¨at oder beides gleichzeitig erlauben, finden sich beispielsweise bei White [2001].

Theoretische KQ-Regression • Hintergrund • Nach der Definition der theoretischen KQ-Regression und der Beschreibung ihrer Eigenschaften wird gezeigt, dass die zu sch¨atzende theoretische Regressionsgerade als theoretische KQ-Gerade interpretierbar ist. Diese Tatsache erweist sich sp¨ ater etwa beim Nachweis von Konsistenzeigenschaften und anderen theoretischen Betrachtungen als n¨ utzlich. • Definition und Eigenschaften • In Analogie zum empirischen Kleinste-QuadrateProblem n X ˆ 0 , β1 ) mit Q(β ˆ 0 , β1 ) = min Q(β (yi − β0 − β1 xi )2 β0 ,β1

i=1

l¨ asst sich auch ein theoretisches Kleinste-Quadrate-Problem formulieren. Hierzu betrachtet man die Zufallsvariablen X und Y und das Minimierungsproblem   ¯ˆ ¯ 2 ˆ min Q(β 0 , β1 ) mit Q(β0 , β1 ) = E (Y − β0 − β1 X) . β0 ,β1

Ziel ist es dabei, die erwartete quadratische Abweichung zwischen β0 +β1 X und Y , auch MSE (Mean Squared Error ) genannt, zu minimieren. Man k¨onnte dieses Bestreben als theoretische KQ-Regression von Y auf X bezeichnen, wobei es darum geht, die Koeffizienten der besten linearen Pr¨ adiktion von Y durch X zu ermitteln. Mit der theoretischen Verschiebungsformel, herk¨ommlichen Rechenregeln f¨ ur Erwartungswerte, Varianzen und Kovarianzen und konventioneller Symbolik erhalten wir zun¨achst   E (Y − β0 − β1 X)2 = V ar(Y − β0 − β1 X) + [E(Y − β0 − β1 X)]2 2 + (µY − β0 − β1 µX )2 . = σY2 − 2β1 σXY + β12 σX

(12.1.32)

606

12 Das lineare Regressionsmodell

Berechnen und Nullsetzen der ersten partiellen Ableitungen ergibt dann ˆ¯ 0 , β1 ) ∂ Q(β = −2(µY − β0 − β1 µX ) = 0 und (i) ∂β0 ¯ˆ ∂ Q(β 0 , β1 ) 2 (ii) = −2σXY + 2β1 σX − 2µX (µY − β0 − β1 µX ) = 0. ∂β1 ¯ ¯ Die L¨osungen des Gleichungssystem bezeichnen wir mit βˆ0 bzw. βˆ1 . Gleichung (i) resultiert in ¯ ¯ βˆ0 = µY − βˆ1 µX . (12.1.33) Anschließendes Einsetzen in (ii) liefert ¯ 2 βˆ1 = σXY /σX .

(12.1.34)

2 σX

Hierbei setzen wir > 0 voraus. Die Formeln (12.1.33) und (12.1.34) geben die theoretischen KQ-Koeffizienten wider, wie sie bereits in Definition 7.2.6 ohne formale Begr¨ undung definiert wurden. Sie sind v¨ ollig analog zu den L¨osungen des empirischen KQ-Problems. Wir verwenden hier zur Notation ein Dachsymbol und einen Querbalken, um eine Verwechslung mit den KQ-Sch¨ atzern zu vermeiden. Die korrespondierende Gerade ¯ ¯ y¯ˆ(x) = βˆ0 + βˆ1 x bezeichnen wir, wie bereits gehabt, als theoretische KQ-Gerade. Alternativ bezeichnen wir die Zufallsvariable ¯ ¯ ¯ (12.1.35) Yˆ = y¯ ˆ(X) = βˆ0 + βˆ1 X als besten linearen MSE-Pr¨ adiktor von Y auf der Basis von X. Das Minimum von ¯ˆ Q (den minimalen MSE) erhalten wir durch Einsetzen der L¨osungen in (12.1.32). Wegen ¯ ¯ ¯ ¯ ¯ E(Y − Yˆ ) = E(Y − βˆ0 − βˆ1 X) = µY − βˆ0 − βˆ1 µX = 0 (12.1.36) erhalten wir h i ¯ ¯ 2 ¯ ¯  ¯  E Y − βˆ0 − βˆ1 X = V ar Y − βˆ0 − βˆ1 X = V ar Y − βˆ1 X σ2 ¯ ¯ 2 = σY2 − 2βˆ1 σXY + βˆ12 σX = σY2 − XY 2 . σX Formen wir den letzten Ausdruck noch zu   2 σ2 σXY 2 σY2 − XY = σ 1 − = σY2 (1 − %2XY ) Y 2 2 σ2 σX σX Y um, erhalten wir mit h i ¯ ¯ 2 ¯ = V ar(Y − Yˆ ) = σY2 (1 − %2XY ) E Y − βˆ0 − βˆ1 X

(12.1.37)

das theoretische Pendant zu Formel (12.1.19). Man k¨onnte diesen Kennwert als theoretische Fehlervarianz der KQ-Regression oder alternativ als theoretische Varianz des Prognosefehlers des besten linearen Pr¨ adiktors bezeichnen. Diese Varianz misst die Unsicherheit, mit der sich auf Basis von X der Wert von Y linear prognostizieren l¨asst.

12.1 Einfaches lineares Regressionsmodell

607

Theoretische KQ-Regression Gegeben seien zwei Zufallsvariablen X und Y mit σY2 < ∞ und

2 0 < σX < ∞.

Dann sind die theoretischen KQ-Koeffizienten einer theoretischen KQ-Regression von Y auf X die L¨ osungen f¨ ur das Problem   ¯ ¯ ˆ ˆ min Q(β0 , β1 ) mit Q(β0 , β1 ) = E (Y − β0 − β1 X)2 . β0 ,β1

Dabei gilt ¯ ¯ ¯ 2 βˆ1 = σXY /σX und βˆ0 = µY − βˆ1 µX , wobei ¯ ¯ yˆ¯(x) = βˆ0 + βˆ1 x als theoretische KQ-Gerade bezeichnet wird. Der beste lineare MSE-Pr¨ adiktor von Y auf Basis von X ist gegeben durch ¯ ˆ1 X. ˆ0 + β¯ ¯(X) = β¯ Yˆ = yˆ Dabei gilt: ¯ E Y − Yˆ = 0 und ¯ V ar Y − Yˆ = σY2 (1 − %2XY ).

(12.1.38) (12.1.39)

Es sei bemerkt, dass die f¨ ur den empirischen Fall der KQ-Regression geltenden 8 Eigenschaften gem¨aß Satz 12.1.1 auch f¨ ur die theoretische KQ-Regression in analoger Weise zutreffen. So ist Eigenschaft (12.1.38) nichts anderes als die theoretische Entsprechung dessen, dass der Mittelwert bzw. die Summe der KQ-Residuen stets 0 ist. Weiterhin gelten die Eigenschaften ¯(µX ) = µY , yˆ (12.1.40)  ¯ E Yˆ = E(Y ) = µY , (12.1.41)  ¯ ˆ X = 0, Cov Y − Y, (12.1.42)  ¯ ˆ ¯ ˆ Cov Y − Y, Y = 0 und (12.1.43)   ¯ ¯ V ar(Y ) = V ar Yˆ + V ar Y − Yˆ . (12.1.44) Letzteres Resultat k¨ onnte man auch als Streuungszerlegungsformel der theoretischen KQ-Regression bezeichnen. Insofern ist es angemessen, die Gr¨oße ¯ ¯ V ar(Yˆ ) V ar(Y − Yˆ ) R2 = =1− (12.1.45) V ar(Y ) V ar(Y ) als theoretisches Bestimmtheitsmaß zu bezeichnen. Auf die einfach zu f¨ uhrenden Nachweise der einzelnen Eigenschaften sei verzichtet. Den Begriff der theoretischen KQ-Gerade werden wir im nachfolgenden Punkt anwenden. Er spielt zusammen mit dem Konzept der besten linearen Pr¨adiktion bei der Definition der partiellen Korrelation in Abschnitt 12.2.1 eine wichtige Rolle.

608

12 Das lineare Regressionsmodell

• Zusammenhang zur Modellgeraden in den Modellen KS und BH • Es l¨asst sich zeigen, dass die in den Modellen KS und BH enthaltene theoretische Regressionsgerade als theoretische KQ-Gerade interpretierbar ist. Dabei stimmt die theoretische Varianz des Modellfehlers mit der theoretischen Fehlervarianz der betreffenden theoretischen Regression u ¨berein. Diese Resultate ergeben sich implizit aus den Modellananahmen und wurden bereits in Tabelle 12.1.1 in Form der Eigenschaften (16) und (17) aufgef¨ uhrt. Satz 12.1.2: Theoretische Regressionsgerade = KQ-Gerade Die in den Modellen KS und BH (Definitionen 12.1.3 und 12.1.4) enthaltene theoretische Regressionsgerade ist die KQ-Gerade einer theoretischen Regression von Y auf X. Dabei gilt: 2 β1 = σXY /σX

β0 = µY − β1 µX ,

2 und σU = σY2 (1 − %2XY ),

wobei µY = E(Yi ),

µX = E(Xi ),

σXY = Cov(Xi , Yi ),

2 σX = V ar(Xi ),

%XY = Corr(Xi , Yi )

σY2 = V ar(Yi ),

2 und V ar(Ui ) = σU

f¨ ur i = 1, . . . , n sind. Man beachte, dass nach Annahme (A2) in beiden Modellen (X1 , Y1 ), . . . , (Xn , Yn ) unabh¨angig und identisch verteilt sind. Folglich resultiert die Regressionsgerade aus einer theoretischen KQ-Regression einer Zufallsvariable Y auf eine andere Zufallsvariable X, wobei Y1 , . . . , Yn identisch wie Y und X1 , . . . , Xn identisch wie X verteilt sind. Man beachte außerdem, dass in beiden Modellen die Eigenschaften E(Ui ) = 0

und

Cov(Xi , Ui ) = 0

f¨ ur i = 1, . . . , n

erf¨ ullt sind (vgl. Tab. 12.1.1). Deshalb folgt µY = E(Yi ) = E(β0 + β1 Xi + Ui ) = β0 + β1 µX , was zum theoretischen Achsenabschnitt β0 = µY − β1 µX f¨ uhrt. Andererseits folgt σXY = Cov(Xi , Yi ) = Cov(Xi , β0 + β1 Xi + Ui ) 2 = β1 Cov(Xi , Xi ) + Cov(Xi , Ui ) = β1 σX , 2 was zum theoretischen Steigungskoeffizienten β1 = σXY /σX f¨ uhrt. Daraus ergibt sich dann 2 σU = V ar(Ui ) = V ar(Yi − β0 − β1 Xi ) = σY2 (1 − %2XY ).

Die letzte Gleichung folgt dabei direkt aus dem bereits hergeleiteten Resultat (12.1.39) im Kontext der theoretischen KQ-Regression. • Zusammenhang zur Modellgeraden in den Modellen KN und UHV • In den Modellen KN und UHV entf¨ allt die u.i.v.-Annahme (A2). Stattdessen gen¨ ugen (X1 , Y1 ), . . . , (Xn , Yn ) einem u.h.v.-Schema. Aus diesem Grund sind theoretische Quantit¨aten wie µX , µY oder σXY erst einmal nicht definiert. Somit kommt man dann auch

12.1 Einfaches lineares Regressionsmodell

609

nicht direkt zur Deutung der Modellgeraden als theoretische KQ-Gerade. Unter bestimmten Zusatzannahmen l¨ asst sich dies jedoch bewerkstelligen. So kann man etwa von den beiden Konvergenzannahmen

n

E

n

1X 1X n→∞ Xi ) = E(Xi ) −−−−−→ c1 n i=1 n i=1 n

E

und

(K1)

n

1X 2 1X n→∞ Xi ) = E(Xi2 ) −−−−−→ c2 n i=1 n i=1

(K2)

Gebrauch machen. Man beachte, dass (K1) und (K2) in Modell KN wegen Xi = xi zu n n 1X 1X n→∞ E(Xi ) = xi −−−−−→ c1 und (K1*) n i=1 n i=1 n

n

1X 1 X 2 n→∞ E(Xi2 ) x −−−−−→ c2 . n i=1 n i=1 i

(K2*)

f¨ uhren. Die Erwartungswerte der ersten beiden Stichprobenmomente sollen f¨ ur wachsendes n also gegen feste Werte konvergieren. Anders ausgedr¨ uckt sollen die durchschnittlichen ersten beiden Momente gegen feste Werte konvergieren. Dies impliziert dann beispielsweise n  1X (β0 + β1 Xi + Ui ) E(Y¯ ) = E n i=1 n→∞

¯ + E(U ¯ ) = β0 + β1 E(X) ¯ −−−−−→ β0 + β1 c1 . = β0 + β1 E(X) Dabei k¨onnen wir sinnvollerweise auch µX := c1

und µY := β0 − β1 µX

setzen. Asymptotisch ergibt sich somit die Eigenschaft β0 = µY − β1 µX . Es sei jedoch ausdr¨ ucklich darauf verwiesen, dass im Allgemeinen E(Xi ) 6= µX

6 µY und E(Yi ) =

gilt, da die Stichprobenvariablen heterogen verteilt sind und individuelle Erwartungs¨ werte besitzen. Ahnlich l¨ asst sich im Falle der Stichprobenkovarianz argumentieren, f¨ ur welche ein Resultat der Form n→∞ 2 2 E(S˜XY ) −−−−−→ β1 σX =: σXY mit σX = c2 − c21 hergeleitet werden kann. Entsprechend w¨ urde dann gelten: 2 β1 = σXY /σX .

F¨ ur die Eigenschaft 2 2 σU = σU (1 − %2XY )

610

12 Das lineare Regressionsmodell

w¨aren zumindest im UHV-Modell noch weitere Zusatzannahmen zu treffen, was wir hier jedoch nicht weiter ausf¨ uhren m¨ ochten. Insgesamt kann festgehalten werden, dass sich mit entsprechenden Konvergenzannahmen die theoretische Regressionsgerade in den Modellen KN und UHV ebenfalls als theoretische KQ-Gerade interpretieren l¨ asst. Dabei ist sie als asymptotische Gerade oder durchschnittliche Gerade f¨ ur großes n“ zu verstehen. ”

12.1.3 Verteilungstheoretische Grundlagen Verteilungen der KQ-Sch¨ atzer • Alternative Darstellungen der KQ-Sch¨ atzer • Die Formeln zur Berechnung der KQ-Sch¨atzer wurden in Abschnitt 12.1.1 hergeleitet und lauten ¯ und βˆ0 = Y¯ − βˆ1 X (12.1.46) S˜XY βˆ1 = 2 S˜

2 mit S˜X > 0.

(12.1.47)

X

angig von der Unterstellung irgendeines Modells als Man beachte, dass diese unabh¨ L¨osungen der KQ-Methode gelten. Zur Herleitung der Verteilungen der beiden Sch¨atzer im Rahmen des Regressionsmodells erweisen sich alternative Darstellungen als hilfreich. Wir verwenden dabei folgendes Hilfsresultat. Satz 12.1.3: Alternative Darstellungen der KQ-Sch¨ atzer 2 > 0: Im einfachen linearen Regressionsmodell gilt, wenn S˜X ¯ βˆ1 − β1 ) + U ¯ und βˆ0 = β0 − X(

βˆ1 = β1 + V

mit V =

1 1 2 n S˜X

n X

¯ i. (Xi − X)U

(12.1.48) (12.1.49)

i=1

Es ist nachzuweisen, dass sich die allgemeinen Formeln (12.1.46) und (12.1.47) bei Unterstellung eines Regressionsmodells gem¨ aß Definition 12.1.1 zu (12.1.48) und (12.1.49) umformen lassen. Praktisch nutzbar zur Berechnung der KQ-Sch¨atzer sind diese Darstellungen freilich nicht, da die theoretischen Koeffizienten β0 und β1 ja unbekannt sind. Ausschlaggebend ist zun¨ achst einmal Annahme (A0). Hieraus ergibt sich f¨ ur das Stichprobenmittel der abh¨ angigen Variablen n 1X ¯ +U ¯, (β0 + β1 Xi + Ui ) = β0 + β1 X Y¯ = n i=1 was mit (12.1.46) unmittelbar zu (12.1.48) f¨ uhrt. Außerdem folgt damit auch n X 1 ¯ i − Y¯ ) (Xi − X)(Y S˜XY = n i=1

12.1 Einfaches lineares Regressionsmodell

611

n

=

1X ¯ 0 + β1 Xi + Ui − β0 − β1 X ¯ +U ¯) (Xi − X)(β n i=1 n

= β1

n

X 1X ¯ 2+ 1 ¯ ¯ (Xi − X) (Xi − X)(U i − U) n i=1 n i=1 n

n

X 1X 2 ¯ i+U ¯1 ¯ = β1 S˜X + (Xi − X)U (Xi − X) n i=1 n i=1 n

1X 2 ¯ i, = β1 S˜X + (Xi − X)U n i=1 wobei letzte Gleichung wegen n 1X ¯ =0 (Xi − X) n i=1

(12.1.50)

gilt. Setzt man die letzte Darstellung der Stichprobenkovarianz nun in die gew¨ohnliche Formel f¨ ur den KQ-Sch¨ atzer ein, erh¨ alt man das postulierte Resultat (12.1.49). • Verteilung der KQ-Sch¨ atzer im Modell KN • Wir betrachten zun¨achst das klassische Regressionsmodell mit nichtstochastischem Regressor gem¨aß Definition 12.1.2. Insbesondere k¨onnen wir hier zur Betonung der Nichtstochastik wegen X1 = x1 , . . . , Xn = xn auch die Kleinschreibweise w¨ ahlen. Man beachte, dass die Fehler in diesem Modell unabh¨angig und normalverteilt sind gem¨ aß 2 Ui ∼ N (0, σU )

f¨ ur i = 1, . . . , n.

Der Term V l¨asst sich nun als gewichtete Summe (Linearkombination) der Fehler darstellen. Dabei gilt: n X xi − x ¯ (12.1.51) βˆ1 − β1 = V = ci Ui mit ci = 2 . n˜ s X i=1 Mit 2 ci Ui ∼ N (0, c2i σU )

f¨ ur i = 1, . . . , n,

erh¨alt man daraus durch Anwendung von Rechenregel (7.4.21) n   X 2 c2i σU . βˆ1 − β1 ∼ N 0, i=1

Man beachte, dass die Fehler unabh¨ angig und normalverteilt sind. Der Varianzausdruck l¨asst sich dabei noch umformen mittels n n X X (xi − x ¯ )2 s˜2X 1 c2i = = (12.1.52) 4 4 = n˜ 2 . 2s n ˜ n˜ s s X X X i=1 i=1 Daraus resultiert schließlich die Verteilung des KQ-Sch¨atzers f¨ ur die Steigung mit  σ2   2  σ βˆ1 − β1 ∼ N 0, U2 bzw. βˆ1 ∼ N β1 , U2 . (12.1.53) n˜ sX n˜ sX

612

12 Das lineare Regressionsmodell

Dies impliziert zugleich σ2 und V ar(βˆ1 ) = U2 . n˜ sX Der KQ-Sch¨atzer des Steigungskoeffizienten ist folglich erwartungstreu. Seine Varianz nimmt bei gleicher Variation des Regressors, ausgedr¨ uckt durch s˜2X , mit zunehmendem Stichprobenumfang ab und mit zunehmender Fehlervarianz zu. Man beachte hierzu zun¨achst Abbildung 12.1.4 f¨ ur die theoretische Sichtweise. Abbildung 12.1.8 zeigt dann beispielhaft zwei verschiedene Situationen f¨ ur den empirischen Fall. Einer genauen Sch¨atzung der Steigung ist abtr¨ aglich, falls die Fehlervarianz im Verh¨altnis zur Varianz der x-Werte verh¨ altnism¨ aßig groß ist. Hierzu ist zu beachten, dass sich im Rahmen experimenteller Designs die Regressorwerte h¨ aufig steuern lassen. Dabei ist es demgem¨aß also nur ratsam die Unterschiede m¨ oglichst groß zu setzen. Es sollte ohnehin einsichtig sein, dass sich kausale Effekte nur schwer sch¨atzen lassen, falls die kontrollierten Einfl¨ usse nur geringf¨ ugig variiert werden. E(βˆ1 ) = β1

Analog l¨asst sich auch der Ausdruck ¯ = −¯ ¯ βˆ0 − β0 = −¯ x(βˆ1 − β1 ) + U xV + U als gewichtete Summe der Fehler U1 , . . . , Un darstellen. Dabei gilt nun: n X 1 ¯= ki Ui mit ki = −¯ xci + . −¯ xV + U n i=1

(12.1.54)

Daraus erh¨alt man n   X 2 ki2 σU . βˆ0 − β0 ∼ N 0, i=1

Man beachte, dass aufgrund von (12.1.50) n X ci = 0

(12.1.55)

i=1

gilt. Zusammen mit (12.1.52) l¨ asst sich der Varianzausdruck deshalb umformen mittels n n  n n X X X 1 1 2¯ xX 1 2 2 2 2 2 ki = x ¯ ci − 2¯ xci + 2 = x ¯ ci − ci + n n n n i=1 i=1 i=1 i=1 n

=x ¯2

1 s˜2X x ¯2 + s˜2X 1 1X 2 − 0 + = = 2 x . 2 2 2 n˜ sX n˜ sX n˜ sX n˜ sX n i=1 i

Die letzte Gleichung folgt dabei aus der Verschiebungsformel f¨ ur die empirische Varianz bzw. aus n 1X 2 x =x ¯2 + s˜2X . (12.1.56) n i=1 i Insgesamt erhalten wir also  1 Pn x2 σ 2   ˆ β0 − β0 ∼ N 0, n i=12 i U bzw. βˆ0 ∼ N β0 , n˜ sX

1 n

Pn

2 2 i=1 xi σU n˜ s2X



.

(12.1.57)

12.1 Einfaches lineares Regressionsmodell

613

Dies impliziert E(βˆ0 ) = β0

und V ar(βˆ0 ) =

1 n

Pn

2 2 i=1 xi σU n˜ s2X

,

wobei offensichtlich n

1X 2 V ar(βˆ0 ) = x V ar(β12 ) n i=1 i

(12.1.58)

gilt. Der KQ-Sch¨ atzer des Achsenabschnitts ist ebenfalls erwartungstreu. Seine Varianz h¨angt zun¨achst einmal in gleicher Weise wie beim Steigungskoeffizienten von der 2 , der Variation des Regressors s˜2X und dem StichprobenVarianz der Fehlervariable σU umfang n ab. Je unsicherer die Sch¨ atzung f¨ ur die Steigung ist, desto unsicherer ist auch die Sch¨atzung des Achsenabschnitts. Allerdings muss hierbei noch das zweite (empirische) Stichprobenmoment mit ber¨ ucksichtigt werden. Wegen (12.1.56) wirkt sich bei gleicher Streuung ein h¨ oheres durchschnittliches Niveau der x-Daten x ¯ unvorteilhaft auf die Sch¨atzsicherheit aus. Dies erscheint insofern intuitiv, da der Schwerpunkt dann wei” ter von der y-Achse entfernt“ liegt. Denn bei gleich starker Drehung der KQ-Geraden am Schwerpunkt, d.h. bei gleich starker Ver¨ anderung der Steigung, ¨andert sich der Achsenabschnitt umso st¨ arker, je weiter der Schwerpunkt von der y-Achse entfernt liegt. Abbildung 12.1.9 illustriert die Situation. Abb. 12.1.8: Sch¨ atzung des Steigungskoeffizienten yi

−2

yi

Günstig

8 6

6

4

4

2

2

0

2

4

6

8

10

12

−2

Weniger günstig

8

0

2

4

6

8

10

xi

12

xi

Abb. 12.1.9: Sch¨ atzung des Steigungskoeffizienten yi

−4

−2

yi

Günstig

8 6

6

4

4

2

2

0

x

2

4

6

8

10

xi

−4

−2

Weniger günstig

8

0

2

4

x

6

8

10

xi

614

12 Das lineare Regressionsmodell

• Verteilung der KQ-Sch¨ atzer im Modell KS • Gegeben sei nun das klassische Modell mit stochastischem Regressor gem¨ aß Definition 12.1.3. Auch hier sind die Fehler 2 zun¨achst einmal unabh¨ angig N (0, σU )-verteilt. Allerdings sind X1 , . . . , Xn jetzt stochastisch, weshalb in (12.1.49) die Großschreibweise f¨ ur Zufallsvariablen beibehalten bzw. verwendet werden muss. Konkret gilt: n X ¯ Xi − X βˆ1 − β1 = V = Ci Ui mit Ci = . (12.1.59) 2 ˜ nS X

i=1

Das Problem besteht nun darin, dass Rechenregel (7.4.21) nicht mehr verwendet werden kann, da die Gewichte Ci stochastisch sind. Zudem gen¨ ugen die Summanden Ci Ui im Allgemeinen auch keiner Normalverteilung mehr. In Bezug auf die sp¨ateren Inferenzverfahren stellt sich jedoch heraus, dass durchg¨ angig bereits die Betrachtung der bedingten Verteilungen gen¨ ugt. Dabei wird auf alle Xi -Variablen bedingt. Somit erh¨alt man dann  (X − X) ¯ 2 σ2  i U Ci Ui |X1 = x1 , . . . , Xn = xn ∼ N 0, f¨ ur s˜2X > 0. n2 s˜2X urzung k¨ onnen wir hier auch die Großschreibweise Zur Abk¨  (X − X) ¯ 2 σ2  i 2 U Ci Ui |X1 , . . . , Xn ∼ N 0, f¨ ur S˜X >0 n2 S˜2 X

verwenden. An sich ist die Grundidee plausibel. Gegeben das zuf¨allige Ergebnis der xWerte, agiert man nun quasi so, als ob diese nichtstochastisch w¨aren. Daraus folgt, dass im Weiteren dann s¨ amtliche Verteilungsresultate denen aus Modell KN entsprechen, nur dass sie nun bedingt zu verstehen sind. Im Endeffekt erh¨alt man dann die beiden Resultate  σ2  βˆ1 |X1 , . . . , Xn ∼ N β1 , U2 und (12.1.60) nS˜X Pn 1  2 2  i=1 Xi σU n ˆ β0 |X1 , . . . , Xn ∼ N β0 , . (12.1.61) 2 nS˜X Im Grunde hat sich dann lediglich die Notation ver¨andert. Da die bedingten Erwartungswerte der KQ-Sch¨ atzer jeweils nicht von den x-Werten abh¨angen, stimmen diese mit den (unbedingten) Erwartungswerten u ¨berein, vorausgesetzt die (unbedingten) Erˆ ˆ wartungswerte von β0 und β1 sind endlich. Dies ergibt sich mit der Regel f¨ ur iterierte Erwartungswertbildung (Satz 7.2.7). Es gilt also   E(βˆ1 ) = E E(βˆ1 |X1 , . . . , Xn ) = E(β1 ) = β1 bzw.   E(βˆ0 ) = E E(βˆ0 |X1 , . . . , Xn ) = E(β0 ) = β0 . Beide KQ-Sch¨atzer w¨ aren somit erwartungstreu. Die Regressorwerte X1 , . . . , Xn sind gem¨aß Annahme (A2) unabh¨ angig und identisch verteilt. Wir bezeichnen µX = E(Xi )

2 und σX = V ar(Xi ).

Da die Stichprobenstatistiken n n 1X 2 1X 2 2 ¯2 Xi und S˜X = X −X n i=1 n i=1 i

12.1 Einfaches lineares Regressionsmodell

615

maßgeblich von diesen beiden theoretischen Kennwerten abh¨angen, werden die Kriterien, die zu kleinen Varianzen der KQ-Sch¨ atzer f¨ uhren, nun auch u ¨ber diese formuliert. G¨ unstig f¨ ur die Sch¨ atzung der Steigung w¨ are demnach eine im Vergleich zur Fehler2 2 varianz σU große theoretische Varianz des Regressors σX . Zur Sch¨atzung des Achsenabschnitts ist hingegen zus¨ atzlich ein Erwartungswert der Regressorvariablen nahe 0 vorteilhaft. • Verteilung des KQ-Sch¨ atzers f¨ ur β im Modell BH • Im Modell mit bedingt heteroskedastischem Fehler gem¨ aß Definition 12.1.4 ist keine exakte Verteilung der KQ-Sch¨atzer bestimmbar, da an die Fehlerverteilung keine Verteilungsannahme gestellt wird. So kann hier nur nachgewiesen werden, dass die KQ-Sch¨atzer asymptotisch bzw. f¨ ur große Stichproben approximativ normalverteilt sind. Hierzu wird haupts¨achlich vom ZGWS und GGZ (Abschnitt 7.4.2) Gebrauch gemacht. Wir beginnen hier mit der Feststellung, dass die Terme (X1 − µX )U1 , . . . , (Xn − µX )Un unabh¨ angig und identisch verteilt sind. Dies resultiert daraus, dass sich diese gem¨aß g(x, y) = (x − µX )(y − β0 − β1 x) als Funktion der u.i.v.-Vektoren (X1 , Y1 ), . . . , (Xn , Yn ) ergeben, d.h. es gilt: (Xi − µX )Ui = g(Xi , Yi )

f¨ ur i = 1, . . . , n.

Weiter gilt f¨ ur den Erwartungswert:   E (Xi − µX )Ui = 0 f¨ ur i = 1, . . . , n.

(12.1.62)

Zum Nachweis verwenden wir die Regel f¨ ur iterierte Erwartungswertbildung (Satz 7.2.7) und nutzen Annahme (A1). Hieraus erh¨ alt man       E (Xi − µX )Ui = E E((Xi − µX )Ui |Xi ) = E (Xi − µX )E(Ui |Xi )   = E (Xi − µX ) · 0 = 0. F¨ ur die Varianzen der Terme (Xi − µX )Ui gibt es keinen einfachen explizite Ausdruck. Sie k¨onnen jedoch alternativ darstellt werden. So gilt:     V ar (Xi − µX )Ui = E (Xi − µX )2 V ar(Ui |Xi ) . (12.1.63) Dies l¨asst sich wiederum mit iterierter Erwartungswertbildung nachweisen und mithilfe der Tatsache, dass die Varianz dem zweiten Moment entspricht, sofern der Erwartungswert gleich 0 ist. So erh¨ alt man dann       V ar (Xi − µX )Ui = E (Xi − µX )2 Ui2 = E E((Xi − µX )2 Ui2 |Xi )     = E (Xi − µX )2 E(Ui2 |Xi ) = E (Xi − µX )2 · V ar(Ui |Xi ) Man beachte, dass die Varianzen nach den Modellannahmen tats¨achlich auch existieren, d.h. endlich sind. Somit k¨ onnen wir insgesamt festhalten: (X1 − µX )U1 , . . . , (Xn − µX )Un sind u.i.v. mit Erwartungswert 0. Hiermit greift jedoch der ZGWS f¨ ur u.i.v.-Zufallsvariablen (Satz 7.4.3). Gem¨aß (7.4.34)

616

12 Das lineare Regressionsmodell

gilt dann f¨ ur das stochastische Mittel dieser Terme: Pn 1 (Xi − µX )Ui a n Yn = q i=1 ∼ N (0, 1).

(12.1.64)

V ar((Xi −µX )Ui ) n

Damit erhalten wir fast schon eine Verteilungsaussage f¨ ur den Z¨ahlerausdruck des Terms V in der Darstellung (12.1.49). Tats¨ achlich k¨ onnen wir den Erwartungswert µX durch ¯ ersetzen, ohne dass sich die Verteilungsaussage ¨andert. Hierzu das Stichprobenmittel X stellen wir fest: n n X 1X ¯ i= 1 ¯ i (Xi − X)U (Xi − µX + µX − X)U n i=1 n i=1 n

n

=

1X 1X ¯ i (Xi − µX )Ui + (µX − X)U n i=1 n i=1

=

1X ¯ U ¯. (Xi − µX )Ui + (µX − X) n i=1

n

Diese Art von Zerlegung k¨ onnen wir nun ausnutzen. Setzen wir Pn 1 ¯ i ¯ U ¯ (Xi − X)U (µX − X) Zn = nq i=1 und An = q V ar((Xi −µX )Ui ) n

,

V ar((Xi −µX )Ui ) n

impliziert dies f¨ ur Zn die Zerlegung Zn = Yn + An

(12.1.65)

Man beachte, dass f¨ ur Yn das asymptotische Verteilungsresultat (12.1.64) gilt. Sofern nun p

An −−→ 0

(12.1.66)

gilt, folgt mit Slutky’s Theorem (Satz 8.2.5) unmittelbar das gew¨ unschte Resultat a

Zn ∼ N (0, 1).

(12.1.67)

Um die G¨ ultigkeit von (12.1.66) nachzuweisen, schreiben wir An zun¨achst gem¨aß ¯ ¯ U U (µX − X)σ ·p 2 An = p V ar((Xi − µX )Ui ) σU /n um. Setzen wir nun ¯ U ¯ −0 (µX − X)σ U Bn = p und Wn = p 2 , V ar((Xi − µX )Ui ) σU /n erhalten wir die Beziehung An = Bn Wn . Da U1 , . . . , Un u.i.v. mit Erwartungswert 0 und Varianz a

Wn ∼ N (0, 1).

(12.1.68) 2 σU

sind, gilt (12.1.69)

Andererseits sind auch X1 , . . . , Xn u.i.v. mit Erwartungswert µX und endlicher Varianz

12.1 Einfaches lineares Regressionsmodell

617

2 σX . Deshalb folgt mit dem GGZ p ¯ −− X → µX

p ¯ − µX −− bzw. X →0

und mit dem Stetigkeitssatz (Satz 8.2.3) schließlich p

Bn −−→ 0.

(12.1.70)

Mit Slutsky’s Theorem folgt aus (12.1.68), (12.1.69) und (12.1.70) schließlich (12.1.66). Damit ist die G¨ ultigkeit von (12.1.67) nachgewiesen. Alternativ k¨onnen wir hierf¨ ur auch n 1 X a ¯ i∼ √ (Xi − X)U N (0, V ar((Xi − µX )Ui )) (12.1.71) n i=1 schreiben. Weiter gilt unter Verwendung von (12.1.49) die Darstellung n √ 1 1 X ¯ i. n(βˆ1 − β1 ) = 2 √ (Xi − X)U S˜X n i=1

(12.1.72)

Mit dem GGZ f¨ ur k-te Momente (Satz 8.2.4) gilt hierbei: p 2 2 S˜X −−→ σX .

(12.1.73)

Man beachte hierzu Beispiel 8.3.6 mit Resultat (8.3.29). Aus (12.1.71), (12.1.72) und (12.1.73) erh¨alt man dann mit Slutsky’s Theorem (Satz 8.2.5) schließlich die Verteilungsaussage f¨ ur den Sch¨ atzer des Steigungskoeffizienten. Demnach gilt  V ar((X − µ )U )  √ a i X i n(βˆ1 − β1 ) ∼ N 0, . (12.1.74) 2 )2 (σX Alternativ k¨onnen wir gem¨ aß der von uns genutzten Notation auch  V ar((X − µ )U )  approx i X i βˆ1 − β1 ∼ N 0, bzw. (12.1.75) 2 )2 n(σX  V ar((Xi − µX )Ui )  approx (12.1.76) βˆ1 ∼ N β1 , 2 )2 n(σX schreiben. Der KQ-Sch¨ atzer f¨ ur den Steigungskoeffizienten ist f¨ ur großes n approximativ normalverteilt. Falls der Erwartungswert von βˆ1 endlich ist, dann ist βˆ1 erwartungstreu. Unter Verwendung von (12.1.49) ergibt sich dies mithilfe iterierter Erwartungswertbildung durch n h 1 1 X i ¯ i E(βˆ1 ) = β1 + E 2 √ (Xi − X)U S˜X n i=1 n i h  1 1 X ¯ i X1 , . . . , Xn (Xi − X)U = β1 + E E 2 √ S˜X n i=1 n h 1 1 X i ¯ = β1 + E 2 √ (Xi − X)E(U i |X1 , . . . , Xn ) = β1 . S˜X n i=1 Man beachte dabei, dass E(Ui |X1 , . . . , Xn ) = E(Ui |Xi ) = 0 aufgrund von Annahme (A1) und der Unabh¨ angigkeit von Ui und Xj f¨ ur i 6= j gilt.

618

12 Das lineare Regressionsmodell

Die Varianz in (12.1.75) ist hingegen asymptotisch zu verstehen. Unter Verwendung der alternativen Darstellung (12.1.63) kann man   √ 1 V ar( n(βˆ1 − β1 )) ≈ 2 2 E (Xi − µX )2 V ar(Ui |Xi ) . (12.1.77) (σX ) schreiben, sofern die Varianz von βˆ1 endlich ist. Mit der Verschiebungsformel f¨ ur die theoretische Kovarianz (7.2.2) l¨ asst sich der Z¨ ahler von (12.1.77) in     2 E (Xi − µX )2 V ar(Ui |Xi ) = Cov((Xi − µX )2 , V ar(Ui |Xi )) + σX E V ar(Ui |Xi ) 2 2 σU = Cov((Xi − µX )2 , V ar(Ui |Xi )) + σX

umschreiben. Dabei folgt letzte Gleichung mit Regel (ii) von Satz 7.2.7 und Annahme (A1):     E V ar(Ui |Xi ) = V ar(Ui ) + V ar E(Ui |Xi ) = V ar(Ui ) + V ar(0) = V ar(Ui ). Die unbedingte Varianz der Fehlervariablen Ui ist folglich als durchschnittliche bedingte Varianz interpretierbar. Bei gegebenen Varianzen von Regressor und Fehler wird nun der Z¨ahler von (12.1.77) umso gr¨ oßer, desto st¨arker die quadratische Abweichung des Regressorwerts vom Schwerpunkt mit der bedingten Fehlervarianz positiv korreliert ist. Sie wird indes kleiner bei negativer Korrelation. Abbildung 12.1.10 illustriert die Situation anhand stark stilisierter Beispiele. Man beachte, dass in beiden F¨allen sowohl die (empirische) Varianz der x-Werte als auch die Varianz KQ-Residuen gleich sind. Dies gilt es nun entsprechend auf die theoretische Ebene zu u ¨bertragen. Abb. 12.1.10: Sch¨ atzung des Steigungskoeffizienten im Modell BH yi

yi

Günstig

8 6

6

4

4

2

2

−2

0

2

4

6

x

8

10

12

xi

−2

Weniger günstig

8

0

2

4

6

x

8

10

12

xi

An (12.1.77) erkennt man, dass sich die Varianz des Sch¨atzers βˆ1 bei Unterstellung eines bedingt homoskedastischen Fehlers mit 2 V ar(Ui |Xi ) = σU

f¨ ur i = 1, . . . , n

spezialisiert zu: 2 σU 2 . nσX

(12.1.78)

Formel (12.1.78) weist einen engen Bezug zur Varianz im klassischen Modell auf. Man beachte hierzu die Verteilungsaussagen (12.1.53) und (12.1.60).

12.1 Einfaches lineares Regressionsmodell

619

• Verteilung des KQ-Sch¨ atzers f¨ ur β im Modell BH • Die Herleitung der Verteilung des KQ-Sch¨ atzers f¨ ur den Achsenabschnitt gestaltet sich nochmals aufwendiger. Wir geben an dieser Stelle lediglich die letztlich g¨ ultigen Resultate an (siehe Stock und Watson [2012, Kapitel 4]). Demnach gilt:  E(H 2 U 2 )  √ µX Xi a i i , wobei Hi = 1 − . (12.1.79) n(βˆ0 − β0 ) ∼ N 0, (E(Hi2 ))2 E(Xi2 ) Alternativ k¨onnen wir daf¨ ur auch  E(H 2 U 2 )  approx i i βˆ0 − β0 ∼ N 0, bzw. (12.1.80) n(E(Hi2 ))2  E(Hi2 Ui2 )  approx βˆ0 ∼ N β0 , (12.1.81) n(E(Hi2 ))2 schreiben. Auch Sch¨ atzer βˆ0 ist erwartungstreu, wenn der Erwartungswert endlich ist. Auf den Versuch, die asymptotischen Varianz aus (12.1.79) zu deuten, wird an dieser Stelle verzichtet. Bei Unterstellung eines bedingt homoskedastischen Fehlers spezialisiert sich diese jedoch zu 2 E(Xi2 )σU , (12.1.82) 2 σX was wiederum einen engen Bezug zur Varianz im klassischen Modell aufweist. Man beachte hierzu die Verteilungsaussagen (12.1.57) und (12.1.61). Damit w¨are (12.1.82) quasi wie im klassischen Modell zu deuten.

• Verteilung der KQ-Sch¨ atzer im Modell UHV • Im Modell UHV sind theoretische Kennwerte wie etwa µX ,

2 σX ,

2 σU

oder V ar((Xi − µX )Ui )

nicht ohne Weiteres definiert. Sie m¨ ussen durch zus¨atzliche Konvergenzannahmen wie etwa (K1) und (K2) aus dem vorhergehenden Abschnitt erst begr¨ undet werden. Auf Basis solcher Zusatzannahmen lassen sich dann Grenzwertsatz- und GGZ-Varianten f¨ ur u.h.v.-Schemata nutzen, um die Verteilung der KQ-Sch¨atzer zu bestimmen. Man beachte hierzu etwa die Varianten gem¨ aß Satz 8.2.1 und 8.2.2. Im Endeffekt erh¨alt man dann ebenfalls asymptotisch normalverteilte KQ-Sch¨atzer. Die konkreten Varianzformeln wei¨ sen dabei große Ahnlichkeit zu denen in (12.1.74)–(12.1.76) und (12.1.79)–(12.1.81) auf, ¨ sind jedoch im Sinne einer Durchschnittsbetrachtung zu verstehen. Ublicherweise werden solche Formeln aufgrund der deutlich kompakteren Schreibweise matrixalgebraisch hergeleitet und dargestellt. Ausf¨ uhrlich wird dies etwa von White [1980] behandelt.

Konsistenz und Effizienz der KQ-Sch¨ atzer • Konsistenz der KQ-Sch¨ atzer • Da in den Modellen KS und BH β0 = µY − β1 µX

2 und β1 = σXY /σX

gelten, sind die KQ-Sch¨ atzer auf jeden Fall konsistent. Dies folgt aus der Tatsache, dass in diesen Modellen (X1 , Y1 ), . . . , (Xn , Yn ) jeweils unabh¨angig und identisch verteilt sind.

620

12 Das lineare Regressionsmodell

Damit greift mit Annahme (A3) das GGZ f¨ ur k-te Momente und es gilt: p ¯ −− X → µX ,

p Y¯ −−→ µY ,

p S˜XY −−→ σXY

p 2 2 und S˜X −−→ σX .

Dies impliziert wiederum, dass die KQ-Sch¨ atzer als stetige Funktionen dieser Stichprobenstatistiken konsistent sein m¨ ussen (Satz 8.3.3), d.h. es gilt: S˜XY p p ¯ −− βˆ1 = 2 −−→ β1 und βˆ0 = Y¯ − βˆ1 X → µY − β1 µX . ˜ S X

Mit entsprechenden zus¨ atzlichen Konvergenzannahmen wie etwa (K1) und (K2) ließen sich in den Modellen KN und UHV diese Konsistenzeigenschaften ebenfalls begr¨ unden. • Effizienz der KQ-Sch¨ atzer und Gauß-Markov-Theorem • Es l¨asst sich zeigen, dass die KQ-Sch¨atzer im Modell KN innerhalb der Klasse der erwartungstreuen Sch¨atzer am effizientesten sind, d.h. sie weisen die kleinsten Varianzen von allen erwartungstreuen Sch¨atzern auf. Wird lediglich die Normalverteilungsannahme fallen gelassen, bleiben sie immerhin noch innerhalb der Klasse linearen und erwartungstreuen Sch¨atzer die besten. Hierzu sei bemerkt, dass im Rahmen des Regressionsmodells ein Sch¨atzer als linear bezeichnet wird, sofern er sich als gewichtete Summe der Y1 , . . . , Yn darstellen l¨asst. Man kann sich leicht davon u ur βˆ0 und βˆ1 der Fall ist. Im Rahmen des ¨berzeugen, dass das f¨ Modells KS sind diese Optimalit¨ atseigenschaften entsprechend bedingt auf X1 , . . . , Xn zu verstehen. Die KQ-Sch¨ atzer sind dann also die besten Sch¨atzer innerhalb der Klasse der bedingt erwartungstreuen Sch¨ atzer bzw. die besten Sch¨atzer innerhalb der Klasse der linearen und bedingt erwartungstreuen Sch¨atzer. Ohne Normalverteilungsannahme sind diese Eigenschaften als Aussagen des sog. Gauß-Markov-Theorems bekannt. Detaillierte Ausf¨ uhrungen zum Modell KN finden sich etwa bei Rencher [2012] und zum Modell KS bei Stock und Watson [2012]. Shaffer [1991] befasst sich allgemein mit der G¨ ultigkeit des Theorems bei stochastischen Regressoren. Typischerweise wird das Theorem n¨amlich meist nur f¨ ur den nichtstochastischen Fall formuliert. In den Modellen BH und UHV sind die KQ-Sch¨atzer zwar konsistent bzw. lassen sich mithilfe bestimmter Konvergenzannahmen konsistent machen, sie sind jedoch im Allgemeinen nicht am besten. Dies liegt daran, dass die Form der bedingten bzw. unbedingten Heteroskedastizit¨ at f¨ ur die Sch¨ atzung nicht ausgenutzt wird. Allerdings gestaltet sich die in diesem Fall bessere Sch¨ atzmethode, die sog. Generalisierte KleinsteQuadrate-Methode, als deutlich aufwendiger. Sie verbleibt Thema weiterf¨ uhrender Lehrb¨ ucher.

Sch¨ atzung der Varianzen der KQ-Sch¨ atzer • Hintergrund • Zur Konstruktion von Konfidenzintervallen und Tests ist es im Allgemeinen notwendig, die Varianzen der KQ-Sch¨atzer zu sch¨atzen. Betrachten wir zur Vergegenw¨artigung dieses Aspekts noch einmal die Situation, den Erwartungswert einer Verteilung zu sch¨ atzen. Sind X1 , . . . , Xn etwa unabh¨angig N (µ, σ 2 )-verteilt, so gilt f¨ ur das Stichprobenmittel als Sch¨ atzer f¨ ur µ:  2 µ ˆ−µ ¯ ∼ N µ, σ bzw. Z = p ∼ N (0, 1). µ ˆ=X n σ 2 /n

12.1 Einfaches lineares Regressionsmodell

621

Dieses Resultat kann, wie ausf¨ uhrlich in Kapitel 10 besprochen, auf Basis der Standardnormalverteilung bereits zur Konstruktion eines Konfidenzintervalls f¨ ur µ oder zur Durchf¨ uhrung eines Tests u ¨ber µ verwendet werden, sofern die Varianz der Grundgesamtheit σ 2 bekannt ist. Dann ist n¨ amlich auch die Varianz des Sch¨atzers bekannt und es gilt: ¯ = σ 2 /n. σµ2ˆ = V ar(X) Ist σ 2 hingegen unbekannt, so wird diese durch die (korrigierte) Stichprobenvarianz gesch¨atzt. Dann ergibt sich als Sch¨ atzung f¨ ur die Varianz des Sch¨atzers σ ˆµ2ˆ = S 2 /n, wobei die Wurzel davon als Standardfehler bezeichnet wird. Die f¨ ur die Inferenz maßgebliche Verteilung ist dann eine t-Verteilung, da µ ˆ−µ T = ∼ t(n − 2) σ ˆµ2ˆ gilt. Ohne Normalverteilungsannahme gen¨ ugt T f¨ ur großes n approximativ einer Standardnormalverteilung, so das zumindest noch approximativ Inferenz m¨oglich ist. Im Folgenden betrachten wir analoge Ausdr¨ ucke f¨ ur die theoretischen Koeffizienten β0 und β1 im Rahmen des Regressionsmodells unter verschiedenen Annahmen. Maßgeblich sind dabei nun die Verteilungen der mit den gesch¨atzten Varianzen standardisierten KQ-Sch¨atzer βˆ0 − β0 βˆ1 − β1 bzw. Tβ0 = . Tβ0 = σ ˆβˆ0 σ ˆβˆ1 Hierzu m¨ ussen Sch¨ atzer f¨ ur die Varianzen der Sch¨atzer bestimmt werden.

• Sch¨ atzung der Varianzen im klassischen Fall • In den klassischen Modellen KN und KS k¨onnen die Varianzen der KQ-Sch¨ atzer aus den Formeln (12.1.53) und (12.1.57) bzw. (12.1.60) und (12.1.61) ersehen werden. In Modell KN lauten diese Pn 1 2 2 2 σU i=1 xi σU 2 2 n σβˆ = 2 und σβˆ = 2 1 0 n˜ sX n˜ sX und in Modell KS Pn 1 2 2 2 σU i=1 Xi σU 2 2 n σβˆ |X ,...,X = und σ . = βˆ0 |X1 ,...,Xn 1 1 n nS˜2 nS˜2 X

X

Da die x-Werte bekannt sind bzw. beobachtet werden, muss lediglich die Fehlervarianz gesch¨atzt werden. Hierzu verwendet man als Sch¨atzer u ¨blicherweise den quadrierten Standardfehler der Regression, sprich n 1 X ˆ2 2 σ ˆU = SER2 = U . (12.1.83) n − 2 i=1 i Dieser entspricht im Grunde der Stichprobenvarianz der KQ-Residuen. Es l¨asst sich zeigen, dass durch die Verwendung des Divisors (n − 2) anstelle von n der Sch¨atzer

622

12 Das lineare Regressionsmodell

erwartungstreu wird (vgl. etwa Rencher [2012]). Mit (12.1.19) gilt außerdem n ˜2 S˜2 2 σ ˆU = SY (1 − R2 ) ≈ S˜Y2 − XY (12.1.84) n−2 S˜2 X

f¨ ur großes n. Mit der modellimmanenten Eigenschaft 2 2 2 σU = σY2 − σXY /σX

folgt damit unmittelbar, dass der Sch¨ atzer in Modell KS konsistent ist. Mit entsprechenden Konvergenzannahmen w¨ urde dies auch in Modell KN gelten. Insgesamt erhalten wir also die Formeln σ ˆ2 ˜β2ˆ |X ,...,X = U2 und σ ˜β2ˆ = σ (12.1.85) 1 1 n 1 nS˜X Pn 1 X 2σ ˆ2 σ ˜β2ˆ = σ ˜β2ˆ |X ,...,X = n i=1 2 i U , (12.1.86) 0 0 1 n nS˜ X

wobei in Modell KN wegen X1 = x1 , . . . , Xn = xn auch die Kleinschreibweise verwendet werden kann. • Sch¨ atzung der Varianzen im Modell BH • Im Modell BH k¨onnen die Varianzen der KQ-Sch¨atzer aus den Formeln (12.1.75) und (12.1.80) ersehen werden. Demnach gilt: E(Hi2 Ui2 ) V ar((Xi − µX )Ui ) µX Xi mit Hi = 1 − und σβ2ˆ ≈ . 2 )2 0 1 n(E(Hi2 ))2 E(Xi2 ) n(σX Hier lauten die Formeln f¨ ur die Varianzsch¨ atzer entsprechend Pn ˆ 2 ˆ 2 1 ¯ i XX i=1 Hi Ui ˆi = 1 − P σ ˆβ2ˆ = n 1 P mit H und (12.1.87) n n 1 2 2 0 2 ˆ n n i=1 Hi ) i=1 Xi n Pn 1 ¯ 2 ˆ2 i=1 (Xi − X) Ui 2 n (12.1.88) σ ˆβˆ = 2 )2 1 n(S˜X Die Korrespondenz der theoretischen Varianzformeln zu den stochastischen Gr¨oßen der Sch¨atzer ist offensichtlich. Man beachte hierbei wegen (12.1.62) die Gleichheit   V ar((Xi − µX )Ui ) = E (Xi − µX )2 Ui2 . σβ2ˆ ≈

Insgesamt werden somit die theoretischen Momente konsequent durch die korrespondierenden Stichprobenmomente gesch¨ atzt. Die nicht beobachtbaren Fehler werden indes durch die KQ-Residuen ersetzt. Wie man sich denken kann, w¨ urde ein Konsistenznachweis die wiederholte Anwendung des GGZ f¨ ur k-te Momente in Verbindung mit dem Stetigkeitssatz erfordern. In Anbetracht der Plausibilit¨at der Sch¨atzer verzichten wir auf einen l¨anglichen Nachweis. In Anlehnung an das Modell werden diese von Eicker [1967] und White [1980] eingef¨ uhrten Sch¨atzer als heteroskedastizit¨ ats-konsistente Varianzsch¨ atzer oder heteroskedastizit¨ ats-robuste Varianzsch¨ atzer bezeichnet. Ersteres hebt hervor, dass die Sch¨atzer konsistent sind, falls ein bedingt heteroskedastischer Fehler vorliegt. Letzteres hebt hervor, dass die Sch¨ atzer konsistent sind, falls ein bedingt homoskedastischer Fehler vorliegt und dies bei Abweichung davon, also bei bedingter Heteroskedastizit¨at,

12.1 Einfaches lineares Regressionsmodell

623

auch bleiben; insofern sind sie robust. Hierzu beachte man, dass im Modell BH ein bedingt heteroskedastischer Fehler lediglich gestattet, aber nicht zwingend vorausgesetzt wird. Die Nichtannahme von bedingter Homoskedastizit¨at schließt eine solche also nicht aus. Insofern m¨ ussen die Varianzsch¨ atzer in beiden F¨allen konsistent sein. Es sei jedoch bemerkt, dass die Sch¨ atzer weniger effizient sind, sofern tats¨achlich bedingte Homoskedasitizit¨at vorliegt. Sofern man sich sicher ist, dass eine solche gegeben ist, sollte man sog. nur-homoskedastizit¨ ats-konsistente Varianzsch¨ atzer (vgl. Stock und Watson [2012]) verwenden. Diese stimmen formelm¨ aßig mit (12.1.85) und (12.1.86) aus dem klassischen Modell u ¨berein und weisen tendenziell geringere Varianzen auf. Sie erm¨oglichen auf diese Weise eine akkuratere Inferenz, in der im Allgemeinen Konfidenzintervalle k¨ urzer sind und Tests eine h¨ ohere G¨ ute aufweisen. ¨ • Sch¨ atzung der Varianzen im Modell UHV • Ahnlich wie schon bei der Sch¨atzung der Regressionskoeffizienten ergibt sich im Modell UHV das Problem, dass theoretische Kennwerte wie etwa µX ,

V ar((Xi − µX )Ui ),

E(Xi2 )

oder E(Hi2 Ui2 )

nicht ohne Weiteres definiert sind. Es bedarf zus¨atzlicher Konvergenzannahmen, im Rahmen derer sich solche theoretischen Gr¨ oßen als Grenzausdr¨ ucke von Durchschnittsbetrachtungen ergeben. Tats¨ achlich l¨ asst sich dann zeigen, dass die theoretischen Varianzformeln zwar komplizierter werden, die Varianzsch¨atzer (12.1.87) und (12.1.88) jedoch weiterhin verwendet werden k¨ onnen. Dies liegt einfach daran, dass ein langfristiger Mittelwert weiterhin durch den Mittelwert gesch¨atzt werden kann. Tats¨achlich wies White [1980] die Konsistenz seiner Sch¨ atzer unter dem u.h.v.-Schema nach.

Verteilungen der Inferenzstatistiken • Hintergrund • Nun werden die Resultate f¨ ur die Verteilung der KQ-Sch¨atzer und diejenigen zur Sch¨ atzung der korrespondierenden Varianzen miteinander kombiniert, um die Verteilungen maßgeblicher Inferenzstatistiken zu bestimmen. Mit diesen lassen sich dann Konfidenzintervalle und Tests innerhalb der jeweiligen Modelle konstruieren. • Verteilungen im klassischen Modell • Mit einigem Aufwand l¨asst sich zeigen, dass sowohl in Modell KN als auch in Modell KS gilt: βˆj − βj T˜βj = ∼ t(n − 2) f¨ ur j = 0, 1 und f¨ ur n ≥ 3. (12.1.89) σ ˜βˆj atzten Varianz standardisierte KQ-Sch¨atzer ist also t-verteilt mit n−2 Der mit der gesch¨ Freiheitsgraden. Man beachte, dass man im Modell KS eine unbedingte Verteilungsaussage erh¨alt, die nicht mehr von X1 , . . . , Xn abh¨angt. • Verteilungen in den Modellen BH und UHV • Im Modell BH und im Modell UHV mit entsprechenden zus¨ atzlichen Konvergenzannahmen erh¨alt man das Resultat ˆ βj − βj a Tˆβj = ∼ N (0, 1) f¨ ur j = 0, 1. (12.1.90) σ ˆβˆj

624

12 Das lineare Regressionsmodell

Analog zum Nachweis der G¨ ultigkeit von (10.2.11) in Abschnitt 10.2.2 folgt dies durch Anwendung von (8.2.8) in Slutsky’s Theorem (Satz 8.2.5). Da im vorliegenden Fall √ p a n(βˆj − βj ) ∼ N (0, σβ2ˆ ) und σ ˆβ2ˆ −−→ σβ2ˆ j

j

j

gilt, folgt unmittelbar (12.1.90).

12.1.4 Sch¨ atzen und Testen Konfidenzintervalle und Tests • Herleitung von Konfidenzintervallen • Auf Basis der Verteilungsresultate (12.1.89) und (12.1.90) k¨ onnen nun Konfidenzintervalle f¨ ur β0 und β1 konstruiert werden. Ausgehend von (12.1.89) gilt dann f¨ ur j = 0, 1: 1 − α = P (−tn−2,1−α/2 ≤ T˜β ≤ tn−2,1−α/2 ) j

= P (βˆj − tn−2,1−α/2 · σ ˜βˆj ≤ βj ≤ βˆj + tn−2,1−α/2 · σ ˜βˆj ), wobei tn−2,1−α/2 das (1−α/2)-Quantil der t(n−2)-Verteilung bezeichnet. Aus (12.1.90) folgt entsprechend f¨ ur großes n: 1 − α ≈ P (−z1−α/2 ≤ Tˆβ ≤ z1−α/2 ) j

ˆβˆj ), = P (βˆj − z1−α/2 · σ ˆβˆj ≤ βj ≤ βˆj + z1−α/2 · σ wobei z1−α/2 das (1 − α/2)-Quantil der Standardnormalverteilung bezeichnet. • Konstruktion von Tests • Die Statistiken (12.1.89) und (12.1.90) bilden zugleich sinnvolle Teststatistiken f¨ ur ein- und zweiseitige Testprobleme. Die Verteilungsaussagen liefern dabei die Testverteilungen f¨ ur den Nullhypothesenwert βj = βj,0 . ¨ zu erhalten, fassen wir an die• Zusammenfassung • Um eine kompakte Ubersicht ser Stelle die zu verwendenden Formeln f¨ ur die Varianzsch¨atzer mit den Formeln zur Intervallsch¨atzung und zum Testen in einem Satz zusammen. Satz 12.1.4: Konfidenzintervalle und Tests im Regressionsmodell Gegeben sei ein einfaches lineares Regressionsmodell gem¨aß Definition 12.1.1. Dann gilt: 1. ein (1 − α)-Konfidenzintervall f¨ ur βj mit j = 0 oder 1 ist (i) in den Modellen KN und KS f¨ ur n ≥ 3 gegeben durch   βˆj − tn−2,1−α/2 · σ ˜βˆj , βˆj + tn−2,1−α/2 · σ ˜βˆj , (ii) im Modell BH f¨ ur großes n gegeben durch   βˆj − z1−α/2 · σ ˆβˆj , βˆj + z1−α/2 · σ ˆβˆj ,

12.1 Einfaches lineares Regressionsmodell

625

wobei gilt: σ ˜β2ˆ = 1

σ ˆβ2ˆ = 1

2 σ ˆU , 2 nS˜X Pn 1 n

σ ˜β2ˆ = 0

¯

i=1 (Xi − X) 2 )2 n(S˜X

2

ˆ2 U i

σ ˆβ2ˆ =

,

0

1 n

Pn

2 Xi2 σ ˆU , 2 nS˜X Pn ˆ 2 ˆ 2 1 i=1 Hi Ui n Pn ˆ 2 2 1 n n i=1 Hi ) i=1

2 mit S˜X > 0, n

2 σ ˆU =

1 X ˆ2 U n − 2 i=1 i

ˆi = 1 − und H

1 n

¯ i XX Pn i=1

Xi2

.

2. die Entscheidungsregeln eines Tests zum Niveau α f¨ ur das Testproblem a) H0 : βj ≥ βj,0 vs. H1 : βj < βj,0 , b) H0 : βj ≤ βj,0 vs. H1 : βj > βj,0 , c) H0 : βj = βj,0 vs. H1 : βj 6= βj,0 , (i) basieren in den Modellen KN und KS auf βˆj − βj,0 T˜βj = ∼ t(n − 2) f¨ ur βj = βj,0 und j = 0, 1. σ ˜βˆj und lauten: Verwerfe H0 in a) , falls t˜βj < −tn−2,1−α , b) , falls t˜βj > tn−2,1−α , c) , falls |t˜βj | > tn−2,1−α/2 , (ii) basieren im Modell BH auf βˆj − βj,0 a Tˆβj = ∼ N (0, 1) σ ˆβˆj

f¨ ur βj = βj,0 und j = 0, 1.

und lauten f¨ ur großes n: Verwerfe H0 in a) , falls tˆβj < −z1−α , b) , falls tˆβj > z1−α , c) , falls |tˆβj | > z1−α/2 , 3. mit entsprechenden zus¨ atzlichen Konvergenzannahmen sind die Konfidenzintervalle und Tests f¨ ur Modell BH auch f¨ ur Modell UHV g¨ ultig. Im Falle von Modell BH handelt es sich in (ii) um approximative Konfidenzintervalle bzw. approximative Tests f¨ ur n ≥ 60. Die Wahl von Divisoren wie n, (n − 1) oder (n − 2) in den Formeln der Varianzsch¨atzer ist f¨ ur die asymptotischen Aussagen nicht erheblich. Die Empfehlung f¨ ur die Stichpro-

626

12 Das lineare Regressionsmodell

bengr¨oße f¨ ur die approximativen Ergebnisse f¨allt hier mehr oder weniger willk¨ urlich aus. Jedoch ist n ≥ 60“ im Einklang mit der Approximationsregel f¨ ur Tests u ¨ber Er” wartungswertdifferenzen, die sich ¨ aquivalent im Rahmen einer Regression mit bin¨arem Regressor durchf¨ uhren lassen (siehe n¨ achster Unterabschnitt). Stock und Watson [2012] verwenden hingegen die Approximationsregel n ≥ 100. Man beachte, dass sich die Inferenzstatistiken lediglich in Bezug auf ihre Varianzsch¨atzer unterscheiden. Die Sch¨ atzung der Regressionskoeffizienten erfolgt stets u ¨ber die KQ-Sch¨atzer und ist unabh¨ angig von den Modellannahmen immer gleich. ¨ • Aquivalenz der Tests auf β =0 und %XY =0 • Die Teststatistik bez¨ uglich β1 in den Modellen KN und KS f¨ ur β1 = 0 ist mit derjenigen des Korrelationstests (Satz 11.3.8) identisch, d.h. es gilt: T˜β = TR f¨ ur β1 = 0. (12.1.91) 1

Dies ergibt sich durch schlichtes Einsetzen der Resultate S˜XY σ ˆ2 n ˜2 2 βˆ1 = 2 , σ ˜β21 = U2 und σ ˆU = S (1 − R2 ) n−2 Y S˜X nS˜X und Umformen u ¨ber s 2 (n − 2) ˆ1 ˜XY nS˜X β S T˜β1 = = 2 2 σ ˜βˆ1 S˜X nS˜Y (1 − R2 ) s √ (n − 2) S˜XY RXY n − 2 = TR . = =p 2) 2 ˜ ˜ (1 − R SX SY 1−R XY

2 Implizit muss hier neben S˜X > 0 allerdings auch S˜Y2 > 0 vorausgesetzt werden. Somit fallen die Testentscheidungen f¨ ur die Testprobleme a), b) und c) gem¨aß den S¨atzen 11.3.8 und 12.2.2 identisch aus. Gleichzeitig wird ersichtlich, dass zum Durchf¨ uhren des Korrelationstests eine bivariate Normalverteilung nicht zwingend notwendig ist. Alternativ gen¨ ugt, dass zwischen den beiden Variablen eine lineare Abh¨angigkeit im Sinne eines einfachen Regressionsmodells besteht.

Spezialfall: Bin¨ arer Regressor • Hintergrund • Ein Merkmal bezeichnet man als dichotom, wenn es nur zwei Werte annehmen kann. Es heißt bin¨ ar , wenn es nur die Werte 0 oder 1 annehmen kann. Ein Spezialfall eines einfachen linearen Regressionsmodells liegt vor, falls der Regressor bin¨ar ist. Solche Regressoren werden h¨ aufig auch als Dummy-Variablen bezeichnet. Eine abh¨angige metrische Variable Y wird dann meist auf ein metrisch kodiertes dichotomes Merkmal, wie beispielsweise Geschlecht (0 = m¨annlich, 1 = weiblich), Rauchverhalten (Nichtraucher = 0, Raucher = 1) oder eine Behandlungsstufe bei einem Experiment (0 = ohne D¨ ungung, 1 = mit D¨ ungung), regressiert. Grunds¨atzlich k¨onnen damit auch nominal skalierte Merkmale als Regressoren verwendet werden. Es stellt sich dabei heraus, dass die Inferenz bez¨ uglich β1 in diesem Modell ¨aquivalent zur Inferenz u ¨ber Erwartungswertdifferenzen (Abschnitte 10.2.3 und 11.2.3) ist. Diese Erkenntnis ist insofern interessant und n¨ utzlich, da auf diese Weise manche Formeln und Interpretationen der

12.1 Einfaches lineares Regressionsmodell

627

vorhergehenden Abschnitte durch die Betrachtung dieses Spezialfalls verst¨andlicher werden k¨onnen. Ansonsten wird man kaum geneigt sein, ein entsprechendes statistisches Problem tats¨achlich u ¨ber eine einfache lineare Regression zu modellieren, sondern die Modellierung u ¨ber Erwartungswertdifferenzen pr¨aferieren. • Interpretation der Regressionskoeffizienten • Ausgehend vom Modell Yi = β0 + β1 Xi + Ui

f¨ ur i = 1, . . . , n

mit bin¨arem Xi erhalten wir in allen Modellen mit Annahme (A1), (A1*) oder (A1**) E(Yi |Xi = 0) = β0

und E(Yi |Xi = 1) = β0 + β1 .

Definieren wir µ0 = E(Yi |Xi = 0)

und µ1 = E(Yi |Xi = 1),

erhalten wir die Beziehungen µ0 = β0

und β1 = µ1 − µ0 .

Folglich ist der Achsenabschnitt als der f¨ ur Xi = 0 geltende Erwartungswert und der Steigungskoeffizient als Erwartungswertdifferenz interpretierbar. Satz 12.1.5: KQ-Sch¨ atzer bei bin¨ arem Regressor 2 > 0. Dann Gegeben sei eine Stichprobe (X1 , Y1 ), . . . , (Xn , Yn ) mit bin¨arem Xi und S˜X gilt: βˆ0 = Y¯0 und βˆ1 = Y¯1 − Y¯0 .

Dabei bezeichnet Y¯0 das (bedingte) Stichprobenmittel aller Yi mit Xi = 0 und Y¯1 das (bedingte) Stichprobenmittel aller Yi mit Xi = 1. In Anbetracht des vorhergehenden Punktes erscheinen die Formeln sehr naheliegend. Die bedingten Erwartungswerte werden mit den korrespondierenden (bedingten) Stichprobenmitteln gesch¨ atzt. Auf den relativ umst¨ andlichen Nachweis verzichten wir. Die Formeln ergeben sich im Rahmen geeigneter Umformungen aus den gew¨ohnlichen Formeln, d.h. ˜ ¯ = · · · = Y¯0 und βˆ1 = SXY = · · · = Y¯1 − Y¯0 . βˆ0 = Y¯ − βˆ1 X S˜2 X

Die Schwierigkeit besteht darin, die entsprechenden Stichprobenmittel als Funktionen der Stichprobenvariablen (X1 , Y1 ), . . . , (Xn , Yn ) darzustellen. • Varianzsch¨ atzer bei bin¨ arem Regressor • Da die KQ-Sch¨atzer sich aus bedingten Stichprobenmitteln ergeben, lehnen sich die korrespondierenden Varianzen an die Formeln f¨ ur die Varianzen von Stichprobenmitteln an. Es gilt:

628

12 Das lineare Regressionsmodell

Satz 12.1.6: Varianzsch¨ atzer bei bin¨ arem Regressor 2 Gegeben sei eine Stichprobe (X1 , Y1 ), . . . , (Xn , Yn ) mit bin¨arem Xi und S˜X > 0. Dann gilt:

(i) σ ˜β2ˆ = 0

ˆβ2ˆ = (ii) σ 0

Sp2 Sp2 Sp2 und σ ˜β2ˆ = + , wobei 1 N0 N0 N1 1 Sp2 = N0 S˜02 + N1 S˜12 ) N0 + N1 − 2

f¨ ur n ≥ 3,

S˜02 S˜2 S˜2 und σ ˆβ2ˆ = 0 + 1 f¨ ur n ≥ 2. 1 N0 N0 N1

Dabei bezeichnet S˜02 die (nichtkorrigierte) Stichprobenvarianz aller Yi mit Xi = 0 und S˜12 die entsprechende Stichprobenvarianz f¨ ur Xi = 1. Die stochastischen Stichprobenumf¨ange N0 und N1 geben die betreffende Anzahl von Nullen bzw. Einsen an. Da die KQ-Sch¨atzer durch ein Stichprobenmittel bzw. eine Differenz zweier Stichprobenmittel gegeben sind, erscheint es klar, dass deren Varianzen u ¨ber die korrespondierenden Stichprobenvarianzen gesch¨ atzt werden, die mit den jeweiligen Gruppenumf¨angen dividiert werden. Auf den l¨ anglichen und umst¨ andlich zu f¨ uhrenden Beweis wird wiederum verzichtet. ¨ • Aquivalenz der Inferenz bez¨ uglich β1 und µ1 − µ0 • Da in den Modellen KN und KS das Konfidenzintervall f¨ ur β1 gegeben ist durch   βˆ1 − tn−2,1−α/2 · σ ˜ ˆ , βˆ1 + tn−2,1−α/2 · σ ˜ˆ , β1

β1

ist dieses aufgrund der vorhergehenden Resultate mit demjenigen f¨ ur µ1 − µ0 von Fall (ii) in Satz 10.2.2 identisch. Die korrespondierende Teststatistik f¨ ur Tests u ¨ber β1 ist mit derjenigen f¨ ur µ1 − µ0 von Fall (ii) in Satz 11.3.2 identisch, d.h. es gilt: T˜β = T˜D f¨ ur β1 = µ1 − µ0 . (12.1.92) 1

Weiter lautet das approximative Konfidenzintervall f¨ ur β1 in Modell BH   βˆ1 − z1−α/2 · σ ˆβˆ1 , βˆ1 + z1−α/2 · σ ˆβˆ1 , Dieses ist mit demjenigen f¨ ur µ1 − µ0 von Fall (iv) in Satz 10.2.2 identisch ist. Die korrespondierende Teststatistik f¨ ur Tests u ur µ1 − µ0 von Fall ¨ber β1 ist mit derjenigen f¨ (ii) in Satz 11.3.2 identisch, d.h. es gilt: Tˆβ = TˆD f¨ ur β1 = µ1 − µ0 . (12.1.93) 1

¨ Aquivalenz der Inferenz bez¨ uglich β1 und µ1 − µ0 Konfidenzintervalle und Teststatistiken sind (i) in den Modellen KN und KS zu denen u ¨ber Erwartungswertdifferenzen bei Normalverteilung und homoskedastischer Varianz identisch,

12.1 Einfaches lineares Regressionsmodell

629

(ii) in Modell BH zu denen u ¨ber Erwartungswertdifferenzen ohne Verteilungsannahme und unbekannter heteroskedastischer Varianz identisch.

• Tests u angen • Da in den ¨ ber µ − µ auch bei stochastischen Gruppenumf¨ Modellen KS und BH der Regressor stochastisch modelliert wird, folgt, dass die Konfidenzintervalle und Teststatistiken f¨ ur Erwartungswertdifferenzen auch bei stochastischen Gruppenumf¨ angen N0 und N1 verwendet werden k¨onnen. In den S¨atzen 10.2.2 und 11.3.2 wurden diese ja als vorgegebene, nichtstochastische Gr¨oßen n0 und n1 modelliert. 2 > 0 vorausgesetzt werden, damit nicht alle x-Werte zuf¨alligerweise Es muss lediglich S˜X gleich sind.

Ad¨ aquatheit bestimmter Modellannahmen • Hintergrund • Wie bereits in den Abschnitten 10.2.5 (Sch¨atzen) und 11.3.5 (Testen) ausf¨ uhrlich besprochen, setzt g¨ ultige Inferenz die Ad¨aquatheit von getroffenen Modellannahmen voraus. Verletzungen f¨ uhren dabei in der Regel zu mehr oder weniger starken Verf¨alschungen vorgegebener Sicherheits- oder Irrtumswahrscheinlichkeiten. Gleichwohl sollte immer wieder bedacht werden, dass Modellannahmen in der Praxis niemals perfekt erf¨ ullt sein k¨ onnen. Geringf¨ ugige Abweichungen k¨onnen toleriert werden und f¨ uhren aus theoretischer Sicht auch meist nur zu geringf¨ ugigen Verf¨alschungen. Im Folgenden werden wir einzelne Punkte in Bezug auf die verschiedenen Ensembles von Annahmen, die wir f¨ ur ein einfaches lineares Regressionsmodell aufgestellt haben, n¨aher beleuchten. • Noch vor den eigentlichen Annahmen: Repr¨ asentativit¨ at • Auch im Regressionsmodell stellt Repr¨ asentativit¨ at, wie sie in Abschnitt 9.2 definiert wurde, eine Grundvoraussetzung vor allen formal fassbaren Annahmen dar. Dabei bezieht sich Repr¨asentativit¨at nun auf die beiden Merkmale einer zweidimensionalen Stichprobe (X1 , Y1 ), . . . , (Xn , Yn ). Der potenzielle Auswahlbereich muss die Grundgesamtheit jetzt in zweidimensionalem Sinne abdecken. Stellen wir uns vor, ein Immobilienexperte m¨ochte den Zusammenhang zwischen Wohnfl¨ache und Nettomiete in einer Stadt untersuchen. Dazu nimmt er sich kurzerhand die Wochenendausgabe der ans¨ assigen Lokalzeitung zur Hand und notiert alle Angebote des Wohnungsmarktes bez¨ uglich Wohnfl¨ ache und Miete. Eine auf solche Weise gewonnene Stichprobe k¨ onnten wir dann als Quasi-Stichprobe erachten (Abschnitt 9.2). Abbildung 12.1.11 illustriert verschiedene (stark stilisierte) Situationen, in denen der potenzielle Auswahlbereich (gestrichelt) die Grundgesamtheit (Dichtekonturen) nicht vollst¨andig abdeckt. Infolgedessen f¨ uhrt dies zu einer mehr oder weniger stark ausgepr¨agten Stichprobenverzerrung . Im Einzelnen k¨onnte man sich dazu folgende Szenarien vorstellen: Situation 1: In der Lokalzeitung werden keine u ¨berdurchschnittlich teuren Wohnungen (bezogen auf die Wohnfl¨ ache) angeboten. Die gesch¨atzte Gerade (grau) h¨atte tendenziell dann einen zu kleinen Achsenabschnitt und w¨ urde demnach zu tief liegen. Die Sch¨atzung des Steigungskoeffizienten k¨ onnte m¨oglicherweise dennoch unverf¨alscht ausfallen.

630

12 Das lineare Regressionsmodell Abb. 12.1.11: Potenzielle Auswahlbereiche und Stichprobenverzerrungen y

y

1

2 x

y

x y

3

4 x

x

Situation 2: Es werden weder besonders teure Wohnungen noch besonders g¨ unstige Wohnungen in der Zeitung angeboten. Damit k¨onnte die gesch¨atzte Gerade immer noch recht sehr pr¨ azise sein, da die Beobachtungen dann mehr zum Durchschnitt hin tendieren. Situation 3: Mit zunehmender Wohnfl¨ ache werden zunehmend nur g¨ unstige Wohnungen angeboten. In diesem Fall h¨ atte die gesch¨atzte Gerade tendenziell eine zu kleine Steigung und einen zu großen Achsenabschnitt. Situation 4: Mit zunehmender Wohnfl¨ ache werden zunehmend nur teure Wohnungen angeboten. In diesem Fall h¨ atte die gesch¨atzte Gerade tendenziell eine zu große Steigung und einen zu kleinen Achsenabschnitt. • Linearit¨ atsannahme • Die Frage, ob zwei Merkmale linear im Sinne von Annahme (A0) abh¨angen oder nicht, sollte prim¨ ar anhand von Fachkenntnissen erfolgen. Ein einfaches Streudiagramm liefert hierzu bereits erste Anhaltspunkte. Jedoch kann der Eindruck aus einem Streudiagramm durchaus auch in die Irre f¨ uhren. So kann ein Zusammenhang (nichtzuf¨ allig) nichtlinear aussehen, obwohl er es ist und umgekehrt. Es ist beispielsweise denkbar, dass der Zusammenhang zwischen einer Einflussgr¨oße X und der abh¨angigen Gr¨oße Y tats¨ achlich linear ist, gleichzeitig X aber mit einer zweiten Einflussgr¨oße Z korreliert ist, welche Y nichtlinear beeinflusst. Infolgedessen k¨onnte das Streudiagramm f¨ ur X und Y eine nichtlineare Struktur aufweisen. Eine solche Konstellation steht in enger Verbindung mit der in Abschnitt 5.3.3 thematisierten Problematik systematischer Verzerrungen von Abh¨ angigkeiten im Mehrvariablenkontext. In einem solchen Fall m¨ usste man die St¨ orung durch Z bemerken und entsprechend beseiti-

12.1 Einfaches lineares Regressionsmodell

631

gen oder in einem erweiterten Modell mit ber¨ ucksichtigen. M¨oglicherweise k¨onnte man das Problem durch Sch¨ atzung eines multiplen Regressionsmodells (Abschnitt 12.2) beheben, in dem Z je nach Art der Nichtlinearit¨at zu Z 2 oder ln(Z) transfomiert wird und dann als weiterer Regressor mit ber¨ ucksichtigt wird. Manchmal bleibt aber tats¨ achlich nur die Wahl einer anderen Art von Regressionsmodell, mit dem sich nichtlineare Abh¨ angigkeiten modellieren lassen. Ein wichtiger Spezialfall liegt beispielsweise vor, falls die abh¨angige Variable Y bin¨ ar ist. Hier erweist sich ein lineares Regressionsmodell als v¨ ollig inoperabel, da mit den u ¨blichen Ensembles von Modellannahmen erhebliche Vereinbarkeitsprobleme entstehen. So kann beispielsweise die Normalverteilungsannahme f¨ ur die Fehler nicht einmal theoretisch erf¨ ullt sein. Gew¨ohnlich greift man dann zu alternativen Modellen wie etwa den Logit- und Pro¨ bitmodellen (Abschnitt 5.3.1). Eine Ubersicht alternativer Regressionsmodelle bieten etwa Fahrmeir et al. [2013] oder Schlittgen [2013]. ¨ Eine Sammlung statistischer Tests zur Uberpr¨ ufung der Linearit¨atsannahme findet sich bei Kr¨amer und Sonnberger [1986]. • Stochastischer oder nichtstochastischer Regressor • Die Frage, ob ein Regressor stochastisch oder nichtstochastisch modelliert wird, ist prim¨ar von theoretischer Relevanz. Wie man beim klassischen Modell sieht ergeben sich f¨ ur die Inferenzverfahren an sich keine rechnerischen Unterschiede. Konfidenzintervalle und Tests sind identisch. Jedoch sollte klar sein, dass g¨ ultige Inferenz theoretisch nur richtig begr¨ undet werden kann, wenn die Annahmen auch zutreffend sind. So impliziert ein nichtstochastischer Regressor beispielsweise eine Stichprobe aus heterogen verteilten Zufallsvariablen. Ohne Normalverteilungsannahme w¨ are es hier ohne Weiteres unzul¨assig mithilfe eines ZGWS f¨ ur ein u.i.v.-Schema eine asymptotische Normalverteilung der KQ-Sch¨atzer zu begr¨ unden. Die Argumentationskette muss insgesamt in sich stimmig sein. Zwingend erforderlich ist es, die Annahme eines nichtstochastischen Regressors fallenzulassen, falls dieser mit (zuf¨alligen) Messfehlern behaftet ist (siehe n¨achster Punkt). • Messfehlerprobleme • In bestimmten F¨ allen k¨onnen die Werte des Regressors nicht genau erfasst, gemessen oder beobachtet werden. Man denke etwa an Befragungen zur pers¨onlichen Einkommenssituationen von Privatpersonen, bei denen stets mit gewissen Abweichungen zwischen tats¨ achlichen und angegebenen Werten zu rechnen ist. Wie sich (theoretisch) zeigen l¨ asst, f¨ uhrt dieser Umstand nachweislich zu asymptotisch verzerrten (systematisch verzerrten) Sch¨ atzungen (vgl. Verbeek [2008, Abschnitt 5.2.2]). ¨ Einen ersten kompakten Uberblick zu diesem Fehler-in-Variablen-Problem oder Messfehlerproblem bietet etwa der Artikel von Stefanski [2000]. Die Besprechung konkreter L¨osungsans¨ atze ist dann Gegenstand fortgeschrittener Lehrb¨ ucher wie etwa Fuller [2006] oder Buonaccorsi [2010]. • Unabh¨ angigkeitsannahme • Zur Pr¨ ufung, ob die Unabh¨angigkeitsannahme ad¨ aquat erscheint oder nicht, beachte man die Ausf¨ uhrungen aus Abschnitt 10.2.5. Insbesondere ist zu beachten, dass diese Annahme bei Zeitreihendaten in aller Regel verletzt ist. Dies bedeutet jedoch nicht automatisch, dass im Kontext von Zeitreihen keine Regressionsmodelle mehr gesch¨ atzt werden k¨ onnen. Viele Verteilungsresultate bleiben auch bei schwacher Abh¨ angigkeit“ erhalten. Die Begr¨ undung solcher Resultate ebenso ”

632

12 Das lineare Regressionsmodell

wie die Ableitung g¨ ultiger Inferenzverfahren sind jedoch Gegenstand weiterf¨ uhrender ¨ Lehrb¨ ucher (etwa auf dem Gebiet der multiplen Zeitreihenanalyse oder Okonometrie). • E(Ui |Xi )=0 und OVB-Problem • Die in allen vorgestellten Modellvarianten geltende Annahme E(Ui |Xi ) = 0 impliziert, dass die Abh¨angigkeit zwischen Y und X im Mittel durch eine theoretische Regressionsgerade (KQ-Gerade) beschrieben werden kann. Alle Resteinfl¨ usse auf die abh¨ angige Variable sollen dann gleichm¨aßig um die ” Gerade herum streuen“. F¨ ur gegebenes X l¨ asst sich also nicht prognostizieren, ob der Resteinfluss insgesamt positiv oder negativ sein wird. In allen Modellvarianten impliziert diese Annahme die Eigenschaft Cov(Xi , Ui ) = E(Xi Ui ) = 0,

(12.1.94)

die sich folgendermaßen deuten bzw. anhand folgender Leitfrage pr¨ ufen l¨asst: Leitfrage f¨ ur das OVB-Problem Gibt es neben dem Regressor X, also der beobachteten Einflussgr¨oße, eine weitere maßgebliche Einflussgr¨ oße auf Y , die mit X korreliert ist? Sofern diese Leitfrage bejaht werden kann, ist Eigenschaft (12.1.94) verletzt und somit auch die Annahme E(Ui |Xi ) = 0. Es l¨ asst sich zeigen, dass die KQ-Sch¨atzer dann asymptotisch verzerrt, d.h. nicht mehr konsistent, sind. Dieses Problem ist auch als sog. OVB-Problem (Omitted-Variable-Bias-Problem) bekannt und steht in sehr en¨ gem Zusammenhang zu den in Abschnitt 5.3.3 durchgef¨ uhrten Uberlegungen zu den systematischen Verzerrungen bei empirischen Abh¨angigkeiten. Im Rahmen der sp¨ateren Fallbeispiele wird die OVB-Problematik anhand konkreter Beispielszenarien besprochen. Die theoretische Fundierung der durch OVB erzeugten Inkonsistenz wird in Abschnitt 12.2 (Satz 12.2.3) nachgeliefert. Man beachte, dass im Falle von Modell KN mit nichtstochastischem heterogen verteiltem Regressor (12.1.94) automatisch erf¨ ullt ist, da ein nichtstochastisches xi mit einer stochastischen Gr¨ oße Ui per se nicht korreliert sein kann. Dies bedeutet jedoch nicht, dass die Leitfrage f¨ ur Modell KN v¨ ollig irrelevant w¨are. Sie muss formal lediglich etwas anders gestellt werden und bezieht sich dann auf die Ad¨aquatheit der durch (12.1.94) implizierten Eigenschaft E(Ui ) = 0, die auch in Modell KN gelten soll. Man beachte hierzu das sp¨ atere Fallbeispiel 1. Das multiple lineare Regressionsmodell stellt einen m¨oglichen L¨osungsansatz f¨ ur das OVB-Problem dar, sofern Y von X und der OVB verursachenden (st¨orenden) Einflussgr¨oße linear abh¨ angt. Das multiple Modell wird sp¨ater in Abschnitt 12.2 eingef¨ uhrt. • E(Ui |Xi )=0, Messfehler- und Endogenit¨ atsproblem • Eigenschaft (12.1.94) ist jedoch auch im Falle anderer prominenter Probleme“ verletzt, die asymptotisch verzerr” te (inkonsistente) Sch¨ atzungen verursachen. Hierzu z¨ahlen insbesondere das Messfehlerproblem und das Endogenit¨ atsproblem. Ersteres wurde zuvor schon kurz besprochen. Letzteres entsteht unter dem Umstand simultaner Kausalit¨ at wie es bereits in Abschnitt 5.3.3 mit Beispielen ausgef¨ uhrt wurde. Simultane Kausalit¨at ist insbesondere in den Wirtschaftswissenschaften ein ¨ außerst relevantes Problem, da makro¨okonomische

12.1 Einfaches lineares Regressionsmodell

633

Gr¨oßen fast durchg¨ angig simultane Abh¨ angigkeiten aufweisen. In einem solchen Kontext kommen in der Regel weit fortgeschrittene statistische (¨okonometrische) Methoden zum Einsatz, die teils dem Gebiet der multiplen Zeitreihenanalyse zugeordnet werden. • Cov(Xi , Ui )=0 l¨ asst sich nicht anhand der KQ-Residuen pr¨ ufen • Die Fehler ˆ Ui d¨ urfen nicht mit den KQ-Residuen Ui gleichgesetzt werden. Die Fehler sind nicht beobachtbar, die KQ-Residuen dagegen schon. Weiter ist eine implizierte Eigenschaft der KQ-Regression, dass die KQ-Residuen mit den x-Werten nicht korreliert sind (Satz 12.1.1 bzw. Resultat (12.1.42)). Aus diesem Grund l¨asst sich Cov(Xi , Ui ) = 0 bzw. E(Ui |Xi ) = 0 niemals anhand der Korrelation zwischen KQ-Residuen und x-Werten u ufen. Abbildung 12.1.12 illustriert diesen Sachverhalt. Das linke Schaubild zeigt ¨berpr¨ die wahre, theoretische KQ-Gerade f¨ ur X und Y , wobei die Fehler mit dem Regressor positiv korreliert sind. Hierzu k¨ onnte man sich ein Szenario wie etwa im sp¨ateren Fallbeispiel 1 vorstellen. Das rechte Schaubild zeigt dann die gesch¨atzte KQ-Gerade (grau). Diese richtet sich an den beobachteten Daten derart aus, dass die KQ-Residuen (die in keiner Weise mit den Fehlern u ¨bereinstimmen!) mit dem Regressor unkorreliert sind. ¨ ¨ Die Uberpr¨ ufung von Cov(Xi , Ui ) = 0 muss sich deshalb auf Uberlegungen im Kopf“ ” in Bezug auf die zuvor aufgestellte Leitfrage des OVB-Problems st¨ utzen. Abb. 12.1.12: Verzerrung durch Korrelation von Regressor und Fehler yi

Cov (X i, U i ) > 0

4

yi

y4 3

y4 3 u4

2

wahr

β0 + β1x 0

1

2

3

4

x4

5

6

^ ^ β0 + β1x

geschätzt

u^4

2

1

−1

^ Cov (X i, U i ) = 0

4

wahr

1

−1

0

1

2

3

xi

4

x4

5

6

xi

Abb. 12.1.13: Scheinbare und tats¨ achliche Heteroskedastizit¨ at yi

−2

8

Scheinbar heteroskedastisch

yi

6

6

4

4

2

2

0

2

4

6

8

10

12

xi

−2

Heteroskedastisch

8

0

2

4

6

8

10

12

xi

634

12 Das lineare Regressionsmodell

¨ • Homoskedastischer oder heteroskedastischer Fehler • Ahnlich wie bei der Pr¨ ufung der Linearit¨ atsannahme sollte sich auch die Pr¨ ufung, ob nun ein Fehler eher homoskedastisch oder heteroskedastisch ist, prim¨ ar auf inhaltliche Fachkenntnisse st¨ utzen. Ein Streudiagramm liefert hierf¨ ur erste Anhaltspunkte, kann aber durchaus auch einen t¨ auschenden Eindruck vermitteln. Abbildung 12.1.13 illustriert zwei (stark stilisierte) Situationen mit jeweils 200 Beobachtungen, die beide zun¨achst f¨ ur einen heteroskedastischen Fehler zu sprechen scheinen. Tats¨ achlich wurde im linken Schaubild jedoch ein Modell mit perfekt homoskedastischem Fehler simuliert. Die T¨auschung ist auf die Verteilung der Regressorwerte zur¨ uckzuf¨ uhren. Im linken Fall sind diese extrem linksschief verteilt mit jeweils 2, 6, 12, 30 und 150 Beobachtungen auf den Tr¨agerpunkten 2, 4, 6, 8 und10. Im rechten Fall sind diese dagegen auf diesen Tr¨agerpunkten diskret gleichverteilt. Im linken Fall werden besonders große und besonders kleine Realisationen f¨ ur gr¨ oßere x-Werte immer wahrscheinlicher. Denn je mehr Beobachtungen aus einer Verteilung gezogen werden, desto gr¨ oßer ist die Wahrscheinlichkeit, dass Minimum und Maximum bestimmte Grenzen u ¨berschreiten. Dadurch entsteht der Eindruck, dass die bedingte Varianz von links nach rechts zunimmt, obwohl sie konstant ist. Dieser Sachverhalt wurde bereits in Beispiel 12.1.3 auf theoretischer Ebene beschrieben. M¨oglicherweise mag man die Entscheidung u ¨ber die Art des Fehlers lieber einem statistischen Test wie etwa dem popul¨ aren White-Test (White [1980]) u ¨berlassen. Eine ¨ Ubersicht zu solchen Heteroskedastizit¨ ats-Tests bieten beispielsweise Kr¨amer und Sonnberger [1986] oder Verbeek [2008]. Wie bereits ausgef¨ uhrt, k¨ onnte man im Falle von Heteroskedastizit¨at auch zur theoretisch effizienteren verallgemeinerten KQ-Methode bei der Sch¨atzung der Regressionskoeffizienten greifen. Allerdings ist deren Umsetzung mit einigen Hindernissen und Umst¨ anden verbunden, sodass man sich h¨aufig weiterhin mit der gew¨ohnlichen KQ-Sch¨ atzung begn¨ ugt, die ja auch unter Heteroskedastizit¨at konsistent bleibt. Bei der Varianzsch¨ atzung f¨ uhrt die f¨alschliche Verwendung der nurhomoskedastizit¨ ats-konsistenten Varianzsch¨ atzer zu inkonsistenten Sch¨atzungen und damit zu verf¨ alschter Inferenz. Die unn¨ otige Annahme von Heteroskedastizit¨at ist hingegen nur mit einem Effizienzverlust bei der Sch¨atzung verbunden. Dies bedeutet, dass die heteroskedastizit¨ ats-robusten Varianzsch¨ atzer unter Homoskedastizit¨at tendenziell gr¨oßere Varianzen besitzen, was zu l¨angeren Sicherheitsintervallen und einer verringerten G¨ ute bei Tests f¨ uhren kann. Insgesamt ist man gut beraten, im Falle von Unsicherheit lieber gleich von Heteroskedastizit¨at auszugehen. • Normalverteilungsannahme • Die Normalverteilungsannahme f¨ ur die Fehler erscheint h¨aufig nur im Kontext experimenteller Designs mit stetig verteilter abh¨angiger Variable realistisch, da hier die Resteinfl¨ usse hochgradig kontrolliert werden. Die f¨alschliche Unterstellung dieser Annahme f¨ uhrt zur Verwendung nicht ad¨aquater Quantile bei der Konstruktion von Konfidenzintervallen oder bei der Ermittlung kritischer Werte von Tests. Vorgegebene Intervalle sind dann entweder zu kurz oder zu lang. Sie sind jedoch stets weiterhin richtig zentriert, da die Erwartungstreue der KQ-Sch¨atzer von dieser Annahme nicht abh¨ angt. Weiterhin sind die KQ-Sch¨atzer (evtl. mit entsprechenden Konvergenzannahmen) auch ohne Normalverteilungsannahme konsistent. Außerdem werden mit wachsendem n Abweichungen von der Normalverteilung aufgrund des ZGWS immer unwichtiger. Selbst in kleineren Stichproben f¨ uhren Abweichungen

12.1 Einfaches lineares Regressionsmodell

635

zu kaum messbaren Unterschieden, sofern die maßgeblichen Verteilungen unimodal und einigermaßen symmetrisch sind. Insbesondere im Rahmen experimenteller Designs und bei gr¨oßeren Stichproben kann mit dieser Annahme deshalb relativ großz¨ ugig umgegangen werden. ¨ Formale Tests zur Uberpr¨ ufung der Normalverteilungsannahme werden im Rahmen ¨ der Regression u hierzu ¨blicherweise auf die KQ-Residuen angewendet. Eine Ubersicht bieten etwa Thadewald und B¨ uning [2007]. • Identisch oder heterogen verteilt • In Modell KN liegt automatisch eine Stichprobe heterogen verteilter Stichprobenvariablen vor. Zur Pr¨ ufung, ob die Annahme identisch verteilter Stichprobenvariablen in den Modellen KS und BH realistisch er¨ scheint, beachte man die beispielshaften Uberlegungen in Abschnitt 10.2.5 sowie das sp¨atere Fallbeispiel 2. • Technische Annahmen • Annahmen wie (A3) oder (K1) und (K2) sind rein tech” nische Annahmen“ mathematischer Natur, welche unter anderem sicher stellen, dass bestimmte Formeln und Ausdr¨ ucke u ¨berhaupt erst definiert sind. Sie sind zumeist nicht von praktischer Relevanz. Man denke hier nur etwa an die Endlichkeit bestimmter Momente. Das Bestreben des Theoretikers ist es, solche Annahmen auf ein minimales Niveau zu reduzieren, sodass bestimmte Aussagen unter gr¨oßtm¨oglicher Allgemeinheit g¨ ultig sind. Dies hat dann h¨ aufig Annahmen zur Folge, deren Zweck und Sinnhaftigkeit sich ohne tiefergehende Auseinandersetzung mit den mathematischen Grundlagen bestimmter Resultate kaum noch erschließen lassen. • Fazit und Empfehlung • Einschließlich der Repr¨asentativit¨at der Stichprobe stellen alle mit der Annahme E(Ui |Xi ) = 0 oder E(Ui ) = 0 in Verbindung stehenden Aspekte die wichtigsten Pr¨ ufsteine dar, da sie bei Verletzung zu ernsthaften Verf¨alschungen (inkonsistenten Sch¨ atzungen) f¨ uhren. In Bezug auf die anderen Annahmen stellt es m¨ oglicherweise eine bessere Strategie dar, zugunsten weniger Annahmen einen gewissen Effizienzverlust in Kauf zu nehmen, anstatt mit zu vielen Annahmen die G¨ ultigkeit der gesamten Inferenz zu riskieren. In dieser Hinsicht stellt Modell BH in Verbindung mit den heteroskedastizit¨atskonsistenten Varianzsch¨ atzern f¨ ur viele F¨ alle in der Praxis, in denen ein u.i.v.Ziehungsschema ad¨ aquat erscheint, eine geeignete Wahl dar. Modell BH ist sowohl unter Homoskedastizit¨ at als auch Heteroskedastizit¨at verwendbar und enth¨alt Modell KS als Spezialfall. Die vorgestellten Inferenzverfahren w¨aren mit Hinzunahme einiger zus¨atzlicher Konvergenzannahmen sogar noch in Modell UHV g¨ ultig, also bei heterogen verteilten Stichprobenvariablen. Dies wiederum w¨ urde Modell KN als Spezialfall enthalten. Mit anderen Worten sind die f¨ ur Modell BH geltenden Inferenzverfahren auch f¨ ur alle anderen Modelle verwendbar. Es muss einzig eine hinreichend große Stichprobe (n ≥ 60) vorliegen. Die f¨ ur Modell BH vorgestellten Konfidenzintervalle und Tests sind auch in Modell KS und unter Hinzunahme zus¨ atzlicher Konvergenzannahmen in den Modellen KN und UHV verwendbar, sofern n ≥ 60.

636

12 Das lineare Regressionsmodell

Fallbeispiel 1: Bew¨ asserung und Wachstum • Hintergrund • Das folgende Fallbeispiel ist fiktiv und soll nur als ausf¨ uhrliche Veranschaulichung dienen, wie ein klassisches Modell diskutiert und angewendet werden kann. Angenommen, ein Botaniker untersucht den Zusammenhang zwischen Bew¨asserungsmenge (in Liter) und Wuchsh¨ ohe (in Meter) einer bestimmten Pflanze. Dazu z¨ uchtet er 5 Exemplare der Pflanze in einem Labor unter identischen Bedingungen an. Lediglich die w¨ ochentliche Bew¨ asserungsmenge w¨ahlt er dabei unterschiedlich und variiert diese zwischen 1 und 5 Liter. Wir nehmen an, dass er auf diesem Niveau Berechtigung zur Annahme eines linearen Zusammenhangs hat. Sein Modellansatz lautet dann Yi = β0 + β1 xi + Ui

f¨ ur i = 1, . . . , 5,

wobei Yi die nach 4 Wochen gemessene Wuchsh¨ohe und xi die festgesetzte w¨ochentliche Bew¨asserungsmenge f¨ ur die i-te Pflanze ist. In die Fehler Ui fließen dann alle restlichen Einfl¨ usse, wie etwa Bodenbeschaffenheit, Temperatur, Licht oder individuelle Merkmale der einzelnen Pflanzen, ein. Abbildung 12.1.14 illustriert das Experiment. • Modell KN: Diskussion der Modellannahmen • Es soll das klassische Modell KN gem¨aß Definition 12.1.2 unterstellt und gesch¨atzt werden. Wie st¨ unde es dann hier ¨ um die Ad¨aquatheit der Modellannahmen? Hierzu einige beispielhafte Uberlegungen. Die Linearit¨ atsannahme (A0) selbst obliegt der fachlichen Beurteilung und Erfahrung des Botanikers. Es sollte klar sein, dass der Zusammenhang lediglich approximativ linear sein kann. Außerdem sollte dieser nur in einem eingeschr¨ankten Bereich der Bew¨asserungsmenge g¨ ultig sein (ab einer bestimmten Menge ers¨auft man schließlich die Pflanze). In Annahme (A1*) stecken gleich mehrere Teilannahmen. So sollen einerseits die Erwartungswerte der Fehler 0 und andererseits ihre Varianzen gleich sein. Außerdem sollen die Fehler unabh¨ angig sein und einer Normalverteilung gen¨ ugen. Im Folgenden diskutieren wir diese Einzelaspekte separat. Wir beginnen mit der ersten und wichtigsten Teilannahme E(Ui ) = 0 f¨ ur i = 1, . . . , n, deren Verletzung zu v¨ollig verzerrten Ergebnissen f¨ uhren kann. Angenommen, der Laborraum verf¨ ugt an der rechten Seite u ¨ber ein Fenster, durch das zumindest tags¨ uber Sonnenlicht einf¨ allt. Die f¨ unf auf einem Tisch aufgereihten Pflanzenexemplare werden nun von links nach rechts mit aufsteigender Bew¨asserungsmenge behandelt (Abb. 12.1.14). W¨ are es bei der vorliegenden Konstellation nun beispielsweise so, dass die weiter rechts platzierten Pflanzen mehr Tageslicht abbekommen als die weiter links stehenden, k¨ onnte dies die Sch¨atzung verzerren. Angenommen mehr Tageslicht h¨atte einen positiven Effekt auf das Wachstum. Dann w¨aren die Behandlungsmengen mit den Realisationen der einzelnen Fehler (in dem ja das Licht enthalten ist) tendenziell positiv korreliert. Der gesch¨ atzte Steigungskoeffizient, d.h. der gemessene Effekt der Bew¨ asserung auf das Wachstum, w¨are dann tendenziell zu groß. Man k¨onnte also erwarten, dass βˆ1 > β1

12.1 Einfaches lineares Regressionsmodell

637

ist. Die Situation w¨ are vergleichbar mit derjenigen in Abbildung 12.1.12. Intuitiv erscheint es einleuchtend, dass sich der Effekt der Bew¨asserungsmenge nicht richtig sch¨atzen l¨asst, wenn gleichzeitig ein anderer Einfluss variiert. W¨are das Fenster unter gleichen Annahmen links platziert, w¨ aren die Realisationen der Fehler mit den Bew¨asserungsmengen tendenziell negativ korreliert. Mit analoger Argumentation w¨ urde dann der Steigungskoeffizient untersch¨ atzt werden, d.h. βˆ1 < β1 gelten. Dabei spielt es keine Rolle, ob die Bew¨asserung nun eine positiven oder einen negativen Effekt auf das Wachstum aus¨ ubt, β1 also positiv oder negativ ist. Formal ist in Modell KN durch diesen Umstand die Eigenschaft Cov(Xi , Ui ) = 0 an sich nicht verletzt, da aufgrund des nichtstochastischen Regressors durchg¨angig Cov(xi , Ui ) = 0

f¨ ur i = 1, . . . , 5

gilt (ein nichtstochastisches xi ist per se mit einem stochastischen Ui nicht korreliert). Deshalb sprechen wir hier formal von den realisierten Gr¨oßen xi und ui und nicht von etwaigen Zufallsvariablen Xi und Ui . F¨ ur nichtstochastische xi w¨are dann allerdings die Annahme E(Ui ) = 0

f¨ ur i = 1, . . . , 5

verletzt. Denn es erschiene dann nicht mehr ad¨aquat, den durchschnittlichen Resteinfluss f¨ ur jede Pflanze als identisch und gleich 0 zu erachten. Hierzu sei bemerkt, dass eine durch das Fenster verursachte Verzerrung durch randomisiertes Platzieren der Pflanzen ein St¨ uck weit h¨ atte verhindert werden k¨ onnen (vgl. hierzu die Anmerkungen in Abschnitt 5.3.3 im Punkt Randomisierung“). Sofern nun vom Fenster jedoch kein ” st¨orender Einfluss ausgeht, ist E(Ui ) = 0 f¨ ur i = 1, . . . , 5 erf¨ ullt, sofern sich alle Resteinfl¨ usse auf dem gew¨ unschten (geplanten) Niveau befinden. W¨are beispielsweise eine konstante Raumtemperatur von 20◦ C vorgesehen, die tats¨achliche Temperatur aber im Durchschnitt zu hoch, so k¨ onnte dies je nach Effektrichtung alle Pflanzen ein St¨ uck weit schneller oder langsamer wachsen lassen. Im Grunde w¨ urde dann E(Ui ) > 0 oder E(Ui ) < 0 f¨ ur i = 1, . . . , 5 gelten. Die gesch¨ atzte KQ-Gerade w¨are also tendenziell zu hoch oder zu tief, d.h. der Achsenabschnitt zu groß oder zu klein. Dabei k¨onnte der Steigungskoeffizient noch relativ unverf¨ alscht gesch¨atzt werden, sofern sich die zu hohe Temperatur bei jeder Pflanze gleich stark auswirken w¨ urde. Allerdings w¨are auch eine gewisse Wechselwirkung zwischen Bew¨asserung und Temperatur denkbar. So k¨ onnte etwa eine h¨ ohere Temperatur bei h¨ oherer Bew¨asserung einen st¨arkeren Effekt aus¨ uben als bei geringerer Bew¨ asserung. In diesem Fall h¨atte dann die falsch eingestellte Raumtemperatur auch eine mehr oder weniger stark verzerrte Sch¨atzung des Steigungskoeffizienten zur Folge. Alternativ k¨ onnte man eine falsch eingestellte Temperatur jedoch auch dahingehend deuten, dass die Versuchsdaten (die Stichprobe) nicht mehr repr¨ asentativ sind. Die Annahme eines homoskedastischen Fehlers erscheint allenfalls approximativ erf¨ ullt. Es k¨onnte durchaus sein, dass bei gleicher Bew¨asserungsmenge die Wuchsh¨ohen bei h¨oherer Menge Wasser st¨ arker schwanken, sofern die Menge einen positiven Effekt auf das Wachstum hat. Die Unabh¨angigkeitsannahme k¨ onnte beispielsweise verletzt sein, sofern die Pflanzen zu dicht nebeneinander platziert w¨ urden und sich gegenseitig beeinflussen. Insge-

638

12 Das lineare Regressionsmodell Abb. 12.1.14: Laborexperiment: Bew¨ asserung und Wuchsh¨ ohe 3

Laborraum 2 yi :

xi :

1

1

2

Lichteinfall

1

2

3

Fenster

4

5

samt erscheint diese Annahme im Rahmen eines kontrollierten Experiments jedoch gut erf¨ ullbar. Die Normalverteilungsannahme als nat¨ urliche Verteilung“ erscheint durchaus rea” listisch, sofern die Resteinfl¨ usse f¨ ur die einzelnen Pflanzen identisch sind. Es sei abschließend bemerkt, dass es hier aufgrund der geringen Anzahl von Beobachtungen eigentlich keine Alternative zu Modell KN gibt, solange man die Anzahl von Beobachtungen (Versuchspflanzen) nicht betr¨ achtlich erh¨oht. Ab etwa n ≥ 60 k¨onnte man dann auch auf Modell BH zugreifen, um etwaige Verletzungen von Annahmen zu umgehen. • Berechnung • Angenommen, die beobachteten Daten (xi , yi ) f¨ ur i = 1, . . . , 5 lauten: (1, 1), (2, 2), (3, 1), (4, 3) und (5, 2). Die KQ-Sch¨atzer f¨ ur Achsenabschnitt und Steigung ergeben sich gem¨aß den Rechnungen in Beispiel 5.2.9 als βˆ0 = 0.9 und βˆ1 = 0.3. Man beachte hierzu auch Abbildung 5.2.18. Den Standardfehler der Regression erh¨alt man aus den KQ-Residuen aus Tabelle 5.2.3: v r u n u 1 X 1 2 t u ˆ = (0.22 + 0.52 + 0.82 + 0.92 + 0.42 ) ≈ 0.7958. SER = n − 2 i=1 i 3 ur die Sch¨ atzung der Fehlervarianz Daraus ergibt sich f¨ 2 σ ˆU = SER2 ≈ 0.6333.

Das Bestimmtheitsmaß erhalten wir aus den Rechnungen in Beispiel 12.1.1 (Beispiel 5.2.9 fortgesetzt) als R2 = 0.3214. Weiter ergibt sich aus Tabelle 5.2.3: n 15 1X 2 55 x ¯= x = = 3, = 11 5 5 i=1 i 5

und

12.1 Einfaches lineares Regressionsmodell

639

n

s˜2X =

1X 2 x −x ¯2 = 11 − 32 = 2. n i=1 i

Daraus resultiert f¨ ur die nur-homoskedastizit¨ ats-konsistenten Varianzsch¨ atzer Pn 1 2 2 x σ ˆ 11 · 0.6333 ≈ 0.6966 und σ ˜β2ˆ = n i=12 i U = 0 n˜ sX 5·2 2 σ ˆU 0.6333 = ≈ 0.0633. 1 n˜ s2X 5·2 Die korrespondierenden Standardfehler der KQ-Sch¨atzer lauten dann folglich q q g βˆ0 ) = σ g βˆ1 ) = σ SE( ˜β2ˆ ≈ 0.8346 und SE( ˜β2ˆ ≈ 0.2516.

σ ˜β2ˆ =

0

1

ur die Standardfehler (standard error ). Dabei steht SE f¨ • Ergebnisse und Interpretation • F¨ ur die Sch¨atzung des Modells KN erh¨alt man gem¨aß den vorhergehenden Berechnungen insgesamt: cohe = W uchsh¨

0.9 (0.83)

+ 0.3 · Wassermenge, (0.25)

R2 ≈ 0.32,

SER ≈ 0.8.

Mit dem 0.975-Quantil der t(3)-Verteilung t3,0.975 ≈ 3.18 ergeben sich die 95%Konfidenzintervalle als [ 0.9 − 3.18 · 0.83, 0.9 + 3.18 · 0.83 ] ≈ [−1.74, 3.54] [ 0.3 − 3.18 · 0.25, 0.3 + 3.18 · 0.25 ] ≈ [−0.50, 1.10]

f¨ ur β0 bzw. f¨ ur β1 .

Da in beiden Konfidenzintervallen jeweils die 0 enthalten ist, folgt sofort, dass beide Regressionskoeffizienten bei einem Niveau von 5% nicht signifikant von 0 verschieden sind. Insbesonderen kann mit diesem Ergebnis also nicht statistisch best¨atigt werden, dass von der Wassermenge eine signifikante Wirkung auf die Wuchsh¨ohe ausgeht. F¨ uhren wir einen einseitigen Test f¨ ur das Testproblem H0 : β1 ≤ 0

vs. H1 : β1 > 0

durch, d.h. testen wir gezielt, ob von der Bew¨asserung ein positiver Effekt ausgeht, verringert sich der kritische Wert auf t3,0.95 ≈ 2.35. Mit der Teststatistik βˆ1 − 0 0.3 = 1.2 ≈ T˜β1 = σ ˜βˆ1 0.25 ergibt sich jedoch weiterhin kein signifikantes Ergebnis. Der p-Wert liegt dabei laut Tabelle A.2 zwischen 0.1 und 0.2. Die Standardabweichung der Wuchsh¨ ohen betr¨agt sY = 0.7. Der SER liegt (aufgrund des kleineren Divisors von 3) mit 0.8 sogar noch dar¨ uber. Die Residualstreuung ist also noch verh¨ altnism¨ aßig groß. Der Erkl¨ arungsgehalt des Modells betr¨agt 32%. Mit Blick auf Abbildung 12.1.4 erscheint das nichtsignifikante Ergebnis nicht sonderlich u altnisse erscheinen auch optisch noch nicht ein¨berraschend. Die Wirkungsverh¨ deutig genug. Der Hauptgrund f¨ ur die Nichtsignifikanz ist die viel zu kleine Stichprobe. W¨ urde man jede der obigen Beobachtungen mengenm¨aßig verdreifachen, erg¨aben sich

640

12 Das lineare Regressionsmodell

zum Niveau 5% bereits signifikante Koeffizienten. Dabei blieben sY und R2 v¨ollig unver¨andert w¨ahrend der SER lediglich auf den Wert 0.66 absinken w¨ urde. 2 Aus R und SER allein l¨ asst sich keine Signifikanzaussage ableiten. Diese Gr¨oßen sind jeweils immer vor dem Hintergrund der Stichprobengr¨oße zu interpretieren. In diesem Zusammenhang beachte man insbesondere Resultat (12.1.91) mit √ rXY 2 T˜β1 = p . n − 2, wobei R2 = rXY 2 1 − rXY Der gleiche Korrelationswert bzw. der gleiche Wert f¨ ur das Bestimmtheitsmaß, f¨ uhrt mit steigendem Stichprobenumfang also zu einer zunehmend signifikanten“ Teststatistik. ”

Fallbeispiel 2: Klassengro ¨ße und Lernerfolg • Hintergrund • Der California-Testscore-Datensatz ist im R-Paket Ecdat mit der Bezeichnung Caschool enthalten und wird auch als wichtiges empirisches Anwendungsbeispiel f¨ ur Modell BH im Lehrbuch von Stock und Watson [2012] verwendet. Er enth¨alt Daten von Sch¨ ulern der 5. Klasse aus einer standardisierten Pr¨ ufung an allen Schulen in Kalifornien, die in den Jahren 1998 und 1999 durchgef¨ uhrt wurde. Dabei wurden f¨ ur alle 420 Schuldistrikte die Durchschnittswerte aller Schulen eines Distrikts gebildet. Erhoben wurden Variablen hinsichtlich der Einzelergebnisse in der Pr¨ ufung, spezifische Merkmale der Schulen sowie sozio-demographische Merkmale der Sch¨ uler. Unter anderem enth¨alt der Datensatz die folgenden Variablen: Merkmal Testergebnis Klassengr¨oße Englisch-Lerner-Anteil

Variable testscr str elpct

Beg¨ unstigten-Anteil

mealpct

Erl¨ auterung Erreichte Punktezahl im Test Anzahl von Sch¨ ulern pro Lehrer Prozentualer Anteil von Sch¨ ulern mit Sprachproblemen Prozentualer Anteil von Sch¨ ulern, die verg¨ unstigtes Mensaessen beziehen

Die Testergebnisse spiegeln in gewisser Weise den Lernerfolg der Sch¨ uler wider. Die Klassengr¨oße sagt etwas u ¨ber das Betreuungsverh¨altnis an den Schulen aus. Den EnglischLerner-Anteil w¨ urde man in Deutschland m¨ oglicherweise als Anteil von Sch¨ ulern mit ” Migrationshintergrund“ interpretieren. Beim Beg¨ unstigten-Anteil handelt es sich um Sch¨ uler, die aufgrund geringer Einkommensverh¨altnisse ihrer Eltern ein Recht auf beg¨ unstigtes Mensaessen haben. Indirekt wird damit also der Anteil sozial benach” teiligter“ Sch¨ uler gemessen. Abbildung 12.1.5 zeigt die Verteilungen der einzelnen Variablen in Form von Histogrammen mit absoluten H¨ aufigkeiten. Abbildung 12.1.16 legt in einer StreudiagrammMatrix die paarweisen Abh¨ angigkeiten offen. Wie wir sehen sind die einzelnen Variablen mehr oder weniger stark untereinander korreliert. Die korrespondierende Korrelationsmatrix lautet testscr str elpct mealpct

testscr 1.0000 -0.2264 -0.6441 -0.8688

str -0.2264 1.0000 0.1876 0.1352

elpct -0.6441 0.1876 1.0000 0.6531

mealpct -0.8688 0.1352 0.6531 1.0000

12.1 Einfaches lineares Regressionsmodell

641

Angenommen, man m¨ ochte nun untersuchen, ob es sich lohnt mehr Lehrer einzustellen, um den Lernerfolg der Sch¨ uler zu verbessern. In diesem Zusammenhang interessiert die Frage, ob die Klassengr¨ oße an sich u ¨berhaupt einen Einfluss hat oder nicht. Der grunds¨atzliche Modellansatz laute dabei zun¨ achst einmal Yi = β0 + β1 Xi + Ui

f¨ ur i = 1, . . . , 420,

wobei Yi das (durchschnittliche) Testergebnis und Xi die (durchschnittliche) Klassengr¨oße im i-ten Distrikt ist. • Modell BH: Diskussion der Modellannahmen • Es soll Modell BH gem¨aß Definition 12.1.4 unterstellt und gesch¨ atzt werden. Wie steht es hier um die Ad¨aquatheit der einzelnen Modellannahmen? Die Linearit¨ atsannahme (A0) scheint bei Betrachtung des Streudiagramms zwischen Testergebnis und Klassengr¨ oße in Ordnung zu gehen. Es ist auf jeden Fall kein augenf¨alliges nichtlineares Muster erkennbar. Im Hinblick auf Annahme (A1) stellen wir die Leitfrage f¨ ur das OVB-Problem: Gibt es neben dem Regressor X, also der beobachteten Einflussgr¨ oße, eine weitere maßgebliche Einflussgr¨ oße auf Y , die mit X korreliert ist? Wir sehen, dass die Klassengr¨oße sowohl mit dem Englisch-Lerner-Anteil als auch mit dem Beg¨ unstigten-Anteil positiv korreliert ist. Die Korrelation liegt zwar jeweils unter 0.2 ist jedoch aufgrund der relativ großen Stichprobe von n = 420 hoch signifikant. Gleichzeitig sind diese beiden Variablen mit −0.64 und −0.87 relativ stark mit dem Testergebnis korreliert. Gerade auch vor dem Hintergrund der in Deutschland immer wieder kritisierten Situation, dass die schulischen Erfolge von Sch¨ ulern sehr stark vom sozialen Hintergrund des Elternhauses bestimmt werden, erscheint es hier auch ohne Expertenwissen naheliegend, auf eine kausale Abh¨ angigkeit zu schließen. In diesem Fall w¨are die OVB-Leitfrage also deutlich zu bejahen und Annahme (A1) verletzt. Blenden wir zur n¨aheren Betrachtung einmal den Beg¨ unstigten-Anteil aus und betrachten nur das Verh¨altnis zwischen Testergebnis, Klassengr¨ oße und Englisch-Lerner-Anteil. Die Klassengr¨oße ist positiv mit dem Englisch-Lerner-Anteil korreliert. Diesem wiederum unterstellen wir (naheliegenderweise) einen negativen Effekt auf das Testergebnis. In einem einfachen linearen Regressionsmodell mit der Klassengr¨ oße als Regressor, w¨are dieser mit dem Fehler folglich negativ korreliert. Dies liegt daran, dass der Resteinfluss mit wachsender Klassengr¨oße zunehmend negativ wird. Infolgedessen w¨ urde man den Steigungskoeffizienten, sprich den Effekt der Klassengr¨ oße, tendenziell untersch¨atzen. Tendenziell w¨ urde also gelten: βˆ1 < β1 . W¨are der Effekt der Klassengr¨ oße an sich negativ, so w¨are der gesch¨atzte Effekt tendenziell st¨arker (negativer). W¨ are der Effekt der Klassengr¨oße hingegen positiv (wovon wohl eher nicht auszugehen ist), w¨ are der gesch¨atzte Effekt tendenziell schw¨acher. Dies folgt ganz der Logik der in Abschnitt 5.3.3 skizzierten Mechanik systematisch verzerrter Abh¨angigkeiten. Eine etwas formalere Begr¨ undung findet sich sp¨ater in Abschnitt 12.2.2 (Satz 12.2.3). Insgesamt erscheint es hier also nicht plausibel, den Effekt der Klassengr¨oße richtig sch¨atzen zu k¨ onnen, solange gewisse soziodemographische Merkmale nicht ber¨ ucksichtigt werden. Im Hinblick auf Annahme (A2) ist zu bedenken, dass es sich bei den Daten um keine reale Stichprobe (Abschnitt 9.2) handelt. Vielmehr wurde eine Totalerhebung f¨ ur

642

12 Das lineare Regressionsmodell Abb. 12.1.15: Empirische Verteilung einzelner Variablen Testergebis

Englisch−Lerner−Anteil 200

100

60 40 20 600

640

150 100

50

680

Punkte

0

14

18

22

26

Anzahl von Schülern

50 0

Begünstigten−Anteil 100

abs. Häufigkeit

250

abs. Häufigkeit

80

0

Klassengröße 150

abs. Häufigkeit

abs. Häufigkeit

100

0

20 40 60 80

%

80 60 40 20 0

0 20

60

%

100

alle Schulen in Kalifornien durchgef¨ uhrt. Die Daten k¨onnen jedoch als Realisation einer hypothetischen Stichprobe aufgefasst werden. Schließlich ergeben sich die Werte der einzelnen Variablen zuf¨ allig (sind nicht mit Sicherheit vorhersagbar) und stellen insofern eine Stichprobe aus einem u ¨bergeordneten Potential an M¨oglichkeiten (hypothetische Grundgesamtheit) dar. Man k¨ onnte die vorliegende Situation in etwa mit der in Abbildung 12.1.1 (Gr¨ oßen und Gewichte verschiedener Studentenkohorten) vergleichen. In dieser Vorstellung generiert das kalifornische Schulsystem gleichsam wie ein Zufallsgenerator jedes Jahr nach dem gleichen stochastischen Modell neue Ergebnisse. Abb. 12.1.16: Paarweise empirische Abh¨ angigkeit der Variablen 660

700

0

20

40

60

80

80

620

80

0

40

Begünst.−Anteil

14 18 22 26

0

40

E.−Lerner−Anteil

680

Klassengröße

620

Testergebnis 14

18

22

26

0

20 40 60 80

Die Pr¨ ufung der in (A2) enthaltenen Unabh¨angigkeitsannahme erfordert n¨aheres Expertenwissen. W¨ are es etwa so, dass im gr¨oßeren Stil distrikt¨ ubergreifende Kooperationen einzelner Schulen bestehen, so k¨ onnten bestimmte Variablen miteinander korrelieren. V¨ollige Unabh¨ angigkeit mag sicherlich ausgeschlossen werden. Die in (A2)

12.1 Einfaches lineares Regressionsmodell

643

enthaltene Annahme identisch verteilter Variablen, erscheint jedoch unrealistisch. Dies w¨ urde etwa bedeuten, dass a priori die Testergebnisse f¨ ur alle Distrikte in gleicher Weise nicht vorhersagbar sind. Realistischer erscheint jedoch, dass jeder Schuldistrikt ein eigenes relativ konstantes Niveau in Bezug auf die einzelnen Variablen aufweist. So wird ein Schuldistrikt, der im letzten Jahr einen u ¨berdurchschnittlich hohen EnglischLerner-Anteil besaß, einen solchen auch im aktuellen Jahr und im n¨achsten Jahr haben. ¨ Ahnliches sollte auch f¨ ur andere Variablen gelten. Somit w¨are ein u.h.v.-Schema deutlich ad¨ aquater. Hier kommt uns jetzt zugute, dass die Inferenz unter Modell BH und unter Modell UHV identisch ist. Die f¨ ur Modell UHV zus¨atzlich erforderlichen Konvergenzannahmen w¨aren rein technischer Natur und bes¨aßen im vorliegenden Beispiel keine praktische Relevanz. Dies w¨ are allenfalls der Fall, wenn beispielsweise in aufeinanderfolgenden Jahren die Stichprobe st¨ andig erh¨ oht w¨ urde. In diesem Fall m¨ usste dies dann so erfolgen, dass die Mischungsverh¨ altnisse der heterogenen Bestandteile gewahrt bleiben. So sollte etwa der Anteil von Distrikten mit hohem Englisch-Lerner-Anteil in der Stichprobe nicht st¨ andig schwanken, sondern stabil bleiben. Bei nicht stabilen oder sich stabilisierenden Gegebenheiten ginge schließlich auch die Interpretierbarkeit einzelner Parameter verloren. ¨ Uber die G¨ ultigkeit von Annahme (A3) braucht man sich im vorliegenden Fall keine Sorgen zu machen. Die Endlichkeit bestimmter Momente ist im empirischen Fall naturgegeben. Varianzen von 0 sollten f¨ ur die in Betracht gezogenen Variablen ohnehin unrealistisch sein. • Berechnung • Sofern man sich entgegen obiger Feststellungen bez¨ uglich Annahme (A1) dennoch zur Sch¨ atzung des einfachen linearen Regressionsmodells entschließt, k¨ onnen die KQ-Sch¨ atzer auf die gleiche Weise wie in Beispiel 5.2.9 berechnet werden. Bei 420 Beobachtungen wird man dies nat¨ urlich nicht mehr h¨andisch bewerkstelligen, sondern rechnergest¨ utzt mithilfe einer geeigneten Software. Das Gleiche gilt f¨ ur alle anderen Statistiken, insbesondere f¨ ur die relativ umst¨andlich zu berechnenden Standardfehler. Speziell im Zusammenhang der Software R sei hier auf das Zusatzpaket sandwich verwiesen, mit dem sich die heteroskedastizit¨ ats-konsistenten Standardfehler berechnen lassen. Wir sehen keinen Sinn darin, hier l¨angliche von-Hand-Berechnung ex¨ emplarisch durchzuexerzieren, auch wenn derartige Ubungen“ das Formelverst¨andnis ” steigern k¨onnen. F¨ ur die Sch¨ atzung von Modell BH ergeben sich folgende Ergebnisse: βˆ0 ≈ 698.93, βˆ1 ≈ −2.28, SER ≈ 18.58, R2 ≈ 0.05, σ ˆβ2ˆ ≈ 106.91,

σ ˆβ2ˆ ≈ 0.27.

0

1

Die korrespondierenden Standardfehler der KQ-Sch¨atzer lauten dann folglich q q d βˆ0 ) = σ d βˆ1 ) = σ ˆβ2ˆ ≈ 10.34 und SE( ˆβ2ˆ ≈ 0.52 SE( 0

1

• Ergebnisse und Interpretation • Die einzelnen Ergebnisse lassen sich insgesamt wieder in folgender Standardform zusammenfassen: T estd ergebnis =

693.93 (10.34)

−2.28 · Klassengr¨ oße, (0.52)

R2 ≈ 0.05,

SER ≈ 18.58

644

12 Das lineare Regressionsmodell

Mit dem 0.975-Quantil der Standardnormalverteilung z0.975 ≈ 1.96 ergeben sich die 95%-Konfidenzintervalle als [698.93 − 1.96 · 10.36, 698.93 + 1.96 · 10.36] ≈ [678.62, 719.24] f¨ ur β0 bzw. [−2.28 − 1.96 · 0.52, −2.28 + 1.96 · 0.52] ≈ [−3.30, −1.26] f¨ ur β1 . Da beide Konfidenzintervalle jeweils die 0 ausschließen, sind beide Regressionskoeffizienten bei einem Niveau von 5% signifikant von 0 verschieden. F¨ uhren wir einen einseitigen Test f¨ ur das Testproblem H0 : β1 ≥ −2

vs. H1 : β1 < −2

durch, d.h. testen wir, ob der Steigungskoeffizient signifikant kleiner als −2 ist, erhalten wir als Wert der Teststatistik βˆ1 − (−2) −0.28 tˆβ1 =−2 = ≈ ≈ −0.54. σ ˆβˆ1 0.52 Testen wir H0 : β1 ≥ −1

vs. H1 : β1 < −1

ergibt sich βˆ1 − (−1) −1.28 tˆβ1 =−1 = ≈ ≈ −2.46. σ ˆβˆ1 0.52 Der f¨ ur beide F¨alle zum Niveau 5% g¨ ultige kritische Wert z0.05 ≈ −1.64 wird folglich nur in letzterem Fall unterschritten, d.h. tˆβ1 =−2 > −1.64 und tˆβ1 =−1 < −1.64. Demnach ist die Steigung signifikant kleiner als −1 aber nicht signifikant kleiner als −2. Der korrespondierende p-Wert betr¨ agt dabei laut Tabelle A.1 etwa 0.007. Wohlgemerkt ist die −1 auch nicht im 0.95-Konfidenzintervall f¨ ur −1 enthalten, die −2 jedoch schon. Allerdings ist bei dieser Feststellung zu beachten, dass das Intervall eigentlich nur direkt mit den Ergebnissen der zweiseitigen Tests korrespondiert. Die Standardabweichung der Testergebnisse betr¨agt sY ≈ 19.05. Der SER liegt mit 18.58 nicht wesentlich darunter. Dies bedeutet, dass sich unter Kenntnis der Klassengr¨oße das Testergebnis (innerhalb eines Distrikts) nicht wesentlich besser prognostizieren l¨asst als ohne deren Kenntnis. Angesichts des sehr niedrigen Werts von nur 5% f¨ ur das Bestimmtheitsmaß mag dies nicht sonderlich u ¨berraschen. Es ist hier gewisse Vorsicht und Differenziertheit bei der Formulierung von Aussagen geboten. Die Klassengr¨ oße mag zwar nicht viel in Bezug auf die Streuung der Testergebnisse erkl¨ aren, ihr Erkl¨ arungsbeitrag ist dennoch signifikant, d.h. statistisch nicht zuf¨allig“. Die Klassengr¨ oße hat nachweislich einen Einfluss, zumindest sofern man ” Modell BH als g¨ ultig akzeptiert. Demnach bewirkt eine um 1 Sch¨ uler gr¨oßere Klasse ein um durchschnittlich 2.28 Punkte schlechteres Testergebnis. Oder anders ausgedr¨ uckt, w¨ urden die Testergebnisse bei einer um 5 Sch¨ uler gr¨oßeren Klasse bereits um mehr als 10 Punkte sinken. In Bezug auf das Konfidenzintervall f¨ ur β1 ist die betragsm¨aßige Effektst¨arke nach unten hin durch den Wert 1.26 abgesichert. Eine um 5 Sch¨ uler gr¨oßere Klasse sollte mit hoher Wahrscheinlichkeit“ also um mindestens 5 · 1.26 = 6.3 Punkte ” schlechter abschneiden.

12.1 Einfaches lineares Regressionsmodell

645

Aufgrund der vorhergehenden Diskussion zu einem m¨oglichen OVB-Problem in Bezug auf den Englisch-Lerner-Anteil oder den Beg¨ unstigten-Anteil, k¨onnte man nun den Zusammenhang zwischen Klassengr¨ oße und Testergebnis in homogeneren Untergruppen sch¨atzen. Dieser L¨ osungsansatz wurde bereits in Abschnitt 5.3.3 vorgestellt und stellt ein probates Mittel gegen systematische verzerrte Abh¨angigkeiten dar, sofern gen¨ ugend Beobachtungen zur Untergliederung in Teilgruppen vorliegen. Abbildung 12.1.16 zeigt im linken Schaubild zun¨ achst das Ergebnis der obigen Sch¨atzung f¨ ur alle 420 Beobachtungen. Im rechten Schaubild wurden die Beobachtungen in zwei homogenere Untergruppen in Bezug auf den Beg¨ unstigten-Anteil eingeteilt, die mit unterschiedlichen Farben versehen sind. Den Englisch-Lerner-Anteil blenden wir zur Vereinfachung im Folgenden aus. Die obere Untergruppe (schwarz) besteht aus Distrikten, bei denen der Beg¨ unstigten-Anteil jeweils unter 40% liegt. In der unteren Gruppe (grau) liegt dieser Anteil entsprechend bei mindestens 40%. F¨ ur beide Gruppen wurde nun jeweils separat Modell BH gesch¨ atzt. Wir sehen, dass sich die beiden Geraden auf v¨ollig unterschiedlichem Niveau befinden. Bei einer durchschnittlichen Klassengr¨oße von etwa 20 Sch¨ ulern betr¨agt der Abstand der beiden Geraden fast 30 Punkte. Man beachte, dass f¨ ur einen solchen Unterschied eine Klasse um etwa 13 Sch¨ uler vergr¨oßert bzw. verkleinert werden m¨ usste, was in den meisten F¨ allen praktisch unm¨oglich sein d¨ urfte. Insofern sehen wir, dass der soziale Hintergrund wesentlich mehr Erkl¨arungsgehalt f¨ ur die Variation der Testergebnisse enth¨ alt als die Klassengr¨ oße. Dies ist nat¨ urlich auch schon deutlich in den Streudiagrammen von Abbildung 12.1.16 zu erkennen. Zwischen dem Beg¨ unstigtenAnteil und dem Testergebnis ist ein sehr stark ausgepr¨agtes lineares Muster erkennbar. Der Effekt der Klassengr¨ oße wird in den beiden homogenisierten Untergruppen verschieden eingesch¨atzt. So betr¨ agt der Steigungskoeffizient in der oberen Gruppe −2.46 und in der unteren Gruppe −1.27. In beiden F¨allen ist der Koeffizient zum Niveau 5% signifikant von 0 verschieden. Die beiden unterschiedlichen Steigungen k¨onnten darauf hindeuten, dass sich im Falle geringerer sozialer Hintergrundprobleme“ eine Verkleine” rung der Klasse st¨ arker auswirkt als bei gr¨ oßeren sozialen Hintergrundproblemen“. In ” diesem Fall w¨ urde eine sog. Wechselwirkung zwischen der Klassengr¨oße und den beiden soziodemographischen Merkmalen als Einflussgr¨oßen f¨ ur den Lernerfolg bestehen. Abb. 12.1.17: Zusammenhang von Klassengr¨ oße und Testergebnis Unbedingter Zusammenhang

Bedingter Zusammenhang

Testergebnis

720 700 680 660 640 620 600

Testergebnis

720 700 680 660 640 620 600 10

15

20 Klassengröße

25

30

10

15

20

25

30

Klassengröße

Dieses Fallbeispiel findet im n¨ achsten Abschnitt eine Fortsetzung. Dabei werden wir mit der multiplen Regression einen alternativen und sehr g¨angigen L¨osungsansatz f¨ ur das OVB-Problem erhalten.

646

12 Das lineare Regressionsmodell

12.2 Einfu ¨ hrung in das multiple lineare Regressionsmodell Mithilfe der partiellen Regression lassen sich st¨orende Effekte dritter Einflussva¨ riablen linear herausrechnen. Aquivalent dazu kann auch eine multiple Regression berechnet werden. Im Rahmen des multiplen linearen Regressionsmodells k¨ onnen dann theoretisch fundierte Regeln u ¨ber St¨arke und Richtung systematischer Verzerrungen getroffen werden. Dabei lassen sich totale Effekte in direkte und indirekte Effekte zerlegen. Nicht zuletzt steht im multiplen Modell der gesamte Methodenapparat der induktiven Statistik zur Verf¨ ugung.

12.2.1 Partielle lineare KQ-Regression Empirische partielle Regression • Hintergrund • Bereits in Abschnitt 5.3.3 wurde aufgezeigt, wie im Mehrvariablenkontext empirische Abh¨ angigkeiten zwischen verschiedenen Variablen, die in einem kausalen Zusammenhang zueinander stehen, systematisch verzerrt werden k¨onnen. Im Rahmen des Regressionsmodells hat dieses Problem eine besondere Relevanz in Bezug auf die Annahme E(Ui |Xi ) = 0

bzw.

E(Ui ) = 0,

das als OVB-Problem bekannt ist und zu verzerrten (inkonsistenten) Sch¨atzungen der KQ-Geraden f¨ uhrt. Dies wurde anhand zweier Fallbeispiele am Ende des vorhergehenden Abschnitts detailliert ausgef¨ uhrt. Eine einfache und verst¨andliche M¨oglichkeit das OVB-Problem in den Griff zu bekommen, besteht darin, den Zusammenhang in homogeneren Untergruppen unter weitgehender Konstanz der st¨orenden Variablen zu untersuchen. Hierzu beachten man etwa Beispiel 5.3.4 oder Fallbeispiel 2 aus dem vorhergehenden Abschnitt. Dieser L¨ osungsansatz erweist sich bei geringer Beobachtungsanzahl jedoch h¨aufig als wenig praktikabel. Die geringere Anzahl von Beobachtungen in den Einzelgruppen f¨ uhrt zudem zu gr¨ oßerer Unsicherheit beim Sch¨atzen und geht mit einem G¨ uteverlust beim Testen einher. Durch die separierte Untersuchung in einzelnen Untergruppen der Daten wird eine Studie außerdem sehr schnell aufgebl¨aht und un¨ ubersichtlich. Ziel dieses Abschnitts wird es sein, das multiple lineare Regressionsmodell als weiteren L¨osungsansatz f¨ ur das OVB-Problem zu motivieren. Dabei werden wir uns diesem Modell u ¨ber die Methode der partiellen Regression n¨ahern. Der Vorteil dieser Methode besteht darin, dass auf aufwendige Teilanalysen in Untergruppen der Daten verzichtet werden kann. Stattdessen wird die st¨orende OVB-verursachende Variable unter Beibehaltung aller Beobachtungen linear herausgerechnet“. Wie das ge” nau funktioniert, soll anhand des nachfolgenden Beispiels demonstriert werden. Danach wird sich zeigen, dass diese Technik a ¨quivalent und schneller auch u ¨ber eine multiple Regression ausgef¨ uhrt werden kann. • Beispiel 12.2.1: Empirische partielle Regression • Eine Sprachschule bietet Vorbereitungskurse f¨ ur einen Sprachtest an. Tabelle 12.2.1 gibt Aufschluss u ¨ber 8 Sch¨ uler, die ein halbes Jahr an den Kursen teilgenommen haben. Darin enthalten sind

12.2 Einf¨ uhrung in das multiple lineare Regressionsmodell

647

die w¨ochentliche Anzahl der Unterrichtsstunden (S ), das Abschneiden im Eingangstest der Sprachschule (ET ) und das letztliche Abschneiden im Sprachtest (ST ) nach Absolvierung des Sprachkurses. Angenommen, das Ziel einer internen Studie sei es herauszufinden, ob und wie stark sich zus¨ atzliche Nachhilfestunden in der Punktezahl des Sprachtests bemerkbar machen. Tabelle 12.2.1: Nachhilfeunterricht an einer Sprachschule Sch¨ uler

Stundenzahl

1 2 3 4 5 6 7 8

4 4 3 3 2 2 1 1

Punkteanzahl im Eingangstest 190 280 300 410 420 490 510 630

Punkteanzahl im Sprachtest 52 66 58 77 70 91 81 95

Abbildung 12.2.1 zeigt die wechselseitigen Abh¨angigkeiten der einzelnen Variablen. Die korrespondierende Korrelationsmatrix dazu lautet ST S ET

ST 1.0000 -0.7887 0.9444

S -0.7887 1.0000 -0.9273

ET 0.9444 -0.9273 1.0000

Anhand der empirischen Korrelationen kann man folgende Feststellungen machen: 1. Je besser ein Sch¨ uler im Eingangstest abschneidet, desto weniger Nachhilfe nimmt er. 2. Je besser ein Sch¨ uler im Eingangstest ist, desto besser ist er im Sprachtest. 3. Je mehr Nachhilfestunden ein Sch¨ uler nimmt, desto schlechter ist er im Sprachtest. Der erste Sachverhalt erscheint insofern plausibel, dass Sch¨ uler, die bereits gute Vorkenntnisse mitbringen, weniger Nachhilfe n¨ otig haben, um auf ein bestimmtes gefordertes Mindestniveau zu gelangen. Auch der zweite Sachverhalt mag einleuchten. Sch¨ uler, die zu Beginn bereits besser waren als andere, sind dies auch am Ende. Der dritte Sachverhalt sollte f¨ ur die Sprachschule allerdings alarmierend sein. Bei Unterstellung von Modell KN erh¨alt man dazu: d Sprachkentnisse = 98.75 − 10.0 · Stundenzahl, (8.71) (3.18)

R2 ≈ 0.62,

SER ≈ 10.06.

Demnach geht jede Stunde mehr an Nachhilfe im Durchschnitt mit 10 Punkten weniger im Sprachtest einher, wobei dieser Effekt signifikant ist. Der p-Wert des zweiseitigen Tests liegt bei 0.02. Ist der Nachhilfeunterricht also kontraproduktiv?

648

12 Das lineare Regressionsmodell Abb. 12.2.1: Nachhilfeunterricht an einer Sprachschule 60

70

80

90

200

300

400

500

600 600

Eingangstest

500 400 300 200

4.0 3.5 3.0 2.5 2.0 1.5 1.0

Stundenzahl

90 80

Sprachtest

70 60 1.0 1.5 2.0 2.5 3.0 3.5 4.0

Tats¨achlich k¨ onnen wir hier eine systematische Verzerrung durch ein OVB-Problem vermuten. In der Variablen ET sind individuelle Merkmale der Sch¨ uler wie etwa Vorkenntnisse oder Begabung enthalten, die jenseits des Nachhilfeunterrichts, das Abschneiden im Sprachtest zu erkl¨ aren verm¨ ogen. Je besser die Ausgangsbedingungen f¨ ur einen Sch¨ uler sind, d.h. je h¨ oher seine Punktezahl im Eingangstest ist, desto besser schneidet er am Ende im Sprachtest ab. Gleichzeitig ist ET mit der Stundenzahl jedoch negativ korreliert. Damit kann die OVB-Leitfrage Gibt es neben dem Regressor X, also der ” beobachteten Einflussgr¨ oße, eine weitere maßgebliche Einflussgr¨ oße auf Y , die mit X korreliert ist?“ bejaht werden. Werfen wir nun einen genaueren Blick auf Tabelle 12.2.1. Vergleichen wir jeweils immer nur Sch¨ uler mit ¨ ahnlichem Eingangsniveau, d.h. bilden wir homogene Untergruppen, erkennen wir schnell, dass sich eine h¨ohere Stundenzahl positiv auswirkt. Wir k¨ onnen hier drei kleine Gruppen bzw. Paare bilden: Die Sch¨ uler 2 und 3, die Sch¨ uler 4 und 5 und die Sch¨ uler 6 und 7. Innerhalb dieser Gruppen (Paare) schneiden jeweils immer diejenigen Sch¨ uler besser ab, welche die h¨ohere Stundenzahl an Nachhilfe genommen haben. Mit anderen Worten: Bedingen wir auf dem Eingangsniveau, ist ein positiver Effekt des Nachhilfeunterrichts von 8, 7 bzw. 10 Punkten Unterschied feststellbar. Das Eingangsniveau erkl¨ art hier zum Großteil das Abschneiden im Sprachtest. Ein Sch¨ uler der also eingangs relativ gut ist, ist es hinterher auch noch. Ein Sch¨ uler, der relativ schlecht im Eingangstest abschneidet, nimmt zwar mehr Nachhilfestunden, diese haben jedoch keinen so großen Effekt, dass er damit einen anf¨anglich besseren Sch¨ uler am Ende u onnte. Jeder Sch¨ uler verbessert sich durch die Nachhilfe sozusagen ¨bertreffen k¨ nur innerhalb seines eigenen Leistungsniveaus.

12.2 Einf¨ uhrung in das multiple lineare Regressionsmodell

649

Durch die Nichtber¨ ucksichtigung von ET wird der empirische Zusammenhang zwischen S und ST systematisch verzerrt. Mit den Merkregeln aus Abschnitt 5.3.3 erh¨alt man aus einem positiven direkten Effekt von ET auf ST und einer negativen Korrelation zwischen S und ET zun¨ achst einmal einen negativen indirekten Effekt von S u ¨ber ET auf ST. Zusammen mit einem positiven direkten Effekt von S auf ST spiegelt damit der Totaleffekt von S auf ST den direkten Effekt nicht mehr korrekt wider, sondern ist verzerrt im Sinne einer Kompensation, d.h. βˆ1 < β1 . ¨ Im vorliegenden Fall f¨ uhrt dies sogar zum Extremfall einer Vorzeichenverkehrung (Uberkompensation). Eine zur Bildung homogener Untergruppen alternative Methode zum Umgang mit systematischen Verzerrungen besteht darin, den Einfluss der (st¨orenden) Einflussgr¨oße (hier ET ) linear herauszurechnen. Dies sei im Folgenden anhand des vorliegenden Beispiels ausgef¨ uhrt. Abb. 12.2.2: Lineares Herausrechnen von ET aus ST und S Bereinige ST von ET 6 4

2 1

8

7

5 3

Bereinige S von ET

5 Stundenzahl

Sprachtest

100 90 80 70 60 50 40

4

1

3

2 3

2

4 5

1

7

0 100

200

300

400

500

600

6

100

200

Eingangstest

300

400

500

8 600

Eingangstest

Abb. 12.2.3: Partieller Regressionsplot von S und ST unter ET ^ 15 ST − ST 10

6

5

2

1

0

7

−5

5

4

8

3

−10 −1.0

−0.5

0.0

0.5

1.0 ^ S−S

Abbildung 12.2.2 zeigt den Zusammenhang zwischen ET und ST und zwischen ET und S. In beiden Streudiagrammen wurden die Beobachtungswerte zur Identifikation der einzelnen Sch¨ uler durchnummeriert. F¨ ur beide Zusammenh¨ange wurde dann jeweils eine KQ-Gerade berechnet. Unter linearem Herausrechnen verstehen wir jeweils die

650

12 Das lineare Regressionsmodell

Extraktion der KQ-Residuen. Denn diese reflektieren jeweils, inwieweit ein Sch¨ uler bezogen auf sein Eingangsniveau u ¨ber dem Durchschnitt oder unter dem Durchschnitt liegt. So bedeutet ein positives Residuum im rechten Schaubild, dass ein Sch¨ uler bezogen auf sein Eingangsniveau u ¨berdurchschnittlich viele Nachhilfestunden genommen hat. Ein negatives Residuum bedeutet, dass ein Sch¨ uler bezogen auf sein Eingangsniveau unterdurchschnittlich viel Nachhilfe genommen hat. Die Durchschnittsbetrachtung ist dabei immer auf die berechnete KQ-Gerade bezogen. Damit k¨onnen die KQ-Residuen als von ET bereinigte Werte interpretiert werden, wobei der Einfluss von ET sozusagen linear herausgerechnet wurde. V¨ ollig Analog verh¨ alt es sich im linken Schaubild. Ein positives Residuum bedeutet hier, dass ein Sch¨ uler bezogen auf sein Eingangsniveau u ¨berdurchschnittlich im Sprachtest abgeschnitten hat. Ein negatives Residuum entspricht dagegen einem unterdurchschnittlichen Ergebnis. Im n¨achsten Schritt wird nun der Zusammenhang zwischen den um ET bereinigten Werten des Sprachtests, also den KQ-Residuen des linken Schaubilds, und den um ET bereinigten Werten der Stundenzahl, also den KQ-Residuen des rechten Schaubilds, untersucht. Abbildung 12.2.3 stellt den Zusammenhang der beiden Residuenwerte dar. Man bezeichnet eine solche Darstellung auch als partiellen Regressionsplot (vgl. Neter et. al [2005]). Wie man sieht, ist nun ein deutlich positiver Zusammenhang erkennbar. Dies bedeutet, dass Sch¨ uler, welche bezogen auf ihr Eingangsniveau u ¨berdurchschnittlich viel Nachhilfe nehmen (Sch¨ uler 2, 4 und 6), tendenziell auch u ¨berdurchschnittlich gut (bezogen auf ihr Eingangsniveau) im Sprachtest abschneiden. Analoge Aussagen gelten umgekehrt f¨ ur Sch¨ uler, welche bezogen auf ihr Eingangsniveau unterdurchschnittlich viel Nachhilfe genommen haben (Sch¨ uler 3, 5, und 7). Den im partiellen Regressionsplot feststellbaren Zusammenhang zwischen S und ST k¨onnte man nun, wenn man es ohne Weiteres f¨ ur sinnvoll und zul¨ assig h¨ alt, als den korrekt gemessenen erachten. Die Korrelation der Residuen wird als partielle Korrelation zwischen S und ST unter ET bezeichnet und betr¨ agt hier gerundet 0.70. Die Steigung der berechneten KQ-Gerade betr¨agt 7.88. Dies bedeutet, dass bei gleichem Eingangsniveau jede zus¨atzliche Nachhilfestunde das Ergebnis im Sprachtest um durchschnittlich 7.88 Punkte steigert. Dieser Effekt wird als partieller Effekt von S auf ST unter ET bezeichnet. Man beachte, dass hier unter gleichem Eingangsniveau“ eine Durchschnittsbetrachtung im Sinne der ” vorgenommenen linearen Approximation zu verstehen ist. Der Vorteil der partiellen Regression gegen¨ uber der Untersuchung in homogeneren Untergruppen ist offensichtlich. Es werden alle Beobachtungen in einem Zuge verwendet. Eine aufwendige separierte Untersuchung in verschiedenen Untergruppen entf¨allt. Anstelle verschiedener bedingter Korrelationen und Effekte erh¨alt man mit der partiellen Korrelation und dem partiellen Effekt jeweils immer nur einen einzigen Wert, den es zu interpretieren gilt. Allerdings ist die Vorgehensweise daf¨ ur weniger differenziert als die Untersuchung in Untergruppen. M¨ogliche Interaktionseffekte wie etwa in Fallbeispiel 2 des vorhergehenden Abschnitts k¨onnen dabei durchaus u ¨bersehen werden. Die partielle Regression macht (nur) Sinn, wenn die Variablen (informal formuliert) untereinander weitgehend linear abh¨ angig sind. Man beachte hierzu die sp¨ateren Ausf¨ uhrungen im Rahmen des multiplen linearen Regressionsmodells. • Zusammenfassung und Formelapparat • Im Folgenden sei die empirische partielle Regression zusammengefasst. Auf den Nachweis der Berechnungsformeln verzich-

12.2 Einf¨ uhrung in das multiple lineare Regressionsmodell

651

ten wir und verweisen in diesem Zusammenhang auf die rechnerischen Ausf¨ uhrungen zur theoretischen partiellen Regression und andere Lehrb¨ ucher wie etwa Rencher [2012, Abschnitt 10.7]. Empirische partielle Regression im 3-Variablenfall Gegeben seien dreidimensionale Beobachtungswerte (x1 , z1 , y1 ), . . . , (xn , zn , yn ) zu den Merkmalen X, Z und Y . Außerdem sei die (empirische) Kovarianzmatrix der Beobachtungen von X und Z invertierbar. Man f¨ uhre nun folgende einfache lineare Regressionen und Berechnungen durch: 1. KQ-Regression von Y auf Z und Extraktion der KQ-Residuen. 2. KQ-Regression von X auf Z und Extraktion der KQ-Residuen. 3. KQ-Regression der Residuen aus Schritt 1 auf die Residuen aus Schritt 2. Dann wird die im 3. Schritt durchgef¨ uhrte Regression als partielle Regression von Y auf X unter Z bezeichnet. Der korrespondierende Steigungskoeffizient wird als partieller Regressionskoeffizient bezeichnet und mit bY ∼X•Z notiert. Die Korrelation der Residuen aus Schritt 1 und Schritt 2 heißt partielle Korrelation zwischen X und Y unter Z und wird mit rXY •Z notiert. Unter Verwendung der u ¨blichen Notation gilt dann: 2 s˜XY s˜ − s˜Y Z s˜XZ bY ∼X•Z = 2 2Z und 2 ) s˜X s˜Z (1 − rXZ rXY − rY Z rXZ rXY •Z = sofern s˜2Y > 0. 2 ), (1 − rY2 Z )(1 − rXZ

(12.2.1) (12.2.2)

Mit der Invertierbarkeit der Kovarianzmatrix und s˜2Y > 0 soll die Definiertheit obiger Formeln sichergestellt werden. Null-Varianzen, d.h. empirische Varianzen, die gleich Null sind, und perfekte lineare Abh¨ angigkeit von x- und z-Werten, auch Multikollinearit¨ at genannt, werden damit ausgeschlossen. • Empirische Verzerrung • Zur weiteren Motivation einer partiellen Regression erscheint die Frage interessant, in welcher Weise sich die Ergebnisse der linearen Regression von Y auf X und der partiellen Regression von Y auf X unter Z unterscheiden. In diesem Zusammenhang l¨ asst sich zeigen, dass gilt: s˜XZ s˜XY bY ∼X = bY ∼X•Z + bY ∼Z•X 2 , wobei bY ∼X = 2 (12.2.3) s˜X s˜X den Steigungskoeffizienten der (normalen) Regression von Y auf X bezeichnet. Demnach f¨allt also der Steigungskoeffizient der Regression von Y auf X gr¨oßer aus als der partielle, falls der partielle Effekt von Z auf Y unter X und die (empirische) Kovarianz zwischen

652

12 Das lineare Regressionsmodell

X und Z das gleiche Vorzeichen besitzen. Er f¨allt dagegen kleiner bei umgekehrtem Vorzeichen aus. Weiter sind die beiden Koeffizienten gleich, falls X und Z (empirisch) unkorreliert sind oder falls der partielle Effekt von Z auf Y unter X gleich 0 ist. Der Term s˜XZ bY ∼Z•X 2 (12.2.4) s˜X bestimmt dabei die St¨ arke der Abweichung, die wir als empirische Verzerrung bezeichnen. • Erweiterung auf h¨ oherdimensionale F¨ alle • M¨ochte man den st¨orenden Effekt von zwei oder mehr Merkmalen Z1 , . . . , Zm mit m ≥ 2 herausrechnen, so ben¨otigt man die Technik der multiplen lineare Regression (Abschnitt 12.2.2). Dabei werden Y und X jeweils auf alle st¨ orenden Einfl¨ usse Z1 , . . . , Zm regressiert. Die drei Grundschritte ¨ bleiben ansonsten erhalten. Der Formelapparat wird entsprechend komplexer. Ublicherweise verwendet man hierf¨ ur dann eher kompakte, matrixalgebraische Ausdr¨ ucke.

Theoretische partielle Regression • Zusammenfassung und Formelapparat • Die partielle Regression l¨asst sich auch auf rein theoretischer Ebene in der Welt der Zufallsvariablen konzipieren. Eine solche Betrachtung erweist sich im Zusammenhang statistischer Modellierungen als n¨ utzlich. Theoretische partielle Regression im 3-Variablenfall Gegeben sei ein dreidimensionaler Zufallsvektor (X, Z, Y ). Die (theoretische) Kovarianzmatrix von (X, Z)T sei invertierbar. Man f¨ uhre nun folgende theoretische Regressionen und Berechnungen durch: ¯ 1. Regression von Y auf Z und Extraktion des Prognosefehlers Y − Yˆ . ¯ˆ 2. Regression von X auf Z und Extraktion des Prognosefehlers X − X. 3. Regression des Fehlers aus Schritt 1 auf den Fehler aus Schritt 2. Dann wird die im 3. Schritt durchgef¨ uhrte Regression als theoretische partielle Regression von Y auf X unter Z bezeichnet. Der korrespondierende Steigungskoeffizient wird als theoretischer partieller Regressionskoeffizient bezeichnet und mit βY ∼X•Z notiert. Die Korrelation der beiden Fehler aus Schritt 1 und Schritt 2 heißt theoretische partielle Korrelation zwischen X und Y unter Z und wird mit %XY •Z notiert. Unter Verwendung der u ¨blichen Notation gilt dann: 2 σXY σZ − σY Z σXZ βY ∼X•Z = und 2 σ 2 (1 − %2 ) σX Z XZ

(12.2.5)

12.2 Einf¨ uhrung in das multiple lineare Regressionsmodell

%XY •Z =

%XY − %Y Z %XZ , (1 − %2Y Z )(1 − %2XZ )

sofern σY2 > 0.

653

(12.2.6)

Mit der Invertierbarkeit der Kovarianzmatrix und σY2 > 0 soll analog wie im empirischen Fall die Definiertheit der Formeln sichergestellt werden. Die partielle Korrelation entspricht demnach also der Korrelation der Prognosefehler der besten linearen MSE-Pr¨ adiktoren von Y auf Basis von Z und X auf Basis von Z. Gem¨ aß den Ausf¨ uhrungen in Abschnitt 12.1.2 zur theoretischen KQRegression lauten die besten linearen Pr¨ adiktoren zun¨achst einmal σXZ σ YZ ¯ ¯ ˆ = µX + 2 (Z − µZ ). Yˆ = µY + 2 (Z − µZ ) bzw. X σZ σZ Als Prognosefehler erh¨ alt man daraus σY Z ¯ Y − Yˆ = Y − µY − 2 (Z − µZ ) bzw. σZ σXZ ¯ ˆ X − X = X − µX − 2 (Z − µZ ). σZ Mit den u blichen Rechenregeln f¨ u r Erwartungswerte ergibt sich f¨ ur die Kovarianz der ¨ Prognosefehler ¯ ¯ ˆ X − X) ˆ Cov(Y − Y, nh i h io σXZ σY Z = E (Y − µY ) − 2 (Z − µZ ) · (X − µX ) − 2 (Z − µZ ) σZ σZ σXZ = E[(Y − µY )(X − µX )] − 2 E[(Y − µY )(Z − µZ )] σZ σY Z σY Z σXZ 2 − 2 E[(Z − µZ )(X − µX )] + 2 2 E[(Z − µZ ) ] σZ σZ σZ σXZ σY Z σY Z σXZ = σXY − 2 σY Z − 2 σXZ + 2 σZ σZ σZ σY Z = σXY − 2 σXZ . σZ Dabei nutzen wir in der ersten Gleichung die Tatsache aus, dass die Erwartungswerte der Prognosefehler gem¨ aß (12.1.38) gleich 0 sind. Der Rest folgt aus der Definition der theoretischen Kovarianz bzw. der Varianz. Da die Varianzen der Prognosefehler gem¨aß (12.1.39) ¯ ˆ¯ = σ 2 (1 − %2 ) V ar(Y − Yˆ ) = σY2 (1 − %2Y Z ) und V ar(X − X) X XZ lauten, ergibt sich f¨ ur die Korrelation nach einigen Umformungen das angegebene Resultat (12.2.6): ¯ˆ ¯ˆ ¯ ¯ ˆ X − X) ˆ = q Cov(Y − Y, X − X) Corr(Y − Y, ¯ ¯ˆ V ar(Y − Yˆ )V ar(X − X) %XY − %Y Z %XZ = . (1 − %2Y Z )(1 − %2XZ )

654

12 Das lineare Regressionsmodell

¯ ¯ ˆ erh¨ Regressiert man Y − Yˆ auf X − X, alt man nach Einsetzen obiger Resultate in die Formel f¨ ur die theoretische Steigung ¯ ¯ 2 ˆ ˆ Cov(Y − Y, X − X) σXY σZ − σY Z σXZ = . 2 2 ¯ σ σ (1 − %2XZ ) ˆ V ar(X − X) X Z Man beachte, dass sich die empirischen Versionen dieser Formeln, (12.2.1) und (12.2.2), im Prinzip analog nachweisen lassen. Hierbei m¨ ussen die Zufallsvariablen und theoretischen Kennwerte lediglich durch Beobachtungswerte und empirische Kennwerte ersetzt werden. Der empirische Kalk¨ ul vollzieht sich dann v¨ollig analog wie der theoretische. • Bedingte und partielle Korrelation • Im Allgemeinen unterscheidet sich die partielle Korrelation zwischen X und Y unter Z von der bedingten Korrelation unter Z = z. W¨ahrend erstere lediglich einen einzigen Wert liefert, h¨angt letztere vom konkret gesetzten Wert z ab und f¨ allt damit im Allgemeinen dann unterschiedlich aus. Sind X, Z und Y jedoch gemeinsam multivariat normalverteilt, stimmen partielle und bedingte Korrelation u ¨berein. Insbesondere ist letztere dann konstant. Man beachte hierzu Beispiel 8.3.5 mit Formel (8.3.21). • Erweiterung auf h¨ oherdimensionale F¨ alle • Die Erweiterung auf h¨oherdimensionale F¨alle, bei denen man Y und X jeweils auf Basis von m Variablen Z1 , . . . , Zm (m ≥ 2) prognostiziert, vollzieht sich analog wie im empirischen Fall. Die theoretische KQ-Regression aus Abschnitt 12.1.2 muss entsprechend auf den multiplen Fall erweitert werden (Abschnitt 12.2.2). • Theoretische Verzerrung • Analog zum empirischen Fall l¨asst sich zeigen, dass gilt: σXY σXZ βY ∼X = βY ∼X•Z + βY ∼Z•X 2 , wobei βY ∼X = 2 (12.2.7) σX σX den theoretischen Steigungskoeffizienten der (normalen) theoretischen Regression von Y auf X bezeichnet. Der Term σXZ βY ∼Z•X 2 (12.2.8) σX misst dabei die St¨ arke der Abweichung der Regressionskoeffizienten aus normaler“ und ” partieller Regression. Diese Abweichung bezeichnen wir als theoretische Verzerrung .

Verbindung von Empirie und Theorie • Grundlagen • Mit den Definitionen und Resultaten der empirischen und theoretischen Korrelation k¨ onnen wir nun beide Seiten auf der Ebene der statistischen Modellierung zusammenf¨ uhren. Hierbei fassen wir gegebene dreidimensionale Beobachtungswerte (x1 , z1 , y1 ), . . . , (xn , zn , yn ) als Realisationen einer Stichprobe (X1 , Z1 , Y1 ), . . . , (Xn , Zn , Yn ) aus einer wie auch immer gearteten Grundgesamtheit auf. Angenommen, (X1 , Z1 , Y1 ), . . . , (Xn , Zn , Yn ) seien unabh¨angig und identisch verteilt wie ein Zufallsvektor (X, Z, Y ), wobei Annahme (M) aus Definition 8.2.1 erf¨ ullt sei.

12.2 Einf¨ uhrung in das multiple lineare Regressionsmodell

655

Dann konvergieren alle Stichprobenmomente stochastisch gegen die betreffenden theoretischen Momente (Satz 8.2.4). Infolgedessen konvergieren auch s¨amtliche Stichprobenvarianzen und Stichprobenkovarianzen gegen die korrespondierenden theoretischen Kennwerte. Dies ergibt sich unmittelbar aus dem multivariaten Stetigkeitssatz (Satz 8.3.3). Man beachte hierzu Beispiel 8.3.6. • Konsistente Sch¨ atzungen bei der partiellen Regression • Bilden wir aus den empirischen Kennwerten der partiellen Regression die stochastischen Varianten, so k¨onnen wir diese als konsistente Sch¨ atzer der theoretischen Kennwerte auffassen. Wir k¨onnen deshalb sinnvollerweise S˜XY S˜Z2 − S˜Y Z S˜XZ RXY − RY Z RXZ und %ˆXY •Z = βˆY ∼X•Z = 2 ) 2 2 2 ˜ ˜ (1 − RY2 Z )(1 − RXZ SX SZ (1 − RXZ ) definieren. Dann gilt: p βˆY ∼X•Z −−→ βY ∼X•Z bzw. (12.2.9) p

%ˆXY •Z −−→ %XY •Z .

(12.2.10)

Der stochastische partielle Regressionskoeffizient βˆY ∼X•Z (partieller Stichprobenregressionskoeffizient) konvergiert stochastisch gegen den theoretischen partiellen Regressionskoeffizient. Analog liefert die stochastische partielle Korrelation %ˆXY •Z (partielle Stichprobenkorrelation) eine konsistente Sch¨atzung f¨ ur ihr theoretisches Gegenst¨ uck. • Asymptotische Verzerrung • Definieren wir weiter σXY S˜XY und βY ∼X = 2 , βˆY ∼X = 2 σX S˜ X

erhalten wir aufgrund der Resultate (12.2.3) und (12.2.7): σXZ p βˆY ∼X −−→ βY ∼X = βY ∼X•Z + βY ∼Z•X 2 . σX

(12.2.11)

Fasst man nun βY ∼X•Z als den wahren (kausalen) Effekt von X auf Y auf, so ist der Steigungskoeffizient der normalen“ Regression von Y auf X kein konsistenter Sch¨atzer, ” da er im Allgemeinen gegen einen anderen Wert konvergiert. Der Term σXZ βY ∼Z•X 2 (12.2.12) σX misst dabei die St¨arke der Abweichung, die als asymptotische Verzerrung bezeichnet wird. ¨ Uberlegungen, die sich nun anhand von (12.2.12) durchf¨ uhren lassen, in welcher Weise es hier zu Verf¨ alschungen kommen kann, stehen in sehr engem Zusammenhang zu den in Abschnitt 5.3.3 formulierten Merkregeln, die im Zusammenhang systematischer Verzerrungen bei empirischen Abh¨ angigkeiten diskutiert wurden. Eine weitergehende Fundierung erhalten diese Regeln dann aus dem Zusammenhang von partieller und multipler Regression (Satz 12.2.3).

656

12 Das lineare Regressionsmodell

• Erweiterung auf h¨ oherdimensionale F¨ alle • Es versteht sich von selbst, dass ¨ sich all diese Uberlegungen auch auf den h¨ oherdimensionalen Fall u ¨bertragen lassen, wobei es zu einer Erweiterung bzw. Verkomplizierung der Formelausdr¨ ucke kommt.

12.2.2 Multiple lineare KQ-Regression Empirische multiple Regression ¨ • Motivation und Uberblick • Die Erweiterung der einfachen linearen KQRegression zur multiplen Regression ist immer dann ad¨aquat, wenn eine Variable von mehr als nur einer Einflussgr¨ oße maßgeblich (kausal) abh¨angt und diese Abh¨angigkeit linearer Natur ist. Wie sich sp¨ ater herausstellt, lassen sich die direkten (kausalen) Effekte der einzelnen Variablen dann unter bestimmten Modellannahmen konsistent sch¨atzen. Der h¨ohere Erkl¨ arungsgehalt eines multiplen Modells steigert zudem die Prognoseg¨ ute, sofern die Anzahl von Beobachtungen und die Anzahl von Modellvariablen (Modellparameter) in vern¨ unftigem“ Verh¨ altnis zueinander stehen. Nicht zuletzt wird ” sich herausstellen, dass sich durch OVB verursachte systematische Verzerrungen beseitigen lassen, sofern die st¨ orenden (OVB verursachenden) Einflussvariablen ins multiple ¨ Modell mit aufgenommen werden. Hierbei ergibt sich eine direkte Aquivalenz zur partiellen Regression. • Definition • Die empirische multiple Regression l¨asst sich wie folgt zusammenfassen. Definition 12.2.1: Empirische multiple Regression Angenommen, es liegen (p + 1)-dimensionale metrische Beobachtungswerte (p ≥ 1) (x11 , x12 , . . . , x1p , y1 ), (x21 , x22 , . . . , x2p , y2 ), . . . , (xn1 , xn2 , . . . , xnp , yn ) korrespondierend zu den Merkmalen X1 , X2 , . . . , Xp und Y vor. Dabei sei die zu den X-Merkmalen korrespondierende (empirische) Kovarianzmatrix invertierbar. Dann bezeichnen wir die L¨ osungen zum Minimierungsproblem ˆ 0 , b1 , . . . , bp ) mit min Q(b b0 ,b1 ,...,bp

ˆ 0 , b1 , . . . , bp ) := Q(b

n X (yi − b0 − b1 xi1 − b2 xi2 − · · · − bp xip )2 i=1

als KQ-Regressionskoeffizienten und notieren diese mit ˆb0 , ˆb1 , . . . , ˆbp . Die Berechnungsmethode heißt multiple lineare KQ-Regression von Y auf X1 , . . . , Xp . Im Falle p = 1 spricht man von einer einfachen linearen KQRegression. Die Funktion yˆ(x1 , x2 , . . . , xp ) = ˆb0 + ˆb1 x1 + ˆb2 x2 + · · · + ˆbp xp definiert im Falle p ≥ 2 eine KQ-Regressionsebene, im Falle p = 1 eine KQGerade. Die Werte yˆi = yˆ(xi ) = ˆb0 + ˆb1 xi1 + ˆb2 xi2 + · · · + ˆbp xip f¨ ur i = 1, . . . , n

12.2 Einf¨ uhrung in das multiple lineare Regressionsmodell

657

heißen gefittete Werte und sind als durch die Regressionsebene prognostizierte oder linear approximierte Werte interpretierbar. Die Abweichungen u ˆi = yi − yˆi

f¨ ur i = 1, . . . , n

entsprechen den Prognose- bzw. Approximationsfehlern und werden als KQResiduen bezeichnet. Die Bezeichnung KQ-Methode“ erscheint insofern gerechtfertigt, da nach wie vor qua” dratische Abweichungen minimiert werden. Abbildung 12.2.4 illustriert die multiple KQ-Regression f¨ ur den Fall p = 2 f¨ ur die Daten der Fallbeispiele 1 und 2 aus Abschnitt 12.1.4. Im linken Schaubild wurde korrespondierend zu Fallbeispiel 1 die Variable ST auf die Variablen S und ET regressiert. Im rechten Schaubild wurde korrespondierend zu Fallbeispiel 2 die Variable Testergebnis“ auf die Variablen Klassengr¨oße“ und ” ” Englisch-Lerner-Anteil“ regressiert. Die jeweils u ¨ber den Regressionsebenen liegenden ” Beobachtungen wurden mit ausgef¨ ullten Punkten dargestellt, die darunter liegenden Beobachtungen mit nicht ausgef¨ ullten. Abb. 12.2.4: KQ-Regressionsebenen im 3-Variablen-Fall 100

700

90

Testergebn

680

80

ST

660 640

is

70

620

3

4

5

200

100 80 60 l

Kl15 as 20 se ng röß 25 e

40

ei

2 S

600 10

An t

1

ET

50 0

600 500 400 300

E. −

60

20 30 0

Die Invertierbarkeit der Kovarianzmatrix gew¨ahrleistet die eindeutige L¨osbarkeit des Minimierungsproblems. F¨ ur p = 1 (einfache lineare KQ-Regression) lauten die L¨ osungsformeln f¨ ur die KQ-Regressionskoeffizienten s˜XY ˆb0 = y¯ − ˆb1 x ¯ und ˆb1 = 2 , s˜X sofern wir X = X1 setzen. F¨ ur gr¨ oßer werdendes p werden die L¨osungsformeln zur Berechnung der Regressionskoeffizienten zunehmend komplexer. Mit Ausnahme der Regressionskonstanten ˆb0 = y¯ − ˆb1 x ¯1 − ˆb2 x ¯2 − · · · − ˆbp x ¯p , sind diese im Allgemeinen dann nur noch in matrixalgebraischer Form kompakt darstellbar.

658

12 Das lineare Regressionsmodell

• Eigenschaften der empirischen multiplen KQ-Regression • Es gelten weiterhin alle Eigenschaften aus Satz 12.1.1, wobei Eigenschaft Nr. 1 zu yˆ(¯ x1 , x ¯2 , . . . , x ¯p ) = y¯ verallgemeinert wird. Eigenschaft Nr. 4 ist in dem Sinne erf¨ ullt, dass die KQ-Residuen jeweils mit allen X-Merkmalen empirisch unkorreliert sind, d.h. es gilt: rUˆ X1 = 0,

rUˆ X2 = 0, . . . ,

rUˆ Xp = 0.

• Bestimmtheitsmaß und Standardfehler der Regression • Es gilt weiterhin die Streuungszerlegungsformel der Regression im Sinne von (12.1.14) und (12.1.15). Darauf basierend ist das Bestimmtheitsmaß f¨ ur die multiple Regression definiert als R2 =

s˜2Yˆ s˜2Y

=1−

s˜2Uˆ s˜2Y

.

(12.2.13)

Den Standardfehler der multiplen Regression (SER) definiert man u ¨blicherweise als v u n X u 1 SER = t u ˆ2 . (12.2.14) n − p − 1 i=1 i Man beachte, dass wir f¨ ur p = 1 gerade (12.1.18) erhalten. Die Deutung der beiden Kennwerte bleibt dabei praktisch unver¨ andert. • Zusammenhang zur empirischen partiellen Regression • F¨ ur die KQRegressionskoeffizienten der X-Merkmale besteht ein fundamentaler Zusammenhang zur empirischen partiellen Regression. Es gilt: ˆbj = bY ∼X •X f¨ ur j = 1, . . . , p. (12.2.15) j −j Dabei bezeichnet bY ∼Xj •X−j den partiellen Regressionskoeffizienten einer partiellen Regression von Y auf Xj unter X1 , . . . , Xp ohne Xj . Speziell f¨ ur p = 2 erhalten wir also beispielsweise ˆb1 = bY ∼X •X und ˆb2 = bY ∼X •X . 1 2 2 1 Mit Formel (12.2.1) und Z = X2 ergibt dies konkret ˆb1 = bY ∼X •X = 1 2

s˜X1 Y s˜2X2 − s˜Y X2 s˜X1 X2 2 s˜2X1 s˜2X2 (1 − rX ) 1 X2

ˆb2 = bY ∼X •X = 2 1

s˜X2 Y s˜2X1 − s˜Y X1 s˜X1 X2 . 2 s˜2X1 s˜2X2 (1 − rX ) 1 X2

bzw.

(12.2.16) (12.2.17)

Die KQ-Regressionskoeffizienten einer multiplen Regression stimmen mit den Koeffizienten einer entsprechenden partiellen Regression u ¨berein. Dies bedeutet, dass man sich zur Berechnung eines partiellen Regressionskoeffizienten den im vorhergehenden Abschnitt beschriebenen 3-stufigen Berechnungsansatz ersparen kann. Mit einer multiplen Regression, die sich mit jeder g¨angigen statistischen Software

12.2 Einf¨ uhrung in das multiple lineare Regressionsmodell

659

berechnen l¨asst, erh¨ alt man diesen gleich in einem Schritt. Zus¨atzlich erh¨alt man auch die zu allen anderen X-Merkmalen korrespondierenden partiellen Koeffizienten. ¨ Auch in Bezug auf die Deutung der KQ-Regressionskoeffizienten ist diese Aquivalenz u utzlich. Die Koeffizienten des multiplen Modells messen demnach die ¨beraus n¨ partiellen Effekte der X-Merkmale auf Y . Insbesondere vor dem Hintergrund systematischer Verzerrungen, die bei der Analyse von (kausalen) Abh¨angigkeiten auftreten k¨ onnen, erscheint die multiple Regression als L¨osungsansatz nun interessant. So kann unter bestimmten Annahmen mit Aufnahme der st¨orenden (die Verzerrung verursachenden) Merkmale in ein multiples Modell, die Verzerrung beseitigt werden. • Beispiel 12.2.1 fortgesetzt • Betrachten wir nochmals die Situation aus Beispiel 12.2.1. F¨ uhren wir hier nun eine multiple Regression von ST auf S und ET durch erhalten wir c = −11.28 + 7.88 · S + 0.16 · ET, ST

R2 ≈ 0.95,

SER ≈ 4.17.

Der Koeffizient bez¨ uglich S stimmt mit demjenigen aus der vorhergehenden partiellen Regression u ¨berein. Simultan erhalten wir auch den partiellen Koeffizienten bez¨ uglich ET . Demnach f¨ uhren also beispielsweise 10 Punkte mehr im Eingangstest (ET ) bei gleicher Nachhilfestundenzahl (S) zu durchschnittlich 1.6 Punkten mehr im Sprachtest (ST ). Man beachte, dass das Bestimmtheitsmaß von 0.62 auf 0.95 angestiegen ist. Gleichzeitig ging der Standardfehler der Regression von 10.06 auf 4.17 zur¨ uck. Dies deutet darauf hin, dass sich unter gleichzeitiger Kenntnis von S und ET das Testergebnis bereits sehr gut vorhersagen l¨ asst, zumindest im Falle der vorliegenden Daten. Was jetzt noch fehlt, ist eine Deutung dieser Kennwerte im Zuge inferenzstatistischer Methoden. Dazu bedarf es eines konkreten statistischen Modells, im Rahmen dessen das Zustandekommen der Daten beschrieben wird.

Theoretische multiple Regression • Definition • In v¨ olliger Entsprechung zur empirischen multiplen Regression kann ein theoretisches Pendant definiert werden. Definition 12.2.2: Theoretische multiple Regression Gegeben seien (p + 1) Zufallsvariablen X1 , X2 , . . . , Xp und Y mit p ≥ 1, welche Annahme (M) aus Definition 8.2.1 gen¨ ugen. Außerdem sei die (theoretische) Kovarianzmatrix von (X1 , . . . , Xp )T invertierbar. Dann bezeichnen wir die L¨osungen zum Minimierungsproblem ¯ ˆ 0 , β1 , . . . , βp ) mit min Q(β β0 ,β1 ,...,βp

  ¯ˆ 2 Q(β 0 , β1 , . . . , βp ) := E (Yi − β0 − β1 X1 − β2 X2 − · · · − βp Xp ) als theoretische KQ-Regressionskoeffizienten und notieren diese mit ¯ ¯ ¯ βˆ0 , βˆ1 , . . . , βˆp .

660

12 Das lineare Regressionsmodell

Die Funktion ¯ ¯ ¯ yˆ¯(x1 , x2 , . . . , xp ) = βˆ0 + βˆ1 x1 + · · · + βˆp xp definiert im Falle p ≥ 2 eine theoretische KQ-Regressionsebene, im Falle p = 1 eine theoretische KQ-Gerade. Die stochastische Statistik ¯ ¯ ¯ ¯ Yˆ = βˆ0 + βˆ1 X1 + · · · + βˆp Xp heißt bester linearer MSE Pr¨ adiktor von Y auf Basis von X1 , . . . , Xp . Die Invertierbarkeit der Kovarianzmatrix gew¨ ahrleistet wiederum die eindeutige L¨osbarkeit des Minimierungsproblems. F¨ ur p = 1 erh¨alt man die bekannten Formeln der einfachen linearen KQ-Regression. Wie im empirischen Fall werden die L¨ osungsformeln f¨ ur wachsendes p zunehmend komplex. Mit Ausnahme der Regressionskonstanten ¯ ¯ ¯ ¯ βˆ0 = E(Y ) − βˆ1 E(X1 ) − βˆ2 E(X2 ) − · · · − βˆp E(Xp ), (12.2.18) sind diese dann nur noch in matrixalgebraischer Form kompakt darstellbar. • Eigenschaften der theoretischen multiplen KQ-Regression • Es gelten weiterhin alle Eigenschaften (12.1.38) bis (12.1.44) mit etwaiger Modifikation f¨ ur den multiplen Fall wie etwa ¯ ¯ˆ ˆ X1 ) = · · · = Cov(Y − Y, Cov(Y − Y, Xp ) = 0. Insbesondere gilt die theoretische Streuungszerlegungsformel der Regression ¯ ¯ V ar(Y ) = V ar(Yˆ ) + V ar(Y − Yˆ ). (12.2.19) • Theoretisches Bestimmtheitsmaß und theoretischer Standardfehler der Regression • Basierend auf (12.2.19) ist das theoretische Bestimmtheitsmaß definiert als ¯ ¯ V ar(Y − Yˆ ) V ar(Yˆ ) =1− . (12.2.20) R2 = V ar(Y ) V ar(Y ) Den theoretischen Standardfehler der Regression k¨onnte man u ¨ber Standardab¯ ˆ weichung des Prognosefehlers Y − Y definieren, also q p ¯ V ar(Y − Yˆ ) = V ar(Y )(1 − R2 ). (12.2.21) • Zusammenhang zur theoretischen partiellen Regression • F¨ ur die theoretischen KQ-Regressionskoeffizienten der X-Variablen kann man zeigen, dass ¯ βˆj = βY ∼Xj •X−j f¨ ur j = 1, . . . , p (12.2.22) gilt. Dabei bezeichnet βY ∼Xj •X−j den partiellen Regressionskoeffizienten einer theoretischen partiellen Regression von Y auf Xj unter X1 , . . . , Xp ohne Xj . Speziell f¨ ur p = 2 erhalten wir ¯ ¯ βˆ1 = βY ∼X1 •X2 und βˆ2 = βY ∼X2 •X1 .

12.2 Einf¨ uhrung in das multiple lineare Regressionsmodell

661

Mit Formel (12.2.5) und Z = X2 bzw. Z = X1 ergibt dies konkret βˆ1 = βY ∼X1 •X2 =

2 σ X1 Y σ X − σY X2 σX1 X2 2 bzw. 2 2 σX1 σX2 (1 − %2X1 X2 )

(12.2.23)

βˆ2 = βY ∼X2 •X1 =

2 σ X2 Y σ X − σY X1 σX1 X2 1 . 2 2 σX1 σX2 (1 − %2X1 X2 )

(12.2.24)

Die KQ-Regressionskoeffizienten einer theoretischen multiplen Regression stimmen mit den Koeffizienten einer entsprechenden theoretischen partiellen Regression u ¨berein.

Verbindung von Empirie und Theorie Da nun die KQ-Regressionskoeffizienten der empirischen und der theoretischen multiplen Regression mit den Koeffizienten der empirischen bzw. theoretischen partiellen Regressionen u onnen die im vorhergehenden Abschnitt hergeleiteten ¨bereinstimmen, k¨ Konsistenzeigenschaften direkt u ¨bertragen werden. Demnach k¨onnen im Zusammenhang von Stichproben die aus der multiplen Regression gewonnenen empirischen Regressionskoeffizienten als Sch¨ atzer der korrespondierenden theoretischen Gr¨oßen aufgefasst werden. Unter bestimmten Annahmen wie etwa unter einem u.i.v.-Schema lassen sich hierbei entsprechende Konsistenzeigenschaften begr¨ unden.

Statistische Modelle und Inferenz • Hintergrund • Die vorhergehenden Ausf¨ uhrungen zur partiellen und multiplen Regression helfen ein St¨ uck weit, die Mechanik empirischer und theoretischer Abh¨angigkeiten besser zu verstehen. Insbesondere wurde klar, wie im Mehrvariablenkontext paarweise Abh¨angigkeiten durch st¨ orende Variablen verzerrt werden k¨onnen und wie sich dies m¨ oglicherweise verhindern l¨ asst. Trotz dieser Erkenntnisse bleibt jedoch ein grunds¨atzliches Problem erst einmal bestehen: Wie l¨ asst sich beurteilen, welche Korrelationen und welche Koeffizienten nun die richtigen sind? Gen¨ ugt nun eine einfache Regression von Y auf X oder muss es eine multiple Regression von Y auf X und Z sein? Erscheint es grunds¨atzlich ad¨aquat einen Effekt mit linearer KQ-Regression zu sch¨atzen oder sollte man mit einer anderen Methode ansetzen? Wie l¨asst sich hier schl¨ ussig argumentieren? Die bisherigen Ausf¨ uhrungen waren in dem Sinne modellfrei“, dass ein zwischen ” den Variablen bestehender Wirkungszusammenhang nicht n¨aher beschrieben (modelliert) wurde. Es wurde lediglich unterstellt, dass zwischen den Variablen empirische bzw. stochastische Abh¨ angigkeiten bestehen, die sich in Form messbarer Korrelationen angigkeiten nun kausal sind oder nicht oder ob diese ¨außern. Die Frage, ob diese Abh¨ m¨ oglicherweise nur zuf¨ allig sind oder nicht, wurde nicht n¨aher diskutiert. Mit dem multiplen linearen Regressionsmodell werden wir im Folgenden nun ein statistisches Modell im engeren Sinne einf¨ uhren. Darin wird der Wirkungszusammenhang zwischen einer abh¨angigen Variablen und einer oder mehreren Einflussvariablen modellm¨aßig beschrieben. Dies f¨ uhrt in der Folge dann zu einer schl¨ ussigen, d.h. modelltheoretisch fundierten, Argumentation, wie sich unter bestimmten Annahmen kausale Effekte

662

12 Das lineare Regressionsmodell

sch¨atzen lassen. Gleichzeitig kann hierbei auch das Instrumentarium der induktiven Statistik genutzt werden, sodass zwischen Zufall und System unterschieden werden kann. Aufbau und Inhalt der nachfolgenden Punkte ergeben sich dabei v¨ollig analog zu den Ausf¨ uhrungen zum einfachen Regressionsmodell in Abschnitt 12.1. Stellenweise eher skizzenhafte und verk¨ urzte Darstellungen m¨ ogen deshalb gen¨ ugen. • Statistisches Grundmodell • Das statistische Grundmodell ist wie folgt definiert. Definition 12.2.3: Multiples lineares Regressionsmodell Gegeben sei eine Stichprobe aus n beobachtbaren Zufallsvektoren (X11 , X12 , . . . , X1p , Y1 ), . . . , (Xn1 , Xn2 , . . . , Xnp , Yn ) mit p ≥ 1 und n nicht beobachtbaren Zufallsvariablen U1 , . . . , Un . Gilt dann (A0M) Yi = β0 + β1 Xi1 + · · · + βp Xip + Ui f¨ ur i = 1, . . . , n, so bezeichnet man (A0M) als multiples lineares Regressionsmodell. Die Parameter β0 , β1 , . . . , βp werden als theoretische Regressionskoeffizienten und die Variablen U1 , . . . , Un als stochastische Fehler oder stochastische Residuen bezeichnet. Die Funktion y(x) = β0 + β1 x1 + · · · + βp xp definiert die theoretische Regressionsebene, wobei der Definitionsbereich von x1 , . . . , xp fallabh¨ angig einzuschr¨ anken ist. • Interpretation • Allgemein wird mit Yi die i-te Beobachtung einer abh¨angigen (kausal beeinflussten) Variablen erkl¨ art, w¨ ahrend Xij die i-te Beobachtung der j-ten Einflussvariablen modelliert. Wie im empirischen Fall k¨onnen die Variablen auch als Regressand bzw. als Regressoren bezeichnet werden. Den Regressoren Xi1 , . . . , Xip wird unterstellt, dass sie jeweils einen mehr oder weniger direkten kausalen Effekt auf Yi aus¨ uben (vgl. Abschnitt 5.3.3). Im Fehler Ui stecken dann alle weiteren (kausalen) nicht beobachtbaren oder zumindest nicht beobachteten Einfl¨ usse auf Yi . Man beachte, dass die Abh¨ angigkeit insofern linear“ ist, dass die abh¨angige Va” riable mit der j-ten Einflussvariablen linear w¨achst oder f¨allt, falls alle anderen Einflussvariablen einschließlich des Fehlers U konstant bleiben. Eine Ver¨anderung der j-ten Einflussvariablen um ∆ x Einheiten f¨ uhrt dann stets zu einer Ver¨anderung der abh¨angigen Variablen um βj · ∆ x Einheiten. Sofern man u ¨berhaupt gewillt ist, den problematischen Begriff des kausalen Effekts zu verwenden, k¨ onnte man die Regressionskoeffizienten auch als direkte kausale Effekte der jeweiligen Einflussvariablen interpretieren. Dies macht allerdings auch nur dann Sinn, falls von diesen auch relativ direkte“ kausale Effekte ausgehen. Ansonsten ” w¨ are die etwas neutralere Bezeichnung mit direkten Effekten“ angebrachter. ” • Ensembles von Modellannahmen • Die f¨ ur das einfache Regressionsmodell aufgestellten Ensembles von Annahmen f¨ ur die Modelle KN, KS, BH und UHV lassen sich

12.2 Einf¨ uhrung in das multiple lineare Regressionsmodell

663

ohne gr¨oßeren Umst¨ ande auf das multiple Modell erweitern. Wir beschr¨anken uns auf die Widergabe der multiplen Version von Modell BH. Definition 12.2.4: Modell BH als multiples Regressionsmodell Wir sprechen von einem multiplen linearen Regressionsmodell mit bedingt heteroskedastischem Fehler, falls gilt: (A0M) Yi = β0 + β1 Xi1 + · · · + βp Xip + Ui f¨ ur i = 1, . . . , n, (A1M) E(Ui |Xi1 = xi1 , . . . , Xip = xip ) = 0 f¨ ur i = 1, . . . , n, (A2M) (X11 , X12 , . . . , X1p , Y1 ), . . . , (Xn1 , Xn2 , . . . , Xnp , Yn ) sind u.i.v., (A3M) alle Zufallsvariablen gen¨ ugen Annahme (M) aus Definition 8.2.1 und besitzen positive Varianzen und (A4M) die Kovarianzmatrix von (Xi1 , Xi2 , . . . , Xip )T ist invertierbar.

Neu hinzugekommen ist im Grunde nur die letzte Annahme (A4M), die sicherstellt, dass die Regressoren untereinander nicht perfekt linear abh¨angig sind. Dies w¨ urde zur Nichteindeutigkeit des KQ-Berechnungskalk¨ uls f¨ uhren. Infolgedessen w¨aren die u ¨blichen Inferenzverfahren dann nicht mehr anwendbar. In Modell KN wird diese Annahme entsprechend u ¨ber die empirische Kovarianzmatrix der Regressorwerte formuliert. In Modell UHV mit heterogen verteilten Zufallsvektoren kann man unter Einschluss bestimmter Konvergenzannahmen die Invertierbarkeit einer langfristig durchschnittli” chen Kovarianzmatrix“ voraussetzen. Weiterhin sollte klar sein, dass auch im multiplen Fall Modell KS ein Spezialfall von Modell BH und Modell KN ein Spezialfall von Modell UHV ist. • Keine Multikollinearit¨ at • Perfekte lineare Abh¨angigkeit der Regressoren wird in der Regressionstheorie auch als Multikollinearit¨ at bezeichnet. • Modellimmanente Eigenschaften • Die f¨ ur das einfache Regressionsmodell ableitbaren modellimmanenten Eigenschaften gem¨aß Tabelle 12.1.1 k¨onnen ohne gr¨oßere Umst¨ande auf das multiple Modell u ¨bertragen werden. Insbesondere gilt dann beispielsweise in allen Modellvarianten die Eigenschaft Cov(Xij , Ui ) = E(Xij Ui ) = 0

(12.2.25)

f¨ ur i = 1, . . . , n und j = 1, . . . , p. Der Fehler ist also jeweils mit allen Regressoren unkorreliert. Auch die Eigenschaften (16) und (17) von Tabelle 12.1.1 lassen sich verallgemeinern. Man beachte hierzu den n¨ achsten Punkt. • Theoretische Regressionsebene = theoretische KQ-Regressionsebene • Betrachten wir f¨ ur einen Moment die Modelle BH und KS mit p = 2 Regressoren X1 und X2 , d.h. Y = β0 + β1 X1 + β2 X2 + U.

664

12 Das lineare Regressionsmodell

Auf eine Indizierung mit i k¨ onnen wir im Rahmen eines u.i.v.-Schemas ohne Beschr¨ankung der Allgemeinheit verzichten. Berechnen wir Cov(X1 , Y ) und Cov(X2 , Y ), so erhalten wir mit den Rechenregeln f¨ ur die Kovarianz und Eigenschaft (12.2.25): Cov(X1 , β0 + β1 X1 + β2 X2 + U ) = β1 V ar(X1 ) + β2 Cov(X1 , X2 ) bzw. Cov(X2 , β0 + β1 X1 + β2 X2 + U ) = β1 Cov(X1 , X2 ) + β2 V ar(X2 ). Mit der u ¨blichen Symbolik erhalten wir daraus das in β1 und β2 lineare Gleichungssystem 2 (i) σX1 Y = β1 σX + β2 σX1 X2 , 1 2 (ii) σX2 Y = β1 σX1 X2 + β2 σX . 2

Als L¨osungen ergeben sich daraus β1 =

2 σ X1 Y σ X − σY X2 σX1 X2 2 und 2 2 σX1 σX2 (1 − %2X1 X2 )

(12.2.26)

β2 =

2 − σY X1 σX1 X2 σX2 Y σX 1 . 2 2 (1 − %2 σX1 σX X1 X2 ) 2

(12.2.27)

Die Resultate (12.2.26) und (12.2.27) stellen die f¨ ur p = 2 erweiterte Eigenschaft (16) aus Tabelle 12.1.1 in Bezug auf β1 und β2 dar. Wie sich einfach zeigen l¨asst, gilt dann f¨ ur die Regressionskonstante: β0 = µY − β1 µX1 − β2 µX2 .

(12.2.28)

Ein Abgleich der Resultate (12.2.26) bis (12.2.28) mit (12.2.18), (12.2.23) und (12.2.24) ¨ legt vollst¨andige Ubereinstimmung offen. Dies l¨asst sich entsprechend f¨ ur p > 2 verallgemeinern. Insgesamt l¨ asst sich feststellen, dass die in den Modellen BH und KS enthaltene theoretische Regressionsebene der theoretischen KQ-Regressionsebene einer theoretischen multiplen Regression von Y auf X1 , . . . , Xp entspricht. Mit U = Y − β0 − β1 X1 − · · · − βp Xp erhalten wir zusammen mit (12.2.20) schließlich noch V ar(U ) = V ar(Y − β0 − β1 X1 − · · · − βp Xp ) ¯ ¯ ¯ = V ar(Y − βˆ0 − βˆ1 X1 − · · · − βˆp Xp ) ¯ = V ar(Y − Yˆ ) = V ar(Y )(1 − R2 ). Fassen wir die Erkenntnisse zusammen: Satz 12.2.1: Theoretische Regressionsebene = KQ-Regressionsebene Die in den multiplen Modellen KS und BH enthaltene theoretische Regressionsebene ist die KQ-Regressionsebene einer theoretischen Regression von Y auf X1 , . . . , Xp . Dabei gilt: β0 = µY − β1 µX1 − · · · − βp µXp ,

(12.2.29)

βj = βY ∼Xj •X−j

(12.2.30)

f¨ ur j = 1, . . . , p und

12.2 Einf¨ uhrung in das multiple lineare Regressionsmodell

2 σU = σY2 (1 − R2 ).

665

(12.2.31)

Da in den Modellen KN und UHV die Stichprobenvariablen heterogen verteilt sind, sind die in (12.2.29)–(12.2.31) verwendeten theoretischen Kennwerte ohne Weiteres nicht definiert. Somit kann ein entsprechendes Resultat f¨ ur diese Modelle zun¨achst nicht formuliert werden. Wie im einfachen Regressionsmodell l¨asst sich dies jedoch mit Hinzunahme bestimmter Konvergenzannahmen bewerkstelligen. Die Koeffizienten β1 , . . . , βp lassen sich als Koeffizienten einer partiellen Regression interpretieren (was nat¨ urlich auch Sinn macht). Damit l¨asst sich im Rahmen eines multiplen Regressionsmodells auch schl¨ ussig argumentieren, wann ein partieller Koeffizient zur Sch¨atzung eines direkten kausalen Effekts korrekt ist und wann nicht. Man beachte hierzu den sp¨ateren Punkt zur OVB-Problematik. • Sch¨ atzen und Testen • Zur Sch¨ atzung der Koeffizienten β0 , β1 , . . . , βp k¨onnen die aus der empirischen multiplen Regression gewonnenen Formeln direkt in stochastische Varianten transferiert und dann als KQ-Sch¨ atzer interpretiert werden. In den Modellen BH und KS ergeben sich daraus aufgrund des u.i.v.-Schemas unmittelbar konsistente Sch¨atzungen. F¨ ur p = 2 etwa gilt: p ¯ 1 − βˆ2 X ¯ 2 −− βˆ0 = Y¯ − βˆ1 X → β0 , (12.2.32) βˆ1 =

2 2 − S˜Y X2 S˜X1 X2 p σX1 Y σX S˜X1 Y S˜X − σY X2 σX1 X2 2 2 − − → = β1 , 2 2 2 2 2 σX1 σX2 (1 − %2X1 X2 ) S˜X S˜X (1 − RX X )

(12.2.33)

2 2 − S˜Y X1 S˜X1 X2 p σX2 Y σX − σY X1 σX1 X2 S˜X2 Y S˜X 1 1 − − → = β2 . 2 2 (1 − %2 2 2 2 ˜ ˜ σ σ SX SX (1 − RX X ) X1 X2 X1 X2 )

(12.2.34)

1

βˆ2 =

1

2

2

1

1

2

2

Unter den Modellen KN und UHV w¨ aren hierf¨ ur wieder zus¨atzliche Konvergenzannahmen vorzunehmen. Die Inferenzmethoden lassen sich dann in v¨ollig analoger Weise entwickeln wie beim einfachen Regressionsmodell. Die Vorgehensweise l¨asst sich dabei in drei Schritte aufteilen: 1. Herleitung der Verteilung der KQ-Sch¨ atzer, 2. Sch¨atzung der Varianzen (Standardfehler) der KQ-Sch¨atzer, 3. Herleitung der Verteilung der maßgeblichen Inferenzstatistiken.

Satz 12.2.2: Inferenz im multiplen Regressionsmodell Gegeben sei ein multiples lineares Regressionsmodell gem¨aß Definition 12.2.3. Dann gilt f¨ ur j = 0, 1, . . . , p und n ≥ p + 2: 1. ein (1 − α)-Konfidenzintervall f¨ ur βj ist

666

12 Das lineare Regressionsmodell

(i) in den Modellen KN und KS gegeben durch   ˜βˆj , βˆj − tn−p−1,1−α/2 σ ˜βˆj , βˆj + tn−p−1,1−α/2 σ (ii) in Modell BH f¨ ur großes n gegeben durch   ˆ ˆβˆj , βj − z1−α/2 σ ˆβˆj , βˆj + z1−α/2 σ wobei σ ˜β2ˆ bzw. σ ˆβ2ˆ nur-homoskedasizit¨ ats-konsistente Varianzsch¨ atzer j j bzw. heteroskedastizit¨ ats-robuste Varianzsch¨ atzer bezeichnen, 2. die Entscheidungsregeln der u ¨blichen Tests basieren (i) in den Modellen KN und KS auf βˆj − βj,0 T˜βj = ∼ t(n − p − 1) σ ˜βˆj ur großes n auf (ii) in Modell BH f¨ βˆj − βj,0 a Tˆβj = ∼ N (0, 1) σ ˆβˆj

f¨ ur βj = βj,0 ,

f¨ ur βj = βj,0 ,

atzlichen Konvergenzannahmen sind die Konfidenzinter3. mit entsprechenden zus¨ valle und Tests f¨ ur Modell BH auch f¨ ur Modell UHV g¨ ultig.

Die konkreten Sch¨ atzformeln sind im Allgemeinen nur noch in matrixalgebraischer Form kompakt darstellbar. In der Praxis wird man die Berechnungen dann ohnehin rechnergest¨ utzt mithilfe einer geeigneten Software wie etwa R durchf¨ uhren. In Bezug auf die ¨ Verteilungen ergeben sich keine wesentlichen Anderungen. Die Anzahl der Freiheitsgrade bei der Verteilung verringert sich jedoch mit jedem zus¨atzlichen Regressor. • Ad¨ aquatheit von Modellannahmen und OVB • Zur Pr¨ ufung der Ad¨aquatheit der Modellannahmen in den verschiedenen Modellvarianten beachte man die Ausf¨ uhrungen und Fallbeispiele in Abschnitt 12.1.4. Wie auch im einfachen Modell stellt E(Ui |Xi1 = xi1 , . . . , Xip = xip ) = 0 in gewisser Weise die wichtigste“ Annahme dar und l¨asst sich anhand folgender Leit” frage pr¨ ufen: Leitfrage f¨ ur das OVB-Problem Gibt es neben den Regressoren X1 , . . . , Xp noch eine weitere maßgebliche Einflussgr¨oße auf Y , die mit mindestens einem Regressor korreliert ist? Kann die Frage bejaht werden, so ist Annahme (A1M) verletzt, was dann im Allgemeinen zu einer asymptotischen Verzerrung der Sch¨atzung f¨ uhrt. Diese wird (auf Englisch)

12.2 Einf¨ uhrung in das multiple lineare Regressionsmodell

667

auch als Omitted Variable Bias, kurz OVB, bezeichnet, da sie durch Nichtber¨ ucksichtigung von Einflussvariablen verursacht wird.

• OVB im 3-Variablen-Fall • Im Falle von einer abh¨angigen Variablen und zwei Einflussvariablen l¨ asst sich die Mechanik des OVB-Problem relativ gut nachvollziehen. Angenommen, es liege Modell KS oder BH mit der Grundgleichung Y = β0 + βX · X + βZ · Z + V

(12.2.35)

vor. Auf die Indizierung mit i k¨ onnen wir aufgrund des u.i.v.-Schemas wieder verzichten. Außerdem verwenden wir eine besser identifizierbare Notation. Bei Erf¨ ullung der Modellannahmen w¨ urde man dann etwa den Koeffizienten βX als den wahren direkten (kausalen) Effekt von X auf Y interpretieren. Analoges w¨ urde f¨ ur βZ gelten. Gem¨aß den vorhergehenden Ausf¨ uhrungen und Notationen k¨onnen wir das Modell dann auch schreiben als Y = β0 + βY ∼X•Z X + βY ∼Z•X Z + V mit βY ∼X•Z = βX und βY ∼Z•X = βZ . Sofern man nun statt (12.2.35) das einfache Modell Y = β0 + βX · X + U

mit U = βZ · Z + V

(12.2.36)

sch¨atzt und somit Z nicht ber¨ ucksichtigt, folgt Cov(X, U ) = Cov(X, βZ Z + V ) = βZ Cov(X, Z).

(12.2.37)

Hierzu beachte man, dass X mit V wegen der G¨ ultigkeit von (12.2.35) modellimmanent unkorreliert ist. Hieran erkannt man, dass die Annahme E(U |X) = 0 in (12.2.36) verletzt ist, sofern die OVB-Leitfrage im Sinne von βZ 6= 0 und Cov(X, Z) 6= 0 bejaht werden kann. Als Sch¨ atzer f¨ ur βX wird in (12.2.36) dann f¨alschlicherweise der Sch¨atzer S˜XY βˆY ∼X = 2 S˜ X

verwendet. F¨ ur diesen gilt dann aber gem¨ aß (12.2.11): σXZ σXZ p βˆY ∼X −−→ βY ∼X•Z + βY ∼Z•X 2 = βX + βZ 2 . (12.2.38) σX σX Damit wird der wahre Wert βX asymptotisch verzerrt gesch¨atzt, falls wie zuvor βZ 6= 0

und σXZ = 0.

Somit erh¨alt die OVB-Leitfrage f¨ ur den Fall p = 2 eine theoretische Fundierung. Satz 12.2.3: OVB im 3-Variablen-Fall Angenommen, Modell KS oder BH mit der Grundgleichung Y = β0 + βX · X + βZ · Z + V sei in einer bestimmten Situation ad¨ aquat. Sch¨atzt man Y = β0 + βX · X + U

668

12 Das lineare Regressionsmodell

mit den gew¨ohnlichen KQ-Sch¨ atzern, so betr¨agt der OVB f¨ ur βX σXZ OV BX = βZ 2 , wobei βZ σXZ = Cov(X, U ). σX

(12.2.39)

• Direkte und indirekte Effekte und Merkregeln • Der OVB l¨asst sich umschreiben in σXZ OV BX = βZ βZ∼X , wobei βZ∼X = 2 σX den Steigungskoeffizienten einer theoretischen Regression von Z auf X bezeichnet. Mit dieser Betrachtung l¨ asst sich zwischen direkten und indirekten (kausalen) Effekten unterscheiden. Angenommen, X und Z u ¨ben jeweils einen direkten kausalen Effekt auf Y aus. Diese Effekte werden mit den Koeffizienten βX und βZ modelliert. Außerdem u ¨be X auf Z einen direkten kausalen Einfluss aus, der durch βZ∼X modelliert wird (Abb. ¨ 12.2.5). Andert man nun X um ∆x Einheiten, so ¨andert sich Z um βZ∼X ∆x Einheiten. ¨ ¨ Diese allein durch X bewirkte Anderung in Z f¨ uhrt wiederum zu einer Anderung in Y um βZ βZ∼X ∆x Einheiten. Es erscheint nun naheliegend den OVB von X als indirekten kausalen Effekt von X u ¨ber Z auf Y zu interpretieren. Aufgrund von (12.2.7) gilt: βY ∼X = βX + βZ βZ∼X .

(12.2.40)

Bezeichnen wir den im fehlspezifizierten Modell gesch¨atzten Effekt βY ∼X als kausalen Gesamteffekt oder totalen kausalen Effekt von X auf Y , so erhalten wir im Endeffekt die einfache Formel (vgl. hierzu etwa Urban und Mayerl [2011, Abschnitt 5.3]). Gesamteffekt = Direkter Effekt + Indirekter Effekt. Dabei stellt sich heraus, dass die in Abschnitt 5.3.3 aufgestellten Merkregeln zu systematischen Verzerrungen empirischer Abh¨angigkeiten eine vollst¨andige theoretische Fundierung erhalten. Wie bei der gew¨ ohnlichen Korrelation gilt auch im Falle der partiellen Korrelation: Korrelation impliziert keine Kausalit¨ at! Insofern bedarf es stets einer kritischen Pr¨ ufung, ob ein bestimmter Effekt im Zusammenhang der Regression mit dem Zusatz kausal“ ” versehen werden soll oder nicht. Abb. 12.2.5: Direkte und indirekte Effekte

βX = βY ~X Z X

Y βZ ~X

βZ = βY ~Z X Z

12.2 Einf¨ uhrung in das multiple lineare Regressionsmodell

669

• Streuungszerlegung und General-F-Test • Im Rahmen des multiplen Regressionsmodells lassen sich auch Hypothesen, in denen mehrere Koeffizienten involviert sind, testen. Maßgeblich ist die sehr flexibel anwendbare Klasse der sog. F-Tests, die auf der F-Verteilung als Testverteilung beruhen. Wir m¨ochten in diesem Zusammenhang lediglich kurz auf den F -Test f¨ ur das spezielle Testproblem H0 : β1 = · · · = βp = 0

vs. H1 : βj 6= 0

f¨ ur mindestens ein j ∈ {1, ..., p}

eingehen. Den zu diesem Testproblem korrespondierenden Test k¨onnte man als General-F-Test (im Englischen wird er h¨ aufig Overall-F-Test genannt) bezeichnen, da er in gewisser Weise die G¨ ultigkeit des gesamten Modells in Frage stellt. Als Teststatistik wird hierf¨ ur R2 n−p−1 F = · (12.2.41) p 1 − R2 verwendet, wobei R2 das Bestimmtheitsmaß ist. Vom Vorfaktor abgesehen, in den die Anzahl von Beobachtungen und die Anzahl der Regressoren eingehen, wird der erkl¨arte Streuungsanteil ins Verh¨ altnis zum nicht erkl¨ arten Streuungsanteil gesetzt. Mit (12.1.17) l¨ asst sich (12.2.41) auch umschreiben in 2 n − p − 1 S˜Yˆ F = · 2. (12.2.42) p S˜Uˆ In dieser Betrachtung wird die erkl¨ arte Streuung (systematische Streuung) durch die Residualstreuung (zuf¨ allige Streuung) dividiert. Es l¨asst sich zeigen, dass F in den Modellen KN und KS unter H0 einer F (p, n − p − 1)-Verteilung gen¨ ugt (vgl. etwa Rencher [2012, Kap. 8]). Hierbei handelt es sich um eine stetige Verteilung mit positiver Tr¨agermenge, auf die wir jetzt nicht n¨ aher eingehen m¨ochten. Es erscheint jedenfalls sinnvoll, H0 nur f¨ ur große Werte von F zu verwerfen, da ein hohes Bestimmtheitsmaß zu einem hohen F -Wert f¨ uhrt und in inhaltlichem Widerspruch zu H0 steht. Speziell f¨ ur p = 1 erh¨alt man R2 . (12.2.43) 1 − R2 Dies ist gem¨aß (12.1.91) aber gerade die quadrierte Teststatistik des t-Tests zu H0 : β1 = 0, d.h. F = (T˜β1 )2 . (12.2.44) F = (n − 2) ·

Tats¨achlich l¨asst sich der zweiseitige t-Test f¨ ur H0 : β1 = 0 ¨aquivalent auch als F -Test durchf¨ uhren. Da f¨ ur eine t(n − 2)-verteilte Zufallsvariable X das Verteilungsresultat X 2 ∼ F (1, n − 2)

(12.2.45)

gilt, sind die Testentscheidungen beider Tests stets identisch. In den Modellen BH und UHV l¨ asst sich der Test in der beschriebenen Form f¨ ur großes n zumindest approximativ durchf¨ uhren

670

12 Das lineare Regressionsmodell

12.2.3 Fallbeispiele Fallbeispiel 2 fortgesetzt: Determinanten des Lernerfolgs Im Hinblick auf die in Abschnitt 12.1.4 bereits gef¨ uhrte Diskussion um m¨ogliche Verzerrungen bei der Sch¨ atzung des Effekts der Klassengr¨oße, kann nun alternativ ein multiples Regressionsmodell gesch¨ atzt werden. Tabelle 12.2.2 fasst die Sch¨atzergebnisse f¨ ur 4 verschiedene Ans¨ atze im Rahmen von Modell BH zusammen. Die erste Spalte gibt das Ergebnis der einfachen Regression wider. Tabelle 12.2.2: Gesch¨ atzte Varianten f¨ ur Modell BH Modell Regressor Konstante Klassengr¨ oße

1 698.93 (10.34) −2.28 (0.52)

E.-Anteil

2 686.03 (8.70) −1.10 (0.43) −0.65 (0.03)

B.-Anteil R2 SER

0.0512 18.58

0.4264 14.46

3 702.91 (5.50) −1.12 (0.27)

−0.60 (0.02) 0.7668 9.22

4 700.15 (5.54) −1.00 (0.27) −0.12 (0.03) −0.55 (0.02) 0.7745 9.08

Ausgehend von Modell 1 steigt der Erkl¨ arungsgehalt im Sinne des Bestimmtheitsmaßes mit Aufnahme des Englisch-Lerner-Anteils oder des Beg¨ unstigten-Anteils (Modelle 2 und 3) sprunghaft an. Absehbar ist dies bereits an den deutlich h¨oheren Korrelationen dieser Variablen mit dem Testergebnis. Der direkte Effekt der Klassengr¨oße wird ¨ um die H¨alfte schw¨ acher eingestuft als im einfachen Modell. Die Richtung der Anderung ist dabei konkordant mit den aus (12.2.39) ableitbaren Merkregeln f¨ ur systematische Verzerrungen. Da die Klassengr¨ oße jeweils positiv mit den beiden Anteilen korreliert ist und diese wiederum negativ mit dem Testergebnis korrelieren, f¨ uhrt dies zu einer negativen Verzerrung im einfachen Modell. Nimmt man sowohl den Englisch-Lerner- als auch den Beg¨ unstigten Anteil ins Modell auf, steigt der Erkl¨ arungsgehalt nur noch geringf¨ ugig an (< 0.01). Auch der Kour die Klassengr¨ oße ver¨ andert sich nur wenig. Jedoch werden die Effekte des effizient f¨ Englisch-Lerner-Anteils und des Beg¨ unstigten-Anteils jeweils schw¨acher eingesch¨atzt. Insbesondere der Effekt des Englisch-Lerner-Anteils wird mit −0.12 deutlich schw¨acher eingestuft als in Modell 2 mit −0.65. Im Grunde l¨asst sich dies als OVB-Problematik im 4-Variablen-Fall deuten. Wenngleich wir hierf¨ ur u ¨ber keine theoretisch fundierten Merkregeln verf¨ ugen, erscheint das Ergebnis naheliegend. Da beide soziodemographischen Variablen einen negativen Effekt auf das Testergebnis aus¨ uben und positiv miteinander korreliert sind, werden ihre direkten Effekte in Modell 4 jeweils schw¨acher ausgewiesen als bei den einfachen Regressionen. In gewisser Weise wird zwischen Sprachproblemen und sozialen Hintergrundproblemen st¨ arker differenziert. Da beide Variablen gleich skaliert sind (in Prozentpunkten gemessen), lassen sich die Sch¨atzungen beider Koeffizien-

12.2 Einf¨ uhrung in das multiple lineare Regressionsmodell

671

Abb. 12.2.6: Totale und direkte Effekte der Einflussvariablen

Testergebnis

Klassengröße

E.−Lerner−Anteil

Begünstigten−Anteil

700

700

700

680

680

680

660

660

660

640

640

640

620

620

620

14 16 18 20 22 24 26

0

Totaler Effekt

Testergebnis

30 20 10

40

60

Totaler Effekt

80

0

40

20

20

0

0

−10

−20

−20

−20 0

2

4

Partieller Effekt

6

20

40

60

Totaler Effekt

80 100

−40

−30 −4 −2

0

30 10

−10 −30

20

−20

0

20

Partieller Effekt

40

−40

0

20

Partieller Effekt

40

ten auch direkt vergleichen. Demnach ist der Effekt des Beg¨ unstigten-Anteils mit −0.55 deutlich st¨arker als der Effekt des Englisch-Lerner-Anteils mit −0.12. Zudem sehen wir, dass der Erkl¨arungsgehalt von Modell 3 zu Modell 4 praktisch nicht mehr ansteigt. In Modell 4 wird der Effekt der Klassengr¨oße nur noch mit −1 eingesch¨atzt. Das 95%-Konfidenzintervall f¨ ur den korrespondierenden Koeffizienten lautet [−1 − 1.96 · 0.27, −1 + 1.96 · 0.27] ≈ [−1.53, −0.47]. Dies bedeutet, dass jeder Sch¨ uler mehr in einer Klasse bei Konstanz aller anderen Variablen im Durchschnitt zu einer Verschlechterung des Testergebnisses um 1 Punkt f¨ uhrt. Geht man beispielsweise von einer Klassengr¨ oße von 20 Sch¨ ulern aus, so w¨ urde dies einer Vergr¨oßerung der Klasse um 5% entsprechen. Dies bedeutet jedoch, dass 1 Sch¨ uler mehr aus sozial benachteiligtem Milieu (im Sinne des Beg¨ unstigten-Anteils) zu einer Verschlechterung um −5 · 0.55 = −2.75 f¨ uhrt. Ein Sch¨ uler mehr mit Sprachproblemen w¨ urde hingegen zu einer Verschlechterung von nur −0.6 beitragen. Abbildung 12.2.6 stellt die Sch¨ atzung der totalen Effekte der einzelnen Variablen den Sch¨atzungen der direkten Effekte in Modell 4 gegen¨ uber. So zeigt die obere Reihe die jeweiligen einfachen Regressionen des Testergebnisses auf die Einflussvariablen. Die untere Reihe zeigt die partiellen Regressionsplots korrespondierend zu Modell 4. An diesen l¨asst sich die Korrelation der einzelnen Einflussvariablen mit dem Testergebnis unter linearer Herausrechnung“ der jeweils anderen beiden Einflussvariablen ablesen. ” Die korrespondierenden Steigungskoeffizienten entsprechen dabei denen in Modell 4. Es sei bemerkt, dass alle Koeffizienten-Sch¨atzungen in allen Modellen zum Niveau 5% signifikant von 0 verschieden sind. In Modell 4 ergibt sich als Teststatistik des

672

12 Das lineare Regressionsmodell

General-F-Tests gem¨ aß (12.2.41) n−p−1 416 0.7745 R2 ≈ · · ≈ 476.3. 2 p 1−R 3 0.2255 Der kritische Wert, der gegeben ist durch das 0.95-Quantil einer F (3, 416)-Verteilung und 2.63 betr¨agt, wird bei weitem u ¨berschritten. Der Erkl¨arungsgehalt des Modells steht statistisch also v¨ ollig außer Frage. Gleiches gilt auch f¨ ur die anderen Modelle. F =

Die Residualplots von Abbildung 12.2.7 illustrieren die Zunahme des Bestimmtheitsmaßes f¨ ur die Modelle 1, 2 und 4. Dabei werden die KQ-Residuen jeweils gegen die gefitteten Werte abgetragen. Wie man sieht, nimmt die erkl¨arte Streuung im Vergleich zur Residualstreuung stetig zu. Abb. 12.2.7: Residualplots der Modelle 1, 2 und 4

R = 0.05

20 0

−20

40

Modell 4

2

R = 0.43

KQ−Residuen

40

Modell 2 KQ−Residuen

KQ−Residuen

Modell 1 2

20 0

−20

−40 640

660

680

Gefittete Werte

R = 0.77

20 0

−20

−40

620

40

2

−40

620

640

660

680

Gefittete Werte

620

640

660

680

Gefittete Werte

Kommen wir nun noch einmal auf die zu Beginn dieses Fallbeispiels (Abschnitt 12.1.4) gestellte Ausgangsfrage zur¨ uck, ob es sich lohnen w¨ urde mehr Lehrer einzustellen, um den Lernerfolg der Sch¨ uler zu verbessern. In Anbetracht der Ergebnisse erscheint es nun so, dass das Betreuungsverh¨ altnis zwar einen signifikanten Einfluss auf den Lernerfolg hat, dieser Einfluss aber im Vergleich zu anderen Faktoren wenig relevant ist. Man beachte hierzu die bereits in Abschnitt 11.2.4 gef¨ uhrte Diskussion u ¨ber den Unterschied von Signifikanz und Relevanz. Demnach besitzen die soziodemographischen Einflussvariablen hier einen weitaus h¨ oheren Erkl¨arungsanteil f¨ ur die Variation der Testergebnisse. Insbesondere besitzt der Beg¨ unstigten-Anteil einen ausgesprochen hohen Erkl¨arungsgehalt. Anstelle nun also etwa undifferenziert nur mehr Lehrer einzustellen, k¨onnte es beispielsweise sinnvoller sein, Sch¨ uler aus benachteiligten sozialen Schichten oder Sch¨ uler mit Sprachproblemen st¨arker individuell zu f¨ordern, etwa durch zus¨atzlichen Sprachunterricht oder individuelle Nachhilfe.

Fallbeispiel 3: Gewicht und Geschlecht Betrachten wir nochmals die Situation von Fall 2 in Beispiel 5.3.4. Wir diskutieren im Folgenden lediglich den Unterschied zwischen direktem und indirektem Effekt. F¨ uhrt man eine einfache Regression von Gewicht (in kg) auf Geschlecht (0 = m¨annlich, 1 = weiblich) durch, erh¨ alt man unter den Annahmen von Modell KS:

12.2 Einf¨ uhrung in das multiple lineare Regressionsmodell

c Gewicht = 75.68 − 16.88 · Geschlecht, (0.78) (1.50)

R2 ≈ 0.39,

673

SER ≈ 9.45.

Somit wird der totale Effekt des Geschlechts auf das Gewicht gesch¨atzt mit βˆGewicht∼Geschlecht ≈ −16.88. uhrt Dies bedeutet, dass Frauen im Durchschnitt 16.88 kg weniger wiegen als M¨anner. F¨ man eine einfache Regression von Gr¨ oße auf Geschlecht durch, erh¨alt man oc ße = 183.17 − 14.74 · Geschlecht, Gr¨ (0.51) (0.99)

R2 ≈ 0.53,

SER ≈ 6.20.

Der totale Effekt von Geschlecht auf Gr¨ oße betr¨agt damit ˆ βGr¨oße∼Geschlecht ≈ −14.74. uhrt man eine Frauen sind im Durchschnitt also 14.74 cm kleiner sind als M¨anner. F¨ multiple Regression von Gewicht auf Geschlecht und Gr¨oße (in cm) durch, erh¨alt man c oße, R2 ≈ 0.53, SER ≈ 8.23. Gewicht = −60.36 − 5.93 · Geschlecht +0.74 · Gr¨ (0.78) (1.50) (0.09) Als partieller bzw. direkter Effekt von Geschlecht auf Gewicht ergibt sich dann nur noch ein Wert von βˆGewicht∼Geschlecht•Gr¨oße ≈ −5.93. oße sind Frauen also im Durchschnitt 5.93 kg leichter als M¨anner. Bei gleicher K¨orpergr¨ Als direkter Effekt der Gr¨ oße auf das Gewicht ergibt sich ein Wert von ˆ βGewicht∼Gr¨oße•Geschlecht ≈ 0.74. Bei gleichem Geschlecht tr¨ agt also jeder Zentimeter mehr im Durchschnitt zu 0.74 kg mehr Gewicht bei. Mit diesen drei Regressionen k¨onnen wir jetzt den totalen Effekt von Geschlecht auf Gewicht gem¨ aß (12.2.40) zerlegen in βˆGewicht∼Geschlecht = βˆGewicht∼Geschlecht•Gr¨oße + βˆGewicht∼Gr¨oße•Geschlecht · βˆGr¨oße∼Geschlecht . Etwaige Abweichungen sind dabei auf Rundungseffekte zur¨ uckzuf¨ uhren. Der indirekte Effekt von Geschlecht auf Gewicht u oße betr¨agt damit ¨ber Gr¨ βˆGewicht∼Gr¨oße•Geschlecht · βˆGr¨oße∼Geschlecht ≈ 0.74 · (−14.74) ≈ −10.91. Betrachtet man also das K¨ orpergewicht in Bezug auf Geschlecht, so werden M¨anner im Durchschnitt um 16.88 kg schwerer als Frauen. Dieser Unterschied beruht auf einem direkten geschlechtsspezifischen Effekt von 5.93 kg und einem deutlich st¨arkeren u ¨ber die K¨orpergr¨oße transferierten indirekten Effekt von 10.91 kg (M¨anner sind gr¨oßer und dar¨ uber dann schwerer). Der direkte Effekt von Geschlecht auf Gewicht k¨onnte beispielsweise auf unterschiedliche anatomische und physische Merkmale von M¨annern und Frauen zur¨ uckzuf¨ uhren sein.

674

12 Das lineare Regressionsmodell

Fallbeispiel 4: Bin¨ are Regressoren und ANOVA-Modelle • Einfache Regression mit bin¨ arem Regressor • Betrachten wir nochmals die Situation aus Beispiel 11.1.4 (Pflanzenexperiment). Im Rahmen der statistischen Modellierung gehen wir hier von n = n0 + n1 unabh¨angigen Stichprobenvariablen Y01 , Y02 , . . . , Y0n0

mit Y0i ∼ N (µ0 , σ 2 ) f¨ ur i = 1, . . . , n0 und

Y11 , Y12 , . . . , Y1n1

mit Y1i ∼ N (µ1 , σ 2 ) f¨ ur i = 1, . . . , n1

aus. Auf Basis von Satz 11.3.2 (ii) verwenden wir dann f¨ ur das Testproblem H0 : µ0 = µ1 vs. H1 : µ0 6= µ1 die Teststatistik Y¯1 − Y¯0 H0 T˜D = q ∼ t(n0 + n1 − 2). 2 2 Sp /n0 + Sp /n1 ¨ Aquivalent dazu k¨ onnen wir auch ein einfaches Regressionsmodell mit bin¨arem Regressor X (0 f¨ ur ohne D¨ ungung“, 1 f¨ ur mit D¨ ungung“) und der Modellgleichung ” ” Yi = β0 + β1 Xi + Ui f¨ ur i = 1, . . . , n unter den Annahmen von Modell KN betrachten. Im vorliegenden Fall mit n0 = n1 = 3 w¨ urden die Werte des (nichtstochastischen) bin¨aren Regressors X demnach lauten x1 = 0, x2 = 0, x3 = 0, x4 = 1, x5 = 1 und x6 = 1. Die Modellgleichungen der einzelnen Beobachtungen lauten dann Yi = β0 + Ui f¨ ur i = 1, 2, 3 und Yi = β0 + β1 + Ui f¨ ur i = 4, 5, 6. Als Testproblem w¨ ahlt man nun H0 : β1 = 0

vs. H1 : β1 6= 0.

Gem¨aß den S¨atzen 12.1.5 und 12.1.6 lautet die Teststatistik βˆ1 H0 T˜β1 = ∼ t(n0 + n1 − 2), σ ˜βˆ1 die gem¨aß (12.1.92) mit T˜D u ¨bereinstimmt. Im vorliegenden Fall mit den Beobachtungen (xi , yi ) : (0, 14), (0, 25), (0, 36), (1, 64), (1, 46), (1, 55) erh¨alt man dann t˜D = t˜β1 ≈ 3.656. Als zweiseitiger kritischer Wert wird das 0.975-Quantil der t(4)-Verteilung verwendet: t4,0.975 ≈ 2.78. Gem¨aß (12.2.43)–(12.2.45) lassen sich die beiden Tests auch ¨aquivalent als GeneralF-Test durchf¨ uhren mit F = (T˜β )2 = (T˜D )2 1

12.2 Einf¨ uhrung in das multiple lineare Regressionsmodell

675

als Teststatistik. Dabei gilt: R2 ∼ F (1, n − 2), 1 − R2 wobei R2 das Bestimmtheitsmaß ist. Im vorliegenden Fall erg¨abe sich F = (n − 2) ·

f ≈ 3.6562 ≈ 13.37. Als kritischer Wert wird dann das 0.95-Quantil der F (1, 4)-Verteilung verwendet: F1,4,0.95 ≈ 7.71. Dabei gilt (Abweichungen sind auf Rundungen zur¨ uckzuf¨ uhren): F1,4,0.95 ≈ (t4,0.975 )2 . Die Nullhypothese wird in jedem Fall klar verworfen, sodass bei einem Niveau von 5% von einer signifikanten Wirkung der D¨ ungung auszugehen ist.

• Einfache ANOVA-Modelle • All diese Sachverhalte lassen sich nun auch auf Vergleiche von mehr als 2 Gruppen verallgemeinern. Regressionstechnisch f¨ uhrt dies dann zur Klasse der sog. einfachen ANOVA-Modelle (Analysis of Variance). Im Folgenden sei dies nur kurz skizziert. Ausgehend von n = n0 + n1 + · · · + np unabh¨angigen Stichprobenvariablen Y01 , Y02 , . . . , Y0n0

mit Y0i ∼ N (µ0 , σ 2 ) f¨ ur i = 1, . . . , n0 ,

Y11 , Y12 , . . . , Y1n1 .. .

mit Y1i ∼ N (µ1 , σ 2 ) f¨ ur i = 1, . . . , n1 , .. .

Yp1 , Yp2 , . . . , Ypn1

mit Ypi ∼ N (µp , σ 2 ) f¨ ur i = 1, . . . , np ,

betrachtet man dann das Testproblem H0 : µ0 = µ1 = · · · = µp vs. H1 : µi 6= µj f¨ ur mindestens in Paar (i, j) mit i 6= j, oder ¨aquivalent, H0 : µ1 − µ0 = 0, µ2 − µ0 = 0, . . . , µp − µ0 = 0 vs. H1 : µj − µ0 6= 0 f¨ ur mindestens ein j ∈ {1, . . . , p}. Es l¨asst sich zeigen, dass hierf¨ ur die Teststatistik p P nj ¯ (Yj − Y¯ )2 p X n − p − 1 j=0 n nj ¯ ¯ = F = · mit Y Yj p P p n nj ˜2 j=1 S n j

(12.2.46)

j=0

verwendet werden kann, wobei Y¯j und S˜j2 die Stichprobenmittel bzw. Stichprobenvarianzen der insgesamt p + 1 Gruppen bezeichnen. Im Wesentlichen wird in F die externe Streuung durch die interne Streuung der Gruppen dividiert (vgl. Abschnitt 4.5.1).

676

12 Das lineare Regressionsmodell

Dabei gilt: H

F ∼0 F (p, n − p − 1).

(12.2.47)

Es leuchtet ein, dass der Test einseitig nach oben hin durchgef¨ uhrt wird, da nur eine im Vergleich zur internen Streuung verh¨ altnism¨aßig große externe Streuung f¨ ur eine Unterschiedlichkeit der Gruppen spricht. ¨ Aquivalent dazu kann nun auch ein multiples Regressionsmodell mit p bin¨aren Regressoren X1 , . . . , Xp und der Modellgleichung Yi = β0 + β1 X1i + · · · + βp Xpi + Ui

f¨ ur i = 1, . . . , n

unter den Annahmen von Modell KN betrachtet werden. Dazu w¨ahlt man das Testproblem H0 : β1 = β2 = · · · = βp = 0 vs. H1 : βj 6= 0 f¨ ur mindestens ein j ∈ {1, . . . , p}. Man beachte, dass sich hier in Erweiterung des einfachen Modells die modelltheoretischen Beziehungen = µ0 , β1 = µ1 − µ0 , β2 = µ2 − µ0 , . . . , βp = µp − µ0 mit = E(Yi |X1i = 0, X2i = 0, . . . , Xpi = 0), = E(Yi |X1i = 1, X2i = 0, . . . , Xpi = 0), = E(Yi |X1i = 0, X2i = 1, . . . , Xpi = 0), .. .. .. . . . µp = E(Yi |X1i = 0, X2i = 0, . . . , Xpi = 1) β0 µ0 µ1 µ2

ergeben. Es l¨asst sich zeigen, dass f¨ ur dieses Testproblem die General-F-Teststatistik (12.2.41) verwendet werden kann, die mit (12.2.46) u ¨bereinstimmt. Es gilt also Pp nj ¯ 2 ¯ n−p−1 n−p−1 R2 j=0 n (Yj − Y ) F = · = · , (12.2.48) Pp nj ˜2 p p 1 − R2 j=0 n Sj wobei R2 das Bestimmtheitsmaß der multiplen Regression ist. Betrachten wir als Beispiel nochmals die Situation aus Beispiel 4.5.1 mit p + 1 = 3 Gruppen. Die beobachteten Werte der (nichtstochastischen) bin¨aren Regressoren X1 und X2 und die Werte der abh¨ angigen Variable Y sind in Tabelle 12.2.3 aufgef¨ uhrt. Die Modellgleichungen lauten dann Yi = β0 + Ui f¨ ur i = 1, 2, 3, Yi = β0 + β1 + Ui f¨ ur i = 4, . . . , 7 und Yi = β0 + β2 + Ui f¨ ur i = 8, . . . , 12. Mit entsprechender Angleichung der Notation gilt in diesem Fall: p p X X nj nj 2 (¯ yj − y¯)2 = 0.145875, s˜j = 0.051 und s˜2Y = 0.196875. n n j=0 j=0 Dar¨ uber erhalten wir dann gem¨ aß (12.2.48) als Wert der Teststatistik 9 0.145875 f= · ≈ 12.87. 2 0.051

12.2 Einf¨ uhrung in das multiple lineare Regressionsmodell

677

Tabelle 12.2.3: Beobachtungen mit bin¨ aren Regressoren i 1 2 3 4 5 6 7 8 9 10 11 12

yi 1.0 1.3 0.7 1.7 2.1 1.9 2.3 1.3 1.2 1.8 1.4 1.6

x1i 0 0 0 1 1 1 1 0 0 0 0 0

x2i 0 0 0 0 0 0 0 1 1 1 1 1

Aufgrund der G¨ ultigkeit von Pp nj yj − y¯)2 0.145875 j=0 n (¯ 2 = ≈ 0.741 R = 2 s˜Y 0.196875 erhalten wir diesen Wert alternativ auch u ¨ber 9 0.741 f= · ≈ 12.87. 2 1 − 0.741 aß (12.2.47) das 0.95-Quantil der F (2, 9)-Verteilung verAls kritischer Wert wird gem¨ wendet, F2,9,0.95 ≈ 4.26. Die Nullhypothese wird klar verworfen. Die Gruppenmittelwerte sind zum Niveau 5% somit signifikant verschieden. Mit dieser inferenztheoretischen Auslegung der empirischen Streuungszerlegungsformel aus Teil 1 schließt sich abermals ein Kreis zwischen Empirie und Theorie.

Anhang: Tabellen Tabelle A.1: Wertetabelle der Standardnormalverteilung Tabelliert sind die Werte der Verteilungsfunktion der Normalverteilung, Φ(z). Ablesebeispiel: Φ(1.23) = Φ(1.2 + 0.03) ≈ 0.8907. z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9

0.00 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.9987 0.9990 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 1.0000

0.01 0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982 0.9987 0.9991 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 1.0000

0.02 0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.9987 0.9991 0.9994 0.9995 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

0.03 0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.9988 0.9991 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

0.04 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.9988 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

0.05 0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.9989 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

0.06 0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.9989 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

0.07 0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.9989 0.9992 0.9995 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

0.08 0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 0.9990 0.9993 0.9995 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

0.09 0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.9990 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 0.9999 1.0000

Anhang: Tabellen

679

Tabelle A.2: Quantilstabelle der t-Verteilung Tabelliert sind die Quantile der t-Verteilung f¨ ur n Freiheitsgrade. F¨ ur n > 30 gilt: tn,α ≈ zα , wobei zα das α-Quantil der Standardnormalverteilung ist. Ablesebeispiel: t20,0.99 ≈ 2.528. n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

0.6 0.3249 0.2887 0.2767 0.2707 0.2672 0.2648 0.2632 0.2619 0.2610 0.2602 0.2596 0.2590 0.2586 0.2582 0.2579 0.2576 0.2573 0.2571 0.2569 0.2567 0.2566 0.2564 0.2563 0.2562 0.2561 0.2560 0.2559 0.2558 0.2557 0.2556

0.8 1.3764 1.0607 0.9785 0.9410 0.9195 0.9057 0.8960 0.8889 0.8834 0.8791 0.8755 0.8726 0.8702 0.8681 0.8662 0.8647 0.8633 0.8620 0.8610 0.8600 0.8591 0.8583 0.8575 0.8569 0.8562 0.8557 0.8551 0.8546 0.8542 0.8538

0.9 3.0777 1.8856 1.6377 1.5332 1.4759 1.4398 1.4149 1.3968 1.3830 1.3722 1.3634 1.3562 1.3502 1.3450 1.3406 1.3368 1.3334 1.3304 1.3277 1.3253 1.3232 1.3212 1.3195 1.3178 1.3163 1.3150 1.3137 1.3125 1.3114 1.3104

0.95 6.3138 2.9200 2.3534 2.1318 2.0150 1.9432 1.8946 1.8595 1.8331 1.8125 1.7959 1.7823 1.7709 1.7613 1.7531 1.7459 1.7396 1.7341 1.7291 1.7247 1.7207 1.7171 1.7139 1.7109 1.7081 1.7056 1.7033 1.7011 1.6991 1.6973

0.975 12.7062 4.3027 3.1824 2.7764 2.5706 2.4469 2.3646 2.3060 2.2622 2.2281 2.2010 2.1788 2.1604 2.1448 2.1314 2.1199 2.1098 2.1009 2.0930 2.0860 2.0796 2.0739 2.0687 2.0639 2.0595 2.0555 2.0518 2.0484 2.0452 2.0423

0.99 31.8205 6.9646 4.5407 3.7469 3.3649 3.1427 2.9980 2.8965 2.8214 2.7638 2.7181 2.6810 2.6503 2.6245 2.6025 2.5835 2.5669 2.5524 2.5395 2.5280 2.5176 2.5083 2.4999 2.4922 2.4851 2.4786 2.4727 2.4671 2.4620 2.4573

0.995 63.6567 9.9248 5.8409 4.6041 4.0321 3.7074 3.4995 3.3554 3.2498 3.1693 3.1058 3.0545 3.0123 2.9768 2.9467 2.9208 2.8982 2.8784 2.8609 2.8453 2.8314 2.8188 2.8073 2.7969 2.7874 2.7787 2.7707 2.7633 2.7564 2.7500

0.999 318.3088 22.3271 10.2145 7.1732 5.8934 5.2076 4.7853 4.5008 4.2968 4.1437 4.0247 3.9296 3.8520 3.7874 3.7328 3.6862 3.6458 3.6105 3.5794 3.5518 3.5272 3.5050 3.4850 3.4668 3.4502 3.4350 3.4210 3.4082 3.3962 3.3852

0.9995 636.6192 31.5991 12.9240 8.6103 6.8688 5.9588 5.4079 5.0413 4.7809 4.5869 4.4370 4.3178 4.2208 4.1405 4.0728 4.0150 3.9651 3.9216 3.8834 3.8495 3.8193 3.7921 3.7676 3.7454 3.7251 3.7066 3.6896 3.6739 3.6594 3.6460

680

Anhang: Tabellen

Tabelle A.3: Quantilstabelle der χ2 -Verteilung Tabelliert sind die Quantile der χ2 -Verteilung f¨ ur n Freiheitsgrade. Ablesebeispiel: χ210,0.95 = 18.307. n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

0.01 0.000 0.020 0.115 0.297 0.554 0.872 1.239 1.647 2.088 2.558 3.054 3.571 4.107 4.660 5.229 5.812 6.408 7.015 7.633 8.260 8.897 9.543 10.196 10.856 11.524 12.198 12.879 13.565 14.257 14.954

0.025 0.001 0.051 0.216 0.484 0.831 1.237 1.690 2.180 2.700 3.247 3.816 4.404 5.009 5.629 6.262 6.908 7.564 8.231 8.906 9.591 10.283 10.982 11.689 12.401 13.120 13.844 14.573 15.308 16.047 16.791

0.05 0.004 0.103 0.352 0.711 1.145 1.635 2.167 2.733 3.325 3.940 4.575 5.226 5.892 6.571 7.261 7.962 8.672 9.390 10.117 10.851 11.591 12.338 13.091 13.848 14.611 15.379 16.151 16.928 17.708 18.493

0.1 0.016 0.211 0.584 1.064 1.610 2.204 2.833 3.490 4.168 4.865 5.578 6.304 7.042 7.790 8.547 9.312 10.085 10.865 11.651 12.443 13.240 14.041 14.848 15.659 16.473 17.292 18.114 18.939 19.768 20.599

0.5 0.455 1.386 2.366 3.357 4.351 5.348 6.346 7.344 8.343 9.342 10.341 11.340 12.340 13.339 14.339 15.338 16.338 17.338 18.338 19.337 20.337 21.337 22.337 23.337 24.337 25.337 26.336 27.336 28.336 29.336

0.9 2.705 4.605 6.251 7.779 9.236 10.645 12.017 13.362 14.684 15.987 17.275 18.549 19.812 21.064 22.307 23.542 24.769 25.989 27.204 28.412 29.615 30.813 32.007 33.196 34.382 35.563 36.741 37.916 39.087 40.256

0.95 3.841 5.992 7.815 9.488 11.070 12.592 14.067 15.507 16.919 18.307 19.675 21.026 22.362 23.685 24.996 26.296 27.587 28.869 30.143 31.410 32.671 33.924 35.172 36.415 37.653 38.885 40.113 41.337 42.557 43.773

0.975 5.024 7.378 9.348 11.143 12.832 14.449 16.013 17.535 19.023 20.483 21.920 23.337 24.736 26.119 27.488 28.845 30.191 31.526 32.852 34.170 35.479 36.781 38.076 39.364 40.647 41.923 43.194 44.461 45.722 46.979

0.99 6.635 9.210 11.345 13.277 15.086 16.812 18.475 20.090 21.666 23.209 24.725 26.217 27.688 29.141 30.578 32.000 33.409 34.805 36.191 37.566 38.932 40.289 41.638 42.980 44.314 45.642 46.963 48.278 49.588 50.892

Stichwortverzeichnis 3D-Punktwolken, 176 A-posteriori-Verteilung, 509 A-priori-Verteilung, 509 a.h.v., 438 a.i.v., 438 Abbildung, 218 abh¨angige Variable, 151 Abh¨angigkeit bedingte, 194, 197 empirische, 26, 110, 126, 183 stochastische, 234 abz¨ahlbar unendlich, 215 Achsenabschnitt, 150 Achsenabschnittsregression, 157, 163 Ad¨aquationsproblem, 2 Additionskalk¨ ul, 223, 225, 248 Additionssatz, 221 additiv, 195 Alternativhypothese, 523 Angelpunkte, siehe Hinges Annahmebereich, 524 ANOVA, 675 Anpassungsg¨ ute, 171 Anrainer oberer, 40 unterer, 40 aquivariant, 123 arithmetisches Mittel, 52, 103 bedingtes, 141 Assoziationsplot, 115, 126, 181 asymptotisch verzerrt, 632 Ausgleichsgerade, 155 Auspr¨agungsm¨oglichkeiten, 28 Ausreißer, 41, 55, 130 Auswahlsatz, 436 Axiome von Kolmogoroff, 203, 204, 218 Balkendiagramm, 33, 125 Bayes-Formel, 241, 242 Bayes-Kalk¨ ul, 509

Bayes-Statistik, 18, 243 Bayes-Tests, 583 Bestimmtheitsmaß, 171, 172 theoretisches, 607, 660 Bijektion, 214 bimodal, 49 bin¨ar, 626 Bindungen, 147, 148, 170 Binomialkoeffizient, 343 Binomialverteilung, 349 Biplots, 176 Boxplot, 39 CA-Biplot, 181 Causal Inference, 184 Chi-Quadrat-Distanz, 182 Chi-Quadrat-Koeffizient, 116, 119 Chi-Quadrat-Unabh¨angigkeitstest, 119, 124 Correspondence Analysis, 181 Data Mining, 14, 15, 18 Daten, 1 fehlende, 13 gruppierte, 61 zufallsabh¨angige, 3 Datenscreening, 131 Definitionsbereich, 218 deskriptiv, 10 deskriptive statistische Methoden, 4 Dezile, 66, 170 dichotom, 626 Dichotomisierung, 168 Dichte, 250 bedingte, 269 Dichtefunktion gemeinsame, 268 zweidimensionale, 268 Dichtesch¨atzung, 39 Differenzmenge, 211 disjunkt, 212, 216

682 paarweise, 217 diskretisieren, 168 Dummy-Variablen, 626 durchschnittliches Spaltenprofil, 180 durchschnittliches Zeilenprofil, 181 Durchschnittsrang, 147 EDA, 14, siehe auch explorative Datenanalyse Effekt direkter, 195 direkter kausaler, 668 negativer direkter, 190 negativer indirekter, 191 partieller, 195, 650 positiver direkter, 190 positiver indirekter, 191 totaler, 191, 195 Einfallsklasse, 57 Einflussvariable, 151, 171, 184 Einheitsprofile, 182 Element, 209 Elementarereignis, 216 Empirie, 9, 143 empirisch, 8 Endogenit¨atsproblem, 632 Ereignis, 216 Ereignisraum, 204, 225 Ergebnisraum, 219 u ¨berabz¨ahlbarer, 216 diskreter, 216, 217 Erhebungsstudien, 185 erkl¨arte Streuung, 594 erwartungstreu, 453 Erwartungswert bedingter, 319 unbedingter, 319 Erwartungswertoperator, 298 EVF, 44, siehe empirische Verteilungsfunktion Experiment, 184 Experimentalstudien, 185 explorative Datenanalyse, 14 externe Streuung, 77 Faktoren, 193 Fakult¨at, 341

Stichwortverzeichnis Fehler, 151 Fehler 1. Art, 531 Fehler 2. Art, 531 Fehlerwahrscheinlichkeit 1. Art, 534 2. Art, 535 frequentistisch, 207 Funktion, 218 G¨ ute, 537 G¨ utefunktion, 537 Gauß-Klammer, 40, 63 Gauß-Markov-Eigenschaft, 157 Gauß-Markov-Theorem, 157, 620 Gauß-Test, 552 approximativer, 552 Ged¨achtnislosigkeit, 358 gefittete Werte, 155, 657 gemeinsam stetig verteilt, 268 gemischt skaliert, 412, 425 Geod¨asie, 163 geometrisches Mittel, 67 geordnetes Paar, 213 Gesamteffekt kausaler, 668 Gesamtstreuung, 4, 5, 76 GGZ, 379 Gini-Koeffizient, 91 normierter, 92 gleichverteilt diskret, 266 Gleichverteilung zweidimensionale stetige, 272 Goodman and Kruskal’s Gamma, 170 Grenzwertsatz von de Moivre, 388 Grundgesamtheit, 9, 23, 49, 433 hypothetische, 437 reale, 433 Grundmenge, 211 Gruppenanteile, 61 Gruppengewichte, 61 H¨aufigkeit absolute, 29, 107, 124 bedingte, 108, 110 relative, 29, 107 H¨aufigkeitsdichte, 37

Stichwortverzeichnis H¨ aufigkeitsdichtefunktion, 45 H¨ aufigkeitsfunktion, 43 H¨ aufigkeitsverteilung absolute, 29, 32 gemeinsame absolute, 107 gemeinsame relative, 107 relative, 29, 32 Hauptkomponente, 179 Hauptkomponentenanalyse, 177 Hauptkoordinaten, 179 heatmap, 331 Herausrechnen lineares, 649 Hesse-Matrix, 587 Heteroskedastizit¨ at, 498 bedingte, 602 unbedingte, 604 Hexagonal Binning, 132 Hexagonalplot, 132 Hinge oberer, 40 unterer, 40 Histogramm, 35 Homoskedastizit¨at, 498, 599 bedingte, 600 identisch verteilt, 260 Imageplot, 331 Indexmenge, 28 Indexvariable, 28 Indikatorfunktion, 254 Induktion, 9, 433 induktiv, 9 induktive Statistik, 202, 427 induktive statistische Methoden, 4 Integrationskalk¨ ul, 225 Interaktion, 197 interne Streuung, 77 Interquartilsabstand, 40, 80 Intervall geschlossenes, 210 halboffenes, 210 offenes, 210 Intervallereignis, 250 invariant, 123 Invarianz, 94 irrational, 215

683 Irrtumswahrscheinlichkeit, 4, 7, 202 1. Art, 534 2. Art, 535 Kalk¨ ul datengest¨ utztes, 10 stochastisches, 10 kardinal skaliert, 24 kartesisches Koordinatensystem, 214 kartesisches Produkt, 213 kategorisieren, 168 kausal, 129 direkt, 166 indirekt, 166 kausale Effekte, 4, 5, 150, 171, 173, 185 direkte, 186 dynamische, 187 indirekte, 187 Kausalit¨at, 111, 183, 204 Granger-, 188 Kendall’s Tau, 170 Kennwerte empirische, 443 theoretische, 443 Klassenbreite, 36 Klassengrenzen, 31 Klassenh¨aufigkeit absolute, 31 relative, 31 Klassenmitte, 54 Klassenmittelwert, 54 Kleinste-Quadrate-Gerade, 152, 155 Kleinste-Quadrate-Koeffizienten, 155 Kleinste-Quadrate-Methode, 94, 129, 152, 153 Kombinatorik, 206, 341 Kompensation, 191 Komplement¨armenge, 211 Konfidenzintervall, 8, 10, 202, 472 Konfidenzniveau, 472 konsistent MSE-, 460 schwach, 460 Kontingenz, 117 Kontingenzkoeffizient, 105, 120, 143, 170 korrigierter, 119, 121, 169, 199

684 nach Pearson, siehe Kontingenzkoeffizient Kontingenztabelle, 106, 262 Konturplot, 153 Konvergenz nach Verteilung, 410 nach Wahrscheinlichkeit, 380, 408 stochastische, 380, 408 Konvergenzgeschwindigkeit, 386 Konzentration, 88 Korrelation empirische, 143 empirische partielle, 651 partielle, 424 theoretische, 143 Korrelationsanalyse, 15, 143 Korrelationskoeffizient, 121, 137, 199 empirischer, 137 nach Bravais-Pearson, 143, 169 nach Pearson, 129, 132, 146 nach Spearman, 147, 169, 170 theoretischer, 328 Korrelationsmatrix, 145 Korrespondenzanalyse, 181 -Biplot, 175, 181 Kovarianz, 129, 132 empirische, 134 theoretische, 328 Kovarianzmatrix, 145, 415 KQ-Gerade, 152, 155 theoretische, 606 KQ-Methode, 587 KQ-Regression theoretische, 605 KQ-Regressionsebene, 656 KQ-Regressionskoeffizienten theoretische, 333 KQ-Residuen, 155, 657 KQ-Sch¨atzer, 590 Kreisdiagramm, 32 Kreuzmenge, 213 kritischer Bereich, 524 kritischer Wert, 524 Kuchendiagramm, 32 L1 -Norm, 158 L1 -Regression, 158

Stichwortverzeichnis L2 -Norm, 153 L2 -Regression, 153 LAD-Gerade, 152, 159 LAD-Methode, 587 Lageregeln, 52 Laplace-Modell, 206, 223 leere Menge, 209 Likelihood-Funktion, 505 linear, 195 linear herausgerechnet, 195 lineare Abh¨angigkeit, 146 lineare Programmierung, 159 lineare Regression, 129 einfache, 195 multiple, 195 lineares Modell, 15 generalisiertes, 173 verallgemeinertes, 173 lineares Regressionsmodell einfaches, 171, 587 linksschief, 50 Log-Transformationen, 148 Logit-Modell, 172, 196, siehe LogitRegression geordnetes, 196 Lorenzkurve, 90 M¨achtigkeit, 214 Maßtheorie, 225 MAD, 72, 103 Massenpunkt, 248, 262 Maximum, 56 Median, 40, 52, 55, 56, 103 theoretischer, 317 median absolute deviation, 72 Median der absoluten Abweichungen vom Median, 72 Mediatorvariable, 187, 191 Menge, 209 Mengenfunktion, 218 Mengenoperation, 210 Merkmal, 27 diskretes, 23 stetiges, 23 Merkmalssumme, 53, 89 Merkmalstr¨ager, 23 Merkmalsvektor, 106

Stichwortverzeichnis Messbarkeitsproblem, 225, 252 Messfehlerproblem, 632 Methode der kleinsten Quadrate, 195 metrisch kodiert, 191, 192 metrisch kodierte Auspr¨ agungen, 24 metrisch skaliert, 24 Metrisierung, 170 Minimum, 56 Minimumeigenschaft des arithmetischen Mittels, 157 Minimumeigenschaft des Medians, 163 Mittelwert stochastischer, 371 mittlere absolute Abweichung vom arithmetischen Mittel, 70 mittlere absolute Abweichung vom Median, 70, 96 mittlere absolute Abweichungen, 103 mittlere quadratische Kontingenz, 119, 120 Modalwert, 52, 59 Modus, 49, 59 Moment k-tes, 338 momenterzeugende Funktion, 339 Mosaikplots, 127, 128, 167 MSE, 458 MSE-Pr¨adiktor bester linearer, 606 Multikollinearit¨at, 154, 651, 663 multimodal, 49 Multiplikationskriterium, 113 stochastisches, 235 Multiplikationsregel, 229, 309 multivariate Statistik, 145, 177, 182 n-Tupel, 213 nicht skaleninvariant, 136 Niveau-α-Test, 537 nominal skaliert, 24 normalverteilt gemeinsam, 421 multivariat, 421 Normalverteilung, 361 bivariate, 121, 143, 423 multivariate, 143, 421 Nullhypothese, 523

685 einfache/zusammengesetzte, 529 ¨ Okonometrie, 188 Omitted Variable Bias, 667 ordinal skaliert, 24 orthogonales Versuchsdesign, 193 OVB, 195, 667 OVB-Problem, 632 p-Wert, 544 paarweise (stochastisch) unabh¨angig, 238 Parameter, 143, 344 Parameterraum, 344 parametrische Verteilungsfamilie, 345 Parametrisierung, 16 Partition, 241 PCA, 177 PCA-Biplot, 177, 182 Pearson-Residuen, 126 Permutation, 342 Pfadwahrscheinlichkeit, 231 Poisson-Verteilung, 353 Pr¨adiktionen, 151 Pr¨ ufgr¨oße, 524 Prim¨arstatistiken, 13 Principal Component Analysis, 177 Probit-Modell, 172 Produktmenge, 213 Prognoseg¨ ute, 171 Prognoseintervall, 597 Prognoseintervalle, 16 Prognosen, 16, 150, 151 Projektion, 177 Quantil, 39, 62, 317 Quantilsabstand, 80, 86, 103 Quantilskoeffizient der Schiefe, 86 Quantilsregression, 161 Quartil, 170 oberes, 40 unteres, 40 Quartilskoeffizienten der Schiefe, 86 Quasi-Experiment, 440 Quasi-Experimente, 185 Quasi-Stichprobe, 629 quasistetig, 23

686 Quintile, 66, 169, 170 Randh¨aufigkeit absolute, 107 relative, 107 randomisiert, 194 Randverteilung, 105, 262, 263, 268, 279 absolute, 107 Rang, 147 Rangkorrelationskoeffizient, 147 Rangzahl, 147 rationale Zahlen, 215 Realisation, 246, 262 einer Stichprobe, 433 Realisationsm¨oglichkeiten, 248, 251 rechtsschief, 50 Regressand, 151, 662 Regression einfache lineare, 150 empirische partielle, 651 geordnete Logit-, 172 Linear-Log-, 165, 166 Log-Linear-, 166 Log-Log-, 166 logistische, 172, 195 Logit-, 164 multinomiale Logit-, 172 multiple, 154 multiple lineare, 163, 198, 656 Regressionsanalyse, 15, 143 Regressionsgleichung, 151 Regressionskoeffizient, 195 partieller, 651, 658 theoretischer, 587 Regressionsmodell, 171 lineares, 15 multiples lineares, 190, 193 Regressionsplot partieller, 650 Regressionstheorie, 145 Regressor, 151, 662 relativen Randh¨ aufigkeiten, 107 relativen Randverteilungen, 107 relevant, 122 repr¨asentativ, 111 Repr¨asentativit¨at, 629 Residualstreuung, 594

Stichwortverzeichnis Residuen, 151 stochastische, 587 Restvariable, 186, 198 Ringdiagramme, 33 robust, 55, 56, 72 Robustheit, 103, 153, 163 Rohdaten, 27 S¨aulendiagramm, 33, 39 gestapeltes, 124 gruppiertes, 124 segmentiertes, 26, 110, 125, 180 Satz von Bayes, 242 Satz von Bernoulli, 382 Satz von Glivenko-Cantelli, 383 Sch¨atzen, 201 Sch¨atzproblem, 446 Sch¨atzung, 202 Schachteldiagramm, 39 Scheinabh¨angigkeit, 131, 184, 192, 199 Scheinkorrelation, 192 schief, 50 Schiefe, 86 Schnittmenge, 210 Schwankungsintervalle, 74 Schwerelinien, 133 Schwerpunkt, 133, 155, 590 Sekund¨arstatistiken, 13 SER, 596 sicheres Ereignis, 216 Sicherheitsintervall, 8, 202 Sicherheitswahrscheinlichkeit, 4, 7, 8, 202, 472 Sigma-Algebra, 225 Signifikanz, 202 Signifikanzniveau, 524 simultaner Kausalit¨at, 188 Singul¨arwertzerlegung, 176 skalen¨aquivariant, 100, 136, 336 skaleninvariant, 101, 139, 148 Skalierung, 24 Spaltenprofile, 180, 181 Spaltenverteilungen, 110, 111, 180 Spannweite, 69, 103 Spineplot, 128, 167 Spinogramm, 167, 172 st.u., 234

Stichwortverzeichnis St¨ orvariable, 186, 198 Stamm-Blatt-Diagramm, 34 Standardabweichung, 73 theoretische, 312 Standardfehler, 479, 621 Standardfehler der Regression, 596, 621 Standardisierung, 84 statistical methods, 3 statistics, 3 Statistik, 1–3 computergest¨ utzte, 18 deskriptive, 10 induktive, 10 mathematische, 18 multivariate, 15 nichtparametrische, 18 schließende, 10 statistische Inferenz, 433 statistische Modellierung, 4, 186 statistisches Modell, 7, 9, 16, 171, 193, 198, 202 statistisches Problem, 4, 6, 10, 119, 124, 157, 185 Steigungskoeffizienten, 150 Stem-and-Leaf-Plot, 34 Stetigkeitskorrektur, 392 Stichprobe, 5, 9, 432 hypothetische, 7, 437 reale, 7, 12, 434 repr¨asentative, 440 Stichprobentheorie, 12 Stichprobenumfang, 27 Stichprobenvariablen, 432 Stichprobenvarianz korrigierte, 455 Stichprobenverzerrung, 440, 629 stochastisch, 5 stochastisch unabh¨ angig, 412 stochastische Abh¨ angigkeit, 26 stochastische Konvergenz, 201 stochastischer Zusammenhang, 26 Streudiagramm, 26, 129 Streudiagramm-Matrix, 131 Streuungszerlegung, 4, 5, 15 Streuungszerlegungsformel bei gruppierten Daten, 76

687 der KQ-Regression, 593 der Regression, 171 Structural Causal Models, 184 symmetrisch, 50 systematisch, 4, 6 systematische Verzerrungen, 164, 166, 173 t-Test, 552 Teilmenge, 209 Test approximativer Binomial u ¨ber eine Anteilswertdifferenz, 573 approximativer Binomial-, 571 ein-/zweiseitiger, 529 Fisher-, 567 Heteroskedastizit¨ats-, 634 konfirmatorischer, 526 Korrelations-, 577 statistischer, 525 White-, 634 Testniveau, 524 Testproblem ein-/zweiseitiges, 529 Teststatistik, 119, 524 Testtheorie, 202 Testverteilung, 524 theoretische Regressionsgerade, 587 Theorie stochastischer Prozesse, 188 Totalerhebung, 434 Totalvarianz, 179 Tr¨agermenge, 268 Tr¨agerpunkt, 248, 262 Transformationseigenschaften, 94 u.h.v., 438 u.i.v., 438 u ¨berkompensieren, 191 u ¨berabz¨ahlbar, 216 Umskalierung, 99, 139 unabh¨angig stochastisch, 275, 280 Unabh¨angigkeit bedingte, 414 empirische, 111, 112 paarweise, 237 stochastische, 114, 234, 238

688 vollst¨andige, 239 Ungleichung Cauchy-Schwarz, 139 unimodal, 49 unkorreliert empirisch, 141 Unkorreliertheit, 329 unm¨ogliches Ereignis, 216 Untersuchungseinheiten, 23 unverf¨alscht, 191 unverzerrt, 191 Urliste, 27 Variable, 27 erkl¨arende, 151 unabh¨angige, 151 Varianz, 73, 94, 103, 117 bedingte, 141, 319 theoretische, 312 unbedingte, 319 Varianz-Kovarianzmatrix, 145 Varianzanalyse, 15, 171 Varianzanalysemodelle, 193 Variationskoeffizient, 81, 101, 117 Venn-Diagramm, 212 Vereinigungsmenge, 210 vermittelnde Variablen, 187 Verschiebung, 98 verschiebungs¨aquivariant, 100 Verschiebungsformel, 312, 328 allgemeine empirische, 74 f¨ ur die empirische Kovarianz, 134 f¨ ur die empirische Varianz, 74 verschiebungsinvariant, 81, 100, 135, 138, 148, 336 Verst¨arkung, 191 Versuchsplanung, 11, 15, 193 Verteilung, 247 bedingte, 105, 108, 125, 180, 264, 269, 279 bedingte empirische, 109 Bernoulli-, 344 Binomial-, 346 Cauchy-, 340, 399 Chi-Quadrat-, 397 Dreiecks-, 295 eindimensionale, 25

Stichwortverzeichnis Einpunkt-, 344 empirische, 24 Exponential-, 356 Gamma-, 396 gemeinsame, 25, 105, 268 geometrische, 395 hypergeometrische, 394 mehrdimensionale, 25 Mixtur-, 401 multivariate, 25 Negative Binomial-, 395 Poisson-, 350 stetige Gleich-, 273, 354 stochastische, 26 t-, 398 theoretische, 26 univariate, 25 VerteilungEinpunkt-, 410 Verteilungsfunktion empirische, 44 theoretische, 255 verzerrt, 191 Verzerrung, 188 asymptotische, 655 empirische, 652 theoretische, 654 Volatilit¨at, 42 Wachstumsfaktoren, 67 Wachstumsraten, 67 Wahrscheinlichkeit, 217 bedingte, 226 klassische, 206 objektive, 207 statistische, 206 subjektive, 207 Wahrscheinlichkeitsbaum, 231 Wahrscheinlichkeitsdichtefunktion, 250 Wahrscheinlichkeitsfunktion, 248 bedingte, 263 gemeinsame, 262 zweidimensionale, 262 Wahrscheinlichkeitsmaß, 217, 219 diskretes, 259 stetiges, 260 Wahrscheinlichkeitsrechnung, 3, 4

Stichwortverzeichnis Wahrscheinlichkeitstheorie, 143, 201 Wahrscheinlichkeitsverteilung, 203, 247 Wertebereich, 218 z-standardisiert, 137, 178 z-Standardisierung, 84 Zaun oberer, 40 unterer, 40 Zeilenprofile, 181 Zeilenverteilungen, 110, 111, 181 Zeitreihenanalyse, 151, 188 Zentralwert, 56, siehe Median Zerlegung, 241 ZGWS , 384 Zielvariable, 151, 171, 184 zuf¨allig, 4, 6, 205 Zufall, 204 Zufallsereignissen, 114 zufallsabh¨angige Daten, 4, 5 Zufallsereignisse, 216 Zufallsvariable, 114, 203, 245 mehrdimensionale, 261 Zufallsvektor, 261, 411 Zufallsvorgang, 5, 204, 205 Zusammenhang, 25 empirischer, 26, 110, 183 negativer, 130, 133 perfekter monotoner, 146 perfekter negativer linearer, 140 perfekter positiver linearer, 139 positiver, 130, 133 strenger monotoner, 146

689

Literaturverzeichnis [1] Agresti, A. (2010): Analysis of Ordinal Categorical Data. 2. Auflage. Hoboken, NJ: John Wiley & Sons. [2] Agresti, A. (2013): Categorical Data Analysis. 3. Auflage. Hoboken, NJ: WileyInterscience. [3] Baulig, C., Al-Nawas, B. und Krummenauer, F. (2008): p-Werte - statistische Signifikanz ist keine klinische Relevanz. Zeitschrift f¨ ur zahn¨arztliche Implantologie, 2/2008, 126-128. [4] Billingsley, P. (2012): Probability and Measure. Anniversary edition. Hoboken, NJ: Wiley. [5] Bamberg, G., Baur, F. und Krapp, M. (2012): Statistik. 17. Auflage. M¨ unchen: Oldenbourg. [6] Bienaym´e, I.J. (1853): Considerations a ` l’appui de la d´ecouverte de Laplace sur la loi de probabilit´e dans la m´ethode des moindres carr´es. C.R. Acad. Sci. Paris, 37, 309-324. [7] Bingham, N.H. (2000): Studies in the History of Probability and Statistics XLVI. Measure into Probability: From Lebesgue to Kolmogorov. Biometrika, 87, 145-156. [8] Boscovich, R.J. und Maire C. (1755): De Litteraria Expeditione per Pontificiam ditionem ad dimetiendas duas Meridiani gradus. Rom: Palladis. [9] Boscovich, R.J. (1770): Voyage astronomique et geographique, dans l’´etat de l’´eglise. Paris: N. M. Tilliard. [10] B¨ uning, H. und Trenkler, G. (1994): Nichtparametrische statistische Methoden. 2. Auflage. Berlin: Walter de Gruyter. [11] Buonaccorsi, J.P. (2010): Measurment Error: Models, Methdods, and Applications. New York: Chapman & Hall. [12] Bravais, A. (1844): Analyse Math´ematique. Sur Les Probabilit´es des Erreurs de Situation d’un Point. Extrait du Tome IX des M´emoires pr´esent´es par divers savants `a L’Acad´emie Royale des Sciences. Paris: Imprimerie Royale.. [13] Ceriani, L. und Verme, P. (2012): The Origin of the Gini Index: Extracts from Variabilit` a e Mutabilit` a (1912) by Corrado Gini. Journal of Economic Inequality, 10, 421-443.

Literaturverzeichnis

691

[14] Carr, D.B., Littlefield, R. J. Nicholson W. L. und Littlefield J. S. (1987): Scatterplot Matrix Techniques for Large N. Journal of the American Statistical Association, 82, 424-436. [15] Chen, C.-h., H¨ ardle, W. und Unwin, A. (Hrsg.) (2008): Handbook of Data Visualization. Berlin; Heidelberg: Springer. [16] Cohen, A. (1980): On the Graphical Display of the Significant Components in a Two-way Contingency Table. Communications in Statistics-Theory and Methods, A9, 1025-1041. [17] Cox, D.R. und Wermuth, N. (2004): Causality: A Statistical View. International Statistical Review, 72, 285-305. [18] David, H.A. (1995): First Occurrence of Common Terms in Mathematical Statistics. The American Statistician, 49 (2), 121-133. [19] David, H.A. und Nagaraja, H. N. (2003): Order Statistics. 3.te Auflage. New York: Wiley. [20] Davidson, J. (2002): Stochastic Limit Theory: An Introduction for Econometricians. Oxford: Oxford University Press. [21] De Moivre, A. (1738): The Doctrine of Chances. 2. Auflage. Die 3. Auflage (1756) wurde von Chelsea, New York, 1967, nachgedruckt.. [22] Denis, D. (2001): The Origins of Correlation and Regression: Francis Galton or Auguste Bravais and the Error Theorists?. History and Philosophy of Psychology Bulletin, 13, 36-44. [23] Der Bundeswahlleiter (2016): Internetquelle: https://www.bundeswahlleiter.de. Bundestagswahl 2013 (Zugriff am 26.07.2016). [24] Edgeworth, F. (1888): On a new Method of Reducing Observations Relating to Several Quantities. Philosophical Magazine, 25, 184-191. [25] Eicker, F. (1967): Limit Theorems for Regression with Unequal and Dependent Errors. Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability. Berkeley: University of California Press. [26] Emmerling, D. (2012): Geburten, Sterbef¨ alle, Eheschließungen. Wirtschaft und Statistik, 744-759. Wiesbaden: Statistisches Bundesamt. [27] Europ¨aische Zentralbank (2014a): Internetquelle: http://sdw.ecb.europa.eu. Statistical Data Warehouse, Statistics Bulletin, Section 4.8 (Zugriff am 30.04.2014). [28] Europ¨aische Zentralbank (2014b): Internetquelle: http://sdw.ecb.europa.eu. Statistical Data Warehouse, Economic Concepts, Exchange Rates (Zugriff am 31.05.2014). [29] Fahrmeir, L., K¨ unstler, R., Pigeot, I. und Tutz, G. (2010): Statistik: Der Weg zur Datenanalyse. 7. Auflage. Berlin; Heidelberg: Springer.

692

Literaturverzeichnis

[30] Fahrmeir, L., Kneib, T., Lang, S. und Marx, B. (2013): Regression: Models, Methods and Applications. Berlin; Heidelberg: Springer. [31] Fechner, G.T. (1878): Ausgangswerth der kleinsten Abweichungssumme, dessen Bestimmung, Verwendung und Verallgemeinerung. Abhandlungen der mathematisch-physischen Classe der k¨ oniglich s¨achsischen Gesellschaft der Wissenschaften, Band 11, 1-76. [32] Fisher, R.A. (1915): Frequency Distribution of the Values of the Correlation Coefficient in Samples from an indefinitely Large Population. Biometrika, 10, 507-521. [33] Fisher, R.A. (1918): The Correlation between Relatives on the Supposition of Mendelian Inheritance. Trans. Roy. Soc. Edinb., 52, 399-433. [34] Fisher, R.A. (1921): On the Probable Error“ of a Coefficient of Correlation de” duced from a Small Sample. Metron, 1, 3-32. [35] Fisher, R.A. (1922): On the Mathematical Foundations of Theoretical Statistics. Phil. Trans. R. Soc. Lond. A, 222, 309-368. [36] Fisher, R.A. (1925a): Statistical Methods for Research Workers. Edinburgh: Oliver and Boyd. [37] Fisher, R.A. (1925b): Theory of Statistical Estimation. Mathematical Proceedings of the Cambridge Philosophical Society, 22, 700-725. [38] Fisher, R.A. (1935): The Design of Experiments. Edingburgh: Oliver and Boyd. [39] Forschungsgruppe Wahlen (2016): Internetquelle: http://www.forschungsgruppe.de. Umfragen, Politbaromenter, Archiv (Zugriff am 26.07.2016). [40] Friendly, M. (1992): Graphical methods for Categorical Data. SAS User Group International Conference Proceedings, 17, 190-200. [41] Friendly, M. (1994): Mosaic Displays for Multi-way Contingency Tables. Journal of the American Statistical Association, 89, 190-200. [42] Fuller, W.A. (2006): Measurement Error Models. New York: Wiley. [43] Gabriel, K. R. (1971): The Biplot Graphic Display of Matrices with Application to Principal Component Analysis. Biometrika, 58, 453-467. [44] Galton, F. (1882): Report of the Anthropometric Committee. Report of the 51st Meeting of the British Association for the Advancement of Science, 245-260. [45] Galton, F. (1885a): Some Results of the Anthropometric Laboratory. Journal of the Anthropological Institute of Great Britain and Ireland, 14, 275-287. [46] Galton, F. (1885b): Section H; Anthropology; Opening Address. Nature, 32, 507510.

Literaturverzeichnis

693

[47] Galton, F. (1886): Regression towards Mediocrity in Hereditary Stature. Journal of the Anthropological Institute of Great Britain and Ireland, 15, 246-263. [48] Galton, F. (1888): Co-relations and their Measurement, chiefly from Anthopometric Data. Proceedings of the Royal Society of London, 45, 135-145. [49] Gauss, C.F. (1809): Theoria motus corporum coelestium in sectionibus conicis solem ambientium. Hamburg: Perthes et Besser. [50] Gelman, A., Carlin, J.B., Stern, H.S., Dunson, D.B., Vehtari, A. und Rubin, D.B. (2014): Bayesian Data Analysis. Boca Raton, FL: Chapman & Hall/CRC. [51] Gini, C. (1912): Variabilit` a e mutabilit` a. Contributo allo studio delle distribuzioni e delle relazioni statistiche. Bologna: Tipografia di Paolo Cuppini. [52] Gosset, W. S. (1908): The Probable Error of a Mean. Ver¨offentlicht unter dem Pseudonym Student. Biometrika, 6, 1-25. [53] Gower, J., Lubbe, S. und Le Roux, N. (2011): Understanding Biplots. Hoboken, N. J.: Wiley. [54] Greenacre, M. (2007): Correspondence Analysis in Practice. 2. Auflage. Boca Raton, FL: Chapman & Hall/CRC. [55] Greenacre, M. (2010): Biplots in Practice. Fundaci´on BBVA (FBBVA). [56] Greenacre, M. (2012): Biplots: The Joy of Singular Value Decomposition. WIREs Comput Stat 2012, 4:399-406. doi: 10.1002/wics.1200. [57] Grohmann, H. (1985): Vom theoretischen Konstrukt zum statistischen Begriff: das Ad¨ aquationsproblem. Allgemeines Statistisches Archiv, 69, 1-15. [58] Grohmann, H., Kr¨ amer, W. und Steger, A. (2011): Statistik in Deutschland: 100 Jahre Deutsche Statistische Gesellschaft. Berlin; Heidelberg: Springer. [59] Hafner, R. (1989): Wahrscheinlichkeitsrechnung und Statistik. Wien: Springer. [60] Hald, A. (1990): A History of Probability and Statistics and their Applications before 1750. New York: Wiley. [61] Hald, A. (1998): A History of Mathematical Statistics from 1750 to 1930. New York; Weinheim: Wiley. [62] Hald, A. (2007): A History of Parametric Statistical Inference from Bernoulliy to Fisher, 1713 to 1935. New York: Springer. [63] Hartigan, J.A. und Kleiner, B. (1981): Mosaics for Contingency Tables. Computer Science and Statistics: Proceedings of the 13th Symposium on the Interface, 268273. New York: Springer. [64] Hartigan, J.A. und Kleiner, B. (1984): A Mosaic of Television Ratings. The American Statistician, 38, 32-35.

694

Literaturverzeichnis

[65] Hartung, J., Elpelt, B. und Kl¨ osener, K.-H. (2009): Statistik: Lehr- und Handbuch der angewandten Statistik. 15. Auflage. M¨ unchen: Oldenbourg. ¨ [66] Hartung, J. und Heine, B. (2004): Statistik-Ubungen: Induktive Statistik. 4. Auflage. M¨ unchen: Oldenbourg. [67] Heiler, S. und Michels, P. (1994): Deskriptive und explorative Datenanalyse. M¨ unchen: Oldenbourg. [68] Johnson, R.A. und Wichern, D.W. (2014): Applied Multivariate Statistical Analysis. Pearson. [69] K¨alble, K. (1997): Die Entwicklung der Kausalit¨ at im Kulturvergleich: Untersuchung zur historischen Entwicklungslogik der Kognition. Opladen: Westdeutscher Verlag. [70] Kendall, M.G. (1940): Note on the Distribution of Quantiles for Large Samples. Supplement to the Journal of the Royal Statistical Society, 7, 83-85. [71] Khintchine, A.Y. (1929): Sur la loi des grands nombres. C.R. Acad. Sci., Paris, 188, 477-479. [72] Knight, K. (2000): Mathematical Statistics. Boca Raton, FL: Chapman & Hall/CRC. [73] Koenker, R. (2005): Quantile Regression. Cambridge: Cambridge University Press. [74] Kolmogoroff, A.N. (1933): Grundbegriffe der Wahrscheinlichkeitsrechnung. Berlin: Springer. [75] Kr¨amer, W. und Sonnberger, H. (1986): The Linear Regression Model under Test. Heidelberg, Wien: Physica-Verlag. [76] Kr¨amer, W. (2006): Grundkurs Statistik. Neue Z¨ urcher Zeitung, Folio 01/2006. [77] Kruskal, W.H. und Mosteller, F. (1979a): Representative Sampling, I: Nonscientific Literature. International Statistical Review, 47, 13-24. [78] Kruskal, W.H. und Mosteller, F. (1979b): Representative Sampling, II: Scientific Literature, Excluding Statistics. International Statistical Review, 47, 111-127. [79] Kruskal, W.H. und Mosteller, F. (1979c): Representative Sampling, III: The Current Statistical Literature. International Statistical Review, 47, 245-265. [80] Kruskal, W.H. und Mosteller, F. (1980): Representative Sampling, IV: The History of the Concepts in Statistics, 1895-1939. International Statistical Review, 48, 169195. [81] Laplace, P.S. (1812): Th´eorie Analytique des Probabilit´es. Paris: Courcier. [82] Laplace, P.S. (1818): Deuxi`eme Suppl´ement a la Th´eorie Analytique des Probabilit´es. Paris: Courcier.

Literaturverzeichnis

695

[83] Laplace, P.S. (1799-1805): Trait´e de m´ecanique c´eleste. Paris: Duprat (vols. 1-3) and Courcier (vol. 4). [84] Le Cam, L. (1986): The Central Limit Theorem around 1935. Statistical Science, Vol. 1, No. 1, 78-96. [85] Lehmann, E.L. und Casella, G. (1998): Theory of Point Estimation. 2. Auflage. New York: Springer. [86] Lehmann, E.L. und Romano, J.P. (2008): Testing Statistical Hypotheses. 3. Auflage. New York: Springer. [87] Legendre, A.M. (1805): Nouvelles m´ethodes pour la d´etermination des orbites des com`etes. Paris: Courcier. [88] Liese, F. und Miescke, K.-J. (2008): Statistical Decision Theory. New York: Springer. [89] Little, R.J.A. und Rubin, D.B. (2002): Statistical Analysis with Missing Data. Hoboken, NJ: John Wiley & Sons. [90] Lorenz, M.O. (1905): Methods of Measuring the Concentration of Wealth. Publications of the American Statistical Association, 9 (70), 209-219. [91] Markov, A.A. (1913): Ischislenie Veroiatnostei [The Calculus of Probabilities]. 3. Auflage. St. Petersburg: Tipografia Imperatorskoi Akademii Nauk. [92] McGill, R., Tukey, J.W. und Larsen, W.A. (1978): Variations of Boxplots. The American Statistician 32, 12-16. [93] Meyer, D., Zeileis, A. und Hornik, K. (2006): The Strucplot Framework: Visualizing Multi- way Contingency Tables with vcd. Journal of Statistical Software, 17(3), 1-48. [94] Mood, A.M., Graybill, F.A. und Boes, D.C. (1974): Introduction to the Theory of Statistics. 3. Auflage. New York u. a.: McGraw-Hill. [95] Nelder, J.A. und Wedderburn, R.W.M. (1972): Generalized Linear Models. Journal of the Royal Statistical Society (Series A), 135, 370-384. [96] Neter, J., Kutner, M.H., Nachtsheim, C.J. und Wassermann, W. (1996): Applied Linear Statistical Models. 4. Auflage. Boston u.a.: McGraw-Hill. [97] Neyman, J. and Pearson E.S. (1928): On the Use and Interpretation of Certain Test Criteria for Purposes of Statistical Significance (Part I and II). Biometrika, 20 (1/2), 175-294. [98] Neyman, J. and Pearson E.S. (1933): On the Problem of the Most Efficient Tests on Statistical Hypotheses. Phil. Trans. R. Soc. Lond. A, 231, 289-337. [99] Pawlik, K. (1959): Der maximale Kontingenzkoeffizient im Falle nichtquadratischer Kontingenztabellen. Metrika, 2, 150-166.

696

Literaturverzeichnis

[100] Pearl, J. (2009): Causal Inference in Statistics: An Overview. Statistics Surveys, 3, 96-146. [101] Pearson, K. (1894): Contributions to the Mathematical Theory of Evolution. Phil. Trans. R. Soc. Lond. A, 185, 71-110. [102] Pearson, K. (1895): Contributions to the Mathematical Theory of Evolution. II. Skew Variation in Homogeneous Material. Phil. Trans. R. Soc. Lond. A, 186, 343-414. [103] Pearson, K. (1896): Mathematical Contributions to the Theory of Evolution. III. Regression, Heredity, and Panmixia. Phil. Trans. R. Soc. Lond. A, 187, 253-318. [104] Pearson, K. (1900a): On the Criterion that a given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it can be reasonably supposed to have arisen from Random Sampling. Philosophical Magazine, Series 5, 50, 157-175. [105] Pearson, K. (1900b): The Grammar of Science. 2. Auflage. London: Adam and Charles Black. [106] Pearson, K. (1904): Drapers’ Company Research Memoirs. Mathematical Contributions to the theory of Evolution. XIII.On the Theory of Contingency and its Relation to Association and Normal Correlation. London: Dulau and Co [107] Pearson, K. (1920): Notes on the History of Correlation. Biometrika, 13, 25-45. [108] Pillai, K.C.S. (1950): On the Distributions of Midrange and Semi-Range in Samples from a Normal Population. The Annals of Mathematical Statistics, 21, 100-105. [109] Quatember, A. (2005): Das Signifikanz-Relevanz-Problem beim statistischen Testen von Hypothesen. ZUMA-Nachrichten, 57, 128-150. [110] Rencher, A.C. (2012): Linear Models in Statistics. 3. Auflage. New York: Wiley. [111] Poisson, S.D. (1837): Recherches sur la probabilit´e des jugemens en mati`ere criminelle at en mati`ere civile, pr´ec´edes des r`egles g´en´erales du calcul des probabilit´es. Paris: Bachelier. [112] Rodgers, J.L. und Nicewander, W.A. (1988): Thirteen Ways to look at the Correlation Coefficient. The American Statistician, 42, 59-66. [113] Rohatgi, V.K., und Saleh, A.K.Md. (2000): An Introduction to Probability and Statistics. 2. Auflage. Wiley. [114] Sachs, L. und Hedderich, J. (2012): Angewandte Statistik: Methodensammlung mit R. 14. Auflage. Berlin; Heidelberg: Springer. [115] Sachverst¨andigenrat zur Begutachtung der gesamtwirtschaftlichen Entwicklung (2013): Jahresgutachten 2013/2014.

Literaturverzeichnis

697

[116] Schira, J. (2012): Statistische Methoden in der VWL und BWL. 4. Auflage. M¨ unchen: Pearson. [117] Schlittgen, R. (2013): Regressionsanalysen mit R. M¨ unchen: Oldenbourg. [118] Schumacher, M. und Schulgen, G. (2008): Methodik klinischer Studien. 3. Auflage. Berlin: Springer. [119] Seneta, E. (1992): On the history of the strong law of large numbers and Boole’ s inequality. Historia Math., 19, 24-39. [120] Seneta, E. (2013): A Tricentenary history of the Law of Large Numbers. Bernoulli, 19(4), 1088-1121. [121] Shaffer, J.P. (1991): The Gauß-Markov Theorem and Random Regressors. The American Statistician, 45, 269-274. [122] Spearman, C. (1904): The Proof and Measurement of Association between Two Things. The American Journal of Psychology, 15, 72-101. ¨ [123] Statistische Amter des Bundes und der L¨ander (2014): Internetquelle: https://www.regionalstatistik.de. Regionaldatenbank (Zugriff am 30.04.14). [124] Statistisches Bundesamt (2013a): Statistisches Jahrbuch 2013. Artikelnummer: 1010110137004. [125] Statistisches Bundesamt (2013b): Bildungsstand der Bev¨ olkerung. Artikelnummer: 5210002137004. [126] Statistisches Bundesamt (2014a): Wirtschaftsrechnungen - LEBEN IN EUROPA (EU-SILC). Einkommen und Lebensbedingungen in Deutschland und der Europ¨aischen Union. Fachserie 15, Reihe 3. Artikelnummer: 2150300127004. [127] Statistisches Bundesamt (2014b): Internetquelle: https://www.destatis.de. Zahlen & Fakten. Volkswirtschaftliche Gesamtrechnungen, Inlandsprodukt (Zugriff am 31.05.14). [128] Statistisches Bundesamt (2014c): Rechtspflege, Strafverfolgung. I.2 Lange Reihen u ander nach Art der Straftat, Altersklassen ¨ber verurteilte Deutsche und Ausl¨ und Geschlecht. Deutschland seit 2007. Stand vom 17.03.2014. Artikelnummer: 5243105127004. [129] Statistisches Bundesamt (2014d): Preise, Verbraucherpreisindizes. Lange Reihen ab 1948. Artikelnummer: 5611103141064. [130] Stefanski, L.A. (2000): Measurement Error Models. Journal of American Statistical Association, 95, 1353-1358. [131] Stigler, S.M. (1973): Studies in the History of Probability and Statistics. XXXII: Laplace, Fisher and the Discovery of the Concept of Sufficiency. Biometrika, 60, 439-445.

698

Literaturverzeichnis

[132] Stigler, S.M. (1981): Gauss and the Invention of Least Squares. The Annals of Statistics, 9, 465-474. [133] Stigler, S.M. (1986): The History of Statistics: The Measurement of Uncertainty before 1900. Cambridge MA: Harvard University Press. [134] Stigler, S.M. (1999): Statistics on the Table: The History of Statistical Concepts and Methods. Cambridge MA: Harvard University Press. [135] Stock, J.H. und Watson, M.M. (2012): Introduction to Econometrics. 3. Auflage. Boston: Pearson. [136] Student (1908): The Probable Error of a Mean. Eigentlich William Gosset. Biometrika, 6, 1-25. [137] Thadewald, T. und B¨ uning, H. (2007): Jarque-Bera Test and its Competitors for Testing Normality: A Power Comparison. Journal of Applied Statistics, 34, 87105. [138] Tukey, J.W. (1977): Exploratory Data Analysis. Reading MA: Addison-Wesley. [139] Tutz, G. (2012): Regression for Categorical Data. Cambridge: Cambridge University Press. [140] United Nations Statistics Division (2014): Internetquelle: http://unstats.un.org/unsd/databases.htm (Zugriff am 30.04.2014). [141] Urban, D. und Mayerl, J. (2011): Regressionsanalyse: Theorie, Technik und Anwendung. 4. Auflage. Wiesbaden: VS Verlag.. [142] Verbeek, M. (2008): A Guide to Modern Econometrics. 3. Auflage. Hoboken, NJ: Wiley. [143] Wermuth, N. und Streit, R. (2007): Einf¨ uhrung in statistische Analysen. Berlin; Heidelberg: Springer. [144] White, H. (1980): A Heteroskedasticity-Consistent Covariance Matrix Estimator and a Direct Test for Heteroskedasticity. Econometrica, 45, 817-838. [145] White, H. (2001): Asymptotic Theory for Econometricians. San Diego u. a.: Academic Press. [146] Windeler, J. und Conradt, C. (1999): Wie k¨ onnen Signifikanz“ und Relevanz“ ” ” verbunden werden?. Medizinische Klinik, 94, 652-655. [147] Witting, H. und M¨ uller-Funk, U. (1995): Mathematische Statistik II. Stuttgart: Teubner. [148] Yates, F. (1934): Contingency Tables involving Small Numbers and the χ2 -Test. Journal of the Royal Statistical Society B, 1, 217-235.

Literaturverzeichnis

699

[149] Yule, G.U. (1897a): On the Significance of Bravais’ Formulae for Regression, etc., in the case of Skew Correlation. Proceedings of the Royal Society of London, 60, 477-489. [150] Yule, G.U. (1897b): On the Theory of Correlation. Journal of the Royal Statistical Society, 60, 812-854. [151] Yule, G.U. (1911): An Introduction to the Theory of Statistics. London: Charles Griffin and Company.