349 31 6MB
German Pages [257] Year 2020
Lukas Meier
Wahrscheinlichkeitsrechnung und Statistik Eine Einführung für Verständnis, Intuition und Überblick
Wahrscheinlichkeitsrechnung und Statistik
Lukas Meier
Wahrscheinlichkeitsrechnung und Statistik Eine Einführung für Verständnis, Intuition und Überblick
Lukas Meier Seminar für Statistik ETH Zürich Zürich, Schweiz
ISBN 978-3-662-61487-7 ISBN 978-3-662-61488-4 (eBook) https://doi.org/10.1007/978-3-662-61488-4 Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über 7 http://dnb.d-nb.de abrufbar. © Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen etc. in diesem Werk bedeutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die Berechtigung zur Benutzung unterliegt, auch ohne gesonderten Hinweis hierzu, den Regeln des Markenrechts. Die Rechte des jeweiligen Zeicheninhabers sind zu beachten. Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informationen in diesem Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag, noch die Autoren oder die Herausgeber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen. Der Verlag bleibt im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutionsadressen neutral. Planung/Lektorat: Iris Ruhmann Springer Spektrum ist ein Imprint der eingetragenen Gesellschaft Springer-Verlag GmbH, DE und ist ein Teil von Springer Nature. Die Anschrift der Gesellschaft ist: Heidelberger Platz 3, 14197 Berlin, Germany
Für Jeannine, Andrin, Silvan und Dario
Vorwort In den Natur- und den Ingenieurwissenschaften sind viele Phänomene mit Unsicherheit verbunden. Wie hoch wird der maximale Wasserstand des Rheins in Basel im nächsten Jahrzehnt sein? Wieviel Verkehr wird eine neue Brücke pro Tag passieren? Wie groß wird der Borkenkäferbefall im nächsten Jahr in einem gewissen Waldstück sein? Bei welcher Traglast versagt ein bestimmter Dübel? Dies alles sind Fragen, auf die wir keine exakten Antworten liefern können. Vom heutigen Standpunkt aus erscheinen sie zufällig. Oft fehlt uns einfach das Wissen, um ein Phänomen genügend genau mit deterministischen Ansätzen (d. h. ohne Unsicherheit) beschreiben zu können. Der Zufall kann aber auch ein äußerst nützliches Werkzeug sein. Wenn wir z. B. eine große Gruppe von Personen zufällig in zwei Gruppen aufteilen, dann sorgt die „Unvoreingenommenheit“ des Zufalls dafür, dass diese jeweils die gleiche Struktur (z. B. bezüglich Alter, Gesundheit, …) haben, selbst für Eigenschaften, die wir gar nicht einmal kennen! Wir benötigen daher Methoden, um zufӓllige Phänomene adäquat zu beschreiben (modellieren), aber auch um Daten unter Berücksichtigung von unvermeidlichen Schwankungen auszuwerten. Aus unseren Daten wollen wir nämlich (korrekte) Rückschlüsse ziehen und basierend auf diesen Entscheidungen treffen. Um dies zu können, benötigen wir die Wahrscheinlichkeitsrechnung und die Statistik. In der Wahrscheinlichkeitsrechnung geht man aus von einem Modell (man beschreibt sozusagen einen datengenerierenden Prozess) und leitet davon entsprechende Eigenschaften ab. Wie in . Abb. 1 dargestellt, kann man sich unter einem Modell symbolisch eine Urne vorstellen, aus der man Kugeln (Daten) zieht. Wenn wir ein Wahrscheinlichkeitsmodell haben für den jӓhrlichen maximalen Wasserstand eines Flusses, so interessiert es uns zum Beispiel, welcher Pegelstand in einer 100-Jahr-Periode mit einer Wahrscheinlichkeit von 99 % nie überschritten wird. In der Statistik geht es darum, aus vorhandenen Daten auf den datengenerierenden Mechanismus (das Modell) zu schließen. Wir denken also gerade „in die andere Richtung“. Wir sehen ein paar Datenpunkte (z. B. Wasserstandsmessungen) und versuchen mit diesem beschränkten Wissen herauszufinden, was wohl ein gutes Modell dafür ist bzw. welche Eigenschaften ein solches Modell besitzt. . Abb. 1 illustriert diese unterschiedlichen „Denkrichtungen“. In der Statistik können wir zusätzlich auch Angaben darüber machen, wie sicher wir uns unserer Rückschlüsse sind (was auf den ersten Blick erstaunlich erscheint). Wenn Sie einen Fachartikel lesen, dann kommt darin wohl fast immer auch eine statistische Datenanalyse vor. Um entsprechende Fehlschlüsse zu durchschauen (was auch ein Grund für den schlechten Ruf der Statistik ist), benötigen Sie das nötige Rüstzeug. Auch in Zeiten von „Data Science“, „Machine Learning“ oder „Artificial Intelligence“ ist es unabdingbar, sich konzeptionell immer zuerst zu überlegen, was man überhaupt aus Daten „lernen“ kann. Um eine Forschungsfrage zu beantworten, braucht man die passenden Daten. Auch der beste Algorithmus nützt uns nichts, wenn wir die falschen Daten erhoben haben. Dieses Buch gibt eine kompakte Einführung in die beiden Gebiete Wahrscheinlichkeitsrechnung und Statistik. Der Fokus liegt dabei auf einem intuitiven
VII Vorwort
. Abb. 1 Darstellung der Konzepte der Wahrscheinlichkeitsrechnung und der Statistik. Das Modell wird hier durch eine Urne symbolisiert. Bildquelle: openclipart.org, Lizenz: CC0 1.0
Verstӓndnis der grundlegenden Konzepte und ihrer Zusammenhӓnge und wird ermöglicht durch anschauliche Erklӓrungen und Beispiele. Trotzdem wird der Stoff (soweit möglich) mathematisch präzise prӓsentiert. Um ein Verstӓndnis fur die verwendeten Methoden zu erhalten, wird vieles „von Hand“ gerechnet, entsprechende Information über Software findet man auf der weiter unten erwӓhnten Website. Aufbau Wir beginnen mit der Wahrscheinlichkeitsrechnung, da die Statistik danach auf den entsprechenden Grundlagen aufbaut. Im Gymnasium haben Sie vermutlich Wahrscheinlichkeitsrechnung kennengelernt durch die Kombinatorik. Dort ging es darum, die Anzahl „günstiger Fälle“ und die Anzahl „möglicher Fälle“ zu bestimmen. Dabei lag die Hauptschwierigkeit oft in der Bestimmung dieser Anzahlen (was hat man z. B. doppelt gezӓhlt etc.). Falls Ihnen dies Schwierigkeiten bereitet hat, kommt die gute Nachricht gleich vorweg: Wir werden dies hier nur am Rande wieder antreffen. Vielleicht auf den ersten Blick etwas exotisch in der Wahrscheinlichkeitsrechnung „eingeschoben“ ist die deskriptive (beschreibende) Statistik. Dies ist einerseits so, weil es sich als Übergang vom eindimensionalen zum mehrdimensionalen Fall anbietet, aber auch, weil wir entsprechende Hilfsmittel dann gerade zur Illustration von gewissen Phӓnomenen der Wahrscheinlichkeitsrechnung verwenden können.
VIII
Vorwort
Im zweiten Teil des Buches folgt die sogenannte schließende Statistik. Hier geht es darum, mit (wenigen) Daten auf den zugrunde liegenden datengenerierenden Prozess zu schließen. Zu Beginn eines jeden Kapitels stehen die wichtigsten neuen Begriffe, die Sie dort kennenlernen werden. Wichtige Sachverhalte, Definitionen und „Warnungen“ sind entsprechend hervorgehoben. Das gleiche gilt für Textabschnitte, die Ihnen einen möglichst intuitiven Zugang zum Lerninhalt vermitteln sollen. Beispiele sind entsprechend markiert und das Ende eines Beispiels ist zusӓtzlich mit dem Symbol „◀“ gekennzeichnet. Typischerweise folgen nach jedem Abschnitt einige Kontrollfragen. Bei jeder Aussage (Teilaufgabe) soll entschieden werden, ob diese richtig oder falsch ist. Die Lösungen zu allen Aufgaben findet man im ▸ Anhang 12, je nach Schwierigkeitsgrad mit kurzem Lösungsweg. Am Ende der Kapitel befindet sich typischerweise eine grafische oder tabellarische Übersicht über die wichtigsten Konzepte und diverse Verstӓndnisfragen. Im Anhang findet man diverse Zusammenfassungen, Tabellen sowie Herleitungen. Interaktive Darstellungen, Software, Datensӓtze, Zusammenfassungen und weiterführendes Material werden unter 7 https://stat.ethz.ch/~meier/teaching/book-intro/ zur Verfügung gestellt. Aus Gründen der besseren Lesbarkeit wird in diesem Buch überwiegend das generische Maskulinum verwendet. Dies impliziert immer beide Formen, schließt also die weibliche Form mit ein. Falls Sie Fehler entdecken oder bei gewissen Abschnitten Verstӓndnisschwierigkeiten haben, melden Sie dies bitte per E-Mail unter [email protected]. Vielen Dank! Lukas Meier
Zürich im Januar 2020
IX
Dank Gewisse Beispiele in diesem Buch gehen zurück auf Vorlesungsunterlagen von Marloes Maathuis, Hansruedi Künsch, Peter Bühlmann, Markus Kalisch und Georg Grafendorfer. Einige Übersichtsabbildungen in den 7 Kap. 7 und 8 basieren auf ursprünglichen Skizzen von Hansruedi Künsch. Vielen Dank! Ein großer Dank geht an das inspirierende Umfeld am Seminar für Statistik an der ETH Zürich, speziell auch an Letizia Maurer und Susanne Kaiser-Heinzmann für das Zuhören und für die Tatsache, dass einfach immer alles so gut organisiert ist. Ohne die Motivation durch Marloes Maathuis und Peter Bühlmann wӓre aus dem ursprünglichen Skript nie ein Buch entstanden. Für Rückmeldungen und Verbesserungsvorschlӓge bedanke ich mich bei Marloes Maathuis, Markus Kalisch, Hansruedi Künsch, Florian Krach, Christoph Czichowsky und Maurice Cochand. Diverse Personen haben zu den Kontrollfragen beigetragen, ein spezieller Dank geht an Alain Hauser, Jan Ernest und Leonard Henckel. Weiter bedanke ich mich bei Agnes Herrmann, Stella Schmoll und Iris Ruhmann vom Springer Verlag für die angenehme, motivierende und produktive Zusammenarbeit und die vielen kreativen Ideen. Zu guter Letzt danke ich von ganzem Herzen meiner Familie für die große Unterstützung.
XI
Inhaltsverzeichnis Teil I Wahrscheinlichkeitsrechnung und deskriptive Statistik 1 1.1 1.2 1.3 1.4
Grundlagen der Wahrscheinlichkeitsrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 2.1 2.2
Wahrscheinlichkeitsverteilungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3 3.1 3.2 3.3
Deskriptive Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diskrete Wahrscheinlichkeitsmodelle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Unabhängigkeit von Ereignissen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4 12 14 16
Der Begriff der Zufallsvariable. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.2.1 Kennzahlen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.2.2 Bernoulli-Verteilung Bernoulli (p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.2.3 Binomialverteilung Bin (n, p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.2.4 Geometrische Verteilung Geom (p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 2.2.5 Poisson-Verteilung Pois () . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.3 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.3.1 Wahrscheinlichkeitsdichte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 2.3.2 Kennzahlen von stetigen Verteilungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 b)] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 2.3.3 Uniforme Verteilung [Uni (a, 2.3.4 Normalverteilung N µ, σ 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 2.3.5 Exponentialverteilung Exp () . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 2.3.6 Transformationen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 2.3.7 Simulation von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 2.4 Ausblick: Poisson-Prozesse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 2.5 Vergleich der Konzepte: Diskrete vs. stetige Verteilungen. . . . . . . . . . . . . . . . . . . . . . . . . . 67
Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kennzahlen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Grafische Darstellungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 Histogramm. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.3 Empirische kumulative Verteilungsfunktion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Mehrere Messgrößen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Modell versus Daten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4 4.1
4.1.1 4.1.2 4.2 4.3 4.4 4.5
72 73 76
77 78 79 80 84
Mehrdimensionale Verteilungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 Gemeinsame, Rand- und bedingte Verteilungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diskreter Fall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Stetiger Fall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Erwartungswert bei mehreren Zufallsvariablen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kovarianz und Korrelation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zweidimensionale Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Vergleich der Konzepte: Diskrete vs. stetige mehrdimensionale Verteilungen . . . . .
90
90 94 101 102 106 108
XII
Inhaltsverzeichnis
5 5.1 5.2 5.3
Grenzwertsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 Die i.i.d.-Annahme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 Summen und arithmetische Mittel von Zufallsvariablen. . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 Das Gesetz der großen Zahlen und der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . 115
Teil II Schließende Statistik 6 6.1
Parameterschätzungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
Einführung in die schließende Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Daten als Realisierungen von Zufallsvariablen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Überblick über die Konzepte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Wahl der Verteilungsfamilie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3 Methoden zur Parameterschätzung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3.1 Momentenmethode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3.2 Maximum-Likelihood-Methode. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3.3 Allgemeine Schätzer für Erwartungswert und Varianz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3.4 Genauigkeit von Schätzern – ein erster Ansatz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.1 6.1.2
7 7.1
124
124 125 125 132
133 137 142 144
Statistische Tests und Vertrauensintervalle für eine Stichprobe . . . . . . . . . . 149
Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 Illustration der Konzepte mit der Binomialverteilung: Binomialtest . . . . . . . . . . . . . . . . . 150 Einige Gedanken zu statistischen Tests. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 7.2 Tests für eine Stichprobe bei normalverteilten Daten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 7.2.1 Z -Test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 7.2.2 t -Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 7.2.3 Statistische Tests via Normalapproximation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 7.3 Allgemeine Eigenschaften von statistischen Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 7.3.1 Macht. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 7.3.2 P-Wert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 7.3.3 Multiples Testen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 7.4 Vertrauensintervalle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 7.5 Tests für eine Stichprobe bei nicht normalverteilten Daten. . . . . . . . . . . . . . . . . . . . . . . . . 180 7.5.1 Vorzeichentest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180 7.5.2 Wilcoxon-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 7.6 Rückblickender Überblick über Konzepte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 7.1.1 7.1.2
8 8.1 8.2 8.3 8.4 8.5 9 9.1 9.2
Vergleich zweier Stichproben. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 Gepaarte und ungepaarte Stichproben. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Grundlegende Gedanken zur Versuchsplanung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gepaarte Vergleiche. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zwei-Stichproben-Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Vergleich der Konzepte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
190 192 195 197 201
Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 Einfache lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 9.2.1 Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
XIII Inhaltsverzeichnis
9.2.2 Parameterschätzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2.3 Tests und Vertrauensintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2.4 Residuenanalyse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3 Multiple lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3.1 Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3.2 Parameterschätzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3.3 Ausblick: Tests und Vertrauensintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
209 215 218 221
221 223 224
Teil III Anhänge 10 10.1 10.2 10.3 10.4
Zusammenfassungen und Tabellen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231 Die wichtigsten eindimensionalen Verteilungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wichtige Rechenregeln für Erwartungswert, Varianz, Kovarianz und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabelle der Standardnormalverteilung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Quantile der t -Verteilung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
232 232 234 235
11 11.1
Herleitungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
12
Lösungen zu den Kontrollfragen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
Herleitung der Binomialverteilung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
Serviceteil Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250 Stichwortverzeichnis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
Notation In diesem Buch wird so wenig wie möglich (aber so viel wie nötig) abstrakt behandelt. Folgende mathematische Notation wird immer wieder verwendet:
R Menge der reellen Zahlen R+ Menge der positiven reellen Zahlen: {x ∈ R | x > 0} Oft schreiben wir für x ∈ R+ auch nur x > 0. N Menge der natürlichen Zahlen: {1, 2, 3,…} N0 Menge der natürlichen Zahlen inkl. Null: {0,1, 2,…} (a, b) {x ∈ R | a < x < b} (offenes Intervall) [a, b] {x ∈ R | a ≤ x ≤ b} (abgeschlossenes Intervall) (a, b] {x ∈ R | a 0 sein.
Jetzt befassen wir uns damit, wie wir die Wahrscheinlichkeiten von Ereignissen konkret ermitteln können.
1
12
1
Kapitel 1 · Grundlagen der Wahrscheinlichkeitsrechnung
1.2
Diskrete Wahrscheinlichkeitsmodelle
Für den Moment nehmen wir an, dass entweder endlich viele Elemente enthält (d. h. || < ∞) oder dass abzählbar ist, d. h., wir können die Elemente durchnummerieren. Wir können also schreiben als = {ω1 , ω2 , . . .}. Man spricht in diesem Fall auch von einem sogenannten diskreten Wahrscheinlichkeitsmodell. Das Beispiel mit dem Münzwurf passt in dieses Schema, während dies beim Beispiel mit der Biegefestigkeit von Holzbalken nicht der Fall ist, da man die reellen Zahlen nicht durchnummerieren kann. Wie man mit einem solchen Fall umgeht, werden wir in 7 Abschn. 2.3 sehen. Da Elementarereignisse per Definition disjunkt sind, können wir wegen (A3) die Wahrscheinlichkeit P (A) schreiben als P (A) =
P ({ωk }) ,
k : ωk ∈A
wobei wir mit {k : ωk ∈ A} einfach alle Elementarereignisse „sammeln“, die in A liegen bzw. die A „ausmachen“ (A ist ja eine Menge von Elementarereignissen). Für A = {ω2 , ω5 , ω7 } hätten wir also P (A) = P ({ω2 }) + P ({ω5 }) + P ({ω7 }). Wenn wir also die Wahrscheinlichkeiten der Elementarereignisse kennen, können wir die Wahrscheinlichkeit eines Ereignisses A berechnen, indem wir die entsprechenden Wahrscheinlichkeiten der passenden Elementarereignisse ganz simpel aufsummieren. Wir schreiben hier bewusst {ωk } in geschweiften Klammern, um zu unterstreichen, dass wir eine Menge (d. h. ein Ereignis) meinen mit einem Element ωk . Ferner gilt (A2)
(A3)
1 = P () =
P ({ωk }) .
k≥1
Die Summe der Wahrscheinlichkeiten aller Elementarereignisse muss also immer 1 ergeben. Also: Wenn uns jemand eine „Liste“ gibt mit allen Elementarereignissen und deren Wahrscheinlichkeiten, dann muss zwangsläufig die Summe von diesen Wahrscheinlichkeiten 1 ergeben. Zudem dient uns diese „Liste“ als Werkzeug, um die Wahrscheinlichkeit P (A) eines beliebigen Ereignisses A zu berechnen. Woher bekommen wir eine solche „Liste“ im Alltag? Falls endlich ist, ist der einfachste Ansatz das Modell von Laplace. Dieses nimmt an, dass alle Elementarereignisse gleich wahrscheinlich sind. Beim Beispiel mit dem zweimaligen Wurf einer Münze ist dies sicher eine sinnvolle Annahme, wenn wir daran glauben, dass die Münze fair ist. In diesem Fall haben wir nicht die Präferenz, dass ein möglicher Ausgang des Zufallsexperiments (ein Elementarereignis) wahrscheinlicher ist als ein anderer. Damit sich die Wahrscheinlichkeiten aller Elementarereignisse zu 1 addieren, haben wir im Laplace-Modell P ({ωk }) =
1 , k ≥ 1. ||
13 1.2 · Diskrete Wahrscheinlichkeitsmodelle
Wahrscheinlichkeiten im Laplace-Modell
Für ein Ereignis A gilt also im Laplace-Modell: P (A) =
k : ωk ∈A
P {ωk } =
k : wk ∈A
¨ |A| Anzahl gunstiger F¨alle 1 = = ¨ || || Anzahl moglicher F¨alle
Dies kennen Sie vermutlich aus dem Gymnasium. Dort bestand dann die Wahrscheinlichkeitsrechnung in der Regel darin, durch (mühsames) Abzählen die Anzahl günstiger Fälle zu bestimmen. Beispiel: Eine Münze zweimal werfen (Fortsetzung des Beispiels aus 7 Abschn. 1.1)
Wir gehen davon aus, dass die Münze fair ist. Für die Elementarereignisse haben wir also P ({KK }) = P ({KZ}) = P ({ZK }) = P ({ZZ}) =
1 . 4
Für das Ereignis A = {KZ, ZK } (genau einmal Kopf) gilt demnach P (A) = P ({KZ}) + P ({ZK }) =
1 1 1 + = . 4 4 2
? Kurze Lernkontrolle: Wahr oder falsch? 4.
Wir betrachten ein Zufallsexperiment mit 4 möglichen Elementarereignissen ω1 , . . . , ω4 mit folgenden Wahrscheinlichkeiten: ω1 ω2 ω3 ω4 0.1 0.2 0.3 ? Zudem definieren wir die Ereignisse A = {ω1 , ω2 }, B = {ω2 , ω3 }. a) Es ist P ({ω4 }) = 0.4. b) Es gilt P (B) = 0.6. c) Es gilt P (A ∪ B) = 0.6. d) Es gilt P (A ∩ B) = 0.2. e) Es handelt sich hier um das Laplace-Modell.
5.
Wir betrachten einen Wurf mit einem fairen Würfel (Laplace-Modell). a) b) c)
Die beiden Ereignisse „Augenzahl gerade“ und „Augenzahl ungerade“ haben beide Wahrscheinlichkeit 0.5. Die Wahrscheinlichkeit für das Ereignis „Augenzahl größer gleich 3’’ ist größer als die Wahrscheinlichkeit für das Ereignis „Augenzahl größer gleich 5’’. Wenn der Würfel gezinkt ist, aber noch alle Zahlen zwischen 1 und 6 zeigen kann, liegt als Grundraum immer noch = {1, 2, . . . , 6} vor.
1
14
1
Kapitel 1 · Grundlagen der Wahrscheinlichkeitsrechnung
Wie wir sehen werden, geht die Wahrscheinlichkeitsrechnung weit über das LaplaceModell hinaus. Insbesondere ist das Laplace-Modell für viele Anwendungen ungeeignet. Weitere Modelle werden wir in 7 Kap. 2 kennenlernen.
1.3
Unabhängigkeit von Ereignissen
Wenn man die Wahrscheinlichkeiten P (A) und P (B) kennt, so können wir nur aus diesen Angaben allein die Wahrscheinlichkeit P (A ∩ B) im Allgemeinen nicht berechnen. Es kann z. B. sein, dass die Schnittmenge die leere Menge ist oder dass B ganz in A liegt bzw. umgekehrt (siehe Venn-Diagramm!). Wir sehen anhand der einzelnen Wahrscheinlichkeiten P (A) und P (B) also nicht, welche Situation vorliegt, und können damit P (A ∩ B) nicht berechnen. Die folgende Definition bildet eine Ausnahme. Definition: Unabhängige Ereignisse
Man nennt A und B (stochastisch) unabhängig, wenn folgende Produktformel gilt: P (A ∩ B) = P (A) P (B) . In diesem Fall kann man einfach die Wahrscheinlichkeiten von A und B multiplizieren, um die Wahrscheinlichkeit zu erhalten, dass A und B zusammen eintreten. Man kann zeigen: Wenn A und B unabhängig sind, dann sind auch Ac und B, A und B c sowie Ac und B c unabhängig.
Wenn z. B. A mit Wahrscheinlichkeit 1/3 eintritt und B mit Wahrscheinlichkeit 1/6, dann „sehen“ wir sowohl A als auch B (also A ∩ B) mit Wahrscheinlichkeit 1/18, wenn die beiden Ereignisse unabhängig sind. Bei vielen unabhängigen Wiederholungen eines Zufallsexperiments können wir also zuerst alle Fälle „sammeln“, bei denen A eintritt (ca. 1/3) und davon nochmals diejenigen, bei denen B eintritt. Weil wir am Schluss (ca.) 1/18 der ursprünglichen Fälle haben (P (A ∩ B)), muss das Ereignis B in (ca.) 1/6 dieser Fälle eingetroffen sein. Das Ereignis B „kümmert es also nicht“, ob A schon eingetroffen ist oder nicht, die Wahrscheinlichkeit 1/6 bleibt. Oder: Unter den Fällen, bei denen A schon eingetroffen ist, trifft B also nicht über- oder unterdurchschnittlich oft ein (verglichen mit 1/6). Dies muss nicht immer der Fall sein, siehe auch das folgende Beispiel. Diese Denkweise werden wir bei den sogenannten bedingten Wahrscheinlichkeiten in 7 Abschn. 1.4 formeller kennenlernen. Typischerweise wird die Unabhängigkeit basierend auf physikalischen und technischen Überlegungen (z. B. „keine gemeinsamen Ursachen“) postuliert. Man nimmt an, dass obige Produktformel gilt. Beispiel: Gerät aus zwei Bauteilen
Ein Gerät bestehe aus zwei Bauteilen und funktioniere, solange mindestens eines der beiden Bauteile in Ordnung ist. A1 und A2 seien die Ereignisse, dass Bauteil 1 bzw. Bauteil 2 defekt ist mit den entsprechenden Wahrscheinlichkeiten P (A1 ) = 1/100 und P (A2 ) = 1/100. Wir wollen zudem davon ausgehen, dass die beiden Ereignisse A1 und A2 unabhängig voneinander sind.
15 1.3 · Unabhängigkeit von Ereignissen
Die Ausfallwahrscheinlichkeit für das Gerät ist also wegen der Unabhängigkeit gegeben durch P (A1 ∩ A2 ) = P (A1 ) P (A2 ) =
1 1 · = 10−4 . 100 100
Wir sehen also, dass aus der Annahme der Unabhängigkeit eine kleine Ausfallwahrscheinlichkeit resultiert. Wenn in Tat und Wahrheit aufgrund eines Ausfalls des einen Bauteils das andere Bauteil auch ausfällt (wodurch die Unabhängigkeit nicht mehr gegeben ist), dann steigt die Ausfallwahrscheinlichkeit des Geräts auf 1/100 an (da in diesem Fall A1 = A2 und somit A1 ∩ A2 = A1 = A2 )!
Intuition zu Unabhängigkeit Unabhängigkeit ist eine sehr starke Annahme. Sie erleichtert uns die Berechnung der Wahrscheinlichkeiten von Schnittmengen, weil wir die „einzelnen“ Wahrscheinlichkeiten nur multiplizieren müssen. Wenn man Wahrscheinlichkeiten unter der Annahme von Unabhängigkeit berechnet, diese aber in der Realität nicht erfüllt ist, so kann das Resultat um einige Größenordnungen falsch sein! In der Praxis ist es z. B. oft so, dass Extremereignisse nicht unabhängig voneinander sind. Dinge, die im Normalzustand unabhängig sind, können in einer extremen Situation auf einmal stark abhängig voneinander werden (Aktienkurse bei Börsencrash, Verhalten von Trägern bei Brückeneinsturz etc.). Dies drückt sich auch aus in dem Sprichwort „Ein Unglück kommt selten allein“. Ein ähnliches Beispiel dazu: Als erwachsene Person würde man nicht versuchen, aufgrund der Körpergröße auf das Alter einer anderen (erwachsenen) Person zu schließen. Man geht davon aus, dass Alter und Körpergröße unabhängig voneinander sind. Bei Kindern sieht dies aber ganz anders aus. Bei Kindern kann man sehr wohl eine Abhängigkeit zwischen Alter und Körpergröße feststellen.
! Achtung Disjunkte Ereignisse sind nicht unabhängig und unabhängige Ereignisse sind nicht disjunkt (außer wenn ein Ereignis Wahrscheinlichkeit 0 hat). Disjunkte Ereignisse sind in der Tat „hochabhängig“, gerade weil sie sich gegenseitig ausschließen!
Der Begriff der Unabhängigkeit kann auch auf mehrere Ereignisse erweitert werden: Die n Ereignisse A1 , . . . , An heißen unabhängig, wenn für jedes k ≤ n und alle 1 ≤ i1 < . . . < ik ≤ n gilt P Ai1 ∩ · · · ∩ Aik = P Ai1 · · · P Aik . Dies bedeutet nichts anderes, als dass die entsprechende Produktformel für alle sogenannten k-Tupel von Ereignissen gelten muss. Es reicht mathematisch gesehen nicht, die Produktformel nur für A1 ∩ · · · ∩ An zu fordern. Damit z. B. die drei Ereignisse A1 , A2 , A3 unabhängig sind, muss also gelten
1
16
Kapitel 1 · Grundlagen der Wahrscheinlichkeitsrechnung
P (A1 ∩ A2 ∩ A3 ) = P (A1 ) P (A2 ) P (A3 ) P (A1 ∩ A2 ) = P (A1 ) P (A2 )
1
P (A1 ∩ A3 ) = P (A1 ) P (A3 ) P (A2 ∩ A3 ) = P (A2 ) P (A3 ) . ? Kurze Lernkontrolle: Wahr oder falsch? 6.
Wir betrachten einen Wurf mit einem fairen Würfel (Laplace-Modell). a) b) c)
1.4
Die Ereignisse A = {1, 2} und B = {1, 4, 5} sind unabhängig. Die Ereignisse C = {1, 2} und D = {3, 4, 5} sind unabhängig. Die Ereignisse „Ungerade Augenzahl“ und „Augenzahl größer gleich 4“ sind unabhängig.
Bedingte Wahrscheinlichkeiten
Wenn zwei Ereignisse nicht unabhängig sind, dann können wir mit der Information über das (Nicht-)Eintreten des einen Ereignisses die Wahrscheinlichkeit des anderen Ereignisses „aktualisieren“. Oder: Wir können mit dieser Information etwas über die Wahrscheinlichkeit des anderen Ereignisses „lernen“. Beispiel: Korrodierte Stahlträger
Eine Konstruktion besteht aus zwei Stahlträgern. A priori nehmen wir an, dass ein Träger mit einer gewissen Wahrscheinlichkeit Korrosionsschäden aufweist. Wenn wir jetzt aber wissen, dass der erste Stahlträger Korrosionsschäden hat, werden wir vermutlich annehmen, dass in diesem Falle auch der zweite Träger betroffen ist (da sie z. B. aus derselben Produktion stammen und den gleichen Witterungsbedingungen ausgesetzt waren etc.). Die Wahrscheinlichkeit für Korrosionsschäden beim zweiten Träger (dessen Zustand wir noch nicht kennen) würden wir also nach Erhalt der Information über den ersten Träger höher einschätzen als ursprünglich.
Dies führt zum Konzept der bedingten Wahrscheinlichkeiten. Diese treten zum Beispiel dann auf, wenn ein Zufallsexperiment aus verschiedenen Stufen besteht und man sukzessive das Resultat der entsprechenden Stufen erfährt. Oder salopp gesagt: „Die Karten werden sukzessive aufgedeckt“. Definition: Bedingte Wahrscheinlichkeit
Die bedingte Wahrscheinlichkeit von A gegeben B ist definiert als P (A|B) =
P (A ∩ B) . P (B)
Die Interpretation ist folgendermaßen: P (A|B) ist die Wahrscheinlichkeit für das Ereignis A, wenn wir wissen, dass das Ereignis B schon eingetroffen ist. Bemerkung: In der Definition sind wir stillschweigend davon ausgegangen, dass P (B) > 0 gilt.
17 1.4 · Bedingte Wahrscheinlichkeiten
Wie kann man obige Formel verstehen? Da wir wissen, dass B schon eingetreten ist, haben wir einen neuen Grundraum = B. Wir müssen also von A nur noch denjenigen Teil berücksichtigen, der sich in B abspielt (daher A ∩ B). Jetzt brauchen wir nur noch zu schauen, wie wahrscheinlich das Ereignis A∩B innerhalb B ist. Dies bedeutet, dass wir die Wahrscheinlichkeit P (A ∩ B) in Relation zur Wahrscheinlichkeit P (B) bringen müssen. Die Normierung mit P (B) sorgt insbesondere gerade dafür, dass P |B = P (B|B) = 1. Wenn man wieder in Flächeninhalten denkt, dann ist die bedingte Wahrscheinlichkeit P (A|B) nichts anderes als der Anteil des schraffierten Flächeninhalts am Flächeninhalt von B in . Abb. 1.3 Beispiel: Fairer Würfel
Wir betrachten die beiden Ereignisse A = {2, 4, 6} („gerade Augenzahl“) und B = {1, 2, 3} („Augenzahl kleiner gleich 3“). Gemäß Laplace-Modell ist P (A) = P (B) =
3 1 = . 6 2
Wie hoch ist nun die (bedingte) Wahrscheinlichkeit für A, wenn wir wissen, dass B eingetreten ist? Weil A ∩ B = {2} und damit P (A ∩ B) = 1/6 gilt, erhalten wir P (A|B) =
P (A ∩ B) 1/6 1 1 = = = P (A) = . P (B) 1/2 3 2
Durch die zusätzliche Information („Augenzahl kleiner gleich 3“) hat sich die Wahrscheinlichkeit für eine gerade Augenzahl also geändert!
. Abb. 1.3
Hilfsillustration für bedingte Wahrscheinlichkeiten
1
18
1
Kapitel 1 · Grundlagen der Wahrscheinlichkeitsrechnung
Intuition zu bedingten Wahrscheinlichkeiten Konzeptionell sind bedingte Wahrscheinlichkeiten also nichts anderes als Wahrscheinlichkeiten für spezielle Situationen, in die man das schon bekannte Wissen einfließen lassen will. Bedingte Wahrscheinlichkeiten erfüllen daher auch die bisher bekannten Rechenregeln. Oft ist es aber leider so, dass sich der konkrete Wert einer bedingten Wahrscheinlichkeit stark von dem unterscheidet, was man intuitiv erwarten würde. Hier sollte man also ohne konkrete Berechnung sehr vorsichtig sein, siehe auch das Beispiel am Endes dieses Kapitels.
Rechenregeln für bedingte Wahrscheinlichkeiten
Wenn wir auf ein Ereignis B bedingen, gelten wieder die bekannten Rechenregeln: 0 ≤ P (A|B) ≤ 1 P (B|B) = 1 P (A1 ∪ A2 |B) = P (A1 |B) + P (A2 |B) P Ac |B = 1 − P (A|B) etc.
¨ jedes Ereignis A fur ¨ disjunkte Ereignisse A1 , A2 fur ¨ jedes Ereignis A fur
Solange man am „bedingenden Ereignis“ B nichts ändert, kann man also mit bedingten Wahrscheinlichkeiten wie gewohnt rechnen, d. h., es gelten insbesondere auch die Rechenregeln (1.1)–(1.5). Sobald man aber das bedingende Ereignis ändert, muss man sehr vorsichtig sein.
! Achtung Oft werden im Zusammenhang mit bedingten Wahrscheinlichkeiten falsche Rechenregeln verwendet und damit falsche Schlussfolgerungen gezogen. Man beachte, dass im Allgemeinfall P (A|B) = P (B|A) P A|B c = 1 − P (A|B) .
Intuitive Beispiele für obige Ungleichungen Die erste Gleichung von oben besagt, dass man bedingte Wahrscheinlichkeiten in der Regel nicht einfach „umkehren“ kann. Dies ist auch gut aus . Abb. 1.3 ersichtlich. P (A|B) ist dort viel größer als P (B|A). Dies kann man auch an vielen praktischen Beispielen einsehen. Gegeben dass eine Person krank ist (Ereignis B), so ist die bedingte Wahrscheinlichkeit P (A|B), dass diese Person im Bett liegt (Ereignis A), relativ hoch. Dies bedeutet aber nicht, dass eine Person, die im Bett liegt, eine gleich hohe bedingte Wahrscheinlichkeit P (B|A) hat, krank zu sein.
19 1.4 · Bedingte Wahrscheinlichkeiten
Bei der zweiten Gleichung wurde die Regel für das Komplementärereignis fälschlicherweise beim bedingenden Ereignis B angewendet. Auch hier sieht man mit einfachen Beispielen, dass dies in der Regel nicht erfüllt sein kann. Nehmen wir an, dass die bedingte Wahrscheinlichkeit, dass eine Person gut Auto fährt (Ereignis A), gegeben dass sie jung ist (Ereignis B), z. B. 0.9 beträgt. Dann bedeutet dies nicht, dass, gegeben jemand ist alt (Ereignis B c ), diese bedingte Wahrscheinlichkeit nur noch 0.1 beträgt.
Die korrekte Berechnung für obige Fälle werden wir im nächsten Abschnitt kennenlernen. Aus der Definition der bedingten Wahrscheinlichkeit wird durch Umformung klar, dass wir mit der Kenntnis von P (B) und P (A | B) die Wahrscheinlichkeit P (A ∩ B) berechnen können. Weitere Rechenregeln und alternative Definition von Unabhängigkeit
Für zwei beliebige Ereignisse A, B mit P (A) > 0 und P (B) > 0 gilt: P (A ∩ B) = P (A|B) P (B) = P (B|A) P (A)
(1.6)
Deshalb können wir Unabhängigkeit auch folgendermaßen definieren: A, B unabh¨angig
⇐⇒
P (A|B) = P (A)
⇐⇒
P (B|A) = P (B)
(1.7)
Intuition zu Unabhängigkeit mit bedingten Wahrscheinlichkeiten Unabhängigkeit von A und B bedeutet also, dass uns das „Zusatzwissen“, dass B eingetreten ist, nichts nützt, um die Wahrscheinlichkeit von A zu „aktualisieren“, es bleibt P (A | B) = P (A). Wir können von B also nichts über A „lernen“ (bzw. umgekehrt).
1 Satz der totalen Wahrscheinlichkeit und Satz von Bayes Wie wir in (1.6) gesehen haben, kann man P (A ∩ B) = P (A|B) P (B) schreiben, d. h., P (A ∩ B) ist bestimmt durch P (A|B) und P (B). In vielen Anwendungen wird ein solches „stufenweises“ Vorgehen benutzt. Aufgrund von Daten, Plausibilitätsüberlegungen und subjektiven Einschätzungen legt man die Wahrscheinlichkeiten für P (B) und die bedingten Wahrscheinlichkeiten P (A|B) und P (A|B c ) fest. Wie wir am folgenden Beispiel sehen, lässt sich damit dann die Wahrscheinlichkeit von A berechnen.
1
20
1
Kapitel 1 · Grundlagen der Wahrscheinlichkeitsrechnung
Beispiel: Verkehrsunfälle
Es sei z. B. A = ,,Ein Unfall passiert‘‘ und B = ,,Straße ist nass‘‘. Wir nehmen an, dass wir folgendes kennen: P (A|B) = 0.01 P A|B c = 0.001 P (B) = 0.2 Mit den Rechenregeln für Wahrscheinlichkeiten erhalten wir P B c = 1 − P (B) = 0.8. Können wir damit die Wahrscheinlichkeit für A bestimmen? Wir können A schreiben als disjunkte Vereinigung (siehe Venn-Diagramm) A = (A ∩ B) ∪ (A ∩ B c ). Daher haben wir P (A) = P (A ∩ B) + P A ∩ B c = P (A|B) P (B) + P A|B c P B c = 0.01 · 0.2 + 0.001 · 0.8. Dies ergibt P (A) = 0.0028. Mit der Wahrscheinlichkeit von B und den bedingten Wahrscheinlichkeiten von A gegeben B bzw. B c können wir also die Wahrscheinlichkeit von A berechnen.
Wir schauen also in den beiden möglichen Situationen (B bzw. B c ), wie hoch die bedingte Wahrscheinlichkeit für A ist, und gewichten diese mit den entsprechenden Wahrscheinlichkeiten P (B) bzw. P (B c ), oder nochmals formell P (A) = P (A|B) P (B) + P A|B c P B c . Dieses Vorgehen wird besonders anschaulich, wenn man das Zufallsexperiment als sogenannten Wahrscheinlichkeitsbaum darstellt, siehe . Abb. 1.4. In jeder Verzweigung ist die Summe der (bedingten) Wahrscheinlichkeiten 1. Um die Wahrscheinlichkeit für eine spezifische „Kombination“ (z. B. Ac ∩ B) zu erhalten, muss man einfach dem entsprechenden Pfad entlang „durchmultiplizieren“. Um die Wahrscheinlichkeit von A zu erhalten, muss man alle Pfade betrachten, die A enthalten, und die entsprechenden Wahrscheinlichkeiten aufsummieren. Diese Aufteilung in verschiedene, sich gegenseitig ausschließende Situationen (B, B c ) funktioniert noch viel allgemeiner und führt zum Satz der totalen Wahrscheinlichkeit.
21 1.4 · Bedingte Wahrscheinlichkeiten
. Abb. 1.4
Wahrscheinlichkeitsbaum
Satz der totalen Wahrscheinlichkeit
Wir nehmen an, dass wir k paarweise disjunkte Ereignisse B1 , . . . , Bk haben mit B1 ∪ . . . ∪ B k =
¨ (,,alle moglichen F¨alle sind genau einmal abgedeckt‘‘).
Dann sind A ∩ B1 , . . . , A ∩ Bk disjunkt (siehe . Abb. 1.5) und es gilt k (A3)
P (A) =
i=1
k (1.6)
P (A ∩ Bi ) =
P (A|Bi ) P (Bi ) .
i=1
Dies ist wie beim einführenden Beispiel mit der Straße und den Unfällen (dort hatten wir B1 = B und B2 = B c ). Wir haben jetzt einfach k verschiedene „Verzweigungen“. Wenn wir also die (bedingte) Wahrscheinlichkeit von A in jeder Situation Bi kennen, dann ist die Wahrscheinlichkeit von A einfach deren gewichtete Summe, wobei die Gewichte durch P (Bi ) gegeben sind. B1 , . . . , Bk heißt auch Partition von . Sie deckt alle möglichen Fälle ab und zwei Ereignisse Bi und Bj können nicht zusammen eintreten. Eine Illustration einer Partition findet man in . Abb. 1.5. Intuition zum Satz der totalen Wahrscheinlichkeit Wenn man wieder in Flächeninhalten denkt, dann besagt der Satz der totalen Wahrscheinlichkeit: Wenn wir A in die Stücke A ∩ Bi „zerschneiden“, ergibt die Summe von diesen einzelnen Flächeninhalten wieder den totalen Flächeninhalt von A, siehe auch . Abb. 1.5. Wir fügen einfach die entsprechenden „Puzzleteile“ wieder zusammen.
1
22
1
Kapitel 1 · Grundlagen der Wahrscheinlichkeitsrechnung
Oft will man die bedingten Wahrscheinlichkeiten auch „umkehren“. Sie haben z. B. ein technisches Verfahren entwickelt, um Haarrisse in Oberflächen zu detektieren. Wir betrachten folgende Ereignisse: ¨ A = ,,Technisches Verfahren schl¨agt Alarm, dass Haarrisse da sein konnten.‘‘ B1 = ,,Oberfl¨ache weist in der Tat Haarrisse auf.‘‘ B2 = B1c = ,,Oberfl¨ache weist in der Tat keine Haarrisse auf.‘‘
Das technische Verfahren arbeitet nicht ganz fehlerfrei. Die Fehlerquote ist aber (auf den ersten Blick) relativ gering (fiktive Zahlen): P (A|B1 ) = 0.99 P (A|B2 ) = 0.03 Zudem nehmen wir an, dass gilt P (B1 ) = 0.001. Wenn die Oberfläche also tatsächlich Haarrisse hat, so schlagen wir mit Wahrscheinlichkeit 0.99 Alarm. Wenn hingegen keine Haarrisse da sind, dann schlagen wir „nur“ mit Wahrscheinlichkeit 0.03 fälschlicherweise Alarm. Zudem gehen wir davon aus, dass mit Wahrscheinlichkeit 0.001 überhaupt Haarrisse vorhanden sind (a-priori,
. Abb. 1.5
Illustration einer Partition von (B1 , . . . , B6 )
23 1.4 · Bedingte Wahrscheinlichkeiten
ohne einen Test gemacht zu haben). Wir nennen daher P (B1 ) auch die sogenannte a-priori-Wahrscheinlichkeit für B1 . Die Frage lautet nun: Gegeben dass das technische Verfahren Alarm schlägt, wie hoch ist dann die Wahrscheinlichkeit, dass in Tat und Wahrheit wirklich Haarrisse vorhanden sind? Oder ausgedrückt in bedingten Wahrscheinlichkeiten: Wie groß ist P (B1 |A)? Wir nennen diese Wahrscheinlichkeit auch a-posteriori-Wahrscheinlichkeit von B1 (nach Beobachtung von A). Diese können wir mit dem Satz von Bayes berechnen. Satz von Bayes
Für zwei Ereignisse A und B mit P (A), P (B) > 0 gilt P (B|A) =
P (A ∩ B) P (A|B) P (B) = . P (A) P (A)
In der Situation des Satzes der totalen Wahrscheinlichkeit haben wir P (A|Bi ) P (Bi ) P (A) P (A|Bi ) P (Bi ) = . k l=1 P A|Bl P Bl
P (Bi |A) =
Oft ist das Resultat einer solchen Berechnung stark verschieden von dem, was man intuitiv erwartet. Beispiel: Entdeckung von Haarrissen
In obigem Beispiel haben wir also P (A|B1 ) P (B1 ) P (A|B1 ) P (B1 ) + P (A|B2 ) P (B2 ) 0.99 · 0.001 = 0.032. = 0.99 · 0.001 + 0.03 · 0.999
P (B1 |A) =
Obwohl die Spezifikationen unseres technischen Verfahrens auf den ersten Blick gut ausgesehen haben, sagt hier ein Alarm nicht sehr viel aus! Oder haben wir uns nur verrechnet oder etwas falsch angewendet? Schauen wir uns die Geschichte einmal mit konkreten Zahlen an. Wir nehmen an, dass wir 100 000 Untersuchungen machen. Davon sind im Schnitt 99 900 in der Tat in Ordnung (weil P (B2 ) = 1 − P (B1 ) = 0.999). Von diesen 99 900 Fällen erwarten wir wegen P (A|B2 ) = 0.03, dass bei 0.03 · 99 900 = 2997 Fällen Alarm geschlagen wird. In der untenstehenden Tabelle sehen wir, wie sich die Fälle im Schnitt gemäß den Fehlerquoten aufteilen, wenn wir die restlichen Kombinationen nach dem gleichen Schema berechnen. Wir interessieren uns nun für die Untergruppe, bei der Alarm geschlagen wurde (Zeile A). Es sind dies 3096 Fälle, 99 davon sind wirklich von Haarrissen betroffen. Also ist der Anteil 99/3096 = 0.032. Für die Kommunikation an fachfremde Personen eignet sich eine solche Tabelle in der Regel gut. Die Zahlen kann jeder selber rasch nachrechnen bzw. überprüfen.
1
24
Kapitel 1 · Grundlagen der Wahrscheinlichkeitsrechnung
B1 B2 Summe A 99 2997 3096 Ac 1 96 903 96 904 Summe 100 99 900 100 000
1
Wir sehen insbesondere auch: Die a-posteriori-Wahrscheinlichkeit hängt nicht nur von den Fehlerquoten, sondern auch von der a-priori-Wahrscheinlichkeit ab!
? Kurze Lernkontrolle: Wahr oder falsch? 7.
Wir betrachten zwei beliebige Ereignisse A und B mit P (B) = 0.5 und den beding ten Wahrscheinlichkeiten P (A | B) = 0.2 und P A | B c = 0.7. a) b) c) d)
Es ist P (A ∩ B) = 0.2 · 0.7. Es ist P (A) = 0.45. Es gilt P Ac | B = 0.3. Die Wahrscheinlichkeit, dass B nicht eintritt, wenn wir wissen, dass A eingetreten ist, berechnet sich als P A | Bc · P Bc . P (A)
8.
Techniker Martin besitzt drei akkubetriebene Bohrmaschinen. Bei Maschine 1 beträgt die Wahrscheinlichkeit, dass der Akku den Tag nicht durchhält (Ereignis N), 0.1, bei Maschine 2 ist sie 0.3 und bei Maschine 3 ist die entsprechende Wahrscheinlichkeit 0.5. Martin verwendet pro Tag genau eine der drei Maschinen. Mit Wahrscheinlichkeit 0.5 wählt er Maschine 1 (Ereignis M1 ), mit Wahrscheinlichkeit 0.4 Maschine 2 (Ereignis M2 ) und mit Wahrscheinlichkeit 0.1 Maschine 3 (M3 ). a) b) c)
9.
Die Ereignisse M1 , M2 und M3 sind eine Partition von . Die Wahrscheinlichkeit, dass Martin an einem Tag einen leeren Akku erleidet, ist gegeben durch 0.9. Martin erzählt am Abend: „Heute hat der Akku durchgehalten!“. Die bedingte Wahrscheinlichkeit, dass Martin Maschine 1 verwendet hat, ist dann (gerundet) angestiegen auf 0.55.
Nach einem internationalen Sportwettkampf werden Dopingtests durchgeführt. Dabei wird ein neues Schnelltestverfahren eingesetzt. Falls ein Sportler gedopt ist, dann ist der Schnelltest mit einer Wahrscheinlichkeit von 90 % positiv. Falls ein Sportler in Tat und Wahrheit nicht gedopt ist, zeigt der Schnelltest dennoch in 5 % der Fälle ein positives Ergebnis. Aus Erfahrung wissen die Dopingkontrolleure, dass 10 % der Sportler gedopt sind (alles fiktive Zahlen). Wir betrachten die folgenden Ereignisse: D : Der Sportler ist gedopt T+ : Der Schnelltest ist positiv
Dc : Der Sportler ist nicht gedopt T− : Der Schnelltest ist negativ
25 1.4 · Bedingte Wahrscheinlichkeiten
a) b) c)
Gemäß Text gilt P (T+ | D) = 0.9. Die Wahrscheinlichkeit, dass ein Sportler sowohl gedopt als auch das Resultat des Tests positiv ist, ist 0.09. Die bedingte Wahrscheinlichkeit, dass ein Sportler gedopt ist, wenn der Test negativ ist, ist (gerundet) gegeben durch 0.0116.
Verständnisfragen: Alles klar? 5 5 5 5 5 5 5 5 5 5 5 5
Welches sind die Grundbegriffe der Wahrscheinlichkeitsrechnung? Was sind die Operationen der Mengenlehre und deren Bedeutung? Wie wird eine Wahrscheinlichkeit interpretiert? Wie lauten die Axiome der Wahrscheinlichkeitsrechnung und die resultierenden Rechenregeln? Wie berechnet man in einem diskreten Wahrscheinlichkeitsmodell die Wahrscheinlichkeit eines Ereignisses? Was ist das Laplace–Modell? Was bedeutet es, wenn zwei Ereignisse unabhängig sind? Wie interpretiert man eine bedingte Wahrscheinlichkeit? Wie berechnet man eine bedingte Wahrscheinlichkeit? Wie kann man Unabhängigkeit mit bedingten Wahrscheinlichkeiten ausdrücken? Wann und wie wendet man den Satz der totalen Wahrscheinlichkeit an? Wie kann man eine bedingte Wahrscheinlichkeit umkehren?
1
27
2
Wahrscheinlichkeitsverteilungen Inhaltsverzeichnis 2.1
Der Begriff der Zufallsvariable – 28
2.2
Diskrete Verteilungen – 30
2.2.1 2.2.2 2.2.3 2.2.4 2.2.5
Kennzahlen – 33 Bernoulli-Verteilung Bernoulli (p) – 39 Binomialverteilung Bin (n, p) – 39 Geometrische Verteilung Geom (p) – 42 Poisson-Verteilung [Pois (λ)] – 44
2.3
Stetige Verteilungen – 48
2.3.1 2.3.2 2.3.3 2.3.4 2.3.5 2.3.6 2.3.7
Wahrscheinlichkeitsdichte – 49 Kennzahlen von stetigen Verteilungen – 51 Uniforme Verteilung Uni (a, b) – 54 Normalverteilung N μ, σ 2 – 56 Exponentialverteilung Exp (λ) – 58 Transformationen – 61 Simulation von Zufallsvariablen – 66
2.4
Ausblick: Poisson-Prozesse – 66
2.5
Vergleich der Konzepte: Diskrete vs. stetige Verteilungen – 67
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 L. Meier, Wahrscheinlichkeitsrechnung und Statistik, https://doi.org/10.1007/978-3-662-61488-4_2
28
Kapitel 2 · Wahrscheinlichkeitsverteilungen
n Begriffe, die Sie in diesem Kapitel kennenlernen werden 5 5 5
2
5 5 5 5
Zufallsvariable Wahrscheinlichkeitsverteilung (kurz: Verteilung): diskret und stetig Kennzahlen einer Verteilung: Erwartungswert, Varianz, Standardabweichung, Variationskoeffizient, Quantile, Median/Zentralwert Kumulative Verteilungsfunktion, Wahrscheinlichkeitsfunktion, Wahrscheinlichkeitsdichte Diskrete Verteilungen: Bernoulli-Verteilung, Binomialverteilung, geometrische Verteilung, Poisson-Verteilung Stetige Verteilungen: Uniforme Verteilung, Normalverteilung/Gauß-Verteilung, Standardnormalverteilung, Exponentialverteilung, Lognormalverteilung Poisson-Prozesse
Bis jetzt haben wir ganz allgemein Zufallsexperimente angeschaut. Deren Ausgang waren entweder Zahlen (z. B. Bremsweg, Augenzahl Würfel etc.) oder „abstraktere“ Dinge wie eine Kombination von K und Z beim Beispiel mit dem zweimaligen Wurf einer Münze. In der Praxis liefern Zufallsexperimente häufig Messwerte oder Anzahlen als Ergebnis (z. B. eine physikalische Messung oder die Zählung fehlerhafter Bauteile). Man führt für diesen Spezialfall den Begriff der Zufallsvariable ein. Oft weist man den verschiedenen „abstrakten“ Ausgängen eines Zufallsexperiments auch Zahlen zu, z. B. entsprechende Gewinne bei einem Glücksspiel (z. B. je nach „Kartensituation“). In beiden Fällen hat man schlussendlich zufällige Zahlen als Ausgänge.
2.1
Der Begriff der Zufallsvariable
Eine Zufallsvariable X ist ein Zufallsexperiment mit möglichen Werten in R bzw. in einer Teilmenge von R, z. B. N0 = {0, 1, . . .}. Wir haben also die gleiche Situation wie in 7 Abschn. 1.1, d. h. = R bzw. = N0 etc.; jetzt aber angereichert mit einem neuen Begriff und neuer Notation. Der Wert einer Zufallsvariable ist insbesondere im Voraus also nicht bekannt. Typischerweise schreiben wir für den Wertebereich der Zufallsvariable W . Zur verwendeten Notation: Wir verwenden Großbuchstaben X für die Zufallsvariable und Kleinbuchstaben x für die realisierten Werte. Wenn wir {X = x} schreiben, ist dies also das Ereignis, dass die Zufallsvariable X den Wert x annimmt, d. h., dass das Elementarereignis x eintritt. Unter dem Großbuchstaben können Sie sich einfach die Beschreibung in Worten vorstellen (z. B. „Messung des Bremswegs“). Beim Kleinbuchstaben setzt man einen konkreten Wert ein, z. B. x = 40. Für die entsprechende Wahrscheinlichkeit schreiben wir P(X = 40) oder allgemein P(X = x). Ferner bezeichnen wir z. B. mit {X ≤ 40} das Ereignis „Bremsweg ist höchstens 40 m“, dazu äquivalent schreiben wir manchmal auch {X ∈ (−∞, 40]}. Die entsprechenden Wahrscheinlichkeiten bezeichnen wir dann mit P(X ≤ 40) bzw. P(X ∈ (−∞, 40]). Ganz allgemein schreiben wir P(X ∈ A) für die Wahrscheinlichkeit, dass die Zufallsvariable X einen Wert annimmt, der in der Menge A ⊆ R liegt, d. h.: Ereignisse sind jetzt Teilmengen von R.
29 2.1 · Der Begriff der Zufallsvariable
Der Begriff der Unabhängigkeit wird wie in 7 Abschn. 1.3 definiert: Zwei Zufallsvariablen X und Y heißen unabhängig, falls für alle Mengen A, B ⊆ R gilt, dass P({X ∈ A} ∩ {Y ∈ B}) = P(X ∈ A)P(Y ∈ B). Auch die Erweiterung auf den Fall mit mehr als zwei Zufallsvariablen ist wie in 7 Abschn. 1.3. Oft schreiben wir für die linke Seite obiger Formel einfach kurz
P(X ∈ A, Y ∈ B), d. h., wir verwenden ein Komma anstelle des Operators „∩“. Wie in der Einleitung bereits angedeutet, können wir eine Zufallsvariable mathematisch auch definieren als eine Funktion X : −→ W , die jedem zufälligen ω ∈ eine Zahl X (ω) ∈ W zuweist. Ein einfaches Beispiel ist die Augensumme von zwei Würfeln. Die Funktion ist natürlich nicht zufällig, sehr wohl aber ihr Argument und daher der resultierende Funktionswert! Für unsere Betrachtungen reicht aber die „weniger mathematische“ Definition. Wir „vergessen“ dann sozusagen das ursprüngliche . Typischerweise von Interesse ist die Frage, mit welchen Wahrscheinlichkeiten eine Zufallsvariable in welchen Bereichen liegt. Dies bedeutet nichts anderes, als dass wir für eine beliebige Menge A wissen wollen, wie groß P(X ∈ A) ist. Man spricht von der sogenannten Wahrscheinlichkeitsverteilung bzw. kurz von der Verteilung von X . Wie hoch ist z. B. die Wahrscheinlichkeit, dass der Bremsweg höchstens 40 m ist oder im Intervall [35, 40] m liegt? Oder wie groß ist die Wahrscheinlichkeit, dass wir in einer Lieferung von 100 Bauteilen weniger als 5 defekte Teile vorfinden? Wenn wir die Verteilung einer Zufallsvariable X kennen, können wir auf jede beliebige solche Frage die entsprechende Antwort geben. Wie wir in den 7 Abschn. 2.2 und 2.3 sehen werden, gibt es für die Modellierung von gewissen unsicheren Phänomenen bestimmte Verteilungen, die sich speziell gut dafür eignen und immer wieder auftauchen. Wenn man also einmal die wichtigsten Verteilungen kennt, so kann man diese Sammlung als „Toolbox“ brauchen. Man muss für die Modellierung von einem Phänomen dann einfach diejenige Verteilung heraussuchen, die am besten passt. Wir unterscheiden dabei zwischen sogenannten diskreten und stetigen Verteilungen (bzw. Zufallsvariablen). Bemerkung: Bei der „mathematischeren“ Definition der Zufallsvariable ist die Wahrscheinlichkeit P(X ∈ A) gegeben durch P({ω | X (ω) ∈ A}). Mit einer Wahrscheinlichkeit auf und einer Zufallsvariable X erhält man so eine Wahrscheinlichkeit auf W , die sogenannnte Wahrscheinlichkeitsverteilung der Zufallsvariable X . Diese Wahrscheinlichkeit bezeichnet man auch mit PX (A), wobei PX (A) = P({ω | X (ω) ∈ A}). ? Kurze Lernkontrolle: Wahr oder falsch? 10.
Wir bezeichnen mit der Zufallsvariable X die Schneehöhe (in Metern) an einer bestimmten Stelle in den Alpen zu einer bestimmten Zeit.
2
30
Kapitel 2 · Wahrscheinlichkeitsverteilungen
a) b)
2 2.2
Die Wahrscheinlichkeit, dass die Schneehöhe mindestens 1 m beträgt, würden wir mathematisch korrekt hinschreiben als P(X ≥ 1). Wenn Y die Schneehöhe an der gleichen Stelle ist, aber in einer anderen Einheit (z. B. cm) gemessen wird, dann ist Y auch eine Zufallsvariable.
Diskrete Verteilungen
Eine Zufallsvariable X (bzw. deren Verteilung) heißt diskret, falls die Menge W der möglichen Werte von X (der Wertebereich) endlich oder abzählbar ist. Mögliche Wertebereiche W sind zum Beispiel W = {0, 1, 2, . . . , 100}, W = N0 = {0, 1, 2, . . .} oder ganz allgemein W = {x1 , x2 , . . .} mit xk ∈ R für k ≥ 1. Die Augenzahl bei einem Würfel ist ein Beispiel für eine diskrete Zufallsvariable mit Wertebereich W = {1, 2, . . . , 6}. Die Anzahl defekter Teile in einer Lieferung von 100 Bauteilen ist eine diskrete Zufallsvariable mit Wertebereich W = {0, 1, . . . , 100}. Wie in 7 Abschn. 1.2 können wir hier eine Liste von Wahrscheinlichkeiten erstellen. Damit ist die Verteilung einer diskreten Zufallsvariable festgelegt, da wir dann alle möglichen Wahrscheinlichkeiten berechnen können. Definition: Wahrscheinlichkeitsfunktion
Die Liste ist gegeben durch die sogenannte Wahrscheinlichkeitsfunktion p(xk ), wobei p(xk ) = P(X = xk ), k ≥ 1. Ein Elementarereignis ist hier einfach ein Element xk des Wertebereichs W .
Die Summe aller Wahrscheinlichkeiten muss insbesondere wieder 1 ergeben, d. h.
p(xk ) = 1.
k≥1
Zudem gilt für ein Ereignis A ⊆ W , dass P(X ∈ A) =
P(X = xk ) =
k : xk ∈A
p(xk ).
(2.1)
k : xk ∈A
Auch das ist nichts Neues, sondern einfach die alte Erkenntnis in leicht anderer Notation: Wie in 7 Abschn. 1.2 „sammeln“ wir die Wahrscheinlichkeiten der günstigen Fälle. Definition: Kumulative Verteilungsfunktion
Die Verteilung einer Zufallsvariable X kann man auch mit der sogenannten kumulativen Verteilungsfunktion F charakterisieren. Diese ist definiert als F (x) = P(X ≤ x), x ∈ R.
31 2.2 · Diskrete Verteilungen
Obwohl der Wertebereich diskret ist, erlauben wir bei der Funktion F „alle“ Argumente, d. h. x ∈ R. Wie wir sehen werden, enthält die kumulative Verteilungsfunktion alle Information der Verteilung von X .
Beispiel: Fairer Würfel
Bei einem fairen Würfel haben wir k 1 2 3 4 5 6 xk 1 2 3 4 5 6 p(xk ) 1/6 1/6 1/6 1/6 1/6 1/6
Es ist z. B. F (3) = P(X ≤ 3) = P(X ∈ {1, 2, 3}) (2.1)
= p(1) + p(2) + p(3)
=
1 1 1 3 + + = . 6 6 6 6
Wir können die Verteilungsfunktion an beliebigen Stellen evaluieren, z. B. F (3.5) = P(X ≤ 3.5) = P({X ≤ 3} ∪ {3 < X ≤ 3.5}) (A3)
= P(X ≤ 3) + P(3 < X ≤ 3.5) =
3 3 +0= . 6 6
Die ganze Funktion ist in . Abb. 2.1b dargestellt.
Während uns die Wahrscheinlichkeitsfunktion die „Einzelwahrscheinlichkeiten“ P(X = xk ) liefert, gibt uns die kumulative Verteilungsfunktion F (x) an, welche Wahrscheinlichkeit bis und mit x „angehäuft“ wurde (wenn wir die xk von klein nach groß bis zum Wert x durchlaufen), daher auch der Name „kumulativ“. Immer, wenn wir auf einen Wert im Wertebereich treffen, springen wir um die entsprechende Wahrscheinlichkeit nach oben. Die kumulative Verteilungsfunktion ist also bei einer diskreten Zufallsvariable eine Treppenfunktion mit Sprüngen der Sprunghöhe p(xk ) an den Stellen xk ∈ W . Die Funktion ist insbesondere nicht stetig. Folgende Eigenschaften werden wir immer wieder brauchen. Wir führen diese teilweise ohne Beweis ein.
2
32
Kapitel 2 · Wahrscheinlichkeitsverteilungen
Rechenregeln und Eigenschaften der kumulativen Verteilungsfunktion
Es gilt (egal ob X diskret ist oder nicht)
2
P(a < X ≤ b) = P(X ∈ (a, b]) (1.5)
= P(X ∈ (−∞, b]) − P(X ∈ (−∞, a]) = F (b) − F (a)
(1.1)
P(X > x) = 1 − P(X ≤ x) = 1 − F (x) Die kumulative Verteilungsfunktion F erfüllt zudem immer: 5 F ist monoton steigend 5 lim F (x) = 0 und lim F (x) = 1 x→−∞
x→∞
5 F ist rechtsstetig, d. h. lim F (x) = F (a) x a
? Kurze Lernkontrolle: Wahr oder falsch? 11.
Wir modellieren die Anzahl der Fahrzeuge, die während einer Grünphase an einer Ampel links abbiegen, mit der Zufallsvariable X . In der folgenden Tabelle sind gewisse Werte der entsprechenden kumulativen Verteilungsfunktion aufgelistet. x ··· 5 6 7 8 9 10 11 · · · F (x) · · · 0.45 0.61 0.74 0.85 0.92 0.96 0.98 · · ·
a
. Abb. 2.1
b
Wahrscheinlichkeitsfunktion (a) und kumulative Verteilungsfunktion (b) beim Beispiel mit dem Würfel
33 2.2 · Diskrete Verteilungen
a) b) c)
2.2.1
Die Wahrscheinlichkeit, dass in einer Grünphase genau 6 Fahrzeuge links abbiegen, ist gegeben durch 0.61. Die Wahrscheinlichkeit, dass in einer Grünphase maximal 7 Fahrzeuge links abbiegen, ist gegeben durch 0.74. Ab X ≥ 10 Linksabbiegern in einer Grünphase besteht in der folgenden Straße Staugefahr. Betrachten Sie die Aussage: Die Wahrscheinlichkeit für einen Stau in einer Grünphase ist gegeben durch 0.08.
Kennzahlen
Wir haben gesehen, dass die Verteilung einer diskreten Zufallsvariable durch eine (potenziell unendlich) lange Liste von Wahrscheinlichkeiten gegeben ist. Es stellt sich die Frage, ob man diese Liste durch ein paar Kennzahlen zusammenfassen kann, um die Verteilung (grob) zu charakterisieren. Wenn wir zum Beispiel die Verteilungen in . Abb. 2.2 betrachten, so können wir Folgendes beobachten: Grundsätzlich sehen wir überall die gleiche „Form“. Die Verteilung in . Abb. 2.2a streut um den Wert 3 herum, während die Verteilung in . Abb. 2.2b zwar gleich aussieht, aber um den Wert 6 herum angeordnet ist. In . Abb. 2.2c liegen die Werte immer noch in der Region um den Wert 6 herum, aber das Bild erscheint viel „breiter“ bzw. in . Abb. 2.2b sind die Werte viel „kompakter“ beieinander. Wir können uns also fragen, wo die Werte im Schnitt liegen, d. h.: Was ist ihre mittlere Lage? Zusätzlich interessiert es uns, wie weit die Werte im Schnitt von der mittleren Lage entfernt sind, d. h.: Wie groß ist ihre Streuung? Das sind natürlich nur zwei Aspekte einer Verteilung und je nach Form der Verteilung reicht dies nicht aus. Wir könnten uns z. B. auch fragen, wie symmetrisch oder „schief“ die Verteilung aussieht. Wir begnügen uns vorerst mit den ersten beiden Aspekten.
a
b
c
. Abb. 2.2 Wahrscheinlichkeitsfunktionen p(x) von verschiedenen diskreten Verteilungen. Der Erwartungswert der Verteilung in (b) bzw. (c) ist um 3 Einheiten größer als der Erwartungswert der Verteilung in (a). Verglichen mit den Verteilungen in (a) und (b) ist die Standardabweichung der Verteilung in (c) gerade doppelt so groß
2
34
Kapitel 2 · Wahrscheinlichkeitsverteilungen
Definition: Erwartungswert
Der Erwartungswert μX oder E(X ) einer diskreten Zufallsvariable X ist definiert als
2
μX = E(X ) =
xk p(xk ).
k≥1
Merkregel: Man summiert über „was passiert“ (xk ) × „mit welcher Wahrscheinlichkeit passiert es“ (p(xk )).
Der Erwartungswert ist ein Maß für die mittlere Lage der Verteilung, ein sogenannter Lageparameter. Er wird interpretiert als arithmetisches Mittel der Werte von X bei (unendlich) vielen Wiederholungen. Dies bedeutet: Wenn wir unendlich oft gemäß der Zufallsvariable X „würfeln“ könnten, dann würden wir im Schnitt gerade E(X ) sehen. Der Erwartungswert ist also eine Kennzahl des Wahrscheinlichkeitsmodells. Physikalisch gesehen ist der Erwartungswert nichts anderes als der Schwerpunkt, wenn wir auf dem Zahlenstrahl an den Positionen xk die entsprechenden Massen p(xk ) platzieren (der Zahlenstrahl selber hat hier keine Masse). Durch die Betrachtung als Schwerpunkt folgt, dass bei symmetrischen Verteilungen der Erwartungswert gerade der Symmetriepunkt sein muss, siehe z. B. . Abb. 2.3 (a bzw. c). Beispiel: Fairer Würfel
Bei einem fairen Würfel haben wir k 1 2 3 4 5 6 xk 1 2 3 4 5 6 p(xk ) 1/6 1/6 1/6 1/6 1/6 1/6
Der Erwartungswert ist demnach gegeben durch E(X ) =
6 k=1
k·
1 = 3.5, 6
siehe auch der Schwerpunkt in . Abb. 2.1a. Wenn wir also oft würfeln und mitteln, dann werden wir ungefähr 3.5 erhalten. An diesem Beispiel sehen wir auch, dass der Erwartungswert gar nicht einmal im Wertebereich der Zufallsvariable liegen muss! Was passiert, wenn wir einen „gezinkten“ Würfel, der eine erhöhte Wahrscheinlichkeit für die 6 hat, verwenden? k 1 2 3 4 5 6 xk 1 2 3 4 5 6 p(xk ) 1/7 1/7 1/7 1/7 1/7 2/7
35 2.2 · Diskrete Verteilungen
Es ist dann E(X ) =
5
k·
k=1
2 1 + 6 · = 3.86. 7 7
Der Erwartungswert wird also größer; der Schwerpunkt hat sich etwas nach rechts verschoben.
Manchmal betrachtet man statt der Zufallsvariable X eine Transformation g(X ), wobei g : R → R eine Funktion ist, z. B. g(x) = x2 . Für den Erwartungswert einer transformierten diskreten Zufallsvariable Y = g(X ) gilt E(Y ) = E(g(X )) =
g(xk )p(xk ).
(2.2)
k≥1
Wie vorher summiert man über „was passiert“ (g(xk )) × „mit welcher Wahrscheinlichkeit passiert es“ (p(xk )). Jetzt schauen wir uns an, wie wir die Streuung einer Zufallsvariable charakterisieren können. Definition: Varianz
Die Varianz Var (X ) oder σX2 einer diskreten Zufallsvariable X ist definiert als (2.2) (xk − μX )2 p(xk ). Var (X ) = σX2 = E (X − E(X ))2 = k≥1
Die Varianz ist also die mittlere (oder erwartete) quadratische Abweichung der Zufallsvariable von ihrem Erwartungswert und somit ein Maß für die Streuung um die mittlere Lage, ein sogenannter Streuungsparameter. Alternativ könnte man z. B. auch die mittlere Abweichung mit dem Absolutbetrag betrachten, d. h., man hätte dann E(|X − E(X )|). Dies wäre ein anderes Streuungsmaß. Es zeigt sich aber, dass die quadratische Abweichung „schönere“ mathematische Eigenschaften hat. Physikalisch gesehen ist die Varianz das Trägheitsmoment, wenn wir obigen Körper um die Achse drehen, die senkrecht zum Zahlenstrahl steht und durch den Schwerpunkt (Erwartungswert) geht. Je mehr Masse (Wahrscheinlichkeit) also weit entfernt vom Schwerpunkt (Erwartungswert) liegt, desto größer wird die Varianz. Während der Erwartungswert die gleichen Einheiten wie die Zufallsvariable X (z. B. m) hat, hat die Varianz die quadrierten Einheiten (z. B. m2 ). Um ein Streuungsmaß mit den gleichen Einheiten wie X zu erhalten, können wir einfach die Wurzel der Varianz ziehen.
2
36
Kapitel 2 · Wahrscheinlichkeitsverteilungen
Definition: Standardabweichung
2
Für viele Berechnungen werden wir die Standardabweichung σX brauchen. Diese ist definiert als die Wurzel der Varianz, d. h. σX =
Var (X ).
Intuition zu den verschiedenen Streuungsbegriffen Wenn wir die Streuungen von zwei Verteilungen „von Auge“ vergleichen (also auf der Skala der Zufallsvariable schauen, wie „kompakt“ die Wahrscheinlichkeiten um die jeweiligen Erwartungswerte liegen), dann sehen bzw. vergleichen wir jeweils die Standardabweichungen. Wenn wir die Verteilung in . Abb. 2.2c mit der Verteilung in . Abb. 2.2b vergleichen, dann sehen wir in etwa eine doppelt so große Streuung. In der Tat ist die Standardabweichung in . Abb. 2.2c gerade doppelt so groß wie in . Abb. 2.2b. Also: Was man von Auge sieht, ist die Standardabweichung. Die Varianz ist beim obigen Vergleich entsprechend viermal so groß. Hier war der Vergleich von Auge besonders „leicht“, weil die Verteilungen die gleiche Form haben. Dies muss natürlich nicht immer der Fall sein. Schwieriger sieht es in . Abb. 2.3 aus. Insbesondere die „schiefe“ Verteilung in . Abb. 2.3b ist von Auge schwer zu erfassen (sowohl bezüglich des Erwartungswerts als auch der Standardabweichung). Wir sehen insbesondere auch, dass man mit nur zwei Kennzahlen die ganze Form einer Verteilung nicht erfassen kann. Es geht also Information verloren. Wenn wir jeweils den Begriff Streuung verwenden, dann ist dies einfach ein „Platzhalter“ für ein Streuungsmaß. Je nach Kontext ist dies die Standardabweichung oder die Varianz.
a
b
c
. Abb. 2.3 Wahrscheinlichkeitsfunktionen p(x) von drei verschiedenen diskreten Verteilungen. Für alle drei Verteilungen gilt E(X ) = 4 und σX = 2
37 2.2 · Diskrete Verteilungen
Bei Zufallsvariablen, die nur positive Werte annehmen können, betrachtet man manchmal die Standardabweichung auch relativ zum Erwartungswert. Dies führt zum sogenannten Variationskoeffizienten. Definition: Variationskoeffizient
Der Variationskoeffizient einer positiven Zufallsvariable X ist definiert als σX . μX Der Variationskoeffizient ist dimensionslos und wird oft in Prozent angegeben.
Beispiel: Fairer Würfel
Wir betrachten nochmals das Beispiel mit dem fairen Würfel. Für die Varianz haben wir wegen μX = 3.5 Var (X ) =
6
(k − 3.5)2 ·
k=1
1 1 1 = (1 − 3.5)2 · + · · · + (6 − 3.5)2 · = 2.9. 6 6 6
Für die Standardabweichung σX ergibt dies σX =
√
2.9 = 1.7.
Der Variationskoeffizient ist entsprechend σX /μX = 0.49 oder 49 %.
Oft werden wir Zufallsvariablen transformieren oder auch mehrere Zufallsvariablen miteinander kombinieren, z. B. indem wir deren Summe betrachten. Das Endresultat ist immer noch eine Zufallsvariable und für einfache Situationen können wir jetzt schon Rechenregeln für die Kennzahlen angeben. Rechenregeln für Erwartungswert und Varianz
Im Folgenden bezeichnen wir jeweils mit a, b, c ∈ R Konstanten, d. h. nichtzufällige (fixe) Zahlen. Es gilt (egal ob X diskret ist oder nicht) E(a + bX ) = a + b · E(X ), a, b ∈ R Var (X ) = E X 2 − E(X )2 Var (a + bX ) = b2 Var (X ) , a, b ∈ R Var (a) = 0, a ∈ R. Falls man noch eine zweite Zufallsvariable Y hat, so gilt immer E(a + bX + cY ) = a + b · E(X ) + c · E(Y ), a, b, c ∈ R.
2
38
Kapitel 2 · Wahrscheinlichkeitsverteilungen
Für die Varianz sieht es nicht mehr so einfach aus, mehr dazu später (siehe 7 Abschn. 4.3).
2
? Kurze Lernkontrolle: Wahr oder falsch? 12.
Wir betrachten eine Maschine. Bei einer Störung muss man diese je nach Ursache unterschiedlich lange ausschalten, damit sie wieder in Ordnung gebracht werden kann. Den entsprechenden Zeitaufwand modellieren wir als Zufallsvariable X , deren Wertebereich und die entsprechenden Wahrscheinlichkeiten unten angegeben sind. Wahrscheinlichkeit 0.6 0.2 0.15 0.05 Stillstand (Minuten) 30 60 180 300
a) b) 13.
Wir bezeichnen mit X die Anzahl ankommender Passagiere an einem kleinen Flughafen pro Tag mit fehlgeleitetem Gepäck. Wir nehmen an, dass E(X ) = 200 und Var (X ) = 230 gilt. Ferner gehen wir davon aus, dass pro Passagier mit fehlgeleitetem Gepäck administrative Kosten von USD 50 verursacht werden. a) b)
14.
Im Schnitt bleibt die Maschine bei einem Fehler 72 min ausgeschaltet. Die Varianz der Stillstandzeit ist 5200.
Die erwarteten Kosten pro Tag sind USD 10 000. Die Standardabweichung der Kosten pro Tag beträgt USD 11 500.
Wir betrachten zwei Zufallsvariablen X und Y mit E(X ) = 1, Var (X ) = 3, E(Y ) = 3 und Var (Y ) = 4.
d)
Es ist E(X − 1) = 0. Es ist E(4X + 3Y ) = 13. Es ist Var (−Y ) = −4. Es ist Var 5 + 21 Y = 2.
e) f)
Die Standardabweichung von −2Y beträgt 4. Aus obigen Informationen ist es möglich, E X 2 zu berechnen.
a) b) c)
Wir betrachten nun die wichtigsten diskreten Verteilungen, die wir immer wieder antreffen werden und mit denen man bereits eine große Vielfalt von Problemen modellieren kann.
39 2.2 · Diskrete Verteilungen
2.2.2
Bernoulli-Verteilung Bernoulli (p)
Die Bernoulli-Verteilung mit Parameter p ∈ (0, 1) ist die „einfachste“ diskrete Verteilung. Hier kann X nur die Werte 0 oder 1 annehmen, d. h. W = {0, 1}, wobei
X =
1 Wahrscheinlichkeit p 0 Wahrscheinlichkeit 1 − p
Wir schreiben auch X ∼ Bernoulli (p), wobei das Symbol „∼“ (Tilde) übersetzt wird mit „ist verteilt wie“. Es gilt (nachrechnen!) E(X ) = p Var (X ) = p · (1 − p). Wir können die Bernoulli-Verteilung auch auffassen als ein „Experiment“ mit den beiden Ausgängen „Erfolg“ (X = 1) und „Misserfolg“ (X = 0). Die Erfolgswahrscheinlichkeit ist dann entsprechend p. Diese Denkweise werden wir nun verwenden, um basierend auf der Bernoulli-Verteilung weitere Verteilungen herzuleiten.
2.2.3
Binomialverteilung Bin (n, p)
Die Binomialverteilung mit den Parametern n ∈ N und p ∈ (0, 1) ist die Verteilung der Anzahl „Erfolge“ bei n (unabhängigen) Wiederholungen eines „Experiments“ mit „Erfolgswahrscheinlichkeit“ p. Hier ist also W = {0, 1, . . . , n}. Die Binomialverteilung kann also insbesondere aufgefasst werden als eine Summe von n unabhängigen Bernoulli-Verteilungen mit Parameter p. Wir schreiben kurz X ∼ Bin (n, p). Die Begriffe „Erfolg“ und „Experiment“ können hier vieles bedeuten. Die Anzahl defekter Bauteile bei einer Lieferung von n = 10 (unabhängigen) Bauteilen folgt einer Binomialverteilung mit Parametern n = 10 und p, wobei p die Wahrscheinlichkeit ist, dass ein einzelnes Bauteil defekt ist, z. B. p = 0.05. Hier ist ein Experiment die Überprüfung eines Bauteils und Erfolg bedeutet, dass das Bauteil defekt ist. Man kann zeigen, dass gilt n x p (1 − p)n−x , x ∈ W x E(X ) = np Var (X ) = n · p · (1 − p),
P(X = x) =
wobei xn (sprich: „n über x“ oder „n tief x“) der sogenannte Binomialkoeffizient ist, d. h. n(n − 1) · · · (n − x + 1) n n! = . = x!(n − x)! x! x
2
40
2
Kapitel 2 · Wahrscheinlichkeitsverteilungen
Eine Herleitung für die Wahrscheinlichkeitsfunktion findet man in 7 Anhang 11.1. In . Abb. 2.4 sind einige Fälle mit verschiedenen Parametern dargestellt. Für großes n hat man schon ein ziemlich „glockenförmiges“ Bild; mehr dazu später (siehe 7 Abschn. 5.3). Bemerkung: Dem aufmerksamen Leser ist vielleicht aufgefallen, dass wir bei der mathematischen Notation den Buchstaben p sowohl für die Wahrscheinlichkeitsfunktion als auch für die Erfolgswahrscheinlichkeit verwenden. Dies ist für den Moment etwas unschön; eine Verwechslung sollte aber durch den entsprechenden Kontext nicht passieren. Oft schreiben wir, insbesondere in diesem Kapitel, statt p(x) direkt P(X = x). Den Parameter n kennt man in der Regel aus dem Kontext. Die Erfolgswahrscheinlichkeit p nehmen wir bis auf Weiteres als gegeben an. In 7 Kap. 6 werden wir dann sehen, wie wir den Parameter p aus Daten schätzen können. Wenn wir erkannt haben, dass etwas binomialverteilt ist, dann ist das Rechnen damit nicht kompliziert. Wie groß ist z. B. die Wahrscheinlichkeit, dass von 10 Bauteilen genau 3 mangelhaft sind? Diese Wahrscheinlichkeit ist gegeben durch 10! 10 · 0.053 · 0.957 = 0.0105. P(X = 3) = 0.053 · 0.957 = 3! · 7! 3 Oder wie groß ist die Wahrscheinlichkeit, dass von 10 Bauteilen mindestens eines defekt ist? Wenn wir das Wort „mindestens“ hören, lohnt es sich, zu prüfen, ob die Berechnung mit dem Komplementärereignis einfacher ist. Statt P(X ≥ 1) = P(X = 1) + P(X = 2) + · · · + P(X = 10) mühsam zu bestimmen, erhalten wir direkt mit dem Komplementärereignis {X = 0} = {X ≥ 1}c , dass (1.1)
P(X ≥ 1) = 1 − P(X = 0) = 1 − 0.9510 = 0.401.
Intuition zur Binomialverteilung Wenn wir einmal erkannt haben, dass etwas mit einer Binomialverteilung modelliert werden kann, dann können wir damit bequem alle Wahrscheinlichkeiten bestimmen. Die mühsame Abzählerei (und „kombinatorische Schwierigkeit“) können wir uns sparen und die Information der Formel für die Wahrscheinlichkeitsfunktion entnehmen. Im Alltag besteht die „Kunst“ darin, zu erkennen, was ein Experiment und was ein Erfolg ist.
41 2.2 · Diskrete Verteilungen
. Abb. 2.4
Wahrscheinlichkeitsfunktion der Binomialverteilung für n = 10 (links) und n = 50 (rechts) für jeweils p = 0.3, 0.5, 0.8 (von oben nach unten)
2
42
Kapitel 2 · Wahrscheinlichkeitsverteilungen
2.2.4
2
Geometrische Verteilung Geom (p)
Die geometrische Verteilung mit Parameter p ∈ (0, 1) tritt auf, wenn wir die Anzahl der Wiederholungen von unabhängigen Bernoulli(p)-Experimenten bis zum ersten Erfolg betrachten. Man wirft z. B. eine Münze so lange, bis das erste Mal Kopf fällt, und notiert sich die Anzahl benötigter Würfe. Wir schreiben X ∼ Geom (p). Der Wertebereich ist hier also W = {1, 2, . . .} (unbeschränkt!) und P(X = x) = p · (1 − p)x−1 , x ∈ W 1 E(X ) = p 1−p Var (X ) = . p2 Die Wahrscheinlichkeitsfunktion kann man einfach herleiten. Wenn wir im x-ten Versuch (z. B. x = 10) das erste Mal Erfolg sehen, kann dies nur eintreten, wenn die x − 1 Versuche vorher alles Misserfolge waren. Die Wahrscheinlichkeit für diese Kombination ist wegen der Unabhängigkeit gegeben durch p · (1 − p)x−1 . Die Wahrscheinlichkeitsfunktion für verschiedene Werte von p ist in . Abb. 2.5 (oben) dargestellt. Der Erwartungswert entspricht hier der mittleren Wartezeit bis zum ersten Erfolg, was auch als Wiederkehrperiode bezeichnet wird. Wenn ein einzelner Versuch z. B. mit
. Abb. 2.5 Wahrscheinlichkeitsfunktion (oben) und kumulative Verteilungsfunktion (unten) der geometrischen Verteilung für p = 0.3, 0.5, 0.8 (von links nach rechts), jeweils abgeschnitten bei x = 10
43 2.2 · Diskrete Verteilungen
Wahrscheinlichkeit p = 1/10 erfolgreich ist, dann brauchen wir im Schnitt E(X ) = 10 Versuche, bis wir den ersten Erfolg sehen. Die kumulative Verteilungsfunktion schreiben wir hier einmal konkret auf. Es ist F (x) =
x
p · (1 − p)i−1
(geom.Reihe)
=
1 − (1 − p)x
i=1
für x ∈ W . Dazwischen ist F konstant, siehe auch . Abb. 2.5. Die kumulative Verteilungsfunktion hätten wir auch mit einem Trick ermitteln können. Das Ereignis {X ≤ x} (z. B. x = 10) bedeutet ja nichts anderes, als dass in den ersten x Versuchen mindestens ein Erfolg eintritt. Das Komplementärereignis dazu ist, dass in den ersten x Versuchen kein Erfolg vorliegt. Die Wahrscheinlichkeit des Komplementärereignisses ist gemäß Bin (x, p)-Verteilung (1 − p)x (alles Misserfolge in x Versuchen) und daher gilt F (x) = P(X ≤ x) = 1 − (1 − p)x . Viele Wege führen also hier zum Ziel. Der Grund liegt darin, dass schlussendlich alles auf der Bernoulli-Verteilung basiert. Beispiel: Jahrhundertereignis
Wie wahrscheinlich ist es eigentlich, in den ersten 50 Lebensjahren ein Jahrhundertereignis (z. B. einen Meteoriteneinschlag einer bestimmten Größe irgendwo auf der Welt) zu erleben? Was wäre Ihre intuitive Antwort? Etwas präziser formuliert: Wir betrachten ein Ereignis mit einer jährlichen Eintretenswahrscheinlichkeit von 1/100. Der Einfachheit halber gehen wir davon aus, dass die verschiedenen Jahre unabhängig voneinander sind und dass pro Jahr nur ein Ereignis eintreten kann. Wir wissen von der geometrischen Verteilung, dass wir im Schnitt 100 Jahre warten müssen, bis wir das erste solche Ereignis sehen. Wir fragen uns nun aber wie wahrscheinlich es ist, in den ersten 50 Lebensjahren ein solches Jahrhundertereignis zu erleben. Wenn wir mit X das Lebensjahr bezeichnen, bei dem wir das erste solche Ereignis sehen, gilt also X ∼ Geom (p) mit p = 1/100. Gefragt ist P(X ≤ 50) = F (50). Wir setzen die kumulative Verteilungsfunktion ein und erhalten direkt 1 50 = 0.39 P(X ≤ 50) = 1 − 1 − 100 und nicht wie vielleicht erwartet 0.5! Wir sehen schon in . Abb. 2.5, dass nur der „erste Sprung“ der kumulativen Verteilungsfunktion von der Größe p ist und nachher die Sprunghöhen immer kleiner werden (siehe auch die Wahrscheinlichkeitsfunktion in . Abb. 2.5). Bis x = 50 haben wir also weniger als Wahrscheinlichkeit 0.5 „angehäuft“. Wir können dies auch noch anders einsehen. Wenn wir die Ereignisse Mj = ,,Es passiert ein entsprechender Meteoriteneinschlag in Jahr j“ betrachten, dann sind diese gemäß Aufgabenstellung unabhängig und haben alle Wahrscheinlichkeit P(Mj ) = 1/100. Das Ereignis „Wir erleben einen Meteoriteneinschlag in den ersten 50 Lebensjahren“ heißt ja nichts anderes, als dass irgendeines (oder mehrere) der Mj eintreten muss für j = 1, . . . , 50, was wir formal als die Vereinigung M1 ∪ M2 ∪ · · · ∪ M50 hinschreiben können. Leider sind die Mj aber nicht disjunkt, z. B. bedeutet M1 ∩ M2 „es passiert sowohl in Jahr 1 als auch in Jahr 2 ein entsprechender Meteoriteneinschlag“. Dies
2
44
Kapitel 2 · Wahrscheinlichkeitsverteilungen
kann ja durchaus passieren (wegen der Unabhängigkeit könnten wir auch die Wahrscheinlichkeit dazu einfach angeben: 1/100 · 1/100). Wenn wir also
2
P(M1 ∪ M2 ∪ · · · ∪ M50 ) berechnen wollen, dann können wir wegen der fehlenden Disjunktheit nicht einfach die Wahrscheinlichkeiten aufsummieren, sondern wir müssten die „überlappenden“ Bereiche wieder davon abziehen. Bei welchem Alter wären wir aber bei einer Chance von (mindestens) 50 %? Wir suchen also das kleinste x ∈ W , für welches F (x) ≥ 0.5 gilt. Eingesetzt bedeutet dies, dass 1 − (1 − p)x ≥ 0.5 gelten muss. Dies können wir umschreiben als x · log(1 − p) ≤ log(0.5), wobei wir mit log den natürlichen Logarithmus bezeichnen. Aufgelöst erhält man x≥
log(0.5) , log(1 − p)
wobei hier das Zeichen gekehrt hat, weil log(1 − p) < 0 ist. Für p = 1/100 ergibt dies x = 69 Jahre. Später werden wir diese Zahl auch als sogenannten Median der Verteilung bezeichnen (siehe 7 Abschn. 2.3.2). Die Wahrscheinlichkeit, dass wir in den ersten 100 Jahren ein solches Jahrhundertereignis erleben, ist gegeben durch 1 100 = 0.63 < 1. P(X ≤ 100) = 1 − 1 − 100 Selbst wenn man 100 Jahre alt wird, hat man also keine Garantie, ein solches Ereignis zu erleben.
2.2.5
Poisson-Verteilung Pois (λ)
Bei der Binomialverteilung ging es um die Anzahl der Erfolge in n Experimenten. Der Wertebereich war insbesondere beschränkt (nämlich durch n). Was ist, wenn man allgemein (potenziell unbeschränkte) Anzahlen betrachtet? Es zeigt sich, dass sich hierzu die sogenannte Poisson-Verteilung (benannt nach dem französischen Mathematiker Siméon Denis Poisson, 1781−1840) gut eignet. Wir schreiben X ∼ Pois (λ). Die Poisson-Verteilung mit Parameter λ > 0 und Wertebereich W = {0, 1, . . .} (unbeschränkt!) ist gegeben durch
45 2.2 · Diskrete Verteilungen
. Abb. 2.6
Wahrscheinlichkeitsfunktion der Poisson-Verteilung für λ = 0.3, 2, 6 (von links nach rechts), jeweils abgeschnitten bei x = 15
P(X = x) = e−λ
λx ,x∈W x!
E(X ) = λ Var (X ) = λ. Die Poisson-Verteilung ist sozusagen die Standardverteilung für unbeschränkte Zähldaten. Mit dem Parameter λ > 0 steuert man gerade den Erwartungswert. Die Wahrscheinlichkeitsfunktion für einige Werte von λ ist in . Abb. 2.6 dargestellt. Für große Werte von λ erhalten wir ein „glockenförmiges“ Bild, mehr dazu später (siehe 7 Abschn. 5.3). Die Varianz ist direkt an den Erwartungswert gekoppelt. Dies macht durchaus Sinn, da man für größere Anzahlen in der Praxis typischerweise auch eine größere Streuung erwartet. Es gibt natürlich auch Situationen, in denen diese direkte „Ankoppelung“ der Varianz an den Erwartungswert zu wenig flexibel ist. Beispiel: Anzahl der Anrufe in Callcenter
In einem Callcenter erwarten wir zu einer bestimmten Tageszeit im Schnitt in einer Minute 5 Anrufe. Wir modellieren die Anzahl der Anrufe in einer Minute (X ) mit einer PoissonVerteilung mit Parameter λ = 5, d. h. X ∼ Pois (λ), λ = 5, denn so stimmt gerade der Erwartungswert. Damit können wir nun alle Wahrscheinlichkeiten berechnen, z. B. die Wahrscheinlichkeit, dass in einer Minute niemand anruft P(X = 0) = e−λ
λ0 = e−5 = 0.00674, 0!
oder die Wahrscheinlichkeit, dass genau 5 Leute anrufen P(X = 5) = e−λ
λ5 55 = e−5 = 0.175. 5! 5!
2
46
Kapitel 2 · Wahrscheinlichkeitsverteilungen
2.2.5.1
2
Poisson-Approximation der Binomialverteilung
Man kann zeigen, dass die Poisson-Verteilung mit Parameter λ eine Approximation der Binomialverteilung ist für großes n und kleines p mit np = λ. Falls also X ∼ Bin (n, p), dann gilt in diesen Situationen (n groß, p klein) P(X = x) =
λx n x p (1 − p)n−x ≈ e−λ x! x
für λ = np. Als Faustregel, wann diese Approximation gut ist, wird oft n ≥ 50 und p ≤ 0.05 verwendet. Einerseits ist dies nützlich, weil die Berechnung der Binomialkoeffizienten für große n aufwendig wird. Andererseits kann man damit auch die Poisson-Verteilung „neu“ interpretieren und motivieren, wann diese angebracht ist. Wenn wir etwas interpretieren können als eine Anzahl seltener Ereignisse (Erfolge) bei vielen unabhängigen Versuchen, dann ist zur Modellierung die Poisson-Verteilung geeignet. Betrachten wir nochmals die Anzahl der Anrufe in einem Callcenter. Viele Leute könnten potenziell anrufen, aber die Wahrscheinlichkeit für jede einzelne Person ist sehr klein. Hier ist also n die Anzahl der Personen (potenzielle Anrufer) und p die Wahrscheinlichkeit, dass eine Person anruft. Also macht eine Modellierung mit einer Poisson-Verteilung so betrachtet durchaus Sinn, wenn wir daran glauben, dass die Leute unabhängig voneinander sind. Die zugrunde liegenden Werte von n und p brauchen wir nicht einmal zu kennen, der Erwartungswert λ = np genügt! Beispiel: Überbuchter Flug
Eine Fluggesellschaft überbucht einen Flug mit 200 Plätzen um 4 Plätze. Wie groß ist die Wahrscheinlichkeit, dass genügend Sitzplätze vorhanden sind, wenn ein einzelner Passagier unabhängig von den anderen mit 5 % Wahrscheinlichkeit nicht erscheint? Wir haben total 204 verkaufte Tickets. Jedes Ticket wird mit Wahrscheinlichkeit 5 % nicht „eingelöst“ (d. h., der Passagier erscheint nicht). Die Anzahl der Passagiere X , die nicht erscheinen, wäre unter obigen idealisierten Annahmen Bin (204, 0.05)-verteilt. Diese Verteilung approximieren wir mit einer Poisson-Verteilung, d. h., wir verwenden X ∼ Pois (λ) , λ = 204 · 0.05 = 10.2. Damit der Flug nicht überbucht ist, muss X ≥ 4 gelten. Die entsprechende Wahrscheinlichkeit ist P(X ≥ 4) = 1 − P(X ≤ 3) = 1 −
3 k=0
e−λ
λk = 0.991. k!
Wenn man mit der Binomialverteilung rechnen würde, erhielte man P(X ≥ 4) = 0.992.
2.2.5.2
Summen von unabhängigen Poisson-Verteilungen
Die Poisson-Verteilung hat noch eine andere schöne Eigenschaft. Wenn X ∼ Pois (λ1 ) und Y ∼ Pois (λ2 ), wobei X und Y unabhängig sind, dann gilt X + Y ∼ Pois (λ1 + λ2 ) .
47 2.2 · Diskrete Verteilungen
Wenn wir also unabhängige Poisson-Verteilungen addieren, so haben wir immer noch eine Poisson-Verteilung. Die Parameter müssen sich dann zwangsläufig addieren wegen der Rechenregeln für den Erwartungswert. Wenn wir aber 21 (X + Y ) betrachten, so liegt keine Poisson-Verteilung vor mit Parameter 21 (λ1 +λ2 ). Der Grund ist ganz einfach: Nur schon der Wertebereich stimmt nicht für eine Poisson-Verteilung! Der Erwartungswert ist aber 21 (λ1 + λ2 ). Eine Erweiterung der Poisson-Verteilung sind sogenannte Poisson-Prozesse, siehe 7 Abschn. 2.4. Beispiel: Anzahl der Anrufe in Callcenter (Fortsetzung)
Wir betrachten nochmals das Beispiel mit dem Callcenter. Wenn wir daran glauben, dass die Anzahl der Anrufe in aufeinanderfolgenden Minuten unabhängig sind, dann folgt die Anzahl der Anrufe in einer 30 min Periode einer Poisson-Verteilung mit Parameter λ = 5 · 30 = 150.
Intuition: Welche Verteilung wähle ich jetzt? Wie kann man zur Modellierung eines zufälligen Phänomens nun die richtige Verteilung wählen? Mit den bisherigen Verteilungen folgt dies glücklicherweise meist aus dem Kontext. Zuerst sollte man sich fragen, ob und wo eine Bernoulli (p)-Verteilung „versteckt“ ist. Gibt es also so etwas wie ein „Experiment“ mit Ausgang „Erfolg“ oder „Misserfolg“? Hier muss man manchmal etwas kreativ sein! Sind diese Experimente zudem unabhängig und haben alle die gleiche Erfolgswahrscheinlichkeit? Falls man dann die Anzahl der Erfolge in n Experimenten zählt, handelt sich um die Binomialverteilung, bei der Anzahl der Versuche bis zum ersten Erfolg um eine geometrische Verteilung und bei der Anzahl der Erfolge bei sehr vielen Experimenten mit kleiner Erfolgswahrscheinlichkeit um eine Poisson-Verteilung. Falls es sich einfach um unbeschränkte Anzahlen handelt, dann ist die Poisson-Verteilung sicher die erste Wahl.
? Kurze Lernkontrolle: Wahr oder falsch? 15.
Ein Produzent von Mikrochips führt zur Überprüfung der Qualität stichprobenhafte Kontrollen durch. In einer Stichprobe sind immer 1000 Chips. Aus Erfahrung weiß er, dass ein einzelner Chip mit einer Wahrscheinlichkeit von 0.1 % defekt ist. Die einzelnen Chips können als voneinander unabhängig angenommen werden. a) b) c)
Die Wahrscheinlichkeit, dass in einer Stichprobe genau 2 Chips fehlerhaft sind, beträgt (gerundet) 0.184. Die Wahrscheinlichkeit, dass die ersten beiden getesteten Chips die einzigen fehlerhaften Chips einer Stichprobe sind, ist 10−6 . Die Wahrscheinlichkeit, dass in einer Stichprobe genau 1 Chip fehlerhaft ist, beträgt gemäß Poisson-Approximation ungefähr 0.368.
2
48
Kapitel 2 · Wahrscheinlichkeitsverteilungen
d) e)
2 16.
Wir betrachten eine Zufallsvariable X ∼ Pois (7). a) b) c) d) e) f)
2.3
Nach der Überprüfung von 1000 Chips hat man mit Sicherheit einen defekten Chip gefunden. 1 -Verteilung hat Die kumulative Verteilungsfunktion der Bin 1000, 1000 1001 Sprungstellen.
Es gilt (gerundet) P(X = 3) = 0.052. Es gilt E 17 X = 1. Es gilt Var 17 X = 1. Sei Y ∼ Bin (n, p) mit n = 10, p = 0.5. Dann ist X + Y immer noch eine diskrete Zufallsvariable mit Erwartungswert 17. Sei Y ∼ Pois (8) unabhängig von X . Dann gilt (gerundet) P(X + Y = 13) = 0.096. Bei der Poisson-Verteilung gilt allgemein, dass der Parameter λ eine positive ganze Zahl sein muss.
Stetige Verteilungen
Eine Zufallsvariable X (bzw. deren Verteilung) heißt stetig, falls die Menge der möglichen Werte W aus einem oder mehreren Intervallen besteht, z. B. W = [0, 1] oder W = R. Im Gegensatz zu einer diskreten Verteilung (siehe 7 Abschn. 2.2) haben wir hier keine „Liste“ mehr von möglichen Werten. Dies führt dazu, dass wir neue Konzepte einführen müssen, viel Bisheriges können wir aber wiederverwenden. Wir betrachten zuerst ein einfaches Beispiel. Wir nehmen an, dass wir eine Zufallsvariable X haben, die Werte im Intervall [0, 1] annehmen kann und die keine Regionen „bevorzugt“ (eine sogenannte Uniform- oder Gleichverteilung). Für das ganze Intervall [0, 1] gilt P(0 ≤ X ≤ 1) = 1. Weil keine Region bevorzugt werden soll, müssen Intervalle der gleichen Breite gleiche Wahrscheinlichkeit haben. Zum Beispiel muss P(0.2 ≤ X ≤ 0.4) = P(0.6 ≤ X ≤ 0.8) gelten, da die Intervalle [0.2, 0.4] und [0.6, 0.8] gleich breit sind. Dies führt dazu, dass die Wahrscheinlichkeit, in ein bestimmtes Intervall zu fallen, gerade der Intervallbreite entsprechen muss, d. h. es gilt P(x ≤ X ≤ x + h) = h für 0 ≤ x < x + h ≤ 1. Wenn wir jetzt die Intervallbreite h klein werden lassen (h → 0), dann wird auch die Wahrscheinlichkeit immer kleiner, d. h. es gilt P(x ≤ X ≤ x + h) → 0.
49 2.3 · Stetige Verteilungen
Für einen einzelnen Punkt x ist die Wahrscheinlichkeit Null, d. h. P(X = x) = 0. Diese Eigenschaft gilt allgemein für stetige Zufallsvariablen. Das Konzept mit den „Einzelwahrscheinlichkeiten“ funktioniert nicht mehr und wir müssen den neuen Begriff der sogenannten Wahrscheinlichkeitsdichte einführen. Die kumulative Verteilungsfunktion hingegen können wir weiterhin verwenden. Wie in 7 Abschn. 2.2 können wir P(a < X ≤ b) = F (b) − F (a) schreiben. Was wissen wir hier über F ? Es gilt sicher F (0) = 0 und F (1) = 1. Dazwischen muss die Funktion gemäß obigen Überlegungen mit der Intervallbreite linear sein, weil F (x) = P(X ≤ x) = P(0 ≤ X ≤ x) = x gilt für x ∈ [0, 1]. Dies macht auch intuitiv Sinn: Da keine Regionen bevorzugt werden, muss die „Wahrscheinlichkeit pro Längeneinheit“ überall gleich groß sein und daher die kumulative Verteilungsfunktion linear ansteigen.
2.3.1
Wahrscheinlichkeitsdichte
Wir führen nun das neue Konzept der sogenannten Wahrscheinlichkeitsdichte ein. Definition: Wahrscheinlichkeitsdichte
Die Wahrscheinlichkeitsdichte (kurz: Dichte) einer stetigen Zufallsvariable X (bzw. deren Verteilung) ist definiert als f (x) = lim
h→0
P(x < X ≤ x + h) F (x + h) − F (x) = lim = F (x). h h h→0
Dabei sind wir stillschweigend davon ausgegangen, dass die Ableitung der kumulativen Verteilungsfunktion existiert.
Für kleines h können wir die „Interpretation“ P(x < X ≤ x + h) ≈ hf (x) verwenden (Approximation der Ableitung durch Differenzenquotienten). Die Wahrscheinlichkeit, in ein kleines Intervall um x zu fallen, ist also gerade die Intervallbreite multipliziert mit der Dichte. Je größer die Dichte, desto größer also die entsprechende Wahrscheinlichkeit. Im Grenzübergang entspricht die Dichte gerade der Wahrscheinlichkeit pro Einheit von X . Im einführenden Beispiel ist die entsprechende Dichte auf dem Intervall [0, 1] konstant gleich 1 (und Null außerhalb).
2
50
Kapitel 2 · Wahrscheinlichkeitsverteilungen
Eigenschaften der Wahrscheinlichkeitsdichte
2
Zwischen der Dichte f und der kumulativen Verteilungsfunktion F bestehen gemäß Definition ferner folgende Beziehungen: f (x) = F (x)
F (x) =
x −∞
f (u) du,
weil F die „passende“ Stammfunktion von f ist mit F (−∞) = 0. Hat man also eine Dichte, so erhält man durch Integrieren die kumulative Verteilungsfunktion. Umgekehrt erhält man durch Ableiten der kumulativen Verteilungsfunktion immer die Dichte. Insbesondere gilt P(a < X ≤ b) = F (b) − F (a) =
b a
f (x) dx.
Um Wahrscheinlichkeiten zu erhalten, müssen wir also einfach die Dichte über das entsprechende Gebiet integrieren. Oder anders ausgedrückt: „Die Fläche unter der Dichte entspricht der Wahrscheinlichkeit“, siehe . Abb. 2.7. Bei diskreten Verteilungen (siehe 7 Abschn. 2.2) hatten wir statt Integrale einfach Summen. Damit eine Funktion f als Dichte verwendet werden kann, muss ¨ alle x f (x) ≥ 0 fur und
∞ −∞
f (x) dx = 1
gelten, weil F monoton steigend ist und wegen Axiom (A2). Man beachte insbesondere, dass es durchaus (kleine) Intervalle geben kann, in denen f (x) > 1 gilt, siehe z. B. . Abb. 2.12a. Dies steht im Gegensatz zum diskreten Fall, wo jeweils immer 0 ≤ p(xk ) ≤ 1 gilt.
Im stetigen Fall spielt es jeweils keine Rolle, ob wir Intervalle offen – wie (a, b) – oder geschlossen – wie [a, b] – schreiben, da sich die Wahrscheinlichkeiten nicht ändern, weil die einzelnen Punkte a und b Wahrscheinlichkeit Null haben. Achtung: Im diskreten Fall spielt dies sehr wohl eine Rolle. Beispiel: Rechnen mit einer stetigen Zufallsvariable
Die stetige Zufallsvariable X habe die kumulative Verteilungsfunktion F (x) =
1 , x ∈ R. 1 + e−x
Wie groß ist die Wahrscheinlichkeit, dass X in das Intervall [1, 2] fällt, d. h., wie groß ist P(1 ≤ X ≤ 2)? Diese Wahrscheinlichkeit ist gegeben durch
51 2.3 · Stetige Verteilungen
. Abb. 2.7 Illustration einer Dichte einer Zufallsvariable und der Wahrscheinlichkeit, in das Intervall (a, b] zu fallen (graue Fläche)
P(1 ≤ X ≤ 2) = F (2) − F (1) =
1 1 − = 0.15. 1 + e−2 1 + e−1
Was ist die Wahrscheinlichkeitsdichte von X ? Diese können wir durch Ableiten der kumulativen Verteilungsfunktion ermitteln und erhalten mit der Kettenregel f (x) =
e−x . (1 + e−x )2
Weil f (x) = f (−x) gilt, ist die Dichte symmetrisch um 0. Qualitativ hat sie die Form wie die Dichte in . Abb. 2.7. Wie groß ist die Wahrscheinlichkeit, dass exakt der Wert 1 angenommen wird? Weil es sich um eine stetige Zufallsvariable handelt, gilt hier natürlich P(X = 1) = 0.
Wie bei diskreten Verteilungen können wir versuchen, eine Verteilung durch Kennzahlen zu charakterisieren.
2.3.2 2.3.2.1
Kennzahlen von stetigen Verteilungen Erwartungswert und Varianz
Der Erwartungswert berechnet sich im stetigen Fall als
E(X ) = μX =
∞
−∞
xf (x) dx.
Für eine Transformation g(X ) gilt analog zu Gl. (2.2)
2
52
Kapitel 2 · Wahrscheinlichkeitsverteilungen
E(g(X )) =
2
∞ −∞
g(x)f (x) dx.
Für die Varianz haben wir entsprechend Var (X ) = σX2 = E (X − μX )2 =
∞ −∞
(x − μX )2 f (x) dx.
Die Standardabweichung σX ist dann einfach die Wurzel aus der Varianz und entsprechend wird der Variationskoeffizient definiert. Alle diese Formeln sind analog zu denen in 7 Abschn. 2.2.1: Man ersetzt die Summe durch das Integral und die Wahrscheinlichkeit p(x) durch f (x) dx. Es gelten insbesondere die gleichen Rechenregeln wie im diskreten Fall. Auch die Interpretationen bleiben unverändert, sowohl die statistische als auch die physikalische (Schwerpunkt bzw. Trägheitsmoment). Bemerkung: Wir betrachten in diesem Buch jeweils nur Fälle, bei denen obige Integrale existieren und endlich sind. Bei vielen Problemen in der Praxis sucht man Werte, die mit hoher Wahrscheinlichkeit nicht überschritten werden. So sollte z. B. eine Dammhöhe so gewählt werden, dass der Wasserstand diese mit hoher Wahrscheinlichkeit nicht überschreitet. Für diesen Fall führt man den Begriff des Quantils ein. 2.3.2.2
Quantile
Definition: Quantil
Das (α × 100)%-Quantil qα für α ∈ (0, 1) ist definiert als der Wert, der mit Wahrscheinlichkeit (α × 100) % unterschritten wird. Für qα muss also gelten P(X ≤ qα ) = α, siehe . Abb. 2.8a. Obige Bedingung können wir auch schreiben als F (qα ) = α und erhalten so qα = F −1 (α), wobei F −1 die Umkehrfunktion von F ist. Diese Denkweise ist in . Abb. 2.8b dargestellt. Der Median ist das 50%-Quantil. Er teilt die Dichte in zwei flächenmäßig gleich große Teile auf (wird in der Literatur teilweise auch als Zentralwert bezeichnet). Bei symmetrischen Dichten gilt zudem, dass der Median dem Erwartungswert und dem Symmetriepunkt entspricht, denn der Erwartungswert ist ja gerade der Schwerpunkt.
Quantile kann man auch für diskrete Verteilungen definieren. Dort „trifft“ man α aber in der Regel nicht exakt, da die kumulative Verteilungsfunktion ja eine Stufenfunktion ist. Man nimmt dann für das (α × 100)%-Quantil qα den kleinsten Wert, sodass F (qα ) ≥ α gilt (siehe auch das Beispiel mit der geometrischen Verteilung in 7 Abschn. 2.2.4).
53 2.3 · Stetige Verteilungen
a
b
. Abb. 2.8 Das Quantil qα anhand der Dichte (a) und der kumulativen Verteilungsfunktion (b) für α = 0.75
Intuition zu Quantilen Die Quantile „leben“ auf der Skala der Zufallsvariable, siehe auch . Abb. 2.8. Für ein gegebenes Quantil qα spielt es zudem keine Rolle, welche „Form“ die zugehörige Dichte hat, solange links vom Quantil (α × 100) % Wahrscheinlichkeit liegt und rechts davon entsprechend der „Rest“ (1 − α) × 100 %. So liegt z. B. der Median (das 50%-Quantil) der Verteilung in . Abb. 2.8 bei Null. Wenn wir die Form der Dichte rechts von Null verändern, sodass die entsprechende Fläche immer noch 0.5 bleibt, so wird das den Median überhaupt nicht beeinflussen, er bleibt bei Null! Der Erwartungswert hingegen wird durch so eine Veränderung (typischerweise stark) verändert.
Beispiel: Berechnung von Kennzahlen einer stetigen Zufallsvariable
Wir betrachten eine stetige Zufallsvariable X mit Dichte f (x) =
2x
0≤x≤1
0
sonst
Der Erwartungswert ist gegeben durch E(X ) =
∞ −∞
xf (x) dx =
1 0
x · 2x dx =
2 . 3
Ferner ist E X2 =
∞ −∞
x2 f (x) dx =
1 0
x2 · 2x dx =
1 . 2
Also haben wir für die Varianz 1 Var (X ) = E X 2 − E(X )2 = − 2
2 1 2 . = 3 18
Entsprechend ist die Standardabweichung σX =
√
1/18 = 0.236.
2
54
Kapitel 2 · Wahrscheinlichkeitsverteilungen
Wie bestimmt man hier die Quantile? Hierzu ermitteln wir zuerst die kumulative Verteilungsfunktion durch Integration der Dichte und erhalten
2
F (x) =
⎧ ⎪ ⎪ ⎨0
x2
⎪ ⎪ ⎩1
x 1.
Die Umkehrfunktion ist F −1 (α) = Quantile als qα =
√
√ α für 0 ≤ α ≤ 1 und damit erhalten wir direkt die
α.
So ist z. B. das 90%-Quantil gegeben durch 0.707.
√ √ 0.9 = 0.949 oder der Median liegt bei 0.5 =
? Kurze Lernkontrolle: Wahr oder falsch? 17.
Wir betrachten eine stetige Zufallsvariable X mit Dichte f (x) und kumulativer Verteilungsfunktion F (x). a) b) c) d) e) f)
Falls f (0.3) = 0.1 gilt, so ist P(X = 0.3) = 0.1. Da es um Wahrscheinlichkeiten geht, muss f (x) ≤ 1 gelten für alle x. Falls F (3.25) = 0.5 gilt, dann liegt der Median von X bei 3.25. Es gilt P(|X | ≤ 1) = F (1) − F (−1). Falls E(X ) = 3 gilt, dann muss die Dichte symmetrisch um 3 sein. Es gilt E X + X3 =
g) h)
∞ −∞
x + x3 f (x) dx.
Wie die Dichte ist ein Quantil qα bei einer stetigen Verteilung generell immer größer als Null. Falls das 10%-Quantil bei 0.5 liegt, dann gilt
0.5 −∞
f (x) dx = 0.1.
Wie im diskreten Fall gibt es auch im stetigen Fall gewisse Verteilungen, die immer wieder gebraucht werden. Wir betrachten nun die Wichtigsten davon.
2.3.3
Uniforme Verteilung Uni (a, b)
Die uniforme Verteilung mit den Parametern a, b ∈ R tritt z. B. auf bei Rundungsfehlern und als Formalisierung der völligen „Ignoranz“. Sie ist die stetige Version des Laplace-Modells. Hier ist W = [a, b] und
55 2.3 · Stetige Verteilungen
f (x) =
F (x) =
1 b−a
0 ⎧ ⎪ ⎨0
x−a ⎪ b−a
⎩
1
a≤x≤b sonst x b.
Die Dichte ist also konstant und die kumulative Verteilungsfunktion eine lineare Funktion auf dem Definitionsbereich [a, b], siehe . Abb. 2.9. Für Erwartungswert und Varianz gilt a+b 2 (b − a)2 Var (X ) = . 12 E(X ) =
Beispiel: Uniformverteilte Zufallszahlen
Ein Computer liefert Zufallszahlen X , die uniformverteilt auf [0, 5] sind. Wie groß ist die Wahrscheinlichkeit, dass wir eine Zahl beobachten, die im Intervall [2, 4] liegt? Es ist P(2 ≤ X ≤ 4) =
2 , 5
denn das Integral entspricht hier gerade der Rechteckfläche (Breite: 2, Höhe: 1/5).
a
. Abb. 2.9
b
Dichte (a) und kumulative Verteilungsfunktion (b) der uniformen Verteilung
2
56
Kapitel 2 · Wahrscheinlichkeitsverteilungen
2.3.4
2
Normalverteilung N μ, σ 2
Die Normal- oder Gauß-Verteilung mit den Parametern μ ∈ R und σ > 0 ist eine häufige Verteilung für Messwerte. Hier ist W = R sowie
1 exp − f (x) = √ 2 2π σ 1
x−μ σ
2 ,x∈R
mit E(X ) = μ Var (X ) = σ 2 . Dies bedeutet, dass die Parameter gerade der Erwartungswert bzw. die Varianz (oder Standardabweichung) sind. Die kumulative Verteilungsfunktion F haben wir hier bewusst weggelassen, mehr dazu später in diesem Abschnitt und in 7 Abschn. 2.3.6.2. Die Dichte der Normalverteilung bezeichnet man auch als Gauß’sche Glockenkurve. Diese ist symmetrisch um den Erwartungswert μ. Je größer σ , desto „flacher“ oder „breiter“ wird die Dichte. Für kleine σ gibt es einen „schmalen“ und „hohen“ Gipfel. Mit μ verschieben wir einfach die Dichte nach links bzw. rechts, siehe auch . Abb. 2.10a. Die Fläche über dem Intervall [μ − σ, μ + σ ] ist ca. 0.68 (Merkregel: ≈2/3). Die Fläche über dem Intervall [μ − 2σ, μ + 2σ ] ist ca. 0.95, siehe auch . Abb. 2.11. Oder ausgedrückt in Wahrscheinlichkeiten: Die Wahrscheinlichkeit, weniger als eine Standardabweichung vom Erwartungswert entfernt zu liegen, beträgt ca. 68 %. Bei zwei Standardabweichungen sind es ca. 95 %. Dies bedeutet, dass bei einer Normalverteilung nur 5 % der Werte mehr als zwei Standardabweichungen vom Erwartungswert entfernt liegen.
a
b
. Abb. 2.10 Dichte (a) und kumulative Verteilungsfunktion (b) der Normalverteilung für μ = 0, σ = 1 (schwarz, durchgezogen), μ = 0, σ = 2 (rot, gestrichelt), μ = 0, σ = 0.75 (blau, gepunktet) und μ = 3, σ = 1 (grün, strich-punktiert)
57 2.3 · Stetige Verteilungen
. Abb. 2.11 Dichte der Normalverteilung. Ca. 68 % der Fläche befinden sich im Intervall [μ − σ, μ + σ ], ca. 95 % der Fläche im Intervall [μ − 2σ, μ + 2σ ]
1 Standardnormalverteilung Die N (0, 1)-Verteilung, auch als Standardnormalverteilung bezeichnet, ist ein wichtiger Sonderfall, weshalb es für deren Dichte und kumulative Verteilungsfunktion sogar eigene Symbole gibt. Es sind dies x2 1 ϕ(x) = √ exp − 2 2π
x (x) = ϕ(u) du. −∞
Die Funktion ist leider nicht geschlossen darstellbar. Eine Tabelle findet man in
7 Anhang 10.3 oder alternativ kann man natürlich entsprechende Software verwen-
den. Die Quantile bezeichnen wir hier statt mit qα mit zα = −1 (α), α ∈ (0, 1). Die Verteilungsfunktion F einer N (μ, σ 2 )-verteilten Zufallsvariable kann man aus der Verteilungsfunktion der Standardnormalverteilung berechnen mittels der Formel x−μ F (x) = σ für x ∈ R. Wieso dies gilt, folgt gleich in 7 Abschn. 2.3.6.2. Intuition zur Normalverteilung Eine wichtige Eigenschaft der Normalverteilung ist die Symmetrie um den Erwartungswert. Diese erleichtert viele Berechnungen. Dies kann man „formell“ aufschreiben; z. B. gilt für X ∼ N (0, 1) und x > 0, dass
2
58
Kapitel 2 · Wahrscheinlichkeitsverteilungen
P(X ≤ −x) = P(X > x) = 1 − P(X ≤ x).
2
Dies könnte man auch ausdrücken als (−x) = 1 − (x). Wir verzichten auf eine Auflistung solcher Formeln und empfehlen, sich solche Dinge jeweils durch eine Skizze nach Bedarf selber herzuleiten. So sehen wir z. B. in . Abb. 2.10a sofort, dass die Fläche unter der Dichte der Standardnormalverteilung links von −2 der Fläche rechts von 2 entspricht. Das wäre nichts anderes als obige Formel eingesetzt für x = 2. Genau wegen solcher Überlegungen findet man in der Tabelle im 7 Anhang 10.3 nur die Funktionswerte für positive Argumente.
2.3.5
Exponentialverteilung Exp (λ)
Die Exponentialverteilung mit Parameter λ > 0 ist das einfachste Modell für Wartezeiten auf Ausfälle und die stetige Version der geometrischen Verteilung. Hier ist W = [0, ∞),
0 x 20) = 1 − F (20) = e−λ·20 = e−20/15 = 0.264. Die Wahrscheinlichkeit, dass das Bauteil weniger lang als die erwartete Lebensdauer hält, ist P(T ≤ 15) = 1 − e−λ·15 = 1 − e−1 = 0.632. Weil mehr als 50 % Wahrscheinlichkeit links von 15 liegt, muss der Median der Lebensdauer T also insbesondere kleiner als 15 Wochen sein. Wir können den Median auch exakt ermitteln, indem wir die kumulative Verteilungsfunktion umkehren bzw. die Gleichung F (x) = 1 − e−λx = 0.5 nach x auflösen. Wir erhalten so x=−
log(0.5) = 10.4. λ
An einem weiteren Beispiel schauen wir uns eine wichtige Eigenschaft der Exponentialverteilung an. Beispiel: Wartezeit auf den nächsten Bus
Anna wartet seit 10 min auf den Bus. Sie weiß aus Erfahrung, dass die durchschnittliche Wartezeit gerade 10 min beträgt. Der Einfachheit halber nimmt sie an, dass die totale Wartezeit T in Minuten Exp (λ)-verteilt ist mit λ = 1/10. Mit den gleichen Überlegungen wie im vorhergehenden Beispiel gilt P(T > 10) = e−λ·10 = e−1 = 0.368.
a
. Abb. 2.12
b
Dichte (a) und kumulative Verteilungsfunktion (b) der Exponentialverteilung für λ = 1 (schwarz, durchgezogen), λ = 2 (blau, gepunktet) und λ = 1/2 (rot, gestrichelt)
2
60
2
Kapitel 2 · Wahrscheinlichkeitsverteilungen
Anna fragt sich nun, was sie durch die Wartezeit „gewonnen“ hat? Wie groß ist z. B. die Wahrscheinlichkeit, dass sie nochmals mindestens 10 weitere Minuten warten muss (und damit T > 20 gilt)? Wir wissen schon, dass T > 10 gelten muss, also bedingen wir darauf. Gefragt ist also P(T > 20 | T > 10). Durch Einsetzen der Definition der bedingten Wahrscheinlichkeit erhalten wir P(T > 20 | T > 10) =
P(T > 20) P(T > 20, T > 10) = P(T > 10) P(T > 10)
e−λ·20 = −λ·10 = e−λ·10 = 0.368, e wobei wir in der zweiten Gleichung ausgenutzt haben, dass das Ereignis {T > 20} eine Teilmenge von {T > 10} ist und daher die Schnittmenge der beiden Ereignisse das Ereignis {T > 20} ist. Wenn die Wartezeit also exponentialverteilt ist, spielt es überhaupt keine Rolle, dass Anna bereits 10 min gewartet hat. Die weitere Wartezeit ist genauso verteilt wie die, wenn Anna gerade erst zur Bushaltestelle gekommen wäre. Diese spezielle Eigenschaft nennt man auch Gedächtnislosigkeit der Exponentialverteilung. Für die Wartezeit auf den Bus wäre die Exponentialverteilung daher (hoffentlich!) ein schlechtes Modell.
Intuition zur Exponentialverteilung Weil die Exponentialverteilung kein Gedächtnis hat, eignet sie sich nur gut zur Modellierung, falls die entsprechende Ausfallrate wirklich konstant ist. Insbesondere ist die Exponentialverteilung nicht geeignet für „alternde“ oder sich „einspielende“ Systeme. In dem Sinne können wir auch verstehen, wieso die Exponentialverteilung die stetige Version der geometrischen Verteilung ist. Bei der geometrischen Verteilung haben wir auch geschaut, wie lange es dauert, bis etwas passiert. Die einzelnen „Experimente“ hatten alle die gleiche „Erfolgswahrscheinlichkeit“ (oder hier besser: „Ausfallwahrscheinlichkeit“). Man hat also schlussendlich die gleiche Eigenschaft wie bei der Exponentialverteilung, einfach in der diskreten Welt.
1 Ausblick: Ausfallrate Die Ausfallrate zum Zeitpunkt t können wir für eine beliebige Verteilung einer Ausfallzeit T formell definieren als P(t < T ≤ t + h|T > t) . h h→0
λ(t) = lim
Im Allgemeinen ist diese Rate λ(t) nicht mehr konstant, sondern abhängig von der bereits verstrichenen Zeit t. Mit den gleichen Überlegungen wie im vorangehenden Beispiel können wir λ(t) schreiben als λ(t) = lim
h→0
F (t + h) − F (t) . h · (1 − F (t))
61 2.3 · Stetige Verteilungen
Schlussendlich erhalten wir damit wegen der Definition der Wahrscheinlichkeitsdichte den Ausdruck λ(t) =
f (t) . 1 − F (t)
Wenn wir jetzt die Dichte bzw. die kumulative Verteilungsfunktion der Exponentialverteilung einsetzen, erhalten wir gerade den entsprechenden Modellparameter λ und sehen damit auch formell, dass die Ausfallrate bei der Exponentialverteilung konstant ist, d. h., dass sie nicht von der Zeit abhängt. Umgekehrt kann man λ(t) vorgeben und daraus die Verteilung bestimmen, denn der letzte Ausdruck f (t)/(1 − F (t)) ist die Ableitung von − log(1 − F (t)) und damit
t λ(s) ds . F (t) = 1 − exp − 0
? Kurze Lernkontrolle: Wahr oder falsch?
18. Wir betrachten die normalverteilte Zufallsvariable X ∼ N μ, σ 2 mit μ = 1 und σ 2 = 2. a) b) c) d)
Es gilt hier P(X ≤ 0) > P(X ≥ 3). √ Die Fläche unter der Dichtefunktion im Intervall [1, 1 + 2] ist ca. 1/3. Für jeden Wert von σ 2 > 0 ist die Dichte symmetrisch um 1, solange wir μ = 1 fest lassen. Das 80%-Quantil von X ist größer als 1.
19. Betrachten Sie die folgenden Aussagen. a) b)
Falls X ∼ Uni (0, 1)-verteilt ist, dann ist E eX = e − 1. Falls die Zufallsvariable X exponentialverteilt ist mit Erwartungswert 100, dann gilt P(X > 50) = e−1/2 .
c) d)
Es gibt eine Exponentialverteilung mit Erwartungswert 10 und Standardabweichung 5. Wenn X ∼ Exp (λ)-verteilt ist, dann gilt für alle Werte c > 0, dass P(c ≤ X ≤ c + 1) > P(c + 1 ≤ X ≤ c + 2).
2.3.6
Transformationen
Bei stetigen Verteilungen spielen Transformationen eine wichtige Rolle. Transformationen treten bereits bei „simplen“ Dingen wie der Änderung von Maßeinheiten (z. B. Grad Fahrenheit auf Grad Celsius) auf. Es kann auch sein, dass wir die Wahrscheinlichkeitsverteilung der Geschwindigkeit v einer Masse m kennen, aber an der Verteilung ihrer kinetischer Energie 21 mv2 interessiert sind.
2
62
2
Kapitel 2 · Wahrscheinlichkeitsverteilungen
Etwas abstrakter beschrieben betrachten wir hier also jeweils eine neue Zufallsvariable Y = g(X ), wobei wir davon ausgehen, dass wir sowohl die Verteilung der Zufallsvariable X als auch die Funktion g kennen. Das Ziel ist es, aus diesen Angaben die Verteilung von Y zu ermitteln. Um Missverständnisse zu vermeiden, schreiben wir hier jeweils im Index der kumulativen Verteilungsfunktion, des Erwartungswertes etc., um welche Zufallsvariablen es sich handelt. 2.3.6.1
Linearer Fall
Falls g linear ist mit g(x) = a + bx, a ∈ R und b > 0, dann gilt FY (y) = P(Y ≤ y) = P(a + bX ≤ y) y−a =P X ≤ b y−a = FX . b Wir haben hier ausgenutzt, dass wir das Ereignis {a + bX ≤ y} umformen können zu {X ≤ y−a b }, indem wir es einfach als „normale“ Ungleichung betrachten. Die Bedingung b > 0 wird benötigt, damit das Zeichen „≤“ bei der Division durch b nicht umkehrt. Für den Fall b < 0 haben wir entsprechend FY (y) = P(Y ≤ y) = P(a + bX ≤ y) y−a =P X ≥ b y−a = 1 − FX . b Durch Ableiten erhält man dann die Dichte und damit das folgende Resultat, gerade aufgeschrieben für den allgemeinen Fall mit b = 0. Rechenregel für linear transformierte Dichte
Für b = 0 ist die Dichte von Y = a + bX gegeben durch fY (y) =
1 fX |b|
y−a . b
Beispiel: Lineare Transformationen bei der Normalverteilung
Wenn X ∼ N μ, σ 2 , dann gilt für die Zufallsvariable Y = a + bX , dass Y ∼ N a + bμ, b2 σ 2 , denn nach obiger Transformationsformel haben wir
63 2.3 · Stetige Verteilungen
⎧ ⎫ ⎨ 1 y−a − μ 2 ⎬ 1 y − a − bμ 2 1 b , fY (y) = √ exp − exp − = √ ⎩ 2 ⎭ σ 2 σb 2π σ |b| 2πσ |b| 1
was die Dichte einer Normalverteilung mit Erwartungswert a + bμ und Varianz b2 σ 2 ist. Wir „verlassen“ also die Normalverteilung nicht, wenn wir lineare Transformationen anwenden (bei der Poisson-Verteilung geht dies z. B. nicht). Durch Skalenänderungen (d. h. a = 0, b > 0) kann man auch alle Exponentialverteilungen ineinander überführen. Auch uniforme Verteilungen kann man durch lineare Transformation ineinander überführen.
Mit den Rechenregeln aus 7 Abschn. 2.2.1 haben wir zudem E(Y ) = a + b · E(X ) Var (Y ) = b2 Var (X ) σY = |b|σX . Diese Kennzahlen müssen wir also nicht via Umweg über die transformierte Dichte berechnen. 2.3.6.2
Standardisierung
Wir können eine Zufallsvariable X immer so linear transformieren, dass sie Erwartungswert 0 und Varianz 1 hat, indem wir die Transformation g(x) =
x − μX σX
anwenden. Für Z = g(X ) gilt (nachrechnen!) E(Z) = 0 Var (Z) = 1. Wir sprechen in diesem Zusammenhang von Standardisierung. Typischerweise verwenden wir den Buchstaben Z für standardisierte Zufallsvariablen. Die Standardisierung ist bei der Normalverteilung besonders nützlich. Hierzu betrachten wir X ∼ N μ, σ 2 . Wie groß ist dann P(X ≤ 3)? Indem wir auf beiden Seiten den Erwartungswert abziehen und durch die Standardabweichung dividieren, haben wir 3−μ X −μ ≤ P(X ≤ 3) = P σ σ 3−μ =P Z≤ σ 3−μ = , σ denn Z ∼ N (0, 1). Falls μ = 2 und σ = 4, haben wir
2
64
Kapitel 2 · Wahrscheinlichkeitsverteilungen
P(X ≤ 3) = P(Z ≤ 0.25) = (0.25).
2
In der Tabelle in 7 Anhang 10.3 lesen wir ab, dass (0.25) = 0.5987 (Zeile „.2“ und Spalte „.05“). Wir können also mit diesem Trick alle Normalverteilungen zurückführen auf die Standardnormalverteilung. Dies ist auch der Grund, wieso nur diese tabelliert ist. 2.3.6.3
Allgemeiner monotoner Fall
Für den Fall, dass die Funktion g nicht mehr linear, aber noch streng monoton ist, erhalten wir ein ähnliches Resultat. Rechenregel für monoton transformierte Dichte
Ist g eine (beliebige) differenzierbare, streng monotone Funktion, so hat Y = g(X ) die Dichte 1 fY (y) = −1 fX g −1 (y) , y ∈ WY . g g (y) Falls WX der Wertebereich von X ist, so ist der Wertebereich von Y gegeben durch WY = g(WX ) = {g(x), x ∈ WX }. Die Herleitung der Transformationsformel verläuft genauso wie im linearen Fall.
Beispiel: Lognormalverteilung
Wenn X ∼ N μ, σ 2 normalverteilt ist, dann folgt die transformierte Zufallsvariable
Y = eX einer sogenannten Lognormalverteilung. Eine Zufallsvariable Y > 0 heißt also lognormalverteilt, wenn der Logarithmus davon normalverteilt ist. Die Dichte ist gemäß obiger Transformationsformel gegeben durch
fY (y) =
⎧ ⎪ ⎨0
1 1 ⎪ ⎩ √2π σ y exp − 2
log(y)−μ 2 σ
y≤0 y > 0,
denn wir haben hier g(x) = ex , g (x) = ex , g −1 (y) = log(y) und damit g g −1 (y) = y.
Wie wir schon in 7 Abschn. 2.3.2 gesehen haben, gilt für beliebiges g immer
E(Y ) = E(g(X )) =
∞
−∞
g(x)fX (x) dx.
Wir brauchen für den Erwartungswert von Y die transformierte Dichte fY also nicht.
65 2.3 · Stetige Verteilungen
! Achtung
Der Erwartungswert transformiert nicht einfach mit. Falls g konvex ist (d. h. g ≥ 0), so gilt die Jensen’sche Ungleichung E(g(X )) ≥ g(E(X )) .
Beispiel: Erwartungswert der Lognormalverteilung
Ist Y lognormalverteilt, so gilt 2 E(Y ) = eμ+σ /2 > eμ = g(μ),
wobei wir E(Y ) ohne Herleitung einfach hinschreiben. Transformationsformel für Quantile
Die Quantile transformieren bei monoton wachsenden Funktionen mit, d. h., das (α × 100)%-Quantil qα von X wird zum (α × 100)%-Quantil g(qα ) von Y , denn α = P(X ≤ qα ) = P(g(X ) ≤ g(qα )) = P(Y ≤ g(qα )).
Beispiel: Median der Lognormalverteilung
Der Median der Lognormalverteilung ist eμ = g(μ). Im Gegensatz zum Erwartungswert transformiert der Median also einfach mit.
Was macht man mit der Dichte, falls die Funktion g nicht monoton ist? Beispiel: Allgemeinere Form von Transformationen
Wir betrachten Y = X 2 , d. h. g(x) = x2 , x ∈ R. Typischerweise ist es sinnvoll, mit der kumulativen Verteilungsfunktion zu beginnen. Wir betrachten also das Ereignis {Y ≤ y} √ √ für y > 0. Dies können wir auch schreiben als {− y ≤ X ≤ y} und erhalten so √ √ FY (y) = P(Y ≤ y) = P(− y ≤ X ≤ y) √ √ = FX ( y) − FX (− y). Die Ableitung davon ergibt die Dichte √ 1 √ fY (y) = √ fX y + fX − y , y > 0. 2 y
2
66
Kapitel 2 · Wahrscheinlichkeitsverteilungen
2.3.7
2
Simulation von Zufallsvariablen
Wie können wir Werte von einer Zufallsvariable simulieren, die einer vorgegebenen Verteilung mit (stetiger) Verteilungsfunktion F folgen? Wir gehen davon aus, dass wir einen Zufallszahlengenerator zur Verfügung haben, der Uni (0, 1)-verteilte Zufallszahlen liefern kann (dies ist fast überall implementiert). Die Idee besteht nun darin, diese Werte geeignet zu transformieren. Wenn U ∼ Uni (0, 1)-verteilt ist und F eine beliebige kumulative Verteilungsfunktion ist, dann ist die kumulative Verteilungsfunktion von X = F −1 (U ) gerade die Funktion F , denn P(X ≤ x) = P(F −1 (U ) ≤ x) = P(U ≤ F (x)) = FU (F (x)) = F (x). Wir haben hier ausgenutzt, dass die kumulative Verteilungsfunktion monoton wachsend ist und dass bei der uniformen Verteilung auf [0, 1] gilt, dass FU (x) = x, siehe 7 Abschn. 2.3.3. Wenn wir also die Uni (0, 1)-verteilten Werte mit der Funktion F −1 transformieren, erhalten wir gerade die gewünschte Verteilung! Ähnlich kann man bei diskreten Zufallsvariablen vorgehen (ohne Details). ? Kurze Lernkontrolle: Wahr oder falsch? 20. Die Zufallsvariable X sei normalverteilt mit Erwartungswert 5 und Varianz 4. a) b) c)
2.4
Y = X − 5 ist normalverteilt mit Erwartungswert 0 und Varianz 4. Y = log(X ) ist lognormalverteilt. Es gilt P(X ≤ 0) = 0.0062.
Ausblick: Poisson-Prozesse
Eine Verallgemeinerung der Poisson-Verteilung sind sogenannte Poisson-Prozesse. Ein Poisson-Prozess ist das einfachste Modell, um die Anzahl der Ereignisse in beliebigen Zeitintervallen zu beschreiben, wie z. B. die Anzahl der Skiunfälle an einem Tag, in einer Woche oder in einem Monat. Wenn wir das Zeitintervall verdoppeln, dann erwarten wir auch doppelt so große Anzahlen. Man muss also eine Rate oder Intensität λ spezifizieren (pro Zeiteinheit). Die Anzahl Ereignisse in einem Intervall der Länge t modelliert man dann mit einer Poisson-Verteilung mit Parameter λt. Wenn man zusätzlich annimmt, dass Anzahlen aus disjunkten (d. h. nicht überlappenden) Zeitintervallen unabhängig sind, spricht man von einem sogenannten homogenen Poisson-Prozess (homogen, weil die Intensität nicht von der Zeit abhängt). Wir bezeichnen mit N(t) die Anzahl der Ereignisse im Zeitintervall [0, t], t > 0. Für einen homogenen Poisson-Prozess gilt dann N(t) ∼ Pois (λt) . Wie lange müssen wir auf das erste Ereignis warten? Sei T1 der Zeitpunkt des ersten Ereignisses. Es gilt
67 2.5 · Vergleich der Konzepte: Diskrete vs. stetige Verteilungen
{T1 > t} = {Kein Ereignis in [0, t]} = {N(t) = 0}. Also haben wir P(T1 > t) = P(N(t) = 0) = e−λt bzw. für das Komplementärereignis P(T1 ≤ t) = 1 − e−λt . Die Zeit bis zum ersten Ereignis ist also exponentialverteilt mit Parameter λ, d. h. T1 ∼ Exp (λ). Wegen der Annahme der Unabhängigkeit gilt allgemein, dass bei homogenen Poisson-Prozessen die Zeiten zwischen zwei aufeinanderfolgenden Ereignissen exponentialverteilt sind! ? Kurze Lernkontrolle: Wahr oder falsch? 21
Wir modellieren die Anzahl der Kaffees, die eine Kaffeemaschine pro Stunde herstellen muss, mit einem homogenen Poisson-Prozess mit Intensität λ = 20 (pro Stunde). a) b) c) d)
2.5
Die Wahrscheinlichkeit, dass während 6 min kein Kaffee gemacht wird, ist gegeben durch e−2 . Sei X die Anzahl der Kaffees zwischen 9 und 12 Uhr. Dann gilt E(X ) = 60 und Var (X ) = 60. Die Wahrscheinlichkeit, dass es zwischen zwei Tassen Kaffee mehr als 12 min Ruhepause gibt, ist gegeben durch e−4 . Eigentlich ist der homogene Poisson-Prozess als Modell nicht geeignet, wenn wir einen Zeitraum von 24 h betrachten.
Vergleich der Konzepte: Diskrete vs. stetige Verteilungen
Die wichtigsten Konzepte der stetigen und diskreten Verteilungen sind in . Tab. 2.1 einander gegenübergestellt.
2
68
Kapitel 2 · Wahrscheinlichkeitsverteilungen
. Tab. 2.1 Vergleich der Konzepte der diskreten und der stetigen Verteilungen Diskret
2
Stetig
Wertebereich W = {x1 , x2 , . . .}, xk ∈ R, k ≥ 1
W enthält ein Intervall, z. B. W = R
Wahrscheinlichkeitsfunktion
Dichte
P(X = xk ) = p(xk ) ∈ [0, 1], xk ∈ W
P(x < X ≤ x + h) ≈ hf (x) für h klein
Kumulative Verteilungsfunktion
F (x) =
p(xk )
F (x) =
k : xk ≤x
x
f (u) du
−∞
Berechnung von Wahrscheinlichkeiten P(X ∈ A) =
p(xk ), A ⊆ W
P(X ∈ A) =
k : xk ∈A
A
f (x) dx, A ⊆ W
Erwartungswert E(X ) =
k≥1
etc.
xk p(xk )
E(X ) =
∞ −∞
xf (x) dx
69 2.5 · Vergleich der Konzepte: Diskrete vs. stetige Verteilungen
Verständnisfragen: Alles klar? 5 5 5 5 5 5 5 5 5 5 5 5 5 5
Was ist eine Zufallsvariable? Was ist die Verteilung einer Zufallsvariable? Was ist der Unterschied zwischen diskreten und stetigen Verteilungen? Wie berechnet man die kumulative Verteilungsfunktion einer Zufallsvariable? Welche Eigenschaften hat die kumulative Verteilungsfunktion? Wie berechnet man die wichtigsten Kennzahlen einer Verteilung? Was bedeuten die Kennzahlen einer Verteilung? Was passiert mit den Kennzahlen, wenn man eine Zufallsvariable linear transformiert? Welches sind die wichtigsten diskreten Verteilungen und wann werden sie angewendet? Welches sind die wichtigsten stetigen Verteilungen und wann werden sie angewendet? Was bedeutet es, wenn man eine Zufallsvariable standardisiert? Wieso ist die Standardisierung bei der Normalverteilung nützlich? Was passiert mit der Dichte einer stetigen Zufallsvariable, wenn man diese transformiert? Was ist ein Poisson-Prozess?
2
71
Deskriptive Statistik Inhaltsverzeichnis 3.1
Einführung – 72
3.2
Kennzahlen – 73
3.3
Grafische Darstellungen – 76
3.3.1 3.3.2 3.3.3
Histogramm – 77 Boxplot – 78 Empirische kumulative Verteilungsfunktion – 79
3.4
Mehrere Messgrößen – 80
3.5
Modell versus Daten – 84
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 L. Meier, Wahrscheinlichkeitsrechnung und Statistik, https://doi.org/10.1007/978-3-662-61488-4_3
3
72
Kapitel 3 · Deskriptive Statistik
n Begriffe, die Sie in diesem Kapitel kennenlernen werden 5 5
5
3
5 5 5
3.1
Stichprobe, Grundgesamtheit/Population, (einfache) Zufallsstichprobe Kennzahlen für die Lage: Arithmetisches Mittel/Durchschnitt/Mittelwert/Stichprobenmittel, empirische Quantile, empirischer Median/Zentralwert, Quartile Kennzahlen für die Streuung: Empirische Standardabweichung, empirische Varianz, Quartilsdifferenz Rang einer Beobachtung Grafiken: Histogramm, Boxplot, empirische kumulative Verteilungsfunktion Mehrere Messgrößen: Streudiagramm, empirische Kovarianz, empirische Korrelation
Einführung
In diesem Kapitel betrachten wir das erste Mal konkret vorliegende Daten. In der sogenannten schließenden Statistik in Teil II wird es später darum gehen, aus solchen Daten Schlüsse über den dahinterliegenden datengenerierenden Mechanismus zu ziehen. Man nimmt dabei jeweils an, dass die Daten Realisierungen von Zufallsvariablen sind, deren Verteilung man aufgrund der Daten bestimmen möchte. Oft interpretieren wir Daten auch als Stichprobe einer (großen) Grundgesamtheit (oder Population). Wir können z. B. eine Stichprobe von 50 Studierenden von allen an einer Universität eingeschriebenen Studierenden (Grundgesamtheit) ziehen und von diesen gewisse Eigenschaften analysieren. Typischerweise will man von der Stichprobe Rückschlüsse auf die Grundgesamtheit ziehen. Damit eine Stichprobe die Grundgesamtheit gut repräsentiert, muss sie idealerweise zufällig aus der Grundgesamtheit entnommen werden. Wenn jedes Element der Grundgesamtheit die gleiche Wahrscheinlichkeit hat, ausgewählt zu werden, spricht man von einer sogenannten einfachen Zufallsstichprobe. ! Achtung Es ist schwierig, eine gute Stichprobe zu ziehen. Leider wird oft der Weg des kleinsten Aufwands gewählt. Man sollte daher generell skeptisch sein und den Mechanismus, mit dem die Daten gewonnen wurden, kritisch hinterfragen. In diesem Sinne gilt auch in Zeiten von „big data“: Eine gut gewählte kleine Stichprobe ist viel aussagekräftiger als eine schlecht gewählte große Stichprobe!
Beispiel: Einschusslöcher in Flugzeugen
Im 2. Weltkrieg wollten die USA ihre Flugzeuge besser gegen feindlichen Beschuss schützen. Hierzu wurde ein Inventar erstellt, indem bei den zu den Basen zurückgekehrten Flugzeugen jeweils die Einschusslöcher aufgezeichnet wurden. Wo soll man nun die Flugzeuge verstärken? Dort, wo man viele Einschusslöcher sieht? Der Statistiker Abraham Wald machte den Vorschlag, die Flugzeuge dort zu verstärken, wo keine Einschusslöcher vorhanden sind (Wald 1980). Der Grund liegt darin, dass es sich nur um die Daten der zurückgekehrten Flugzeuge handelte (deren Schaden kann nicht so dramatisch gewesen sein, sonst hätten sie es nicht zurück geschafft). Die Daten der abgestürzten Maschinen sieht man aber gar
73 3.2 · Kennzahlen
nicht. Wenn wir von einem „gleichmäßigen“ Beschuss ausgehen, wurden diese wohl dort getroffen, wo man in unseren Daten keine Werte sieht. Man nennt dieses Phänomen auch „survivorship bias“. Manchmal sind also die fehlenden Daten gerade die interessantesten!
Wie man eine „effiziente“ und „gute“ Stichprobe zieht, ist eine Wissenschaft für sich. Wir werden uns hier nicht weiter damit befassen. Dieser kleine Exkurs zu Kapitelbeginn sollte mehr als Warnung dienen, dass man sich stets überlegt, woher die Daten kommen, welche Daten vielleicht fehlen etc. Später werden wir dann sehen, dass die Rückschlüsse, die man aus Daten ziehen kann, stark davon abhängen, wie diese erhoben wurden (siehe 7 Abschn. 8.2). Jetzt befassen wir uns wie im Titel versprochen mit der deskriptiven (oder beschreibenden) Statistik. Dort geht es „nur“ darum, die vorhandenen Daten mit Kennzahlen zusammenzufassen und mit Grafiken darzustellen. Der Fokus liegt dabei auf stetigen Messgrößen. ! Achtung Man muss sich bewusst sein, dass beim Zusammenfassen von Daten – sei dies durch Kennzahlen oder Grafiken – zwangsläufig Information verloren geht!
3.2
Kennzahlen
Wir betrachten einen Datensatz mit n Beobachtungen (für die wir typischerweise Kleinbuchstaben verwenden): x1 , x2 , . . . , xn . Wenn wir z. B. n = 15 Prüfkörper bezüglich ihrer Biegefestigkeit ausmessen, dann ist xi die Biegefestigkeit des i-ten Prüfkörpers, i = 1, . . . , 15. Für die numerische Zusammenfassung von Daten gibt es diverse Kennzahlen. Definition: Arithmetisches Mittel
Das arithmetische Mittel (wird auch als Durchschnitt, Mittelwert, oder Stichprobenmittel bezeichnet) x=
n 1 xi n i=1
ist eine Kennzahl für die Lage der Daten und entspricht dem Schwerpunkt der Datenpunkte, wenn wir jeder Beobachtung das gleiche Gewicht geben.
Das arithmetische Mittel ist also gerade das empirische Gegenstück des Erwartungswertes (empirisch bedeutet: experimentell beobachtet bzw. aus Daten ermittelt).
3
74
Kapitel 3 · Deskriptive Statistik
Definition: Empirische Standardabweichung und empirische Varianz
Die empirische Standardabweichung s ist die Wurzel aus der empirischen Varianz 1 (xi − x)2 n−1 n
s2 =
3
i=1
und eine Kennzahl für die Streuung der Daten. Je größer also die empirische Standardabweichung (oder Varianz), desto „breiter“ streuen unsere Beobachtungen um das arithmetische Mittel herum.
Der auf den ersten Blick gewöhnungsbedürftige Nenner n − 1 ist mathematisch begründet und sorgt dafür, dass man keinen systematischen Fehler macht (siehe 7 Abschn. 6.3.3). Auf der Modellseite entspricht der empirischen Varianz natürlich die Varianz (Entsprechendes gilt bei der Standardabweichung). Um weitere Kennzahlen zu definieren, führen wir zuerst die geordneten Werte x(1) ≤ x(2) ≤ · · · ≤ x(n) ein. Dies ist nichts anderes als unsere in aufsteigender Reihenfolge geordnete Stichprobe. Also: Wenn wir den Index einer Beobachtung in Klammern setzen, gehen wir davon aus, dass die Beobachtungen der Größe nach aufsteigend geordnet sind. Die Position einer Beobachtung in der geordneten Stichprobe bezeichnen wir auch als Rang der Beobachtung. Die kleinste Beobachtung hat also Rang 1, die zweitkleinste Rang 2 etc. Basierend auf der geordneten Stichprobe definieren wir nun die empirischen Quantile. Definition: Empirische Quantile
Das empirische (α × 100)%-Quantil qα (0 < α < 1) ist die Beobachtung x(k) , die die geordneten Daten (in etwa) im Verhältnis α : (1 − α) aufteilt. D.h., ca. (α × 100) % der Beobachtungen sind kleiner als x(k) und (1 − α) × 100 % sind größer. Genauer: Das empirische (α × 100)%-Quantil qα ist definiert als qα =
1 2 x(α·n) + x(α·n+1) falls α · n eine ganze Zahl ist sonst. x(α·n)
Die Notation α · n bedeutet, dass man auf die nächstgrößere ganze Zahl aufrundet: k = α · n ist die kleinste ganze Zahl, die größer als α · n ist. Wenn α · n eine ganze Zahl ist, mittelt man also über zwei Beobachtungen aus, sonst nimmt man die nächstgrößere ganze Zahl und betrachtet diese Beobachtung. Es gibt noch (viele) alternative Definitionen des empirischen Quantils; für große n wird der Unterschied zwischen den Definitionen vernachlässigbar.
75 3.2 · Kennzahlen
Definition: Empirischer Median
Ein spezielles Quantil ist der empirische Median (oder Zentralwert). Er ist definiert als das 50%-Quantil und steht „in der Mitte“ der geordneten Stichprobe. Also haben wir entsprechend obiger Definition ⎧
⎨ 1 x n +x n falls n gerade ( ) ( +1) 2 2 q0.5 = 2 ⎩ x n+1 falls n ungerade. ( ) 2
Der empirische Median ist wie das arithmetische Mittel eine Kennzahl für die Lage der Datenpunkte.
Intuition zum empirischen Median Der Median „schaut“ nur, ob links und rechts gleich viele Beobachtungen liegen, die aktuelle Lage der Beobachtungen spielt keine Rolle. Im Gegensatz zum arithmetischen Mittel ist der Median daher „robust“. Wenn wir z. B. den größten Wert in unserem Datensatz nochmals stark erhöhen (wenn wir z. B. bei der Datenaufnahme einen Fehler machen und eine Null zu viel schreiben), so ändert sich der Median nicht. Das arithmetische Mittel hingegen kann sich bei einer solchen Datenänderung drastisch verändern und ist demnach nicht robust.
Neben dem Median werden oft auch noch die Quartile verwendet. Das untere Quartil ist das empirische 25%-Quantil, das obere Quartil entsprechend das empirische 75%Quantil. Die Quartilsdifferenz (engl. interquartile range, IQR) ist die Differenz zwischen dem oberen und dem unteren Quartil. Sie ist eine (robuste) Kennzahl für die Streuung der Daten. Beispiel: Der Geysir Old Faithful
Wir betrachten einen Auszug aus Daten des Geysirs „Old Faithful“ im Yellowstone Nationalpark in den USA (Härdle 1991). Notiert wurden sowohl die Dauer der Eruptionen als auch die Zeitspanne zur jeweiligen vorhergehenden Eruption (beides in Minuten). Wir beschränken uns vorerst einmal auf die Dauer der ersten 10 Eruptionen. x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 3.600 1.800 3.333 2.283 4.533 2.883 4.700 3.600 1.950 4.350
Die geordneten Beobachtungen sind also demnach x(1) x(2) x(3) x(4) x(5) x(6) x(7) x(8) x(9) x(10) 1.800 1.950 2.283 2.883 3.333 3.600 3.600 4.350 4.533 4.700
3
76
Kapitel 3 · Deskriptive Statistik
Wir haben (gerundet): x = 3.303 s2 = 1.116 s = 1.056
3
Der empirische Median ist gegeben durch den Mittelwert der beiden „mittleren“ Beobachtungen x(5) und x(6) : q0.5 =
1 (3.333 + 3.600) = 3.4665 2
Das empirische 15%-Quantil ist gegeben durch die zweitkleinste Beobachtung, denn 10 · 0.15 = 1.5 und demnach 10 · 0.15 = 2, also q0.15 = x(2) = 1.95. Weil 10 · 0.25 = 2.5 gilt, ist das untere Quartil (25%-Quantil) gegeben durch x(3) = 2.283 und das obere Quartil (75%-Quantil) entsprechend durch x(8) = 4.35. Die Quartilsdifferenz ist demnach 4.35 − 2.283 = 2.067.
? Kurze Lernkontrolle: Wahr oder falsch? 22.
Wir betrachten folgenden (bereits geordneten) Datensatz. i 1 2 3 4 5 6 7 8 9 10 x(i) 0.12 0.28 0.33 0.42 0.63 0.64 0.75 1.01 1.20 1.22 i 11 12 13 14 15 16 17 18 19 20 x(i) 1.26 1.57 1.82 1.89 2.19 2.23 2.65 2.86 3.93 4.22
a) b) c) d)
3.3
Das empirische 25%-Quantil ist 5.00. Der empirische Median ist 1.22. Wenn wir die größte Beobachtung ersetzen durch den Wert 2356, so bleibt das empirische 10%-Quantil unverändert. Die Beobachtung mit dem Wert 0.64 hat Rang 6.
Grafische Darstellungen
Mit Grafiken können wir sehr schnell erkennen, ob unsere Daten unerwartete Strukturen und Besonderheiten aufweisen. Wenn man also Daten sammelt, ist es sozusagen eine Pflicht, die Daten mit geeigneten Grafiken darzustellen. Typische grafische Darstellungen eines eindimensionalen Datensatzes sind das Histogramm, der Boxplot und die empirische kumulative Verteilungsfunktion. Wenn man Daten paarweise beobachtet, kommen noch andere Grafiken dazu.
77 3.3 · Grafische Darstellungen
a
b
. Abb. 3.1 Darstellung von zwei Histogrammen vom gleichen Datensatz. Zur Illustration sind die einzelnen Beobachtungen mit kleinen Strichen eingezeichnet. Das Histogramm in (b) ist so normiert, dass die Totalfläche 1 ergibt
3.3.1
Histogramm
Ein Histogramm gibt uns einen grafischen Überblick darüber, wie „dicht“ verschiedene Intervalle des Wertebereichs mit Beobachtungen besetzt sind. Es ist daher die empirische Version der Dichte. Zur Erstellung eines Histogramms teilen wir den Wertebereich der Beobachtungen auf, d. h., wir bilden Klassen (Intervalle) (ck−1 , ck ]. Ferner ermitteln wir die Anzahl der Beobachtungen in den entsprechenden Klassen. Diese Anzahlen bezeichnen wir mit hk . Grafisch trägt man über den Intervallen Balken auf, deren Fläche proportional zu hk ist. Dies erreicht man, indem man die Höhe der Balken proportional zu hk ck − ck−1 wählt (die Höhe ist also die Anzahl der Beobachtungen pro Längeneinheit). Wenn man überall die gleiche Klassenbreite ck − ck−1 wählt, so kann man auch direkt die Anzahlen auftragen. Eine Darstellung findet man in . Abb. 3.1a. Im Histogramm in . Abb. 3.1b sind zwei Klassen zusammengefasst worden. Das Histogramm gibt uns einen guten Überblick über die empirische Verteilung. Man sieht z. B. sehr einfach, wie (un)symmetrisch eine Verteilung ist, ob sie mehrere Gipfel hat etc. Wie viele Klassen man wählt, ist subjektiv. Je nach Wahl der Intervalle können Strukturen verschwinden oder hinzukommen. Wenn wir die Klassenbreite sehr groß wählen, kann es sein, dass mehrere Gipfel „verschmolzen“ werden zu einem einzelnen Gipfel. Intuition zur Auswirkung der Klassenanzahl des Histogramms Wenn man die Klassenbreite größer macht, dann findet „Erosion“ statt: Gipfel werden abgetragen und Täler werden aufgefüllt. Dies sehen wir auch in . Abb. 3.2. Für
3
78
Kapitel 3 · Deskriptive Statistik
a
b
c
d
3
. Abb. 3.2
Histogramme der Zeitspanne (in Minuten) zwischen zwei Ausbrüchen des Geysirs Old Faithful für verschiedene Wahlen der Anzahl der Klassen
den Datensatz, der die Zeitspanne zwischen zwei Eruptionen des Geysirs Old Faithful beinhaltet, sind vier verschiedene Histogramme mit unterschiedlicher Wahl der Klassenanzahl dargestellt. Wir sehen, dass die Gipfel mit zunehmender Intervallbreite auch immer breiter werden. Im Histogramm in . Abb. 3.2d ist sogar nur noch ein Gipfel zu erkennen.
Eine mögliche Faustregel für die Klassenanzahl ist die sogenannte „Sturges Rule“. Diese teilt den Wertebereich der Daten auf in 1 + log2 (n) gleich breite Intervalle. Zur Erinnerung: Das Symbol · bedeutet, dass man auf die nächstgrößere ganze Zahl aufrundet.
3.3.2
Boxplot
Wenn man mehrere Verteilungen miteinander vergleichen will (z. B. wenn man eine Größe bei verschiedenen Versuchsbedingungen oder an verschiedenen Orten misst), ist der Vergleich von Histogrammen schwierig und man bekommt schnell ein Platzproblem. Eine geeignetere Wahl sind sogenannte Boxplots. Der Boxplot (siehe . Abb. 3.3) besteht aus einem Rechteck, das vom unteren und vom oberen Quartil begrenzt ist. Innerhalb des Rechtecks markieren wir den Median mit einem Strich. Hinzu kommen Linien, die von diesem Rechteck bis zur kleinsten bzw. größten „normalen“ Beobachtung gehen. Per Definition ist eine normale Beobachtung höchstens 1.5-mal die Quartilsdifferenz von einem der beiden Quarti-
79 3.3 · Grafische Darstellungen
. Abb. 3.3
Schematische Darstellung eines Boxplots. Die Werteachse ist hier vertikal in grau
eingezeichnet
le entfernt. Beobachtungen, die weiter entfernt sind (sogenannte Ausreißer) werden zusätzlich durch Punkte eingezeichnet. Der Boxplot liefert uns Information über die Lage, die Streuung und die Form (z. B. Symmetrie) der Verteilung der Datenpunkte, siehe auch . Abb. 3.4.
3.3.3
Empirische kumulative Verteilungsfunktion
Die empirische kumulative Verteilungsfunktion Fn ist die empirische Version der kumulativen Verteilungsfunktion. Sie ist definiert als Fn (x) =
1 Anzahl{i | xi ≤ x} ∈ [0, 1], n
3
80
3
Kapitel 3 · Deskriptive Statistik
wobei x ∈ R. So gibt z. B. Fn (2) an, wie groß im Datensatz der Anteil der Beobachtungen ist, die kleiner gleich 2 sind. Insbesondere ist also Fn eine Treppenfunktion, die an den Datenpunkten einen Sprung der Höhe 1/n hat (bzw. ein Vielfaches davon, wenn ein Wert mehrmals vorkommt). Links von der kleinsten Beobachtung ist die Funktion 0 und rechts von der größten Beobachtung ist die Funktion 1. In Regionen, in denen viele Punkte liegen (das Histogramm hat dort einen Gipfel), ist die empirische kumulative Verteilungsfunktion also steil. In . Abb. 3.4 ist jeweils das Histogramm, der Boxplot und die empirische kumulative Verteilungsfunktion von vier Datensätzen der Größe n = 100 dargestellt. Man sieht z. B., dass beim dritten Datensatz aus dem Boxplot nicht ersichtlich ist, dass die Verteilung zwei Gipfel hat (man spricht in diesem Fall von einer sogenannten bimodalen Verteilung). Je nachdem, wie man die Daten also darstellt, geht Information verloren. ? Kurze Lernkontrolle: Wahr oder falsch? 23.
Betrachten Sie die folgenden Abbildungen (vom gleichen Datensatz).
a) b) c) d) 24.
Wir betrachten nochmals den Datensatz aus Aufgabe 22. a) b)
3.4
Der empirische Median der Daten beträgt ungefähr 0. Die Daten sind symmetrisch verteilt. Anhand des Boxplots alleine können wir nicht sehen, ob es sich um mehr als 400 Beobachtungen handelt oder nicht. Das arithmetische Mittel ist kleiner als 0.
Der Wert der empirischen kumulativen Verteilungsfunktion Fn (x) an der Stelle x = 4 ist 0.95. Für x < 1 gilt Fn (x) = 0.
Mehrere Messgrößen
Oft misst man mehrere Größen gleichzeitig, z. B. die Größe und das Gewicht von verschiedenen Personen. Die Daten liegen in einem solchen Fall paarweise vor, d. h., wir haben n Datenpaare (x1 , y1 ), . . . , (xn , yn ), wobei xi und yi die Größe bzw. das Gewicht der i-ten Person sind, i = 1, . . . , n. Im Beispiel mit dem Geysir Old Faithul ist z. B. xi die Zeitspanne zum vorangehenden Ausbruch und yi die Eruptionsdauer der i-ten Eruption. Solche Daten können wir durch ein Streudiagramm visualisieren,
81 3.4 · Mehrere Messgrößen
. Abb. 3.4
Histogramm (links), Boxplot (Mitte) und empirische kumulative Verteilungsfunktion (rechts) von vier Datensätzen der Größe n = 100
3
82
Kapitel 3 · Deskriptive Statistik
3
. Abb. 3.5 Streudiagramm der Eruptionsdauer gegen die Zeitspanne zum vorangehenden Ausbruch des Geysirs Old Faithful (beides in Minuten). Als Hilfslinien sind die jeweiligen arithmetischen Mittel gestrichelt eingezeichnet
siehe . Abb. 3.5. Typischerweise interessiert man sich für Zusammenhänge (Abhängigkeiten) zwischen den beiden Größen xi und yi . In . Abb. 3.5 sehen wir, dass große Zeitspannen zwischen Ausbrüchen typischerweise zur Folge haben, dass die Eruptionsdauer lang wird. Die einfachste Form der Abhängigkeit ist die lineare Abhängigkeit. Diese wird numerisch durch die empirische Korrelation erfasst, welche auf der empirischen Kovarianz basiert. Definition: Empirische Kovarianz
Die empirische Kovarianz sxy zwischen xi und yi ist definiert als 1 (xi − x)(yi − y). n−1 n
sxy =
i=1
Die empirische Kovarianz ist z. B. dann sehr groß, wenn sich die xi und yi „gleich verhalten“, d. h., wenn ein überdurchschnittlich großes xi einhergeht mit einem überdurchschnittlich großen yi (und analog bei unterdurchschnittlich großen xi bzw. yi ). In . Abb. 3.5 bedeutet dies, dass die Beobachtungen im Quadranten oben rechts bzw. unten links liegen. Der Wert der empirischen Kovarianz kann uns also etwas über die Abhängigkeit zwischen den beiden Messgrößen aussagen. Der Nachteil besteht aber darin, dass die empirische Kovarianz von den Einheiten abhängt, in denen wir die einzelnen Größen messen (hier: Minuten). Daher normieren wir die empirische
83 3.4 · Mehrere Messgrößen
Kovarianz mit den Standardabweichungen der beiden Messgrößen und erhalten so die empirische Korrelation. Definition: Empirische Korrelation
Die empirische Korrelation rxy zwischen xi und yi ist definiert als rxy =
sxy , sx sy
wobei wir mit sx und sy die empirischen Standardabweichungen der xi bzw. yi bezeichnen. Eigenschaften der empirischen Korrelation
Die empirische Korrelation rxy ist eine dimensionslose Größe. Es gilt −1 ≤ rxy ≤ 1. Es ist |rxy | = 1 genau dann, wenn die Punkte exakt auf einer Geraden liegen. Genauer haben wir ¨ ein a ∈ R und ein b > 0, rxy = +1 genau dann, wenn yi = a + bxi fur ¨ ein a ∈ R und ein b < 0. rxy = −1 genau dann, wenn yi = a + bxi fur Allgemein gibt das Vorzeichen von rxy die Richtung und der Betrag von rxy die Stärke der linearen Abhängigkeit an.
Einige Beispiele findet man in . Abb. 3.6. Eine empirische Korrelation von 1 bedeutet, dass die Punkte exakt auf einer Geraden mit positiver Steigung liegen (siehe erster Teil der zweiten Zeile in . Abb. 3.6). Entsprechend bedeutet eine empirische Korrelation von −1, dass die Punkte exakt auf einer Geraden liegen mit negativer Steigung (zweiter Teil der zweiten Zeile). Eine empirische Korrelation von Null bedeutet, dass kein linearer Zusammenhang vorhanden ist. Es kann aber durchaus ein nichtlinearer Zusammenhang vorhanden sein (siehe z. B. die letzte Zeile in . Abb. 3.6). Bemerkung: Die Korrelation rxy wird auch Pearson-Korrelation genannt (nach Karl Pearson, 1857–1936, britischer Mathematiker). Daneben gibt es auch noch andere Varianten, z. B. die sogenannte Rangkorrelation, bei der man die Daten durch deren Ränge ersetzt und dann die Pearson-Korrelation berechnet. Die Rangkorrelation ist ein Maß für den monotonen Zusammenhang zwischen zwei Größen (d. h., man muss sich nicht mehr auf Linearität beschränken). ! Achtung Man sollte nie die Korrelation rxy einfach „blind“ aus den Daten berechnen, ohne auch das Streudiagramm betrachtet zu haben! Ganz verschiedene Strukturen können zum gleichen Wert von rxy führen, siehe . Abb. 3.7. Auch hier gilt wieder: Durch die Reduktion auf eine einzelne Kennzahl ist Information verloren gegangen.
3
84
Kapitel 3 · Deskriptive Statistik
3
. Abb. 3.6
Empirische Korrelation von 21 verschiedenen Datensätzen. Oberhalb jedes Streudiagramms ist die dazugehörige empirische Korrelation vermerkt. In der Mitte fehlt diese Angabe, weil für diesen Fall mit sy = 0 die Korrelation nicht definiert ist. Bildquelle: wikimedia.org. Lizenz: Public Domain
? Kurze Lernkontrolle: Wahr oder falsch? 25.
Betrachten Sie folgende Abbildungen von paarweise beobachteten Daten (xi , yi ), i = 1, . . . , 150.
a) b) c) d)
3.5
Nur schon aus den beiden Histogrammen können wir schließen, dass die empirische Korrelation zwischen xi und yi sehr groß sein muss. Die empirische Kovarianz zwischen xi und yi ist hier positiv. Die x-Beobachtung mit Rang 1 und die y-Beobachtung mit Rang 1 gehören zum gleichen Datenpaar (xi , yi ). Angenommen wir ersetzen die y-Werte durch yi = 0.7 · xi . Dann ist die empirische Korrelation zwischen x und y gleich 0.7.
Modell versus Daten
Wir haben jetzt also beide „Welten“ kennengelernt. Auf der einen Seite Modelle (Verteilungen), auf der anderen Seite konkret vorliegende Daten. Jetzt nehmen wir an, dass die Daten in der Tat (unabhängige) Realisierungen von Zufallsvariablen ei-
85 3.5 · Modell versus Daten
. Tab. 3.1 Unterschied zwischen Modell und Daten. Als Modell (links) wird eine Standardnormalverteilung verwendet. Der Datensatz (rechts) besteht aus n = 100 simulierten Werten dieser Verteilung Modell
Daten
Dichte
Histogramm
Kumulative Verteilungsfunktion
Empirische kumulative Verteilungsfunktion
Erwartungswert
Arithmetisches Mittel
E (X ) = 0
x=
n 1 xi = 0.17 n i=1
Varianz
Empirische Varianz
Var (X ) = E (X − E (X ))2 = 1
s2 =
n 1 (xi − x)2 = 0.72 n−1 i=1
Standardabweichung
Empirische Standardabweichung
σX = Var (X ) = 1
s=
Quantile
Empirische Quantile
qα , z. B. q0.6 = 0.25
qα , z. B. q0.6 = 0.36
√
0.72 = 0.85
3
86
Kapitel 3 · Deskriptive Statistik
3
. Abb. 3.7
Vier Datensätze, das sogenannte „Anscombe’s Quartet“ (Anscombe 1973), mit jeweils identischer empirischer Korrelation rxy = 0.82. Zusätzlich gilt für jeden Datensatz: x = 9, y = 7.5, sx = 3.32 und sy = 2.03
ner entsprechenden Verteilung sind und erstellen nochmals einen Überblick, wie die bisherigen Begriffe miteinander zusammenhängen. Die Kennzahlen und Funktionen (z. B. die Dichte) von Verteilungen sind theoretische Größen. Sie geben an, wie der datengenerierende Prozess „eingestellt“ ist. In . Tab. 3.1 sind die entsprechenden „empirischen Gegenstücke“ aufgelistet (vorerst nur für den eindimensionalen Fall; die Theorie für den zwei- oder mehrdimensionalen Fall betrachten wir im nächsten Kapitel). Wie können wir diesen Zusammenhang verstehen? Wenn wir (unendlich) viele Beobachtungen (Daten) von einer Verteilung haben, dann stimmen die empirischen Größen gerade mit den korrespondierenden theoretischen Größen überein. Diese Denkweise haben wir schon früher bei der Interpretation des Erwartungswertes als das arithmetische Mittel von unendlich vielen Wiederholungen kennengelernt (siehe 7 Abschn. 2.2.1). Andersherum können wir für einen konkreten („kleinen“) Datensatz die empirischen Größen auch als Schätzungen für die theoretischen Größen betrachten. Solche Schätzungen sind natürlich mit einem Fehler behaftet, siehe auch die konkreten Werte in . Tab. 3.1. Der Fehler nimmt mit der Anzahl der Beobachtungen n ab. Dies werden wir dann später in 7 Kap. 5 und in der schließenden Statistik in Teil II genauer untersuchen.
87 3.5 · Modell versus Daten
? Kurze Lernkontrolle: Wahr oder falsch? 26.
Wir betrachten nochmals den Datensatz in Aufgabe 22. Es ist x = 1.56 und s = 1.17. a)
Wenn die Daten von einer Exponentialverteilung generiert worden wären, dann müsste wegen der Eigenschaft E (X ) =
b)
1 = σX λ
automatisch auch x = s gelten. In der Tat handelt es sich um simulierte Werte einer bestimmten Verteilung. Betrachten Sie nun die folgende Aussage: Wenn wir nochmals nach dem gleichen Schema Werte generieren könnten, dann würden wir leicht andere Werte für x und s erhalten.
Verständnisfragen: Alles klar? 5 5 5 5 5
Welches sind die wichtigsten empirischen Kennzahlen? Was ist die Bedeutung der empirischen Kennzahlen und wie hängen diese mit den entsprechenden Kennzahlen einer Verteilung zusammen? Welches sind die wichtigsten grafischen Darstellungsmöglichkeiten? Wie interpretiert man die entsprechenden Grafiken und wie hängen diese mit den entsprechenden Eigenschaften einer Verteilung zusammen? Was ist die empirische Kovarianz bzw. Korrelation und welche Abhängigkeit wird damit charakterisiert?
3
89
Mehrdimensionale Verteilungen Inhaltsverzeichnis 4.1
Gemeinsame, Rand- und bedingte Verteilungen – 90
4.1.1 4.1.2
Diskreter Fall – 90 Stetiger Fall – 94
4.2
Erwartungswert bei mehreren Zufallsvariablen – 101
4.3
Kovarianz und Korrelation – 102
4.4
Zweidimensionale Normalverteilung – 106
4.5
Vergleich der Konzepte: Diskrete vs. stetige mehrdimensionale Verteilungen – 108
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 L. Meier, Wahrscheinlichkeitsrechnung und Statistik, https://doi.org/10.1007/978-3-662-61488-4_4
4
90
Kapitel 4 · Mehrdimensionale Verteilungen
n Begriffe, die Sie in diesem Kapitel kennenlernen werden 5 5 5 5 5 5
4
Gemeinsame Verteilung, gemeinsame Wahrscheinlichkeitsfunktion, gemeinsame Dichte Randverteilung, Randdichte Bedingte Verteilung, bedingte Dichte, bedingter Erwartungswert Kovarianz, Korrelation Zweidimensionale Normalverteilung Kovarianzmatrix
Wie wir in der deskriptiven Statistik schon kurz gesehen haben, misst man oft mehrere Größen gleichzeitig, z. B. den Wasserstand an zwei verschiedenen Positionen eines Flusses oder das Verkehrsaufkommen an verschiedenen Stellen einer Straße. Oft kann man nicht von Unabhängigkeit zwischen den Messgrößen ausgehen. Wenn an der einen Position der Wasserstand hoch ist, dann wird dies wohl mit großer Wahrscheinlichkeit auch an der anderen Position der Fall sein (bzw. umgekehrt). Um für eine solche Situation ein gutes Modell zu entwickeln, reicht es also nicht aus, dass wir die Wasserstände an den beiden Position „einzeln“ modellieren, sondern wir müssen auch das entsprechende „Zusammenspiel“ (oder die „Abhängigkeit“) in das Modell einbringen. Dies erreichen wir, indem wir die sogenannte gemeinsame Verteilung der Wasserstände der beiden Positionen modellieren.
Gemeinsame, Rand- und bedingte Verteilungen
4.1
Wie in 7 Kap. 2 betrachten wir zuerst den diskreten und danach den stetigen Fall. Der Hauptfokus liegt dabei auf dem stetigen Fall, weil wir diesen in den weiteren Kapiteln vermehrt brauchen werden. Wir betrachten zudem in diesem Kapitel nur so viele Aspekte, wie wir für die weiteren Kapitel benötigen werden. Sowohl im diskreten als auch im stetigen Fall gehen wir davon aus, dass wir nun einen Zufallsvektor (X , Y ) betrachten, wobei die beiden Komponenten X und Y Zufallsvariablen („wie bisher“) mit den entsprechenden Wertebereichen WX bzw. WY sind.
4.1.1
Diskreter Fall
Im diskreten Fall können wir alle Kombinationen von möglichen Werten von X mit möglichen Werten von Y „auflisten“. Dies gibt alle möglichen Werte für das Paar (X , Y ). Wenn wir deren Wahrscheinlichkeiten kennen, so kennen wir die sogenannte gemeinsame Verteilung von (X , Y ). Definition: Gemeinsame Verteilung bzw. Wahrscheinlichkeitsfunktion
Die gemeinsame Verteilung zweier diskreter Zufallsvariablen X mit Werten in WX und Y mit Werten in WY ist gegeben durch die gemeinsame Wahrscheinlichkeitsfunktion von X und Y , d. h. durch
91 4.1 · Gemeinsame, Rand- und bedingte Verteilungen
P(X = x, Y = y), x ∈ WX , y ∈ WY .
In der gemeinsamen Verteilung steckt sozusagen das „gesamte Wissen“ über das Verhalten von (X , Y ). Wahrscheinlichkeiten von Ereignissen können wir wie gewohnt berechnen, indem wir die Wahrscheinlichkeiten der günstigen Fälle aufsummieren. Insbesondere können wir aus dieser gemeinsamen Verteilung die Verteilung der einzelnen Komponenten X bzw. Y bestimmen. Man spricht von den sogenannten Randverteilungen. Definition: Randverteilung
In diesem gemeinsamen Zusammenhang nennt man die „einzelnen“ Verteilungen P(X = x) von X und P(Y = y) von Y die Randverteilungen des Zufallsvektors (X , Y ). Die Randverteilungen lassen sich aus der gemeinsamen Verteilung berechnen durch P(X = x) =
P(X = x, Y = y), x ∈ WX
y∈WY
und analog für Y . Dies ist nichts anderes als der Satz der totalen Wahrscheinlichkeit.
Aus den Randverteilungen auf die gemeinsame Verteilung zu schließen geht aber nur im Falle der Unabhängigkeit von X und Y , denn dann gilt wie in 7 Abschn. 2.1 P(X = x, Y = y) = P(X = x)P(Y = y), x ∈ WX , y ∈ WY . In diesem Fall ist die gemeinsame Verteilung durch die Randverteilungen vollständig bestimmt und man erhält sie einfach durch Multiplikation. Man braucht sozusagen keine Information über das „Zusammenspiel“ der beiden Zufallsvariablen. Wenn wir den Wert der einen Zufallsvariable bereits kennen, dann bezeichnet man die Verteilung der anderen Zufallsvariable als sogenannte bedingte Verteilung. Diese ist gegeben durch die entsprechenden bedingten Wahrscheinlichkeiten, welche wie in 7 Abschn. 1.4 berechnet werden. Definition: Bedingte Verteilung
Die bedingte Verteilung von Y gegeben X = x ist P(Y = y|X = x) =
P(X = x, Y = y) , y ∈ WY . P(X = x)
Die Rollen von X und Y können wir natürlich auch vertauschen.
Unabhängigkeit von X und Y bedeutet dann P(Y = y|X = x) = P(Y = y)
4
92
Kapitel 4 · Mehrdimensionale Verteilungen
bzw. P(X = x|Y = y) = P(X = x) für alle x ∈ WX , y ∈ WY . Ferner lässt sich die Randverteilung von Y generell schreiben als P(Y = y) =
4
P(X = x, Y = y)
x∈WX
=
P(Y = y|X = x) P(X = x), y ∈ WY .
x∈WX
Diese Form kommt immer dann zum Einsatz, wenn man die Verteilung von Y berechnen will, aber nur dessen bedingte Verteilung gegeben X und die Randverteilung von X kennt (bzw. umgekehrt). Wie jede Verteilung hat die bedingte Verteilung Kennzahlen. Den Erwartungswert bezeichnen wir in diesem Fall als sogenannten bedingten Erwartungswert. Definition: Bedingter Erwartungswert
Der bedingte Erwartungswert von Y gegeben X = x ist E(Y |X = x) =
y P(Y = y|X = x).
y∈WY
Dies ist nichts anderes als die „normale“ Formel des Erwartungswerts für eine diskrete Zufallsvariable, jetzt aber bezüglich der bedingten Wahrscheinlichkeiten.
Neben den neuen Begriffen haben wir soweit eigentlich alles schon einmal in leicht anderer Form gesehen, siehe bedingte Wahrscheinlichkeiten in 7 Abschn. 1.4. Beispiel: Pollenbelastung bei zwei Wetterstationen
Zwei Wetterstationen X und Y messen die Pollenbelastung auf einer Skala von 1 bis 4. Die Wahrscheinlichkeiten für alle Kombinationen befinden sich in . Tab. 4.1. So ist z. B. P(X = 2, Y = 3) = 0.05. . Die Randverteilung von X befindet sich in der letzten Spalte. Es sind dies einfach die zeilenweise aufsummierten Wahrscheinlichkeiten. Entsprechend findet man die Randverteilung von Y in der letzten Zeile. Die bedingte Verteilung von Y gegeben X = 1 ist gegeben durch die Wahrscheinlichkeiten
y P(Y = y|X = 1)
1 0.8
2 0.15
3 0.03
4 0.02
93 4.1 · Gemeinsame, Rand- und bedingte Verteilungen
Dies ist die erste Zeile aus . Tab. 4.1 dividiert durch P(X = 1) = 0.1. Wenn die beiden Zufallsvariablen unabhängig wären, dann müsste dies gleich der Randverteilung von Y sein (letzte Zeile). Das ist hier nicht der Fall, also liegt keine Unabhängigkeit vor. Wir können z. B. auch die Wahrscheinlichkeit berechnen, dass beide Stationen den gleichen Wert messen. Es ist dies die Summe der Wahrscheinlichkeiten auf der Diagonalen, d. h. P(X = Y ) =
4
P(X = j, Y = j) = 0.08 + 0.35 + 0.18 + 0.09 = 0.7.
j=1
. Tab. 4.1 Gemeinsame diskrete Verteilung der Pollenbelastung (X , Y ) bei zwei Wetterstationen. In der letzten Zeile bzw. Spalte befinden sich die aufsummierten Wahrscheinlichkeiten, d. h. die beiden Randverteilungen X \Y
1
2
3
4
Summe
1
0.080
0.015
0.003
0.002
0.1
2
0.050
0.350
0.050
0.050
0.5
3
0.030
0.060
0.180
0.030
0.3
4
0.001
0.002
0.007
0.090
0.1
Summe
0.161
0.427
0.240
0.172
1
Intuition zu den verschiedenen Verteilungsaspekten Anhand der Wahrscheinlichkeiten in . Tab. 4.1 schauen wir uns nochmals an, was die verschiedenen Verteilungen bedeuten. Die gemeinsame Verteilung ist gegeben durch die vollständige Information, im konkreten Fall wäre das die ganze Tabelle. Die Randverteilungen erhalten wir, wenn wir jeweils nur eine der beiden Komponenten des Zufallsvektors betrachten. Dies kann man sich so vorstellen, dass man zwar den Zufallsvektor (X , Y ) „würfelt“, aber nur eine der Komponenten aufschreibt. Die entsprechenden Wahrscheinlichkeiten sind gegeben durch die Spalten- bzw. Zeilensummen der Tabelle (man „summiert“ die unerwünschte Komponente einfach „weg“). Allein aus dieser Information können wir die ganze Tabelle also nicht rekonstruieren, es sei denn, die Komponenten wären unabhängig voneinander. Die Wahrscheinlichkeiten der bedingten Verteilung erhalten wir, wenn wir eine Zeile oder Spalte der Tabelle fixieren und diese so umskalieren, dass die Summe der Wahrscheinlichkeiten 1 ergibt. Unabhängigkeit würde also bedeuten, dass Wahrscheinlichkeiten in verschiedenen Zeilen (oder Spalten) bis auf einen Umskalierungsfaktor identisch wären, da dies jeweils zu den gleichen bedingten Wahrscheinlichkeiten führen würde.
4
94
Kapitel 4 · Mehrdimensionale Verteilungen
Stetiger Fall
4.1.2
Bei zwei oder mehreren stetigen Zufallsvariablen muss man das Konzept der Wahrscheinlichkeitsdichte auf mehrere Dimensionen erweitern. Man spricht dann von der sogenannten gemeinsamen Dichte. Diese erfüllt die „gleichen“ Eigenschaften wie im eindimensionalen Fall. 4.1.2.1
4
Gemeinsame Dichte
Definition: Gemeinsame Dichte
Die gemeinsame Dichte von (X , Y ) ist eine Funktion fX ,Y : R2 → R, wobei ¨ alle x, y ∈ R fX ,Y (x, y) ≥ 0 fur und ∞ ∞ −∞
−∞
fX ,Y (x, y) dx
dy = 1
gelten muss (die Integrationsreihenfolge kann man auch umkehren). Die Wahrscheinlichkeit, dass der Zufallsvektor (X , Y ) in A ⊆ R2 liegt, kann man dann wie im eindimensionalen Fall durch Integration der Dichte über den entsprechenden Bereich berechnen, d. h. fX ,Y (x, y) dx dy. P((X , Y ) ∈ A) = A
Die Interpretation der Dichte ist also wie in 7 Abschn. 2.3. Die Integrale sind jetzt Volumen statt Flächen. Die Darstellung als Ableitung einer geeigneten kumulativen Verteilungsfunktion ist nicht sehr instruktiv.
Ferner sind X und Y genau dann unabhängig, wenn (ohne Herleitung) fX ,Y (x, y) = fX (x)fY (y), x, y ∈ R,
(4.1)
wobei fX bzw. fY die Dichten von X bzw. Y für sich alleine betrachtet sind (die sogenannten Randdichten, siehe unten). In diesem Fall genügt also das Konzept von eindimensionalen Dichten. Die gemeinsame Dichte kann dann sehr einfach mittels Multiplikation berechnet werden. Beispiel: Lebensdauer von zwei Maschinen
Wir betrachten zwei Maschinen mit exponentialverteilten Lebensdauern X ∼ Exp (λ1 ) und Y ∼ Exp (λ2 ), wobei X und Y unabhängig seien. Wie groß ist die Wahrscheinlichkeit, dass Maschine 1 länger läuft als Maschine 2? Die gemeinsame Dichte ist hier wegen der Unabhängigkeit gegeben durch
95 4.1 · Gemeinsame, Rand- und bedingte Verteilungen
fX ,Y (x, y) = λ1 e−λ1 x λ2 e−λ2 y für x, y ≥ 0 (sonst ist die Dichte 0). Gemäß Fragestellung müssen wir das Gebiet A = {(x, y) : 0 ≤ y < x} betrachten. Es sind dies alle Punkte unterhalb der Winkelhalbierenden, siehe . Abb. 4.1. Also haben wir ∞ x fX ,Y (x, y) dx dy = λ1 e−λ1 x λ2 e−λ2 y dy dx P(Y < X ) = A
∞
0
0
λ1 e−λ1 x 1 − e−λ2 x dx ∞ ∞ = λ1 e−λ1 x dx − λ1 e−(λ1 +λ2 )x dx =
0 0
0
λ1 λ2 =1− = . λ1 + λ2 λ1 + λ2 Das erste Integral in der vorletzten Gleichung ist 1, weil wir über die Dichte der Exp (λ1 )Verteilung integrieren.
4.1.2.2
Randdichte und bedingte Dichte
Wie im diskreten Fall bezeichnen wir mit der Randverteilung die Verteilung der einzelnen Komponenten. Wir tun also wieder so, als ob wir nur eine Komponente X bzw. Y „sehen würden“ (bzw. nur an einer der Komponenten interessiert sind). Wir ermitteln nun die kumulative Verteilungsfunktion von X und versuchen daher P(X ≤ x∗ ) zu berechnen (wir verwenden hier x∗ , weil x schon anderweitig verwendet wird). Der Trick besteht darin, Y ins Spiel zu bringen. Es ist P(X ≤ x∗ ) = P(X ≤ x∗ , −∞ < Y < ∞) (in Worten: „X kleiner gleich x∗ und Y liegt irgendwo“). Daher haben wir
. Abb. 4.1
Integrationsbereich im Beispiel mit zwei Lebensdauern
4
96
Kapitel 4 · Mehrdimensionale Verteilungen
P(X ≤ x∗ ) = P(X ≤ x∗ , −∞ < Y < ∞) x∗ ∞ = fX ,Y (x, y) dy dx. −∞
−∞
Den Ausdruck in Klammern in der letzten Gleichung können wir als Funktion in x interpretieren. Dies führt zur folgenden Form der sogenannten Randdichte. Definition: Randdichte
4
Aus der gemeinsamen Dichte erhält man die Randdichte von X bzw. Y durch „Herausintegrieren“ der anderen Komponente, d. h. fX (x) =
∞ −∞
fX ,Y (x, y) dy
fY (y) =
∞ −∞
fX ,Y (x, y) dx.
Dies ist wie im diskreten Fall; dort haben wir einfach mit Hilfe des Satzes der totalen Wahrscheinlichkeiten summiert statt integriert.
Auch im stetigen Fall können wir bedingte Verteilungen betrachten. Im diskreten Fall hatten wir diese durch Fixieren einer Zeile oder Spalte und entsprechendes Umskalieren der Wahrscheinlichkeiten erhalten. Entsprechend geht man im stetigen Fall vor, um die sogenannte bedingte Dichte zu erhalten. Definition: Bedingte Dichte
Für die bedingte Verteilung von Y gegeben X = x wird die bedingte Dichte benutzt. Wir schreiben fY |X =x (y), wobei fY |X =x (y) =
fX ,Y (x, y) . fX (x)
Dies ist ein Quer- bzw. Längsschnitt der gemeinsamen Dichte. Wir halten x fest und variieren nur noch y. Der Nenner sorgt dafür, dass sich die Dichte zu 1 integriert. Im diskreten Fall haben wir einfach die entsprechende Zeile oder Spalte in der Tabelle festgehalten und umskaliert, sodass die Summe 1 ergab.
Aus der Definition der bedingten Dichte folgt, dass X und Y genau dann unabhängig sind, wenn für alle x, y gilt, dass fY |X =x (y) = fY (y) bzw. fX |Y =y (x) = fX (x). Das bedeutet also wie in 7 Abschn. 1.4, dass im Falle von Unabhängigkeit das Wissen von X keinen Einfluss auf die Verteilung von Y hat (bzw. umgekehrt).
97 4.1 · Gemeinsame, Rand- und bedingte Verteilungen
Beispiel: Auslastung von zwei Komponenten
Wir bezeichnen mit dem Zufallsvektor (X , Y ) die Auslastungen auf der Skala von 0 (schwach) bis 1 (stark) von zwei technischen Komponenten. Die gemeinsame Wahrscheinlichkeitsdichte sei 1 + x − y − 2x2 + 4x2 y 0 ≤ x ≤ 1, 0 ≤ y ≤ 1 fX ,Y (x, y) = 0 sonst. Diese Funktion ist in . Abb. 4.2 dargestellt. Zu Illustrationszwecken berechnen wir die Randdichte von X und die bedingte Dichte von Y gegeben X = 0.8. Für einen Wert 0 ≤ x ≤ 1 berechnet sich der Wert der Randdichte fX (x) von X als fX (x) =
∞ −∞
fX ,Y (x, y) dy =
=1+x−
1 0
1 0
1 + x − y − 2x2 + 4x2 y dy
y dy − 2x2 + 4x2
1 0
y dy = 1 + x −
1 1 − 2x2 + 4x2 · 2 2
1 = + x. 2 Für alle anderen Werte von x ist die Wahrscheinlichkeitsdichte 0. Die Randdichte von X ist also linear auf dem Intervall 0 ≤ x ≤ 1. Es treten eher Werte bei 1 als bei 0 auf. Die bedingte Dichte von Y gegeben X = 0.8 ist hier fY |X =0.8 (y) =
fX ,Y (0.8, y) 1 + 0.8 − y − 2 · 0.82 + 4 · 0.82 · y = 1 + 0.8 fX (0.8) 2
= 0.4 + 1.2y, 0 ≤ y ≤ 1. Die bedingte Dichte ist also auch eine lineare Funktion. In . Abb. 4.2 können wir erahnen, dass dies auch für alle anderen Werte von X gelten muss, aber mit jeweils anderer Steigung und anderem Achsenabschnitt. Wenn wir uns von X = 1 in Richtung X = 0 bewegen, dann wird diese Gerade von einer positiven Steigung zu einer negativen Steigung „gedreht“. Insbesondere sind X und Y nicht unabhängig. Wenn wir wissen, dass X nahe bei 1 liegt, dann erwarten wir auch eher große Werte von Y . Entsprechend erwarten wir kleine Werte von Y , wenn wir wissen, dass X nahe bei 0 liegt.
Wie im diskreten Fall können wir den Erwartungswert der bedingten Verteilung ermitteln.
4
98
Kapitel 4 · Mehrdimensionale Verteilungen
4
. Abb. 4.2 Illustration der zweidimensionalen Dichte fX ,Y (x, y) = 1 + x − y − 2x2 + 4x2 y auf {(x, y) | 0 ≤ x ≤ 1, 0 ≤ y ≤ 1}
Definition: Bedingter Erwartungswert
Der bedingte Erwartungswert von Y gegeben X = x ist im stetigen Fall E(Y |X = x) =
∞ −∞
yfY |X =x (y) dy.
Die Berechnung ist also wieder wie beim „normalen“ Erwartungswert, man verwendet einfach die entsprechende bedingte Dichte.
Beispiel: Auslastung von zwei Komponenten (Fortsetzung)
Im vorangehenden Beispiel haben wir E(Y |X = 0.8) =
∞ −∞
yfY |X =0.8 (y) dy =
1 0
y(0.4 + 1.2y) dy = 0.2 + 0.4 = 0.6.
Wenn wir also wissen, dass X = 0.8 gilt, dann erwarten wir für Y im Schnitt den Wert 0.6.
99 4.1 · Gemeinsame, Rand- und bedingte Verteilungen
Zerlegung der gemeinsamen Dichte
Die gemeinsame Dichte können wir immer schreiben als fX ,Y (x, y) = fY |X =x (y)fX (x) = fX |Y =y (x)fY (y). Dies ist insbesondere dann nützlich, wenn man ein Modell „stufenweise“ definiert, indem man zuerst die Randverteilung und dann die entsprechende bedingte Verteilung angibt.
Beispiel: Auslastung von zwei Komponenten (Fortsetzung)
Das vorhergehende Beispiel hätte auch anders motiviert werden können. Wir können zuerst die Verteilung von X als entsprechende Randdichte aufschreiben, d. h. fX (x) =
1 2 +x
0
0≤x≤1 sonst.
Wir glauben also daran, dass X eher in der Region um 1 als um 0 liegt. Für jeden Wert x soll eine andere (bedingte) Dichte von Y resultieren. Das sind sozusagen die „drehenden Geraden“, welche die Abhängigkeitsstruktur zwischen X und Y beschreiben. Hier schreiben wir dies hin als folgende bedingte Dichte fY |X =x (y) =
2(1 − x) + 2(2x − 1)y 0
0≤y≤1 sonst.
Es handelt sich dabei um Geraden mit Achsenabschnitt 2(1 − x) und Steigung 2(2x − 1). Für x = 0 haben wir die Gerade 2 − 2y, für den anderen „Extremfall“ x = 1 ist dies die Gerade 2y. Dazwischen gibt es einen Übergang. So ist z. B. für x = 0.5 die Steigung 0, dann ist die bedingte Verteilung gerade die Uni (0, 1)-Verteilung. Daraus folgt dann die gemeinsame Wahrscheinlichkeitsdichte durch Multiplikation fX ,Y (x, y) = fY |X =x (y)fX (x) =
1 + x − y − 2x2 + 4x2 y 0
0 ≤ x ≤ 1, 0 ≤ y ≤ 1 sonst.
In der Praxis ist es oft naheliegend, ein Modell stufenweise oder „Schritt für Schritt“ (d. h. zuerst die Randverteilung und dann die bedingte Verteilung) zu definieren als direkt zu versuchen, die gemeinsame Wahrscheinlichkeitsdichte aufzuschreiben.
4
100
Kapitel 4 · Mehrdimensionale Verteilungen
Intuition zu mehrdimensionalen stetigen Verteilungen
4
Wenn wir die gemeinsame Dichte von zwei stetigen Zufallsvariablen kennen, können wir damit alles berechnen, seien dies Wahrscheinlichkeiten, Randverteilungen oder bedingte Verteilungen. Wenn wir jeden normierten Längs- (oder Querschnitt) der gemeinsamen Dichte (d. h. die bedingte Dichte) und die entsprechende Gewichtung (d. h. die entsprechende Randdichte) kennen, so können wir damit die gemeinsame Dichte ermitteln gemäß obiger Zerlegung als Produkt dieser Terme. Wenn wir nur die Randverteilungen kennen, so reicht dies in der Regel nicht, um die gemeinsame Verteilung zu bestimmen, weil die Abhängigkeitsstruktur fehlt. Eine Ausnahme ist der Fall von zwei unabhängigen Zufallsvariablen.
? Kurze Lernkontrolle: Wahr oder falsch? 27.
Beurteilen Sie folgende Aussagen zu den beiden stetigen Zufallsvariablen X und Y mit gemeinsamer Dichte fX ,Y und den entsprechenden Randdichten fX und fY .
∞ x+3 a) Es gilt P(|X − Y | ≤ 3) = fX ,Y (x, y) dy dx. −∞
b) c) d) 28.
x−3
Es ist immer möglich, aus den Randverteilungen die gemeinsame Verteilung zu ermitteln. Für die Randdichte fX gilt immer fX (x) = fX ,Y (x, 0). Wenn fX ,Y (10, y) = 0 ist für alle y, dann gilt fX (10) = 0.
Im linken Plot sehen Sie Höhenlinien einer zweidimensionalen Dichte fX ,Y auf R2 , im rechten Plot eine daraus abgeleitete bedingte Dichte fX |Y =y .
a) b) c) d)
Die bedingte Dichte fX |Y =y im rechten Plot ist für einen Wert y < 21 gezeichnet. Es gilt hier E(Y |X = 0.2) < E(Y |X = 0.8). Hier gilt, dass X und Y unabhängig sind. ∞ Allgemein gilt fX (x) = fX |Y =y (x) dy. −∞
101 4.2 · Erwartungswert bei mehreren Zufallsvariablen
4.2
Erwartungswert bei mehreren Zufallsvariablen
Oft konstruieren wir aus den zwei Zufallsvariablen X und Y eine neue Zufallsvariable, z. B. indem wir die Zufallsvariablen addieren oder miteinander multiplizieren. Hier schauen wir uns an, wie man den Erwartungswert einer solchen Zufallsvariable ermittelt. Der Erwartungswert einer transformierten Zufallsvariable Z = g(X , Y ), wobei g : R2 → R eine (bekannte) Funktion ist, wird berechnet als E(g(X , Y )) =
∞
∞
−∞ −∞
g(x, y)fX ,Y (x, y) dx dy.
Im diskreten Fall lautet die entsprechende Formel E(g(X , Y )) =
g(x, y)P(X = x, Y = y).
x∈WX y∈WY
Wir schauen uns nun zwei Spezialfälle an: Die Linearkombination und das Produkt von zwei Zufallsvariablen. Wir betrachten dabei nur den stetigen Fall; die entsprechenden Regeln gelten aber auch für den diskreten Fall. Die Rechenregel für den Erwartungswert von a + bX + cY kennen wir eigentlich schon aus 7 Abschn. 2.2.1: Es gilt E(a + bX + cY ) = a + b · E(X ) + c · E(Y ). Jetzt leiten wir dies aber her. Für eine Linearkombination a + bX + cY haben wir gemäß obiger Formel E(a + bX + cY ) =
∞
∞
(a + bx + cy)fX ,Y (x, y) dx dy ∞ ∞ f (x, y) dx dy + b x f (x, y) dy dx =a X ,Y X ,Y −∞ −∞ −∞ −∞ ∞ ∞ y fX ,Y (x, y) dx dy +c −∞ −∞ ∞ ∞ xfX (x) dx + c yfY (y) dy =a+b −∞ −∞ ∞ ∞
−∞
−∞
= a + b · E(X ) + c · E(Y ), a, b, c ∈ R.
Diese Regel gilt immer, egal ob die Zufallsvariablen unabhängig sind oder nicht. Wenn man mehr als zwei Zufallsvariablen betrachtet, geht alles analog, d. h. E a0 +
n i=1
ai Xi
= a0 +
n
ai E(Xi ),
i=1
wobei a0 , a1 , . . . , an ∈ R. Jetzt schauen wir uns das Produkt an. Wenn wir annehmen, dass X und Y unabhängig sind, dann gilt wegen fX ,Y (x, y) = fX (x)fY (y), dass
4
102
Kapitel 4 · Mehrdimensionale Verteilungen
E(XY ) =
∞
∞
∞
xyfX ,Y (x, y) dx dy = −∞ −∞ −∞ ∞ ∞ = xfX (x) dx yfY (y) dy −∞
∞ −∞
xyfX (x)fY (y) dx dy
−∞
= E(X )E(Y ). Im Falle von Unabhängigkeit zerfällt also der Erwartungswert des Produkts XY in das Produkt der Erwartungswerte, d. h.
4
E(XY ) = E(X )E(Y ).
4.3
(4.2)
Kovarianz und Korrelation
Da die gemeinsame Verteilung von abhängigen Zufallsvariablen im Allgemeinen kompliziert ist, begnügt man sich oft mit einer vereinfachenden Kennzahl zur Beschreibung der Abhängigkeit. Man verwendet hierzu die Kovarianz bzw. die Korrelation zwischen X und Y . Die empirischen Versionen davon haben wir schon in 7 Abschn. 3.4 kennengelernt. Für die Kennzahlen eines Modells ersetzen wir einfach die entsprechenden Mittelwerte durch Erwartungswerte. Definition: Kovarianz zwischen zwei Zufallsvariablen
Für die Kovarianz zwischen X und Y schreiben wir Cov (X , Y ). Sie ist definiert als Cov (X , Y ) = E((X − μX )(Y − μY )) = E(XY ) − E(X )E(Y ),
(4.3)
wobei μX = E(X ) und μY = E(Y ).
Gl. (4.3) in obiger Definition folgt durch Ausmultiplizieren und Anwendung der Rechenregeln für den Erwartungswert, d. h. E((X − μX )(Y − μY )) = E(XY − μX Y − μY X + μX μY ) = E(XY ) − μX E(Y ) − μY E(X ) + μX μY = E(XY ) − μX μY . Rechenregeln für die Kovarianz
Aus der Definition der Kovarianz folgt, dass die Kovarianz einer Zufallsvariable „mit sich selber“ gerade die Varianz ist, d. h. Var (X ) = Cov (X , X ) . Ferner ist die Kovarianz symmetrisch, d. h.
103 4.3 · Kovarianz und Korrelation
Cov (X , Y ) = Cov (Y , X ) , und es gilt Cov (a + bX , c + dY ) = bd Cov (X , Y ) , a, b, c, d ∈ R, d. h., „Verschiebungen“ um konstante Werte a, c ∈ R haben keinen Einfluss auf die Kovarianz, sehr wohl aber Umskalierungen mit den Faktoren b, d ∈ R. Die Kovarianz ist zudem bilinear, d. h. ⎛ Cov ⎝
n i=1
ai Xi ,
m
⎞ bj Yj ⎠ =
j=1
m n
ai bj Cov Xi , Yj , ai , bj ∈ R.
i=1 j=1
Wir können die Kovarianz also „normal ausmultiplizieren“.
Die Interpretation der Kovarianz ist wie bei der empirischen Kovarianz, siehe 7 Abschn. 3.4. Die Kovarianz ist also z. B. dann groß, wenn ein überdurchschnittlich großes X typischerweise einhergeht mit einem überdurchschnittlich großen Y . Die Kovarianz charakterisiert also eine bestimmte Abhängigkeit zwischen X und Y , hängt aber leider von den Maßeinheiten ab. Auf der Kovarianz aufbauend definieren wir daher die Korrelation zwischen zwei Zufallsvariablen. Definition: Korrelation zwischen zwei Zufallsvariablen
Für die Korrelation zwischen X und Y schreiben wir Corr (X , Y ) oder ρXY , wobei Corr (X , Y ) = ρXY =
Cov (X , Y ) . σX σY
Die Korrelation ist nichts anderes als eine standardisierte Version der Kovarianz. Im Gegensatz zur Kovarianz ist die Korrelation eine dimensionslose Größe. Eigenschaften der Korrelation
Es gilt immer (ohne Herleitung) −1 ≤ Corr (X , Y ) ≤ 1. Die Korrelation ist ein Maßfür Stärke und Richtung der linearen Abhängigkeit zwischen X und Y . Es gilt ¨ ein a ∈ R und ein b > 0. Corr (X , Y ) = +1 genau dann, wenn Y = a + bX fur ¨ ein a ∈ R und ein b < 0. Corr (X , Y ) = −1 genau dann, wenn Y = a + bX fur
4
104
Kapitel 4 · Mehrdimensionale Verteilungen
4
. Abb. 4.3
Höhenlinien von zweidimensionalen Dichten für verschiedene Werte von ρXY . In der Tat handelt es sich hier um zweidimensionale Normalverteilungen, siehe 7 Abschn. 4.4
Falls also | Corr (X , Y ) | = 1, so hat man einen perfekten linearen Zusammenhang zwischen X und Y . Falls Corr (X , Y ) = 0 gilt, sagt man, dass X und Y unkorreliert sind. Es gibt dann keinen linearen Zusammenhang (es kann aber durchaus ein nichtlinearer Zusammenhang vorhanden sein).
In . Abb. 4.3 sind die Höhenlinien von zweidimensionalen Dichten für verschiedene Werte von ρXY dargestellt. Wenn die Dichte immer konzentrierter „um eine Gerade herum“ liegt, ist die Korrelation ρXY betragsmäßig groß. Wenn X und Y unabhängig sind, dann ist wegen (4.2) und (4.3) Cov (X , Y ) = 0 und damit auch Corr (X , Y ) = 0. Aus Unabhängigkeit folgt also Unkorreliertheit. Das macht auch intuitiv Sinn, denn „kein Zusammenhang“ impliziert „kein linearer Zusammenhang“. ! Achtung Umgekehrt folgt aus Unkorreliertheit im Allgemeinen nicht Unabhängigkeit. Wenn kein linearer Zusammenhang vorhanden ist, bedeutet dies ja nicht automatisch, dass es nicht eine andere Form des Zusammenhangs geben kann. Dieser Sachverhalt ist auch in . Abb. 4.4 dargestellt.
105 4.3 · Kovarianz und Korrelation
. Abb. 4.4 Zusammenhang zwischen Unkorreliertheit und Unabhängigkeit illustriert mit einem Venn-Diagramm. Wenn zwei Zufallsvariablen unabhängig sind, dann sind sie automatisch auch unkorreliert. Umgekehrt gibt es aber Zufallsvariablen, die unkorreliert, aber nicht unabhängig sind
Ein Spezialfall, bei dem die umgekehrte Schlussfolgerung tatsächlich gilt, schauen wir in 7 Abschn. 4.4 an. Rechenregeln für die Korrelation
Für die Korrelation gilt Corr (a + bX , c + dY ) = sign(b) sign(d) Corr (X , Y ) , wobei sign(·) die Vorzeichenfunktion ist. Verschiebungen und Umskalierungen spielen also keine Rolle, es sei denn, die „Richtung“ des Zusammenhangs wird umgekehrt infolge eines negativen Faktors.
Die Abhängigkeit zwischen zwei Zufallsvariablen spielt z. B. dann eine Rolle, wenn wir die Varianz ihrer Summe berechnen wollen. Wenn die beiden Zufallsvariablen tendenziell beide jeweils gleichzeitig groß (bzw. klein) sind, dann streut die Summe viel stärker als wenn sie sich z. B. tendenziell gegenseitig gerade wieder aufheben. Rechenregeln: Varianz der Summe von Zufallsvariablen
Für die Varianz der Summe der Zufallsvariablen X und Y erhalten wir Var (X + Y ) = Cov (X + Y , X + Y ) = Cov (X , X ) + Cov (X , Y ) + Cov (Y , X ) + Cov (Y , Y ) = Var (X ) + Var (Y ) + 2 Cov (X , Y ) . Für n Zufallsvariablen X1 , . . . , Xn gilt entsprechend
4
106
Kapitel 4 · Mehrdimensionale Verteilungen
⎛ ⎞ ⎛ ⎞ n n n n n Var ⎝ Xi ⎠ = Cov ⎝ Xi , Xj ⎠ = Cov Xi , Xj i=1
i=1
=
n
j=1
Cov (Xi , Xi ) +
i=1
4
=
n i=1
i=1 j=1 n
Cov Xi , Xj
i,j=1 i =j
Var (Xi ) + 2
n
Cov Xi , Xj .
i 0 eine negative Schätzung θ < 0 erhält. Dies ist insbesondere auch ein Hinweis dafür, dass das gewählte Modell nicht gut zu den Daten passt. ? Kurze Lernkontrolle: Wahr oder falsch? 34.
Beurteilen Sie folgende Aussagen. a)
b) c) d)
e)
6.3.2
Bei der Momentenmethode gilt immer, dass der Erwartungswert der (geschätzten) Verteilung dem arithmetischen Mittel der Beobachtungen entspricht. Wenn wir simulierte Daten von einer Pois (2)-Verteilung haben, dann wissen wir schon im Voraus, dass der Momentenschätzer λ = 2 liefert. Stichproben mit denselben ersten beiden empirischen Momenten werden identische Momentenschätzer liefern im Falle der Normalverteilung. Falls für eine Zufallsvariable X mit Modellparameter θ gilt, dass E (X ) = θ/4, so ist der Schätzer nach der Momentenmethode gegeben durch θ = 4x, wobei x das arithmetische Mittel der Stichprobe ist. Selbst wenn wir die richtige Verteilungsfamilie gewählt haben, entspricht das Modell mit den geschätzten Parametern (in der Regel) nicht dem wahren Modell.
Maximum-Likelihood-Methode
Die Idee der Maximum-Likelihood-Methode besteht darin, die Parameter so zu schätzen, dass das beobachtete Ereignis (unsere Daten) unter dem geschätzten Modell möglichst „plausibel“ erscheinen. Oder andersherum: Wären Sie von Ihrer Wahl der Parameter überzeugt, wenn jemand anderes eine Alternative vorschlägt, unter der die Daten wahrscheinlicher (und damit plausibler) sind? 6.3.2.1
Diskreter Fall
Wir betrachten zuerst eine diskrete Zufallsvariable X . Um die Abhängigkeit vom unbekannten Parameter θ zu betonen, bezeichnen wir die Wahrscheinlichkeitsfunktion p(x) von X mit p(x | θ ). Dies ist reine Notation und hat hier nicht die Bedeutung einer bedingten Wahrscheinlichkeit. Unsere Daten x1 , . . . , xn fassen wir wie gewohnt als i.i.d. Realisierungen von X auf. Definition: Likelihood-Funktion
Wir gehen jetzt sozusagen alle Werte für den Parameter θ durch und schauen, wie groß dabei die Wahrscheinlichkeit ist, dass das Ereignis {X1 = x1 , . . . , Xn = xn } („genau die beobachteten Daten“) eintritt. Notationell bezeichnen wir dies mit L(θ ), wobei die Funktion L(θ ) als sogenannte Likelihood-Funktion (zur gegebenen Stichprobe x1 , . . . , xn ) bezeichnet wird. Das Wort Likelihood kann man mit Wahrscheinlichkeit oder „Mutmaßlichkeit“ übersetzen. Die Likelihood-Funktion hat also als Argument einen Parameterwert und gibt uns als Funktionswert an, wie wahrscheinlich die beobachteten Daten unter diesem Parameterwert sind, d. h.
6
138
Kapitel 6 · Parameterschätzungen
L : „Parameterwert“ −→ „W’keit der beob. Daten, falls Parameterwert gilt“ Wegen der Unabhängigkeit haben wir L(θ ) =
n
p(xi | θ ) = p(x1 | θ ) · · · p(xn | θ).
i=1
Basierend auf der Likelihood-Funktion ermitteln wir nun den sogenannten Maximum-Likelihood-Schätzer.
6
Definition: Maximum-Likelihood-Schätzer
Die Maximum-Likelihood-Methode besteht nun darin, denjenigen Parameterwert θ zu finden, für den die Wahrscheinlichkeit, dass die gegebene Stichprobe x1 , . . . , xn eintritt, am größten ist. Oder anders ausgedrückt: Wir möchten θ so wählen, dass die Likelihood L(θ ) maximal wird. Daher der Name „Maximum-Likelihood-Methode“. Formell können wir dies hinschreiben als θ = arg max L(θ ). θ
Ein so ermitteltes θ bezeichnen wir als Maximum-Likelihood-Schätzer.
Intuition zur Maximum-Likelihood-Methode Wir „schrauben“ bei der Maximum-Likelihood-Methode nur am Parameter θ „herum“, um einen Wert zu finden, sodass die Daten x1 , . . . , xn unter dem entsprechenden Modell möglichst plausibel erscheinen. Die beobachteten Daten x1 , . . . , xn ändern sich dabei natürlich nicht mehr. Wenn diese einmal beobachtet sind, sind diese fix, d. h. nicht mehr zufällig!
Da der Logarithmus monoton wachsend ist, kann man äquivalent zu obiger Maximierungsaufgabe auch den Logarithmus der Likelihood-Funktion maximieren. Denn: die Stelle, bei der das Maximum angenommen wird, bleibt gleich. Dies ist meist einfacher, weil aus dem Produkt eine Summe wird. Wir bezeichnen diese Funktion als log-Likelihood-Funktion l(θ ), d. h. l(θ ) = log(L(θ )) = log
n
i=1
p(xi | θ ) =
n i=1
= log (p(x1 | θ )) + · · · + log (p(xn | θ )),
log(p(xi | θ ))
139 6.3 · Methoden zur Parameterschätzung
wobei mit log der natürliche Logarithmus gemeint ist. Um zusätzlich die Abhängigkeit von der (fixen) Stichprobe x1 , . . . , xn zu betonen, verwendet man manchmal auch die Notation l(θ; x1 , . . . , xn ). Der Maximum-Likelihood-Schätzer ist dann entsprechend θ = arg max l(θ ). θ
Diese Maximierungsaufgabe löst man (in der Regel) „normal“ durch Ableiten nach dem Parameter und null setzen. Wenn man nur einen Parameter hat, löst man die Gleichung l (θ ) = 0 nach θ auf (mit l bezeichnen wir die Ableitung nach θ ). Für den allgemeineren Fall eines Parametervektors θ = (θ1 , . . . , θr ) erhält man ein Gleichungssystem von partiellen Ableitungen ∂ l(θ ) = 0, k = 1, . . . , r ∂θk und löst dieses nach θk , k = 1, . . . , r auf. Schlussendlich erhalten wir in beiden Fällen θ = θ (x1 , . . . , xn ) als (realisierten) Maximum-Likelihood-Schätzer von θ basierend auf der Stichprobe x1 , . . . , xn . Als Zufallsvariable ausgedrückt schreiben wir dies als θ = θ (X1 , . . . , Xn ). Bemerkung: Zusätzlich müssen wir eigentlich noch die zweite Ableitung überprüfen, um sicherzustellen, dass wirklich ein Maximum vorliegt. Aus Platzgründen werden wir dies in der Regel weglassen, da es bei den verwendeteten Funktionen oft intuitiv klar ist, dass es sich um ein Maximum handeln muss. Beispiel: Poisson-Verteilung
Wir betrachten nochmals das Beispiel mit der Poisson-Verteilung. Wir haben also beobachtete Daten x1 , . . . , x5 : 3, 6, 4, 2, 3 mit x = 3.6, die wir als i.i.d. Realisierungen einer Poisson-Verteilung X ∼ Pois (λ) mit unbekanntem Parameter λ auffassen, welchen wir nun mit der Maximum-Likelihood-Methode schätzen. Die Wahrscheinlichkeitsfunktion ist bei der Poisson-Verteilung gegeben durch p(x | λ) = e−λ
λx , x ∈ {0, 1, 2, . . .}. x!
Dies führt zur Likelihood-Funktion L(λ) =
n
i=1
e−λ
λxi . xi !
6
140
Kapitel 6 · Parameterschätzungen
Die log-Likelihood-Funktion ist somit l(λ) =
n i=1
= =
n i=1 n
λxi log e−λ xi ! (xi log(λ) − log(xi !) − λ) xi log(λ) − nλ −
i=1
n
log(xi !).
i=1
Leitet man l(λ) nach λ ab und setzt l (λ) = 0, so erhält man die Gleichung n 1 xi − n = 0. λ
6
i=1
Dies führt zum Maximum-Likelihood-Schätzer n 1 xi = 3.6. n
λ=
i=1
Dies ist derselbe Schätzer wie bei der Momentenmethode. Die Maximum-LikelihoodMethode liefert aber nicht zwangsläufig bei allen Verteilungen das gleiche Resultat wie die Momentenmethode.
6.3.2.2
Stetiger Fall
Der stetige Fall verläuft im Wesentlichen analog. Man braucht nur den Buchstaben p durch f und „Wahrscheinlichkeitsfunktion“ durch „Wahrscheinlichkeitsdichte“ zu ersetzen. Für die Wahrscheinlichkeitsdichte verwenden wir wie im diskreten Fall die Schreibweise f (x | θ ), um die Abhängigkeit vom Parameter θ zu betonen. Auch hier hat dies nicht die Bedeutung einer bedingten Dichte. Für i.i.d. Beobachtungen x1 , . . . , xn einer stetigen Zufallsvariable X mit Dichte f (x | θ ) erhalten wir die Likelihood-Funktion L(θ ) =
n
f (xi | θ ) = f (x1 | θ ) · · · f (xn | θ ).
i=1
Die ist nichts anderes als die gemeinsame Dichte an der Stelle x1 , . . . , xn , wenn wir daran glauben, dass der Parameter den Wert θ annimmt. Entsprechend erhalten wir die log-Likelihood-Funktion l(θ ) =
n i=1
log (f (xi | θ )) .
141 6.3 · Methoden zur Parameterschätzung
Den Maximum-Likelihood-Schätzer erhalten wir wie gewohnt durch Maximieren, d. h. θ = arg max l(θ ) = arg max L(θ ). θ
θ
Beispiel: Exponentialverteilung
Wir beobachten die Lebensdauern t1 , t2 , . . . , t10 (in Wochen) von n = 10 Systemkomponenten. i 1 2 3 4 5 6 7 8 9 10 ti 1.5 0.3 7.8 3.3 4.8 6.1 10.5 1.6 9.3 7.7
Als Modell verwenden wir eine Exponentialverteilung mit Parameter λ, d. h., obige Daten fassen wir auf als i.i.d. Realisierungen von T ∼ Exp (λ). Der Parameter λ ist unbekannt. Wir schätzen ihn mit der Maximum-Likelihood-Methode. Die Dichte der Exponentialverteilung ist gegeben durch f (t | λ) =
0
t 0 die Parameter sind. Betrachten Sie nun die folgende Aussage: Wenn wir eine i.i.d. Stichprobe von Gumbel-verteilten x1 , . . . , xn haben, dann ist die log-Likelihood-Funktion gegeben durch l(β, μ) =
n 1 − 1 (x−μi ) − log(βi ) − (x − μi ) − e βi . βi i=1
b) c) d)
6.3.3
Bei einer diskreten Verteilung mit einem Parameter θ ∈ R gilt für die Likelihood-Funktion L(θ ) immer, dass 0 ≤ L(θ ) ≤ 1. Ein Parameterschätzer kann immer auch als Zufallsvariable interpretiert werden. Mit der Maximum-Likelihood-Methode fixieren wir den Parameter und suchen dann diejenige Stichprobe, die die Likelihood-Funktion maximiert.
Allgemeine Schätzer für Erwartungswert und Varianz
Bei der Normalverteilung waren Erwartungswert und Varianz gerade die Parameter der Verteilung, die wir entsprechend geschätzt hatten. Bei anderen Verteilungen muss das nicht so sein, siehe z. B. die Exponentialverteilung. Wir können uns daher überlegen, ganz allgemein den Erwartungswert μX bzw. die Varianz σX2 (oder andere Kennzahlen) einer Zufallsvariable X basierend auf i.i.d. Beobachtungen x1 , . . . , xn zu schätzen. Die i.i.d.-Annahme besagt, dass alle Beobachtungen unabhängig voneinander von der gleichen Verteilung generiert wurden. Wir interessieren uns jetzt „nur“ für gewisse Kennzahlen dieser Verteilung. Wir nehmen also insbesondere keine konkrete Verteilungsfamilie an.
143 6.3 · Methoden zur Parameterschätzung
Bei der deskriptiven Statistik haben wir schon die empirischen Gegenstücke von Erwartungswert und Varianz kennengelernt. Es waren dies das arithmetische Mittel und die empirische Varianz (mit dem speziellen Nenner n − 1). Diese verwenden wir gerade als Schätzer. Als Zufallsvariablen geschrieben haben wir 1 Xi n n
μX = X n =
i=1
1 σX2 = (Xi − X n )2 , n−1 n
i=1
wobei die Xi i.i.d. sind mit der gleichen Verteilung wie X . Was haben diese Schätzer für Eigenschaften? Für den Schätzer des Erwartungswertes haben wir (nachrechnen!) E ( μX ) = E (X ) = μX 1 Var ( μX ) = σX2 . n Im Erwartungswert ergibt der Schätzer μX also genau das Gewünschte, nämlich den μX ein erwartungstreuer (oder unverzerrter) wahren Wert μX . Man sagt auch, dass Schätzer für μX ist. Im „Schnitt“ machen wir also keinen Fehler. μX auch Die Varianz Var ( μX ) können wir hier wegen der Erwartungstreue von schreiben als Var ( μX ) = E ( μX − μX )2 . Sie gibt an, wie groß im Mittel die quadratische Abweichung des Parameterschätzers μX vom wahren Wert μX ist. Es handelt sich dabei also um ein Maß für die Genauigkeit des erwartungstreuen Schätzers (je kleiner, desto genauer). Anhand obiger Formel sehen wir, dass die Varianz klein wird, wenn wir n groß wählen („viele Daten sammeln“) bzw. wenn σX2 klein ist („genau messen“), was intuitiv auch Sinn macht. Beim Schätzer σX2 für die Varianz σX2 ist es etwas komplizierter. Man kann zeigen, dass gilt E( σX2 ) = σX2 . In anderen Worten heißt dies, dass der Schätzer σX2 erwartungstreu ist für σX2 . Dies ist der Grund für den „speziellen“ Nenner n − 1 bei der empirischen Varianz. Nur wenn wir diesen Nenner verwenden, erhalten 2 wir einen erwartungstreuen Schätzer! Konzeptionell könnten wir auch Var σX berechnen, also die Varianz der Varianzschätzung! Dies tönt auf den ersten Blick vielleicht etwas abschreckend, doch es handelt sich einfach um die Genauigkeit der Varianzschätzung. Wir werden diese hier aber nicht ermitteln. Alle diese Eigenschaften gelten ganz allgemein, d. h. unabhängig von der zugrunde liegenden Verteilung!
6
144
Kapitel 6 · Parameterschätzungen
6.3.4
Genauigkeit von Schätzern – ein erster Ansatz
Die bis jetzt ermittelten Parameterschätzer liefern uns hoffentlich genaue Werte, d. h. Werte, die möglichst nahe bei den wahren (aber unbekannten!) Parameterwerten liegen. ! Achtung Wenn wir ein Experiment wiederholen oder Daten z. B. an einem anderen Tag erheben, dann erhalten wir andere Daten und somit auch andere Werte für die Parameterschätzer. Oder frei nach John Tukey, dem berühmten Statistiker: ,,The data could have been different‘‘.
6
Wir sollten also dem konkreten Schätzwert (eine einzelne Zahl) nicht allzu viel Gewicht beimessen, denn es hätte alles auch etwas anders kommen können! Idealerweise versuchen wir zu ermitteln, wie genau unsere Schätzung ist bzw. welche anderen Werte neben unserem Schätzwert „plausibel“ wären für einen Parameter.
Intuition: Ein kleiner Gedankenausflug Peter ist ein begeisterter Bogenschütze. Wenn Peter ein Ziel anvisiert hat, dann trifft er dieses mit Wahrscheinlichkeit 95 % mit einem Abstand von maximal 5 cm. Dies ist in . Abb. 6.6a dargestellt. Das anvisierte Ziel ist der schwarze Punkt in der Mitte. Mit Wahrscheinlichkeit 95 % wird der Pfeil im grauen Bereich landen (ein Kreis mit Radius 5 cm um den anvisierten Punkt herum). Zusammen mit Martin spielt Peter nun ein Spiel. Peter visiert ein nur ihm bekanntes Ziel an (z. B. auf einer großen Wand). Martin muss basierend auf dem „eingeschlagenen Pfeil“ herausfinden, auf was Peter gezielt hat. Martin kennt dabei die Genauigkeit von Peter. Welche Strategie sollte Martin anwenden, um das wahre Ziel zu ermitteln? Martin zieht einen Kreis um die „Einschlagstelle“ mit Radius 5 cm, siehe . Abb. 6.6b. Ein solcher Kreis „fängt“ das wahre Ziel mit Wahrscheinlichkeit 95 % „ein“. Denn: Mit Wahrscheinlichkeit 95 % liegt die Einschlagstelle max. 5 cm vom Ziel entfernt. In diesen Fällen „fängt“ der Kreis das wahre Ziel „ein“. Die Wahrscheinlichkeit ist hier frequentistisch zu verstehen: Über viele Schüsse hinweg erwarten wir, dass Martin das wahre Ziel mit dieser Strategie in 95 % der Fälle „einfängt“.
Was hat obiger Gedankenausflug mit Statistik zu tun? Das Ziel, das wir mit einem Parameterschätzer „treffen“ wollen, ist ein unbekannter, fixer Parameter (z. B. den Erwartungswert μ einer Normalverteilung). Als „Pfeil“ (oder „Werkzeug“) verwenden wir den Schätzer μ. Die Genauigkeit kennen wir, wenn wir wissen, wie sich die Differenz μ − μ („der Abstand vom Ziel“) verhält. Idealerweise kennen wir also die Verteilung von μ − μ. Jetzt schauen wir uns im Detail an, wie sich dies bei der Normalverteilung verhält. Wirnehmen also an, dass unsere Daten x1 , . . . , xn i.i.d. Realisierungen einer N μ, σ 2 -verteilten Zufallsvariable sind und wir am Erwartungswert μ interessiert sind. Als Schätzer für den Erwartungswert betrachten wir hier (als Zufallsvariable
145 6.3 · Methoden zur Parameterschätzung
a
b
. Abb. 6.6 Hilfsabbildung für das Beispiel mit der Genauigkeit des Bogenschützen. a Anvisiertes Ziel (schwarzer Punkt) und Genauigkeit (grau ausgefüllter Kreis mit Radius 5 cm) b Einschlagstelle (Pfeilspitze) und Kreis mit Radius 5 cm (gestrichelt). Das anvisierte Ziel war der schwarze Punkt
geschrieben) das arithmetische Mittel 1 Xi . n n
μ = Xn =
i=1
Die Verteilung unseres Schätzers ist demnach (siehe 7 Abschn. 5.2) μ∼N
σ2 μ, n
.
Der Schätzer fluktuiert also mit einer Normalverteilung um den wahren Wert μ. Die Varianz wird mit größer werdendem n kleiner und die Schätzung damit genauer. Definition: Standardfehler
Die Standardabweichung eines Schätzers wird allgemein auch als Standardfehler be√ zeichnet. Hier ist also der Standardfehler von μ gegeben durch σ/ n.
Wir nehmen vereinfachend einmal an, dass wir σ kennen. Mit Wahrscheinlichkeit 0.95 gilt dann, dass unser Schätzer μ im Intervall σ μ ± z0.975 √ n liegt, wobei z0.975 das 97.5%-Quantil der Standardnormalverteilung ist (links und rechts schneiden wir jeweils die 2.5 % extremsten Abweichungen ab). Oder anders ausgedrückt: Mit Wahrscheinlichkeit 0.95 liegt unser Schätzer μ weniger als z0.975 · √ σ/ n vom wahren Wert μ entfernt. Dies entspricht den 5 cm in der Situation von . Abb. 6.6a. Jetzt können wir den gleichen Trick wie beim Pfeilbogen anwenden.
6
146
Kapitel 6 · Parameterschätzungen
Der wahre Wert von μ kann nicht allzu weit von der „Einschlagstelle“ μ entfernt sein. Mit Wahrscheinlichkeit 0.95 fangen wir den wahren Wert von μ ein, wenn wir um die „Einschlagstelle“ μ das Intervall σ I = μ ± z0.975 √ n
6
konstruieren. Diese Denkweise entspricht der Situation in . Abb. 6.6b. Ein solches Intervall können wir als die gemäß unseren Daten „plausiblen“ Werte für μ interpretieren („irgendwo darin liegt der wahre Wert des Parameters μ“). Wenn das Intervall schmal ist, dann sind wir unserer Sache sicherer. Die Breite ist daher eine Angabe für die Genauigkeit unserer Schätzung. Man nennt ein solches Intervall auch ein 95%-Vertrauensintervall (oder Konfidenzintervall) für den wahren Parameter μ. Die entsprechende Wahrscheinlichkeit (hier: 95 %) wird auch als Überdeckungswahrscheinlichkeit bezeichnet. Wir werden später Techniken kennenlernen, wie man ein solches Vertrauensintervall im Allgemeinen (z. B. bei unbekanntem σ ) konstruieren kann (siehe 7 Abschn. 7.4). Form des 95%-Vertraueinsintervalls im Falle der Normalverteilung
Es ist z0.975 = 1.96 ≈ 2. Dies führt zu σ I ≈ μ ± 2√ n als 95%-Vertrauensintervall für μ. Die Merkregel für das 95%-Vertrauensintervall lautet hier also:
„Schätzwert ± 2 × Standardfehler“. Diese Form trifft man in der Statistik ganz häufig an. Viele Parameterschätzer basieren auf arithmetischen Mitteln und daher ist es wegen des zentralen Grenzwertsatzes nicht erstaunlich, dass man früher oder später wieder bei der Normalverteilung landet.
Beispiel: CO2 -Konzentration in Büros
Bei 16 zufällig ausgewählten Büros mit dem gleichen Lüftungstyp wird frühmorgens die CO2 -Konzentration (in ppm) ermittelt. Das entsprechende arithmetische Mittel dieser Messungen sei 436 ppm. Wir fassen die Einzelmessungen als i.i.d. Realisierungen einer N μ, σ 2 -Verteilung auf, wobei wir momentan (unrealistischerweise!) davon ausgehen, dass wir σ = 20 kennen. Mit obiger Regel berechnet sich das 95%-Vertrauensintervall für μ hier als 20 I = 436 ± 2 · √ = [426, 446]. 16
147 6.3 · Methoden zur Parameterschätzung
Dies können wir so interpretieren, dass der Mittelwert der CO2 -Konzentration über alle möglichen Büros mit diesem Lüftungstyp (= Erwartungswert!) im Bereich [426, 446] ppm liegt.
Erst dank unserer Modellannahmen können wir ein solches Vertrauensintervall konstruieren. Mit rein „numerischen Methoden“ erhalten wir nur die Schätzung (eine einzelne Zahl) und können nicht angeben, wie genau diese ist. Mit den statistischen Methoden können wir also viel gewinnen! Alles steht und fällt natürlich mit den Modellannahmen (hier: Normalverteilung, bekannte Varianz). Diese muss man in der Praxis natürlich überprüfen, z. B. mit einem Normalplot. Verständnisfragen: Alles klar? 5 5 5 5 5 5 5
Wie ist ein QQ-Plot bzw. ein Normalplot aufgebaut? Wie kann man mit einem QQ-Plot überprüfen, ob eine Verteilung (bzw. Verteilungsfamilie) zu einem Datensatz passt? Wie kann man mit der Momentenmethode entsprechende Parameterschätzer herleiten? Wie kann man mit der Maximum-Likelihood-Methode entsprechende Parameterschätzer herleiten? Wie kann man den Erwartungswert und die Varianz einer beliebigen Verteilung erwartungstreu schätzen? Was ist der Standardfehler eines Parameterschätzers? Wie kann man ein Vertrauensintervall für einen Modellparameter konstruieren?
6
149
Statistische Tests und Vertrauensintervalle für eine Stichprobe Inhaltsverzeichnis 7.1
Einführung – 150
7.1.1
Illustration der Konzepte mit der Binomialverteilung: Binomialtest – 150 Einige Gedanken zu statistischen Tests – 156
7.1.2
7.2
Tests für eine Stichprobe bei normalverteilten Daten – 158
7.2.1 7.2.2 7.2.3
Z-Test – 159 t-Test – 161 Statistische Tests via Normalapproximation – 164
7.3
Allgemeine Eigenschaften von statistischen Tests – 165
7.3.1 7.3.2 7.3.3
Macht – 165 P-Wert – 169 Multiples Testen – 173
7.4
Vertrauensintervalle – 175
7.5
Tests für eine Stichprobe bei nicht normalverteilten Daten – 180
7.5.1 7.5.2
Vorzeichentest – 180 Wilcoxon-Test – 182
7.6
Rückblickender Überblick über Konzepte – 186
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 L. Meier, Wahrscheinlichkeitsrechnung und Statistik, https://doi.org/10.1007/978-3-662-61488-4_7
7
150
Kapitel 7 · Statistische Tests und Vertrauensintervalle für eine Stichprobe
n Begriffe, die Sie in diesem Kapitel kennenlernen werden 5 5 5 5 5 5 5 5 5 5
7.1
7
Statistischer Test/Hypothesentest Null- und Alternativhypothese Signifikanzniveau/Niveau Verwerfungsbereich/kritischer Bereich, Annahmebereich Fehler 1. und 2. Art Statistische Signifikanz Statistische Tests: Binomialtest, Z-Test, t-Test, Wilcoxon-Test/VorzeichenRangsummen-Test p-Wert, Macht Multiples Testproblem, Bonferroni-Korrektur, family-wise error rate Vertrauensintervall/Konfidenzintervall (via statistischen Test)
Einführung
Wir haben gesehen, wie man einen Parameter eines Modells aus Daten schätzen kann. Dies ist sozusagen der gemäß Daten „plausibelste“ Wert des Parameters. Oft muss man aber entscheiden, ob die Daten von einer Verteilung mit einem bestimmten Parameterwert generiert wurden oder nicht. Ist z. B. eine Maschine gemäß einem Sollwert richtig kalibriert? Oder: Handelt es sich um eine faire Münze? Da der Parameterschätzer eine Ungenauigkeit aufweist („the data could have been different“), können wir nicht einfach die Schätzung mit dem Sollwert vergleichen. Wenn wir die Ungenauigkeit aber quantifizieren können (siehe der Ansatz mit Vertrauensintervallen in 7 Abschn. 6.3.4), dann hilft uns dies schon weiter. Wir könnten z. B. schauen, ob der Sollwert in diesem Intervall enthalten ist oder nicht. Wie wir später sehen werden, ist dies genau der richtige Ansatz (siehe 7 Abschn. 7.4). Wir gehen das Problem jetzt zuerst mit dem Konzept des sogenannten statistischen Tests an. Es wird sich dann (zum Glück!) herausstellen, dass der Ansatz mit dem Vertrauensintervall gerade äquivalent dazu ist.
7.1.1
Illustration der Konzepte mit der Binomialverteilung: Binomialtest
Zur Einführung der Konzepte konzentrieren wir uns zuerst einmal auf die Binomialverteilung. Hierzu betrachten wir folgendes Beispiel: Ein Hersteller gibt an, dass die Wahrscheinlichkeit, dass ein Bauteil defekt ist, 10 % beträgt (die 10 % sind sozusagen der Sollwert gemäß Angabe des Herstellers). Basierend auf der Erfahrung der letzten Lieferungen vermuten wir aber, dass diese Wahrscheinlichkeit in der Tat größer als 10 % ist. Wir wollen den Hersteller davon überzeugen, dass er zu schlechte Qualität liefert. Dieser ist natürlich gegenüber unserer Behauptung sehr skeptisch. Basierend auf einer neuen Lieferung von n = 20 Bauteilen soll nun entschieden werden, wer recht hat. Wir müssen also basierend auf Daten eine Entscheidung treffen. In einem ersten Schritt übersetzen wir obige Aussagen in Aussagen über Modellparameter. Wenn wir eine neue Lieferung von n = 20 Bauteilen betrachten und diese unabhängig voneinander sind mit jeweiliger „Ausfallwahrscheinlichkeit“ p, dann ist
151 7.1 · Einführung
die Anzahl defekter Bauteile X binomialverteilt, d. h. X ∼ Bin (n, p), wobei n = 20. Das Problem ist nun der Parameter p, über den „Uneinigkeit“ besteht. Einerseits gibt es den Standpunkt des Herstellers, der behauptet, dass p = 0.1 gilt. Dies bezeichnen wir als sogenannte Nullhypothese, welche aufgeschrieben wird als H0 : p = p0 = 0.1. Man spricht von der Nullhypothese, weil man keine Abweichung vom Normal- oder Sollzustand hat. Notationell wird der Wert des Parameters unter der Nullhypothese mit p0 bezeichnet. Andererseits gibt es den Standpunkt unserer Vermutung (was wir persönlich nachweisen wollen). Dies ist die sogenannte Alternativhypothese (oder kurz: Alternative); sie wird mit HA bezeichnet. Allgemein möglich sind: HA : p = 0.1 („zweiseitig“) p > 0.1 („einseitig nach oben“) p < 0.1 („einseitig nach unten“) In unserem Fall ist HA : p > 0.1, denn wir wollen ja zeigen, dass die Qualität zu schlecht ist. In der neuen Lieferung von 20 Bauteilen waren in der Tat x = 5 Bauteile defekt. Das Ziel besteht nun darin, den Hersteller zu überzeugen, dass seine Annahme von p = p0 = 0.1 nicht mit den beobachteten Daten (x = 5) „verträglich“ ist. Dies machen wir mit einem statistischen Test (auch Hypothesentest genannt). Konzeptionell ist ein statistischer Test nichts anderes als eine Entscheidungsregel. Basierend auf Daten müssen wir nämlich entscheiden, ob H0 oder HA gilt. Intuition: Grundidee eines statistischen Tests Die Grundidee eines statistischen Tests besteht immer darin, zu überlegen, „wie es in einer Welt aussehen würde“, in der die Nullhypothese stimmt. Dies ist ein reines Gedankenexperiment. Statistisch gesehen läuft es darauf heraus, dass wir die Verteilung der Anzahl defekter Bauteile ermitteln für den Fall, dass der Hersteller recht hat, d. h., falls p = p0 = 0.1 gilt. Wenn wir dies haben, schauen wir, wie „gut“ dazu passt, was wir in der Realität „sehen“ (hier: die beobachteten Daten x = 5). Falls die beobachteten Daten nicht gut mit obiger Verteilung „erklärt“ werden können, dann sind die Daten nicht mit der Nullhypothese „kompatibel“ (oder: „die Realität sieht in der Tat deutlich anders aus als unter der Nullhypothese erwartet“). Falls dies so ist, dann verwerfen wir die Nullhypothese und entscheiden uns für die Alternativhypothese.
Dies wollen wir hier einmal formell „durchspielen“. Dazu nehmen wir entsprechend an, es sei p = p0 = 0.1. Unter der Nullhypothese gilt für die Anzahl defekter Bauteile X ∼ Bin (20, 0.1). Diese Verteilung ist in . Abb. 7.1 dargestellt.
7
152
Kapitel 7 · Statistische Tests und Vertrauensintervalle für eine Stichprobe
7 . Abb. 7.1
Wahrscheinlichkeitsfunktion der Bin (20, 0.1)-Verteilung
Qualitativ betrachtet scheint es plausibel, dass wir die Nullhypothese H0 : p = p0 = 0.1 zugunsten von HA : p > 0.1 verwerfen, wenn wir deutlich mehr als 10 % defekte Bauteile finden. Wir können also die Entscheidungsregel aufstellen, dass wir die Nullhypothese verwerfen, falls die beobachtete Anzahl defekter Bauteile x zu groß ist, d. h., falls x ≥ c gilt für eine bestimmte Grenze c. Die Frage ist nun, wo man diese Grenze c genau zieht (oder: „Ab wann passt eine Beobachtung nicht mehr in die Welt, wie wir sie unter der Nullhypothese erwarten würden?“). Falls p = p0 = 0.1 gilt, erwarten wir in einer Lieferung von 20 Bauteilen E (X ) = 2 mit einem Defekt. Durch Zufall kann es natürlich geschehen, dass x = 3 oder x = 4 (bzw. ein beliebiger anderer Wert) eintritt, siehe . Abb. 7.1. Der Zufall kann uns also in die Quere kommen und dafür sorgen, dass, obwohl H0 stimmt, wir einen sehr großen Wert beobachten (dies kommt vor, aber nur selten). In diesem Fall würden wir uns gemäß obigem Vorgehen gegen H0 entscheiden und damit eine Fehlentscheidung treffen. Man spricht von einem sogenannten Fehler 1. Art. Andererseits kann es sein, dass, obwohl HA stimmt, wir einen nicht allzu extremen Wert beobachten und wir uns nicht gegen H0 entscheiden. Dies ist auch wieder eine Fehlentscheidung, diesmal „andersherum“. Man spricht von einem sogenannten Fehler 2. Art. Diese beiden Fehlerarten bei einem statistischen Test sind in . Tab. 7.1 dargestellt. Wie findet man nun einen guten Wert für die Grenze c? Die Idee besteht darin, dass man die Nullhypothese nur selten fälschlicherweise verwerfen will. Wir sorgen also dafür, dass, wenn in der Tat der Hersteller recht hat, es nur selten zu einer Fehlentscheidung zu seinen Ungunsten kommt. Das bedeutet nichts anderes, als dass die Wahrscheinlichkeit für einen Fehler 1. Art nicht zu groß sein darf. In dem Sinne kann hier der Hersteller die Spielregeln „vorgeben“. Unter H0 ist die Wahrscheinlichkeit, die Nullhypothese fälschlicherweise zu verwerfen (d. h. die Wahrscheinlichkeit, einen Fehler 1. Art zu begehen), gegeben durch
153 7.1 · Einführung
Pp0 (X ≥ c) =
20 20 k=c
k
pk0 (1 − p0 )20−k , p0 = 0.1,
wobei wir mit dem Index p0 bei Pp0 (X ≥ c) nochmals betonen, dass wir die Wahrscheinlichkeit unter der Nullhypothese berechnen. Wir sollten c also nicht zu klein wählen, da sonst obige Wahrscheinlichkeit für einen Fehler 1. Art zu groß wird. Auf der anderen Seite möchten wir c aber auch nicht allzu groß wählen, weil es sonst unnötig schwierig wird, die Nullhypothese zu verwerfen. Man schließt einen Kompromiss, indem man das kleinste c nimmt, sodass gilt Pp0 (X ≥ c) ≤ α. Dabei ist α eine im Voraus festgelegte (kleine) Zahl, das sogenannte Signifikanzniveau (kurz: Niveau). Typischerweise wählt man α = 0.05 oder α = 0.01. Obige Ungleichung besagt, dass die Wahrscheinlichkeit eines Fehlers 1. Art mit dem Signifikanzniveau α kontrolliert wird. Wenn in Tat und Wahrheit der Hersteller recht hat (d. h. falls H0 stimmt), dann ist die Wahrscheinlichkeit, dass man eine Fehlentscheidung trifft, also kleiner gleich α. Was ist in unserem Beispiel der konkrete Wert für c, wenn wir ein Signifikanzniveau von α = 0.05 verwenden? Unter der Nullhypothese H0 : p = p0 = 0.1 haben wir gemäß der Bin (20, 0.1)-Verteilung folgende Wahrscheinlichkeiten: x 0 1 2 3 4 5 6 ... Pp0 (X = x) 0.12 0.27 0.29 0.19 0.09 0.03 0.01 ... Pp0 (X ≤ x) 0.12 0.39 0.68 0.87 0.96 0.99 1.00 ...
Es ist also Pp0 (X ≥ 5) = 1 − Pp0 (X ≤ 4) = 1 − 0.96 = 0.04 Pp0 (X ≥ 4) = 1 − Pp0 (X ≤ 3) = 1 − 0.87 = 0.13. Wir wählen daher c = 5 und erhalten so die Entscheidungsregel, dass H0 verworfen wird, falls x ≥ 5 beobachtet wird. Falls dies zutrifft, hat man die Alternativhypothese statistisch nachgewiesen. Man sagt auch, dass die Abweichung von der Nullhypothese statistisch signifikant ist. Die Größe, aufgrund derer man den Testentscheid fällt (hier die Anzahl defekter Bauteile X ), heißt auch Teststatistik.
. Tab. 7.1 Verschiedene Fehlerarten bei einem statistischen Test Entscheidung
Wahrheit
H0
HA
H0
Kein Fehler
Fehler 1. Art
HA
Fehler 2. Art
Kein Fehler
7
154
Kapitel 7 · Statistische Tests und Vertrauensintervalle für eine Stichprobe
Die Menge K aller Ausgänge, bei denen man H0 zugunsten von HA verwirft, wird Verwerfungsbereich genannt (wird in der Literatur auch als kritischer Bereich bezeichnet). Hier ist der Verwerfungsbereich K also K = {5, 6, 7, . . . , 20}. Entsprechend nennt man die Werte, bei denen H0 nicht verworfen wird, den Annahmebereich, welcher hier gegeben ist durch {0, 1, 2, 3, 4}. Das Wort Annahmebereich ist etwas irreführend, weil eine „Annahme“ der Nullhypothese keinen „Beweis“ für diese darstellt; mehr dazu in Kürze. Unsere Beobachtung x = 5 liegt gerade noch im Verwerfungsbereich. Also verwerfen wir H0 und haben statistisch nachgewiesen, dass p > 0.1 gilt. Wir haben also eine signifikante Abweichung von der Nullhypothese nachweisen können. Intuition zu Verwerfungsbereich, Testentscheid und Signifikanzniveau
7
Die Ermittlung des Verwerfungsbereichs K (hier für das Signifikanzniveau α = 0.05) kann man sich auch folgendermaßen vorstellen. Man ermittelt die Verteilung unter der Nullhypothese (hier: Bin (20, 0.1)) und „schneidet“ dann die 5 % extremsten Ausgänge in „Richtung“ der Alternativhypothese „ab“. In . Abb. 7.1 bedeutet dies, dass wir bei x = 20 beginnen und dann soweit nach links gehen und die entsprechenden Wahrscheinlichkeiten aufsummieren, bis wir möglichst nahe (von unten) an 5 % herankommen. Dieses „Herantasten“ an die 5 % ist nur wegen der diskreten Verteilung nötig. Später bei stetigen Verteilungen können wir die 5 % jeweils exakt „abschneiden“ (siehe 7 Abschn. 7.2). Anders ausgedrückt können wir den Entscheid eines statistischen Tests wie schon bereits zu Beginn dieses Abschnitts angetönt auch wie folgt verstehen: Man überlegt sich zuerst, wie die Welt unter der Nullhypothese aussehen würde. Falls das tatsächlich beobachtete Ereignis zu den 5 % extremsten Ausgängen gehört, bedeutet dies, dass es unter der Nullhypothese schlecht durch Zufall erklärbar ist und wir daher die Nullhypothese verwerfen (weil Realität und Modell nicht zusammenpassen). Das Signifikanzniveau gibt dabei an, „wie streng“ wir sind, d. h. wie oft wir eine Fehlentscheidung zulassen wollen, wenn in der Tat die Nullhypothese stimmt.
! Achtung Falls wir die Nullhypothese nicht verwerfen können, ist das (leider) kein Nachweis (oder statistischer „Beweis“) für die Nullhypothese. Nehmen wir an, dass wir H0 : p = p0 = 0.1 nicht verwerfen können. Dann bleibt p = 0.1 zwar ein plausibler Wert für den Parameter, aber (z. B.) p = 0.11 wäre wohl auch noch plausibel (diesen Wert könnten wir nämlich wohl auch nicht verwerfen). Oder anders ausgedrückt: Nur weil wir keine Abweichung von p0 nachweisen können, heißt dies leider noch lange nicht, dass keine Abweichung vorhanden ist! Oder besser in Englisch: „Absence of evidence is not evidence of absence.“
Falls man an Abweichungen nach unten interessiert ist, also die Alternativhypothese HA : p < p0 betrachtet, geht man analog vor: Man sucht das größte c, sodass gilt
155 7.1 · Einführung
Pp0 (X ≤ c) ≤ α. Der Verwerfungsbereich hat dann die Form K = {0, 1, 2, . . . , c}. Bei zweiseitiger Alternative HA : p = p0 verwerfen wir die Nullhypothese H0 : p = p0 , wenn x ≤ c1 oder x ≥ c2 . Hier wählt man c1 möglichst groß und c2 möglichst klein, sodass gilt c1 n
pk (1 − p0 )n−k ≤ α/2 und k 0 k=0 n n k Pp0 (X ≥ c2 ) = p (1 − p0 )n−k ≤ α/2. k 0 Pp0 (X ≤ c1 ) =
k=c2
Der Verwerfungsbereich ist dann gegeben durch die Vereinigung K = {0, 1, 2, . . . , c1 } ∪ {c2 , c2 + 1, . . . , n}. Wir schneiden also bei der Verteilung unter der Nullhypothese links und rechts (ca.) α/2 ab, damit der Fehler 1. Art kontrolliert wird. Der Verwerfungsbereich hat also ganz allgemein nach Konstruktion die gleiche „Form“ wie die Alternativhypothese HA . Der hier vorgestellte Test bei der Binomialverteilung wird auch als Binomialtest bezeichnet. Bemerkung: Dem aufmerksamen Leser ist hier vielleicht aufgefallen, dass wir mit dem „Experiment“, dass wir 20 Bauteile überprüfen, sehr schlechte Voraussetzungen haben für die Konstruktion eines einseitigen Tests nach unten. Unter der Nullhypothese gilt Pp0 (X = 0) = 0.12, daher können wir hier gar keinen Test konstruieren, dessen Signifikanzniveau kleiner als 0.12 ist. Man müsste dazu mehr als 20 Bauteile haben. In dem Sinne wäre dies ein schlecht geplantes Experiment für diese Fragestellung. Zusammenfassung eines statistischen Tests
Die Durchführung eines statistischen Tests kann – zumindest teilweise – „rezeptartig“ erfolgen. 1. 2. 3.
Wähle ein geeignetes Modell für die Daten. Lege die Nullhypothese H0 : θ = θ0 fest. θ bezeichnet hier allgemein einen Parameter in einem Modell. Anhand der Problemstellung, spezifiziere die Alternativhypothese
7
156
Kapitel 7 · Statistische Tests und Vertrauensintervalle für eine Stichprobe
HA :
4. 5.
θ = θ0 („zweiseitig“) θ > θ0 („einseitig nach oben“) θ < θ0 („einseitig nach unten“).
Wähle das Signifikanzniveau α, typischerweise α = 0.05 oder 0.01. Konstruiere den Verwerfungsbereich K für H0 , sodass gilt Pθ0 (Fehler 1. Art) ≤ α.
6.
7
7.1.2
Die Form des Verwerfungsbereichs hängt von der Alternative HA ab. Erst jetzt: Betrachte, ob die Beobachtung x (oder eine Funktion von mehreren Beobachtungen, die Teststatistik) in den Verwerfungsbereich fällt. Falls ja, so verwerfe H0 zugunsten von HA . Man sagt dann auch, dass ein statistisch signifikantes Resultat vorliegt. Falls x nicht in den Verwerfungsbereich fällt, so belassen wir H0 , was aber noch lange nicht heißt, dass deswegen H0 statistisch nachgewiesen wurde („absence of evidence is not evidence of absence“).
Einige Gedanken zu statistischen Tests
1 Mit welchen Daten werden statistische Tests durchgeführt? Für einen statistischen Test brauchen wir „neue“, „unverbrauchte“ Daten. Basierend auf „alten“ Daten (Erfahrung) werden typischerweise Hypothesen gebildet (z. B.: „Die Qualität der Bauteile ist schlechter als angegeben.“). Um diese adäquat mit einem statistischen Test zu untersuchen, benötigen wir aber neue Daten, ansonsten wird der Fehler 1. Art nicht kontrolliert. Bei einem großen Datensatz (z. B. wenn wir pro Bauteil viele verschiedene Qualitätsattribute aufzeichnen), ist es ganz natürlich, dass bei einem Attribut auch einmal etwas Extremes eintritt. Daher gilt auch in der Statistik: „Wer suchet, der findet“. Wenn wir also zuerst schauen, was in den Daten speziell ist, und dann mit den gleichen Daten einen statistischen Test durchführen, werden wir viel zu oft ein signifikantes Resultat erhalten. In einer Welt, in der täglich viele Ereignisse passieren, ist es ganz natürlich, dass auch einmal etwas Seltenes geschieht (beim Lotto gibt es ja auch immer wieder Glückliche mit 6 richtigen Zahlen, obwohl die Wahrscheinlichkeit dafür extrem klein ist). Dies ist nichts beunruhigendes und darf nicht überinterpretiert werden. Wenn man also in großen Daten aktiv nach „Auffälligkeiten“ sucht, dann wird man diese auch finden. Es ist aber nicht zulässig, diese dann mit einem statistischen Test zu untersuchen. Der Grund ist, dass wir nirgends berücksichtigt haben, dass wir schon nach speziellen Ereignissen gesucht haben (typischerweise müssen wir für diese Suche einen „Preis“ bezahlen, siehe 7 Abschn. 7.3.3). Ansonsten könnten wir zu einem Lottogewinner gehen und ihn des Betrugs überführen. Denn: Wer fair spielt, hat eigentlich nur eine verschwindend kleine Chance, so viele richtige Zahlen zu tippen. Weil aber so viele Leute Lotto spielen, gibt es typischerweise trotzdem solche Gewinner. Wenn Sie hingegen aufgrund von bisherigen
157 7.1 · Einführung
Ereignissen vermuten, dass Ihr Nachbar doch etwas häufig überdurchschnittlich viele richtige Zahlen hat, dann können Sie mit diesem Wissen einmal die Hypothese aufstellen, dass er nicht fair spielt. Wenn der Nachbar dann bei der nächsten Ziehung wieder (zu) viele richtige Zahlen hat, dann wäre er aufgrund des statistischen Tests „überführt“. 1 Welche Form hat die Alternativhypothese? Die Entscheidung für eine zweiseitige oder eine einseitige Alternative HA hängt nur von der wissenschaftlichen Fragestellung ab. Eine einseitige Alternative ist dann angebracht, wenn nur ein Unterschied in eine bestimmte Richtung von Bedeutung oder Interesse ist (z. B. die Überschreitung eines Grenzwertes). Der einseitige Test ist auf der einen Seite „blind“, dafür verwirft er auf der anderen Seite früher als der zweiseitige Test (da der Verwerfungsbereich früher beginnt, weil man mehr „abschneidet“). Man sagt auch, dass er dort eine größere Macht hat; mehr dazu später in 7 Abschn. 7.3.1. ? Kurze Lernkontrolle: Wahr oder falsch? 36. Betrachten Sie folgende Aussagen zu statistischen Tests. a)
b)
c)
d)
Wenn wir bei einem statistischen Test ein Signifikanzniveau von 5 % verwenden, dann macht der Test nur mit Wahrscheinlichkeit 5 % eine Fehlentscheidung. Wenn wir bei einem statistischen Test die Nullhypothese auf dem 5%Signifikanzniveau nicht verwerfen können, dann stimmt diese mit Wahrscheinlichkeit 95 %. Wenn wir sehen, dass das tatsächlich beobachtete Ereignis einer diskreten Verteilung unter der Nullhypothese eine sehr kleine Einzelwahrscheinlichkeit hat, dann ist dies schon ausreichende Evidenz gegen die Nullhypothese. Die Alternativhypothese wählt man typischerweise nach der Datenerhebung, da man so schneller signifikante Resultate erhält.
37. In dieser Aufgabe entwickeln wir einen statistischen Test für eine neue Situation (Poisson-Verteilung): Jonas vermutet, dass Mineralwasser stärker als bisher angenommen mit Mikroplastik verunreinigt ist. Bisher ist man von einer durchschnittlichen Belastung von 5 Fasern Mikroplastik pro Literflasche ausgegangen. Die Anzahl der Mikroplastikfasern in einer Literflasche bezeichnen wir mit X . Als Modell dafür verwenden wir eine Poisson-Verteilung X ∼ Pois (λ). Es werden 10 neue Flaschen ausgemessen, die wir als i.i.d. Realisierungen einer solchen Poisson-Verteilung auffassen: 10, 8, 7, 4, 8, 6, 9, 3, 4, 7. a) b)
c)
Jonas wählt hier H0 : λ = λ0 = 5 und HA : λ > 5. Tatsache von früher (siehe 7 Abschn. 2.2.5): Die Summe obiger Messwerte (= 66) können wir als Realisierung einer Poisson-Verteilung mit Parameter 10 · λ interpretieren. Dann können wir damit einen statistischen Test durchführen, indem wir schauen, wie extrem der beobachtete Wert 66 in der Pois (50)-Verteilung liegt. Für die Pois (50)-Verteilung gilt: x … 61 62 63 64 65 … P (X ≥ x) … 0.072 0.056 0.042 0.032 0.024 …
7
158
Kapitel 7 · Statistische Tests und Vertrauensintervalle für eine Stichprobe
Dann können wir damit die entsprechende Nullhypothese auf dem 5%-Niveau verwerfen.
7.2
Tests für eine Stichprobe bei normalverteilten Daten
Wir betrachten hier die Situation, in der wir n i.i.d. Realisierungen x1 , . . . , xn einer Zufallsvariable X ∼ N μ, σ 2 haben. Der Fokus liegt dabei beim Erwartungswert μ. Wir sind z. B. daran interessiert, ob Daten gemäß einem bestimmten Sollwert μ0 generiert wurden oder nicht. Der Parameter σ 2 ist auch da, interessiert uns aber nicht. Wir nennen ihn daher in diesem Zusammenhang auch Störparameter. Die Nullhypothese wird bezüglich des Parameters μ spezifiziert, d. h., für ein μ0 ∈ R haben wir H0 : μ = μ0 .
7
Je nach Fragestellung ergibt sich dann eine der möglichen Alternativhypothesen HA : μ = μ0 (,,zweiseitig‘‘) μ > μ0 (,,einseitig nach oben‘‘) μ < μ0 (,,einseitig nach unten‘‘)
Beispiel: Abfüllmaschine
Der Sollwert einer Abfüllmaschine von Paketen beträgt 1000 g. Sie haben die Vermutung, dass die Maschine falsch kalibriert ist. Ihre Mitarbeiter haben aber widersprüchliche Information geliefert, in welche „Richtung“ eine Abweichung vorliegt. Als Modell für das Gewicht eines Paketes verwenden wir eine Normalverteilung X ∼ N μ, σ 2 . Die Nullhypothese lautet hier H0 : μ = μ0 = 1000. Da die „Richtung“ der Abweichung nicht angegeben wurde, haben wir für die Alternativhypothese HA : μ = 1000. Es werden nun n = 10 neue Pakete gemessen, deren Gewichte wir mit x1 , . . . , x10 bezeich nen. Wie „üblich“ fassen wir diese Messungen als i.i.d. Realisierungen von X ∼ N μ, σ 2 auf. Die gemessenen Werte (nicht dargestellt) liefern ein arithmetisches Mittel von x = 1002.63 und eine empirische Standardabweichung von s = 1.23. Ist eine solche Abweichung schon signifikant, wenn wir auf dem 5%-Niveau testen?
159 7.2 · Tests für eine Stichprobe bei normalverteilten Daten
Zur Konstruktion eines statistischen Tests unterscheiden wir zwei Fälle: Bei bekannter Standardabweichung σ verwenden wir den sogenannten Z-Test, bei unbekannter Standardabweichung σ (dann muss sie aus den beobachteten Daten geschätzt werden) den sogenannten t-Test. Als Schätzer für die unbekannten Parameter der Normalverteilung betrachten wir generell die jeweiligen erwartungstreuen Schätzer (siehe 7 Abschn. 6.3.3) 1 Xi n n
μ = Xn =
(7.1)
i=1
2 1 σ2 = Xi − X n . n−1 n
(7.2)
i=1
Die realisierten Werte für die beobachteten Werte x1 , . . . , xn sind dann gerade das arithmetische Mittel x (oft schreiben wir die Stichprobengröße n auch im Index, d. h. xn ) und die empirische Varianz s2 .
7.2.1
Z-Test
Wir nehmen hier einmal an, dass σ bekannt ist. Aus 7 Abschn. 5.2 wissen wir, dass für die Verteilung des arithmetischen Mittels gilt X n ∼ N μ, σ 2 /n . Wenn wir die Daten mitteln, dann haben wir also immer noch den gleichen Erwartungswert wie bei einer einzelnen Messung, aber eine kleinere Varianz. Falls die Nullhypothese H0 : μ = μ0 stimmt, dann haben wir X n ∼ N μ0 , σ 2 /n . Wenn der realisierte Wert xn also „allzu weit“ von μ0 entfernt ist, sollten wir die Nullhypothese verwerfen. Wir könnten jetzt wieder so vorgehen wie beim einführenden Beispiel, d. h., wir könnten zur Ermittlung des Verwerfungsbereichs die „extremen Bereiche“ der N μ0 , σ 2 /n -Verteilung bestimmen. Typischerweise geht man aber über zu der standardisierten Teststatistik Z=
beobachtet − erwartet X n − μ0 = . √ Standardfehler σ/ n
Zur Erinnerung: Eine Teststatistik ist nichts anderes als eine Größe, die dazu verwendet wird, die Testentscheidung zu treffen. Unter der Nullhypothese ist Z also N (0, 1)-verteilt, denn wir verwenden hier gerade eine Standardisierung. Damit konstruieren wir nun den sogenannten Z -Test.
7
160
Kapitel 7 · Statistische Tests und Vertrauensintervalle für eine Stichprobe
Durchführung eines Z-Tests
Für eine gegebene Realisierung z=
xn − μ0 √ σ/ n
von Z lehnen wir je nach Alternative HA die Nullhypothese H0 : μ = μ0 ab, falls |z| ≥ z1− α
⇐⇒
K = −∞, −z1− α ∪ z1− α , ∞
¨ HA : μ = μ0 (7.3) fur
z ≥ z1−α z ≤ zα
⇐⇒
K = [z1−α , ∞)
¨ HA : μ > μ0 fur
(7.4)
⇐⇒
K = (−∞, zα ] = (−∞, −z1−α ]
¨ HA : μ < μ0 fur
(7.5)
2
2
2
Das Symbol K bezeichnet wieder den Verwerfungsbereich und zα ist das (α × 100)%Quantil der Standardnormalverteilung.
7
Der Verwerfungsbereich in Gl. (7.3) lässt sich folgendermaßen begründen: Die Teststatistik Z ist unter der Nullhypothese N (0, 1)-verteilt, woraus sich die Wahrscheinlichkeit für einen Fehler 1. Art als Pμ0 |Z| ≥ z1− α2 = α ergibt (siehe . Abb. 7.2). Also genau so wie es sein sollte: Unter H0 fallen wir nur mit Wahrscheinlichkeit α in den Verwerfungsbereich. Oder alternativ: Wir schneiden bei der Verteilung unter der Nullhypothese links und rechts je die Fläche α/2 ab. Für die einseitigen Alternativen (7.4) und (7.5) verlaufen die Überlegungen analog. Dort schneidet man das „ganze“ α entweder rechts oder links ab, um den entsprechenden Verwerfungsbereich zu erhalten.
. Abb. 7.2
Dichtefunktion der Teststatistik Z unter der Nullhypothese. Der Verwerfungsbereich des zweiseitigen Z -Tests zum Niveau α ist blau markiert. Man beachte, dass z α = −z1− α gilt 2
2
161 7.2 · Tests für eine Stichprobe bei normalverteilten Daten
Beispiel: Abfüllmaschine (Fortsetzung)
Wir betrachten das Beispiel mit der Abfüllmaschine. Wenn wir auf dem 5%-Signifikanzniveau testen, ergibt sich für den Z-Test der Verwerfungsbereich K = (−∞, −1.96] ∪ [1.96, ∞), da z0.975 = 1.96 gilt (siehe 7 Anhang 10.4 ganz unten). Wenn wir annehmen, dass das wahre σ = 1.23 beträgt, haben wir als realisierten Wert der Teststatistik z=
1002.63 − 1000 = 6.76. √ 1.23/ 10
Der beobachtete Wert der Teststatistik liegt also (deutlich) im Verwerfungsbereich und wir können die Nullhypothese verwerfen. Wir haben somit statistisch nachgewiesen, dass die Maschine falsch kalibriert ist.
Mit dem ursprünglichen Ansatz (d. h. ohne Standardisierung) würden wir übrigens genau das Gleiche (d. h. den gleichen Testentscheid) erhalten, einfach auf der Skala von xn . Wir verwerfen H0 zugunsten von HA , falls (nachrechnen!) σ |xn − μ0 | ≥ √ · z1− α2 n σ xn ≥ μ0 + √ · z1−α n σ σ xn ≤ μ0 + √ · zα = μ0 − √ · z1−α n n
7.2.2
¨ HA : μ = μ0 fur ¨ HA : μ > μ0 fur ¨ HA : μ < μ0 . fur
t-Test
Die Annahme, dass man die Standardabweichung σ kennt, ist in der Praxis unrealistisch. Wenn wir σ nicht kennen, ersetzen wir es durch die Schätzung σ aus (7.2). Die Teststatistik ist dann T=
beobachtet − erwartet X n − μ0 . √ = gesch¨atzter Standardfehler σ/ n
Da wir durch die Schätzung von σ eine zusätzliche „Variationsquelle“ ins Spiel gebracht haben, wird die Streuung von T größer sein als die Streuung von Z. Es liegt also daher unter der Nullhypothese keine Standardnormalverteilung mehr vor für T . Man kann zeigen, dass die „geschätzte“ Standardisierung (mit dem wahren Erwartungswert, aber dem geschätzten Standardfehler) Xn − μ √ σ/ n
7
162
Kapitel 7 · Statistische Tests und Vertrauensintervalle für eine Stichprobe
7
. Abb. 7.3 Dichten der t-Verteilung mit 1 (rot, gestrichelt), 2 (blau, gepunktet) und 5 (grün, strich-punktiert) Freiheitsgraden. Die schwarze, durchgezogene Kurve ist die Dichte der Standardnormalverteilung
einer sogenannten t-Verteilung mit n − 1 Freiheitsgraden folgt. Wir schreiben auch tn−1 für diese Verteilung. Den Freiheitsgrad kann man sich als einen Parameter mit speziellem Namen vorstellen. Die Merkregel ist: Pro Beobachtung erhalten wir einen Freiheitsgrad, pro Parameter, der uns interessiert, müssen wir einen Freiheitsgrad „bezahlen“. Es verbleiben also n − 1 Freiheitsgrade, da wir n Beobachtungen haben und uns der Parameter μ interessiert. Die t-Verteilung ist wie die Standardnormalverteilung symmetrisch um Null, hat aber eher die Tendenz, (betragsmäßig) große Werte anzunehmen. Sie ist also langschwänzig. Dies sieht man auch schön in . Abb. 7.3: Die Dichte einer t-Verteilung hat einen „kleineren“ Gipfel bei Null, dafür flacht sie weit außen viel weniger schnell ab als die Standardnormalverteilung. Dies ist insbesondere ausgeprägt, wenn die Anzahl der Freiheitsgrade klein ist. Wenn man die Anzahl der Freiheitsgrade gegen unendlich gehen lässt, liegt eine Standardnormalverteilung vor. Die konkrete Dichte der t-Verteilung schreiben wir hier gar nicht auf. Es reicht aus, wenn wir das eben beschriebene qualitative Verhalten kennen. Das (α ×100)%-Quantil der t-Verteilung mit n Freiheitsgraden bezeichnen wir mit tn,α . Die Quantile sind für kleine bis mittlere n und häufig gebrauchte Werte von α tabelliert (siehe 7 Anhang 10.4) oder sie können mittels Computer numerisch berechnet werden. Für großes n können wir auch auf die Quantile der Standardnormalverteilung zurückgreifen.
163 7.2 · Tests für eine Stichprobe bei normalverteilten Daten
Unter H0 : μ = μ0 folgt also die Teststatistik T einer t-Verteilung mit n − 1 Freiheitsgraden, d. h. T ∼ tn−1 . Dies reicht aus, um den sogenannten t-Test zu konstruieren. Durchführung eines t-Tests
Analog wie beim Z-Test lehnen wir für eine gegebene Realisierung t=
xn − μ0 √ σ/ n
von T je nach Alternative HA die Nullhypothese H0 : μ = μ0 ab, falls |t| ≥ tn−1,1− α
⇐⇒
K = −∞, −tn−1,1− α ∪ tn−1,1− α , ∞
¨ HA : μ = μ0 fur
t ≥ tn−1,1−α
⇐⇒
K = [tn−1,1−α , ∞)
¨ H A : μ > μ0 fur
t ≤ tn−1,α
⇐⇒
K = (−∞, tn−1,α ] = (−∞, −tn−1,1−α ]
¨ H A : μ < μ0 fur
2
2
2
Außer den verwendeten Quantilen hat sich also nichts geändert.
Beispiel: Abfüllmaschine (Fortsetzung)
Wir betrachten weiterhin das Beispiel mit der Abfüllmaschine. Null- und Alternativhypothese sind unverändert, d. h. H0 : μ = μ0 = 1000, HA : μ = 1000. Unter H0 folgt die Teststatistik T einer t9 -Verteilung, da n = 10 Pakete gemessen wurden. Auf dem 5%-Niveau ist der Verwerfungsbereich K gegeben durch die links- und rechtsseitigen 2.5 % extremsten Werte der Verteilung von T unter H0 , d. h. K = (−∞, −2.262] ∪ [2.262, ∞), da t9,0.975 = 2.262, siehe 7 Anhang 10.4. Der realisierte Wert der Teststatistik ist t=
1002.63 − 1000 = 6.76. √ 1.23/ 10
Der realisierte Wert liegt also im Verwerfungsbereich, daher verwerfen wir die Nullhypothese. Auch mit dem t-Test können wir statistisch nachweisen, dass die Maschine falsch kalibriert ist.
Man kann zeigen, dass der t-Test der „optimale“ Test (bezüglich der Macht, siehe 7 Abschn. 7.3.1) unter allen möglichen Tests ist, falls die Beobachtungen normalverteilt sind. Bei nicht normalverteilten Beobachtungen können andere Tests (siehe 7 Abschn. 7.5) sehr viel besser sein als der t-Test!
7
164
Kapitel 7 · Statistische Tests und Vertrauensintervalle für eine Stichprobe
7.2.3
Statistische Tests via Normalapproximation
Bei diskreten Verteilungen kann man für eine genügend große Stichprobe oft eine Normalapproximation zur Durchführung eines statistischen Tests verwenden. Hierzu gehen wir zurück zum einführenden Beispiel mit dem Binomialtest, in dem wir nachweisen wollten, dass der Anteil defekter Bauteile mehr als 10 % beträgt. Für die Anzahl defekter Bauteile X in einer Lieferung von n Bauteilen liegt unter der Nullhypothese H0 : p = p0 = 0.1 eine Bin (n, 0.1)-Verteilung vor. In einer neuen Lieferung von 500 Teilen haben wir nun x = 70 mit Defekt gefunden. Wir könnten nun einen Binomialtest durchführen, was zumindest von Hand sehr mühsam ist für n = 500. Gemäß dem Grenzwertsatz können wir die Bin (500, 0.1) zentralen Verteilung mit einer N μ, σ 2 -Verteilung approximieren, wobei μ = 500 · 0.1 = 50 und σ 2 = 500 · 0.1 · 0.9 = 45. Unter H0 : p = p0 = 0.1 gilt also X ≈ N (50, 45), bzw. wenn wir standardisieren gilt unter H0
7
Z=
X − 50 ≈ N (0, 1) . √ 45
Der Verwerfungsbereich ist auf dem 5%-Niveau gegeben durch die 5 % extremsten Werte auf der rechten Seite, d. h. K = [z0.95 , ∞) = [1.645, ∞). Wenn wir x = 70 einsetzen, erhalten wir den beobachteten Wert der Teststatistik z=
70 − 50 = 2.98. √ 45
Dieser Wert liegt im Verwerfungsbereich. Also können wir die Nullhypothese verwerfen. Nach dem gleichen Vorgehen können wir auch bei der Poisson-Verteilung für große Werte von λ mittels einer Normalapproximation einen entsprechenden Test durchführen. ? Kurze Lernkontrolle: Wahr oder falsch? 38. Wir betrachten n = 15 Zeitmessungen x1 , . . . , x15 (in Sekunden), die wir als i.i.d. Realisierungen einer Normalverteilung X ∼ N μ, σ 2 auffassen. Es ist x = 11.23 und s = 2.05. Wir wollen nachweisen, dass der Erwartungswert nicht dem Sollwert μ = μ0 = 10 entspricht. a) b)
Es ist hier H0 : μ = μ0 = 10 und HA : μ = 10. Der Verwerfungsbereich des entsprechenden zweiseitigen t-Tests ist auf dem 5%-Signifikanzniveau gegeben durch K = (−∞, −1.761] ∪ [1.761, ∞).
c)
Der beobachtete Wert der Teststatistik ist hier (gerundet) t = 2.32.
165 7.3 · Allgemeine Eigenschaften von statistischen Tests
d) e)
Angenommen obige Aussagen sind korrekt, dann können wir die Nullhypothese hier verwerfen und haben damit nachgewiesen, dass μ = 10 gilt. Allgemein gilt: Je größer die Stichprobe, desto kleiner wird bei einem t-Test die Wahrscheinlichkeit für einen Fehler 1. Art, wenn wir ein Signifikanzniveau von 5 % verwenden.
39. Wir betrachten Zähldaten x1 , . . . , x10 mit x1 + . . . + x10 = 36, die wir als i.i.d. Realisierungen einer Poisson-Verteilung X ∼ Pois (λ) auffassen. Wir wollen nachweisen, dass der Erwartungswert λ größer als 3 ist. Es soll dabei eine passende Normalapproximation verwendet werden. a)
Für die Verteilung der Summe X1 + . . . + X10 können wir unter der Null hypothese eine N μ, σ 2 -Verteilung verwenden mit μ = 30 und σ 2 = 30.
b)
Angenommen obige Aussage ist korrekt, dann ist der Verwerfungsbereich (auf der Skala der standardisierten Größe) auf dem 1%-Niveau hier gegeben durch K = [2.326, ∞).
c)
Der Wert der (standardisierten) Teststatistik berechnet sich hier als 36 − 30 √ √ . 30/ 10
Wir haben nun sowohl im diskreten als auch im stetigen Fall gesehen, wie man statistische Tests durchführen kann. Bevor wir noch weitere stetige Situationen anschauen, befassen wir uns in 7 Abschn. 7.3 allgemein mit den Eigenschaften und Besonderheiten von statistischen Tests.
Allgemeine Eigenschaften von statistischen Tests
7.3 7.3.1
Macht
Ein statistischer Test kontrolliert per Konstruktion direkt die Wahrscheinlichkeit eines Fehlers 1. Art durch das Signifikanzniveau α: P (Fehler 1. Art) = P (Test verwirft H0 , obwohl H0 stimmt) ≤ α Bei stetigen Verteilungen ist obige Ungleichung eine Gleichung, da wir das Niveau exakt kontrollieren können. Die Wahrscheinlichkeit eines Fehlers 2. Art ist hingegen eine Funktion des Parameterwerts θ ∈ HA , wir bezeichnen sie mit β(θ ), d. h. β(θ ) = P (Test akzeptiert H0 , obwohl θ ∈ HA stimmt) .
7
166
Kapitel 7 · Statistische Tests und Vertrauensintervalle für eine Stichprobe
Die Macht (Englisch: power) eines Tests ist definiert als ¨ θ ∈ HA ) . 1 − β(θ ) = P (Test verwirft richtigerweise H0 fur
7
Die Macht können wir also nur unter einer entsprechenden Annahme für θ ∈ HA berechnen. Die Macht liefert uns die Antwort auf die Frage, wie wahrscheinlich es ist, die Alternative HA nachzuweisen, wenn wir einen gewissen Parameterwert θ ∈ HA annehmen. Während wir beim Signifikanzniveau in 7 Abschn. 7.1.1 den Standpunkt der Nullhypothese eingenommen haben, gehen wir bei der Macht sozusagen nun vom eigenen Standpunkt aus (denken Sie an das Beispiel mit den defekten Bauteilen, dort war die Nullhypothese der Standpunkt des Herstellers). Die „Spielregeln“ für den statistischen Test (d. h. der Verwerfungsbereich) werden unter H0 bestimmt. Sie persönlich nehmen auch teil am Spiel, glauben aber an ein spezifisches θ ∈ HA . Für Sie ist es natürlich von Interesse, wie wahrscheinlich es ist, dass Sie „gewinnen“, d. h., mit welcher Wahrscheinlichkeit die Nullhypothese verworfen wird. Intuitiv scheint klar: Je weiter entfernt das wahre θ von H0 : θ = θ0 in Richtung der Alternative liegt, desto wahrscheinlicher wird es sein, dass die Nullhypothese verworfen werden kann. Beispiel: Gezinkte Münze entlarven
Wir betrachten 10 Würfe mit einer Münze. Die Wahrscheinlichkeit für Kopf sei p. Bei einer fairen Münze hätten wir p = 0.5. Wir vermuten, dass p > 0.5 ist. Also haben wir H0 : p = p0 = 0.5, HA : p > 0.5. Wenn wir mit X die Anzahl der Würfe mit Ausgang Kopf bezeichnen, so haben wir unter H0 , dass X ∼ Bin (10, 0.5)-verteilt ist. Dies ergibt folgende Wahrscheinlichkeiten: x ... 4 5 6 7 8 9 10 Pp0 (X = x) . . . 0.205 0.246 0.205 0.117 0.044 0.010 0.001
Der Verwerfungsbereich K ist also auf dem 5%-Niveau gegeben durch K = {9, 10}. Wir wollen nun die Macht des Tests berechnen für das Szenario p = 0.75. Dies ist die Wahrscheinlichkeit, dass wir H0 verwerfen, wenn in der Tat p = 0.75 gilt. Unter der Annahme, dass p = 0.75, ist X ∼ Bin (10, 0.75)-verteilt. Dies resultiert in folgenden Wahrscheinlichkeiten: x ... 4 5 6 7 8 9 10 Pp=0.75 (X = x) . . . 0.016 0.058 0.146 0.250 0.282 0.188 0.056
167 7.3 · Allgemeine Eigenschaften von statistischen Tests
Die Macht entspricht nun der Wahrscheinlichkeit, in diesem Szenario in den Verwerfungsbereich K zu fallen. Der Verwerfungsbereich ändert sich nicht, denn dieser wird ja immer nur unter der Nullhypothese bestimmt! Also haben wir Pp=0.75 (X ∈ K ) = Pp=0.75 (X ≥ 9) = 0.188 + 0.056 = 0.244. Unser „Gedankenexperiment“ liefert also folgendes Resultat: Wenn in Tat und Wahrheit p = 0.75 gilt, so werden wir (nur!) mit Wahrscheinlichkeit 0.244 ein signifikantes Testresultat erhalten. Die Macht des Tests ist also 0.244 bei der Alternative p = 0.75. Dies wäre also ein schlecht geplantes Experiment, denn die Erfolgsaussichten sind mit 0.244 klein. Wenn wir an ein anderes p glauben (z. B. p = 0.9), dann erhalten wir einen anderen Wert für die entsprechende Macht (für p = 0.9 wäre dies 0.736). Es macht also keinen Sinn, von der Macht zu sprechen, wenn man keine konkrete Alternative (hier: Wert für p) vorgibt.
Beim einseitigen Z-Test kann man die Macht schön illustrieren, siehe . Abb. 7.4. Für eine gegebene Stichprobengröße n und Standardabweichung σ muss man hierzu zwei Verteilungen betrachten. Auf der einen Seite die Verteilung unter der Nullhypothese; diese ist symmetrisch um μ0 (z. B. ein Sollwert) und mit ihr wird der Verwerfungsbereich bestimmt (wir verwenden hier die Variante ohne Standardisierung, siehe 7 Abschn. 7.2.1). Auf der anderen Seite hat man die Verteilung unter einer Alternative μ (z. B. eine gewisse Überschreitung des Sollwertes). Die Frage ist dann: „Mit welcher Wahrscheinlichkeit können wir in diesem Szenario die Überschreitung nachweisen?“. Diese Wahrscheinlichkeit ist gegeben durch die jeweils markierte Fläche unter der Dichte (. Abb. 7.4). Dies ist analog zu obigem Beispiel. Dort hatte man Summen von Wahrscheinlichkeiten im entsprechenden Bereich. Wir sehen in . Abb. 7.4: Je weiter entfernt wir μ von μ0 platzieren, desto größer wird die Macht. In dieser Betrachtungsweise haben wir die Stichprobengröße n und die Standardabweichung σ unverändert gelassen. Implizit wird die Macht natürlich auch durch diese beiden Größen beeinflusst. In . Abb. 7.4 „steuern“ sie die Breite der Dichten. Wir können die Macht beim Z-Test also nur berechnen, wenn wir für alle Größen eine Annahme treffen können. Die Berechnung der Macht ist also eine „theoretische“ Angelegenheit, für die man keine Daten braucht, dafür eine Ahnung über Parameterwerte θ ∈ HA . Oft wird vor einem Experiment mittels obigen Überlegungen ermittelt, wie wahrscheinlich es ist, dass man mit dem Experiment einen gewissen (vermuteten) Effekt nachweisen kann. Das heißt nichts anderes, als dass man die Macht für ein bestimmtes Szenario berechnet. Diese muss natürlich genügend groß sein, damit man ein Experiment durchführen wird (man will ja einen Erfolg sehen). Wenn die Macht zu klein ist, dann ist das Experiment sozusagen ein „hoffnungsloses“ Unterfangen, da man nur eine kleine Chance hat, ein signifikantes Resultat zu erhalten. Die Macht wird mit zunehmender Stichprobengröße größer (denn: je mehr Daten man sammelt, desto genauer wird das „Bild“, das man erhält und man kann daher eine bestimmte Abweichung von der Nullhypothese besser erkennen). In der Praxis ermittelt man so die Stichprobengröße, dass die Macht z. B. 80 % beträgt.
7
168
Kapitel 7 · Statistische Tests und Vertrauensintervalle für eine Stichprobe
7
. Abb. 7.4
Illustration der Macht bei einem einseitigen Z -Test (H0 : μ = μ0 , HA : μ > μ0 ) für drei verschiedene Szenarien für den Erwartungswert μ (und unverändertem σ bzw. n). Die blaue Linie markiert den Verwerfungsbereich auf der Skala von xn (bestimmt durch die Dichte von X n √ unter H0 ; es ist c = z1−α · σ/ n). Die grün markierte Fläche ist die Macht unter den entsprechenden Alternativen μ1 bis μ3
169 7.3 · Allgemeine Eigenschaften von statistischen Tests
Intuition zur Macht Die Macht eines statistischen Tests beschreibt nichts anderes als die Fähigkeit, wie gut dieser einen bestimmten Parameter im Bereich der Alternative (richtigerweise) entdecken kann. Die Macht ist so etwas wie die „Sehschärfe“ des statistischen Tests. In der Praxis besteht der schwierige Teil oft darin, dass man für alle Parameter, insbesondere auch für Störparameter wie die Varianz, eine (sinnvolle!) Annahme treffen muss. Falls man die Macht nicht analytisch berechnen kann, dann simuliert man einfach ganz viele Datensätze gemäß der entsprechenden Alternativhypothese und schaut, bei wie vielen die Nullhypothese verworfen werden kann.
7.3.2
P-Wert
Bis jetzt haben wir, jeweils basierend auf dem Signifikanzniveau α, den Verwerfungsbereich ermittelt und dann geschaut, ob der realisierte Wert der Teststatistik in diesem Bereich liegt oder nicht. Den Verwerfungsbereich haben wir so konstruiert, dass er bezüglich der Verteilung unter der Nullhypothese die (α ×100) % „extremsten“ Werte der Teststatistik in Richtung der Alternativhypothese enthält. Alternativ können wir auch versuchen, direkt zu schauen, wie „extrem“ der beobachtete Wert der Teststatistik liegt (bezüglich der Verteilung unter der Nullhypothese). Wir müssen dann den „Umweg“ über den Verwerfungsbereich nicht machen. Dies führt uns zum sogenannten p-Wert. Definition: p-Wert
Der p-Wert ist die Wahrscheinlichkeit, unter der Nullhypothese einen mindestens so extremen Wert der Teststatistik zu beobachten wie der aktuell beobachtete. Dabei bestimmt die Alternativhypothese, welche „Richtung“ als extremer gilt (wie bei der Form des Verwerfungsbereichs).
Schauen wir uns dies an einem Beispiel an. Beispiel: p-Wert beim Binomialtest
Bei einer Binomialverteilung mit n = 10 wollen wir die Nullhypothese H0 : p = p0 = 0.5 gegen die Alternative HA : p > 0.5 testen (p ist z. B. die Wahrscheinlichkeit für Kopf bei einer Münze). Wir haben also unter H0 die Zufallsvariable
7
170
7
Kapitel 7 · Statistische Tests und Vertrauensintervalle für eine Stichprobe
. Abb. 7.5 Illustration des p-Werts anhand einer Bin (10, 0.5)-Verteilung unter H0 : p = p0 = 0.5 und der Alternative HA : p > 0.5. Beobachtet wurde x = 7. Der p-Wert ist die Summe der Wahrscheinlichkeiten für x ≥ 7
X ∼ Bin (10, 0.5) (X ist dann die Anzahl der Würfe mit Kopf bei insgesamt 10 Würfen). Die Verteilung von X unter H0 ist in . Abb. 7.5 dargestellt. Beobachtet wurde x = 7. Da HA : p > 0.5 gilt, sind große Werte von X extrem im Sinne von HA . Der p-Wert ist hier also die Summe aller Wahrscheinlichkeiten für X größer gleich 7, d. h. p-Wert = Pp0 (X ≥ 7) = 0.17. Wenn wir zweiseitig testen würden (HA : p = 0.5), wären sowohl sehr große als auch sehr kleine Werte von X extrem im Sinne von HA . Dann müssten wir also die Wahrscheinlichkeiten „auf der anderen Seite“ auch noch dazu addieren. So extrem wie ein Wert von 7 ist dort ein Wert von 3, siehe auch . Abb. 7.5. Wir hätten dann: p-Wert = Pp0 (X ≤ 3) + Pp0 (X ≥ 7) = 0.34
Ablesen des Testentscheids am p-Wert
Wir können am p-Wert direkt den Testentscheid ablesen. Wenn der p-Wert kleiner als das Signifikanzniveau α ist, dann verwerfen wir die Nullhypothese, ansonsten nicht. Denn falls der p-Wert kleiner als α ist, dann liegt der beobachtete Wert der Teststatistik sicher im Verwerfungsbereich (zur Ermittlung des Verwerfungsbereichs verwendet man ja das gleiche „Schema“ wie bei der Berechnung des p-Werts).
171 7.3 · Allgemeine Eigenschaften von statistischen Tests
Verglichen mit dem reinen Testentscheid enthält der p-Wert aber mehr Information, da man direkt sieht, „wie stark“ die Nullhypothese verworfen wird. Viele ComputerPakete liefern den Testentscheid nur indirekt, indem der p-Wert ausgegeben wird. In der Praxis vergleicht man dann diesen mit dem verwendeten Signifikanzniveau, um den Testentscheid zu erhalten. Man kann sich den p-Wert auch als „vollstandardisierte“ Teststatistik vorstellen: Man kann alle Information ablesen und braucht keine Verteilungstabellen etc. mehr.
Bei dem Beispiel mit der einseitigen Alternative würden wir also die Nullhypothese auf dem 5%-Niveau nicht verwerfen, da 0.17 > 0.05 gilt. Schauen wir noch ein Beispiel mit einer stetigen Verteilung an. Beispiel: p-Wert beim t-Test
Die Berechnung des p-Werts bei einem t-Test mit H0 : μ = μ0 und HA : μ = μ0 verläuft konzeptionell analog. Die Verteilung unter H0 ist in . Abb. 7.6 dargestellt. Wir betrachten nun ein Beispiel, in dem wir t = 1.7 beobachtet haben (Daten nicht dargestellt). Statt Wahrscheinlichkeiten haben wir hier eine Dichte, die wir integrieren müssen. Der p-Wert ist gerade das Integral der Dichte über Werte kleiner als −1.7 bzw. größer als 1.7, d. h. p-Wert = Pμ0 (T ≤ −1.7) + Pμ0 (T ≥ 1.7) = Pμ0 (|T | ≥ 1.7) . Wenn wir einseitig testen würden, dann müsste man nur die Wahrscheinlichkeit betrachten, die „in Richtung der Alternative“ liegt.
Bei einer diskreten Verteilung ist der p-Wert also die Summe der Wahrscheinlichkeiten (unter H0 ) derjenigen Ausgänge, die mindestens so extrem sind (in Richtung der Alternative) wie der beobachtete Wert. Bei stetigen Verteilungen hat man einfach die entsprechenden Flächen unter der Dichte.
7
172
7
Kapitel 7 · Statistische Tests und Vertrauensintervalle für eine Stichprobe
. Abb. 7.6
Illustration des p-Werts anhand eines zweiseitigen t-Tests. Beobachtet wurde t = 1.7. Der p-Wert ist die Fläche unter der Dichte bei „extremeren“ Fällen (d. h. Beobachtungen, die betragsmäßig größer als 1.7 sind)
Intuition zum p-Wert Für die Intuition eines statistischen Tests haben wir uns zu Beginn des Kapitels überlegt, „wie es in einer Welt aussehen würde“, in der die Nullhypothese stimmt. Diese Information ist gegeben durch die Verteilung der Teststatistik unter der Nullhypothese. Der p-Wert ist bezüglich dieser Betrachtungsweise nichts anderes als ein Maß dafür, wie „extrem“ die tatsächlich beobachteten Daten in dieser Welt liegen (oder: wie gut Modell und Realität zusammenpassen). Je kleiner also der p-Wert ist, desto schlechter passen die beobachteten Daten in diese Welt unter der Nullhypothese.
1 Fehlinterpretationen und Gefahren des p-Werts Der p-Wert wird oft falsch interpretiert. Der p-Wert ist insbesondere nicht die Wahrscheinlichkeit, dass die Nullhypothese stimmt (darüber können wir gar keine Aussagen machen, da die Parameter fix und nicht zufällig sind). Bei der Berechnung des p-Werts geht man davon aus, dass H0 stimmt und schaut dann, wie extrem das beobachtete Ereignis liegt. Zusätzlich bedeutet ein (sehr) kleiner p-Wert nicht zwangsläufig, dass ein fachlich relevantes Resultat gefunden wurde, da der p-Wert nichts über eine Effektgröße aussagt. Hierzu werden wir später Vertrauensintervalle betrachten (siehe 7 Abschn. 7.4). Bemerkung: Da der p-Wert schlussendlich von den Daten abhängt, ist dieser auch zufällig. In der Tat kann gezeigt werden, dass der p-Wert bei stetigen Verteilungen unter der Nullhypothese Uni (0, 1)-verteilt ist.
173 7.3 · Allgemeine Eigenschaften von statistischen Tests
Multiples Testen
7.3.3
In der Praxis trifft man oft die Situation an, dass man nicht nur einen statistischen Test durchführt, sondern mehrere. Wir schreiben hierzu H0,j für die j-te Nullhypothese, j = 1, . . . , m. Mit m bezeichnen wir also die Anzahl der Tests. Sie können sich z. B. vorstellen, dass man bei Bauteilen m verschiedene Qualitätsattribute überprüft. Man spricht auch von einem multiplen Testproblem. Wenn wir annehmen, dass alle Nullhypothesen stimmen und wir jeweils auf dem Signifikanzniveau α testen, dann erwarten wir in (α × 100) % der m Fälle, dass die Nullhypothese fälschlicherweise verworfen wird (oder äquivalent dazu: dass der p-Wert kleiner als α ist). Bei m = 100 Tests erwarten wir bei einem Signifikanzniveau von 5 % unter obigen Annahmen 5 signifikante Resultate. Wenn wir also genügend viele statistische Tests durchführen, werden wir signifikante Resultate erhalten, selbst wenn alle Nullhypothesen stimmen (siehe auch 7 Abschn. 7.1.2). Das Problem besteht darin, dass wir die Tests nur „einzeln“ betrachten. Die Wahrscheinlichkeit für einen Fehler 1. Art wird nur individuell (d. h. pro Test) kontrolliert. Nirgends wird berücksichtigt, wie viele Tests wir durchführen. Etwas genauer: Wenn wir annehmen, dass alle Nullhypothesen stimmen und alle Tests unabhängig voneinander sind, dann haben wir P mind. ein H0,j wird verworfen = 1 − P kein H0,j wird verworfen ⎞ ⎛ m H0,j wird nicht verworfen ⎠ = 1 − P⎝ j=1
=1−
m
P H0,j wird nicht verworfen
j=1
= 1 − (1 − α)m . Für α = 0.05 und m = 50 ist dies schon 0.92! Unter obigen Annamen können wir auch die Verteilung der Anzahl verworfener Nullhypothesen angeben: Es handelt sich um die Bin (m, α)-Verteilung (daraus folgt natürlich obige Formel auch). Für den Fall, in dem wir keine Unabhängigkeit annehmen, haben wir die (grobe) Abschätzung
⎛
P mindestens ein H0,j wird verworfen = P ⎝
m
H0,j
⎞ wird verworfen ⎠
j=1 (1.3)
≤
m P H0,j wird verworfen j=1
= α · m. Wenn wir für jeden einzelnen Test das striktere Niveau α ∗ = können wir damit erreichen, dass P mindestens ein H0,j wird verworfen ≤ α.
α m
verwenden, dann
7
174
Kapitel 7 · Statistische Tests und Vertrauensintervalle für eine Stichprobe
Diese Korrektur des individuellen Signifikanzniveaus nennt man auch BonferroniKorrektur. Sie ist sehr einfach und universell gültig. Der Nachteil ist, dass man ein sehr striktes Niveau verwenden muss, wenn m sehr groß ist. Für m = 100 und α = 0.05 bedeutet dies also, dass wir die einzelnen Tests auf dem (viel „strengeren“) Signifikanzniveau 0.0005 durchführen müssen. Verglichen mit anderen Korrekturmethoden (die wir hier nicht anschauen) verliert man Macht. Die Wahrscheinlichkeit P mindestens ein H0,j wird f¨alschlicherweise verworfen wird auch als sogenannte family-wise error rate (FWER) bezeichnet (da wir eine „Familie“ von m Tests betrachten). Mit der Bonferroni-Korrektur wird also gerade dafür gesorgt, dass diese family-wise error rate kontrolliert wird, d. h. es gilt FWER ≤ α.
7
Dem Problem, dass wir insgesamt m Tests betrachten, wird so entsprechend Rechnung getragen. Intuition zur family-wise error rate Wenn wir die family-wise error rate kontrollieren, bedeutet dies: „Mit Wahrscheinlichkeit 1 − α ist unter den m Tests keine einzige Fehlentscheidung bezüglich Fehler 1. Art“. Die family-wise error rate ist ein sehr „strenges“ Maß. Wegen des Wortes „mindestens“ spielt es für die family-wise error rate keine Rolle, ob wir nur einen, 10 oder noch mehr Fehler 1. Art begehen (nach dem Motto: „Ein Fehler ist schon ein Fehler zu viel“). Dieses sehr strikte Vorgehen führt dazu, dass wir für Verfahren, die die family-wise error rate kontrollieren, tendenziell wenig signifikante Resultate erhalten (d. h. kleine Macht haben). Denn: Ein statistischer Test „enthält“ sich im Zweifelsfall lieber einmal zu viel als zu wenig, um ja keinen Fehler 1. Art zu begehen. Je nach Anwendungszweck der Resultate kontrolliert man daher besser andere Fehlermaße als die family-wise error rate (was wir hier aber nicht weiter betrachten).
In der Praxis sollte man also nur einen im Voraus definierten Test durchführen oder, falls man wirklich an mehreren Tests interessiert ist, eine entsprechende Korrekturmethode anwenden. ? Kurze Lernkontrolle: Wahr oder falsch? 40. Betrachten Sie die folgenden Aussagen. a)
b)
c)
Die Macht eines statistischen Tests für eine bestimmte Alternativhypothese sei 0.75. Dann bedeutet dies, dass, wenn wir die Nullhypothese verwerfen können, diese Alternativhypothese mit Wahrscheinlichkeit 75 % stimmt. Die Macht eines statistischen Tests für eine bestimmte Alternativhypothese können wir erst berechnen, wenn wir die Daten für den entsprechenden statistischen Test erhoben haben. Wenn wir das Signifikanzniveau verkleinern, dann wird die Macht generell auch kleiner.
175 7.4 · Vertrauensintervalle
41. Betrachten Sie die folgenden Aussagen. a) b) c) d)
7.4
Der p-Wert bei einem Test sei 0.03. Dann kann man die Nullhypothese auf dem 5%-Niveau verwerfen, aber nicht auf dem 1%-Niveau. Am p-Wert können wir immer den Testentscheid ablesen. Der p-Wert bei einem einseitigen t-Test sei 0.04. Dann ist der p-Wert des entsprechenden zweiseitigen Tests 0.08. Wenn wir 20 Tests betrachten, dann können wir die individuellen p-Werte mit 20 multiplizieren und das ursprüngliche Signifikanzniveau (z. B. α = 0.05) für den Testentscheid verwenden und erhalten so gerade das gleiche Resultat wie mit der Bonferroni-Korrektur.
Vertrauensintervalle
Wir haben bis jetzt gesehen, wie wir mit Parameterschätzern basierend auf Daten den „plausibelsten“ Parameterwert berechnen können. Zusätzlich können wir mit statistischen Tests entscheiden, welche Parameterwerte sicher nicht mit den Daten verträglich sind (nämlich diejenigen, bei denen die Nullhypothese verworfen wird). Jetzt geht es noch darum, die Menge aller plausiblen Parameterwerte zu ermitteln. Dies führt zum Vertrauensintervall, welches wir schon in 7 Abschn. 6.3.4 kennengelernt haben. Definition: Vertrauensintervall für einen Modellparameter
α ) × 100 % -Vertrauensintervall I für den Parameter θ (oft auch KonfidenzinterDas (1−α vall genannt) besteht aus allen Parameterwerten, die im Sinne eines statistischen Tests zum Signifikanzniveau α mit den beobachteten Daten verträglich sind (üblicherweise nimmt man den zweiseitigen Test). Mathematisch heißt das: I = {θ0 : Nullhypothese H0 : θ = θ0 wird nicht verworfen} Das bedeutet also, dass wir zur Ermittlung eines 95%-Vertrauensintervalls sozusagen alle θ0 auf dem Signifikanzniveau 5 % „durchtesten“ und diejenigen „sammeln“, bei denen die entsprechende Nullhypothese nicht verworfen wird (die Daten bleiben dabei natürlich fix).
Diese Beziehung stellt eine Dualität zwischen Tests und Vertrauensintervall dar. Wenn ein Wert θ0 im Vertrauensintervall enthalten ist, so wissen wir, dass die entsprechende Nullhypothese nicht verworfen wird (sonst wäre ja der Wert nicht im Vertrauensintervall enthalten). Wir erhalten so also direkt den Testentscheid. Auf der anderen Seite kann mit Hilfe des Tests direkt das Vertrauensintervall konstruiert werden (gemäß Definition). Das Vertrauensintervall ist zufällig, denn es hängt indirekt von unseren Beobachtungen ab, die wir als Realisierungen von Zufallsvariablen betrachten. Für eine andere Realisierung werden wir also ein (leicht) anderes Vertrauensintervall erhalten! Diese Überlegung führt zu einer alternativen Interpretation: Man kann zeigen, dass das (1 − α) × 100%-Vertrauensintervall I den unbekannten wahren Parameter θ mit Wahrscheinlichkeit 1 − α „einfängt“, d. h.
7
176
Kapitel 7 · Statistische Tests und Vertrauensintervalle für eine Stichprobe
P (I θ) = 1 − α. Hier ist I zufällig und θ fix, daher auch die etwas speziellere Schreibweise mit dem Symbol „“, das wir mit „enthält“ übersetzen. Damit haben wir auch in 7 Abschn. 6.3.4 die Herleitung bestritten. Wenn wir ein Experiment (oder eine Simulation) viele Male wiederholen, dann fängt das Vertrauensintervall den wahren (unbekannten) Parameter also im Schnitt in (1 − α) × 100 % der Fälle ein. Diese Denkweise ist in . Abb. 7.7 illustriert. Dort hat man den wahren Parameter effektiv in 3 von 100 Fällen „verpasst“. Intuition zur Interpretation eines Vertrauensintervalls Sowohl die Sichtweise mit dem statistischen Test als auch die Sichtweise mit der Überdeckungswahrscheinlichkeit führen dazu, dass wir das Vertrauensintervall I für θ als denjenigen Wertebereich für unseren Modellparameter θ interpretieren, den wir aufgrund der vorliegenden Daten als plausibel betrachten.
7 Beispiel: Abfüllmaschine (Fortsetzung des Beispiels aus 7 Abschn. 7.2)
Wir betrachten nochmals das Beispiel mit der Abfüllmaschine von Paketen. Wir hatten dort für n = 10 Beobachtungen die Kennzahlen x = 1002.63 und s = 1.23. Jetzt bestimmen wir damit ein 95%-Vertrauensintervall für den Erwartungswert μ der Normalverteilung. Wir müssen also alle Nullhypothesen „sammeln“, die auf dem 5%-Niveau nicht verworfen werden. Diese sind gegeben durch die Menge xn − μ0 : √ ≤ 2.262 σ/ n σ : |xn − μ0 | ≤ √ · 2.262 n σ σ : − √ · 2.262 ≤ μ0 − xn ≤ √ · 2.262 n n σ σ : xn − √ · 2.262 ≤ μ0 ≤ xn + √ · 2.262 n n σ = xn ± √ · 2.262. n
I = μ0 = μ0 = μ0 = μ0
Ganz genau genommen müsste man „ μ0 ist, und Vi = 0 sonst. Schlussendlich verwenden wir als Teststatistik W =
n
Rang(|Xi − μ0 |)Vi ,
i=1
d. h., wir betrachten nur die Ränge auf einer „Seite“ von μ0 . Unter H0 erwarten wir „eine gute Mischung“ von Rängen auf beiden Seiten von μ0 . So sollten z. B. die betragsmäßig großen Abweichungen (die großen Ränge) nicht auf der einen Seite von μ0 konzentriert sein. Wir verwerfen also H0 , falls W allzu groß oder allzu klein ist (je nach Form der Alternative). Die konkreten Schranken für zu groß oder zu klein entnimmt man aus Tabellen, siehe z. B. . Tab. 7.3. In der Tat ist die Verteilung unter H0 nichts anderes als dass wir die (fixen) Zahlen 1, . . . , n durchgehen (die Ränge) und jeweils eine Münze werfen, ob der entsprechende Rang „links“ oder „rechts“ von μ0 liegt (und am Schluss entsprechend aufsummieren). Alternativ und einfacher liest man den Testentscheid direkt am p-Wert des Computer-Outputs ab.
Beispiel: Ein einziges Mal: Wilcoxon-Test von Hand durchführen
Wir wollen zur Illustration die Teststatistik des Wilcoxon-Tests am Beispiel der Daten aus . Tab. 7.2 berechnen. Hierzu erstellen wir zuerst einmal ein „Inventar“ über die benötigten Größen, siehe . Tab. 7.4. Der realisierte Wert der Teststatistik W ist also W = 8 + 10 + 5 + 4 + 9 + 7 + 6 + 2 + 3 = 54. Dieser liegt im Verwerfungsbereich, wenn wir zweiseitig auf dem 5%-Niveau testen. Ein Computer-Programm würde einen p-Wert von 0.004 liefern, was natürlich zum gleichen Testentscheid führt.
Bemerkung: Auch beim Wilcoxon-Test gilt: Falls es in der Praxis Beobachtungen gibt, die exakt mit μ0 übereinstimmen, so lässt man diese weg und reduziert die Stichprobengröße n entsprechend. Wenn es mehrere Beobachtungen gibt mit gleichem Wert |xk − μ0 |, mittelt man die entsprechenden Ränge.
7
184
Kapitel 7 · Statistische Tests und Vertrauensintervalle für eine Stichprobe
. Tab. 7.3 Kritische Grenzen beim Wilcoxon-Test für das 5%-Niveau. Für den zweiseitigen Test ist der Verwerfungsbereich gegeben durch K = {W ≤ l} ∪ {W ≥ u}. Bei einem einseitigen Test verwendet man die entsprechenden Werte in der Spalte „einseitig“ zweiseitig
7
einseitig
n
l
u
l
u
6
0
21
2
19
7
2
26
3
25
8
3
33
5
31
9
5
40
8
37
10
8
47
10
45
11
10
56
13
53
12
13
65
17
61
13
17
74
21
70
14
21
84
25
80
15
25
95
30
90
16
29
107
35
101
17
34
119
41
112
18
40
131
47
124
19
46
144
53
137
20
52
158
60
150
21
58
173
67
164
22
65
188
75
178
23
73
203
83
193
24
81
219
91
209
25
89
236
100
225
26
98
253
110
241
27
107
271
119
259
28
116
290
130
276
29
126
309
140
295
30
137
328
151
314
185 7.5 · Tests für eine Stichprobe bei nicht normalverteilten Daten
. Tab. 7.4 Daten und entsprechende Ränge im Beispiel der Abfüllmaschine k
xk
|xk − μ0 |
Rang(|xk − μ0 |)
Vk
1
1003.05
3.05
8
1
2
1004.11
4.11
10
1
3
1002.61
2.61
5
1
4
1002.51
2.51
4
1
5
1003.99
3.99
9
1
6
1003.02
3.02
7
1
7
1002.95
2.95
6
1
8
1001.90
1.90
2
1
9
999.70
0.30
1
0
10
1002.47
2.47
3
1
Intuition: Welchen Test soll ich nun verwenden? In der Praxis ist der Wilcoxon-Test in der Regel dem t- oder Vorzeichentest vorzuziehen. Selbst wenn die Daten von einer exakten Normalverteilung kommen, hat der Wilcoxon-Test nur minimal kleinere Macht als der t-Test. Bei Abweichungen von der Normalverteiung hat der Wilcoxon-Test (viel) größere Macht als der t-Test.
? Kurze Lernkontrolle: Wahr oder falsch? 43. Betrachten Sie folgende Aussagen. a)
b) c)
Wir führen einen einseitigen Vorzeichentest durch (nach oben). Bei 14 von 15 Messungen findet in der Tat eine Überschreitung des Sollwerts statt. Dann ist der p-Wert des entsprechenden Vorzeichentests (gerundet) 0.0005. Der Wilcoxon-Test hat weniger starke Voraussetzungen als der t-Test. Wenn wir beim Beispiel mit der Abfüllmaschine die Beobachtung x2 = 1004.11 ersetzen durch den Wert 10 041.1, dann ändert dies den Wert der Teststatistik des Wilcoxon-Tests.
7
186
Kapitel 7 · Statistische Tests und Vertrauensintervalle für eine Stichprobe
7.6
Rückblickender Überblick über Konzepte
Das Vorgehen bei einem statistischen Test und die wichtigsten Fragen sind in . Abb. 7.9 bzw. . Tab. 7.5 nochmals zusammengefasst. Ferner findet man in den . Abb. 7.10 und 7.11 nochmals eine Übersicht über die wichtigsten Tests.
7
. Abb. 7.9
Vorgehen bei statistischen Tests und Zusammenhang mit dem Vertrauensintervall
187 7.6 · Rückblickender Überblick über Konzepte
. Abb. 7.10
Statistische Tests bei diskreten Verteilungen
. Abb. 7.11
Statistische Tests bei stetigen Verteilungen
7
188
Kapitel 7 · Statistische Tests und Vertrauensintervalle für eine Stichprobe
. Tab. 7.5 Typische Fragen im Zusammenhang mit statistischen Tests
7
Frage
Stichwort
Berechnung / Antwort
Welche Werte sind aufgrund der vorliegenden Daten plausibel für den Modellparameter θ ?
Vertrauensintervall für θ
Alle Nullhypothesen, die nicht verworfen werden können
Liegt ein signifikantes Testresultat vor? Können wir die Nullhypothese verwerfen?
Testentscheid
Verwerfe die Nullhypothese, falls • Teststatistik liegt im Verwerfungsbereich • p-Wert ist kleiner als Signifikanzniveau • Vertrauensintervall enthält Nullhypothese nicht (alle äquivalent)
Wie wahrscheinlich ist es, dass wir ein signifikantes Testresultat erhalten, wenn H0 stimmt?
Fehler 1. Art
Automatisch kontrolliert durch die Wahl des Signifikanzniveaus
Wie wahrscheinlich ist es, dass wir kein signifikantes Testresultat erhalten, wenn H0 nicht stimmt?
Fehler 2. Art
Berechne β(θA ) = PθA (T ∈ K ) für ein θA ∈ HA . Der Parameter θA muss gewählt werden.
Wie wahrscheinlich ist es, dass wir ein signifikantes Testresultat erhalten, wenn H0 nicht stimmt?
Macht (= 1 − P (Fehler 2. Art))
Berechne PθA (T ∈ K ) für ein θA ∈ HA . Der Parameter θA muss gewählt werden.
Ist ein signifikanter Effekt auch relevant?
Relevanzbereich
Betrachte, wie das Vertrauensintervall bzgl. des Relevanzbereiches liegt. Der Relevanzbereich wird durch Fachwissen festgelegt.
Verständnisfragen: Alles klar? 5 5 5 5 5 5 5 5 5 5 5 5 5
Was ist das Konzept eines statistischen Tests? Was sind die beiden Fehlerarten eines statistischen Tests? Wann ist eine einseitige Alternativhypothese angebracht? Wie ermittelt man für einen statistischen Test den Verwerfungsbereich? Wann ist ein t- bzw. Z-Test angebracht? Wie führt man einen t- bzw. Z-Test durch? Welche Tests kann man verwenden, falls die Daten nicht normalverteilt sind? Was ist die Macht eines statistischen Tests? Was sagt ein p-Wert aus? Wie kann man am p-Wert den Testentscheid ablesen? Wie kann man aus einem statistischen Test ein Vertrauensintervall herleiten (bzw. umgekehrt)? Wie interpretiert man ein Vertrauensintervall? Wie kann man die Relevanz eines Effekts untersuchen?
189
Vergleich zweier Stichproben Inhaltsverzeichnis 8.1
Gepaarte und ungepaarte Stichproben – 190
8.2
Grundlegende Gedanken zur Versuchsplanung – 192
8.3
Gepaarte Vergleiche – 195
8.4
Zwei-Stichproben-Tests – 197
8.5
Vergleich der Konzepte – 201
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 L. Meier, Wahrscheinlichkeitsrechnung und Statistik, https://doi.org/10.1007/978-3-662-61488-4_8
8
190
Kapitel 8 · Vergleich zweier Stichproben
n Begriffe, die Sie in diesem Kapitel kennenlernen werden 5 5 5 5 5 5
Gepaarte und unabhängige/ungepaarte Stichproben, Block(bildung) Randomisierte kontrollierte Studie, Beobachtungsstudie Ursache-Wirkung-Beziehung/kausaler Zusammenhang, kausales Diagramm Doppelblind Confounder Zwei-Stichproben-t-Test für unabhängige Stichproben
Häufige und wichtige Anwendungen der Statistik liegen im Vergleich verschiedener Verfahren oder Versuchsbedingungen. Hat z. B. Legierung A im Mittel eine höhere Zugfestigkeit als Legierung B (wie dies der Hersteller behauptet)? Oder führt ein neues technisches Verfahren zu weniger Ausschussware? Wenn Sie an Ihre eigene Gesundheit denken, dann wünschen Sie wohl, dass ein neues Medikament wirksamer als das alte ist. Als einfachsten Fall behandeln wir hier den Vergleich zweier Methoden (Verfahren, Gruppen, Versuchsbedingungen, Behandlungen) bezüglich des Erwartungswerts.
8
8.1
Gepaarte und ungepaarte Stichproben
Wir beginnen mit einem kleinen Beispiel: Um zwei Hörgeräte zu vergleichen, können wir Probanden in zwei Gruppen aufteilen. Die eine Gruppe erhält Hörgerät A, die andere Gerät B, und jeder Proband macht einen Hörtest (es gibt also nur einen Test pro Proband). Alternativ könnten wir auch jeden Probanden sowohl das Gerät A als auch das Gerät B austesten lassen (d. h., jeder Proband würde dann zweimal einen Test durchführen). Dies sind zwei unterschiedliche „Datenlagen“, die wir nun formell etwas genauer spezifizieren. Wir sprechen von gepaarten Stichproben, wenn beide „Versuchsbedingungen“ (z. B. zwei verschiedene Messmethoden oder Geräte) an derselben „Versuchseinheit“ (z. B. Prüfkörper oder Proband) eingesetzt werden. Wir haben dann folgende Datenlage x1 , . . . , xn unter Versuchsbedingung 1, y1 , . . . , yn unter Versuchsbedingung 2, wobei (xi , yi ) die Messungen an Versuchseinheit i sind. Notwendigerweise gilt dann: Die Stichprobengröße ist für beide Versuchsbedingungen dieselbe. Zwei Stichproben sind also gepaart, wenn man jede Versuchseinheit in der einen Gruppe genau einer Versuchseinheit in der anderen Gruppe zuordnen kann. Dies ist in . Abb. 8.1 illustriert. Man sagt auch, dass eine Versuchseinheit hier ein sogenannter Block ist, bei dem wir beide Versuchsbedingungen anwenden. Beispiel: Gepaarte Stichproben
Einige Fälle für gepaarte Stichproben:
191 8.1 · Gepaarte und ungepaarte Stichproben
. Abb. 8.1 Illustration einer gepaarten Stichprobe. Zwei Messungen (zu Versuchsbedingung A und B ) einer Versuchseinheit sind jeweils durch eine gestrichelte Linie verbunden. Die beiden Linien
illustrieren die Zahlenstrahle und die Kreise die entsprechenden Messwerte
5
5
Vergleich von zwei Hörgerätetypen (A und B) an 20 Probanden. Jeder Proband macht dabei zwei Hörtests: einmal mit Typ A und einmal mit Typ B. Die Versuchsbedingungen sind hier gegeben durch die Hörgerätetypen. Ein Proband ist eine Versuchseinheit. Zwei Labors messen 15 Prüfkörper aus (nicht destruktiv). Jeder Prüfkörper wird von beiden Labors ausgemessen. Hier ist ein Prüfkörper eine Versuchseinheit. Die beiden Labors sind die Versuchsbedingungen.
Im Gegensatz dazu sprechen wir von ungepaarten oder unabhängigen Stichproben, wenn die Versuchseinheiten in der einen Gruppe nichts mit den Versuchseinheiten in der anderen Gruppe zu tun haben. Wir haben dann Beobachtungen x1 , x2 , . . . , xn unter Versuchsbedingung 1, y1 , y2 , . . . , ym unter Versuchsbedingung 2. Hier kann natürlich m = n gelten. Zudem können wir bei unabhängigen Stichproben die eine Gruppe vergrößern, ohne dass dies die Größe der anderen Gruppe beeinflusst. Beispiel: Unabhängige Stichproben
Einige Beispiele für unabhängige Stichproben: 5 Vergleich der Zugfestigkeit von Stahldrähten aus zwei verschiedenen Werken. Aus jedem Werk wurden aus der Produktion zufällig 15 Drähte entnommen und entsprechend ausgemessen. Hier ist ein Draht eine Versuchseinheit und die Werke sind die verschiedenen Versuchsbedingungen. 5 Zufällige Zuordnung von 100 Testpatienten zu einer Gruppe der Größe 50 mit Medikamenten-Behandlung und zu einer anderen Gruppe der Größe 50 mit PlaceboBehandlung (Scheinmedikament). Vergleich des Gesundheitszustands nach einer bestimmten Zeitdauer. Hier ist ein Patient eine Versuchseinheit und die verschiedenen Behandlungen (mit Medikament bzw. Placebo) sind die Versuchsbedingungen.
8
192
Kapitel 8 · Vergleich zweier Stichproben
8.2
Grundlegende Gedanken zur Versuchsplanung
Fast wichtiger als die korrekte statistische Auswertung ist eine gute Versuchsplanung. Man muss sicherstellen, dass eventuelle Unterschiede zwischen den beiden Gruppen tatsächlich durch die verschiedenen Versuchsbedingungen und nicht durch andere Störgrößen verursacht werden. Hierzu müssen wir dafür sorgen, dass der einzige systematische Unterschied zwischen den Messgrößen der beiden Gruppen die Versuchsbedingungen sind. Als universelles „Rezept“ gelingt dies mit Randomisierung. Bei unabhängigen Stichproben bedeutet dies, dass man die Zuordnung von Versuchseinheit zu Versuchsbedingung zufällig wählt und auch in zufälliger Reihenfolge ausmisst. Bei gepaarten Stichproben kann man auch randomisieren, z. B. die „Reihenfolge“ oder die „Platzierung“ der beiden Versuchsbedingungen innerhalb der einzelnen Versuchseinheiten (und je nach Situation die Reihenfolge der Ausmessung). Falls man dies so durchführt und eine der Versuchsbedingungen als Kontrollgruppe (Referenz- oder Vergleichsgruppe) dient, spricht man von einer sogenannten randomisierten kontrollierten Studie (Englisch: randomized controlled trial). Das ist sozusagen der „GoldStandard“ einer Studie.
8
Beispiel: Randomisierung bei gepaarten Stichproben
Bei den vorhergehenden gepaarten Stichproben bedeutet dies Folgendes: 5 Hörgerät: Werfe eine Münze, ob ein Proband zuerst mit Hörgerät A oder B ausgerüstet wird. Falls wir zuerst alle mit Hörgerät A ausrüsten und testen, kann dies problematisch sein, falls es zeitliche Effekte gibt (z. B. Ermüdung oder Lerneffekt beim Hörtest). 5 Labors: Wieder können wir durch den Zufall entscheiden lassen, zu welchem Labor ein Prüfkörper zuerst geht. Beispiel: Randomisierung bei unabhängigen Stichproben
Bei den vorhergehenden unabhängigen Stichproben haben wir: 5 Zugfestigkeit: Die Drähte wurden schon zufällig den einzelnen Werken entnommen. Idealerweise werden diese nun auch in zufälliger Reihenfolge ausgemessen. Schlecht wäre es, wenn wir zuerst alle aus dem einen Werk ausmessen und dann alle aus dem anderen Werk. Sollte sich die Durchführung der Messung über die Zeit hinweg ändern (Eichung, Lerneffekt des Bedieners etc.), so würden wir dies der unterschiedlichen Qualität der Werken zuordnen, was nicht korrekt ist! Schlecht wäre auch, wenn wir Drähte von Werk A von Mitarbeiter 1 ausmessen lassen würden und Drähte von Werk B von Mitarbeiter 2. Unterschiede zwischen den Mitarbeitern würden wir auch dann den Werken zuordnen. 5 Medikament: Wie oben.
Wieso ist Randomisierung so mächtig, dass sie immer funktioniert? Wir schauen dies anhand des Beispiels mit dem Medikamententest an (unabhängige Stichproben).
193 8.2 · Grundlegende Gedanken zur Versuchsplanung
Unter den 100 Patienten gibt es sicher solche, die gesünder (oder kränker) sind als andere. Wir wollen aber zwei Gruppen bilden, die möglichst identische Eigenschaften haben. Der einzige Unterschied zwischen den Gruppen soll ja sein, ob jemand das Medikament oder das Placebo erhält. Erschwerend kommt hinzu, dass wir nicht alle möglichen Details über die Patienten kennen. Durch die Randomisierung hat jeder „Patiententyp“ die gleiche Wahrscheinlichkeit, in die Medikamentengruppe zu fallen. Die Randomisierung sorgt also dafür, dass wir schlussendlich in beiden Gruppen „die gleiche Mischung“ aller „Patiententypen“ haben. Dies gilt für alle möglichen Eigenschaften, insbesondere auch für solche, die wir gar nicht kennen. Es gibt also keinen systematischen Unterschied zwischen den beiden Gruppen, denn wir haben sie ja zufällig gebildet! Falls wir nach Durchführung des Experiments (Einnahme des Medikaments bzw. Placebos) einen systematischen Unterschied zwischen den beiden Gruppen feststellen können, dann können wir daraus schließen, dass dies durch das Medikament verursacht wurde. Wir können also eine Aussage über eine UrsacheWirkung-Beziehung (kausaler Zusammenhang) treffen! Bekannte Eigenschaften (z. B. Geschlecht, Krankenhaus, . . .), von denen man im Voraus weiß (oder ahnt), dass sie einen Einfluss auf die entsprechende Messgröße haben, sollen natürlich ausgenutzt werden, um homogene Gruppen zu bilden (man bildet wieder Blöcke und spricht daher von Blockbildung; Englisch: blocking). Innerhalb dieser homogenen Gruppen wird dann entsprechend in zwei Gruppen randomisiert. Merkregel für die Planung eines Experimentes
Die Merkregel für die Planung eines Experimentes lautet (nach George Box) ,,Block what you can, randomize what you cannot.‘‘ In dem Sinne sind also gepaarte Stichproben (falls realisierbar) typischerweise unabhängigen Stichproben vorzuziehen. Mehr dazu auch in 7 Abschn. 8.3.
Sobald Menschen involviert sind, ist es außerdem wichtig, dass ein Experiment (sofern möglich) doppelblind durchgeführt wird. Das heißt, dass weder die Person, welche die Behandlung durchführt oder deren Erfolg beurteilt, noch die Versuchsperson die Gruppenzugehörigkeit kennt. Dies ist wichtig, um den Effekt von Voreingenommenheit bei der Beurteilung auszuschalten. Aus ethischen Gründen ist es nicht immer möglich, eine randomisierte kontrollierte Studie durchzuführen. Das bekannteste Beispiel ist wohl der Zusammenhang zwischen Rauchen und Lungenkrebs. Wir können nicht Leute zum Rauchen zwingen. In solchen Fällen kann man kein Experiment durchführen, sondern man muss die vorhandenen Daten möglichst gut ausnutzen. Man spricht von sogenannten Beobachtungsstudien. Während wir beim Beispiel mit dem Medikament selber entscheiden können, wer das Medikament erhält und wer das Placebo, ist dies bei Beobachtungsstudien nicht der Fall. Wir hätten z. B. auch bei einem Krankenhaus nachfragen können, wie sich 50 Patienten mit dem Medikament entwickelt haben und diese dann vergleichen können mit 50 Patienten ohne das entsprechende Medikament. Wahrscheinlich hätten wir dann gesehen, dass es den Patienten mit Medikament sehr viel schlechter geht! Daraus können wir aber nicht auf den kausalen Zusammenhang schließen, dass das Medikament schädlich ist. Es kann neben dem Medikament durch-
8
194
Kapitel 8 · Vergleich zweier Stichproben
. Abb. 8.2 Zusammenhang zwischen den einzelnen Variablen. Ein Pfeil bedeutet einen kausalen Zusammenhang (Ursache-Wirkung-Beziehung)
8
aus einen anderen systematischen Unterschied zwischen den Gruppen geben, den wir nicht kennen und der einen Einfluss auf die Messgröße (z. B. Überlebenszeit) hat. Hier ist es naheliegend, dass die Patienten ohne Medikament einfach gesünder sind als die anderen (sonst hätten sie wohl auch das Medikament erhalten). Gesündere Patienten leben aber auch länger. Der Gesundheitszustand ist in diesem Fall ein sogenannter Confounder (to confound: vermengen, durcheinander bringen). Der Zusammenhang zwischen den einzelnen Variablen ist in einem sogenannten kausalen Diagramm in . Abb. 8.2 dargestellt. Was wir in den Daten sehen, ist eine Vermengung des Effekts des Medikaments und des Gesundheitszustands. Wir sind aber nur am Effekt des Medikaments interessiert, der leider nicht mehr einfach rekonstruierbar ist. In der Praxis versucht man in solchen Fällen, die kausal relevanten Störgrößen mittels geeigneten Regressionsmodellen „herauszurechnen“ bzw. „dafür zu kontrollieren“ (siehe auch 7 Kap. 9). Schlussendlich kann man sich aber nie sicher sein, an alles gedacht zu haben und man kann bei Beobachtungsstudien nicht einfach auf einen kausalen Zusammenhang schließen. Der springende Punkt ist, dass nicht randomisiert wurde. Wenn man randomisiert, eliminiert man automatisch alle möglichen Confounder. ! Achtung Eine randomisierte kontrollierte Studie ist also nicht nur viel einfacher auszuwerten, sondern sie erlaubt auch viel stärkere Schlussfolgerungen (kausale Zusammenhänge!). Der „Preis“, den man zahlt, ist eine typischerweise aufwändige, kostspielige Durchführung, da man nicht einfach Daten sammelt, sondern aktiv Experimente durchführt.
Intuition: Studien kritisch hinterfragen Wenn man etwas über Studien liest, dann lohnt es sich, diese kritisch zu hinterfragen: Werden einfach vorhandene Daten ausgewertet oder wurde ein Experiment durchgeführt? Nach welchem Prinzip wurden Gruppen gebildet? Könnte es Confounders geben? D. h., wechselt nicht nur die Versuchsbedingung, sondern auch gerade noch eine andere Größe (z. B. Vergleich von Lehrmethode A in Schule 1 mit Lehrmethode B in Schule 2). Manchmal wird auch einfach die Kontrollgruppe vergessen. So behauptet z. B. ein Therapeut, dass Patienten einen Monat nach einer Operation 40 % weniger Schmerzen haben. Das tönt auf den ersten Blick gut. Aber: Patienten ohne Therapie haben 60 %
195 8.3 · Gepaarte Vergleiche
weniger Schmerzen. Man soll sich also immer fragen: „Verglichen mit was bzw. was wäre ohne die Behandlung passiert?“.
8.3
Gepaarte Vergleiche
Bei der Analyse von gepaarten Stichproben arbeitet man typischerweise mit den Differenzen innerhalb der Paare, d. h. ui = xi − yi , i = 1, . . . , n, welche wir als Realisierungen von i.i.d. Zufallsvariablen U1 , . . . , Un auffassen. Die Modellannahmen beziehen sich also immer auf diese Differenzen. Aus den beiden Stichproben hat man mit den Differenzen eine einzelne Stichprobe gemacht. Die wissenschaftliche Fragestellung muss dann bezüglich der Differenzen spezifiziert werden. Kein Unterschied zwischen den beiden Versuchsbedingungen (immer bezüglich des Erwartungswerts) heißt einfach E(Ui ) = 0. Dies kann man formal testen mit der Nullhypothese H0 : E(Ui ) = 0 und (z. B.) mit der zweiseitigen Alternative HA : E(Ui ) = 0. Die folgenden Tests bieten sich dazu an: 1. 2. 3.
der t-Test, siehe 7 Abschn. 7.2.2. der Wilcoxon-Test, siehe 7 Abschn. 7.5.2. der Vorzeichentest, siehe 7 Abschn. 7.5.1.
Entsprechend können wir auch Vertrauensintervalle für E(Ui ) konstruieren. Intuition: Wieso sind gepaarte Stichproben nützlich? Da wir innerhalb eines „Paares“ oder „Blocks“ (Versuchseinheit) Differenzen bilden, verschwindet die Variabilität zwischen den Blöcken und man hat ein „klareres“ Bild (d. h. eine kleinere Varianz) und damit kürzere Vertrauensintervalle und mächtigere Tests. Wenn wir z. B. an Personen (= Versuchseinheit) jeweils zwei Größen (= Versuchsbedingungen) messen, so betrachten wir pro Person nur noch die Differenz der Messgrößen. Die Tatsache, dass die Messgrößen zwischen verschiedenen Personen stark unterschiedlich sein können (typischerweise viel stärker als innerhalb einer Person), haben wir so elegant eliminiert. Diese Unterschiede „verschwinden“ in den Differenzen.
8
196
Kapitel 8 · Vergleich zweier Stichproben
Denn: Pro Person sehen wir nur noch die Differenz, das personenspezifische „Niveau“ kürzt sich automatisch weg. Dies können wir auch in . Abb. 8.1 verdeutlichen. Durch die eingezeichneten gestrichelten Verbindungslinien sehen wir, dass es eine Tendenz gibt, dass A größere Werte liefert als B. Ohne diese Linien würde man dies bei diesen Daten nicht vermuten.
Beispiel: Vergleich von Übermittlungszeiten
Mark hat die Übermittlungszeit von zwei verschiedenen Mobilfunkmodems (Hersteller X und Y ) für eine große Datei unter 9 verschiedenen Szenarien gemessen (in Sekunden). Kann er damit nachweisen, dass das Produkt von Hersteller Y systematisch schneller ist? Es handelt sich hier um gepaarte Stichproben, wobei eine Versuchseinheit durch ein Szenario gegeben ist. Die zwei verschiedenen Versuchsbedingungen sind die beiden Hersteller. Szenario i 1 2 3 4 5 6 7 8 9 xi 55.6 53.0 57.7 61.7 59.6 50.9 64.3 49.5 63.5 yi 53.1 48.8 55.6 60.5 57.4 53.5 63.3 47.6 63.7 di 2.5 4.2 2.1 1.2 2.2 −2.6 1.0 1.9 −0.2
8
Es ist d = 1.37 und sd = 1.91. Wir nehmen an, dass die di i.i.d. Realisierungen einer Normalverteilung N μ, σ 2 sind und führen damit einen t-Test durch. Die Fragestellung übersetzt sich dann in H0 : μ = μ0 = 0 (,,beide gleich schnell“) und HA : μ > 0 (,,Y schneller als X“). Der Verwerfungsbereich ist auf dem 5%-Niveau gegeben durch (siehe 7 Anhang 10.4) K = [1.86, ∞). Der realisierte Wert der Teststatistik des t-Tests ist dann t=
1.37 √ = 2.15. 1.91/ 9
Die Nullhypothese kann also auf dem 5%-Niveau verworfen werden.
197 8.4 · Zwei-Stichproben-Tests
? Kurze Lernkontrolle: Wahr oder falsch? 44.
Martina und Franziska sind ambitionierte Läuferinnen. Für insgesamt 8 Trainingsläufe über die gleiche Distanz haben sie ihre Laufzeiten notiert. Die Trainingsläufe haben bei unterschiedlichen Laufbedingungen stattgefunden (z. B. wegen des Wetters), aber während eines Trainingslaufs sind Martina und Franziska jeweils gleichzeitig gelaufen, also bei gleichen Laufbedingungen. Folgende Zeiten (in Sekunden) liegen vor. Training i 1 2 3 4 5 6 7 8 Martina (xi ) 242.8 233.6 258.9 227.9 257.7 257.1 253.1 243.2 Franziska (yi ) 238.2 240.5 244.5 229.3 245.2 245.7 244.8 241.0 Differenz (di ) 4.6 −6.9 14.4 −1.4 12.5 11.4 8.3 2.2
Es ist: x = 246.79, sx = 11.78, y = 241.15, sy = 5.49, d = 5.64, sd = 7.4. a) b)
c) d)
8.4
Es handelt sich hier um gepaarte Stichproben, wobei eine Versuchseinheit durch einen Trainingslauf gegeben ist. Es kann statistisch nachgewiesen werden, dass die beiden Läuferinnen ein unterschiedliches Durchschnittstempo haben, wenn wir einen t-Test und ein Signifikanzniveau von 5 % verwenden. Das 95%-Vertrauensintervall für den erwarteten Unterschied zwischen Martina und Franziska ist gemäß obigem t-Test [−0.55, 11.83] Sekunden. Wenn wir bei gepaarten Stichproben einen t-Test anwenden, gehen wir davon aus, dass sowohl die xi als auch die yi von Normalverteilungen generiert wurden.
Zwei-Stichproben-Tests
Bei unabhängigen Stichproben können wir nicht mehr einfach Differenzen bilden, weil die entsprechende Zuordnung fehlt („es gibt keine Paare“). Wir kommen also nicht darum herum, beide Gruppen zu modellieren. Als Modell können wir i.i.d. Zufallsvariablen X1 , . . . , Xn für die eine Versuchsbedingung und Y1 , . . . , Ym für die andere verwenden. Ferner nehmen wir an, dass alle Zufallsvariablen unabhängig sind, d. h. insbesondere Xi und Yj („über die Versuchsbedingungen hinweg“). Die beobachteten Daten werden wie üblich als Realisierungen von diesen Zufallsvariablen interpretiert. Als „einfachstes“ Modell verwenden wir zwei Normalverteilungen mit unterschiedlichem Erwartungswert, aber gleicher Varianz, d. h. X1 , . . . , Xn i.i.d. ∼ N μX , σ 2
sowie Y1 , . . . , Ym i.i.d. ∼ N μY , σ 2 ,
8
198
Kapitel 8 · Vergleich zweier Stichproben
und wie oben erwähnt sollen alle Zufallsvariablen unabhängig voneinander sein. Wir interessieren uns für die beiden Erwartungswerte μX und μY . Wenn wir zweiseitig testen, haben wir die Nullhypothese H0 : μX = μY
(,,Erwartungswerte der beiden Gruppen sind identisch“)
und die Alternative HA : μX = μY
(,,Erwartungswerte der beiden Gruppen sind unterschiedlich“).
Wie beim t-Test für eine Stichprobe (siehe 7 Abschn. 7.2.2) konstruieren wir eine Teststatistik nach dem Schema beobachteter Unterschied − erwarteter Unterschied . (gesch¨atzter) Standardfehler
8
Der beobachtete Unterschied ist nichts anderes als die Differenz der beiden Mittelwerte, d. h. X n − Y m . Es gilt: 5 Xn − Y m istnormalverteilt 5 E X n − Y m = μX − μY 5 Var X n − Y m = Var X n + Var Y m = σ 2 n1 + m1 Die standardisierte Größe ist also Z=
(X n − Y m ) − (μX − μY ) ∼ N (0, 1) . σ 1n + m1
In der Praxis kennen wir σ nicht. Wir ersetzen es durch die Schätzung σpool , wobei 2 σpool
n
m 1 2 2 = (Xi − X n ) + (Yi − Y m ) n+m−2 i=1 i=1 1 σY2 . (n − 1) σX2 + (m − 1) = n+m−2
Dabei sind σX und σY die jeweiligen „normalen“ Schätzer aus den einzelnen Gruppen, siehe Gl. (7.2). Der Index „pool“ steht für „gepoolte“ (d. h. kombinierte) Informa2 ein tion aus den beiden Stichproben. Dies heißt also nichts anderes, als dass σpool gewichtetes Mittel der Schätzungen der Varianzen in den beiden Gruppen ist, wobei die Gewichte gegeben sind durch (n − 1)/(n + m − 2) bzw. (m − 1)/(n + m − 2). Wenn wir die Schätzung σpool einsetzen, erhalten wir T=
(X n − Y m ) − (μX − μY ) . σpool 1n + m1
199 8.4 · Zwei-Stichproben-Tests
Man kann zeigen, dass T einer t-Verteilung mit n + m − 2 Freiheitsgraden folgt, d. h., dass T ∼ tn+m−2 gilt. Wir müssen hier 2 Freiheitsgrade abziehen, weil wir 2 Parameter μX und μY geschätzt haben. Zwei-Stichproben-t-Test für unabhängige Stichproben
Wenn wir H0 : μX = μY testen wollen, dann verwerfen wir die Nullhypothese, falls der beobachtete Wert t=
x n − ym 1 σpool 1n + m
von T in den entsprechenden Verwerfungsbereich fällt, wobei dieser wieder von der Form der Alternativhypothese abhängt:
HA : μX = μY : K = −∞, −tn+m−2,1− α ∪ tn+m−2,1− α , ∞ 2
2
⇐⇒
|t| ≥ tn+m−2,1− α
⇐⇒
t ≥ tn+m−2,1−α
⇐⇒
t ≤ −tn+m−2,1−α .
2
HA : μX > μY : K = tn+m−2,1−α , ∞ HA : μX < μY : K=
− ∞, tn+m−2,α = − ∞, −tn+m−2,1−α
Dies ist der sogenannte Zwei-Stichproben-t-Test für unabhängige Stichproben.
Bemerkung: Die Differenz μX −μY verschwindet unter der Nullhypothese H0 : μX = μY und taucht daher in obiger Teststatistik gar nicht auf. Wie üblich müssen wir nur schauen, wie sich die Teststatistik unter der Nullhypothese verhält, um damit einen statistischen Test zu konstruieren. Analog wie in 7 Abschn. 7.4 kann man damit auch ein Vertrauensintervall für die Differenz d = μX − μY konstruieren, indem man alle Differenzen „durchtestet“ und diejenigen sammelt, die nicht verworfen werden können. Dies führt zu
8
200
Kapitel 8 · Vergleich zweier Stichproben
⎧ ⎨
⎫ ⎬ (xn − ym ) − d ≤ tn+m−2,1− α I = d : 2⎭ ⎩ σpool 1n + m1 1 1 = x n − ym ± σpool + · tn+m−2,1− α2 . n m Beispiel: Vergleich von zwei Produktionslinien
Wir vergleichen zwei Produktionslinien (A und B) einer Aluminiumlegierung. Die Frage ist, ob entsprechende Prüfkörper im Mittel verschiedene Zugfestigkeiten aufweisen oder nicht. Hierzu haben wir folgende Daten: 5 Eine Stichprobe von n = 10 Prüfkörpern (x1 , . . . , x10 ) von Produktionslinie A mit x = 398.9 und sx = 15.9 N/mm2 . 5 Die entsprechenden Daten von Produktionslinie B (y1 , . . . , y8 ) für eine Stichprobe der Größe m = 8 liefern y = 380.8 und sy = 19.0 N/mm2 .
8
Es handelt sich um ungepaarte Stichproben, weil die Prüfkörper nichts miteinander zu tun haben. Unser Modell für die Daten ist X1 , . . . , X10 i.i.d. ∼ N μX , σ 2 , Y1 , . . . , Y8 i.i.d. ∼ N μY , σ 2 und alle Zufallsvariablen sollen unabhängig voneinander sein. Für die Null- und die Alternativhypothese haben wir hier H0 : μX = μY HA : μX = μY . Wir führen nun einen Zwei-Stichproben-t-Test durch. Es ist 2 σpool =
1 9 · 15.92 + 7 · 19.02 = 300.14. 10 + 8 − 2
Dies führt zum realisierten Wert der Teststatistik t= √
398.9 − 380.8 = 2.2. 1 + 1 300.14 10 8
Der Verwerfungsbereich ist hier auf dem 5%-Niveau gegeben durch K = |t| ≥ t16,0.975 = (−∞, −2.12] ∪ [2.12, ∞). Wir können also die Nullhypothese auf dem 5%-Niveau verwerfen. Das 95%-Vertrauensintervall für die Differenz μX − μY ist gegeben durch
201 8.5 · Vergleich der Konzepte
1 1 + ·t I = 398.9 − 380.8 ± σpool 10 8 16,0.975 √ 1 1 + · 2.12 = 18.1 ± 300.14 10 8 = [0.7, 35.5] N/mm2 . Wie wir schon vom Testresultat her wissen, enthält das Vertrauensintervall die Null nicht (sonst hätten wir nicht verworfen). Wir sehen aber, dass das Vertrauensintervall sehr nahe an die Null herankommt. Die Relevanz des Unterschieds zwischen den Produktionslinien ist also nicht gesichert!
Eine Erweiterung des Zwei-Stichproben-t-Tests behandelt den Fall, bei dem die Varianzen in den beiden Gruppen nicht gleich groß sind. Man spricht vom sogenannten Welch-Test. Zudem gibt es auch eine Erweiterung des Wilcoxon-Tests für unabhängige Stichproben, den sogenannten Mann-Whitney-U-Test. Diese Tests werden dann typischerweise nicht mehr von Hand gerechnet. Die Erweiterung auf den Fall mit mehr als zwei Gruppen findet man in der Literatur unter dem Begriff „Varianzanalyse“. ? Kurze Lernkontrolle: Wahr oder falsch? 45.
Markus interessiert sich für Erdbeeren. Auf seinem Grundstück besitzt er 20 kleine Versuchsfelder. Er wählt davon 10 zufällig aus und pflanzt dort Erdbeeren mit dem handelsüblichen Dünger. Bei den restlichen 10 Versuchsfeldern verwendet er seine neue, geheime Düngermischung. Bei allen Feldern verwendet Markus das gleiche „Pflanzmuster“. Er ist daran interessiert, ob bezüglich des Ernteertrags ein Unterschied zum handelsüblichen Dünger nachgewiesen werden kann. Nach der Ernte notiert er sich jeweils das Erntegewicht in kg/m2 für jedes Versuchsfeld. Er erhält so die Daten x = 2.41 und sx = 0.2 für den handelsüblichen Dünger bzw. y = 2.66 und sy = 0.15 für seine geheime Mischung. Wir gehen davon aus, dass die Voraussetzungen des Zwei-Stichproben-t-Tests für unabhängige Stichproben erfüllt sind und führen einen solchen durch. a) b) c)
d)
Wir haben hier H0 : μX = μY und HA : μX = μY . Es ist (gerundet) σpool = 0.18. Angenommen obige Aussagen sind korrekt, dann ist der beobachtete Wert der Teststatistik hier (gerundet) −3.1 und wir können die Nullhypothese damit auf dem 5%-Niveau verwerfen. Das 95%-Vertrauensintervall für den erwarteten Unterschied zwischen den beiden Düngersorten berechnet sich hier als 2 −0.25 ± σpool ·
8.5
2/10 · 2.101.
Vergleich der Konzepte
Die wichtigsten Konzepte sind in . Abb. 8.3 nochmals illustriert. Die in diesem Abschnitt behandelten Methoden sind jeweils blau hinterlegt. Wir sehen insbesondere nochmals, dass man bei gepaarten Stichproben durch die Bildung von Differenzen
8
202
Kapitel 8 · Vergleich zweier Stichproben
8
. Abb. 8.3
Statistische Tests bei stetigen Messgrößen. Der Vergleich von zwei Stichproben ist blau
hinterlegt
wieder in der Situation von einer Stichprobe ist und die dort beschriebenen Methoden verwenden kann. Verständnisfragen: Alles klar? 5 5 5 5 5
Welches sind die wichtigen Grundsätze bei der Versuchsplanung? Was ist der Unterschied zwischen gepaarten und ungepaarten Stichproben? Was ist der Vorteil von gepaarten Stichproben? Wie kann man für gepaarte Stichproben statistische Tests durchführen oder Vertrauensintervalle berechnen, um Erwartungswerte zu vergleichen? Wie kann man für unabhängige Stichproben statistische Tests durchführen oder Vertrauensintervalle berechnen, um Erwartungswerte zu vergleichen?
203
Lineare Regression Inhaltsverzeichnis 9.1
Einführung – 204
9.2
Einfache lineare Regression – 206
9.2.1 9.2.2 9.2.3 9.2.4
Modell – 207 Parameterschätzungen – 209 Tests und Vertrauensintervalle – 215 Residuenanalyse – 218
9.3
Multiple lineare Regression – 221
9.3.1 9.3.2 9.3.3
Modell – 221 Parameterschätzungen – 223 Ausblick: Tests und Vertrauensintervalle – 224
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 L. Meier, Wahrscheinlichkeitsrechnung und Statistik, https://doi.org/10.1007/978-3-662-61488-4_9
9
204
Kapitel 9 · Lineare Regression
n Begriffe, die Sie in diesem Kapitel kennenlernen werden 5 5 5 5 5 5 5 5 5 5
9.1
9
Erklärende Variable, Zielgröße, Fehlerterm Einfaches und multiples lineares Regressionsmodell Kleinste-Quadrate-Schätzer Regression to the mean/Rückschritt zum Mittel Prognoseintervall Residuum, Residuenanalyse, Tukey-Anscombe-Plot Designmatrix Bereinigter Zusammenhang Simpson-Paradoxon F -Test, Globaltest
Einführung
Oft will man eine Größe y durch eine andere Größe x „erklären“ oder „vorhersagen“. Mögliche Fragestellungen sind: 5 Wie hängt der Maximalpuls (y) vom Alter (x) einer Person ab? Was ist der durchschnittliche Maximalpuls aller (z. B.) 40-jährigen Personen? Können wir einen Bereich angeben, in welchem der Maximalpuls einer 40-jährigen Person mit hoher Wahrscheinlichkeit liegt? 5 Können wir etwas darüber aussagen, wie gut die Note einer Person in der Schlussprüfung (y) ist, wenn wir das Resultat einer Zwischenprüfung (x) kennen? 5 Können wir etwas darüber aussagen, wie groß ein Kind wird (y), wenn wir die Körpergröße der Mutter (x) kennen? 5 Wie hängt die Schadstoffkonzentration im Boden (y) vom Abstand einer Emissionsquelle (x) ab, z. B. einer Straße? 5 Wie hängt der Getreideertrag (y) von der Dosierung eines bestimmten Düngers (x) ab? Wie viel Ertrag „gewinnt“ man im Durchschnitt, wenn man die Dosierung des Düngers um eine Einheit erhöht? In allen Beispielen versuchen wir also, einen Zusammenhang zu „verstehen“ bzw. „auszunutzen“, um eine Vorhersage zu machen. Es handelt sich jeweils nicht um einen deterministischen Zusammenhang: Die Kenntnis von x erlaubt es nicht, y exakt zu berechnen. Bei der Korrelation haben wir schon lineare Abhängigkeiten zwischen zwei Größen untersucht. Dort hatten wir aber weder eine bevorzugte „Richtung“ (d. h., welche der beiden Größen soll durch die andere Größe erklärt werden), noch war Prognose ein Thema. ! Achtung Wie schon in 7 Abschn. 8.2 besprochen, können wir anhand der Daten von Beobachtungsstudien im Allgemeinen nicht auf einen kausalen Zusammenhang (d. h. auf eine Ursache-Wirkung-Beziehung) zwischen x und y schließen. Wir können aber trotzdem versuchen, den Zusammenhang zwischen x und y zu modellieren und diesen Zusammenhang für Vorhersagen nutzen.
205 9.1 · Einführung
Beispiel: Beeinflussen die öffentlichen Telefone den Buchverkauf?
In . Abb. 9.1 ist der Zusammenhang zwischen den in der Schweiz vorhandenen öffentlichen Telefonen (Bundesamt für Kommunikation BAKOM 2019) und dem (indexierten) Umsatz des Sortimentsbuchhandels in der Deutschschweiz (Schweizer Buchhändler- und Verleger-Verband SBVV 2019) im Zeitraum 2008–2017 dargestellt. Offensichtlich besteht hier ein Zusammenhang. Dieser Zusammenhang darf aber nicht kausal interpretiert werden. Wenn wir wieder mehr öffentliche Telefone installieren würden, dann hätte dies wohl keinen Effekt auf den Umsatz des Buchhandels. Viel plausibler ist es, dass hier die Zeit als Confounder im „Hintergrund“ tätig ist. Ein mögliches kausales Diagramm ist in . Abb. 9.2 dargestellt. Im Zeitverlauf reduziert sich aufgrund der technologischen Entwicklung sowohl die Anzahl öffentlicher Telefone als auch der Umsatz des Buchhandels. Dies können wir an den Jahreszahlen in . Abb. 9.1 ablesen bzw. alternativ können wir wie in . Abb. 9.3 beide Größen gegen die Zeit auftragen. Schlussendlich beobachten wir nur eine sogenannte Assoziation und keinen kausalen Zusammenhang. Je nach Anwendungszweck (z. B. für Vorhersagen) kann es durchaus Sinn machen, solche Assoziationen zu modellieren, sofern man die Resultate entsprechend „nicht-kausal“ interpretiert und keine falschen Schlussfolgerungen zieht.
Dieses Kapitel gibt einen kurzen Einblick in die sogenannte lineare Regression. Eine umfassende Behandlung des Themas findet man z. B. in Fahrmeir et al. (2009).
. Abb. 9.1 Zusammenhang zwischen der Anzahl öffentlicher Telefone in der Schweiz und dem indexierten Umsatz des Sortimentsbuchhandels in der Deutschschweiz in den Jahren 2008–2017 (Umsatz in 2008 = 100). Die Jahreszahl ist jeweils oberhalb des entsprechenden Punktes dargestellt
9
206
Kapitel 9 · Lineare Regression
. Abb. 9.2
Mögliches kausales Diagramm für das Beispiel mit den Telefonen und dem Buchhandel
9
. Abb. 9.3 Entwicklung der Anzahl öffentlicher Telefone (durchgezogen, Achse links) und des Umsatzes des Buchhandels (gestrichelt, Achse rechts) im Verlaufe der Zeit
9.2
Einfache lineare Regression
Wir betrachten wieder paarweise vorliegende Daten (xi , yi ), i = 1, . . . , n. Beispiel: Zusammenhang zwischen Zwischen- und Schlussprüfung
Bei n = 75 Studierenden einer Lehrveranstaltung wurde sowohl die Punktzahl der Zwischenprüfung (xi ) als auch die Punktzahl der Schlussprüfung (yi ) notiert. Bei beiden Prüfungen war die Maximalpunktzahl 80. Die Kennzahlen des Datensatzes sind: x = 63.22, y = 57.64, sx = 7.52, sy = 7.56 und rxy = 0.80. Die Schlussprüfung war also wegen des tieferen Durchschnitts etwas schwieriger. Der Zusammenhang zwischen den beiden Punktzahlen ist aus . Abb. 9.4 ersichtlich. Offensichtlich besteht ein starker Zusammen-
207 9.2 · Einfache lineare Regression
. Abb. 9.4
Punktzahl der Zwischenprüfung und der Schlussprüfung von 75 Studierenden. Die eingezeichnete Gerade ist die gemäß dem Kleinste-Quadrate-Kriterium am besten passende Gerade
hang zwischen den beiden Prüfungen. Für jemanden, der die Schlussprüfung noch nicht geschrieben hat, können wir uns fragen, was wir für die Punktzahl der Schlussprüfung erwarten, wenn die Punktzahl in der Zwischenprüfung (z. B.) 70 war. Oder können wir auch einen Bereich (Intervall) angeben, in dem die Punktzahl der Schlussprüfung mit hoher Wahrscheinlichkeit liegen wird?
Der „einfachste“ Zusammenhang, den man sich vorstellen kann, ist ein linearer Zusammenhang. Dies führt zum sogenannten linearen Regressionsmodell.
9.2.1
Modell
Definition: Einfaches lineares Regressionsmodell
Das einfache lineare Regressionsmodell lautet Yi = β0 + β1 xi + Ei , i = 1, . . . , n. Man bezeichnet Yi als Zielgröße (Englisch: response variable), während xi die sogenannte erklärende Variable (Englisch: explanatory variable oder predictor) ist. Die erklärende Variable wird typischerweise als nichtzufällig aufgefasst, daher auch die
9
208
Kapitel 9 · Lineare Regression
Notation mit einem Kleinbuchstaben (falls die xi zufällig sind, kann man die folgenden Methoden auch verwenden, indem man auf die erhaltenen xi bedingt). Bei Ei handelt es sich um einen zufälligen Fehlerterm (Englisch: error term). Man kann sich z. B. Messfehler oder nichtsystematische Effekte (z. B. biologische Variabilität) darunter vorstellen. Typischerweise nehmen wir für die Fehler an, dass sie unabhängig voneinander und alle normalverteilt sind, d. h. es gilt Ei i.i.d. ∼ N 0, σ 2 . Das Modell heißt „einfach“, weil nur eine erklärende Variable vorhanden ist. Zudem heißt das Modell „linear“, da die Parameter β0 und β1 linear in der Modellgleichung vorkommen. Bei der erklärenden Variable x oder auch bei der Zielgröße Y kann es durchaus sein, dass diese durch Transformationen von ursprünglich gemessenen Größen zustande gekommen sind, siehe auch das nachfolgende Beispiel.
9
Der Zusammenhang zwischen der Zielgröße Y und der erklärenden Variable x ist also nicht exakt, d. h., die Werte der Zielgröße streuen gemäß Modellgleichung um die wahre (unbekannte) Gerade β0 + β1 x. Die Yi sind also insbesondere zufällig. Wir verwenden in der Modellgleichung für die Zielgröße daher Großbuchstaben (die realisierten Werte schreiben wir wie gewohnt als yi ). In der Tat gilt für Yi , dass Yi ∼ N β0 + β1 xi , σ 2 . Diese Denkweise ist in . Abb. 9.5 illustriert. Wenn wir einen Wert für x fixieren, so erwarten wir im Mittel den Wert β0 +β1 x für die Zielgröße Y . Dies entspricht dem Wert der Geraden an der Stelle x. Wir machen also nichts anderes als den Erwartungswert von Y als Funktion von x zu modellieren, d. h. E (Yi ) = β0 + β1 xi . Die Streuung um die Gerade wird durch den Fehlerterm verursacht und ist in . Abb. 9.5 durch die Dichte der Normalverteilung illustriert. Da E (Ei ) = 0 gilt, gibt es keine systematischen Abweichungen von der Geraden. Zusätzlich ist Var (Ei ) = σ 2 , d. h., die Streuung um die Gerade ist überall gleich groß. Zusammenfassend enthält das Modell also die Parameter β0 (Achsenabschnitt), β1 (Steigung) und σ 2 (Varianz des Fehlerterms). Das Interesse liegt typischerweise bei den ersten beiden Parametern. Daher ist die Fehlervarianz σ 2 hier auch ein Störparameter. Für das Beispiel mit den Prüfungsresultaten scheint das einfache lineare Regressionsmodell auf den ersten Blick eine sinnvolle Annahme zu sein. Folgendes Beispiel illustriert, was mit dem Zusammenhang passieren kann, wenn man die Zielgröße bzw. die erklärende Variable entsprechend transformiert.
209 9.2 · Einfache lineare Regression
. Abb. 9.5 Illustration des datengenerierenden Prozesses bei der einfachen linearen Regression. Für drei verschiedene Werte der erklärenden Variable x ist die entsprechende Verteilung der Zielgröße Y dargestellt. Die Gerade β0 + β1 x ist als durchgezogene rote Linie eingezeichnet
Beispiel: Gehirn- und Körpermasse
In . Abb. 9.6a ist sowohl die Masse des Gehirns (in g) als auch die Körpermasse (in kg) von 62 Säugetieren dargestellt (Allison and Cicchetti 1976, Weisberg 2013). Man sieht, dass man auf dieser Skala kaum etwas erkennen kann, weil ein paar wenige Ausreißer das Bild verzerren und viele Punkte nahe bei Null liegen. Wenn wir nur die Tiere mit einer Körpermasse von weniger als 5 kg betrachten (. Abb. 9.6b), so scheint ein linearer Zusammenhang einigermaßen zu passen (obwohl man bei Punkten um Null herum nicht viel sieht). Die Streuung scheint aber mit zunehmender Körpermasse zuzunehmen. Wenn wir (immer noch mit dem reduzierten Datensatz) die Gehirnmasse logarithmieren (. Abb. 9.6c), dann stabilisiert dies die Streuung in y-Richtung, aber der Zusammenhang scheint nichtlinear zu sein. Wenn wir zusätzlich noch die Körpermasse logarithmieren (. Abb. 9.6d, gerade für alle 62 Tiere), dann erhalten wir ein viel schöneres Bild. Ob ein Modell gut zu Daten passt, hängt also auch davon ab, auf welcher Skala wir die Daten betrachten.
Bemerkung: Eine Transformation mit der Logarithmusfunktion ist in der Statistik oft angebracht, wenn sich eine (positive) Messgröße über mehrere Größenordnungen erstreckt, wie es im Beispiel sowohl bei der Körpermasse als auch der Gehirnmasse der Fall war.
9.2.2
Parameterschätzungen
Die Daten (xi , yi ), i = 1, . . . , n liegen uns in Form einer „Punktwolke“ vor. Das Ziel besteht darin, die Parameter der Modellgeraden zu schätzen. Diese wählen wir so, dass die geschätzte Gerade „am besten“ durch die Punktwolke passt, siehe auch
9
210
Kapitel 9 · Lineare Regression
a
b
c
d
9
. Abb. 9.6
Körpermasse (in kg) und Gehirnmasse (in g) von 62 Säugetieren a Originaldaten b Reduzierter Datensatz (Körpermasse kleiner als 5 kg) c Reduzierter Datensatz mit logarithmierter Gehirnmasse d Vollständiger Datensatz mit logarithmierter Körpermasse und logarithmierter Gehirnmasse
. Abb. 9.7. Als Gütekriterium verwenden wir die Summe der quadrierten (vertikalen)
Abweichungen n
(yi − β0 − β1 xi )2 .
i=1
Wir wählen
211 9.2 · Einfache lineare Regression
β1 = argminβ0 ,β1 β0 ,
n (yi − β0 − β1 xi )2 . i=1
Man kann nachrechnen, dass gilt n i=1 (xi − x)(yi − y) n 2 i=1 (xi − x) β1 x. β0 = y −
β1 =
Wegen obiger Wahl des Gütekriteriums bezeichnet man diese Schätzer auch als Kleinste-Quadrate-Schätzer. Die (vertikale) Abweichung eines Datenpunktes von der geschätzten Geraden bezeichnen wir als Residuum ri (Mehrzahl: Residuen), d. h. ri = yi − yi , wobei yi = β0 + β1 xi der geschätzte Wert der Geraden an der Stelle xi ist, siehe auch . Abb. 9.7. Allgemein ist β1 x y= β0 + nichts anderes als eine Schätzung für den erwarteten Wert von Y an der Stelle x. Die Residuen benutzen wir als Approximation für die nicht beobachtbaren Fehlerterme Ei (diese kennen wir nicht, weil wir die wahre Gerade nicht kennen). Man kann zeigen, dass das arithmetische Mittel der ri bei der Kleinste-Quadrate-Schätzung immer Null ist. Daher schätzen wir die Varianz des Fehlerterms mit 1 2 ri . n−2 n
σ2 =
i=1
Dies ist nichts anderes als die empirische Varianz der Residuen mit dem Faktor n − 2 statt n − 1. Auch hier kann man nachweisen, dass die so definierten Schätzer alle erwartungstreue Schätzer für die entsprechenden Parameter sind, daher auch der spezielle Nenner n − 2 bei der Schätzung der Varianz (die 2 kommt daher, dass wir zwei Parameter, β0 und β1 , geschätzt haben). β1 = 0.80 und Für den Datensatz mit den Prüfungen erhalten wir β0 = 7.13, σ = 4.61. Die entsprechende Gerade ist in . Abb. 9.4 eingezeichnet. Wenn wir z. B. von jemandem wissen, dass die Punktzahl bei der Zwischenprüfung 70 war, dann β1 · 70 = 63 erwarten wir bei der Schlussprüfung eine Punktzahl von etwa β0 + (gerundet). Die geschätzte Gerade entspricht nicht der wahren (unbekannten) Geraden, aber sie ist hoffentlich ähnlich dazu. Wie früher bei den Parameterschätzern in 7 Kap. 6 gehen wir von einem datengenerierenden Prozess aus, dessen Parameter wir nicht
9
212
Kapitel 9 · Lineare Regression
. Abb. 9.7
Datenpunkte und mit der Methode der Kleinsten Quadrate geschätzte Gerade (gestriyi und das Residuum ri illustriert. Weil yi chelt). An der Stelle xi sind zudem der angepasste Wert unter der geschätzten Geraden liegt, ist das Residuum ri negativ
9
kennen, aber mit den vorhandenen Daten schätzen wollen. Diese Denkweise ist in . Abb. 9.8 illustriert. Für vier verschiedene Stichprobengrößen sind jeweils 3 simulierte Datensätze dargestellt, bei denen sowohl die wahre als auch die geschätzte Gerade eingezeichnet ist (die wahre Gerade kennen wir hier, weil wir die Daten selber simuliert haben). Wir sehen, dass die geschätzte Gerade je nach Datensatz um die wahre Gerade fluktuiert und nicht exakt mit ihr übereinstimmt. Die Genauigkeit nimmt mit zunehmender Stichprobengröße zu. 9.2.2.1
Maximum-Likelihood-Schätzer
Man kann auch die Maximum-Likelihood-Methode zur Schätzung der Parameter verwenden. Diese führt bei den getroffenen Modellannahmen zur gleichen Lösung wie die Kleinste-Quadrate-Schätzer von β0 und β1 . Gemäß dem Modell gilt, dass Yi ∼ N β0 + β1 xi , σ 2 , Yi unabh¨angig. Also ist die Likelihood-Funktion gegeben durch L(β0 , β1 ) =
n i=1
1
1 exp − √ 2 2π σ
yi − β0 − β1 xi σ
2 .
Entsprechend erhält man für die log-Likelihood-Funktion
n 1 1 yi − β0 − β1 xi 2 log √ − 2 σ 2π σ i=1 i=1
n 1 1 1 2 =c− , (yi − β0 − β1 xi ) , c = n · log √ 2 σ2 2π σ i=1
l(β0 , β1 ) =
n
213 9.2 · Einfache lineare Regression
. Abb. 9.8 Simulierte Datensätze der Stichprobengröße n = 10, 20, 50, 100 (von oben nach unten). Die wahre Gerade ist gegeben durch y = 1 + 2x und durchgezogen (rot) eingezeichnet. Die jeweils 0 + β 1 x ist gestrichelt (schwarz) dargestellt y=β geschätzte Gerade
9
214
Kapitel 9 · Lineare Regression
wobei c eine von den Parametern β0 und β1 unabhängige Konstante ist. Die Maximierung der log-Likelihood-Funktion entspricht also gerade dem Kleinste-QuadrateProblem. Das „willkürliche“ Gütekriterum „Kleinste Quadrate“ kann also durch normalverteilte Fehler und den entsprechenden Maximum-Likelihood-Schätzer motiviert werden! 9.2.2.2
Regression to the mean
Wir können die geschätzte Steigung β1 auch umschreiben als n (xi − x)(yi − y) n = β1 = i=1 2 i=1 (xi − x)
1 n−1
n
i=1 (xi − x)(yi − y) 1 n 2 i=1 (xi − x) n−1
1 n 2 − x)(yi − y) i=1 (yi − y) n−1 = · 1 n 1 n 1 n 2 2 2 i=1 (xi − x) i=1 (yi − y) i=1 (xi − x) n−1 n−1 n−1 sy = rxy , sx 1 n i=1 (xi n−1
9
wobei rxy die empirische Korrelation und sx bzw. sy die empirischen Standardabweichungen sind (siehe 7 Abschn. 3.4). Die geschätzte Steigung ist also „nur“ eine umskalierte Version der Korrelation. Liegt eine Beobachtung x eine Standardabweichung über dem Mittelwert, d. h. x = x + sx , dann erwarten wir für Y den Wert y= β0 + β1 (x + sx ) = y + rxy sy . Falls die Punkte nicht exakt auf einer Geraden liegen, dann gilt |rxy | < 1 und daher liegt y weniger als eine Standardabweichung sy von y entfernt. Man nennt dies auch regression to the mean oder „Regression (Rückschritt) zum Mittel“. Dies ist der historische Grund für den Namen Regression. Intuition zum Phänomen „regression to the mean“ Je nach Sichtweise klingt Rückschritt zum Mittel auf den ersten Blick etwas „deprimierend“. Am Beispiel mit den Prüfungen kann dieser Sachverhalt aber gut erläutert werden. Das Resultat einer Prüfung besteht (idealisiert betrachtet) aus zwei Komponenten: Können (Fähigkeit) und Glück (Zufall). Die Studierenden, die bei der Zwischenprüfung sehr gut waren, setzen sich zusammen aus einigen, bei denen überdurchschnittliches Glück (und nur durchschnittliches Können) im Spiel war (die „Glückspilze“) und solchen, die überdurchschnittliches Können haben und nicht außerordentliches Pech hatten. Bei der Schlussprüfung ist das Können typischerweise immer noch gleich groß (insbesondere falls die Prüfungen zeitlich nahe beieinander liegen), aber das Glück wird „neu ausgelost“ und die Wahrscheinlichkeit, dass es für die einstigen „Glückspilze“ kleiner ist als bei der Zwischenprüfung, ist groß (nach dem Motto: „Es kann nur noch schlechter werden“). Die andere Gruppe hingegen muss „nur“ (noch einmal) vom großen Pech verschont werden (was wahrscheinlicher ist). So kommt es, dass die Studie-
215 9.2 · Einfache lineare Regression
rendengruppe mit der sehr guten Zwischenprüfung im Mittel bei der Schlussprüfung zwar noch immer ziemlich gut abschneidet, aber nicht mehr ganz so gut wie bei der Schlussprüfung. Ähnlich verhält es sich mit den schlechten Resultaten bei der Zwischenprüfung. Dort war unter anderem außerordentliches Pech im Spiel, das dann bei der Schlussprüfung tendenziell wieder besser wird (jetzt lautet das Motto: „Es kann nur noch besser werden“). Dieses Effekts muss man sich bewusst sein, ansonsten können leicht falsche Schlussfolgerungen gezogen werden. Wenn man z. B. bei der Zwischenprüfung die „schlechtesten“ 10 % der Studierenden betrachtet und diesen ein spezielles Unterstützungsprogramm anbietet, dann ist ein möglicher Effekt dieses Programms vermischt mit dem Phänomen des Rückschritts zum Mittel. Selbst wenn das Programm nichts nützt, werden die Ergebnisse tendenziell besser. Man müsste in einem solchen Fall einen Teil dieser Studierenden als Kontrollgruppe ohne Unterstützungsprogramm verwenden.
9.2.3
Tests und Vertrauensintervalle
Verglichen mit Numerik (oder linearer Algebra) haben wir in der Statistik den großen β1 angeben können. Man kann herleiten, Vorteil, dass wir die Genauigkeit von β0 und dass gilt
β0 = N
β0 , σ
β1 = N
β1 ,
2
σ2 SSx
x2 1 + n SSx
,
wobei SSx =
n
(xi − x)2 .
i=1
Die Parameterschätzer sind also auch wieder Zufallsvariablen, die um die wahren (unbekannten) Parameterwerte herum streuen (genau wie früher!). Wir sehen insbesondere sofort, dass die beiden Parameterschätzer erwartungstreu sind. Die Genauigkeit ist dann gegeben durch die Varianz (oder Standardabweichung) der Verteilung der Parameterschätzer. Die Standardabweichung eines Parameterschätzers bezeichnen wir wie in 7 Abschn. 6.3.4 als Standardfehler. √ σ ein, Der Standardfehler von β1 ist also σ/ SSx . Setzt man die Schätzung so erhält man den geschätzten Standardfehler. Damit kann man wie beim t-Test in 7 Abschn. 7.2.2 eine Teststatistik konstruieren. Es gilt tatsächlich, dass
9
216
Kapitel 9 · Lineare Regression
β1 − β1 ∼ tn−2 . √ σ / SSx Wie in 7 Abschn. 7.2.2 können wir also eine Funktion der Form beobachtet − erwartet gesch¨atzter Standardfehler als Teststatistik verwenden. Beim Test der Nullhypothese H0 : β1 = 0 (,,Es gibt keinen linearen Zusammenhang zwischen x und y‘‘) vs. die Alternative HA : β1 = 0 (,,Es ist ein linearer Zusammenhang zwischen x und y vorhanden‘‘) verwerfen wir also H0 auf dem Niveau α zugunsten von HA , falls
9
β1 √ σ / SS
x
≥ tn−2,1− α . 2
Oft wird der p-Wert des Tests automatisch von entsprechender Software geliefert. Analog wie beim t-Test ist das (1 − α) × 100%-Vertrauensintervall für β1 gegeben durch σ . β1 ± tn−2,1− α2 · √ SSx Das Vertrauensintervall hat also wieder die Form Sch¨atzwert ± Quantil × gesch¨atzter Standardfehler. Für großes n haben wir im Falle des 95%-Vertrauensintervalls wieder wie in 7 Abschn.7.4 die Merkregel
Sch¨atzwert ± 2 × gesch¨atzter Standardfehler. Wir haben hier alles nur für die Steigung β1 betrachtet. In den meisten Anwendungen ist die Steigung auch der Parameter von Interesse. Alle Berechnungen für den Achsenabschnitt β0 verlaufen analog.
217 9.2 · Einfache lineare Regression
Beispiel: Zusammenhang zwischen Zwischen- und Schlussprüfung (Fortsetzung)
Ein Computer-Output liefert für das Beispiel mit den Prüfungen folgendes Resultat:
(Intercept) zwischenpr
Estimate Std. Error t value Pr(>|t|) 7.12633 4.54006 1.57 0.121 0.79902 0.07131 11.20 |t|)) ist sogar kleiner als 2 · 10−16 , d. h., die Nullhypothese H0 : β1 = 0 wird deutlich zugunsten von HA : β1 = 0 verworfen. Das 95%-Vertrauensintervall für β1 ist gegeben durch 0.79902 ± t73,0.975 · 0.07131 ≈ 0.79902 ± 2 · 0.07131 = [0.66, 0.94]. Gemäß den vorliegenden Daten können wir also davon ausgehen, dass die wahre Steigung im Bereich [0.66, 0.94] liegt.
1 Vertrauensintervalle für den Erwartungswert und Prognoseintervalle Wir können nicht nur für die Parameter β0 und β1 , sondern auch für den wahren Wert der Geraden an einer Stelle x ein Vertrauensintervall angeben. Nochmals zur Erinnerung: Der Wert der Modellgeraden an der Stelle x ist nichts anderes als der Erwartungswert der Zielgröße für das gegebene x und ist gegeben durch β0 + β1 x. Also macht man ein Vertrauensintervall für den (fixen, aber unbekannten) speziellen Modellparameter „Erwartungswert an der Stelle x“. Zusätzlich kann man auch ein sogenanntes Prognoseintervall konstruieren. Dies ist dann ein Intervall, das eine neue (zufällige) Beobachtung Y an der Stelle x mit einer entsprechend hohen Wahrscheinlichkeit einfängt. Sowohl Prognose- als auch Vertrauensintervalle für das Beispiel mit den Prüfungen sind in . Abb. 9.9 als „Bänder“ dargestellt. Wenn wir ein x fixieren, so ist das 95%-Prognoseintervall für die Schlussprüfung für die fixierte Zwischenprüfung gegeben durch die Werte zwischen den beiden gepunkteten Linien (analog beim Vertrauensintervall durch die durchgezogene Linie). Das Prognoseintervall ist also immer breiter. Dies ist auch einleuchtend, denn es muss noch die Variabilität einer einzelnen Beobachtung „abdecken“ (wegen des Fehlerterms E). Beide Bänder sind übrigens gekrümmt, beim Prognoseband ist dies nur schlechter sichtbar. Wir verzichten hier auf Formeln, denn typischerweise erhält man die Angaben einfach mit entsprechender Software. So erhalten wir z. B. als 95%-Vertrauensintervall für das erwartete Resultat der Schlussprüfung an der Stelle x = 70 das Intervall
9
218
9
Kapitel 9 · Lineare Regression
. Abb. 9.9
Daten, geschätzte Gerade (gestrichelt), 95%-Vertrauensintervalle (durchgezogen) und 95%-Prognoseintervalle (gepunktet) für das Beispiel mit den Prüfungen
[61.6, 64.5] und als 95%-Prognoseintervall für eine (einzelne) Beobachtung entsprechend [53.8, 72.4]. Intuition: Unterschied zwischen Vertrauens- und Prognoseintervallen Ein Prognoseintervall für Y an der Stelle x ist ein Intervall, das eine einzelne neue zufällige Beobachtung Y an der Stelle x einfängt. Mit einem Vertrauensintervall hingegen wollen wir „nur“ den (fixen) Wert β0 + β1 x einfangen. Dies können wir auch so interpretieren, dass das Vertrauensintervall eine Aussage macht über das langfristige Mittel (Erwartungswert!) von Y an der Stelle x. Das Prognoseintervall ist immer breiter als das Vertrauensintervall. Während wir ein Vertrauensintervall für eine genügend große Stichprobe beliebig klein machen können (weil die Schätzungen der Modellparameter immer genauer werden), trifft dies für das Prognoseintervall nicht zu. Dieses hat eine minimale Breite, die von der Standardabweichung des Fehlerterms abhängt (für ein 95%-Prognoseintervall wäre diese in etwa 4σ ).
9.2.4
Residuenanalyse
Die betrachteten Tests und Vertrauensintervalle basieren auf den Annahmen des linearen Regressionsmodells. Diese kann man folgendermaßen aufschlüsseln:
219 9.2 · Einfache lineare Regression
1. 2.
3.
Es gilt E (Ei ) = 0, d. h., es gibt keinen systematischen Fehler im Modell, oder anders ausgedrückt: Die Modellgleichung ist korrekt. Die E1 , . . . , En sind i.i.d. Die Fehler sind also unabhängig voneinander und folgen der gleichen Verteilung (insbesondere muss also auch die Varianz gleich groß sein). Die E1 , . . . , En sind normalverteilt.
Die Fehler Ei können wir nicht beobachten (weil wir die wahre Gerade ja nicht kennen), dafür aber die Residuen ri . Anhand der Residuen untersuchen wir qualitativ (wie früher bei den QQ-Plots in 7 Abschn. 6.2), ob obige Annahmen verletzt sind oder nicht. Man spricht daher von einer Residuenanalyse. Bemerkung: Oft werden die Residuen noch (einzeln) umskaliert, damit sie bessere theoretische Eigenschaften haben. Wir lassen dies hier außen vor. Je deutlicher die Modellannahmen verletzt sind, desto weniger vertrauenswürdig sind die Resultate (p-Werte der Tests, Vertrauensintervalle, . . .). Der Übergang ist jeweils fließend. Bei einer nur „leichten“ Verletzung der Modellannahmen sind die Resultate sicher noch brauchbar. 1 Tukey-Anscombe-Plot (TA-Plot) Beim Tukey-Anscombe-Plot zeichnet man die Residuen ri gegen die angepassten Werte yi auf (bei der einfachen linearen Regression könnte man die Residuen auch gegen xi aufzeichnen). Im Idealfall sollte man eine gleichmäßige Streuung der Punkte um die Nulllinie sehen. Mögliche Szenarien sind: 5 Falls systematische Abweichungen von der Nulllinie erkennbar sind, so spricht dies gegen die Annahme 1 von oben. Denn in diesem Fall gibt es Bereiche, in denen der Fehler im Schnitt nicht Null ist (z. B. falls man einen quadratischen Term im Modell vergessen hat). 5 Ist die Streuung stark unterschiedlich (z. B. trichterförmiges Bild), so spricht dies gegen Annahme 2. 5 Ev. sieht man auch „Ausreißerpunkte“, die gar nicht gut zum Modell passen. Diese sollte man einzeln prüfen. Den Tukey-Anscombe-Plot für das Beispiel mit den Prüfungen findet man in . Abb. 9.10. Dieser weist nicht auf eine Verletzung der entsprechenden Modellan-
nahmen hin. 1 Normalplot Man erstellt einen gewöhnlichen Normalplot der Residuen. Es sollten keine groben Abweichungen von einer Geraden vorliegen, sonst wäre dies eine Verletzung der Modellannahme 3. 1 Untersuchung der Unabhängigkeit Um die Unabhängigkeit der E1 , . . . , En zu überprüfen, kann man z. B. die Residuen ri gegen die entsprechende Beobachtungsnummer i aufzeichnen, wenn die Beobachtungen in dieser zeitlichen Reihenfolge aufgenommen wurden (man muss also insbesondere wissen, wie die Daten erhoben wurden). Im Idealfall sollte es keine Regionen
9
220
Kapitel 9 · Lineare Regression
geben, in denen sich die Residuen zu ähnlich verhalten (d. h. in denen z. B. alle positiv sind) oder wo sich positive und negative Residuen jeweils gerade abwechseln (denn ein solches Verhalten würde man bei Unabhängigkeit nicht erwarten).
9 . Abb. 9.10
Tukey-Anscombe-Plot für das Beispiel mit den Prüfungen
? Kurze Lernkontrolle: Wahr oder falsch? 46. An einen Datensatz (xi , yi ), i = 1, . . . , 20 wurde ein einfaches lineares Regressionsmodell angepasst. Die Parameterschätzer sind β0 = 2.4, β1 = 1.2 und σ 2 = 5.6. a) Der geschätzte Wert der Geraden an der Stelle x = 10 beträgt 12. b) Falls x1 = 2 und y1 = 5 gilt, dann ist das Residuum r1 = 0.2. c) Falls der geschätzte Standardfehler von β1 0.32 beträgt, dann berechnet sich hier das 95%-Vertrauensintervall für β1 als 1.2 ± 2.086 · 0.32. d) Ein Prognoseintervall an der Stelle x = 3 gibt an, welche Werte für den Erwartungswert von Y an der Stelle x = 3 plausibel sind. 47. Betrachten Sie die folgenden Aussagen. a) Es liegt ein Datensatz (xi , yi ) mit sx = 0.79, sy = 2.38 und rxy = 0.58 vor. Der geschätzte Koeffizient β1 des einfachen linearen Regressionsmodells berechnet sich dann (gerundet) als β1 = 1.75. b) Je näher |rxy | bei 1 liegt, desto größer die Evidenz, dass es einen kausalen Zusammenhang zwischen x und y gibt. c) Bei der einfachen linearen Regression geht man davon aus, dass die Yi i.i.d. sind.
221 9.3 · Multiple lineare Regression
Multiple lineare Regression
9.3
In der Praxis hat man oft nicht nur eine, sondern mehrere erklärende Variablen x(1) , . . . , x(m) mit m > 1. Beispiel: Ertrag bei einem chemischen Prozess
Zu Illustrationszwecken betrachten wir ein (simuliertes) Beispiel mit zwei erklärenden Variablen x(1) und x(2) und der Zielgröße Y . Man kann sich bei x(1) und x(2) zwei verschiedene Temperaturen und bei Y den Ertrag bei einem chemischen Prozess vorstellen. Die Daten sind in . Abb. 9.11 durch paarweise Streudiagramme dargestellt. In dieser paarweisen Betrachtungsweise sehen wir, dass x(1) und x(2) korreliert sind und dass (zumindest auf den ersten Blick) beide einen negativen Zusammenhang mit y aufweisen, welcher linear aussieht.
Das einfache lineare Regressionsmodell kann man für diesen Fall erweitern. Man spricht dann von einem sogenannten multiplen linearen Regressionsmodell.
9.3.1
Modell
Definition: Multiples lineares Regressionsmodell
Das multiple lineare Regressionsmodell ist gegeben durch (1)
Yi = β0 + β1 xi
(2)
+ β2 xi
(m)
+ · · · + βm xi
+ Ei , i = 1, . . . , n,
(j) wobei wieder Ei i.i.d. ∼ N 0, σ 2 angenommen wird. Bei xi handelt es sich um die j-te erklärende Variable der i-ten Beobachtung.
Total haben wir also p = m +1 verschiedene β-Parameter. Für j ≥ 1 gibt der Parameter βj an, wie sich die Zielgröße Y im Schnitt ändert, wenn wir zwei Beobachtungen vergleichen, die in der Variable x(j) einen Unterschied von einer Einheit aufweisen
a
b
c
. Abb. 9.11 Paarweise Streudiagramme für das simulierte Beispiel mit den erklärenden Variablen x(1) , x(2) und der Zielgröße y
9
222
Kapitel 9 · Lineare Regression
und sonst aber bezüglich der anderen erklärenden Variablen identisch sind. Der kleine Zusatz „. . . bezüglich der anderen erklärenden Variablen identisch“ ist wichtig und hat einen sehr großen Einfluss auf die Interpretation. Man nennt βj auch den sogenannten bereinigten Zusammenhang von x(j) und Y , nachdem man für die anderen erklärenden Variablen x(k) , k = j kontrolliert hat. Wie bei der einfachen linearen Regression (siehe das Beispiel mit den öffentlichen Telefonen und dem Umsatz des Buchhandels in 7 Abschn. 9.1) wird es generell schnell gefährlich, wenn man solche Zusammenhänge kausal interpretiert. Das Modell heißt wieder „linear“, weil die Parameter linear in der Modellgleichung vorkommen. So ist z. B. das Modell Yi = β0 + β1 xi + β2 xi2 + Ei
9
auch ein multiples lineares Regressionsmodell, weil die Parameter β0 , β1 und β2 linear in der Modellgleichung vorkommen. Wir sehen also, dass die erklärenden Variablen insbesondere also sogar Funktionen voneinander sein können! Die Modellklasse der multiplen linearen Regression ist daher sehr groß und die geforderte Linearität ist nicht eine so starke Einschränkung wie vielleicht ursprünglich befürchtet. Man kann das Modell für n Beobachtungen auch in Matrix-Schreibweise darstellen. Hierzu fassen wir die verschiedenen Größen zuerst in Vektoren bzw. Matrizen zusammen: ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎛ ⎞ (1) (2) (m) 1 x1 x1 · · · x1 E1 β0 Y1 ⎜ (1) (2) (m) ⎟ ⎜ E2 ⎟ ⎜ β1 ⎟ ⎜ Y2 ⎟ ⎟ ⎜ 1 x x · · · x ⎟ ⎜ ⎟ ⎜ ⎜ ⎟ 2 2 2 Y = ⎜ . ⎟, X = ⎜ .. ⎟ , E = ⎜ .. ⎟ .. .. .. ⎟ ⎟, β = ⎜ ⎜ .. .. ⎠ ⎝ . ⎠ ⎝ ⎝ .. ⎠ . ⎝. . . . . ⎠ (1) (2) (m) Yn βm En 1 xn xn · · · xn Das Modell kann dann geschrieben werden als Y = X β + E. Die Matrix X heißt Designmatrix. In der i-ten Zeile findet man alle erklärenden Variablen der i-ten Beobachtung. In den Spalten findet man die verschiedenen erklärenden Variablen. Die erste Spalte besteht nur aus Einsen: Es handelt sich um den Achsenabschnitt. Beispiele für multiple lineare Regressionsmodelle sind unter anderem: 5 Einfache lineare Regression Yi = β0 + β1 xi + Ei ⎞ 1 x1 ⎜ 1 x2 ⎟ ⎟ ⎜ X = ⎜ . . ⎟, ⎝ .. .. ⎠ ⎛
p = 2,
1 xn
β=
β0 β1
223 9.3 · Multiple lineare Regression
5 Regression mit quadratischen erklärenden Variablen Yi = β0 + β1 xi + β2 xi2 + Ei ⎛
p = 3,
1 x1 ⎜ 1 x2 ⎜ X =⎜. . ⎝ .. ..
⎞ x12 x22 ⎟ ⎟ .. ⎟ , . ⎠
⎛
⎞ β0 β = ⎝ β1 ⎠ β2
1 xn xn2
Nochmals zur Erinnerung: Das Modell ist linear in den Parametern, die erklärenden Variablen können irgendeine „Form“ haben. 5 Regression mit transformierten erklärenden Variablen (1) (2) + β2 xi + Ei Yi = β0 + β1 log xi ⎞ (1) x1(2) 1 log x1 ⎟ ⎜ ⎜ (2) ⎟ ⎜ 1 log x(1) x2 ⎟ ⎟ ⎜ 2 X =⎜. , .. .. ⎟ ⎟ ⎜. ⎟ ⎜. . . ⎠ ⎝ (1) (2) 1 log xn xn ⎛
p = 3,
⎞ β0 β = ⎝ β1 ⎠ β2 ⎛
Parameterschätzungen
9.3.2
Wie bei der einfachen linearen Regression schätzt man die Parameter mit der KleinsteQuadrate-Methode, d. h., man minimiert n
(1)
yi − β0 − β1 xi
(m) 2
− . . . − βm xi
i=1
bezüglich β0 , β1 , . . . , βm . Falls die Matrix X vollen Rang hat (d. h., falls die Spalten von X linear unabhängig sind, siehe lineare Algebra), so kann man zeigen, dass die Lösung geschlossen darstellbar ist: β = (X T X )−1 X T y, wobei wir hier mit y den Vektor der beobachteten Werte der Zielgröße bezeichnen. Für σ 2 verwendet man 1 (1) (m) 2 β0 − β1 xi − . . . − βm xi . σ = yi − n−p n
2
i=1
9
224
Kapitel 9 · Lineare Regression
Der Nenner bei der Schätzung von σ 2 hat (wieder) die Form „Anzahl Beobachtungen minus Anzahl Parameter“ und sorgt wieder dafür, dass der Schätzer erwartungstreu ist. Beispiel: Ertrag bei einem chemischen Prozess (Fortsetzung)
Für das einführende Beispiel erhalten wir β1 = 1.17, β2 = −2.27, σ 2 = 9.24. β0 = 46.83, Insbesondere ist die Schätzung von β1 positiv! Das widerspricht dem, was wir in . Abb. 9.11 gesehen haben. In der Tat wurden die Daten gemäß dem Modell β0 = 50, β1 = 1, β2 = −2, σ 2 = 9 simuliert. Was wir in . Abb. 9.11b sehen, ist nicht der bereinigte Zusammenhang von x(1) und y. In diesem Streudiagramm sehen wir, was im Datensatz mit y passiert, wenn x(1) größer wird (x(2) variiert und ist nicht konstant). Weil die beiden erklärenden Variablen x(1) und x(2) korreliert sind (siehe das Streudiagramm in . Abb. 9.11a), geht eine Erhöhung von x(1) tendenziell einher mit einer Erhöhung von x(2) . Weil β1 = 1 und β2 = −2 gilt, sorgt dies hier dafür, dass β1 in der einfachen und multiplen linearen Regression unterschiedliche Vorzeichen hat! Dieses Phänomen wird auch als Simpson-Paradoxon bezeichnet (benannt nach Edward Hugh Simpson, 1922–2019, englischer Statistiker).
9
! Achtung Wie wir im vorangehenden Beispiel gesehen haben, kann man eine multiple lineare Regression typischerweise also nicht durch viele einfache lineare Regressionen ersetzen. Mit der multiplen Regression erhalten wir andere Schätzungen und insbesondere bedeuten die Parameter auch etwas anderes (zur Erinnerung: „Der bereinigte Zusammenhang, wenn man für die anderen erklärenden Variablen kontrolliert“). Die Konsequenz davon ist, dass das Resultat und die Interpretation der Parameter einer multiplen Regression also (stark) davon abhängen, welche anderen erklärenden Variablen noch im Modell vorhanden sind! Je nach Anwendungszweck bzw. Fragestellung muss man sich also genau überlegen, welche anderen Variablen man noch berücksichtigt. Es gilt nicht zwangsläufig: „Je mehr, desto besser!“.
9.3.3
Ausblick: Tests und Vertrauensintervalle
1 Individuelle Tests Da wir hier für jeden einzelnen Parameter βj einen Test durchführen können, haben wir (potenziell) viele individuelle Tests H0,j : βj = 0 vs. HA,j : βj = 0
225 9.3 · Multiple lineare Regression
für j = 0, . . . , m. Wie bei der einfachen linearen Regression kann man Teststatistiken konstruieren und erhält wieder eine t-Verteilung, jetzt aber mit n − p Freiheitsgraden (zur Erinnerung: p = m + 1). Die Anzahl der Freiheitsgrade hat also auch hier die Form „Anzahl Beobachtungen minus Anzahl Parameter“. Auf konkrete Formeln verzichten wir, da die entsprechenden Werte einfach von einem Computer-Output ablesbar sind. Auch Vertrauensintervalle werden genauso wie in 7 Abschn. 9.2.3 eingeführt konstruiert. Beispiel: Ertrag bei einem chemischen Prozess (Fortsetzung)
Im Beispiel erhalten wir folgenden Computer-Output:
(Intercept) x1 x2
Estimate Std. Error t value Pr(>|t|) 46.8316 20.2374 2.314 0.022772 1.1651 0.3375 3.452 0.000826 -2.2684 0.3310 -6.854 6.65e-10
Wir können also sowohl für β1 als auch für β2 die entsprechende Nullhypothese deutlich verwerfen, weil die p-Werte sehr klein sind. Das 95%-Vertrauensintervall für β1 ist mit der Faustregel aus 7 Abschn. 9.2.3 gegeben durch 1.1651 ± 2 · 0.3375 = [0.49, 1.84], und für β2 erhalten wir entsprechend ein 95%-Vertrauensintervall von −2.2684 ± 2 · 0.3310 = [−2.93, −1.61]. Weil es sich um simulierte Daten handelt und wir daher die wahren Parameter kennen, sehen wir, dass mit diesen Intervallen die wahren Parameterwerte β1 = 1 und β2 = −2 in der Tat eingefangen werden.
Ein individueller Test beantwortet die Frage, ob man eine einzelne erklärende Variable weglassen kann. Wenn sich zwei erklärende Variablen sehr ähnlich sind (d. h., wenn sie stark korreliert sind), so kann es sein, dass man aufgrund der individuellen Tests für jede Variable jeweils zum Schluss kommt, dass man sie weglassen kann. Die Ursache liegt darin, dass die andere Variable ja (fast) die gleiche Information liefert und daher durch den Wegfall einer der beiden Variablen kein Informationsverlust entsteht. Dies bedeutet aber nicht, dass man beide Variablen weglassen kann. 1 F-Test Wir können bei der multiplen Regression auch testen, ob es plausibel ist, dass alle Variablen weggelassen werden können (typischerweise alle außer dem Achsenabschnitt β0 ). Wir haben dann die Nullhypothese H0 : β1 = β2 = . . . = βm = 0 (,,keine Variable hat einen Einfluss‘‘) vs. die Alternative
9
226
Kapitel 9 · Lineare Regression
HA : mindestens ein βj = 0, j ∈ {1, . . . , m}. Dies führt zum sogenannten F-Test, der auf der gleichnamigen F -Verteilung basiert. Wir verzichten auf Details. Computerprogramme liefern typischerweise direkt den p-Wert des entsprechenden Tests, den wir auch als Globaltest bezeichnen, weil er simultan alle erklärenden Variablen testet. Mit ähnlichen Überlegungen können wir auch mit einer entsprechenden F -Verteilung testen, ob gewisse Gruppen von erklärenden Variablen weggelassen werden können. 1 Residuenanalyse Die Residuenanalyse wird im gleichen Stil wie bei der einfachen linearen Regression durchgeführt (Tukey-Anscombe-Plot, Normalplot, . . .). Der Tukey-Anscombe-Plot macht jetzt auch mehr Sinn, weil es nicht mehr „das“ Streudiagramm gibt. Oft lohnt es sich aber auch, die Residuen gegen die einzelnen erklärenden Variablen aufzutragen. Intuition zur Nützlichkeit von linearen Regressionsmodellen
9
Wir haben gesehen, dass wir bei der Interpretation der Parameter eines linearen Regressionsmodells je nach „Datenlage“ sehr vorsichtig sein müssen. Im Minimum ist das multiple lineare Regressionsmodell als eine „kompakte Beschreibung“ der vorliegenden Daten zu verstehen: „Was passiert mit der Zielgröße im Datensatz im Durchschnitt, wenn bei zwei Beobachtungen nur ein Unterschied in einer entsprechenden erklärenden Variable vorhanden ist?“ Dies ist nicht zwangsläufig das, was in der Realität passiert, wenn wir eine erklärende Variable aktiv verändern würden (z. B. weil die anderen Variablen sich dann je nach kausalem Zusammenhang zwischen den erklärenden Variablen auch verändern würden oder unbekannte Confounder vorhanden sind). Heißt dies, dass die multiple lineare Regression nicht praxistauglich ist? Die Antwort ist natürlich nein, aber man muss sich dieser Gefahr bewusst sein. Falls man eine Vermutung über den zugrunde liegenden kausalen Zusammenhang zwischen den verwendeten Variablen hat, dann kann man mit passenden linearen Regressionsmodellen sogar entsprechende kausale Effekte schätzen (Pearl and Mackenzie 2018). Wenn man nur daran interessiert ist, eine gute Vorhersage für die Zielgröße zu machen, dann braucht man sich um alle diese Probleme nicht zu kümmern. Es reicht dann aus, dass es „nur“ eine Assoziation zwischen der Zielgröße und den erklärenden Variablen gibt (siehe das Beispiel mit den Telefonen und dem Buchhandel in 7 Abschn. 9.1). Gefährlich wird es aber, wenn man extrapoliert in „Datenregionen“, die man bisher noch nie gesehen hat.
Das multiple lineare Regressionsmodell kann zudem auf vielfältige Art erweitert werden. Viele moderne Verfahren sind nichts anderes als spezielle Regressionsmodelle. Oder: „Mit der Regression steht einem die große Welt der Statistik offen.“
227 9.3 · Multiple lineare Regression
? Kurze Lernkontrolle: Wahr oder falsch? 48. Betrachten Sie die folgenden Aussagen. a)
Das Modell
x2 Yi = β0 + β1 xi + β2 exp − i 2
b)
c)
+ Ei
(mit den üblichen Annahmen für den Fehlerterm Ei ) ist ein multiples lineares Regressionsmodell. In einem multiplen linearen Regressionsmodell hängt die Interpretation eines Koeffizienten βj davon ab, welche anderen erklärenden Variablen noch im Modell vorhanden sind. Je mehr erklärende Variablen in ein multiples lineares Regressionsmodell aufgenommen werden, desto kleiner wird die Residuenquadratsumme (Summe der quadrierten Residuen).
Verständnisfragen: Alles klar? 5 5 5 5 5 5 5
Wie lauten das einfache und das multiple lineare Regressionsmodell und die entsprechenden Modellannahmen? Wie wird ein einzelner Parameter im multiplen linearen Regressionsmodell interpretiert? Nach welchem Kriterium werden die Parameterschätzer ermittelt? Wie kann man statistische Tests durchführen bzw. Konfidenzintervalle ermitteln? Was ist der Unterschied zwischen einem Prognose- und einem Vertrauensintervall? Wie kann man in einem multiplen linearen Regressionsmodell simultan alle Koeffizienten testen? Wieso ist es gefährlich, die Koeffizienten eines linearen Regressionsmodells kausal zu interpretieren?
9
229
Anhänge Inhaltsverzeichnis Kapitel 10 Zusammenfassungen und Tabellen – 231 Kapitel 11 Herleitungen – 237 Kapitel 12 Lösungen zu den Kontrollfragen – 241
III
231
Zusammenfassungen und Tabellen Inhaltsverzeichnis 10.1
Die wichtigsten eindimensionalen Verteilungen – 232
10.2
Wichtige Rechenregeln für Erwartungswert, Varianz, Kovarianz und Korrelation – 232
10.3
Tabelle der Standardnormalverteilung – 234
10.4
Quantile der t-Verteilung – 235
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 L. Meier, Wahrscheinlichkeitsrechnung und Statistik, https://doi.org/10.1007/978-3-662-61488-4_10
10
232
Kapitel 10 · Zusammenfassungen und Tabellen
10.1
Die wichtigsten eindimensionalen Verteilungen Verteilung
Wertebereich P(X = x) bzw. f (x) E(X ) Var (X )
Bernoulli (p) {0, 1}
p(1 − p)
{0, . . . , n}
n x p (1 − p)n−x x
np
np(1 − p)
Geom (p)
{1, 2, . . .}
p(1 − p)x−1
1 p
1−p p2
Pois (λ)
{0, 1, . . .}
e−λ
λx x!
λ
λ
Uni (a, b)
[a, b]
1 b−a
a + b (b − a)2 2 12
Exp (λ)
[0, ∞)
λe−λx
1 λ
1 λ2
R
1 −1 e 2 √ 2π σ
μ
σ2
10.2
p
Bin (n, p)
N μ, σ 2
10
px (1 − p)1−x
x−μ 2 σ
Wichtige Rechenregeln für Erwartungswert, Varianz, Kovarianz und Korrelation
Folgende Rechenregeln gelten sowohl für stetige als auch für diskrete Zufallsvariablen. 1.
E(a + bX ) = a + b · E(X ), a, b ∈ R
2.
E(a + bX + cY ) = a + b · E(X ) + c · E(Y ), a, b, c ∈ R (egal ob X und Y unabhängig sind oder nicht) Var (X ) = E X 2 − E(X )2 (hilft oft bei der Berechnung der Varianz)
3. 4.
Var (a + bX ) = b2 Var (X ) , a, b ∈ R (konstanter Term hat keinen Einfluss, Skalierung mit b wirkt sich mit b2 auf die Varianz aus)
5.
σa+bX = |b|σX , b ∈ R (Vorzeichen spielt keine Rolle)
6.
Var (a) = 0, a ∈ R (Varianz einer Konstanten ist 0)
7.
Cov(X , Y ) = E(XY ) − E(X )E(Y ) (hilft oft bei der Berechnung der Kovarianz)
8.
Cov(X , Y ) = Cov(Y , X ) (Symmetrie)
9.
Cov(X , X ) = Var (X ) (Kovarianz mit sich selber ist Varianz)
10. Cov(X , Y + Z) = Cov(X , Y ) + Cov(X , Z) 11. Cov(X , a) = 0, a ∈ R 12. Cov(a + bX , c + dY ) = bd Cov(X , Y ), a, b, c, d ∈ R
233 10.2 · Wichtige Rechenregeln für Erwartungswert, Varianz, Kovarianz und Korrelation
13. Corr (a + bX , c + dY ) = sign(b) sign(d) Corr (X , Y ) , a, b, c, d ∈ R 14. Var (X + Y ) = Var (X ) + Var (Y ) + 2 Cov(X , Y ) 15. Sind X und Y unabhängig, so gilt 5 Cov(X , Y ) = 0 5 Corr (X , Y ) = 0 Achtung: Die Umkehrung gilt im Allgemeinen nicht! Aus Unkorreliertheit folgt nicht Unabhängigkeit. 16. Sind X und Y unabhängig (oder allgemeiner: unkorreliert), so gilt 5 Var (X + Y ) = Var (X ) + Var (Y ) 5 Var (X − Y ) = Var (X ) + Var (Y ) (!) 5 E(XY ) = E(X )E(Y ) Oder etwas allgemeiner für mehrere Zufallsvariablen: 17. E a0 + ⎛
n
ai Xi
= a0 +
i=1
18. Cov ⎝a0 +
n
ai E(Xi ), ai ∈ R
i=1
n
ai Xi , b0 +
i=1
m
⎞
bj Yj ⎠ =
j=1
m n
ai bj Cov(Xi , Yj ), ai , bj ∈ R
i=1 j=1
(konstanter Term fällt weg, alle Kombinationen werden aufsummiert)
n n n ai Xi = ai aj Cov(Xi , Xj ), ai ∈ R 19. Var a0 + i=1
i=1 j=1
(konstanter Term fällt weg, Kovarianzen aller Kombinationen werden aufsummiert). Zur Erinnerung: Cov(Xi , Xi ) = Var (Xi ). 20. Sind X1 , . . . , Xn unabhängig (oder allgemeiner: unkorreliert), so gilt Var a0 +
n i=1
ai Xi
=
n
ai2 Var (Xi )
i=1
für ai ∈ R (konstanter Term fällt weg, es verbleiben die Summen der Varianzen)
10
234
Kapitel 10 · Zusammenfassungen und Tabellen
10.3
Tabelle der Standardnormalverteilung (z) = P(Z ≤ z), Z ∼ N (0, 1)
Lesebeispiel Tabelle: P(Z ≤ 1.96) = 0.975
10
z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4
.00 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.9987 0.9990 0.9993 0.9995 0.9997
.01 0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982 0.9987 0.9991 0.9993 0.9995 0.9997
.02 0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.9987 0.9991 0.9994 0.9995 0.9997
.03 0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.9988 0.9991 0.9994 0.9996 0.9997
.04 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.9988 0.9992 0.9994 0.9996 0.9997
.05 0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.9989 0.9992 0.9994 0.9996 0.9997
.06 0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.9989 0.9992 0.9994 0.9996 0.9997
.07 0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.9989 0.9992 0.9995 0.9996 0.9997
.08 0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 0.9990 0.9993 0.9995 0.9996 0.9997
.09 0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.9990 0.9993 0.9995 0.9997 0.9998
Bemerkung: Die Quantile der Standardnormalverteilung findet man direkt bei den Quantilen der t-Verteilung bei df = ∞, siehe Tabelle im 7 Anhang 10.4.
235 10.4 · Quantile der t-Verteilung
10.4
Quantile der t-Verteilung
Lesebeispiel Tabelle: t9, 0.975 = 2.262 df \ α 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 90 120 ∞
0.60 0.325 0.289 0.277 0.271 0.267 0.265 0.263 0.262 0.261 0.260 0.260 0.259 0.259 0.258 0.258 0.258 0.257 0.257 0.257 0.257 0.257 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.255 0.254 0.254 0.254 0.253
0.70 0.727 0.617 0.584 0.569 0.559 0.553 0.549 0.546 0.543 0.542 0.540 0.539 0.538 0.537 0.536 0.535 0.534 0.534 0.533 0.533 0.532 0.532 0.532 0.531 0.531 0.531 0.531 0.530 0.530 0.530 0.529 0.527 0.526 0.526 0.524
0.80 1.376 1.061 0.978 0.941 0.920 0.906 0.896 0.889 0.883 0.879 0.876 0.873 0.870 0.868 0.866 0.865 0.863 0.862 0.861 0.860 0.859 0.858 0.858 0.857 0.856 0.856 0.855 0.855 0.854 0.854 0.851 0.848 0.846 0.845 0.842
0.90 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.303 1.296 1.291 1.289 1.282
0.95 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.684 1.671 1.662 1.658 1.645
0.975 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.021 2.000 1.987 1.980 1.960
0.99 31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.423 2.390 2.368 2.358 2.326
0.995 63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.704 2.660 2.632 2.617 2.576
Bemerkung: Die Zeile mit df = ∞ enthält gerade die entsprechenden Quantile der Standardnormalverteilung.
10
237
Herleitungen Inhaltsverzeichnis 11.1
Herleitung der Binomialverteilung – 238
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 L. Meier, Wahrscheinlichkeitsrechnung und Statistik, https://doi.org/10.1007/978-3-662-61488-4_11
11
238
Kapitel 11 · Herleitungen
11.1
Herleitung der Binomialverteilung
Wir betrachten unabhängige Experimente mit Ausgang Erfolg oder Misserfolg. Die Erfolgswahrscheinlichkeit in einem Experiment sei p ∈ (0, 1). Frage: Wie großist die Wahrscheinlichkeit, dass wir im Total x Erfolge beobachten (z. B. x = 3)? Wenn wir festgelegt haben, bei welchen der Experimente Erfolg eintritt, so ist die Wahrscheinlichkeit für genau eine solche Auswahl px (1 − p)n−x , da die Experimente als unabhängig angenommen wurden. In einer Tabelle markieren wir ein Feld eines Experiments mit dem Symbol •, wenn Erfolg eintritt, und andernfalls mit dem Symbol ◦. 1 •
11
2 ◦
3 ◦
4 •
5 ◦
6 •
··· ◦
··· ◦
n−1 ◦
n ◦
Um die Wahrscheinlichkeit zu berechnen, dass im Total x Erfolge eintreten, müssen wir alle „Auswahlen“ betrachten, die zu diesem Ergebnis führen. Die Reihenfolge innerhalb einer Auswahl spielt keine Rolle, d. h., es interessiert uns nicht, ob zuerst Experiment 4 und erst dann Experiment 1 Erfolg hat oder umgekehrt. In der Tabelle interessieren uns daher nur die verschiedenen „Muster“ und nicht, in welcher spezifischer Reihenfolge wir ein einzelnes Muster „angemalt“ haben. Um den ersten Erfolg zu platzieren, haben wir n Möglichkeiten, für den zweiten verbleiben noch n − 1 usw., bis für den letzten dann noch n − x + 1 Möglichkeiten übrig sind. Das gibt im Total n(n − 1) · · · (n − x + 1) Möglichkeiten. Hier haben wir aber jeweils stillschweigend unterschieden, in welcher Reihenfolge die Erfolge eintreten. In der Tabelle hätten wir jeweils die Auswahlen 1 → 4 → 6, 1 → 6 → 4, 4 → 1 → 6, 4 → 6 → 1, 6 → 1 → 4 und 6 → 4 → 1 einzeln gezählt, obwohl wir dies ja eigentlich nicht unterscheiden wollen, da alle zu demselben Muster führen. Für eine gegebene Auswahl gibt es x! verschiedene mögliche Reihenfolgen, diese zu platzieren. Also haben wir genau so oft zu viel gezählt. Wenn wir dies korrigieren, erhalten wir n(n − 1) · · · (n − x + 1) x! verschiedene Möglichkeiten. Dies können wir auch schreiben als n! , x!(n − x)! was wir mit dem Binomialkoeffizienten
n x
abkürzen („n über x“ oder „n tief x“).
239 11.1 · Herleitung der Binomialverteilung
Wir haben xn verschiedene Möglichkeiten, die alle zum Resultat „im Total x Erfolge“ führen. Jede dieser Möglichkeiten hat die gleiche Wahrscheinlichkeit px (1 − p)n−x . Die Wahrscheinlichkeit, im Total x Erfolge zu beobachten, ist also damit durch n x p (1 − p)n−x x gegeben.
11
241
Lösungen zu den Kontrollfragen
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 L. Meier, Wahrscheinlichkeitsrechnung und Statistik, https://doi.org/10.1007/978-3-662-61488-4_12
12
242
Kapitel 12 · Lösungen zu den Kontrollfragen
1.
2.
3.
4.
5.
12
6.
7.
8.
¨ a) Falsch, weil A ∩ B = {,,genugend‘‘} = ∅. b) Richtig c) Richtig d) Richtig e) Falsch. Es ist (A ∩ B c ) ∪ C = {,,sehr gut‘‘, ,,gut‘‘, ,,unbrauchbar‘‘}. a) Richtig b) Richtig, weil B = [10, ∞) ⊂ [7, ∞) = A (Skizze machen!). c) Richtig Generell: Alle Lösungen kann man schnell mit einem Venn-Diagramm herleiten. a) Falsch. Richtig wäre Ac ∩ B c . b) Richtig, weil immer gilt A ∩ B ⊆ A ∪ B. c) Falsch, weil wegen A ⊆ B gilt, dass A ∩ B = A. d) Richtig, weil wegen A ⊆ B gilt, dass A ∪ B = B. e) Richtig, weil A ∩ B c , A ∩ B und Ac paarweise disjunkt sind und zusammen „ergeben“, d. h. = (A ∩ B c ) ∪ (A ∩ B) ∪ Ac . Daher gilt 1 = P () = P (A ∩ B c ) + P (A ∩ B) + P (Ac ) . f) Richtig, falls P (A ∩ B) = 0 wäre, so hätte man P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = P (A) + P (B) = 1.1 > 1! a) Richtig, weil 4k=1 P ({ωk }) = 1 sein muss. b) Falsch, P (B) = P ({ω2 }) + P ({ω3 }) = 0.5. c) Richtig, weil A ∪ B = {ω1 , ω2 , ω3 }. d) Richtig, weil A ∩ B = {ω2 }. e) Falsch, beim Laplace-Modell wäre P ({ωk }) = 0.25 für k = 1, . . . , 4. a) Richtig, weil beide Ereignisse 3 Elemente enthalten: {2, 4, 6} bzw. {1, 3, 5}. b) Richtig c) Richtig. Es handelt sich immer noch um die gleichen 6 Elementarereignisse. a) Richtig b) Falsch, weil die Ereignisse disjunkt sind. c) Falsch a) Falsch. Es ist P (A ∩ B) = P (A | B) P (B) = 0.2 · 0.5. b) Richtig gemäß dem Satz der totalen Wahrscheinlichkeit. c) Falsch. Es ist P (Ac | B) = 1 − P (A | B) = 0.8. d) Richtig. Dies ist P (B c | A) berechnet mit dem Satz von Bayes. a) Richtig b) Falsch. Mit dem Satz der totalen Wahrscheinlichkeit erhalten wir: P (N) = P (N | M1 ) P (M1 ) + P (N | M2 ) P (M2 ) + P (N | M3 ) P (M3 ) = 0.1 · 0.5 + 0.3 · 0.4 + 0.5 · 0.1 = 0.22. c) Falsch. Mit dem Satz von Bayes haben wir P (N c | M1 ) P (M1 ) P M1 | N c = , P (N c ) wobei gemäß Aufgabenstellung P (N c | M1 ) = 1 − P (N | M1 ) = 0.9 und P (M1 ) = 0.5 gilt. Ferner ist P (N c ) = 1 − P (N) = 0.78 (siehe oben). Nach
243 Kapitel 12 · Lösungen zu den Kontrollfragen
Einsetzen erhalten wir also 0.9 · 0.5 = 0.58. P M1 | N c = 0.78 9.
a) Richtig b) Richtig, weil P (T+ ∩ D) = P (T+ | D) P (D) = 0.9 · 0.1 = 0.09. c) Richtig. Es gilt weges des Satzes von Bayes P (D | T− ) =
P (T− | D) P (D) . P (T− | D) P (D) + P (T− | Dc ) P (Dc )
Ferner gilt gemäß Aufgabestellung P (T− | D) = 1 − P (T+ | D) = 0.1 und P (T− | Dc ) = 1 − P (T+ | Dc ) = 0.95. Wir haben also P (D | T− ) = 10. a) b) 11. a) b) c) 12. a)
0.1 · 0.1 = 0.0116. 0.1 · 0.1 + 0.95 · 0.9
Richtig. Falsch wäre P (x ≥ 1). Richtig Falsch. Richtig ist P (X = 6) = F (6) − F (5) = 0.61 − 0.45 = 0.16. Richtig. Dies ist P (X ≤ 7) = F (7) = 0.74. Richtig. Es ist P (X ≥ 10) = 1 − P (X ≤ 9) = 1 − F (9) = 1 − 0.92 = 0.08. Richtig. Es ist E (X ) =
4
xk p(xk ) = 30 · 0.6 + 60 · 0.2 + 180 · 0.15 + 300 · 0.05 = 72.
k=1
b) Falsch. Die Varianz ist 5436. Dies kann man entweder durch Var (X ) =
4 (xk − 72)2 p(xk ) k=1
berechnen oder via 4 2 2 Var (X ) = E X − E (X ) = xk2 p(xk ) − 722 = 10 620 − 722 = 5436. k=1
Richtig. Es ist E (50X ) = 50 · E (X ) = 50 · 200 = 10 000. √ Falsch. Die Standardabweichung beträgt 50 · 230 = 758.3. Richtig. Es ist E (X − 1) = E (X ) − 1 = 1 − 1 = 0. Richtig. Es ist E (4X + 3Y ) = E (4X ) + E (3Y ) = 4 · E (X ) + 3 · E (Y ). Falsch. Es ist Var (−Y ) = Var ((−1) · Y ) = (−1)2 · Var (Y ) = Var (Y ) = 4. 2 d) Falsch. Es ist Var 5 + 21 Y = 21 · Var (Y ) = 1.
13. a) b) 14. a) b) c)
12
244
Kapitel 12 · Lösungen zu den Kontrollfragen
e) Richtig. Es ist Var (−2Y ) = (−2)2 ·Var (Y ) = 16. Die Standardabweichung √ ist daher 16 = 4. f) Richtig. Es ist E X 2 = Var (X ) + E (X )2 . 15. a) Richtig. Wenn wir mit X die Anzahl der Chips mit Defekt bezeichnen, dann gilt X ∼ Bin (n, p) mit n = 1000 und p = 0.001. Also ist P (X = 2) =
1000 1000 · 999 0.0012 · 0.999998 = · 0.0012 · 0.999998 = 0.184. 2 2
b) Falsch. Die Wahrscheinlichkeit ist wegen der Unabhängigkeit gegeben durch 0.0012 (1 − 0.001)998 . c) Richtig. Wir können die Anzahl fehlerhafter Chips approximieren mit einer Poisson-Verteilung mit Parameter λ = np = 1000 · 0.001 = 1. Dann gilt P (X = 1) = e−λ
λ1 = e−1 = 0.368. 1!
d) Falsch e) Richtig. Der Wertebereich ist W = {0, 1, 2, . . . , 1000} und umfasst daher 1001 verschiedene Werte. Bei jedem dieser Werte „springt“ die kumulative Verteilungsfunktion mit der entsprechenden Wahrscheinlichkeit nach oben. 3 16. a) Richtig. Es ist P (X = 3) = e−7 73! = 0.052. b) Richtig. Es ist E 17 X = 17 · E (X ) = 1. 2 c) Falsch. Es ist Var 17 X = 17 · 7 = 17 .
12
d) Falsch. X + Y ist zwar immer noch eine diskrete Zufallsvariable, aber es ist E (X + Y ) = E (X ) + E (Y ) = 7 + 10 · 0.5 = 12. 13 e) Richtig. Es ist X + Y ∼ Pois (15) und e−15 15 13! = 0.096. f) Falsch. Der Parameter λ muss eine positive reelle Zahl sein. 17. a) Falsch. Es ist P (X = 0.3) = 0. b) Falsch. Eine Dichte kann auch größer als 1 sein, solange die Fläche unter der Dichte 1 ist. c) Richtig d) Richtig, weil das Ereignis {|X | ≤ 1} geschrieben werden kann als {−1 ≤ X ≤ 1}. e) Falsch f) Richtig g) Falsch h) Richtig 18. a) Richtig, weil der Wert 0 näher am Symmetriepunkt μ = 1 liegt als der Wert 3 (Skizze machen!). b) Richtig. Im Bereich [μ − σ, μ + σ ] liegt ca. Wahrscheinlichkeit 2/3. Wir betrachten nur die eine Hälfte davon. Wegen der Symmetrie sind es dann 1/3. c) Richtig d) Richtig, weil das 80%-Quantil sicher größer als der Median ist, welcher hier 1 beträgt.
245 Kapitel 12 · Lösungen zu den Kontrollfragen
1 19. a) Richtig, weil E eX = 0 ex dx = e1 − e0 = e − 1 gilt. 1 b) Richtig, weil λ = 100 . c) Falsch. Weil E (X ) = λ1 und Var (X ) = λ12 gilt für alle λ > 0, muss σX = λ1 sein. d) Richtig, weil die Dichte monoton fallend ist und daher die Fläche über einem Intervall mit Länge 1 immer kleiner wird. 20. a) Richtig b) Falsch. Y = eX wäre lognormalverteilt. c) Richtig. Es ist P (X ≤ 0) = (−2.5) = 1 − (2.5) = 1 − 0.9938 = 0.0062. 21. a) Richtig. Die Anzahl der Kaffees in einer 6-Minuten-Periode ist Poissonverteilt mit Parameter λ = 20 · 6/60 = 2. b) Richtig. Die Anzahl der Kaffees in einer 3-Stunden-Periode ist Poissonverteilt mit Parameter λ = 20 · 3 = 60. c) Richtig. Die Wartezeit T zwischen zwei Kaffees (in Stunden) ist exponential 12 verteilt mit Parameter λ = 20. Gefragt ist P T > 12 60 = 1 − P T ≤ 60 = 12
d) 22. a) b) c) d) 23. a) b) c) d) 24. a) b) 25. a) b) c) d) 26. a) b) 27. a) b) c) d) 28. a) b) c) d)
e−20· 60 = e−4 . Richtig, weil die Intensität über 24 h nicht konstant ist. Falsch. Weil 20·0.25 = 5 gilt, ist das empirische 25%-Quantil gegeben durch 1 2 x(5) + x(6) = 0.635. Falsch. Der empirische Median ist 21 (1.22 + 1.26) = 1.24. Richtig Richtig Richtig Falsch Richtig Richtig Richtig Falsch. Erst für x < 0.12 gilt Fn (x) = 0. Falsch. Wir wissen nur anhand der Histogramme nicht, wie die Punkte zusammenhängen. Richtig Richtig Falsch. Die empirische Korrelation wäre dann 1. Falsch Richtig Richtig Falsch, dies geht nur bei Unabhängigkeit. Falsch Richtig Richtig, weil der linke Gipfel höher ist als der rechte Gipfel. Richtig Falsch. Zum Beispiel hängt die Form der bedingten Dichte von Y gegeben X = x vom Wert x ab. Falsch
12
246
Kapitel 12 · Lösungen zu den Kontrollfragen
29. a) b) c) 30. a) b) c) 31. a) b) c) 32. a) b) c) 33. a) b) c) d) 34. a) b) c) d) e)
12
35. a) b) c) d) 36. a) b)
c)
d) 37. a) b) c)
Falsch Falsch Falsch. In diesem Fall wäre die Korrelation 3/2 > 1. Richtig Falsch. Es ist Var (X − Y ) = Var (X + (−Y )) = Var (X ) + Var (−Y ) = Var (X ) + Var (Y ) = 3 + 2 = 5. Richtig, weil ein perfekter linearer (positiver) Zusammenhang vorhanden ist. Richtig Richtig Falsch. Es gibt Abhängigkeiten und saisonale Schwankungen. Falsch. Die Würfe sind ja unabhängig voneinander. Richtig. Falsch. Erst wenn wir summieren oder mitteln, kommt der zentrale Grenzwertsatz ins Spiel. Falsch. Es werden immer die Quantile der Standardnormalverteilung verwendet. Falsch. Es gibt immer eine natürliche Streuung. Richtig Falsch Richtig. Dies ist gerade die erste Gleichung bei der Momentenmethode. Falsch. Der Schätzer entspricht dem arithmetischen Mittel der Daten, welches natürlich in der Regel nicht exakt 2 ist. Richtig Richtig Richtig. Das geschätzte Modell entspricht in der Regel nicht dem wahren Modell, sondern ist ja „nur“ eine Schätzung dafür. Falsch. Der Index i muss jeweils bei der Beobachtung xi stehen und nicht bei den Parametern. Richtig, weil die Likelihood-Funktion im diskreten Fall ein Produkt von Wahrscheinlichkeiten ist. Richtig, weil ein Parameterschätzer von den zufälligen Daten abhängt. Falsch. Richtig wäre es gerade andersherum. Falsch. Das Signifikanzniveau kontrolliert nur die Wahrscheinlichkeit für einen Fehler 1. Art. Falsch. Darüber können wir keine Aussagen machen, weil die Parameter fix und nicht zufällig sind. Aber wir wissen: Wenn die Nullhypothese stimmt, dann machen wir nur mit Wahrscheinlichkeit 5 % einen Fehler 1. Art. Falsch. Wir müssen schauen, wie „weit außen“ das beobachtete Ereignis in der Verteilung unter der Nullhypothese liegt. Bei diskreten Verteilungen mit vielen möglichen Ausgängen ist es ganz natürlich, dass die Einzelwahrscheinlichkeiten klein sind (weil sie sich zu 1 addieren müssen). Falsch Richtig Richtig. Unter H0 gilt für die Summe, dass diese Pois (50)-verteilt ist. Richtig. Der Verwerfungsbereich ist hier gegeben durch K = {63, 64, . . .}. Die Beobachtung 66 liegt daher im Verwerfungsbereich.
247 Kapitel 12 · Lösungen zu den Kontrollfragen
38. a) Richtig b) Falsch. Es ist K = (−∞, −t14,0.975 ] ∪ [t14,0.975 , ∞) = (−∞, −2.145] ∪ [2.145, ∞). c) Richtig d) Richtig e) Falsch. Die Wahrscheinlichkeit für einen Fehler 1. Art entspricht bei einem t-Test immer exakt dem verwendeten Signifikanzniveau und nimmt daher insbesondere mit der Stichprobengröße nicht ab. 39. a) Richtig. Unter der Nullhypothese gilt X1 + . . . + X10 ∼ Pois (10 · 3). Diese Verteilung approximieren wir mit einer Normalverteilung mit dem passenden Erwartungswert bzw. Varianz. b) Richtig √ . c) Falsch. Es ist hier z = 36−30 30
40. a) Falsch. Die Wahrscheinlichkeit beträgt 75 %, dass wir ein signifikantes Resultat erhalten, wenn wir annehmen, dass tatsächlich diese Alternativhypothese gilt. b) Falsch. Zur Berechnung der Macht eines statistischen Tests müssen wir „nur“ eine entsprechende Annahme der Modellparameter im Bereich der Alternativhypothese treffen. c) Richtig. Es wird generell „schwieriger“, die Nullhypothese zu verwerfen, weil der Verwerfungsbereich kleiner wird (man schneidet an den Rändern der Verteilung unter der Nullhypothese weniger ab). Oder kurz: Man verwendet beim Test ein „strengeres“ Kriterium. 41. a) Richtig, weil 0.01 < p-Wert < 0.05. b) Richtig c) Richtig. Grund dafür ist die Symmetrie der t-Verteilung (Skizze machen!). α gelten, damit d) Richtig. Gemäß Bonferroni-Korrektur muss p-Wert ≤ 20 man die Nullhypothese verwirft. Dies ist äquivalent zu p-Wert · 20 ≤ α. 42. a) Richtig b) Falsch. Das Vertrauensintervall macht „nur“ eine Aussage über einen Parameter einer Verteilung, nicht über eine Einzelbeobachtung einer Verteilung. c) Richtig, weil der Wert p = p0 = 0.5 nicht im Vertrauensintervall enthalten ist. d) Richtig 43. a) Richtig. Der p-Wert ist hier gegeben durch P (X = 14) + P (X = 15) für X ∼ Bin (15, 0.5). b) Richtig c) Falsch. Die Beobachtung x2 ist und bleibt die betragsmäßig größte Abweichung von μ0 , daher bleibt Rang(|x2 − μ0 |) = 10. 44. a) Richtig √ b) Falsch. Der beobachtete Wert der Teststatistik ist t = 5.64/(7.4/ 8) = 2.16. Ferner ist t7,0.975 = 2.365. Also können wir die Nullhypothese nicht verwerfen. c) Richtig d) Falsch. Es wird angenommen, dass die Differenzen di i.i.d. Realisierungen einer Normalverteilung sind.
12
248
Kapitel 12 · Lösungen zu den Kontrollfragen
45. a) b) c) d) 46. a) b) c) d) 47. a) b) c) 48. a) b) c)
12
Richtig 1 2 Richtig. Es ist σpool 9 · 0.22 + 9 · 0.152 = 21 0.22 + 0.152 . = 18 Richtig Falsch. Bei σpool darf kein Quadrat stehen. Falsch. Der Wert beträgt 2.4 + 1.2 · 10 = 14.4. Richtig Falsch, es wurde t20,0.975 = 2.086 statt t18,0.975 = 2.101 verwendet. Falsch. Ein Prognoseintervall macht eine Aussage über eine neue zufällige Beobachtung Y an der Stelle x = 3. s Richtig, weil β1 = rxy sxy . Falsch Falsch, der Erwartungswert ist unterschiedlich. Richtig, weil die Koeffizienten β0 , β1 und β2 linear in der Modellgleichung vorkommen. Richtig, weil man für die anderen erklärenden Variablen kontrolliert. Richtig, weil man gemäß dem Kleinste-Quadrate-Kriterium gerade die Residuenquadratsumme minimiert und diese damit über immer mehr Parameter minimiert werden kann.
249
Serviceteil Literatur – 250 Stichwortverzeichnis – 251
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 L. Meier, Wahrscheinlichkeitsrechnung und Statistik, https://doi.org/10.1007/978-3-662-61488-4
250
Literatur
Literatur Allison, T., Cicchetti, D.: Sleep in mammals: Ecological and constitutional correlates. Science 194, 732–734 (1976) Anscombe, F.J.: Graphs in statistical analysis. Amer. Stat. 27, 17–21 (1973) Box, G.: Robustness in the strategy of scientific model building. In: Launer R.L., Wilkinson, G.N. (Hrsg.) Robustness in Statistics, 201–236. Academic Press, New York (1979) Bundesamt für Kommunikation BAKOM: Festnetzinfrastruktur. 7 https://www.bakom.admin.ch/ dam/bakom/de/dokumente/bakom/telekommunikation/Zahlen%20und%20Fakten/Sammlung %20statistischer%20Daten/Infrastruktur/festnetzinfrastruktur.xlsx.download.xlsx/InfrastructureFixe %20d.xlsx (2019). Zugegriffen: 4. Febr. 2019 Fahrmeir, L., Kneib, T., Lang, S.: Regression: Modelle, Methoden und Anwendungen. Statistik und ihre Anwendungen. Springer, Berlin (2009) Härdle, W.: Smoothing techniques with implementation in S. Springer, Berlin (1991) Pearl, J., Mackenzie, D.: The book of why: The new science of cause and effect. Basic Books, New York (2018) Schweizer Buchhändler- und Verleger-Verband SBVV: Deutschschweizer Buchmarkt: Marktreport 2018. 7 https://www.sbvv.ch/userfiles/Downloadbereich_Vaira_Dokumente/Marktreport_2018_ Buchhandel.pdf (2019). Zugegriffen: 15. Okt. 2019 Stahel, W.: Statistische Datenanalyse: Eine Einführung für Naturwissenschaftler. Vieweg + Teubner Verlag, Wiesbaden (2007) Wald, A.: A Reprint of „A Method of Estimating Plane Vulnerability Based on Damage of Survivors“. Tech. rep, Center for Naval Analyses, CNA, Alexandria (1980) Weisberg, S.: Applied linear regression. Wiley Series in Probability and Statistics. Wiley, Hoboken (2013)
251
Stichwortverzeichnis A
E
a-posteriori-Wahrscheinlichkeit, 23 a-priori-Wahrscheinlichkeit, 23 Alternativhypothese, 151 Annahmebereich, 154 Approximation – Normal-, 118 – Poisson-, 46 Assoziation, 205 Ausfallrate, 58, 60 Ausreißer, 79 Axiome der Wahrscheinlichkeitsrechnung, 7
Elementarereignis, 4 empirisch, 73 Entscheidungsregel, 151 Ereignis, 4 – Komplementär-E., 6 – sicheres, 5 – unmögliches, 5 Ergebnisraum, siehe Grundraum erwartungstreu, 143 Erwartungswert, 34, 51 – bedingter, 92, 98 – bei mehreren Zufallsvariablen, 101 Exponentialverteilung, 58
B bayes’sch, 9 bedingt – Dichte, 96 – Erwartungswert, 92, 98 – Verteilung, 91 – Wahrscheinlichkeit, 16 Beobachtungsstudie, 193 Bereich, kritischer, siehe Verwerfungsbereich Bernoulli-Verteilung, 39 bilinear, 103 bimodal, 80 Binomialkoeffizient, 39 Binomialtest, 155 Binomialverteilung, 39 – Normalapproximation der B., 118 – Poisson-Approximation der B., 46 Block, 193 Bonferroni-Korrektur, 174 Boxplot, 78
F F-Test, 226 family-wise error rate (FWER), 174 Fehler – 1. Art, 152 – 2. Art, 152 Fisher-Information, 142 Freiheitsgrad, 162 frequentistisch, 9
G
Confounder, 194, 205
Gauß’sche Glockenkurve, 56 Gauß-Verteilung, siehe Normalverteilung Gedächtnislosigkeit, 60 Gegenereignis, siehe Komplementärereignis gepaart, 190 Gesetz der großen Zahlen, 115 Globaltest, 226 Grenzwertsatz, zentraler, 116 Grundgesamtheit, 72 Grundraum, 4
D
H
De Morgan’sche Regeln, 6 Designmatrix, 222 Diagramm, kausales, 194, 205 Dichte, 49 – bedingte, 96 – gemeinsame, 94 – Rand-, 96 Differenz von Mengen, 5 disjunkt, 6 doppelblind, 193 Durchschnitt von Mengen, 5
Histogramm, 77 Hypothesentest, siehe Statistischer Test
C
I i.i.d.-Annahme, 112 Intensität, siehe Poisson-Prozess Interpretation von Wahrscheinlichkeiten, siehe Wahrscheinlichkeit interquartile range, 75 IQR (interquartile range), 75
A–I
252
Stichwortverzeichnis
J
O
Jensen’sche Ungleichung, 65
Operation der Mengenlehre, 5
K
P
Kleinste-Quadrate-Schätzer, 211 Komplement von Mengen, 5 Komplementärereignis, 6 Konfidenzintervall, siehe Vertrauensintervall Korrelation, 102 – empirische, 83 – Rang-K., 83 Kovarianz, 102 – empirische, 82 Kovarianzmatrix, 107 kurzschwänzig, 129
p-Wert, 169 Parameterschätzer, siehe Schätzer Partition, 21 Poisson-Prozess, 66 – homogener, 66 – Intensität eines, 66 Poisson-Verteilung, 44 – Normalapproximation der, 119 Produktformel, 14 Prognoseintervall, 217
L
Q
Lageparameter, 34 langschwänzig, 129, 162 Likelihood-Funktion, 137 – log-, 138 Lognormalverteilung, 64, 119
QQ-Plot, 126 – Normalplot, 128 Quantil, 52 – empirisches, 74 Quartil, 75 Quartilsdifferenz, 75
M
R
Macht, 166 Mann-Whitney-U-Test, 201 Maximum-Likelihood– Methode, 137 – Schätzer, 138 Median, 52 – empirischer, 75 Menge – De Morgan’sche Regeln, 6 – Differenz, 5 – disjunkte, 6 – Durchschnitt, 5 – Komplement, 5 – leere, 5 – Operationen der Mengenlehre, 5 – Vereinigung, 5 Mittel, arithmetisches, 73 Modell von Laplace, 12 Moment, 133 – empirisches, 134 Momentenmethode, 133
Randdichte, 96 Randomisierung, 192 Randverteilung, 91 Rang, 74 Rangkorrelation, 83 Regression – einfache lineare, 207 – multiple lineare, 221 regression to the mean, 214 Relevanzbereich, 179 Residuenanalyse, 219 Residuum, 211 robust, 75 Rückschritt zum Mittel, siehe regression to the mean
N Niveau, siehe Signifikanzniveau Normalplot, siehe QQ-Plot Normalverteilung, 56 – Standard-, 57 – zweidimensionale, 106 Nullhypothese, 151
S Satz – der totalen Wahrscheinlichkeit, 21 – von Bayes, 23 Schätzer, 125, 132 – allgemeine für Erw.wert und Varianz, 142 – erwartungstreuer, 143 – Genauigkeit von, 144 – Kleinste-Quadrate-S., 211 – Maximum-Likelihood-Methode, 137 – Momentenmethode, 133 Schnittmenge, siehe Durchschnitt von Mengen Schwerpunkt, 34
253 Stichwortverzeichnis
Signifikanz, 153 Signifikanzniveau, 153 Simpson-Paradoxon, 224 Simulation, 66 Standardabweichung, 36, 52 – empirische, 74 Standardfehler, 145, 215 Standardisierung, 63 Statistik – deskriptive, 73 – schließende, 124 Stichprobe, 72 – gepaarte, 190 – ungepaarte oder unabhängige, 191 – Zufalls-, 72 Stichprobenmittel, 73 Störparameter, 158, 208 Streuung, 33 Streuungsparameter, 35 Studie – Beobachtungs-, 193 – randomisierte kontrollierte, 192 symmetrisch, 102
T t-Test – für eine Stichprobe, 161 – für unabhängige Stichproben, 199 t-Verteilung, 162 Tabelle – Standardnormalverteilung, 233 – t-Verteilung, 234 Test, statistischer, 151 Testproblem, multiples, 173 Teststatistik, 153, 159 Trägheitsmoment, 35 Treppenfunktion, 31 Tukey-Anscombe-Plot, 219
U Überdeckungswahrscheinlichkeit, 146 Unabhängigkeit – von Ereignissen, 14 – von Stichproben, 191 – von Zufallsvariablen, 29, 94 ungepaart, 191 Ursache-Wirkung-Beziehung, 193, 204
V Variable, erklärende, 207 Varianz, 35, 52 – empirische, 74 Variationskoeffizient, 37, 52 Venn-Diagramm, 6 Vereinigung, 5
Versuchsbedingung, 190 Versuchseinheit, 190 Versuchsplanung, 192 Verteilung, 29 – bedingte, 91 – Bernoulli-, 39 – bimodale, 80 – Binomial-, siehe Binomialverteilung – diskrete, 30 – Exponential-, 58 – gemeinsame, 90 – geometrische, 42 – kurzschwänzige, 129 – langschwänzige, 129 – Lognormal-, 64 – Normal-, siehe Normalverteilung – Poisson-, siehe Poisson-Verteilung – Rand-, 91 – schiefe, 129 – Standardnormal-, 57 – stetige, 48 – t-, 162 – uniforme, 54 – zweidimensionale Normal-, 106 Verteilungsfamilie, 125 Verteilungsfunktion, kumulative, 30 – empirische, 79 Vertrauensintervall, 146, 175 – Dualität zu Tests, 175 – Überdeckungswahrscheinlichkeit, 146 Verwerfungsbereich, 154 Vorzeichen-Rangsummen-Test, siehe Wilcoxon-Test Vorzeichentest, 180
W Wahrscheinlichkeit – a-posteriori, 23 – a-priori, 23 – bayes’sche Interpretation, 9 – bedingte, 16 – frequentistische Interpretation, 9 Wahrscheinlichkeitsbaum, 20 Wahrscheinlichkeitsdichte, siehe Dichte Wahrscheinlichkeitsfunktion, 30 – gemeinsame, 90 Wahrscheinlichkeitsmodell, 10 – diskretes, 12 Wahrscheinlichkeitsverteilung, 29 Welch-Test, 201 Wiederkehrperiode, 42 Wilcoxon-Test, 182 Wurzel-n-Gesetz, 114
J–W
254
Stichwortverzeichnis
Z Z-Test, 159 Zentralwert, siehe Median Zielgröße, 207
Zufallsexperiment, 4 Zufallsstichprobe, 72 Zufallsvariable, 28 – arithm. Mittel von Z.n, 113 – Summen von Z.n, 113 Zufallsvektor, 90