352 43 17MB
German Pages XXXII, 1054 [1084] Year 2020
Jürgen Hedderich Lothar Sachs
Angewandte Statistik Methodensammlung mit R 17. Auflage
Angewandte Statistik
Jürgen Hedderich · Lothar Sachs
Angewandte Statistik Methodensammlung mit R 17., überarbeitete und ergänzte Auflage
Jürgen Hedderich Großenaspe, Deutschland
Lothar Sachs (Verstorben)
ISBN 978-3-662-62293-3 ISBN 978-3-662-62294-0 (eBook) https://doi.org/10.1007/978-3-662-62294-0 Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detail lierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. Von der 1. bis zur 3. Auflage als „Statistische Auswertungsmethoden“ 1968, 1969 und 1972 erschienen. © Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 1974, 1978, 1984, 1992, 1997, 1999, 2002, 2004, 2006, 2009, 2012, 2016, 2018, 2020 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen etc. in diesem Werk bedeutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die Berechtigung zur Benutzung unterliegt, auch ohne gesonderten Hinweis hierzu, den Regeln des Markenrechts. Die Rechte des jeweiligen Zeicheninhabers sind zu beachten. Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informationen in diesem Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag, noch die Autoren oder die Herausgeber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen. Der Verlag bleibt im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutionsadressen neutral. Planung/Lektorat: Iris Ruhmann Springer Spektrum ist ein Imprint der eingetragenen Gesellschaft Springer-Verlag GmbH, DE und ist ein Teil von Springer Nature. Die Anschrift der Gesellschaft ist: Heidelberger Platz 3, 14197 Berlin, Germany
Für
Barbara Das kann kein Zufall sein!
vi
Vorwort
Vorwort zur siebzehnten Auflage Im Juni 2019 ist Prof. Lothar Sachs verstorben, ein Wegbereiter und Mentor für die Anwendung statistischer Methoden in zahlreichen Gebieten. Er wurde 1929 in Berlin geboren und studierte dort von 1950 bis zum Staatsexamen 1956 an der Freien- und Technischen Universität. Prägend waren für ihn die Bereiche: Chemie, Thermodynamik und Philosophie. Prof. Sachs promovierte 1958 an der Universität Kiel, war zunächst im Steroidhormon-Forschungsbereich der Firma Schering tätig und ging als wissenschaftlicher Assistent und Leiter der klinisch-chemischen und Steroidhormon-Laboratorien an die Kieler Universitäts-Frauenklinik. 1964 wechselte er an das heutige Institut für Medizinische Informatik und Statistik, an dem er bis zu seiner Emeritierung im Jahr 1986 tätig war. Prof. Sachs habilitierte sich 1974 im Bereich „Medizinische Dokumentation und Statistik“ mit dem Thema Vierfeldertest-Varianten. Sein besonderes Interesse galt der Aus- und Weiterbildung von Studierenden und Kollegen der Medizinischen Fakultät sowie der Unterstützung zahlreicher wissenschaftlicher Arbeiten. Das Augenmerk richtete er dabei stets dem Spektrum bewährter und neu entwickelter statistischer Methoden. Daraus resultierte auch die 1968 erstmals im Springer Verlag veröffentlichte „Angewandte Statistik“, die über die Jahrzehnte eine weite Verbreitung und Anerkennung gefunden hat und zu der später Übersetzungen ins Englische, Russische und Spanische folgten. Das Konzept dieses erfolgreichen Werkes beruht auf einem Korpus angewandter Beispiele, primär aus den Bereichen Biologie und Medizin, bei denen Aspekte der Planung, Modellannahmen, Wege der Berechnung und die richtige Bewertung der Ergebnisse im Vordergrund stehen. Mathematische Herleitungen, Definitionen und Beweise fehlen dagegen zugunsten einer verständlichen, möglichst umgangssprachlichen Darstellung.
Das Werk wird von mir nun in der 17. Auflage fortgeführt. Neben zahlreichen Präzisierungen und Ergänzungen sind auch die Verzeichnisse überarbeitet worden. Insbesondere ist der R-Code zu den Beispielen, Abbildungen und Tabellen aktualisiert und vollständig im Internet auf der Seite http://www.j-hedderich.de für die Anwendung durch den Leser abrufbar. Ich danke Prof. Lothar Sachs für zahlreiche Anregungen und kritische Diskussionen. Neben dem aktuellen Wandel im Verständnis des Begriffes „Demokratie“ und der sozialen Verpflichtung des Einzelnen in einem Staat, war die Rolle des Zufalls bei den alltäglichen Erfahrungen und besonders in der wissenschaftlichen Arbeit häufig Gegenstand unserer Gespräche, wie zuletzt auch über ein Zitat von F. Nietsche: „Kein Sieger glaubt an den Zufall“. Frau Dipl. Math. Ulrike von Hehn (Firma medistat, Kiel) danke ich für Hinweise zur Aktualisierung des Buches. Am Schluss ist es mir eine angenehme Pflicht, zahlreichen Lesern, auch früherer Auflagen, zu danken, die durch ihre kritischen Anmerkungen halfen, manches Versehen auszumerzen. Frau Iris Ruhmann und Frau Bianca Alton vom Springer Verlages danke ich für die angenehme Zusammenarbeit. Für Leserzuschriften, auch per E-mail an [email protected], bin ich weiterhin dankbar, insbesondere auch für jeden Verbesserungsvorschlag. Kiel, Juli 2020
Jürgen Hedderich
Zusammenhang zwischen den 9 Kapiteln Kapitel1
Einführung
Grundlagen
Kapitel9
Kapitel2
Kapitel3
deskriptiveStatistik
Kapitel4
Wahrscheinlichkeiten
Stochastik
Kapitel5
Zufallsvariablen Verteilungen Kapitel7
Kapitel6
Schätzen Konfidenzintervalle
Statistik-ProgrammR
Mathematik
Hypothesentests
Kapitel8
Modellbildung
Zum Inhalt Kapitel 1: Was ist zu Bedenken? Was ist zu vermeiden? Das Kapitel gibt Hinweise auf die Grundlagen der wissenschaftlichen Arbeit und hilft bei der Planung von Experimenten und Erhebungen. Kapitel 2: Ganz ohne Mathematik geht es nicht! Das Kapitel gibt einen kurzen Einblick in Grundlagen, wobei insbesondere der Funktionsbegriff, die Kombinatorik und das Rechnen mit Matrizen für das Verständnis der weiteren Kapitel hilfreich sind. Kapitel 3: Jede Datenanalyse beginnt mit einer vollständigen Beschreibung der erhobenen Befunde. Die Zusammenfassung der Daten erfolgt in Abhängigkeit von der Messbarkeit durch die Maßzahlen der deskriptiven Statistik. Kapitel 4: Wahrscheinlichkeiten und der häufig Verwirrung stiftenden Begriff der bedingten Wahrscheinlichkeit (Unabhängigkeit) werden anhand zahlreicher Beispiele erklärt. Kapitel 5: Verteilungsmodelle zu diskreten und stetigen Zufallsvariablen sind die Grundlage zum Verständnis zahlreicher Methodenansätze für das Schätzen und Testen von Parametern. Kapitel 6: Punkt- und Intervallschätzung (Konfidenzintervalle) zu zahlreichen Parametern ermöglichen die Beurteilung der Verteilung von Zufallsvariablen. Kapitel 7: Der Test von Hypothesen ist ein zentraler Aspekt der induktiven (schließenden) Statistik. Neben den Grundlagen wird der Vergleich von Erwartungswerten, die Analyse von Häufigkeiten und die Beurteilung von Zusammenhängen an zahlreichen Beispielen hergeleitet. Kapitel 8: Grundlagen der Modellbildung werden anhand häufig verwendeter Ansätze erklärt, z. B. für lineare und logistische Regressionsmodelle sowie für die Analyse von Überlebenszeiten. Kapitel 9: Eine kurze Einführung in das Statistikprogramm R ermöglicht das Verständnis der zahlreichen in R durchgerechneten Beispiele und fördert die Entwicklung eigener Lösungen bei der Datenanalyse.
Inhaltsverzeichnis
Inhaltsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . viii Verzeichnis der Übersichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxi Abbildungsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .xxiv Tabellenverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .xxix 1
Grundlagen zur Planung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 Definition und Aufgaben der Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Wissenschaftliche Arbeitstechnik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 Daten und Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.2 Kreisprozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.3 Modelle in der Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Statistik und wissenschaftliche Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1 Wiederholbare Erfahrungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.2 Inferenz: Deduktion und Induktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.3 Beobachtungsstudien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.3.1 Hinweise zu einer Befragung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.3.2 Hinweise zu einer Erhebung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.4 Systematische Fehler (Bias) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.5 Fehlende Angaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.6 Deskriptiver Ansatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.6.1 Merkmale und Dimensionalität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.6.2 Data Editing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.7 Explorativer Ansatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.8 Konfirmativer Ansatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.9 Grundgesamtheit und Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.9.1 Offene und geschlossene Grundgesamtheiten . . . . . . . . . . . . . . . . . 1.3.10 Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.11 Zufallsstichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Datenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.1 Merkmalsarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1 1 4 4 5 7 9 9 10 11 12 13 14 15 16 17 17 18 19 20 21 21 22 23 23
Inhaltsverzeichnis
1.4.2 1.4.3
ix
Von Beobachtungen zu Daten - Skalierung . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1.4.2.1 Zulässige Skalentransformationen . . . . . . . . . . . . . . . . . . . . . . . . . . 26 Datenstruktur, Datengewinnung und Datenerfassung . . . . . . . . . . . . . . . . . . 28
2
Grundlagen aus der Mathematik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Logische und relationale Operatoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Begriffsbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Mengenoperationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 (Grund-) Rechenarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Summen und Produkte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1.1 Das Summenzeichen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1.2 Spezielle Summen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1.3 Multiplikation und Division; Fakultät . . . . . . . . . . . . . . . . . . . . . . . 2.3.2 Potenzen und Wurzeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.3 Logarithmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.4 Rundungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.5 Rechnen mit fehlerbehafteten Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Einführung in die Matrixalgebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.1 Definition und Schreibweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.2 Matrixoperationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.2.1 Matrixaddition und -subtraktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.2.2 Matrixmultiplikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.3 Determinanten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.4 Die Inverse Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.5 Lineare Abhängigkeit, Rang einer Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.6 Lineare Gleichungssysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.7 Eigenwerte und Eigenvektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.1 Lineare Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.2 Nichtlineare Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.2.1 Polynomfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.3 Periodische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.4 Exponentialfunktion und logarithmische Funktion . . . . . . . . . . . . . . . . . . . . . 2.5.4.1 Wachstumsfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.5 Fläche unter einer Funktion: Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6 Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.1 Permutationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.2 Binomialkoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.2.1 Rechnen mit dem Binomialkoeffizienten - weitere Formeln . . . . . 2.6.3 Kombinationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.4 Zerlegung einer Menge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.5 Bootstrap-Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.6 Das Pascalsche Dreieck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.7 Der Multinomialkoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31 31 32 32 33 35 35 35 38 39 40 42 43 45 46 46 47 47 48 50 51 51 52 53 54 54 55 55 56 57 58 59 61 61 62 63 64 66 67 67 69
3
Deskriptive Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Häufigkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Absolute und relative Häufigkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.2 Sinnvolle Quotienten: Verhältniszahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.3 Prozentwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.4 Balken- und Kreisdiagramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70 71 71 73 75 76
x
Inhaltsverzeichnis
3.1.5
3.2
3.3
3.4
3.5 3.6 3.7
3.8
Tabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 3.1.5.1 Rechteckdiagramm und Mosaikplot . . . . . . . . . . . . . . . . . . . . . . . . . 78 3.1.6 Bedingte Häufigkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 3.1.6.1 Simpson’s Paradox (Vergleich von Anteilswerten) . . . . . . . . . . . . . 79 3.1.6.2 Assoziationsmaße für Kontingenztafeln . . . . . . . . . . . . . . . . . . . . . 79 Beschreibung von Ordinaldaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 3.2.1 Medianwert und andere Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 3.2.2 Klassierte Beobachtungen: Berechnung von Quantilen . . . . . . . . . . . . . . . . . 84 3.2.3 Streuung ordinal skalierter Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 3.2.4 Punktdiagramm und Box-Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 3.2.5 Korrelationskoeffizient nach Kendall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 3.2.6 Partielle Rangkorrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 Beschreibung von metrischen Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 3.3.1 Arithmetischer Mittelwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 3.3.2 Standardabweichung, Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 3.3.3 Ergänzung und Kombination von Mittelwerten und Varianzen . . . . . . . . . . . 96 3.3.4 Variationskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 3.3.5 Der Streubereich um den Mittelwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 3.3.6 Mittelwert und Standardabweichung aus klassierten Messwerten . . . . . . . . 98 3.3.7 Das gewogene arithmetische Mittel und die gewogene Varianz . . . . . . . . . . 98 3.3.8 Geometrischer Mittelwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 3.3.9 Harmonischer Mittelwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 Fehlerrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 3.4.1 Fehler in Messungen; Präzision und Richtigkeit . . . . . . . . . . . . . . . . . . . . . . . 107 3.4.2 Standardfehler von Mehrfachbestimmungen . . . . . . . . . . . . . . . . . . . . . . . . . . 109 3.4.3 Fehlerfortpflanzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 3.4.4 Präzision von Messungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 Häufigkeitsverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 3.5.1 Histogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 3.5.2 Pareto-Diagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 Konzentrationsmaße: Herfindahl-Index und Gini-Koeffizient . . . . . . . . . . . . . . . . . . 119 Maßzahlen für den Zusammenhang metrischer Daten . . . . . . . . . . . . . . . . . . . . . . . . 121 3.7.1 Typisierung korrelativer Zusammenhänge . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 3.7.2 Punktwolken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 3.7.3 Empirische Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 3.7.4 Empirischer Korrelationskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 3.7.5 Autokorrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 3.7.6 Reliabilitätsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 3.7.7 Rangkorrelationskoeffizient nach Spearman . . . . . . . . . . . . . . . . . . . . . . . . . 132 3.7.8 Partieller Korrelationskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 3.7.9 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 3.7.10 Spezielle Schätzungen der Regressionsgeraden . . . . . . . . . . . . . . . . . . . . . . . 138 3.7.10.1 Das Bartlett-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 3.7.10.2 Das Kerrich-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 3.7.10.3 Orthogonale kleinste Quadrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 3.7.11 Robuste lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 3.7.12 Nichtlineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 3.7.12.1 Einige linearisierende Transformationen . . . . . . . . . . . . . . . . . . . . . 150 Nichtparametrische Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 3.8.1 Regressogramm, gleitende Mittelwerte und Kernschätzer . . . . . . . . . . . . . . . 153 3.8.2 Kubische Spline-Interpolation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
Inhaltsverzeichnis
xi
4
Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 4.1 Zufallsexperiment, Ereignis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 4.2 Begriff der Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 4.2.1 Definition nach Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 4.2.1.1 Relative Häufigkeit und Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . 163 4.2.1.2 Chancen (Odds) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 4.2.2 Axiome nach Kolmogoroff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 4.2.3 Additionssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 4.2.3.1 Einschluss- und Ausschlussformel (Siebformel) . . . . . . . . . . . . . . 167 4.2.4 Paradoxon der ersten Ziffer (Benford’s Law) . . . . . . . . . . . . . . . . . . . . . . . . . 170 4.3 Bedingte Wahrscheinlichkeiten, stochastische Unabhängigkeit . . . . . . . . . . . . . . . . . 171 4.3.1 Bedingte Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 4.3.1.1 Multiplikationssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 4.3.1.2 Risikomaße [wird durch Abschnitt 7.7.3 ergänzt] . . . . . . . . . . . . . 173 4.3.1.3 Wahrscheinlichkeiten aus einer Sterbetafel . . . . . . . . . . . . . . . . . . . 174 4.3.1.4 Baumdiagramm und Pfadregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 4.3.2 Stochastische Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 4.3.2.1 Stochastische Unabhängigkeit für drei und mehr Ereignisse . . . . . 178 4.3.2.2 Unvereinbarkeit und stochastische Unabhängigkeit . . . . . . . . . . . . 179 4.3.2.3 Ungleichungen nach Bonferroni . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 4.3.2.4 Bedingte Wahrscheinlichkeiten und Korrelation . . . . . . . . . . . . . . . 180 4.3.2.5 Dreizehn Beispiele zur stochastischen Unabhängigkeit . . . . . . . . . 180 4.4 Bayessches Theorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 4.4.1 Bayessches Theorem und Pfadregel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 4.4.2 Acht Beispiele zum Bayesschen Theorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 4.5 Der diagnostische Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 4.5.1 ROC - Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 4.5.2 Der Likelihoodquotient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 4.5.3 Entscheidungsanalyse nach A.J. Vickers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 4.6 Maßzahlen in der Epidemiologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 4.6.1 Prävalenz und Inzidenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 4.6.2 Der Impfeffekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202 4.6.3 Standardisierte Raten am Beispiel der Mortalität . . . . . . . . . . . . . . . . . . . . . . 203
5
Zufallsvariablen, Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 5.1 Die Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 5.1.1 Wahrscheinlichkeitsfunktion, Wahrscheinlichkeitsdichte und Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 5.1.1.1 Rechenregeln zur Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . 211 5.1.1.2 Empirische Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 5.2 Maßzahlen zur Kennzeichnung einer Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 5.2.1 Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 5.2.2 Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 5.2.2.1 Ungleichungen mit Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . 217 5.2.3 Momente: Schiefe und Exzess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 5.2.3.1 Berechnung der empirischen Momente . . . . . . . . . . . . . . . . . . . . . . 220 5.2.3.2 Potenzmomente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 5.2.3.3 Quantilsmaße zu Schiefe und Exzess . . . . . . . . . . . . . . . . . . . . . . . . 225 5.3 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226 5.3.1 Das Urnenmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226 5.3.2 Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228 5.3.3 Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
xii
Inhaltsverzeichnis
5.3.3.1 5.3.3.2 5.3.3.3
Bernoulli-Versuch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229 Binomial-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 Approximation der Binomialverteilung durch die Standardnormalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237 5.3.3.4 Approximation der Binomialverteilung durch die Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239 5.3.4 Multinomialverteilung (Polynomialverteilung) . . . . . . . . . . . . . . . . . . . . . . . . 240 5.3.5 Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242 5.3.5.1 Der Dispersionsindex . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248 5.3.5.2 Approximation der Poissonverteilung durch die Standardnormalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250 5.3.6 Negative Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251 5.3.7 Geometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 5.3.8 Hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257 5.3.8.1 Approximationen der Hypergeometrischen Verteilung . . . . . . . . . 261 5.3.9 Negative Hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261 5.4 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 5.4.1 Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 5.4.2 Standard-Beta-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264 5.4.3 Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269 5.4.3.1 Zentrale Schwankungsintervalle der Standardnormalverteilung . . 274 5.4.3.2 Hinweise und Beispiele zur Normalverteilung . . . . . . . . . . . . . . . . 276 5.4.3.3 Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281 5.4.4 Halbnormalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282 5.4.5 Gestutzte Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285 5.4.6 Lognormalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287 5.4.6.1 Schätzung der Maßzahlen einer Lognormalverteilung . . . . . . . . . . 290 5.4.6.2 Empirische Maßzahlen einer Lognormalverteilung . . . . . . . . . . . . 291 5.4.7 Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293 5.4.8 Weibull-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295 5.4.9 Extremwertverteilung Typ I (Gumbel-Verteilung) . . . . . . . . . . . . . . . . . . . . . 297 5.4.10 Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300 5.5 Testverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303 5.5.1 Student-Verteilung (t-Verteilung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303 5.5.1.1 Nichtzentrale t-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307 5.5.2 Chiquadrat-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308 5.5.2.1 Nichtzentrale Chiquadrat-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . 311 5.5.3 Fisher-Verteilung (F-Verteilung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312 5.5.4 Interpolation von Tabellenwerten und P-Werten . . . . . . . . . . . . . . . . . . . . . . . 314 5.5.4.1 Interpolieren von Zwischenwerten der F -Verteilung . . . . . . . . . . . 318 5.6 Verteilung zweidimensionaler Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321 5.6.1 Modellbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321 5.6.1.1 Einführendes Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321 5.6.1.2 Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321 5.6.2 Randverteilungen und Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323 5.6.2.1 Bedingte Verteilung und Unabhängigkeit . . . . . . . . . . . . . . . . . . . . 325 5.6.2.2 Satz von Bayes für Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . 326 5.6.3 Korrelationskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327 5.6.4 Zweidimensionale Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328
Inhaltsverzeichnis
6
xiii
Schätzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330 6.1 Stichproben-Erhebung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330 6.2 Zufallsstichproben und Zufallszahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331 6.2.1 Spezielle Stichprobenverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336 6.3 Das Schätzen von Parametern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339 6.3.1 Vorbemerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340 6.3.1.1 Der Schluss von der Stichprobe auf die Grundgesamtheit . . . . . . . 340 6.3.1.2 Punktschätzung und Intervallschätzung . . . . . . . . . . . . . . . . . . . . . . 340 6.3.1.3 Schätzwert und Schätzfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341 6.3.2 Wünschenswerte Eigenschaften von Schätzfunktionen . . . . . . . . . . . . . . . . . 341 6.3.2.1 Unverzerrte Schätzfunktion für die Varianz . . . . . . . . . . . . . . . . . . . 342 6.3.3 Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343 6.3.4 Der mittlere quadratische Fehler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343 6.4 Schätzverfahren für Maßzahlen einer Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345 6.4.1 Momentenmethode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345 6.4.2 Schätzung nach der größten Erwartung (MLE) . . . . . . . . . . . . . . . . . . . . . . . 346 6.4.2.1 ML-Schätzer zur Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . 348 6.4.2.2 ML-Schätzer zur Negativen Binomialverteilung . . . . . . . . . . . . . . . 348 6.4.2.3 ML-Schätzer zur Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . 350 6.4.2.4 ML-Schätzer zur Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 351 6.4.2.5 ML-Schätzer zur gestutzten Normalverteilung . . . . . . . . . . . . . . . 352 6.4.3 Schätzung nach dem kleinsten Fehler (OLS) . . . . . . . . . . . . . . . . . . . . . . . . . 353 6.5 Intervallschätzung - Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354 6.6 Konfidenzintervall für Anteilswerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357 6.6.1 Approximation durch die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 361 6.6.2 Nullergebnisse bzw. Vollergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363 6.6.3 Schnellschätzung der Vertrauensgrenzen anhand einer beobachteten relativen Häufigkeit nach Clopper und Pearson . . . . . . . . . . . . . . . . . . . . . . . 364 6.6.4 Konfidenzintervall für die Differenz zweier Anteile . . . . . . . . . . . . . . . . . . . 365 6.6.5 Konfidenzintervall für das Verhältnis zweier Anteile . . . . . . . . . . . . . . . . . . . 367 6.6.6 Mindestumfang einer Stichprobe zur Schätzung eines Anteils . . . . . . . . . . . 369 6.6.7 Simultane Konfidenzintervalle für multinomiale Anteile . . . . . . . . . . . . . . . 372 6.7 Konfidenzintervalle für den Erwartungswert einer Poisson-Verteilung . . . . . . . . . . 373 6.7.1 Zentrale („exakte“) Konfidenzintervalle für den Erwartungswert . . . . . . . . . 374 6.7.2 Nicht-zentrale (kürzeste) Konfidenzintervalle nach Crow und Gardner . . . . 375 6.7.3 Konfidenzintervall für das Verhältnis zweier Raten (Poisson-Verteilung) . . 377 6.7.4 Konfidenzintervalle für standardisierte Raten . . . . . . . . . . . . . . . . . . . . . . . . . 378 6.8 Konfidenzintervalle für den Erwartungswert bei Normalverteilung . . . . . . . . . . . . . . 381 6.8.1 Vertrauenswahrscheinlichkeit und Irrtumswahrscheinlichkeit . . . . . . . . . . . . 381 6.8.2 Konfidenzintervall für den Erwartungswert einer Normalverteilung . . . . . . 383 6.8.3 Konfidenzintervall für die Differenz zweier Erwartungswerte . . . . . . . . . . . 386 6.8.4 Konfidenzintervall für den Erwartungswert aus Paardifferenzen . . . . . . . . . 387 6.8.5 Konfidenzintervall für das Verhältnis zweier Erwartungswerte . . . . . . . . . . . 388 6.8.6 Konfidenzintervall für Verhältniszahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389 6.8.7 Konfidenzintervall für den Erwartungswert einer Lognormalverteilung . . . 390 6.9 Konfidenzintervalle für die mittlere absolute Abweichung . . . . . . . . . . . . . . . . . . . . . 391 6.10 Konfidenzintervalle für den Median . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392 6.10.1 Konfidenzintervalle für die Differenz und den Quotienten von Medianen . . 396 6.10.2 Verteilungsunabhängige Konfidenzintervalle für beliebige Quantile . . . . . . 398 6.10.3 90%-Konfidenzintervalle für Referenzwerte . . . . . . . . . . . . . . . . . . . . . . . . . . 399 6.11 Konfidenzintervalle nach dem Bootstrap-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 402
xiv
Inhaltsverzeichnis
6.12 Konfidenzintervalle für die Varianz bzw. die Standardabweichung . . . . . . . . . . . . . . 405 6.12.1 Konfidenzintervalle für den Variationskoeffizienten . . . . . . . . . . . . . . . . . . . . 408 6.12.2 Konfidenzintervalle für den Quotienten zweier Varianzen . . . . . . . . . . . . . . . 409 6.13 Weibull-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410 6.13.1 Bestimmung der Parameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410 6.13.2 Konfidenzintervall für die Weibull-Gerade . . . . . . . . . . . . . . . . . . . . . . . . . . . 412 6.14 Konfidenzintervalle für die Parameter einer linearen Regression . . . . . . . . . . . . . . . . 413 6.14.1 Die Schätzung einiger Standardabweichungen . . . . . . . . . . . . . . . . . . . . . . . . 413 6.14.2 Konfidenzintervalle für den Regressionskoeffizienten, für den Achsenabschnitt und für die Restvarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417 6.14.3 Konfidenzintervalle und Prädiktionsintervalle für die Regressionsgerade . . 419 6.14.4 Inverse Prädiktion aus einer linearen Regression . . . . . . . . . . . . . . . . . . . . . . 422 6.15 Konfidenzintervall für den Korrelationskoeffizienten nach Pearson . . . . . . . . . . . . . 423 6.16 Übereinstimmung und Präzision von Messwerten . . . . . . . . . . . . . . . . . . . . . . . . . . . 425 6.16.1 Übereinstimmung von Messwertreihen nach Bland-Altman . . . . . . . . . . . . 425 6.16.2 Regressionsverfahren zur Übereinstimmung zweier Messwertreihen . . . . . 428 6.16.3 Vergleich der Präzision und der Genauigkeit zweier Messwertreihen . . . . . 431 6.16.4 Der Konkordanz-Korrelationskoeffizient nach Lin . . . . . . . . . . . . . . . . . . . . 432 6.16.5 Intraklassen-Korrelation: Interrater-Reliabilität . . . . . . . . . . . . . . . . . . . . . . . 434 6.17 Toleranzgrenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 437 6.17.1 Verteilungsunabhängige Toleranzgrenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 439 6.18 Voraussageintervalle (Prädiktionsintervalle) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441 6.18.1 Voraussageintervalle für den Mittelwert aus künftigen Beobachtungen . . . . 441 6.18.2 Voraussageintervalle für alle künftigen Beobachtungen . . . . . . . . . . . . . . . . . 442 6.18.3 Voraussageintervalle für die Standardabweichung aus künftigen Beobachtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443 6.19 Bayes-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444 6.19.1 A-priori Verteilungen (Prior) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447 6.19.2 Parameterschätzung nach Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 449 7
Hypothesentest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454 7.1 Der statistische Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454 7.1.1 Entscheidungsprinzipien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455 7.1.2 Statistische Hypothesen und Testentscheidungen . . . . . . . . . . . . . . . . . . . . . 456 7.1.3 Die Formulierung von Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460 7.1.3.1 Alternativhypothese als Gegensatz zur Nullhypothese . . . . . . . . . . 460 7.1.3.2 Durch Daten angeregte Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . 460 7.1.4 Der P -Wert nach R.A. Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461 7.1.5 Wie oft wird eine wahre Nullhypothese abgelehnt? . . . . . . . . . . . . . . . . . . . . 463 7.1.6 Statistischer Test - Schritt für Schritt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464 7.1.6.1 Der Likelihood-Quotient; das Neyman-Pearson Lemma . . . . . . . . 467 7.1.7 Powerfunktion und Operationscharakteristik . . . . . . . . . . . . . . . . . . . . . . . . . 469 7.1.8 Die Operationscharakteristik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474 7.1.8.1 Die OC-Kurve in der Qualitätskontrolle . . . . . . . . . . . . . . . . . . . . . 474 7.1.9 Test auf Überlegenheit, Äquivalenz und Nichtunterlegenheit . . . . . . . . . . . . 477 7.1.10 Verteilungsunabhängige Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 478 7.2 Tests der Verteilung (Anpassungstests, goodness-of-fit) . . . . . . . . . . . . . . . . . . . . . . . 481 7.2.1 Der Quotient R/s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483 7.2.2 Überprüfung des 3. und 4. Momentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484 7.2.3 Der Quantile-Quantile Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486 7.2.4 Box-Cox-Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 488 7.2.5 Der Chiquadrat-Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 490
Inhaltsverzeichnis
7.2.6
xv
Kolmogoroff-Smirnoff Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494 7.2.6.1 Anpassung an eine Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . . . 497 7.2.7 Shapiro-Wilk Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 498 7.2.8 Anderson-Darling Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499 7.2.9 Ausreißerproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 500 7.2.9.1 Grubbs-Test für Ausreißer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 502 7.2.9.2 Q-Test nach Dixon für kleine Stichproben . . . . . . . . . . . . . . . . . . . 503 7.2.9.3 Standardisierte Extremabweichungen . . . . . . . . . . . . . . . . . . . . . . . 504 7.3 Einstichprobenverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505 7.3.1 Hypothesen zu Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505 7.3.1.1 Binomialtest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505 7.3.1.2 Binomialtest - Approximation durch die Normalverteilung . . . . . 507 7.3.1.3 Binomialtest - Fallzahlabschätzung . . . . . . . . . . . . . . . . . . . . . . . . . 509 7.3.1.4 Binomialtest: Likelihood-Quotienten-Test . . . . . . . . . . . . . . . . . . . 511 7.3.2 Hypothesen zu Erwartungswerten, die sich auf einen empirischen Mittelwert beziehen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513 7.3.2.1 Einstichproben-t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513 7.3.2.2 Fallzahlabschätzung zum Einstichproben-t-Test . . . . . . . . . . . . . . 515 7.3.2.3 Einstichprobentest auf Äquivalenz . . . . . . . . . . . . . . . . . . . . . . . . . 517 7.3.3 Einstichproben-Median-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 518 7.3.4 Vergleich einer empirischen Varianz mit ihrem Parameter . . . . . . . . . . . . . . 520 7.3.5 Asymptotischer Test für den Variationskoeffizienten . . . . . . . . . . . . . . . . . . 521 7.3.6 Prüfung der Zufallsmäßigkeit einer Folge von Alternativdaten oder von Messwerten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 522 7.3.6.1 Die sukzessive Differenzenstreuung . . . . . . . . . . . . . . . . . . . . . . . . . 522 7.3.6.2 Der Iterationstest für die Prüfung, ob eine Folge von Alternativdaten oder von Messwerten zufallsgemäß ist . . . . . . . . . 523 7.3.6.3 Phasenhäufigkeitstest von Wallis und Moore . . . . . . . . . . . . . . . . . 526 7.3.6.4 Der Vorzeichen-Trendtest von Cox und Stuart . . . . . . . . . . . . . . . . 527 7.3.6.5 Variabilität der zentralen Tendenz . . . . . . . . . . . . . . . . . . . . . . . . . . 528 7.3.7 Prüfung der Erwartungswerte von Poisson-Verteilungen . . . . . . . . . . . . . . . . 529 7.3.7.1 Fallzahl und Power zum Einstichproben-Lambda-Test . . . . . . . . . 531 7.3.7.2 Stichprobenumfang zur Prüfung einer Defektrate . . . . . . . . . . . . . 532 7.4 Zweistichprobenverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533 7.4.1 Vergleich zweier Varianzen (F-Test) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533 7.4.1.1 Varianzvergleich bei kleinem bis mittlerem Stichprobenumfang . 534 7.4.1.2 Varianzvergleich bei mittlerem bis großem Stichprobenumfang . . 535 7.4.1.3 Varianzvergleich bei großem bis sehr großem Stichprobenumfang536 7.4.1.4 Stichprobenumfang und Power für den F-Test . . . . . . . . . . . . . . . . 536 7.4.1.5 Vergleich der Streuung zweier kleiner Stichproben nach Pillai und Buenaventura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 537 7.4.1.6 Vergleich zweier Variationskoeffizienten . . . . . . . . . . . . . . . . . . . . 537 7.4.2 Rangdispersionstest von Siegel und Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . 540 7.4.3 Ansari-Bradley Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544 7.4.4 t-Test für unabhängige Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 546 7.4.4.1 Unbekannte aber gleiche Varianzen . . . . . . . . . . . . . . . . . . . . . . . . 546 7.4.4.2 t-Test bei unbekannten Varianzen, die möglicherweise ungleich sind . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 551 7.4.4.3 Fallzahlabschätzung für den t-Test: zwei unabhängige Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 553 7.4.4.4 Bootstrap: t-Test Variante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 558
xvi
Inhaltsverzeichnis
7.4.4.5 Multivariater t-Test: Hotelling’s T 2 . . . . . . . . . . . . . . . . . . . . . . . . 559 t-Test für Paardifferenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 561 7.4.5.1 Gepaarte Beobachtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 561 7.4.5.2 Absolute oder prozentuale Veränderungen . . . . . . . . . . . . . . . . . . . 562 7.4.5.3 t-Test für paarweise angeordnete Messwerte . . . . . . . . . . . . . . . . . . 563 7.4.5.4 Prüfung der Gleichheit zweier Varianzen paariger Stichproben . . 565 7.4.6 Wilcoxon-Rangsummentest für zwei unabhängige Stichproben (U-Test) . 566 7.4.6.1 Der U -Test bei Rangaufteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 574 7.4.6.2 Effektstärke im Vergleich unabhängiger Stichproben . . . . . . . . . . 576 7.4.6.3 Fallzahlabschätzung für den U -Test . . . . . . . . . . . . . . . . . . . . . . . . . 579 7.4.7 Wilcoxon-Paardifferenzentest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 581 7.4.7.1 Konfidenzintervall für den Median aus Paardifferenzen . . . . . . . . 585 7.4.7.2 Der Maximum-Test für Paardifferenzen . . . . . . . . . . . . . . . . . . . . . 585 7.4.7.3 Der Vorzeichentest von Dixon und Mood . . . . . . . . . . . . . . . . . . . . 586 7.4.7.4 Stichprobenumfang für den Vorzeichentest / Wilcoxon-Test für Paardifferenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 588 7.4.8 Vergleich zweier Erwartungswerte aus Poisson-Verteilungen . . . . . . . . . . . 589 7.4.9 Vergleich zweier unabhängiger Stichproben nach Kolmogoroff/Smirnoff . 592 7.4.9.1 Cramér-von Mises Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 595 7.4.10 Einige weitere verteilungsunabhängige Verfahren für den Vergleich unabhängiger Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 597 7.4.10.1 Der Zwei-Stichproben Dispersionstest: Count Five . . . . . . . . . . . . 597 7.4.10.2 Rosenbaumsche Schnelltests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 598 7.4.10.3 Permutationstest, Randomisierungstest . . . . . . . . . . . . . . . . . . . . . . 599 7.4.10.4 Der Vergleich zweier unabhängiger Stichproben: Schnelltest nach Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 603 7.4.10.5 Der Median-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604 7.4.11 Zweistichprobentest auf Äquivalenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 606 7.4.11.1 Test auf Bioäquivalenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 607 7.5 Mehrfacher Hypothesentest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 609 7.5.1 Multiples Testproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 609 7.5.2 Adjustierung von P-Werten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 612 7.5.3 Kombination von P -Werten aus gleichgerichteten einseitigen Tests . . . . . . 617 7.6 Mehrstichprobenverfahren, varianzanalytische Methoden . . . . . . . . . . . . . . . . . . . . . 619 7.6.1 Prüfung der Gleichheit mehrerer Varianzen aus normalverteilten Grundgesamtheiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 619 7.6.1.1 Prüfung der Gleichheit mehrerer Varianzen nach Hartley . . . . . . . 619 7.6.1.2 Prüfung der Gleichheit mehrerer Varianzen nach Cochran . . . . . . 621 7.6.1.3 Prüfung der Gleichheit mehrerer Varianzen nach Bartlett . . . . . . 622 7.6.1.4 Robuster Test auf Varianzhomogenität nach Levene in der Brown-Forsythe-Version . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624 7.6.2 Transformation zur Stabilisierung der Varianz . . . . . . . . . . . . . . . . . . . . . . . . 625 7.6.3 Einfache Varianzanalyse (ANOVA, analysis of variance) . . . . . . . . . . . . . . . 627 7.6.3.1 Permutationstest zur Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . 631 7.6.3.2 Stichprobenumfänge und Power für den varianzanalytischen Mittelwertvergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 632 7.6.4 Multiple paarweise Vergleiche und weitere Mittelwertvergleiche . . . . . . . . 634 7.6.4.1 Multiple Vergleiche nach Tukey-Kramer . . . . . . . . . . . . . . . . . . . . 634 7.6.4.2 Multiple Vergleiche nach Games-Howell . . . . . . . . . . . . . . . . . . . . 637 7.6.4.3 Multiple Vergleiche mit einer Kontrolle nach Dunnett . . . . . . . . . 639 7.6.4.4 Multiple Vergleiche: Auswahl des „Besten“ nach Hsu . . . . . . . . . 641 7.4.5
Inhaltsverzeichnis
xvii
Bereichsschätzung für μmax und Auswahl der „besten“ x ¯i . . . . . . 644 Multipler Vergleich von Mittelwerten mit dem Gesamtmittel: Maximum-Modulus-Ansatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644 7.6.4.7 Beurteilung linearer Kontraste nach Scheffé . . . . . . . . . . . . . . . . . 646 7.6.4.8 Bildung homogener Gruppen von Mittelwerten anhand des nach Hayter modifizierten LSD-Tests, eines Lücken-Tests für geordnete μi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 650 7.6.5 H-Test von Kruskal und Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 651 7.6.5.1 Multiple paarweise Vergleiche mittlerer Ränge . . . . . . . . . . . . . . . 654 7.6.5.2 H-Test mit Stichproben-Untergruppen . . . . . . . . . . . . . . . . . . . . . . 658 7.6.5.3 H-Test-Variante: Vergleich eines Standards mit mehreren Behandlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 659 7.6.5.4 Trendtest nach Jonckheere: Vergleich mehrerer geordneter Verteilungsfunktionen, zugleich ein Trendtest für Mediane . . . . . 660 7.6.6 Varianzanalyse für Messwiederholungen (Blockvarianzanalyse) . . . . . . . . . 663 7.6.7 Friedman-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 665 7.6.7.1 Multiple paarweise Vergleiche mit einer Kontrolle . . . . . . . . . . . . 668 7.6.7.2 Multiple paarweise Vergleiche nach Wilcoxon und Wilcox . . . . . 670 7.6.7.3 Page-Test für geordnete Alternativen . . . . . . . . . . . . . . . . . . . . . . . 673 7.6.7.4 Spannweitenrangtest nach Quade . . . . . . . . . . . . . . . . . . . . . . . . . . 675 7.6.8 Zweifache Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 677 7.6.9 Analyse von wiederholten Messungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 682 7.6.9.1 Typisierung wiederholter Messungen . . . . . . . . . . . . . . . . . . . . . . . 682 7.6.9.2 ANOVA für wiederholte Messungen (gemischte Modelle) . . . . . 686 7.6.10 Prinzipien der Versuchsplanung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 687 7.7 Die Analyse von Häufigkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 694 7.7.1 Vergleich zweier relativer Häufigkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 695 7.7.2 Analyse von Vierfeldertafeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 698 7.7.2.1 Fallzahl und Power zum Vierfeldertest . . . . . . . . . . . . . . . . . . . . . . 703 7.7.2.2 Minimales n für den Vierfeldertest . . . . . . . . . . . . . . . . . . . . . . . . . . 705 7.7.2.3 Vorsicht vor Trugschlüssen beim Vierfeldertest . . . . . . . . . . . . . . . 706 7.7.3 Spezielle Risiko- und Effektmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 707 7.7.3.1 Odds Ratio und relatives Risiko . . . . . . . . . . . . . . . . . . . . . . . . . . . . 707 7.7.3.2 Konfidenzintervalle für das Relative Risiko ψ und für die Odds Ratio ω . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 710 7.7.3.3 Stichprobenumfänge für die Schätzung von Odds Ratio ω und Relativem Risiko ψ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 712 7.7.3.4 Der expositionsbedingte Anteil Erkrankter: Population Attributable Risk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 717 7.7.3.5 Number Needed to Treat (NNT) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 719 7.7.4 Exakter Test nach R.A. Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 721 7.7.5 Äquivalenz zweier Binomialwahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . 724 7.7.6 Der von McNemar modifizierte Vorzeichentest . . . . . . . . . . . . . . . . . . . . . . . 727 7.7.7 Test nach Mantel-Haenszel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 732 7.7.7.1 Breslow-Day-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 734 7.7.7.2 Die Kombination von Vierfeldertafeln . . . . . . . . . . . . . . . . . . . . . . . 737 7.7.8 Der kx2-Felder-Chiquadrat-Test nach Brandt und Snedecor . . . . . . . . . . . . 739 7.7.8.1 Multipler Vergleich von Anteilen (Marascuilo-Prozedur) . . . . . . . 743 7.7.8.2 Homogenitätstest nach Ryan (Lückentest) . . . . . . . . . . . . . . . . . . . 745 7.7.8.3 Power- und Fallzahlabschätzung zum k·2-Felder-Test . . . . . . . . . 746 7.7.9 Cochran-Armitage Test auf linearen Trend . . . . . . . . . . . . . . . . . . . . . . . . . . . 747 7.6.4.5 7.6.4.6
xviii
Inhaltsverzeichnis
7.7.10 Vergleich mehrerer Anteile mit einem vorgegebenen Anteilswert (Standard)751 7.7.11 Die Analyse von Kontingenztafeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 753 7.7.11.1 Kontingenzkoeffizient - Stärke des Zusammenhangs . . . . . . . . . . 761 7.7.11.2 Fallzahl und Power für die Analyse von Kontingenztafeln . . . . . . 763 7.7.11.3 Lokalisation der stochastischen Abhängigkeit nach Hommel . . . 764 7.7.11.4 Simultane Paarvergleiche nach Royen . . . . . . . . . . . . . . . . . . . . . . 765 7.7.12 Bowker-Test auf Symmetrie in quadratischen Mehrfeldertafeln . . . . . . . . . 769 7.7.13 Marginalhomogenitätstest nach Lehmacher . . . . . . . . . . . . . . . . . . . . . . . . . . 770 7.7.14 Stuart-Maxwell-Test auf Homogenität der Randverteilungen . . . . . . . . . . . . 771 7.7.15 Q-Test nach Cochran . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 773 7.7.15.1 Simultane Konfidenzintervalle für paarweise Differenzen von Erfolgsanteilen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 775 7.7.16 Cohen’s Kappa-Koeffizient κ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 776 7.7.16.1 Das gewichtete Kappa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 779 7.7.16.2 Das Kappa für mehrfache Beurteilungen (Multi-Rater) . . . . . . . . 781 7.7.17 Krippendorff’s Alpha . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 783 7.7.18 Kendall’s Konkordanzkoeffizient W . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 784 7.8 Hypothesentests zur Korrelation und Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 786 7.8.1 Hypothesentest zum Korrelationskoeffizienten (Pearson) . . . . . . . . . . . . . . . 787 7.8.1.1 z-Transformation ˙ nach R.A. Fisher . . . . . . . . . . . . . . . . . . . . . . . . . 791 7.8.1.2 Korrelation bei Mehrfachbeobachtungen . . . . . . . . . . . . . . . . . . . . . 794 7.8.1.3 Fallzahl und Power zum Korrelationskoeffizienten . . . . . . . . . . . . 797 7.8.1.4 Der Vergleich mehrerer Korrelationskoeffizienten . . . . . . . . . . . . 799 7.8.2 Prüfung des Rang-Korrelationskoeffizienten nach Spearman (Rho-S) . . . . 800 7.8.3 Prüfung des Rang-Korrelationskoeffizienten nach Kendall (Tau) . . . . . . . . 802 7.8.4 Hypothesentests zu den Parametern einer Regression . . . . . . . . . . . . . . . . . . 805 7.8.4.1 Prüfung der Linearität einer Regression . . . . . . . . . . . . . . . . . . . . . 805 7.8.4.2 Chow-Test: „Strukturbruch“ in einer linearen Regression . . . . . . 806 7.8.4.3 Durbin-Watson-Test: Autokorrelation in den Residuen . . . . . . . . . 808 7.8.4.4 Prüfung des Regressionskoeffizienten gegen Null . . . . . . . . . . . . . 811 7.8.4.5 Prüfung der Differenz zwischen einem geschätzten und einem hypothetischen Regressionskoeffizienten. . . . . . . . . . . . . . . . . . . . . 811 7.8.4.6 Prüfung der Differenz zwischen einem geschätzten und einem hypothetischen Achsenabschnitt. . . . . . . . . . . . . . . . . . . . . . . . . . . . 812 7.8.4.7 Vergleich zweier Regressionskoeffizienten . . . . . . . . . . . . . . . . . . . 812 7.8.4.8 Vergleich zweier Achsenabschnitte . . . . . . . . . . . . . . . . . . . . . . . . . 814 8
Statistische Modellbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 815 8.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 815 8.2 Lineare Regressionsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 819 8.2.1 Die einfache lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 819 8.2.2 Multiple lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 824 8.2.3 Überwindung von Multikollinearität in Regressionsmodellen. . . . . . . . . . . . 828 8.2.4 Analyse der Residuen im linearen Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . 829 8.2.5 Heteroskedastizität im linearen Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 833 8.2.6 Hypothesentest und Konfidenzintervalle zum linearen Modell . . . . . . . . . . . 834 8.2.7 Verfahren der Variablenauswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 836 8.2.8 Nominalskalierte Einflussgrößen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 839 8.3 Varianzanalyse im linearen Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 840 8.3.1 Einfaktorielle Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 840 8.3.1.1 Erwartungswert-Parametrisierung . . . . . . . . . . . . . . . . . . . . . . . . . . 841 8.3.1.2 Effekt-Parametrisierung: Dummy-Codierung . . . . . . . . . . . . . . . . 842
Inhaltsverzeichnis
xix
8.3.1.3 Effekt-Parametrisierung: Effekt-Codierung . . . . . . . . . . . . . . . . . . 842 8.3.1.4 Varianzkomponenten - ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . 843 8.3.1.5 Klassenbildung von stetigen Einflussgrößen . . . . . . . . . . . . . . . . . . 845 8.3.2 Zweifaktorielle Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 846 8.4 Logistische Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 849 8.4.1 Hypothesentest im logistischen Regressionsmodell . . . . . . . . . . . . . . . . . . . . 853 8.4.2 Multiple logistische Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 854 8.4.3 Interpretation der Regressionskoeffizienten . . . . . . . . . . . . . . . . . . . . . . . . . . . 857 8.4.4 Variablenauswahl im Rahmen der Modellbildung . . . . . . . . . . . . . . . . . . . . . 859 8.4.5 Residuenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 861 8.4.6 Pseudo-Bestimmtheitsmaße (Pseudo-R2 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 862 8.4.7 Güte der Klassifikation: ROC/AUC-Analyse . . . . . . . . . . . . . . . . . . . . . . . . . 863 8.4.8 Propensity-Score Matching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 864 8.5 Poisson-Regression und loglineare Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 866 8.5.1 Poisson-Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 866 8.5.1.1 Dispersionsindex und Poisson-Regression . . . . . . . . . . . . . . . . . . . 869 8.5.2 Poisson-Regression zum relativen Risiko aus Raten . . . . . . . . . . . . . . . . . . . 869 8.5.3 Analyse von Kontingenztafeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 871 8.5.4 Loglineares Modell am Beispiel von 2 Faktoren . . . . . . . . . . . . . . . . . . . . . . . 874 8.5.5 Dreidimensionale Kontingenztafeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 876 8.5.5.1 Modellbildung unter verschiedenen Restriktionen . . . . . . . . . . . . . 876 8.5.5.2 Modellauswahl im loglinearen Ansatz . . . . . . . . . . . . . . . . . . . . . . . 878 8.5.5.3 Fünf Einschränkungen und Hinweise zum loglinearen Modell . . . 881 8.6 Modelle zu wiederholten Messungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 882 8.6.1 Varianzanalyse für wiederholte Messungen . . . . . . . . . . . . . . . . . . . . . . . . . . 882 8.6.2 Lineare gemischte Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 886 8.6.3 Analyse von Cluster-Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 893 8.6.4 Verallgemeinerte Schätzgleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 898 8.7 Analyse von Überlebenszeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 903 8.7.1 Kaplan-Meier Schätzung der Überlebensfunktion . . . . . . . . . . . . . . . . . . . . . 905 8.7.2 Der Logrank-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 910 8.7.3 Parametrische Regressionsmodelle für Überlebenszeiten . . . . . . . . . . . . . . . 913 8.7.3.1 Exponentielles Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . 914 8.7.3.2 Gompertz Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 916 8.7.3.3 Weibull Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 917 8.7.3.4 Loglogistisches Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . 918 8.7.3.5 Modellwahl und Güte der Anpassung . . . . . . . . . . . . . . . . . . . . . . . 919 8.7.3.6 AFT-Modelle (Accelerated Failure Time) . . . . . . . . . . . . . . . . . . . 922 8.7.4 Das Proportional-Hazards Modell von Cox . . . . . . . . . . . . . . . . . . . . . . . . . . 924 8.7.4.1 Parameter-Schätzung zum Cox-Modell . . . . . . . . . . . . . . . . . . . . . . 924 8.7.4.2 Interpretation der Parameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 926 8.7.4.3 Modellbildung; zur Auswahl und Bewertung geeigneter Einflussgrößen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 930 8.7.4.4 Residuenanalyse - Güte der Modellanpassung . . . . . . . . . . . . . . . . 932 9
Einführung in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 936 9.1 Das Konsolfenster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 936 9.2 Hilfestellung in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 940 9.3 Objekte in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 941 9.3.1 Vektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 941 9.3.2 Erzeugen von Vektoren und Dateneingabe . . . . . . . . . . . . . . . . . . . . . . . . . . . 943 9.3.3 Faktoren in R, Klassenbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 944
xx
Inhaltsverzeichnis
9.3.4 9.3.5
9.4 9.5 9.6 9.7 9.8 9.9
Erzeugen von Matrizen und Tabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 944 Rechnen mit Matrizen in R am Beispiel der Herleitung einer Kovarianzmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 945 9.3.6 Tabellenstruktur: Daten in Rahmen (data.frame) . . . . . . . . . . . . . . . . . . . . . . 946 Fehlende Angaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 949 Auswahl und Sortierung von Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 950 Ablaufsteuerung: logische Bedingungen und Funktionen in R . . . . . . . . . . . . . . . . . 952 Einige mathematische und statistische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . 956 Modellbildung in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 959 Einfache graphische Funktionen und Hilfsmittel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 960
Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 965 Autorenverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 999 Sachverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1007 Verzeichnis zu den Beispielen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1045 Verzeichnis zu R-Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1049
Verzeichnis der Übersichten
1
Zur Planung wissenschaftlicher Studien: Erfahrungsbedingte Hypothesen und theoriegeleitete Erfahrungen ergänzen sich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2
Grundsätzliches zur Vermeidung von Fehlern bei Erhebungen . . . . . . . . . . . . . . . . . . 14
3
Strategien zur Vermeidung systematischer Fehler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4
Hinweise zur Beurteilenden Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5
Zur Charakterisierung von Skalentypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
6
Verbindungen der vier Grundrechenarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
7
Maßzahlen der deskriptiven Statistik für die vier Skalentypen . . . . . . . . . . . . . . . . . . 70
8
Methoden zur deskriptiven Statistik und Explorativen Datenanalyse . . . . . . . . . . . . . 71
9
Fünf Jahreszahlen zur Geschichte der Wahrscheinlichkeitsrechnung und Statistik . . 158
10
Diagnostischer Test: Prävalenz, Sensitivität und Spezifität . . . . . . . . . . . . . . . . . . . . . . 190
11
Diagnostischer Test: Voraussagewerte und Resultatvalidität . . . . . . . . . . . . . . . . . . . . 191
12
Zufallsvariable: die Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
13
Zufallsvariable: Rechenregeln für Erwartungswerte . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
14
Zufallsvariable: Rechenregeln für Varianzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
15
Wahrscheinlichkeiten zentraler Anteile für beliebige Verteilungen . . . . . . . . . . . . . . . 218
16
Modell der Binomialverteilung für n = 3 Wiederholungen . . . . . . . . . . . . . . . . . . . . . 231
17
Multinomialverteilung, Details . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
18
Übergang der Binomialwahrscheinlichkeit in die Poissonverteilung . . . . . . . . . . . . . . 244
19
Zusammenhang zwischen den Verteilungen von vier Urnenmodellen . . . . . . . . . . . . 257
20
Drei Konvergenzarten mit Beispielen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
21
Beziehungen zwischen 20 ausgewählten Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . 320
xxii
VERZEICHNIS DER ÜBERSICHTEN
22
Verallgemeinerung im Gegensatz zur Datenbeschreibung . . . . . . . . . . . . . . . . . . . . . . 332
23
Zufallszahlen und die Prüfung auf Zufälligkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332
24
Größenordnung von Zufallsstichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335
25
Schichten- und Klumpenstichproben im Vergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337
26
Geeignete Schlussziffernkombinationen für gewählte Auswahlansätze . . . . . . . . . . . 339
27
Schätzen von Parametern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339
28
Konfidenzintervall-Länge für einen Erwartungswert in Abhängigkeit von der Irrtumswahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382
29
Unterschiede zwischen der Bayes-Statistik und einem frequentistischen Ansatz . . . 444
30
Bayes-Statistik: Details zu häufig verwendeten konjugierten Verteilungen . . . . . . . . 448
31
Bayes-Statistik: Erwartungswert und Modalwert aus konjugierten Verteilungen . . . . 450
32
Fehlentscheidungen (α, β) im Hypothesentest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457
33
Details zur Nullhypothese des Hypothesentests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458
34
Die empirische Irrtumswahrscheinlichkeit und die dreistufige Sternsymbolik . . . . . . 461
35
Signifikanzniveau und P -Wert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462
36
Hypothesentest: Wahrscheinlichkeiten zu falschen oder zu richtigen Ergebnissen . . 465
37
Bedeutung der Power für den Hypothesentest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471
38
Test auf Überlegenheit, Äquivalenz und Nichtunterlegenheit . . . . . . . . . . . . . . . . . . . 477
39
Die Prüfung parametrischer und nichtparametrischer Hypothesen . . . . . . . . . . . . . . . 479
40
Einstichproben-Verfahren: Entscheidungsdiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . 505
41
Binomialtest: 3 Hypothesenpaare mit kritischen 5Schranken . . . . . . . . . . . . . . . . . . . 508
42
Einstichproben-t-test: 3 Hypothesenpaare mit Entscheidungsverfahren . . . . . . . . . . . 513
43
Zweistichproben: Entscheidungsdiagramm für Vergleiche . . . . . . . . . . . . . . . . . . . . . . 546
44
Zweistichproben-t-Test: Entscheidungshilfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 552
45
Zweistichproben-Verfahren: weiterführende Details . . . . . . . . . . . . . . . . . . . . . . . . . . . 554
46
Zweistichproben im Verbund: Entscheidungsdiagramm für Vergleiche . . . . . . . . . . . 561
47
Permutationstest in 5 Schritten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 601
48
Mehrstichproben-Verfahren: Entscheidungsdiagramm . . . . . . . . . . . . . . . . . . . . . . . . . 618
49
Varianzstabilisierende Transformationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 626
50
Mehrstichproben im Verbund: Entscheidungsdiagramm . . . . . . . . . . . . . . . . . . . . . . . . 663
51
Messwiederholungen: Details für Bewertungen und Vergleiche . . . . . . . . . . . . . . . . . 683
52
Versuchsanordnungen zur Prüfung von Unterschieden zwischen Faktorstufen . . . . . 690
VERZEICHNIS DER ÜBERSICHTEN
xxiii
53
Zusammenhänge: Entscheidungsdiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 785
54
Drei Korrelationskoeffizienten im Vergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 786
55
Entscheidungsdiagramm zur Modellbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 815
56
Notation in parametrischen Überlebenszeitmodellen . . . . . . . . . . . . . . . . . . . . . . . . . . 923
Abbildungsverzeichnis
1.1 1.2 1.3 1.4 1.5 1.6 1.7
Kreisprozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Induktion und Deduktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Variablen nach der Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Variablen nach der Skalierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Visuelle Analogskala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Beobachtungssituationen und Datenstruktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Datentabelle in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4 11 23 25 25 29 30
2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 2.12
Venn-Diagramm zur Teilmengenrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Venn-Diagramm zur Vereinigungsmenge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Venn-Diagramm zur Schnittmenge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Venn-Diagramm zum Komplement einer Menge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Venn-Diagramm zur Differenz zweier Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lineare Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Quadratische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Periodische Funktionen am Einheitskreis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exponentialfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wachstumsfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fläche unter der Kurve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pascalsches Dreieck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33 33 34 34 34 55 56 57 58 59 60 67
3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13 3.14 3.15 3.16
Balken- und Kreisdiagramm (Blutgruppen im AB0-System) . . . . . . . . . . . . . . . . . . . . 76 Rechteckdiagramm und Mosaikplot (Blutgruppen im AB0-System) . . . . . . . . . . . . . 78 Box-Plot (Schema) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 Dot-Plot und Box-Plot (Schmerzintensität) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 Inversionen in gepaarten Rangfolgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 Fehlerbalken (Mittelwert und Standardabweichung) . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 Systematische und zufällige Fehler (Schießscheibenmodell) . . . . . . . . . . . . . . . . . . . . 108 Präzision von Messungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 Histogramm (Body-Mass-Index BMI) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 Empirische Verteilungsfunktion (Body-Mass-Index) . . . . . . . . . . . . . . . . . . . . . . . . . . 116 Box-Plot und empirische Verteilungsfunktion (Body-Mass-Index) . . . . . . . . . . . . . . . 116 BMI - klassierte Daten (Barplot) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 Pareto-Diagramm (Fehler bei der Fertigung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 Lorenz-Kurve (Marktanteile) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 Wechselwirkung, Interaktionstypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 Typisierung von Zusammenhängen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
Abbildungsverzeichnis
xxv
3.17 3.18 3.19 3.20 3.21 3.22 3.23 3.24 3.25 3.26 3.27 3.28 3.29 3.30 3.31 3.32 3.33 3.34
Punktwolke (Alter und Körpergröße) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 Streuung in bivariaten Messungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 Punktwolken zu unterschiedlichen Korrelationskoeffizienten . . . . . . . . . . . . . . . . . . . 127 Autokorrelationsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 Punktwolke und Residuen-Plot zu Lungentumoren / Asbestexposition . . . . . . . . . . . 136 Korrelation und Regression (Zusammenhang) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 Regression - Methode der orthogonal kleinsten Quadrate . . . . . . . . . . . . . . . . . . . . . . 141 Robuste lineare Regression zu Auslandstelefonaten / Jahrgang . . . . . . . . . . . . . . . . . . 143 Kurvenformen zu nichtlinearen Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 Nichtlineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 Regressionsmodell (asymptotisch) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 Logistisches Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 Compartment-Modell (nichtlineare Regression) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 Michaelis-Menten Gleichung (nichtlineare Regression) . . . . . . . . . . . . . . . . . . . . . . . . 148 Linearisierung von Punktwolken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 Linearisierbare Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 Regressogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 Kubische Spline-Interpolation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11 4.12
Beziehungen zwischen Ereignissen (Venn-Diagramme) . . . . . . . . . . . . . . . . . . . . . . . . 161 Additionssatz für „vereinbare“ Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 Baumdiagramm zur Stochastischen Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 175 Geburtstagsproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 Zerlegung der Ergebnismenge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 Pfadregel und Bayessches Theorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 Diagnostischer Test (Ziel) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 Positiver und negativer Voraussagewert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 Histogramm (Nüchternblutzucker und Diabetes) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 ROC-Kurve (Nüchternblutzucker und Diabetes) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 Fagan-Nomogramm zur Bestimmung der Posttest-Wahrscheinlichkeit . . . . . . . . . . . 196 Entscheidungskurve für einen oralen Glukose-Toleranztest . . . . . . . . . . . . . . . . . . . . . 199
5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 5.10 5.11 5.12 5.13 5.14 5.15 5.16 5.17 5.18 5.19 5.20
Diskrete Zufallsvariablen (Modell) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 Wahrscheinlichkeits- und Verteilungsfunktion (Werfen eines Würfels) . . . . . . . . . . . 208 Wahrscheinlichkeits- und Verteilungsfunktion (Werfen zweier Würfel) . . . . . . . . . . . 208 Verteilungs- und Dichtefunktion einer stetigen Zufallsvariablen . . . . . . . . . . . . . . . . . 209 Formen einer Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 Verteilung und Berechnung der Potenzmomente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224 Verteilung der Körpergröße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225 Diskrete Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228 Bernoulli-Versuche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232 Multinomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241 Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245 Poisson-Verteilung (Anzahl der Unverträglichkeiten) . . . . . . . . . . . . . . . . . . . . . . . . . . 247 Negative Binomialverteilung (Anzahl der Nieten) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252 Geometrische Verteilung (Würfelwurf) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256 Hypergeometrische Verteilung (Lotto) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 Gleich- oder Rechteckverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 Standard-Beta-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 Standard-Beta-Verteilung (Gewinn-Anteile / Übertragbarkeit von Polio) . . . . . . . . . . 266 Binomial-Prozess, unterschiedliche Sichtweisen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
xxvi
Abbildungsverzeichnis
5.21 5.22 5.23 5.24 5.25 5.26 5.27 5.28 5.29 5.30 5.31 5.32 5.33 5.34 5.35 5.36 5.37 5.38 5.39 5.40 5.41 5.42 5.43 5.44 5.45 5.46 5.47 5.48 5.49 5.50 5.51 5.52 5.53 5.54 5.55
Binomial-Prozess (Bauteile / Darlehen / Umfrage) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268 Exponentialfunktion (Glockenkurven) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269 Normalverteilung: Wahrscheinlichkeitsdichte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270 Standardnormalverteilung: Wahrscheinlichkeitsdichte und Verteilungsfunktion . . . . 272 Wahrscheinlichkeiten zum Nüchternblutzucker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274 Normalverteilung: Flächenanteile (Quantile) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 Normalkurve: Länge eines Gegenstandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279 Standardnormalverteilung: Fläche unter der Dichte . . . . . . . . . . . . . . . . . . . . . . . . . . . 280 Normalverteilung: Anpassung aus Histogrammdaten . . . . . . . . . . . . . . . . . . . . . . . . . . 281 Fehlerfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283 Halbnormalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284 Gestutzte Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286 Lognormalverteilung: Wahrscheinlichkeitsdichte und Verteilungsfunktion . . . . . . . . 288 Lognormalverteilung (Alter bei 1. Vaterschaft) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291 Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294 Weibull-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295 Weibull-Verteilung: Reliabilität und Ausfallrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296 Weibull-Verteilung (Bruchfestigkeit) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297 Gumbel-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298 Wasserstand des Rheins (Gumbel-Verteilung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299 Gamma-Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301 Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302 Gamma-Verteilung (Haltbarkeit von Druckgefäßen) . . . . . . . . . . . . . . . . . . . . . . . . . . . 303 Standardnormalverteilung und „Student“-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 304 t-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305 Nichtzentrale t-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307 χ2 -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309 Nichtzentrale χ2 -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312 F -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313 Lineare Interpolation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314 Zweidimensionale Wahrscheinlichkeitsdichte: Teenager-Allüren . . . . . . . . . . . . . . . . 323 Bedingte Dichtefunktionen: Teenager-Allüren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326 Höhenlinien: Teenager-Allüren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328 Zweidimensionale Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329 Höhenlinien dreier zweidimensional-standardisierter Normalverteilungen . . . . . . . . 329
6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 6.10 6.11 6.12 6.13 6.14 6.15
Stichprobenumfang: Allgemeine Faktoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335 Likelihood- und Wahrscheinlichkeitsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347 Partikelgröße nach Abgasreinigung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352 OLS-Schätzer zur linearen Regression und zur nichtlinearen Regression . . . . . . . . . . 354 Konfidenzgrenzen zur Schätzung von π . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356 Darstellung von Konfidenzintervallen in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357 95%-Konfidenzintervalle für π . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365 Notched Box-Whisker-Plot (Ausfallzeiten: Energieversorgung) . . . . . . . . . . . . . . . . . 395 Weibull-Diagramm (Scheuerfestigkeit von Garn) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412 Konfidenzintervall zur linearen Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419 Konfidenzintervall zur linearen Regression (Flügelspannweite von Sperlingen) . . . . 422 95%-Konfidenzintervalle für den Korrelationskoeffizient . . . . . . . . . . . . . . . . . . . . . 423 Fehlende Übereinstimmung und systematische Unterschiede . . . . . . . . . . . . . . . . . . . 426 Übereinstimmung von Messungen nach Bland-Altman . . . . . . . . . . . . . . . . . . . . . . . . 427 Fallzahlabschätzung nach Bland-Altman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427
Abbildungsverzeichnis
xxvii
6.16 Regression zur Übereinstimmung von Messungen Deming und Passing-Bablok Bland-Altman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 430 6.17 Bayes-Schätzung: A-priori und a-posteriori Verteilung . . . . . . . . . . . . . . . . . . . . . . . . 447 6.18 Bayes-Schätzung: konjugierte Standard-Beta-Verteilung (a-priori) . . . . . . . . . . . . . . 449 6.19 Bayes-Schätzung: a-priori Beta-Verteilungen (faire Münze) . . . . . . . . . . . . . . . . . . . . 451 6.20 Bayes-Schätzung: HP D-Region zur a-posteriori Verteilung . . . . . . . . . . . . . . . . . . . . 453 7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 7.10 7.11 7.12 7.13 7.14 7.15 7.16 7.17 7.18 7.19 7.20 7.21 7.22 7.23 7.24 7.25 7.26 7.27 7.28 7.29 7.30 7.31 7.32 7.33 7.34 7.35 7.36 7.37
Kritischer Wert der Teststatistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470 Teststärkekurven (Gütefunktionen) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472 OC-Kurve für einen Stichprobenplan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476 AOQ-Kurve für den mittleren Durchschlupf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476 Bioverfügbarkeit, Konzentrationskurve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 478 QQ-Plot (Blutzucker und Cholesterin) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487 QQ-Plot: Abweichungen von einer Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 488 Box-Cox-Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489 Histogramm und Normalverteilung (Blutzucker und Cholesterin) . . . . . . . . . . . . . . . 492 Empirische Verteilung und Normalverteilung (Blutzucker und Cholesterin) . . . . . . . 495 Boxplot, Ausreißer erkennen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 501 Verteilungsmodell: Anzahl der Erfolge unter n=30 Versuchen . . . . . . . . . . . . . . . . . . 506 Stichprobenumfänge zur Sicherung eines Nullereignisses . . . . . . . . . . . . . . . . . . . . . . 510 Verteilungsfunktion unter H0 (mittlerer diastolischer Blutdruck) . . . . . . . . . . . . . . . . 514 Power für den Einstichproben-t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 516 Wilcoxon-Verteilung: Dichte- und Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . 571 Effektmaße: Cohen’s d und die Wahrscheinlichkeit P (X > Y ) . . . . . . . . . . . . . . . . . 577 AUC (ROC-Kurve) und Stärke eines Effektes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 579 Differenz zwischen empirischen kumulierten Häufigkeitsverteilungen . . . . . . . . . . . . 594 Äquivalenztest: Annahmebereiche und Ablehnungsbereich . . . . . . . . . . . . . . . . . . . . . 607 Falsch positive Resultate bei mehrfachem Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 609 Fehler bei einem einzigen Test gegenüber mehrfachen unabhängigen Tests . . . . . . . 611 Parallelplot (Wirksamkeit verschiedener Diuretika) . . . . . . . . . . . . . . . . . . . . . . . . . . . 673 Zweifache Varianzanalyse mit Berücksichtigung einer Wechselwirkung . . . . . . . . . . 680 Interaction-Plot (Geschlecht und Grad der Depression) . . . . . . . . . . . . . . . . . . . . . . . . 681 Formen von Verlaufsdaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 683 Wiederholte Messungen in zwei Gruppen (hypothetisches Beispiel) . . . . . . . . . . . . . 685 Profildiagramme zu Verlaufsdaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 687 Versuchsplanung für den Vergleich zweier Behandlungen . . . . . . . . . . . . . . . . . . . . . . 688 Powerkurve zum Vierfeldertest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 704 Vierfeldertafel: Mosaikplot und die Odds Ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 712 Äquivalenzintervall: Zweiseitiger Test für Binomialwahrscheinlichkeiten . . . . . . . . . 724 Korrelation bei mehrfachen Messungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 796 Powerkurve zur Schätzung des Korrelationskoeffizienten . . . . . . . . . . . . . . . . . . . . . . 798 Chow-Test (Strukturbruch bei linearer Regression) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 807 Durbin-Watson-Test Entscheidungsgrenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 808 Durbin-Watson-Test Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 810
8.1 8.2 8.3 8.4 8.5 8.6 8.7
Lineares Regressionsmodell (Cholesterin in Abhängigkeit vom Alter) . . . . . . . . . . . 820 Residuenanalyse (Cholesterin in Abhängigkeit vom Alter) . . . . . . . . . . . . . . . . . . . . . 821 Multiple lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 824 Multiple lineare Regression (Mausmodell) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 826 Kollinearität in Regressionsmodellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 828 Residuen-Plot: systematische Fehler im Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 830 Leverage-Plot: „extreme“ Einzelfälle im Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 832
xxviii
Abbildungsverzeichnis
8.8 8.9 8.10 8.11 8.12 8.13 8.14 8.15 8.16 8.17 8.17 8.18 8.19 8.20 8.21 8.22 8.23 8.24 8.25 8.26 8.27 8.28 8.29 8.30 8.31 8.32 8.33 8.34 8.35 8.36 8.37 8.38 8.39 8.40
Heteroskedastizität im linearen Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . 833 Simultane Konfidenzintervalle nach Tukey (Antibiotika) . . . . . . . . . . . . . . . . . . . . . . . 845 Interaction-Plot (Antibiotika) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 848 Logit-Transformation als Link-Funktion bei einer logistischen Regression . . . . . . . . 850 Logistische Funktion (Challenger-Unglück) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 851 Multiple logistische Regression (Kyphose) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 855 Nomogramm zum logistischen Regressionsmodell (Kyphose) . . . . . . . . . . . . . . . . . . 858 Residuenanalyse für das Modell der logistischen Regression (Kyphose) . . . . . . . . . . 862 Logistische Regression - ROC/AUC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 863 Propensity-Score Matching A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 865 Propensity-Score Matching B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 865 Poisson-Regression (Paarungen afrikanischer Elefanten)) . . . . . . . . . . . . . . . . . . . . . . 868 Mosaikplot zu Kontingenztafeln (Arbeitslosigkeit / Gebrauch von Drogen) . . . . . . . 872 Hierarchisch geordnete Hypothesen zur Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . 879 Verlaufsdaten (hypothetisches Beispiel) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 883 Verlaufsdaten in zwei Gruppen (hypothetisches Beispiel) . . . . . . . . . . . . . . . . . . . . . . 885 Lineare Regression zu Einzelverläufen (hypothetisches Beispiel) . . . . . . . . . . . . . . . . 887 Regressionsanalyse und gemischt lineares Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . 891 Synchronisation von Ereignissen und Ereigniszeiten . . . . . . . . . . . . . . . . . . . . . . . . . . 903 Sterbefunktion, Überlebensfunktion und Hazardfunktion . . . . . . . . . . . . . . . . . . . . . . 905 Kaplan-Meier: Schätzung der Überlebensfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . 909 Kaplan-Meier: Vergleich zweier Überlebensfunktionen . . . . . . . . . . . . . . . . . . . . . . . . 912 Parametrische Regressionsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 913 Überlebenszeit: Exponentielles Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 915 Überlebenszeit: Gompertz-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 916 Überlebenszeit: Weibull-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 918 Überlebenszeit: loglogistisches Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 919 Überlebenszeit: Graphische Validierung von Modellannahmen . . . . . . . . . . . . . . . . . . 920 Überlebenszeit: AFT-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 922 Überlebensfunktion nach dem Cox-Modell geschätzt . . . . . . . . . . . . . . . . . . . . . . . . . . 929 Nomogramm zum Cox-Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 929 Log-kumuliertes Risiko der Cox-Snell-Residuen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 933 Martingal-Residuen aus dem Nullmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 934 Schoenfeld-Residuen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 935
9.1 9.2 9.3 9.4 9.5 9.6 9.7 9.8
R-Konsole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 937 RStudio Editor zu R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 939 R-commander (library(Rcmdr) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 939 Hilfestellung (HTML) in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 940 Datenrahmen (edit()) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 947 Statistische Graphiken in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 961 Plotsymbole und Linienarten in den Graphikfunktionen . . . . . . . . . . . . . . . . . . . . . . . 962 Parabelsegment mit Ergänzungen zu Graphik-Funktionen . . . . . . . . . . . . . . . . . . . . . . 962
Tabellenverzeichnis
1.1
Scoring, Vergabe von Punktwerten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1 2.2 2.3 2.4 2.5
Relationen in der Mathematik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Logische Operatoren in der Mathematik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Konstanten in der Mathematik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fehler aus Rundungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Definitionen und Notationen zur Matrixalgebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1 3.2 3.3 3.5 3.6 3.7 3.8 3.9 3.10 3.11
Blutgruppen des AB0-Systems (Beispiel) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 Verhältniszahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 Tabellenschema zur zweifachen Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 Partieller Rangkorrelationskoeffizient (Schema zur Berechnung) . . . . . . . . . . . . . . . . 90 Wachstumsfunktionen und Wachstumsraten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 Fehlerfortpflanzung in Funktionen mit Mittelwerten . . . . . . . . . . . . . . . . . . . . . . . . . . 111 Häufigkeitsverteilung aus klassierten Messwerten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 Pareto-Diagramm (Fehler bei der Fertigung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 Alter und Körpergröße (Beispiel) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 Linearisierende Transformationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8
Beziehungen zwischen Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 Benford’s Law . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 Bedingte Wahrscheinlichkeiten (Vierfelder-Schema) . . . . . . . . . . . . . . . . . . . . . . . . . . 173 Sterbetafel-Daten (Absterbeordnung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 Wahrscheinlichkeiten für mindestens einen Treffer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 Diagnostischer Test (Vierfelder-Schema) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 Positiver und negativer Voraussagewert eines diagnostischen Tests . . . . . . . . . . . . . . 193 Wahrscheinlichkeit falsch negativer Befunde . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9
Potenzmomente (Rechenschema) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 Binomialwahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 Binomialverteilung, Approximation durch die Standardnormalverteilung . . . . . . . . . 238 Winkeltransformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239 Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246 Verteilungsfunktion der Standardnormalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273 Normal- und Lognormal-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290 t-Verteilung; Quantile (Signifikanzschranken) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306 χ2 -Verteilung; Quantile (Signifikanzschranken) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
31 32 43 45 47
xxx
Tabellenverzeichnis
5.10 F -Verteilung; 0,95-Quantile (obere 5%-Schranken) . . . . . . . . . . . . . . . . . . . . . . . . . . . 315 5.11 F -Verteilung; 0,975-Quantile (obere 2,5%-Schranken) . . . . . . . . . . . . . . . . . . . . . . . . 316 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 6.10 6.11 6.12 6.13 6.14 6.15 6.16 6.17 6.18 6.19 6.20 6.21 6.22 6.23 6.24 6.25 6.26
Zufallszahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333 Erwerbstätige, Stellung im Beruf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336 95%-Konfidenzintervalle für π . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358 Gruppengröße in Gruppentests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360 Gruppengröße in Gruppentests nach A.B. Mundel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361 Vertrauensgrenzen zum Null- bzw. Vollergebnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363 Stichprobenumfang zur Schätzung eines Anteils (95%-KI fest) . . . . . . . . . . . . . . . . . 370 Stichprobenumfang zur Schätzung eines Anteils (Variationskoeffizient fest) . . . . . . . 371 Konfidenzintervalle für den Erwartungswert einer Poisson-Verteilung . . . . . . . . . . . . 376 95%-Konfidenzintervall für den Median . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393 90%-Konfidenzintervalle für Referenzwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 400 Fallzahlabschätzung für Referenzwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401 95%-Konfidenzintervall für σ, Faktoren zur Berechnung . . . . . . . . . . . . . . . . . . . . . . . 406 Konfidenzintervall für den relativen Fehler der Standardabweichung . . . . . . . . . . . . . 407 Stichprobenumfänge zur Schätzung von σ und μ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407 Stichprobenumfänge zur Schätzung des Variationskoeffizienten . . . . . . . . . . . . . . . . . 409 Stichprobenumfänge zur Schätzung von σ12 /σ22 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409 Regressions- und Korrelationsrechnung (Schema) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415 Zweiseitige Schranken der Studentisierten Maximum Modulus Verteilung . . . . . . . . 418 Schema zur Berechnung von Prädiktionsintervallen . . . . . . . . . . . . . . . . . . . . . . . . . . . 420 Toleranzfaktoren für die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 438 Stichprobenumfang n für Toleranzbereiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 439 Stichprobenumfang für verteilungsunabhängige Toleranzgrenzen . . . . . . . . . . . . . . . 439 Verteilungsunabhängige Toleranzgrenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440 Kleinster Stichprobenumfang für zweiseitige Toleranzintervalle . . . . . . . . . . . . . . . . . 441 Simultane zweiseitige Voraussageintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443
7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 7.10 7.11 7.12 7.13 7.14 7.15 7.16 7.17 7.18 7.19 7.20 7.21 7.22
Fälschliche Ablehnung der Nullhypothese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464 Signifikanzgrenzen zur Standardnormalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467 Asymptotische Effizienz nichtparametrischer Verfahren . . . . . . . . . . . . . . . . . . . . . . . 480 Kritische Grenzen des Quotienten R/s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482 Quantile der standardisierten 3. und 4. Momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485 Nüchternblutzucker und Cholesterin (Beispiel) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487 Empirische Verteilung und Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493 Kritische Werte D für den Kolmogoroff-Smirnoff Test . . . . . . . . . . . . . . . . . . . . . . . . 495 Kritische Werte D für den Kolmogoroff-Smirnoff Anpassungstest . . . . . . . . . . . . . . . 495 Kritische Werte D für den nach Lilliefors modifizierten Test . . . . . . . . . . . . . . . . . . . 496 Kritische Werte D für den Kolmogoroff-Smirnoff Test (Poisson-Verteilung) . . . . . . 497 Kritische Werte für den Ausreißertest nach Dixon . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503 Obere Signifikanzschranken der standardisierten Extremabweichung . . . . . . . . . . . . 504 Stichprobenumfänge zum Binomialtest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509 Stichprobenumfänge zur Sicherung seltener Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . 511 5%-Schranken für den Vorzeichen-Rangtest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519 Kritische Schranken zur sukzessiven Differenzenstreuung . . . . . . . . . . . . . . . . . . . . . . 523 Kritische Werte für den Iterationstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525 Obere 5%- und 1%-Schranken der Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 530 Kumulierte Poisson-Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 530 Obere Signifikanzschranken der auf den Spannweiten basierenden F -Verteilung . . 538 Kritische Werte für R1 im Siegel-Tukey Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 541
Tabellenverzeichnis
7.23 7.24 7.24 7.25 7.26 7.27 7.28 7.29 7.30 7.31 7.32 7.33 7.34 7.35 7.36 7.37 7.38 7.39 7.40 7.41 7.42 7.43 7.44 7.45 7.46 7.47 7.48 7.48 7.49 7.50 7.51 7.52 7.53 7.54 7.55 7.56 7.57 7.58 7.59 7.60 7.61 7.62 7.63 7.64 7.65 7.66 7.67 7.68 7.69 7.70 7.71
xxxi
Stichprobenumfänge zum Zweistichproben-t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . 555 Kritische Werte von U für den Test von Wilcoxon, Mann und Whitney . . . . . . . . . . . 568 Fortsetzung zur Tabelle 7.24 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 569 Kritische Werte für den Wilcoxon-Paardifferenzen-Test . . . . . . . . . . . . . . . . . . . . . . . . 582 Wertepaare (n; h) für den Vorzeichentest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 587 Stichprobenumfänge n für den Vorzeichentest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 588 Stichprobenumfänge für den Wilcoxon-Paardifferenzentest . . . . . . . . . . . . . . . . . . . . 589 Werte Dn1 ;n2 ;α für den Kolmogoroff-Smirnoff Test . . . . . . . . . . . . . . . . . . . . . . . . . . . 593 Ausgewählte Konstanten für den Kolmogoroff-Smirnoff Test . . . . . . . . . . . . . . . . . . . 593 Obere asymptotische Schranken für den Cramér-von Mises Test . . . . . . . . . . . . . . . . 595 Globales und nominelles Signifikanzniveau bei multiplen Tests . . . . . . . . . . . . . . . . . 610 Testentscheidungen bei multiplen Nullhypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 612 Verteilung von Fmax für die Prüfung mehrerer Varianzen auf Homogenität . . . . . . . 620 Signifikanzschranken für den Test nach Cochran . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 621 Stichprobenumfänge für eine einfache Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . 633 Obere Signifikanzschranken des Studentisierten Extrembereiches (SR-Verteilung) . 635 Obere Schranken der Verteilung des „Studentized Augmented Range” (SAR) . . . . . 638 Obere Signifikanzschranken der Dunnett-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 642 Faktoren für die Auswahl eines besten Mittelwerts . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644 Quantile der Studentisierten Maximum-Modulus-Verteilung (SMM) . . . . . . . . . . . . . 645 Maximalzahl linearer Kontraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 649 Kritische Schranken für den H-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 651 Irrtumswahrscheinlichkeiten für den H-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 653 Ausgewählte Schranken nach Harter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 656 5%- und 1%-Quantile für den Friedman-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 666 Kritische Werte für den multiplen Vergleich mit einer Kontrolle . . . . . . . . . . . . . . . . . 669 Kritische Differenzen für die Zweiwegklassifizierung . . . . . . . . . . . . . . . . . . . . . . . . . 670 Fortsetzung von Tabelle 7.48 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 671 5% und 1%-Schranken für den Page-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 674 Notation zur zweifachen Varianzanalyse mit balancierten Daten . . . . . . . . . . . . . . . . 678 Zweifache Varianzanalyse mit festen Effekten (Schema) . . . . . . . . . . . . . . . . . . . . . . . 679 Erwartungswerte der gemittelten Summen aus der zweifachen Varianzanalyse . . . . . 681 Teststatistiken verschiedene Modelle zur zweifachen Varianzanalyse . . . . . . . . . . . . . 682 Randomisierte Blöcke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 689 Schätzung der Parameter eines faktoriellen Versuchs . . . . . . . . . . . . . . . . . . . . . . . . . . 692 Signifikante Differenzen aus Prozentsätzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 696 Vergleich zweier Alternativmerkmale (Schema) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 698 Vergleich zweier Therapieansätze (Beispiel) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 699 Schranken für den Vierfelder-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 700 χ2 -Tabelle für einen Freiheitsgrad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 701 χ2 -Tabelle für einen Freiheitsgrad: ein- und zweiseitige Schranken . . . . . . . . . . . . . . 702 Minimale Stichprobenumfänge für den Zweistichproben-Fisher-Test . . . . . . . . . . . . . 705 Vierfeldertafel für Kohorten-Studien (Schema) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 708 Vierfeldertafel für Fall-Kontroll-Studien (Schema) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 709 Relatives Risiko: Bewertung hinsichtlich einer Exposition . . . . . . . . . . . . . . . . . . . . . 710 Fallzahlen in Fall-Kontroll-Studien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 715 Fallzahlen zur Bewertung des Relativen Risikos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 716 Stichprobenumfänge zur Bestimmung expositionsbedingter Anteile Erkrankter . . . . 719 Berechnung des exakten Tests nach R.A. Fisher (Beispiel) . . . . . . . . . . . . . . . . . . . . . 721 Exakter Test nach R.A. Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 723 Neugeborenen-Erythroblastose (Beispiel) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 738
xxxii
Tabellenverzeichnis
7.72 7.73 7.74 7.75 7.76 7.77 7.77 7.78 7.79 7.80 7.81 7.82 7.83 7.84 7.85 7.86
Homogenitätstest (Schema) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 739 Zweifache Klassifikation in einer Kontingenztafel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 753 Vergleich dreier Therapieformen (Beispiel) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 756 Fallzahl und Power für die Analyse von Kontingenztafeln . . . . . . . . . . . . . . . . . . . . . . 764 Schranken für simultane Paarvergleiche nach Royen . . . . . . . . . . . . . . . . . . . . . . . . . . 766 10%-Schranken für simultane Paarvergleiche mit einer Kontrolle . . . . . . . . . . . . . . . 767 Fortsetzung zu Tabelle 7.77 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 768 Q-Test nach Cochran . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 773 Übereinstimmung in mehrfachen Beurteilungen (Schema) . . . . . . . . . . . . . . . . . . . . . 781 Prüfung des Korrelationskoeffizienten = 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 789 Fisher-Transformation zum Korrelationskoeffizienten . . . . . . . . . . . . . . . . . . . . . . . . . 791 Fisher-Transformation der Werte z˙ zum Korrelationskoeffizienten r . . . . . . . . . . . . . 792 Stichprobenumfänge zur Schätzung des Korrelationskoeffizienten . . . . . . . . . . . . . . . 797 Schranken für die Rangkorrelationskoeffizienten nach Spearman und Kendall . . . . . 801 Stichprobenumfänge zur Schätzung von Korrelationskoeffizienten . . . . . . . . . . . . . . . 804 Schranken für den Durbin-Watson-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 809
8.1 8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 8.10 8.11 8.12
Analyse von Residuen anhand von Punktwolken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 830 ANOVA-Tabelle zum linearen Modell mit einem Faktor . . . . . . . . . . . . . . . . . . . . . . . 844 Varianzkomponenten zum linearen Modell mit zwei Faktoren . . . . . . . . . . . . . . . . . . 847 Erwartungswerte einer Zielgröße in einer zweifaktoriellen Varianzanalyse . . . . . . . . 848 Challenger-Unglück (Beispiel) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 850 Modell der logistischen Regression für eine einzelne dichotome Einflussgröße . . . . 857 Hypothesen zur Unabhängigkeit dreier Faktoren im loglinearen Modell . . . . . . . . . . 878 Güte der Anpassung unter verschiedenen loglinearen Modellen . . . . . . . . . . . . . . . . . 880 Varianz-Inflationsfaktor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 894 Vergleich der Überlebenszeiten zweier Tumortherapien (Beispiel) . . . . . . . . . . . . . . . 906 Schätzung der Überlebensfunktion nach Kaplan-Meier (Beispiel) . . . . . . . . . . . . . . . 908 Therapie des Ovarial-Karzinoms (Beispiel) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 925
9.1 9.2 9.3 9.4 9.5 9.6 9.7 9.8 9.9 9.10 9.11 9.12
Zeichen in der Syntax von R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 938 Datentypen in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 941 Objekttypen in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 941 Ablaufsteuerung und Funktionen in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 953 Mathematische Funktionen in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 956 Statistische Funktionen in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 957 Syntaxelemente zur Modellspezifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 959 Unterstützung der Modellanpassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 960 Informationen aus einem Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 960 Graphikfunktionen (high-level) in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 961 Graphikfunktionen (low-level) in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 963 Argumente in den Graphikfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 964
1 Grundlagen zur Planung • • • •
Definition und Aufgaben der Statistik Wissenschaftliche Arbeitstechnik Statistik und wissenschaftliche Methode Datenanalyse
1.1 Definition und Aufgaben der Statistik Statistik ist die Lehre von der Variabilität / Streuung in den Beobachtungen.
Statistik ist die Kunst, Daten zu gewinnen, darzustellen, zu analysieren und zu interpretieren, um zu neuem Wissen zu gelangen.
Jeder von uns hat es erlebt, dass er wie der eingebildete Kranke und der eingebildete Gesunde echte Zusammenhänge oder echte Unterschiede nicht erkennt bzw. dass er nicht existente Unterschiede oder Zusammenhänge zu erkennen glaubt. Im Alltag erfassen wir einen Zusammenhang oder einen Unterschied mit Hilfe von Sachkenntnis und nach dem so genannten ersten Eindruck. Der Wissenschaftler, der gewisse neue Erscheinungen, Abhängigkeiten, Trends, Effekte vieler Art entdeckt und darauf eine Arbeitshypothese gründet, sichert diese ab gegen die Hypothese: die festgestellten Effekte sind allein durch den „Zufall“ bedingt. Im Gegensatz zur Forschung - der Suche nach Ordnung - charakterisiert Zufall ein regelloses, kausal nicht erklärbares Ereignis. Die Frage, ob beobachtete Erscheinungen nur als Zufallsergebnisse gelten können oder typisch sind, beantwortet die „Beurteilende Statistik“. Mit Hilfe statistischer Verfahren lassen sich Fragen beantworten und Behauptungen überprüfen. Beispielsweise: Wie viele Personen sollte man vor einer Wahl befragen, um ein ungefähres Bild vom Wahlergebnis zu erhalten? Hat der zweistündige Schulsport in der Woche einen Trainingseffekt auf Herz und Kreislauf? Welche von mehreren Zahnpasten ist für die Kariesprophylaxe zu empfehlen? Wie hängt die Stahlqualität von der Zusammensetzung des Stahls ab? Die neue Verkäuferin hat den Tagesumsatz um 500e erhöht. Die für eine bestimmte Krankheit charakteristische Überlebensrate (60%) wird durch Heilmittel A auf 90% erhöht. Die Kunstdünger K1, K2 und K3 zeigen bei Hafer keine unterschiedliche Wirkung. Zur Beantwortung dieser und anderer Fragen, Vergleiche und Behauptungen benötigt man Daten (auf die wir im Abschnitt [1.4.3] näher eingehen werden). Daten sind wichtig, um strukturierte Vermutungen - Hypothesen - zu bewerten und neues Wissen zu gewinnen. Statistische Methoden befassen sich mit Daten aus unserer Umwelt, mit ihrer Gewinnung und Aufbereitung: Beschreibung, Auswertung und Beurteilung; das Ziel ist die Vorbereitung von Entscheidungen. Als Vorläufer der Statistik gelten (1) von Herrschern benötigte Daten über die Bevölkerung wie die Zahl wehrfähiger Männer und (2) durch den Spieltrieb angeregte Überlegungen über Wettchancen beim Würfelspiel. „Statistik“ war im 18. Jahrhundert die „Lehre von der Zustandsbeschreibung der Staaten“, wobei auch Daten über Bevölkerung, Heer und Gewerbe gesammelt wurden. Hieraus entwickelte sich die „Beschreibende Statistik“ mit der Aufgabe, Zustände
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 J. Hedderich und L. Sachs, Angewandte Statistik, https://doi.org/10.1007/978-3-662-62294-0_1
2
1 Grundlagen zur Planung
und Vorgänge zu beschreiben; hierzu dienen Tabellen, graphische Darstellungen, Verhältniszahlen, Indexzahlen und typische Kenngrößen, wie Lagemaße (z. B. arithmetischer Mittelwert) und Streuungsmaße (z. B. Varianz oder Standardabweichung). Die Theorie der quantitativen Beschreibung unsicherer Ereignisse wird „Stochastik“ genannt. Dementsprechend bedeutet „stochastisch“ zufallsbedingt. Die „Beurteilende Statistik“ schließt anhand geeigneter Daten auf allgemeine Gesetzmäßigkeiten, die über den Beobachtungsraum hinaus gültig sind. Sie entwickelte sich aus der „Politischen Arithmetik“, die sich hauptsächlich mit Tauf-, Heirats- und Sterberegistern beschäftigte, um Geschlechtsverhältnis, Fruchtbarkeit, Altersaufbau und Sterblichkeit der Bevölkerung abzuschätzen. Die Beurteilende Statistik basiert auf der Wahrscheinlichkeitsrechnung, die mathematische Methoden zur Erfassung zufallsbedingter oder stochastischer Experimente beschreibt. Beispiele für stochastische Experimente oder Zufallsexperimente sind: das Werfen eines Würfels, Glücksspiele und Lotterien aller Art, das Geschlecht eines Neugeborenen, Tagestemperaturen, Ernteerträge, die Brenndauer einer Glühlampe, die Zeigerstellung eines Messinstruments bei einem Versuch, kurz jede Beobachtung und jeder Versuch, bei denen die Ergebnisse durch Zufallsschwankungen oder Messfehler beeinflusst sind. Fast stets interessieren hierbei weniger die Beobachtungen oder Messergebnisse selbst, sondern die übergeordnete Gesamtheit, der die Beobachtungen oder Messergebnisse entstammen. Beispielsweise die Wahrscheinlichkeit, mit einem intakten Würfel eine 4 zu werfen, oder der Anteil der Zwillingsgeburten in Deutschland. Bei vielen, Wiederholbare Erfahrungen betreffende Fragestellungen wird man nicht die zu untersuchende Menge aller möglichen Erfahrungen oder Beobachtungen, die so genannte Grundgesamtheit, vollständig erfassen können, sondern nur einen geeignet auszuwählenden Teil. Um einen Wein zu beurteilen, entnimmt der Kellermeister einem großen Fass mit dem Stechheber eine kleine Probe. Diese Stichprobe gibt dann Aufschluss über die Häufigkeit und Zusammensetzung der interessierenden Merkmale der zu beurteilenden Grundgesamtheit, die man aus finanziellen, zeitlichen oder prinzipiellen Gründen nicht als Ganzes untersuchen kann. Vorausgesetzt wird das Vorliegen von Zufallsstichproben, bei denen jedes Element der Grundgesamtheit die gleiche Chance hat, ausgewählt zu werden. Enthält die Grundgesamtheit unterschiedliche Teilgesamtheiten, dann wird man geschichtete Zufallsstichproben wählen. Sinnvolle und repräsentative Teilmenge einer Tortensendung ist weder der Tortenboden, noch die Füllung, noch die Garnierung, sondern allenfalls ein Stück Torte. Besser noch sind mehreren Torten entnommene Proben von Boden, Füllung und Garnierung. Zufallstichproben gewinnt man im Zahlenlotto mit Hilfe einer mechanischen Vorrichtung. Im allgemeinen bedient man sich zur Gewinnung von Zufallsstichproben einer Tabelle von Zufallszahlen: Die Elemente werden nummeriert, ein Element gilt als ausgewählt, sobald seine Nummer in der Tabelle erscheint. Nach einem Zufallsverfahren entnommene Stichproben haben den Vorzug, dass die aus ihnen ermittelten statistischen Kenngrößen gegenüber denen der Grundgesamtheit im allgemeinen nur die unvermeidlichen Zufallsfehler [symmetrisch und meist klein] aufweisen, die, da sie das Resultat nicht verzerren – bei mehrfachen Wiederholungen gleichen sich zufällige Fehler im Mittel aus – abgeschätzt werden können, während bei den Verfahren ohne Zufallsauswahl noch so genannte methodische oder systematische Fehler [vermeidbar!] hinzukommen können, über deren Größe sich in der Regel keine Angaben machen lassen. Insbesondere die Abschätzung des Zufallsfehlers und die Prüfung, ob beobachtete Erscheinungen auch für die Grundgesamtheiten charakteristisch sind oder lediglich als Zufallsergebnisse gelten können, die so genannte Prüfung von Hypothesen über die Grundgesamtheit oder über Prozesse stehen im Vordergrund.
1.1 Definition und Aufgaben der Statistik
3
Zu neuem Wissen führt primär das Nachdenken - ergänzt, gestützt oder angeregt durch Daten. Mitunter helfen auch Eingebungen im Sinne unmittelbaren Erkennens, die überprüft, kontrolliert und möglichst präzise formuliert von besonderer Bedeutung sein können. Allgemeine Annahmen, die man anhand von vorliegenden Erfahrungen und Beobachtungen machen kann, werden Arbeitshypothesen genannt. Vermutet man sie in umfangreichen Datensammlungen und sucht man dort nach ihnen, so ist zu erwarten, sie auch rein zufällig vorzufinden. Dies ist dann aber keine Bestätigung der Vermutung, sondern - sofern bedeutsam - als Aufforderung aufzufassen, diesem Befund eine neue Untersuchung mit spezifisch begründeter Arbeitshypothese zu widmen. Begründbare Arbeitshypothesen lassen sich nach zwei Verfahren überprüfen: 1. Einmal, indem man sie zwar für richtig hält, aber mit gründlich geplanten Studien ihre Nichttauglichkeit ( Falsifikation nach K. Popper) nachzuweisen versucht. Gelingt dies nicht, so kann die Arbeitshypothese als gegenwärtig nicht widerlegbar akzeptiert werden. 2. In einem anderen Ansatz lässt sich eine sogenannte Nullhypothese als Verneinung der Arbeitshypothese formulieren, z. B. es existiert kein Zusammenhang oder es existiert kein Unterschied. Man versucht dann durch einen mathematischen Ansatz - statistisches Testverfahren genannt - die für den Test zentrale Nullhypothese abzulehnen, indem man mit Hilfe der dem Test entsprechenden Überlegungen und dem zweckmäßigen praktischen Vorgehen geeignete Daten gewinnt, aufbereitet und sie prüft. Gelingt es, die Nullhypothese abzulehnen, dann wird die Arbeitshypothese als wahrscheinlich richtig betrachtet. Anderenfalls lässt sich aus den Beobachtungen keine ausreichende Evidenz gegen die Nullhypothese ableiten, d. h. die Nullhypothese muss in diesem Fall als gegenwärtig nicht widerlegbar akzeptiert werden. Beide Ansätze sind Widerlegungsversuche, zum einen der Arbeitshypothese, zum anderen der Nullhypothese. Beide Widerlegungsversuche können erfolgreich sein oder nicht. In jedem Fall ist die praktische Bedeutung des Befundes zu überdenken. Es kann sein, dass vermutete Effekte oder erwartete Differenzen methodisch nicht oder noch nicht nachweisbar sind. Denken Sie etwa an neu entwickelte und routinemäßig eingesetzte Herbizide (chemische Unkrautvernichtungsmittel). Nur unter dem zweiten Ansatz sind Wahrscheinlichkeitsaussagen möglich, die auch als vorläufig akzeptiert gelten können, bis kausal erhärtete zutreffende Aussagen möglich sind, um Zusammenhänge und Unterschiede zu erkennen und Wirkungen auf Ursachen zurückzuführen. Besonders muss darauf hingewiesen werden, dass über die Richtigkeit der Hypothesen (apriori) keine Annahmen gemacht werden und eine Testentscheidung ausschließlich aus den Studiendaten begründet wird. Bei der Übertragung eines Problems in statistisch prüfbare Hypothesen sollte auf die Auswahl und Definition geeigneter problemnaher und aussagekräftiger, möglichst messbarer Merkmale, auf die Präzisierung und Konstanz der Untersuchungsbedingungen sowie auf die Verwendung kostenoptimaler Stichproben- bzw. Versuchspläne Wert gelegt werden. Wir konzentrieren unser Augenmerk auf uns wesentlich erscheinende Teile des Sachverhalts und versuchen, diese stark vereinfachte Nachbildung als Modell zu formulieren, wobei einige Annahmen notwendig sind. Ohne Annahmen kommt man aus, wenn lediglich eine Beschreibung geplant ist, oder wenn nur Hypothesen gewonnen aber nicht geprüft werden sollen.
4
1 Grundlagen zur Planung
1.2 Wissenschaftliche Arbeitstechnik • Daten und Modelle • Kreisprozesse • Modelle in der Statistik
„Data is not information, information is not knowledge, knowledge is not understanding, and understanding is not wisdom.“ Clifford Stoll
1.2.1 Daten und Modelle Der Wissenschaftler stellt Fragen und bemüht sich, sie zu beantworten. Hierbei helfen statistische Methoden, indem sie Planung und Auswertung wissenschaftlicher Studien präzisieren. Dies erfordert Sachkenntnis, Umsicht und Grundkenntnisse der Sprache der Statistik. Insbesondere ist zu kontrollieren, ob die Voraussetzungen der hierbei genutzten statistischen Modelle seitens der gewonnenen Daten erfüllt sind. Statistische Modelle sind Annahmen über Entstehung und Struktur der zu analysierenden Daten in der Sprache des Statistikers. Wichtig ist der Vergleich der beobachteten Datenstruktur mit der im Modell formalisierten Datenstruktur, formuliert aufgrund des Vorwissens des Untersuchers über den die Daten erzeugenden Prozess (1) und die zu prüfenden Hypothesen (2), die durch Ziel und Zweck der Untersuchung bestimmt sind. Meist wird ein Standardmodell genutzt, seine Brauchbarkeit überprüft und gegebenenfalls ein anderes statistisches Modell gewählt, das den Daten angemessener ist und die gewünschten bzw. modifizierten Hypothesen effizienter zu prüfen gestattet.
Abbildung 1.1: Kreisprozesse in der wissenschaftlichen Arbeit
1.2 Wissenschaftliche Arbeitstechnik
5
Modelle sind wichtige Entscheidungshilfen. Modelle beschreiben und erklären, außerdem ermöglichen sie Voraussagen. Die wissenschaftliche Arbeitsweise ist eine Strategie, die darauf abzielt, allgemeine Gesetzmäßigkeiten zu finden und sie mit Hilfe prüfbarer und ablehnbarer (falsifizierbarer) Aussagen zu einer logisch-mathematisch strukturierten Theorie zu entwickeln. Hierbei resultiert eine angenäherte Beschreibung der erfassbaren Wirklichkeit. Diese angenäherte Beschreibung ist revidierbar und komplettierbar. Typisch für die wissenschaftliche Methodik ist der Kreisprozess oder Iterationszyklus: Mutmaßungen (Ideen) → Plan → Beobachtungen → Analyse → Ergebnisse → Neue Mutmaßungen (Neue Ideen) → . . .; hierbei werden Widersprüche und Unverträglichkeiten ausgeschaltet sowie die Modelle und Theorien verbessert. Die bessere Theorie ist die, die uns erlaubt, mehr zu erklären und bessere Voraussagen zu machen. 1.2.2 Kreisprozesse Die Wissenschaft ist ein Kreisprozess, ein Prozess von Wechselwirkungen zwischen Theorienbildung - Erwartung und Erfahrung - UND empirischer Forschung; dieser Prozess unterliegt der Selbstkorrektur. Für uns ist wichtig: Aufgrund der problemspezifischen Fragestellung werden Annahmen gemacht hinsichtlich der Struktur des zugrunde liegenden Modells und des entsprechenden statistischen Modells. Nach Prüfung der Verträglichkeit von Beobachtungen und statistischem Modell werden Kenngrößen zur statistischen Beschreibung einer Grundgesamtheit, so genannte Parameter, – feste Zahlen, die Modelleigenschaften beschreiben – , geschätzt und Hypothesen über die Parameter geprüft. In beiden Fällen resultieren Wahrscheinlichkeitsaussagen . Aufgabe der Statistik ist es somit, der Fragestellung und den Daten angemessene statistische Modelle zu finden und zu schaffen und durch sie die in den Daten steckende wesentliche Information herauszuschälen, d. h. die Statistik liefert Modelle für die Informationsreduktion, um Zusammenhänge zu erkunden und spezielle Fragen zu beantworten. Diese und andere Verfahren bilden den Kern einer auf die kritische Gewinnung und Beurteilung von Messwerten und Häufigkeiten ausgerichteten Datenanalyse, wie sie für viele Bereiche in Technik, Wirtschaft, Politik und Wissenschaft notwendig ist. Datenanalyse ist die systematische Suche nach aufschlussreichen Informationen über Erscheinungen, Strukturen und Vorgänge anhand von Daten und graphischen, mathematischen sowie insbesondere statistischen Verfahren ohne oder mit Wahrscheinlichkeitskonzept. Hierbei geht es weniger darum, Daten zu Wahrscheinlichkeiten zu „vermahlen“ und statistisch signifikante Befunde zu erzielen, die ja bedeutungslos oder unwichtig sein können. Nicht die statistische Signifikanz, sondern die praktische Relevanz zählt. Eine Bewertung von Befunden hängt von vielen Faktoren ab, etwa von der fachspezifischen Bedeutung, von der Verträglichkeit mit anderen Resultaten oder von den Voraussagen, die sie ermöglichen. Diese Evidenz kann kaum statistisch bewertet werden. Daten haben viele Wirkungen auf uns, die über eine Entscheidung hinausgehen. Sie geben uns Verständnis, Einsicht, Anregungen und überraschende Ideen, um neue Aktivitäten zu planen. Planen heißt überlegen, wie, mit welchen Ressourcen und in welchem Zeitraum ein angestrebtes Ziel erreicht werden kann. Dabei sollte man Alternativen und Konsequenzen aufzeigen und damit künftige Entscheidungen rationalisieren, möglichst flexibel und unter vorausschauender Begegnung möglicher zusätzlicher Schwierigkeiten. Unvorhersehbare Umstände können zur Revision des Gesamtplans führen. Aufgabe der Forschung ist es, unser Wissen durch eine systematische Suche nach neuen Erkenntnissen und Erkenntnisverfahren zu vertiefen. Details zur Planung von Untersuchungen enthalten die zweiteilige Übersicht 1 sowie die Abschnitte [1.3] und [1.4].
6
1 Grundlagen zur Planung
Übersicht 1: Zur Planung wissenschaftlicher Studien: Erfahrungsbedingte Hypothesen und theoriegeleitete Erfahrungen ergänzen sich, um neue Erkenntnisse zu gewinnen Bemerkungen zur Behandlung wissenschaftlicher Probleme 1. Formulierung der Fragestellung, der Wünsche und Ziele: Häufig ist es zweckmäßig, das gesamte Problem in Teilprobleme zu zerlegen und einige Fragen zu stellen: a) Anlass und Zweck der Studie? Nahziel(e) und Fernziel(e)? b) Skizzierung der Ausgangssituation anhand von Standardfragen: was? wie? wo? wann? wie viel? was ist unbekannt? was wird vorausgesetzt? c) Problemtyp: Schätzungen? Standardisierungen? Vergleiche? Aufsuchen von Optimalbedingungen? Bedeutsamkeit von Änderungen? Zusammenhänge zwischen Variablen? d) Angestrebter Gültigkeitsbereich und erforderliche Genauigkeit der Aussagen? e) Konsequenzen sowie Interessenten der möglichen Resultate? 2. Prüfung aller Informationsquellen: Hauptsächlich Erkundigungen und Literatur-Recherchen und Suche im Internet: was ist mit welchen Methoden bereits erkundet worden? Sind diese Befunde zuverlässig [begründete Annahmen oder Tatsachen („woher wissen Sie das?“)]? Welche Alternativen existieren? 3. Wahl der Strategie: a) Entwicklung des problemspezifischen Modells. Anzahl der zu berücksichtigenden Variablen. Einführung vereinfachender Annahmen. Prüfung, ob eine Möglichkeit besteht, das Problem durch Transformation weiter zu vereinfachen, z. B. Untersuchungen an Zellkulturen oder an isolierten Organen anstatt am Menschen. b) Entwicklung der Untersuchungstechnik. Die Methode sollte problemnahe Messwerte (bzw. Häufigkeiten) liefern, gewonnen ohne systematische Fehler! c) Entwicklung des statistischen Modells. Plan der statistischen Analyse. Klare Formulierung: des Modells, der Voraussetzungen des Modells, der Parameter und Konfidenzintervalle, der Hypothesenpaare sowie weiterer Details, etwa Art der Randomisierung. 4. Prüfung der Strategie aufgrund von Probe-Erhebungen und Vorversuchen. Überprüfung der Untersuchungstechnik und der Verträglichkeit der Beobachtungswerte mit dem statistischen Modell. 5. Festlegung und Realisierung der Strategie aufgrund jetzt vorliegender Erfahrungen. a) Endgültige Festlegung aller wesentlichen Punkte, z. B. der Untersuchungsmethode, der Versuchsobjekte, der Merkmalsträger, der Merkmale und Einflussgrößen, der Kontrollen, der Bezugsbasis; Berücksichtigung des Nulleffektes, Ausschaltung der unkontrollierbaren Variablen; Stichprobenumfang bzw. Zahl der Wiederholungen, Berücksichtigung des Aufwandes an Arbeitskräften, Geräten, Material, Zeit u. a.; Umfang des gesamten Programmes; endgültige Formulierung des Modells der statistischen Analyse; Vorbereitung und Kontrolle der Datenerfassung, Strukturierung der geplanten Tabellen und Formulierung der zu prüfenden Hypothesen mit Vorgabe des Signifikanzniveaus. b) Durchführung der Untersuchung, möglichst ohne Modifikation. Datenanalyse, Angabe von Konfidenzintervallen und Prüfung weniger Hypothesen. 6. Entscheidungen und Schlussfolgerungen: a) Ergebnis: Kontrolle der Berechnungen. Darlegung der Resultate (Konfidenzintervalle!) in Form von Tabellen und/oder graphischen Darstellungen. b) Interpretation: Hinweise auf Plausibilität, praktische Bedeutung, Überprüfbarkeit und Gültigkeitsbereich der Untersuchungen. Unter Berücksichtigung der vereinfachenden Annahmen wird das Ergebnis der Hypothesenprüfung kritisch gewürdigt und, wenn möglich und sinnvoll, mit den Befunden anderer Autoren verglichen. Ist eine Wiederholung der Untersuchung mit weniger vereinfachenden Annahmen, mit verbesserten Modellen, neuer Untersuchungstechnik usw. erforderlich? Ergeben sich neue, aus den Daten gewonnene Hypothesen, die durch unabhängige neue Untersuchungen überprüft werden müssen? c) Bericht: Beschreibung wesentlicher Details der gesamten Untersuchung, einschließlich der negativen Befunde und wünschenswerter neuer Ansätze.
1.2 Wissenschaftliche Arbeitstechnik
7
Ergänzende Bemerkungen zu Übersicht 1: Was hätte beachtet, was hätte vermieden werden sollen! Nicht selten wird: 1. bereits vorliegenden Daten und Theorien nicht genügend Aufmerksamkeit geschenkt; 2. die mögliche Verallgemeinerung der Befunde nicht hinreichend und rechtzeitig bedacht; 3. auf wichtige Nebenmerkmale (Mitursachen, Kovariablen) verzichtet, etwa, wenn Zeitpunkt, Dauer und kalendarische Zeit Einfluss auf die Befunde haben; 4. die Streuung von Zähl- und Messergebnissen vernachlässigt sowie den Ursachen der Variabilität von Daten nicht genügend nachgespürt; 5. für die Gewinnung der Daten mehr Mühe aufgewandt als für die Auswertung; 6. die Qualität gewonnener Daten nicht ausreichend kontrolliert; 7. nur ein Teil der Daten sauber ausgewertet; 8. die Auswertung der Daten einseitig vorgenommen, indem keine Ausgewogenheit zwischen graphischen und numerischen sowie gegebenenfalls zwischen beschreibenden und beurteilenden (schließenden) Verfahren besteht; 9. bei umfangreichen Datenkörpern zu wenig gegliedert (erkennen von Untergruppen) oder anderenfalls auch kombiniert, getrennt analysiert, ohne Adjustierung des Signifikanzniveaus verglichen; 10. nicht hinreichend unterschieden zwischen erkundenden (explorativen) und bestätigenden (konfirmativen) Befunden sowie ihrer tabellarischen und graphischen Darstellung; 11. den Voraussetzungen statistischer Methoden und dem Prinzip statistischer Schlussweisen unzureichendes Verständnis entgegengebracht; 12. mehrfach getestet, ohne die Irrtumswahrscheinlichkeit zu adjustieren und nicht ausreichend bedacht, dass bei zu kleinen Stichprobenumfängen mit falsch negativen Testergebnisse zu rechnen ist, falsch positive Testergebnisse dagegen zu erwarten sind, wenn explorativ mehrfach getestet wird; 13. den unterschiedlichen Aufgaben eines statistischen Tests und eines Konfidenzintervalles nicht die notwendige Diskussion und Interpretation gewidmet; 14. unzulässig: • gefragt (Interviewerbias), • analysiert (unkritische Anwendungen z, B. von statistischer Software), • verallgemeinert (aufgrund einer nicht zufälligen Stichprobe, Auswahlbias)), • geschlossen (etwa von einer Korrelation auf eine Kausalität), d. h. systematisch verzerrt (systematischer Fehler, Bias); 15. die Unsicherheit statistischer Aussagen und Entscheidungen nicht erwähnt oder unvollkommen diskutiert, die Konsequenzen einer falschen Entscheidung oder einer falschen Interpretation der Befunde nicht berücksichtigt sowie die Schwierigkeit zu entscheiden, wann die Lösung eines Problems erreicht worden ist, unterschätzt; 16. insbesondere bei „erwünschten“ bzw. „erhofften“ Resultaten nicht an den Einfluss von Störgrößen, Zufallseffekten und verborgenen Selektionen gedacht.
1.2.3 Modelle in der Statistik Ein Modell, etwa eine Landkarte oder ein Globus, ist eine vereinfachte Nachbildung eines Sachverhaltes. Es dient zur Erklärung und Voraussage. Modellvorstellungen sind unerlässlich, wenn Untersuchungen geplant werden: es beginnt mit theoretischen Überlegungen zur Identifizierung und Definition des Problems: Jede Anwendung statistischer Methoden setzt ein Modell voraus, es sei denn man begnügt sich mit einer einfachen Beschreibung von Daten anhand von Maßzahlen.
8
1 Grundlagen zur Planung
Ein statistisches Modell ist der mathematische Ausdruck für eine durch Randbedingungen eingeschränkte Wirklichkeit; formal erfasst und analysiert wird die Struktur eines Systems oder Prozesses. Bestimmte Merkmale der zu modellierenden Realität werden als wesentlich aufgefasst und im Modell angemessen nachgebildet. Nach der empirischen Überprüfung anhand von Experimenten, Beobachtungen oder Erhebungen wird das Modell korrigiert und verfeinert, bis die Modell-Rechnungen die Wirklichkeit hinreichend gut beschreiben. Der Einfluss als unwesentlich aufgefasster Merkmale, die im Modell unberücksichtigt bleiben, ist die Ursache für die Abweichungen des Modells von der Realität. Diese Abweichungen oder Residuen sind natürlich umso kleiner, je detaillierter und angemessener ein Modell ist. Die Residuen dürfen keine Struktur aufweisen; sie müssen zufällig verteilt sein (vgl. Kapitel [8] zur Modellbildung). Modelle sollten einfach und gut interpretierbar sein. sowie eine überzeugende Antwort auf die zugrundeliegende Fragestellung ermöglichen. Statistische Methoden geben eine unvollständige aber aufschlussreiche Beschreibung von Phänomenen, die zu kompliziert sind, um vollständig durch ein Modell erfasst zu werden. Die Wahl eines Modells hängt ab von dem zu modellierenden Objekt oder Prozess und von der Aufgabenstellung und dem Ziel der Untersuchung. Bei der Wahl des Modells wird man bestrebt sein, alle wesentlichen Umstände zu berücksichtigen, damit die aufgrund dieses Modells erzielten Ergebnisse der Wirklichkeit entsprechen, wobei, falls möglich, ein eher einfaches Modell zu bevorzugen ist. Ein statistisches oder stochastisches Modell ist ein mathematisches Modell, das neben strukturgebenden Konstanten Zufallsvariable (vgl. Kapitel [5]) enthält, um Erscheinungen zu beschreiben, in denen der Zufall eine wesentliche Rolle spielt. Gedanklich gehen wir hierbei von Zufallsexperimenten aus. Die Konstanten heißen Parameter ; sie charakterisieren als Kennzahlen einer Grundgesamtheit, etwa einer normalverteilten Grundgesamtheit, das Modell, die den Zufallsvariablen zugrundeliegende Wahrscheinlichkeitsverteilung: das ist die Gesetzmäßigkeit, nach der die betrachtete Zufallsvariable ihre Werte annimmt. Modelle sind um so flexibler, je mehr Parameter sie haben. Einen Parameter enthält z. B. die Poisson-Verteilung, zwei Parameter: Erwartungswert und Standardabweichung charakterisieren eine Normalverteilung. Parameter sind meist unbekannt. Man schätzt sie aus den Beobachtungen, die als Realisierungen von Zufallsvariablen angesehen werden (die einer konkreten Zufallsstichprobe entstammen). Mehrere Parameter zugleich aus dem vorliegenden Datenkörper richtig zu schätzen, ist jedoch schwierig. Aus diesem Grunde beschränkt man sich oft lieber auf einfache, übersichtliche Modelle, auch wenn man weiß, dass es sich um eine Approximation handelt. In manchen Fällen lässt sich durch Transformation der Realisierungen von Zufallsvariablen eine der bekannten Verteilungen annähern, z. B. eine Normalverteilung. Dann ist es möglich, die für dieses Modell entwickelten Standardverfahren der Beurteilenden Statistik auf die vorliegenden Beobachtungen anzuwenden. Neben den Details aus den vorangehenden Abschnitten sollten vom Anwender die folgenden vier Punkte beachtet werden: 1. Umsicht und Beherrschung des Fachgebiets! 2. Vertrautheit mit der statistischen Terminologie, mit den wichtigen Modellen und Methoden, einschließlich ihrer Voraussetzungen sowie 3. eine gründliche Überprüfung, ob im Anwendungsfalle die gewonnenen Daten diese Voraussetzungen, auch bei voraussetzungsarmen so genannten verteilungsunabhängigen statistischen Verfahren, erfüllen (zumindest teilweise) bzw. 4. inwieweit Abweichungen noch toleriert werden dürfen und wie sich diese auf die Resultate auswirken werden.
1.3 Statistik und wissenschaftliche Methode
9
1.3 Statistik und wissenschaftliche Methode • • • • • • • • •
Wiederholbare Erfahrungen Deduktion und Induktion Befragung und Erhebung Systematische Fehler Fehlende Angaben Deskriptive Statistik Explorativer Ansatz Konfirmativer Ansatz Stichproben
„Die Wiederholung der Beobachtung ist der beste Weg, das Falsche von dem Zweifelhaften, das Zweifelhafte von dem Wahrscheinlichen, das Wahrscheinliche von dem Sicheren zu unterscheiden. Die Kunst, aus den Gegebenheiten richtig zu schließen, ist die Quelle der menschlichen Erkenntnis.“ (aus I.G. Zimmermann (1763): Die Erfahrung in der Arzneikunst. Zitiert nach H. Reinwein (1966): die Beobachtung und Erfahrung als Grundlagen der Heilkunde und der Medizin. Materia Medica Nordmark 18, 737-747).
1.3.1 Wiederholbare Erfahrungen Die Wissenschaft - auf Erklärung und Voraussage basierendes systematisches Wissen - lehrt uns: • wie etwas erkannt wurde, • was, genau, bisher bekannt ist und • was noch unbekannt ist sowie • den Umgang mit Empirie, Unsicherheit und Wahrheit. Den Gegenstand empirischer Wissenschaften bilden nicht einmalige isolierte, ein einzelnes Individuum oder Element betreffende Ereignisse oder Merkmale, sondern wiederholbare Erfahrungen, eine Gesamtheit von – als gleichartig betrachteter – Erfahrungen, über die Aussagen gefordert werden. Als Semmelweis im Jahre 1847 in der Geburtshilfe-Klinik in Wien gegen den Widerstand seiner Kollegen hygienische Maßnahmen durchsetzte, wusste er nichts über die bakteriologischen Erreger des Kindbettfiebers. Auch konnte er den Erfolg seines Konzeptes nicht direkt beweisen, denn auch nach der Einführung der Hygiene starben noch Frauen in seiner Klinik am Kindbettfieber. Die Müttersterblichkeit aber war von 10,7% (1840–1846) über 5,2% (1847) auf 1,3% (1848) zurückgegangen, und da Semmelweis diese Prozentsätze an einer großen Zahl von Wöchnerinnen (21 120; 3375; 3556) errechnet hatte, ergab sich als Schlussfolgerung, die Hygiene beizubehalten. Statistische Methoden sind überall da erforderlich, wo Ergebnisse nicht beliebig oft und exakt reproduzierbar sind. Die Ursachen dieser Nichtreproduzierbarkeit liegen in unkontrollierten und unkontrollierbaren Einflüssen, in der Ungleichartigkeit der Versuchsobjekte, der Variabilität des Beobachtungsmaterials und in den Versuchs- und Beobachtungsbedingungen. Diese Ursachen führen in den Beobachtungsreihen zu der Streuung quantitativ erfasster Merkmale. Da infolge dieser Streuung ein gefundener Einzelwert – die Variabilität einzelner Merkmale ist bei naturwissenschaftlichen Untersuchungen meist kleiner als bei sozialwissenschaftlichen – kaum exakt reproduzierbar sein wird, müssen sichere und eindeutige Schlussfolgerungen zurückgestellt werden. Die Streuung führt damit zu einer Ungewissheit, die häufig nur Entscheidungen ermöglicht. Dieses ist der Ansatzpunkt einer modernen Definition der Statistik als Entscheidungshilfe, die auf Abraham Wald (1902–1950) zurückgeht: Statistik ist eine Zusammenfassung von Methoden, die uns erlauben, vernünftige optimale Entscheidungen im Falle von Ungewissheit zu treffen. Die Beschreibende (Deskriptive) Statistik befasst sich mit der Untersuchung und Beschreibung möglichst der ganzen Grundgesamtheit. Sie ist einfach und verständlich; graphische Methoden, die auch gut zur Darstellung der Resultate dienen, zeigen Unerwartetes deutlich. Außerdem ist sie unerlässlich, wenn für die Daten (noch) kein Modell vorliegt.
10
1 Grundlagen zur Planung
Die Beurteilende (Schließende) Statistik untersucht demgegenüber nur einen Teil, der für die Grundgesamtheit, deren Eigenschaften uns interessieren, charakteristisch oder repräsentativ sein soll. Es wird also von einem Teil der Beobachtungen auf die Grundgesamtheit aller geschlossen (“schließende“ Statistik). Entscheidend ist hierbei, dass der zu prüfende Teil der Grundgesamtheit – die Stichprobe – zufällig, sagen wir nach einem Lotterieverfahren, ausgewählt wird. Wir bezeichnen eine Stichprobenentnahme als zufällig, wenn jede mögliche Kombination von Stichprobenelementen der Grundgesamtheit dieselbe Chance der Entnahme besitzt. Zufallsstichproben sind wichtig, da nur sie Rückschlüsse auf die Grundgesamtheit zulassen. Totalerhebungen sind häufig kaum oder nur mit großem Kosten- und Zeitaufwand möglich! 1.3.2 Inferenz: Deduktion und Induktion Unter Inferenz verstehen wir den Prozess, Rückschlüsse zu ziehen auf der Grundlage von Wissen, Erfahrung und Beobachtung. Dabei werden grundsätzlich zwei Schlussweisen unterschieden: 1. Die Deduktion bezeichnet den Schluss vom „Allgemeinen“ auf das „Besondere“, das stets ein Teil des allgemein Bekannten sein muss, z. B. • Ein Wadenwickel senkt häufig das Fieber bei Kindern (so sei es! [Axiom]). • Max ist ein Kind und hat Fieber (Fall). • Ein Wadenwickel senkt das Fieber bei Max (Resultat). 2. Die Induktion bezeichnet den Schluss vom „Besonderen“ auf das „Allgemeine“, das hier stets unbekannt ist aber erschlossen werden soll, z. B. • Max, Moritz, Michael, Manfred,. . . sind Kinder und haben Fieber (Fälle). • Bei Max, Moritz, Michael, Manfred,. . . senkt ein Wadenwickel das Fieber (Resultat). • Ein Wadenwickel senkt das Fieber bei Kindern (Regel). Induktiv werden in den empirischen Wissenschaften Erfahrungen gesammelt, die zu formalisieren sind: von den Daten hypothesengenerierend zum Modell. Seltener geht man deduktiv von mathematisch-statistischen Theorien aus, um diese zu überprüfen: vom vorgegebenen „unbekannten“ Modell zu einer Reihe von Daten. Beide Ansätze ergänzen sich harmonisch.
In der Mathematik, speziell in der Wahrscheinlichkeitsrechnung, spielt die Herleitung wichtiger Formeln (Gesetzmäßigkeiten) aus Definitionen und Axiomen die entscheidende Rolle (Deduktion). Statistische Schlussweisen basieren dagegen in der Regel auf dem Prinzip der Induktion. Die Angewandte Statistik verwendet dabei die Wahrscheinlichkeitstheorie, um die Zusammenhänge zwischen einer Beobachtung und dem Grund bzw. der Ursache für diese Beobachtung, zu verstehen. Rückschlüsse auf allgemeine Gesetzmäßigkeiten (z. B. Wahrscheinlichkeiten) werden auf der Grundlage von Beobachtungen gezogen (Schätzungen und die Prüfung von Hypothesen bilden den Kern). Dabei ist besonders zu beachten, dass die Beobachtungen unter den angenommenen Gesetzmäßigkeiten unterschiedlich ausfallen können (Variabilität). Auf weitere Schlussweisen (Erklärungen, kausale Zusammenhänge) gehen S. French und J. Saatsi [FS11] ein. Auf induktivem Weg lässt sich kein sicheres Wissen ableiten. Mit Verallgemeinerungen sei man vorsichtig. Die Beobachtung von noch so vielen weißen Schwänen kann nicht ausschließen, dass es auch schwarze Schwäne gibt. Alle empirischen Wissenschaften stützen sich auf induktive Schlüsse, die auch im Alltag wesentlich sind. Entgegen aller Kritik sind Induktionsschlüsse nicht nur möglich, sondern auch sinnvoll (etwa jede Form der „Hochrechnung“ sowie der Übergang von einer Beobachtung (Realisierung) x auf die „Zufallsvariable“ X in einem statistischen Modell). Die Auseinandersetzung mit dem Induktionsprinzip ist ein wichtiger Teil der Erkenntnistheorie von K. Popper (1902-1994). Er lehnt jegliche induktive Argumentation ab, d. h. nur durch Widerlegung (Falsifikation) einer Hypothese lassen sich neue Erkenntnisse gewinnen (hierzu auch [FS11]). Poppers Ansatz wird von U. Saint-Mont [SM11] (Seite 343-345) in dem Abschnitt zur „Rolle der Falsifikation“ grundsätzlich in Frage gestellt. Danach wird durch Popper die Rolle der
1.3 Statistik und wissenschaftliche Methode
11
Abbildung 1.2: Wissenserwerb durch Induktion und Deduktion (nach G. Schurz [Sch11]) Fähigkeiten von Kritik überbewertet. Die Falsifikation wird durch Saint-Mont in die Nähe einer Karikatur wissenschaftlicher Methodik gerückt, allerdings ist sie wertvoll, „wenn sie möglichst konkrete Hinweise zur Verbesserung eigener Vorstellungen liefert, weshalb nur die Widerlegung begründeter Hypothesen dem Fortschritt dient“. Erfolgreiche Hypothesen entstehen durch die Induktion aus dem aktuellen Forschungsgegenstand und nur selten durch spontane Einfälle. „Statistisches Denken“ nutzt und umfasst daher die Beschreibung der Variabilität von Beobachtungen mit Hilfe von Wahrscheinlichkeitsaussagen, um Strukturen in den Daten zu erkennen und Voraussagen machen zu können. Hierbei werden hauptsächlich induktive, aber auch deduktive Ansätze für eine Modellbildung über Zufallsvariablen genutzt, kritisch interpretiert und weiterentwickelt. Ausgangspunkt ist die Formel: „Beobachtung = Wahrheit + Fehler [auch: Signal + Rauschen]“ und der axiomatische Wahrscheinlichkeitsbegriff, der durch den quantifizierten Glauben an die Richtigkeit einer Aussage ergänzt wird, z. B. hinsichtlich der Wahl von Irrtumswahrscheinlichkeit oder Vertrauenswahrscheinlichkeit. Beobachtungen (Messungen) resultieren aus geplanten Experimenten (siehe hierzu insbesondere Abschnitt [7.6.10] auf Seite 687) sowie die Ausführungen zu Beobachtungsstudien, die Grundlage jeder empirischen Forschung sind. 1.3.3 Beobachtungsstudien Eine beobachtende Studie (observational study) an Individuen ist eine in der Regel hypothesengesteuerte Untersuchung der Wirkung eines Faktors (insbesondere einer Behandlung), wenn ein randomisiertes Experiment unmöglich oder unethisch ist. Das Ziel ist es, Voraussagen zu treffen bzw. Erklärungen zu finden: wie wirken sich bei bestimmten Individuen beobachtete (gemessene) Einflussgrößen auf die so genannte(n) Zielgröße(n) aus, ohne dass diese durch weitere nicht beobachtete Größen beeinflusst wird (werden). Welche Einflussgröße(n) bestimmt (bestimmen) die Zielgröße(n). Hierbei interessieren auch Vergleiche zwischen Personengruppen, etwa einer zu behandelnden Gruppe und einer Kontrollgruppe. Beide sollten sich in wesentlichen Einflussgrößen nicht unterscheiden, also vergleichbar sein, etwa Männer der Altersgruppe 40 bis unter 50 Jahre mit identischer Diagnose und Prognose. Entscheidend für die Qualität einer beobachtenden Studie ist die besonders sorgfältige Planung aller Details - schriftlich fixiert - unter Vermeidung möglicher das Resultat verzerrender BiasVarianten (vgl. Abschnitt [1.3.4]), sodass die Studie einem kontrollierten Experiment möglichst nahe kommt. Die Zuordnung der „Behandlung“ sollte dabei eher einem Zufallsprozess entsprechen als einem willkürlichen Akt und die Auswertung (das statistische Modell) sollte nicht zu kompliziert sein. Jede Studie wird auch bei guter Planung nicht eingeschränkt und kann je nach Datenlage durch explorative Analysen ergänzt werden. Weitere einen Bias (siehe dort) verhindernde Maßnahmen bei zu vergleichenden Personengruppen betreffen vorab formulierte Einschluss- und Ausschlusskriterien sowie geeignete MatchingProzeduren und mehrfache Kontrollen. Hauptschwierigkeiten bei beobachtenden Studien entstehen durch Nichtberücksichtigung relevanter Einflussgrößen und durch hohe wechselseitige Abhängigkeiten (Interaktionen).Aus fehlender Sachkenntnis werden Einflussgrößen übersehen, die
12
1 Grundlagen zur Planung
für einen Effekt verantwortlich sein können und die für ein (zukünftiges) Matching zu berücksichtigen sind. Dieses ist das Gebiet der „Sensitivity Analysis“, welche für die Analyse von Daten aus Beobachtungsstudien von zentraler Bedeutung ist und in P.R. Rosenbaum [Ros10] ausgezeichnet dargestellt wird (vgl. auch [Ros02] sowie W.G. Cochran [Coc83]). Im Folgenden werden zwei Aspekte zu Beobachtungsstudien ausführlicher behandelt: Hinweise zu einer Befragung (1) und zu einer Erhebung (2). 1.3.3.1 Hinweise zu einer Befragung Für eine mündliche oder schriftliche Befragung sollte man zunächst Fragen ohne Antwortvorgabe formulieren, um in dieser explorativen Phase den Bereich möglicher Antworten, die Fülle unterschiedlicher Vorstellungen, zu erfahren. Es ist wichtig herauszubekommen, wie die Personen die Fragen aufnehmen, was sie verstehen und was wir, ihrer Ansicht nach, eigentlich von ihnen wissen wollen. Das wird sich manchmal auch von dem unterscheiden, was die Personen uns zum Thema sagen möchten. Die ersten Entwürfe von Fragen sollten freimütig kritisiert, diskutiert, getestet und erneut diskutiert werden. Häufig wird man einfache Fragen stellen, die nicht unbedingt kurz zu sein brauchen und mitunter auch Wiederholungen enthalten können. Man wird Fragen in Teilfragen zerlegen, um das Verständnis zu fördern. Manches Wichtige wird man anhand mehrerer möglichst unterschiedlicher Fragen (Wortwahl, Zusammenhang, Satzlänge) erkunden. Bei Alternativfragen erhält man Tendenzen; lässt man eine mittlere Aussage zu, so gewinnt man Überzeugungen. Weiter ist zu unterscheiden zwischen informierter Meinung und nicht informierter Meinung, d. h. man wird erst Wissensfragen stellen und anschließend Meinungsfragen. Durch Filterfragen („Haben Sie eine Meinung zu ...?“) lassen sich meinungslose Personen ausschalten. Untereinander übereinstimmende Ansichten sind nur bei wenigen zu erwarten. Für Vergleiche zwischen Untergruppen der Befragten wird man zusätzliche Variablen einführen müssen und auf untergruppenspezifische Bedeutungsunterschiede mancher Begriffe achten. Ein zentrales Problem bei Befragungen ist die „Nonresponse“. Fehlende Antworten sind in der Regel nicht durch den Zufall (missing at random) zu erklären. Ein möglicher Zusammenhang zwischen dem Antwortverhalten und den untersuchten Zielgrößen kann zu einem beträchtlichen systematischen Fehler führen (vgl. insbesondere auch den Abschnitt [1.3.4]). Näheres ist Schnell [Sch97], Krug und Nourney [KN01] bzw. Jolliffe [Jol99] zu entnehmen. Auf Verzerrungen dieser und anderer Art („Bias“-Varianten) im Rahmen der Epidemiologie gehen auch Rosenbaum [Ros02] und Lohr [Loh99] ein. Wie man geschickt bei „heiklen Fragen“ vorgeht und falsche Antworten vermeidet, demonstrieren Fox und Tracy [FT86] anhand der so genannten „Randomized Response“-Verfahren (S. L. Warner [War65]). Ming T. Tan et al. [TTT09] stellen auch ein Modell mit „Nonrandomized Response“ vor. Der Anteil der Nonresponder in einer Erhebung sollte möglichst klein sein (≤ 20%) und muss bei der Auswertung der Studiendaten angegeben werden. Insbesondere ist zu beachten, dass das Problem der Nonresponse nicht durch eine Erweiterung des Studienrahmens (zeitlich, räumlich) mit einer größeren Fallzahl (Stichprobengröße) gelöst werden kann. Für eine Nonresponse, in einzelnen Fragen oder auch im Rücklauf von Fragebögen, kann es verschiedene Gründe geben: 1. Nicht erreichbar (not-at-home): Für diesen Fall sollten mehrfache Befragungen (recalls) vorgesehen werden. Der Status: vorübergehend nicht erreichbar, beschäftigt, verreist oder zur Zeit erkrankt ermöglicht eine erneute Befragung zu einem späteren Zeitpunkt und damit eine vollständigere Erhebung. 2. Ablehnung, Verweigerung (refusal): Die Ursachen für die Ablehnung an der Teilnahme einer Befragung sind komplex und möglicherweise mit dem Gegenstand der Untersuchungen assoziiert. Sie sollten näher spezifiziert und bei der Bewertung der Ergebnisse berücksichtigt werden.
1.3 Statistik und wissenschaftliche Methode
13
3. Nicht auskunftsfähig (incapacity, inability): Die Nonresponse kann aus körperlichen (physischen) oder mentalen (psychischen) Problemen resultieren, die über den Erhebungszeitraum fortbestehen. Aber auch sprachliche Barrieren oder intellektuelle Defizite können das Verständnis der Fragen erschweren und die Bereitschaft einer Teilnahme an der Erhebung beeinflussen. Hinweis: Bei der Planung von epidemiologischen und klinischen Studien ist grundsätzlich das Fehlen von Beobachtungen oder der Ausfall von Fällen (drop out, lost to follow up) zu berücksichtigen. Die angestrebte Fallzahl n muss mit einem entsprechenden Korrekturfaktor k adjustiert werden. Wird mit einem Anteil von p Ausfällen gerechnet, dann ist 1 und n = n · k . k= 1−p Für p=0,20 ist demnach k=1,25. Ist die geforderte Fallzahl n=100, dann müssen n =125 Fälle in die Studie aufgenommen werden, um einen Ausfall von 20% ausgleichen zu können. 1.3.3.2 Hinweise zu einer Erhebung Im Experiment werden Einflussgrößen, die zu variieren sind, streng kontrolliert. Demgegenüber muss man sich bei einer Erhebung mit den vorliegenden Kombinationen der Einflussgrößen begnügen. Eine Erhebung erfasst den Zustand oder Vorgang an Objekten einer Gesamtheit, deren Merkmalsstruktur gegeben ist. Wichtig sind Zeitpunkt (kalendarische Zeit) und Dauer der Erhebung und ob sie als Verlaufsbeobachtung in die Vergangenheit (retrospektiv) oder in die Zukunft (prospektiv) gerichtet ist, oder ob sie als „Momentaufnahme“ ( Querschnittstudie) die Gegenwart erfasst. Aussagekräftig und aufwändig sind prospektive Erhebungen (Kohortenstudien), etwa Personen, die von der Geburt an über eine längere Zeit beobachtet werden: Geburts-Jahrgangs-Kohorten dieser Art gestatten es, Neuerkrankungsraten (Inzidenzen) und Risikofaktoren (relative Risiken) besonders gut zu bestimmen, da eine definierte Grundgesamtheit bzw. eine Zufallsstichprobe aus ihr vorliegt und sämtliche (definierte) Einflussgrößen unverfälscht erfasst werden können. Vorausgesetzt wird, dass die Teilnehmer einer Kohorte dieser auch erhalten bleiben und nicht , etwa durch Umzug oder Auswanderung verloren gehen, Drop-Out-Problem, woraus systematische Fehler resultieren können. Wesentlich fehlerträchtiger ist dagegen eine retrospektive Erhebung: hier hat man nur einen beschränkten bzw. gar keinen Einfluss auf die Auswahl der erfassten Einflussgrößen (1), auf die Methoden zur Erfassung der Ausprägungen von Ziel- und Einflussgrößen (2) und auf die Vollständigkeit der Erfassung von Ziel- und Einflussgrößen (3). Trotzdem sind retrospektive Studien wichtig, z. B. in der Form von „Fall-Kontroll-Studien“. Hierbei wird einer Gruppe an einer neu auftretenden Krankheit (etwa Legionärskrankheit oder AIDS) leidenden Personen eine möglichst vergleichbare Gruppe von Personen (gleiches Alter, gleiches Geschlecht, ...) gegenübergestellt, die frei von der betreffenden Krankheit ist (Kontrollgruppe), um durch einen Vergleich möglicher Risikofaktoren in beiden Gruppen die Krankheitsursache(n) aufzuspüren (Odds-Ratio). Fehlerquellen sind u. a. Suggestivfragen des Interviewers, Vergesslichkeit und Unwahrhaftigkeit des Patienten bzw. der Kontrollpersonen (Wahrnehmungs-, Erinnerungs- und Wiedergabefehler) sowie die Überbewertung unbedeutender Ereignisse aus einem Kausalitätsbedürfnis heraus. Es lässt sich nicht vermeiden, das Wissen darüber, wie es inzwischen weiterging, mitzudenken. So fallen nach Wahlen die individuell erfragten Angaben zur Wahlbeteiligung und zur Wahl der Partei, die gesiegt hat, stets höher aus als der Wirklichkeit entspricht („man gibt sich sozialer und dem Zeitgeist verpflichtet“).
14
1 Grundlagen zur Planung
Bei Studien, die Entwicklungen in der Vergangenheit betreffen, ist zu unterscheiden zwischen den Voraussetzungen der Entstehung und den Begleitumständen des Beginns. Ereignisse in der „ferneren“ Vergangenheit werden häufig nicht mehr erinnert; Ereignisse in der „nahen“ Vergangenheit werden oft zeitlich unkorrekt, in die Richtung auf die Gegenwart hin verschoben, erinnert. Der ideale Zeitabschnitt, in dem beide Fehler zu vernachlässigen sind, hängt natürlich von der erfragten Thematik ab. Übersicht 2: Grundsätzliches zur Vermeidung von Fehlern bei Erhebungen 1. Sorgfältige Überprüfung scheinbar erprobter und eingefahrener Routinen. 2. Suche nach versteckten Einflussgrößen und verborgenen Automatismen. 3. Lange Intervalle zwischen Ursache und Wirkung, vernetzte Kausalketten, bedenken. 4. Nur teilweise erfüllte sowie insbesondere bedingte Voraussetzungen beachten. 5. Multiplikatoreffekte und mögliche Wechselwirkungen berücksichtigen. 6. Übertriebene Erwartungen an die Ergebnisse vermeiden.
1.3.4 Systematische Fehler (Bias) Ein grundsätzlich vermeidbarer Fehler, der zu einer Abweichung von Messungen (Beobachtungen) oder Schlussfolgerungen von einem „wahren Wert“ oder von einer „richtigen Aussage“ führt, wird systematischer Fehler oder Bias genannt (bias, engl. für Verzerrung oder auch biais, franz. für Vorurteil). Etwa, wenn jemand in vorliegenden Daten nach Befunden sucht, die seine These zu stützen scheinen (fishing for remarkable results, confirmation bias) und sich damit zufrieden gibt. Eine ausführliche Darstellung zu systematischen Fehlern, mit dem Schwerpunkt Fall-KontrollStudien, gibt D.L. Sackett [Sac79]. Seine Übersicht beginnt mit einer Systematik zahlreicher BiasVarianten. Prinzipiell lassen sich drei Bereiche unterscheiden: 1. Systematische (einseitige) Abweichungen einer Messung vom wahren Wert durch ein nicht richtig justiertes Messgerät oder durch einen ungeübten Untersucher (Kalibrierung). 2. Systematische Verzerrung einer statistischen Maßzahl (z. B. Mittelwert, Standardabweichung, Korrelationskoeffizient) vom richtigen Wert aufgrund von Fehlern bei der Messung, der Erfassung oder der Berechnung (falsche Formel, fehlerhaftes Programm). 3. Systematisch verfälsche Behauptungen (Aussagen) aufgrund von Fehlern im Studiendesign, in der Datengewinnung und Datenerfassung, sowie der Analyse, Interpretation und Darstellung der Ergebnisse. Nach dem zeitlichen Ablauf wissenschaftlicher Untersuchungen in der Medizin lassen sich verschiedene Fehlermöglichkeiten (Fehlerquellen) benennen: • Ein Auswahlbias (selection bias) liegt vor, wenn der Einschluss eines Falles von Bedingungen abhängt, die zum Gegenstand der Untersuchung gehören. • Ein Durchführungsbias (performance bias) tritt auf, wenn Studienobjekte in Abhängigkeit von studienrelevanten Faktoren systematisch unterschiedlich behandelt werden. • Der Zermürbungsbias (attrition bias) entsteht, wenn die Zielgröße einer Studie von der Compliance (Mitarbeit) der Personen im Verlauf der Studie abhängt. • Ein Entdeckerbias (detection bias) resultiert aus einer fehlerhaften Herleitung und Interpretation der Studienergebnisse durch die beteiligten Untersucher (bewusst oder auch unbewusst). • Das Verschweigen negativer Ergebnisse führt auf den Publikationsbias. Die veröffentlichten Studienergebnisse sind nicht mehr repräsentativ für das gesamte Spektrum durchgeführter Untersuchungen.
1.3 Statistik und wissenschaftliche Methode
15
Hinweis: Systematische Fehler lauern überall! Ein Beispiel ist der Hawthorne-Effekt. Der Begriff geht auf eine Reihe von Untersuchungen in den Hawthorn-Fabriken der Western Electric Company (Illinois, USA) in den Jahren 1924 und 1932 zurück [RD66]. Danach ändern die Personen in einer Studie ihr „natürliches Verhalten“ bereits dann, wenn sie wissen, dass sie an der Studie teilnehmen - meist arbeiten sie dann besser als sonst. Ist ein positiver oder ein negativer Effekt zu erwarten? Die Bewertung einer Intervention/Exposition gegenüber einer Kontrollgruppe wird erschwert oder gar verhindert. Weitere Beispiele enthält Seite 22.
Übersicht 3: Strategien zur Kontrolle bzw. Vermeidung systematischer Fehler im Rahmen vergleichender Untersuchungen (a) Ein- bzw. Beschränkungen hinsichtlich der Auswahl von Fällen (Patienten, Probanden, Kontrollen) für die Untersuchung, um möglichst homogene Vergleichsgruppen (Stichproben) untersuchen zu können. Allerdings schränken enge Ein- und Ausschlusskriterien die induktive Basis der Aussagen ein. Untypische Fälle sind stets zu vermeiden; es sei denn, dass man an der Variabilität eines Merkmals in einem Kollektiv interessiert ist. (b) Matching; jedem Fall in in der einen Gruppe wird ein Fall (oder mehrere) mit gleichen, zumindest „ähnlichen“, charakteristischen Eigenschaften oder Einflussgrößen in der anderen Gruppe zugeordnet, um eine Vergleichbarkeit zu erreichen. (c) Stratifizierung; Vergleiche werden zwischen Untergruppen (Strata) mit gleicher, zumindest „ähnlicher“, Zusammensetzung durchgeführt. (d) Randomisierung; die Zuordnung von Fällen in die zu vergleichenden Gruppen erfolgt nach einem Zufallsprinzip. (e) Verblindung; Blindversuche, bei denen die Probanden nicht wissen, ob sie der Experimentaloder der Kontrollgruppe angehören, erfolgen zur Vermeidung subjektiver Fehleinschätzungen und Suggestivwirkungen. (f) Standardisierung; Raten und Maßzahlen werden durch eine Gewichtung in den strukturellen Merkmalen adjustiert. (g) Multivariate Adjustierung; Unterschiede zwischen den Gruppen in einer Vielzahl von Merkmalen (Faktoren) können durch eine multivariate Modellbildung (multiple lineare oder logistische Regression, vgl. Kapitel [8]) ausgeglichen werden (propensity score, post matching).
1.3.5 Fehlende Angaben Nicht zutreffende Angaben (intentional missing, als fehlend erwartet), wie zum Beispiel die Arbeitszufriedenheit bei Arbeitslosen oder die Zahl der Schwangerschaften bei Männern, führen automatisch zum Ausschluss der entsprechenden Fälle bei der statistischen Analyse. Fehlende Angaben (missing data) sind dagegen häufig Quelle für systematische Fehler. Statistisch begründete Schlussfolgerungen (Inferenz) können verfälscht werden, d. h. die Schätzer sind nicht unverzerrt und konsistent und die Konfidenzintervalle genügen nicht ihrer nominellen Überdeckungseigenschaft. Die Mechanismen für das Auftreten fehlender Angaben sind in der Regel unbekannt. Sie können in der Auswahl bzw. Zuordnung der Fälle (Stichproben) liegen oder treten im Rahmen der Messungen auf. Praktisch können drei Situationen unterschieden werden. Treten bei einem Merkmal Y fehlende Angaben auf, dann werden diese als 1. vollständig zufällig fehlend (missing completely at random, MCAR) bezeichnet, wenn die Wahrscheinlichkeit dafür unabhängig von Y selbst und unabhängig von den Beobachtungen anderer Merkmale Xi ist. Zum Beispiel kann die Seite eines Fragebogens verloren gehen oder ein Messinstrument bei Stromausfall versagen.
16
1 Grundlagen zur Planung
2. zufällig fehlend (missing at random, MAR) bezeichnet, wenn die Wahrscheinlichkeit dafür unabhängig ist von Y selbst, aber bedingt abhängt von den Werten anderer Merkmale Xi . Zum Beispiel können fehlende Angaben zum Einkommen abhängig vom Alter eines Kunden sein, fehlende Angaben zum Alter können vom Geschlecht abhängen oder fehlende Angaben sind abhängig vom Verhalten der Studienteilnehmer (Motivation, Compliance). 3. nicht zufällig fehlend (informative drop out, non missing at random, NMAR) bezeichnet, wenn die Wahrscheinlichkeit dafür von den nicht beobachteten Werten von Y abhängt. Zum Beispiel können fehlende Angabe zum Einkommen auch von der Höhe des Einkommens selbst abhängen. Ein einfacher, konventioneller und häufig verwendeter Ansatz zur Behandlung fehlender Angaben für den Fall MCAR - der in der Praxis selten vorliegen wird - ist der Ausschluss von Fällen (listwise deletion, complete case analysis). Ein hoher Anteil fehlender Angaben in den Daten führt auf diese Weise bei der statistischen Bewertung der Ergebnisse zu einem Verlust an Evidenz (Power) und schränkt mögliche Schlussfolgerungen ein. Eine andere Möglichkeit bei MCAR oder MAR besteht in dem Ersetzen fehlender Angaben (imputation). Ein einfaches Ersetzen durch Mittelwert, Median oder Modalwert (abhängig vom Skalenniveau) aus den nicht fehlenden Angaben führt dabei zu verzerrten Schätzungen der Varianzen (Kovarianzen, Korrelation) und sollte vermieden werden. Das bedingte Ersetzen fehlender Angaben in Y aufgrund von Regressionsmodellen mit anderen Studiendaten Xi vermindert die Varianz und führt zur Überschätzung (overfitting) einer Modellanpassung, insbesondere auch der Korrelationskoeffizienten. Durch ein mehrfaches Ersetzen (multiple imputation) kann dieser Fehler begrenzt werden, z. B. indem zu den berechneten Werten jeweils eine Zufallskomponenten hinzugefügt wird oder zu den verwendeten Merkmalen ein Randomisierungsverfahren für die Fälle (Bootstrap) verwendet wird.
Neuere, modellbasierte Verfahren zur Behandlung fehlenden Angaben basieren auch auf direkten Maximum-Likelihood Schätzungen oder auf einem EM-Algorithmus (expectation maximization) und setzen ein tiefes, inhaltliches Verständnis für den Mechanismus voraus, der zu fehlenden Angaben geführt hat. Der beste Ansatz im Umgang mit fehlenden Angaben ist, diese im Rahmen der Planung und Durchführung der Untersuchungen zu vermeiden: „Statistical adjustments can never make up for sloppy research“ (P. Allison [All01]). 1.3.6 Deskriptiver Ansatz Die wissenschaftliche Arbeitsweise ist eine Strategie, die darauf abzielt, allgemeine Gesetzmäßigkeiten zu finden und sie zu einer möglichst logisch-mathematisch strukturierten Theorie zu entwickeln. Hierbei resultiert eine angenäherte Beschreibung der Wirklichkeit, eine Rekonstruktion der erfassbaren Wirklichkeit. Diese Approximation ist revidierbar und komplettierbar. Typisch für die Wissenschaft ist daher ein Iterationszyklus (Abbildung 1.1) der Art: Ideen, Beobachtungen, Ergebnisse, neue Ideen. Die Ideen sind Bausteine für Modelle und Theorien. Durch die Iterationen werden Unverträglichkeiten und Widersprüche eliminiert und die Modelle und Theorien verbessert. Hierfür müssen Beobachtungen gemacht und Daten gewonnen werden, die dann analysiert werden, um das Ausgangskonzept zu modifizieren und zu präzisieren. Dass zu viele Daten nicht angemessen analysiert werden, hat meist mehrere Ursachen: 1. Die Fakten sind komplizierter als ursprünglich erwartet. 2. Mit zunehmender Anhäufung der Daten legt sich die ursprüngliche Begeisterung. 3. Man strebt nach immer neueren und besseren Daten und schiebt so die Analyse vor sich her (vgl. auch Übersicht 1 auf Seite 6).
1.3 Statistik und wissenschaftliche Methode
17
Für medizinische Daten kommt neben der biologischen Variabilität und ihrer Problematik noch hinzu, dass fast stets viele Variablen eine Rolle spielen, mehr als in Physik und Chemie. Von diesen Variablen werden in der Regel die üblichen Voraussetzungen statistischer Verfahren kaum erfüllt. Daher spielen gerade hier datenanalytische Konzepte wie z. B. graphische Darstellungen eine große Rolle. Ein wesentlicher Teil der Statistik ist die Datenbeschreibung einschließlich einer systematischen Suche nach aufschlussreichen Informationen über die Struktur eines Datenkörpers. Strukturen in den Daten und bedeutsame Abweichungen von diesen Strukturen sollen aufgedeckt werden. 1.3.6.1 Merkmale und Dimensionalität Der Begriff des Merkmals wurde von Gottfried Wilhelm Leibniz (1646 - 1716) eingeführt und geht auf die „differentia specifica“ der Definitionslehre von Aristoteles zurück: „definitio fit per genus proximum (g.p.) et differentiam specificam (d.s.)“. So lässt sich der „Schimmel“ definieren als ein Pferd (g.p.), das weiss ist (d.s.) oder der „Hengst“ als ein männliches (d.s.) Pferd (g.p.). Ein Merkmal bezeichnet danach allgemein einen artbildenden Unterschied. In der Statistik bezeichnet man die an den untersuchten Objekten (Fälle) betrachteten Charakteristika als Merkmale. Diese treten in verschiedenen Ausprägungen auf. Das Auffinden aussagekräftiger Merkmale ist eine wichtige Teilaufgabe der Statistik. Je nachdem wie die Merkmalsausprägungen beschrieben werden, unterscheidet man durch Zählen (Kinderzahl) oder Messen (Körpermaße) erfasste quantitative Merkmale von den qualitativen Merkmalen, wie z. B. Geschlecht, Beruf, Familienstand sowie ordinale Merkmale, die sich nach der Intensität der Merkmalsausprägung in eine Rangfolge mit numerisch nicht definierbaren Intervallen bringen lassen (Hühnerhof-Hackordnung, Schulnoten). Daten sind stets mehrdimensional oder multivariat, wenn die Bedingungen beobachtet und protokolliert werden, unter denen sie entstehen. Wie groß soll diese Liste aussagekräftiger Einflussgrößen und damit die Dimensionalität p sein? Um dies zu entscheiden, bedarf es der Kombination von Vorinformation und experimenteller Einsicht. Bei der Verringerung oder Reduktion der Dimensionalität multivariater Daten muss ein Optimum in Bezug auf Einfachheit, Klarheit und Detaillierungsgrad angestrebt werden. Durch einfache arithmetische Operationen, z, B. Zählungen, Summationen, Verhältnisse oder Mittelwerte, können die Basisdaten miteinander verknüpft und verdichtet werden, um so in der Form von Indizes, Maß- oder Kennzahlen eine verlässliche Information über charakteristische Eigenschaften der Daten zu liefern. Ist der Verdichtungsgrad zu niedrig, so lassen sich die Daten nicht überschauen, ist er zu hoch, so kann die Aussage unbefriedigend sein. Welche Variablen sollten vernachlässigt werden? Welche Variablen können zu einem neuen Maß mit stabilen statistischen Eigenschaften zusammengefasst werden? Zur Übersicht und zur Beantwortung gezielter Fragen dienen hier graphische Darstellungen. Zu viele gewonnene Daten werden eher oberflächlich ausgewertet und, wenn überhaupt, unübersichtlich dargestellt. Wenigen Daten misstraut der Leser, viele Daten überblättert er. Es ist keineswegs trivial, die geeignete Informationsdichte für Daten und Resultate zu finden, zumal sie auch vom mutmaßlichen Leser, seinen Kenntnissen und Interessen abhängt. Besonders instruktiv sind graphische Darstellungen und Tabellen mit 3 x 4 oder höchstens 4 x 5 Fächern. 1.3.6.2 Data Editing Nach der Datengewinnung erfolgt die Entfernung oder Modifizierung von Daten, die mit der Masse der Daten nicht harmonieren. Hierfür gibt es statistische Verfahren, ohne dass zu subjektiv entschieden wird. Entsprechende Verfahren und Regeln sind vor der Datengewinnung festzulegen. Dieses Data Editing (Data Cleaning) ist ein Teil der statistischen Analyse, der viel Umsicht - insbesondere auch hinsichtlich der Entstehung der Daten - erfordert, da sonst wertvolle Evidenz
18
1 Grundlagen zur Planung
verloren geht und die Möglichkeit, zu Wahrscheinlichkeitsaussagen zu gelangen, erheblich eingeschränkt wird. Vor dem „Data Editing“ wird man nach der Untersuchungseinheit, nach ihrer Anzahl, ihrer möglichen Unabhängigkeit und ihrer Anordnung/Gruppierung fragen, dann nach den untersuchten Merkmalen. Weitere Fragen: • • • • • • •
Traten bei der Datengewinnung Besonderheiten auf? Gab es systematische Unterschiede zwischen Maschinen bzw. Beobachtern? Lassen sich fehlende Beobachtungen ersetzen? Gibt es Beobachtungen, die den erwarteten Variationsbereich deutlich sprengen und als mutmaßliche Ausreißer zu behandeln sind? Welchem Verteilungstyp folgen die Daten? Ist ihre Variabilität auffallend klein (Mogelei?) oder auffallend groß (falsch gemessen)? Was folgt aus den Punktwolken untereinander korrelierender Variablen? Mitunter lassen sich anhand der Punktwolken deutlich abweichende Beobachtungen erkennen.
1.3.7 Explorativer Ansatz Liegen Daten vor, die nicht auf sorgfältig geplante Art gewonnen worden sind, etwa „Nichtzufallsstichproben“ oder irgendwelche Teilgesamtheiten, und ist es noch nicht möglich, präzise Fragen zu stellen, dann werden diese Daten - deren Struktur und Auffälligkeiten interessieren - anhand von Methoden der Beschreibenden Statistik und der (erkundenden) Explorativen Datenanalyse (EDA) untersucht, ohne dass ein Modell vorausgesetzt wird. Die Explorative Datenanalyse dient: 1. der Darstellung von Daten, 2. dem Auffinden von Strukturen, 3. dem Erkennen von Besonderheiten und 4. der Entwicklung neuer Ideen. Aufgabe der EDA ist das Aufspüren und die zusammenfassende Darstellung unbekannter Strukturen in meist umfangreichen Stichproben auch mehrdimensionaler Daten bei (1) wenig klarer Fragestellung, (2) fehlender (unbekannter) Grundgesamtheit, (3) kaum geplanter Datenerhebung, (4) Unklarheit über die Auswahl geeigneter Modelle (da viele gleich gute Modelle in Frage kommen) und bei (5) quantitativ nicht fassbarer Aussagegenauigkeit. Während die EDA, datengesteuert, hilft, durch Modellsuche und Gewinnung neuer Hypothesen neue Strukturen und neue Hypothesen aufzuspüren, bemüht sich die Beurteilende Statistik, hypothesengesteuert, darum, falsche Aussagen zu verhindern; und zwar aufgrund von Zufallsstichproben und mitunter auch im Anschluss an Methoden der Beschreibenden Statistik bzw. der Explorativen Datenanalyse; vorausgesetzt, die Daten erlauben dies. Explorative Verfahren geben durch die Suche nach Auffälligkeiten Anstöße zur Bildung von Hypothesen und Modellen und helfen bei der Präzisierung der Fragestellung etwa im Sinne eines Konfidenzbereichs. In der explorativen Phase errechnete P-Werte - hier wird die Beurteilende Statistik explorativ eingesetzt und interpretiert - können als Plausibilitätsmaß interpretiert werden. Die dort gefundenen Modelle und Hypothesen bedürfen einer Überprüfung bzw. Bestätigung durch die Beurteilende Statistik (Konfirmative Datenanalyse), im allgemeinen anhand neuer Daten. Im Gegensatz zur Beurteilenden Statistik baut die EDA nicht auf einem vorformulierten Wahrscheinlichkeitsmodell auf: es werden keine Annahmen gemacht und keine Hypothesen geprüft. Die EDA beginnt vielmehr mit dem Studium der Daten, mit ihrer Darstellung und Zusammenfassung, um neue Einsichten zu gewinnen. Werden dabei nichttriviale Strukturen gefunden, so kann man versuchen, diese durch ein statistisches Modell zu beschreiben. Dabei sollten jedoch stark einschränkende Modellannahmen vermieden werden. Deshalb ist die Anwendung „resistenter“
1.3 Statistik und wissenschaftliche Methode
19
Schätzverfahren geboten; das sind Verfahren, die unempfindlich sind gegenüber schlechten (ausreißerverdächtigen) Daten. Die Daten können dann mit dem geschätzten Modell bereinigt werden. In einer verfeinerten Analyse kann anschließend anhand der Residuen wiederum nach Strukturen gesucht werden, die dann in Modellen berücksichtigt werden können. Dieser Prozess lässt sich iterativ fortsetzen, bis die Residuen zufällig verteilt sind. Dabei werden auf jeder Stufe tabellarische, graphische und andere Darstellungen als Hilfsmittel herangezogen. Diese Vorgehensweise erfordert eine gute Kenntnis sowohl des Sachproblems als auch der Art und Weise, wie die Daten zustandegekommen sind (vgl. auch die Fragen im Abschnitt Data Editing). 1.3.8 Konfirmativer Ansatz Auf der Beschreibenden Statistik aufbauend, spielt die Beurteilende, schließende, mathematische, wertende, induktive oder analytische Statistik (statistical inference) die entscheidende Rolle. Sie ermöglicht den Schluss von der Stichprobe auf die zugehörige Grundgesamtheit (z. B. die Schätzung des Wahlresultates anhand bekannter Einzelergebnisse ausgewählter Wahlkreise), auf allgemeine Gesetzmäßigkeiten, die über den Beobachtungsbereich hinaus gültig sind. In allen empirischen Wissenschaften ermöglicht sie durch Gegenüberstellung empirischer Befunde mit Ergebnissen, die man aus wahrscheinlichkeitstheoretischen Modellen – Idealisierungen spezieller experimenteller Situationen – herleitet, die Beurteilung empirischer Daten und die Überprüfung wissenschaftlicher Hypothesen und Theorien; wobei allerdings nur Wahrscheinlichkeitsaussagen möglich sind, die dann dem Praktiker unentbehrliche Informationen als Grundlage für seine Entscheidungen bieten. In der Schätztheorie ist eine Entscheidung darüber zu treffen, wie man anhand einer Stichprobe möglichst viel über die charakteristischen Kennwerte der zugehörigen Grundgesamtheit erfährt. In der Testtheorie handelt es sich darum, zu entscheiden, ob die Stichprobe aus einer bestimmten (vorgegebenen) Grundgesamtheit entnommen wurde. Die moderne Statistik ist interessiert an der problemgerechten und am Modell orientierten Planung, Durchführung und Auswertung von Experimenten und Erhebungen: Ein Experiment ist eine geplante und kontrollierte Einwirkung eines Untersuchers auf Objekte – eine Erhebung ist eine geplante und kontrollierte Erfassung eines Zustandes oder Vorgangs an Objekten einer Gesamtheit. Hier: vorliegende Merkmalsstruktur, meist von Individuen (Einflussgrößen kaum variierbar) – dort: Zuordnung der Objekte oder Individuen zu den experimentellen Bedingungen (Einflussgrößen variierbar). Entscheidend für die Versuchsplanung ist die Frage, für welche Grundgesamtheit die Ergebnisse repräsentativ sein sollen. Aufgabe und Ziel der Beurteilenden Statistik - auffassbar als mathematische Theorie wiederholbarer Ereignisse - ist die Entwicklung mathematischer und vor allem stochastischer Verfahren sowie ihre Anwendung auf Probleme in praktisch allen Gebieten, in denen zufallsabhängige Phänomene zu modellieren und dadurch Strukturen und deren Variabilität zu erkunden sind. Modelliert werden bestehende und mögliche reale Strukturen, die als Vorbilder für Planung und Entwicklung oder als Hypothesen zur Erklärung realer Phänomene dienen können. So erhält man unvollständige aber aufschlussreiche Beschreibungen von Phänomenen, die zu kompliziert sind, als dass sie vollständig durch ein Modell erfasst werden. Wesentliche Inhalte der Beurteilenden Statistik sind Prinzipien der Versuchsplanung und der Planung und Analyse von Erhebungen, Wahrscheinlichkeitsrechnung, Hypothesenprüfung und Zusammenhangsanalysen. Im Vordergrund steht die Entwicklung und Anpassung spezieller Verfahren, die den jeweiligen Besonderheiten und Fragestellungen gerecht werden und die es ermöglichen, zu Entscheidungen und Schlussfolgerungen zu gelangen und deren Unsicherheit abzuschätzen. Vorausgesetzt wird eine sorgfältige Planung, die es gestattet, hierfür aussagekräftige Daten zu gewinnen und diese dann angemessen auszuwerten, so dass sie ihre Herkunft offenbaren, eine Abschätzung ihrer Unsicherheit erreicht wird und auch die angestrebte Verallgemeinerung möglich wird. Damit wird dem Praktiker geholfen,
20
1 Grundlagen zur Planung
Fragen aus den meisten Fachbereichen zu beantworten. Das sind selten Fragen, die sich, aufgrund wohlbekannter und intensiv genutzter statistischer Modelle, leicht beantworten lassen. Häufig bereitet die gezielte Beantwortung der sachlogisch formulierten Frage einige Mühe - mitunter ist sie nicht möglich. Die Antwort, die die Statistik bietet, wird auch immer von einer Schätzung der Ungenauigkeit dieser Antwort begleitet sein müssen. Übersicht 4: Hinweise zur Beurteilenden Statistik Die Beurteilende (Schließende) Statistik: (1) geht über die Beschreibende Statistik hinaus, indem sie insbesondere bei Erhebungen nach einem Zufallsverfahren gewonnene Stichproben, Zufallsstichproben, bzw. bei Experimenten randomisierte Beobachtungen voraussetzt; (2) nutzt auf der Grundlage der Wahrscheinlichkeitsrechnung vielfältige Methoden für die Modellierung und Beschreibung stochastischer Erscheinungen und Gesetzmäßigkeiten; (3) ermöglicht anhand der aus Experimenten und Erhebungen gewonnenen Daten allgemeingültige Aussagen über die den Daten zugrundeliegenden Grundgesamtheiten, Zusammenhänge und Prozesse. Sorgfältig gewonnenen Daten wird unterstellt, sie entstammen einer bestimmten Grundgesamtheit, über die Aussagen erwünscht sind. Die Daten dienen dann dazu, Annahmen oder Hypothesen über diese Grundgesamtheit zu prüfen, d. h. gültige von ungültigen Hypothesen zu unterscheiden. Die Methoden der Beurteilenden oder Schließenden Statistik dienen zum Rückschluss von den Daten auf die Grundgesamtheit, zur Beurteilung der Hypothesen über die Grundgesamtheit, anhand von Vertrauensbereichen und statistischen Tests, indem GÜLTIGE HYPOTHESEN ANGEREICHERT WERDEN.
1.3.9 Grundgesamtheit und Stichprobe Die Menge aller möglichen Einheiten, welche der statistischen Betrachtung zugrunde liegen, nennen wir Grundgesamtheit. Man unterscheidet zwei Arten von Grundgesamtheiten: Einmal eine endliche Grundgesamtheit existierender Objekte wie sie für eine Erhebung typisch ist, zum anderen eine beliebig große Grundgesamtheit hypothetischer Objekte, wie sie für Experimente typisch sind; hier wird durch Wiederholung der Messung unter gleichen bis ähnlichen Bedingungen eine Grundgesamtheit von Messwerten geschaffen, die als Realisierungen von Zufallsvariablen mit bestimmter Verteilung aufgefasst werden. Insbesondere bei Erhebungen ist jede Grundgesamtheit sachlich, räumlich und zeitlich zu definieren. Zusätzlich wichtig sind Angaben über den Anlass der Untersuchung und über die Auswahl der Grundgesamtheit und der Stichprobe, eine präzise Formulierung der Fragestellungen sowie Definitionen der Untersuchungs- bzw. Beobachtungseinheiten und der Merkmale. Wichtig ist auch eine Liste von Merkmalen, die stets vorhanden sind (Positivkatalog) und seltener, eventuell zusätzlich, eine andere mit stets fehlenden Merkmalen (Negativkatalog). Einige weiterführende Fragen zur Studienplanung (vgl. auch L. Sachs [Sac06]): 1. 2. 3. 4. 5.
Anlass und Zweck der Studie? Was ist bereits bekannt, was ist strittig, was ist unbekannt? Inwieweit ist das thematische und methodische Umfeld der Studie bekannt? Welche Konsequenzen ergeben sich aus den möglichen Resultaten? Wen interessiert das Resultat?
1.3 Statistik und wissenschaftliche Methode
21
1.3.9.1 Offene und geschlossene Grundgesamtheiten Ein anderes Hemmnis, zu Zufallsstichproben zu gelangen, die diesen Namen voll verdienen, besteht darin, dass wir eben keine Urne mit definiertem Inhalt vor uns haben, sondern eine nicht abgegrenzte OFFENE Grundgesamtheit in der Zeit. In der Praxis wird eine abgeschlossene Grundgesamtheit mit festen Parametern postuliert; auf diese fiktive Grundgesamtheit - man hofft, sie sei repräsentativ für die offene Grundgesamtheit - beziehen sich dann alle Schlüsse, die die Zufallsstichprobe(n) gestatten, wobei angenommen wird, mögliche Selektionseffekte seien zu vernachlässigen. Erinnert sei, dass - etwas vereinfacht dargestellt - bei einem Experiment der „Urneninhalt“ überprüfbar geschaffen wird, stochastischen Prinzipien unterworfen ist und nur Stichproben möglich sind, um eine “Warum“ -Frage zu beantworten. Demgegenüber interessiert bei einer Erhebung die Beantwortung einer “Wie viel“ -Frage: historisch einmalig liegt eine Grundgesamtheit vor, die direkt oder anhand einer Stichprobe zunächst deskriptiv analysiert wird. Der Unterschied zwischen Experiment und Erhebung verschwindet, wenn wir die jeweilige Grundgesamtheit, sei sie endlich oder unendlich, durch ihre Verteilungsfunktion F (x) charakterisieren. 1.3.10 Stichproben Aufschluss über das Vorkommen und die Verteilung der interessierenden Merkmale in der Grundgesamtheit, die man häufig aus finanziellen, zeitlichen oder prinzipiellen Gründen nicht als Ganzes untersuchen kann, erhält man anhand einer Stichprobe, wie sie z. B. die Kostprobe, der ProbeEinstich in den Hochofen und die Entnahme einer Blutprobe durch eine eingestochene Hohlnadel darstellen. Stichprobenverfahren sind gegenüber Vollerhebungen: • weniger aufwändig (billiger), • schneller durchführbar, ohne dass sich Umstände und Rahmenbedingungen ändern; • häufig ist wegen der kleineren Zahl die Erhebung und die Aufbereitung sorgfältiger, • die Resultate sind schneller verfügbar (aktueller); • in speziellen Situationen sind Stichprobenerhebungen unerlässlich etwa bei Ernteschätzungen oder bei komplizierten Untersuchungen, die z. B. Interviewer voraussetzen; zur Kontrolle der Elemente einer laufenden Produktion sowie bei Lebensdauer-Härte-Tests von Maschinen und bei der zerstörenden Prüfung, etwa von Munition und Maschinen. Vollerhebungen sind wichtig zur: (1) Planung von Stichproben-Erhebungen, (2) regionalen Detaillierung und zur Erfassung von Minderheiten sowie zur (3) Aktualisierung früherer Vollerhebungen. Zur Erhebung typischer Einzelfälle : Es gibt Fälle, in denen weder die repräsentative Erhebung noch die Vollerhebung möglich ist. Dann wird man bewusst nach objektiv-sachlogischen Kriterien ausgewählte typische Einzelfälle erheben, um ungefähre Aufschlüsse über die unbekannte Grundgesamtheit zu erhalten. Außerdem bedient man sich der Erhebung typischer Einzelfälle zur Planung umfangreicher Erhebungen sowie nach umfangreichen Erhebungen zur Vertiefung spezieller bisher gewonnener Erkenntnisse. Verallgemeinerungsfähige Resultate sind so aber kaum zu erzielen, wohl aber erste Hinweise.
22
1 Grundlagen zur Planung
1.3.11 Zufallsstichproben Wenn es nicht sinnvoll ist, alle Einheiten einer Grundgesamtheit zu untersuchen, wählt man aus der Grundgesamtheit Einheiten aus, und zwar so, dass alle Einheiten voneinander unabhängig und mit der gleichen Wahrscheinlichkeit in die so genannte Zufallsstichprobe gelangen können. Das Auswahlverfahren für die Stichprobeneinheiten muss unabhängig von dem zu untersuchenden Merkmal sein. Man benutzt z. B. eine Tafel von Zufallszahlen: Die Einheiten der Grundgesamtheit werden nummeriert; mit Hilfe der Zufallszahlen werden die in die Zufallsstichprobe aufzunehmenden Einheiten festgelegt. Die Zufallsstichprobe der Merkmalswerte steht jetzt stellvertretend für die Grundgesamtheit der Merkmalswerte aller Untersuchungsobjekte, über die Aussagen gewünscht werden. Eine stark untergliederte oder umfangreiche heterogene Grundgesamtheit wird durch eine kleine Stichprobe kaum hinreichend repräsentiert. Bei kleinen Stichproben wird es häufig sinnvoll sein, weitgehend informell zu befragen, damit auch Unerwartetes erfasst werden kann. Auch bei gesicherter Repräsentativität der kleinen Stichprobe ist die Verallgemeinerungsfähigkeit der Resultate zu prüfen. Nach einem Zufallsverfahren entnommene Stichproben haben den Vorzug, dass die aus ihnen ermittelten statistischen Kenngrößen, zum Beispiel der Mittelwert, gegenüber den entsprechenden „wahren“ Werten der Grundgesamtheit nur die unvermeidlichen zufälligen Abweichungen aufweisen; da sie das Resultat nicht verzerren - bei mehrfachen Wiederholungen gleichen sich zufällige Abweichungen im Mittel aus - können zufällige Abweichungen geschätzt werden. Bei den Verfahren ohne Zufallsauswahl (d. h. Selektion) können noch so genannte methodische oder systematische Fehler hinzukommen, über deren Größe sich in der Regel kaum Angaben machen lassen. Enthält die Stichprobe systematische Fehler, dann ist sie nicht repräsentativ für die Grundgesamtheit.
5
Einige Beispiele: Obst-Prachtexemplare im Schaufenster brauchen nicht der durchschnittlichen Qualität des für den Verkauf bestimmten Obstes zu entsprechen. Nicht- oder Falschbeantwortung von Interviewerfragen oder Fragebogen, etwa unrichtige Altersangaben aus Nachlässigkeit (Bevorzugung der mit 0 oder 5 endenden Lebensjahre), Eitelkeit oder Betrug; Falschbeantwortung zur Täuschung, um der befragenden Stelle gefällig zu sein oder um sie zu ärgern oder auch aus Unsicherheit über den möglichen Zweck der Erhebung. Beim Experimentieren: Messungen mit falsch geeichten Maßen oder Messgeräten wie Waage, Uhr, Tacho, letzteres mit proportionalem systematischen Fehler. Methodische Fehler dieser Art sind leider allgegenwärtig und nur durch Sachkenntnis auf dem speziellen Arbeitsgebiet zu vermeiden. In der Statistik interessieren die in repräsentativen Stichproben auftretenden zufälligen Abweichungen, ihre Abschätzung und die Prüfung, ob in den Stichproben beobachtete Erscheinungen auch für die Grundgesamtheiten charakteristisch sind oder lediglich als Zufallsergebnisse gelten können: Prüfung von Hypothesen über die Grundgesamtheit. Aus den Stichproben-Kennwerten wird auf die Kennwerte der Grundgesamtheit geschlossen. Die Kennwerte der Grundgesamtheit werden Parameter genannt und meist mit griechischen Buchstaben geschrieben. So wird von dem Stichprobenmittelwert x ¯ (lies: x quer) auf den Mittelwert der Grundgesamtheit, auf den Parameter μ (mü) geschlossen. Je mehr Einheiten n die Zufallsstichprobe umfasst, desto größer ist die Genauigkeit dieses Schlusses. Für den Schluss auf die Grundgesamtheit dienen Konfidenzintervalle (Vertrauensbereiche) und statistische Tests.
1.4 Datenanalyse
23
1.4 Datenanalyse • Merkmalsarten • Variablen-Übersicht • Daten 1.4.1 Merkmalsarten Merkmale, über deren Verteilung in einer Grundgesamtheit Aussagen zu machen sind, die das Ziel der Untersuchung sind, nennt man Zielgrößen. Andere Merkmale, die an den Merkmalsträgern auftreten und die in einem funktionalen Zusammenhang zur Zielgröße stehen, oder Merkmalsausprägungen, die man als Behandlungen den Merkmalsträgern zuordnen kann und die die Ausprägungen der Zielgrößen beeinflussen, nennt man Einflussgrößen. Nicht quantifizierbare und damit nicht kontrollierbare und im Modell nicht berücksichtigte Einflussgrößen nennt man Störgrößen ; sie sind auch verantwortlich für die zufallsabhängige Streuung der Untersuchungsergebnisse. Wird für einen bestimmten Wagentyp die Abhängigkeit der Länge des Bremsweges von der Geschwindigkeit untersucht, so ist diese eine Einflussgröße. Die Bremsweglänge ist die Zielgröße. Weitere Einflussgrößen können wegen der unerwünschten Variabilität, die sie auf die Zielgröße ausüben (zum Beispiel Reifentyp, Straßenbelag, Nässe) als Störgrößen miterfasst werden. Als Identifikationsgrößen kommen schließlich Nummer des Wagens bzw. Nummer der Mannschaft (Wagen + Fahrer) infrage. Je nach der Fragestellung wird man bestimmte Einflussgrößen als Störgrößen auffassen. Liegen Zufallsstichproben vor, so spricht man besser von Variablen als von Größen und Merkmalen.
Abbildung 1.3: Variablen nach der Problemstellung unterteilt Man unterscheidet Variablen, die Einfluss ausüben und Variablen, die beeinflusst werden und präzisiert die interessierenden Variablen: • •
Definition, Bezeichnung, Kurzbezeichnung, Skalentyp, Messgenauigkeit und angemessene Stellenzahl, Verschlüsselung nicht-numerischer Daten. Maßeinheiten, Standards, interne und externe Kontrollen, Plausibilität, Bezugsrahmen und Vergleichbarkeit der Daten. Rangordnung sowie Abhängigkeiten. Welche Variablen sind besonders wichtig, gleichberechtigt, gemeinsam zu betrachten, zu einer neuen Variable zusammenzufassen oder voneinander abhängig? Welche Strukturen sind zwischen Variablen erkennbar? Welche unabhängigen Variablen erklären einige oder sämtliche abhängigen Variablen?
24
1 Grundlagen zur Planung
1.4.2 Von Beobachtungen zu Daten - Skalierung Unter Skalierung versteht man die vollständige Klassifizierung einer Gesamtheit von Objekten nach gemeinsamen Merkmalen durch Zuordnung von Zeichen zu den Objekten. Die mehr oder weniger geordnete Menge der möglichen Zeichen heißt Skala. Jeder Merkmalsausprägung entspricht ein Skalenwert. Die Skala ist dabei quasi ein Modell des Merkmals, das die Relation zwischen den Objekten bezüglich der Ausprägungen des betrachteten Merkmals adäquat widerspiegeln und formalen Operationen, vor allem mathematisch-statistischen Verfahren, zugänglich machen soll. Eine Skala muss disjunkt und erschöpfend sein. Liegen zwei Merkmalsausprägungen vor, so können diese (1) gleich oder ungleich sein (Nominalskala), (2) der Größe nach geordnet werden (Rang- oder Ordinalskala), (3) der Abstand zwischen beiden kann gemessen werden (Intervall- und Verhältnis-Skala, letztere mit echtem Nullpunkt - siehe Abbildung 1.4 und Übersicht 5). Messen ist die Bestimmung einer Merkmalsausprägung an einem Merkmalsträger, wobei der Merkmalsausprägung eine Zahl zugeordnet wird. Dieses gilt für Merkmalsausprägungen, die intervall- oder verhältnisskaliert sind. Auf dem Niveau der Nominal-und Ordinalskalen spricht man nicht von Messungen sondern von der Zuordnung einer Qualität ohne bzw. mit natürlicher Reihenfolge: so kann ein Käfer durch die Merkmalsausprägungen „aus Taiwan“, „von blauer Farbe“ und „linsengroß“ allein durch die Benennungen charakterisiert werden. Die Skala schulischer Zensuren ist eine Rangskala, deren Aussagekraft auf die Gruppe der beurteilten Schüler beschränkt ist. Vergleichende Aussagen zwischen mehreren Schulklassen sind nur dann zulässig, wenn dabei die Abhängigkeiten innerhalb der Klassen berücksichtigt werden können. Intervall- und Verhältnisskala bilden die so genannte „metrische Skala“. Nominal- und Ordinalskala heißen dagegen auch „nichtmetrisch“. Nichtmetrische Merkmale nennt man „Gruppierungsmerkmale“, die sich aus metrischen Merkmalen auch durch die Bildung von Klassen gewinnen lassen. Alternativmerkmale, dichotome Merkmale (zweiwertige oder binäre (0/1) Merkmale) und geeignet transformierte Ränge von ordinalen Merkmale lassen sich praktisch als metrische Merkmale behandeln. Nach ihrer Berufszugehörigkeit gefragte Versuchspersonen lassen sich in keine eindeutige und objektive Reihenfolge bringen. Klassifizierungen dieser Art – wir sprechen von der Nominalskala – liegen bei der Aufstellung von Geschlechts-, Berufs-, Sprach- und Nationalitätengruppen vor. Häufig bietet sich eine zweckbestimmte Ordnung an: Beispielsweise, wenn die Untersuchungsobjekte nach dem Alter oder nach einem anderen Merkmal in eine objektive Reihenfolge gebracht werden, wobei jedoch die Abstände auf der Rangskala oder Ordinalskala keine echten „Realabstände“ darstellen: So kann bei einer nach dem Alter orientierten Rangskala auf einen Zwanzigjährigen ein Dreißigjähriger und dann weiter ein Zweiunddreißigjähriger folgen. Sind aufeinanderfolgende Intervalle konstant, es sei an die konventionelle Temperaturmessung nach Celsius gedacht, so ermöglicht die Intervallskala noch keinen sinnvollen Vergleich: Es ist unkorrekt, zu behaupten, dass zehn Grad Celsius doppelt so warm seien wie fünf Grad Celsius. Erst eine Intervallskala mit absolutem Nullpunkt lässt sinnvolle Vergleiche zu. Merkmale, für die ein solcher Nullpunkt angegeben werden kann, sind etwa Temperaturmessung in Kelvin, Länge, Gewicht und Zeit. Skalen dieser Art sind die leistungsfähigsten, sie werden als Verhältnisskalen bezeichnet. Während sich eine Verhältnisskala durch Multiplikation mit einer positiven Konstanten in eine andere überführen lässt, beispielsweise 1 US-Mile = 1,609347 mal 1 Kilometer, d. h. y = ax – wobei das Verhältnis zweier numerischer Beobachtungen bei der Multiplikation mit einer Konstanten erhalten bleibt – ändert es sich bei Einheiten der Intervallskala [z. B. Umrechnung von x Grad Celsius in y Grad Fahrenheit: y = ax + b mit a = 9/5 und b = 32; übrigens −40◦ C = −40◦ F; zu Kelvin: 0◦ C = 273,15 K und 0 K = −273,15◦ C].
1.4 Datenanalyse
25
Abbildung 1.4: Variablen nach dem Skalentyp unterteilt Weitere Beispiele sind: 1. Nominalskala: Autonummern und Postleitzahlen (willkürliche Numerierung) sowie Familienstand, Farbangaben und Berufsbezeichnungen bzw. Häufigkeitsdaten. 2. Rangskala: Schulnoten u. a. Daten, die (wie Bonituren zugeteilt werden und) eine Rangordnung ausdrücken. 3. Intervallskala (Nullpunkt konventionell festgelegt; Intervalle mit empirischem Sinn; direkte Quotientenbildung verboten): Kalenderdatum, Intelligenzquotient, Temperaturmessung in Grad Celsius oder Fahrenheit. 4. Verhältnisskala (mit wahrem Nullpunkt): Temperaturmessung in Kelvin, die Einheiten der Physik wie m, kg, s. Hinweis: In dieser Auflistung von 1. bis 4. nehmen Informationsgehalt und Empfindlichkeit gegenüber Messfehlern zu. Subjektive Bewertungen und Empfindungen, wie z.B. Schmerzen, werden häufig über eine visuelle Analogskala (VAS) erfasst. Auf einem Balken oder einer Linie mit fester Länge (0-10cm) wird mit einer vertikalen Linie die individuelle Einstellung durch den Probanden (Patienten) markiert (Abbildung 1.5). Der zugehörige Skalenwert kann dann als diskreter Zahlenwert aufgefasst oder auf eine Ordinalskala abgebildet werden.
Abbildung 1.5: Visuelle Analogskala
26
1 Grundlagen zur Planung
Die Erfassung einer Meinung (Einstellung) zu einem bestimmten Sachverhalt erfolgt häufig durch mehrere Fragen (Items) in einem Fragebogen. Die so genannte Likert-Skala (nach Rensis Likert, 1903-1981) resultiert aus der Summe der Antworten zu diesen Fragen, die jeweils in festen Antwortkategorien ordinal bewertet werden: Skala 1 2 3 4 5
Bewertung von Meinungen trifft zu sehr viel immer trifft eher zu viel häufig weder/noch unentschieden gelegentlich trifft eher nicht zu wenig selten trifft nicht zu sehr wenig nie
Feinere und gröbere Abstufungen sind möglich. Bei feineren Abstufungen wird die Differenzierung und Formulierung der Antwortkategorien schwierig und systematische Fehler können sich einstellen. So werden extreme Antworten gerne vermieden (central tendency bias) oder die Zustimmung in der Mitte gesucht (acquiescence bias). Durch die Wahl einer geraden Zahl von Antwortkategorien kann insbesondere der letztere Fehler verringert werden. Der Erfolg einer Behandlung (Zielvariable, Effektstärke) wird in vergleichenden klinischen Studien häufig durch die Veränderung eines oder mehrerer nicht quantitativ erfassbarer Merkmale definiert, z.B. hinsichtlich der Symptomatik durch Schwindel, Taubheit, Schmerzen oder Schlaflosigkeit. Die Tabelle 1.1 zeigt dazu beispielhaft ein Bewertungsschema (Scoring). Andere Zuordnungen von Punktwerten sind möglich. Wichtig ist, dass bei der Erhebung für alle Individuen dasselbe Schema verwendet wird und dass bei mehreren Merkmalen (Facetten, Aspekte) eine Zusammenfassung der Punktwerte inhaltlich zulässig ist. Tabelle 1.1: Scoring - Beurteilung von Behandlungserfolgen durch die Vergabe von Punktwerten Symptom PPnachher PP vorher P stark schwach Symptom stark mäßig schwach
PP
Scoring I - Besserung keine
teilweise
deutliche
-2 -4
2 4 1 2 Scoring II - Besserung -3 6 7 -4 4 5 -5 1 3
Grundsätzlich ist zu prüfen, ob für die Datenerhebung ein evaluiertes Erhebungsinstrument eingesetzt werden kann, wie z. B. der SF-36 (Short Form Gesundheitsfragebogen), mit dem in 36 Fragen verschiedene Facetten (Domänen) der Lebensqualität erhoben werden können und zu dem es Referenzwerte (Normwerte) gibt. Die Konstruktion und Evaluation eines neuen Fragebogens ist ein Spezialgebiet der Psychologie und kann recht aufwändig werden. Eine Zusammenstellung sozialwissenschaftlicher Items und Skalen in Form eines elektronischen Handbuches ist über das Leibniz-Institut für Sozialwissenschaften (GESIS) zu erhalten [GES10]. 1.4.2.1 Zulässige Skalentransformationen Das Skalenniveau entscheidet darüber wie die Zuordnung der Merkmalsausprägungen zu den Zahlen erfolgen soll, welche Transformationen der Zahlen erlaubt sind und letztlich welche Operationen mit den Zahlen sinnvoll (bedeutungsvoll) sind. Je nach Skalenniveau können den Beobachtungen mehr oder weniger beliebige Zahlen zugeordnet werden bzw. die zugeordneten Zahlen transformiert werden. Wichtig ist, dass nach einer Transformation die relevanten Beziehungen / Verhältnisse in den Beobachtungen erhalten bleiben.
1.4 Datenanalyse
27
•
Bei der Nominalskala muss bei einer Transformation lediglich die Information über Gleichheit und Verschiedenheit erhalten bleiben. Es können also den Objekten beliebige Zahlen zugeordnet werden, solange alle Objekte derselben Klasse dieselben Zahlen, und alle Objekte einer anderen Klasse eine andere Zahl erhalten (eineindeutige Zuordnung). • Bei der Ordinalskala muss die Information über die Ordnung erhalten bleiben. Somit können den Objekten beliebige Zahlen zugeordnet werden, solange Objekte mit einer größeren Merkmalsausprägung auch eine größere Zahl erhalten (streng monotone Transformationen). • Bei der Intervallskala muss auch die Information über Abstände zwischen Merkmalsausprägungen erhalten bleiben. Bei Transformationen müssen also den Objekten Zahlen so zugeordnet werden, dass die Zahlen die Information über die Abstände zwischen den Merkmalsausprägungen korrekt wiedergeben (lineare Transformationen der Form y = a + bx). • Bei der Verhältnisskala muss zusätzlich die Information über die Verhältnisse der Merkmalsausprägungen erhalten bleiben. Nur die Multiplikation mit einer Konstanten ist erlaubt: „Einheitentransformation“ (Streckung / Stauchung) y = bx (b > 1 / b < 1), z, B. Länge in Metern = Länge in Fuss mal 0,3048. Übersicht 5: Zur Charakterisierung von Skalentypen Informationswert
Hinweise
Beispiele
Nominalskala
Skalentyp
A = B; A = B Gleichheit und Ungleichheit von Objekten
Klassifizierung / Etikettierung qualitativer Merkmalsausprägungen: mit Namen versehene ungeordnete Werte: reelle Zahlen sind als Schlüsselziffern (Codierungen) möglich
Geschlecht, Vorname, Beruf, Nationalität, Parteizugehörigkeit, Postleitzahl
Ordinalskala
A = B; A = B zusätzlich A 43 − 15 [ 1 ] 28 > Z a h l e n sum ( Z a h l e n ) [ 1 ] 37
# Addition # Subtraktion # Werte i n einem V e k t o r # Summe
Hinweis zu der Sprache der Statistik: Merkmalswerte xi sind Ausprägungen des Merkmals X beim i-ten Merkmalsträger (i = 1, 2, ..., n) der Stichprobe des Umfangs n. Für die Summe der i=n n n i=1 xi = i=1 xi oder einfach Merkmalswerte xi schreibt man x1 + x2 + . . . + xn = x. Jede aus Merkmals- oder Beobachtungswerten xi berechnete summarische Größe ist eine statistische Maßzahl, eine Stichprobenfunktion, auch „Statistik“ genannt: basiert sie auf einer Zufallsstichprobe, dann schätzt sie einen Parameter. Übrigens: man „zieht“ eine Zufallsstichprobe. n n n Um Ausdrücke mit Summen, wie zum Beispiel i=1 (3+2xi +x2i ) = 3n+2 i=1 xi + i=1 x2i berechnen zu können, helfen die folgenden Regeln: n
(xi + yi ) = (x1 + y1 ) + (x2 + y2 ) + . . .
i=1
= (x1 + x2 + . . .) + (y1 + y2 + . . .) n n = xi + yi i=1 n
i=1
kxi = kx1 + kx2 + . . . = k
i=1 n
n
xi
insb.
i=1
k = nk
(2.10)
i=1
(k + xi ) = (k + x1 ) + (k + x2 ) + . . . = nk
i=1
n
n
xi
i=1 n
k = (n − m + 1)k,
(m < n)
i=m
Sind a und b reelle Zahlen so gilt: n
(axi − b)2 = a2
n
i=1
5
Beispiel:
x2i − 2ab
i=1
n
xi + nb2
(2.11)
i=1
a = 2, b = 3, xi = 4 und 5, d. h. n = 2
(2 · 4 − 3)2 + (2 · 5 − 3)2 = 4(16 + 25) − 2 · 2 · 3(4 + 5) + 2 · 9 (
xi ) 2 =
x2i + 2
xi xj
mit
25 + 49 = 74 = 164 − 108 + 18
1≤i sum ( 1 : 2 0 ) [ 1 ] 210
4
5
6
7
8
i=
n(n + 1) 2
(2.13)
9 10 11 12 13 14 15 16 17 18 19 20 # Summen z u R a n g z a h l e n
Kleiner Gauss: Der Überlieferung nach geht die Herleitung dieser „Summenformel“ auf C.F. Gauss zurück, der als 9jähriger Schüler von seinem Lehrer (als Beschäftigungstherapie?) die Aufgabe erhielt, die Summe der Zahlen von 1 bis 100 zu ermitteln. Der Lehrer, ein Herr Büttner, war äußerst erstaunt, als der „kleine Gauß“ nach kurzer Zeit bereits das Ergebnis nennen konnte. Dieser hatte nicht die Zahlen einzeln addiert sondern das Problem wie folgt gelöst: Man schreibe die Summe ersten n natürlichen Zahlen einmal aufwärts und abwärts getrennt auf und addiere die einzelnen Summanden. 1 + 2 + 3 + . . . + (n − 1) + n n + (n − 1) + (n − 2) + . . . + 2 + 1 |+ (n + 1) + (n + 1) + (n + 1) + . . . + (n + 1) + (n + 1) = n(n + 1) Die doppelte Summe ist n(n+1) und muss noch durch 2 geteilt werden: 100·101/2=50·101=5050. 2. Summe der ersten n ungeraden Zahlen: n
(2i − 1) = n2
i=1
3. Summe der ersten n geraden Zahlen: n
2i = n(n + 1)
i=1
4. Summe der Quadrate der ersten n natürlichen Zahlen: n
i2 =
i=1
n(n + 1)(2n + 1) 6
5. Summe der dritten Potenzen der ersten n natürlichen Zahlen: n n(n+1) 2 1 1 1 i 3 = n4 + n3 + n2 = 4 2 4 2 i=1 6. Summe der vierten Potenzen der ersten n natürlichen Zahlen: n i=1
i4 =
1 5 1 4 1 3 1 n + n + n − n 5 2 3 30
2.3 (Grund-) Rechenarten
39
7. Summe der fünften Potenzen der ersten n natürlichen Zahlen: n
i5 =
i=1
1 6 1 5 5 4 1 2 n + n + n − n 6 2 12 12
Summen über unendlich viele Summanden (Grenzprozess) können feste, endliche Werte annehmen. Beispiele hierzu sind : n 1 ≈ 0,5772156649 + ln(n + 1) lim n→∞ i i=1 Eulersche Konstante
ln n ist der natürliche Logarithmus von n
Das Symbol „lim“ steht dabei für den „Grenzwert“ und das Symbol „∞“ steht für „unendlich“, 1 z. B. in lim = 0 [gelesen: Limes 1/i für i gegen ∞ ist gleich 0]. i→∞ i ∞ 1 Euler Die entsprechende Summe für 1/i3 ist 2 ≈ π /6 2 unbekannt, für 1/i4 lautet sie π 4 /90. 1736 i i=1
∞ 1 = +∞ n n=1
∞ n−1 1
n!
=2
∞ 1
1 =1 4n2 − 1
(2.14)
[zur Berechnung von n! (n-Fakultät) vgl. (2.16)] 2.3.1.3 Multiplikation und Division; Fakultät Multiplikation: Faktor × Faktor = Ausgerechnetes Produkt [2 × 3 = 6] Division: Dividend / Divisor = Ausgerechneter Quotient [6/3 = 2] (Divisor = 0) Das Produkt zweier Zahlen wird nur selten durch das Zeichen × zwischen den beiden Faktoren charakterisiert, da eine Verwechslung mit dem Buchstaben x möglich ist; im allgemeinen deuten wir die Multiplikation durch einen hochgestellten Punkt an oder setzen die Faktoren ohne jedes Zeichen direkt nebeneinander, beispielsweise 5 · 6 oder pq. Die Aufgabe 1,23 · 4,56 schreibt man in den USA 1.23 · 4.56 oder (1.23)(4.56), in England und Kanada 1·23 . 4·56 oder 1·23 × 4·56. Ein Komma wird in diesen Ländern zur übersichtlicheren Darstellung großer Zahlen verwendet (z. B. 5,837·43 bzw. 5,837.43 anstatt 5837,43). Das Produktzeichen ist wie folgt definiert: n
x i = x1 · x 2 · . . . · x n
(2.15)
i=1
und wird gelesen „Produkt über i“. Speziell für das Produkt über die ersten n natürlichen Zahlen wird ein neues Symbol, gelesen n-Fakultät , eingeführt: n! =
n
n=1
n = n · (n − 1) · . . . · 3 · 2 · 1
(2.16)
40
2 Grundlagen aus der Mathematik
> 4 ∗ 17 [ 1 ] 68 > 56 / 8 [1] 7 > Z a h l e n prod ( Z a h l e n ) [ 1 ] 120 > 1:10 [1] 1 2 3 4 5 6 7 > prod ( 1 : 1 0 ) [ 1 ] 3628800
# Multiplikation # Division
# Produkt
8
9 10 # Fakultaet
Der größte gemeinsame Teiler (ggT ) und das kleinste gemeinsame Vielfache (kgV ) zu zwei ganzen Zahlen m und n (m = 0 und n = 0) spielt besonders in der Arithmetik beim „Kürzen“ und „Erweitern“ von Bruchzahlen (Quotienten) eine zentrale Rolle. • ggT (m, n) bezeichnet die größte natürliche Zahl, durch die sowohl m als auch n ohne Rest teilbar ist. • kgV (m, n) bezeichnet die kleinste positive ganze Zahl, die sowohl Vielfaches von m als auch Vielfaches von n ist. ggT und kgV können durch die Zerlegung in ein Produkt von Primzahlen (Primzahlen sind nur durch sich selbst bzw. durch 1 teilbar) bestimmt oder durch den Euklidischen Algorithmus berechnet werden. m·n kgV = (2.17) ggT (m, n) Der größte gemeinsame Teiler lässt sich in der Regel einfacher bestimmen als das kleinste gemeinsame Vielfache. Für die Zahlen 4 und 5 ist zum Beispiel ggt(4, 5) = 1 und somit gilt nach (2.17) kgV (4, 5) = 4 · 5/1 = 20. In R können ggT und kgV durch die folgenden einfachen Funktionen bestimmt werden. So ist zum Beispiel ggT (21, 35) = 7 und kgV (21, 35) = 105. > ggT kgV > ggT ( 2 1 , 3 5 ) ; kgV ( 2 1 , 3 5 ) [1] 7 [ 1 ] 105 > > ggT ( 3 5 2 8 , 3 7 8 0 ) ; kgV ( 3 5 2 8 , 3 7 8 0 ) [ 1 ] 252 [ 1 ] 52920
2.3.2 Potenzen und Wurzeln Potenzrechnung (Potenzieren): Ein Produkt gleicher Faktoren a ist eine Potenz an ; gesprochen: „a hoch n“ oder „n-te Potenz von a“. Hierbei ist a die Basis und n der Exponent der Potenz (a1 = a). BasisExponent = Potenzwert > 2^4 [ 1 ] 16 > 12^4 [ 1 ] 20736
2 · 2 · 2 = 23 = 8
# Potenzieren
Die zweiten Potenzen a2 werden Quadratzahlen genannt, denn a2 gibt den Flächeninhalt eines Quadrats mit der Seite a an, daher liest man a2 auch „a Quadrat“. Die dritten Potenzen werden Kubikzahlen genannt; a3 gibt den Rauminhalt eines Würfels mit der Kante a an.
2.3 (Grund-) Rechenarten
41
Eine besondere Bedeutung haben die Zehnerpotenzen. Man benutzt sie bei Überschlagsrechnungen, um sich einen Überblick über die Größenordnung zu verschaffen, sowie um sehr große und sehr kleine Zahlen abgekürzt und übersichtlich zu schreiben: 1 000 = 10 · 10 · 10 = 103
oder 1 000 000 = 106
(103 − 102 ) ist nicht 101 sondern 900 = 0,9 · 103 . Einige Vorsilben zu Zehnerpotenzen 10−k k 10+k Milli 3 Kilo Mikro 6 Mega Nano 9 Giga Zunächst einige Potenzgesetze mit Beispielen (m und n seien natürliche Zahlen): am · an = am+n
→ 24 · 23 = 24+3 = 27 = 128
am : an = am−n
→ 24 : 23 = 24−3 = 21 = 2
an · bn = (ab)n → 62 · 32 = 6 · 6 · 3 · 3 = (6 · 3)2 = 182 = 324 a m am : bm = → 74 : 54 = ( 75 )4 = 1, 44 = 3, 8416 b (am )n = am·n = (an )m → (52 )3 = 52 · 52 · 52 = 52·3 = 56 = 15625 1 an
a−n = a0 = 1
1 1 → 10−3 = 1013 = 1000 =0,001; 2−6 = 216 = 64 =15,625 · 10−3
für
a = 0
→
a5 a5
= a5−5 = a0 = 1
(vgl. auch: 0a = 0 für a > 0)
Diese Gesetzmäßigkeiten gelten auch, wenn m und n keine ganzen Zahlen sind; das heißt, wenn a = 0, gelten die angegebenen Potenzgesetze auch für gebrochene Exponenten (m = p/q, n = r/s). √ √ n Wurzelrechnung (Radizieren): Statt a(1/n) schreibt man a1 = n a und liest n-te Wurzel √ √ auch n aus a. Für n = 2 (Quadratwurzel) schreibt √ n man kurz a. a ist die Zahl, die, in die n-te Potenz erhoben, den Radikanden a ergibt: [ n a] = a. Folgende Bezeichnung ist üblich: √ √ √ Wurzelexponent 2 Radikand = Wurzelwert 25 = 25 = 5, denn 52 = 25 Einige Formeln und Beispiele für das Rechnen mit Wurzeln:
√ n √ √ √ √ m √ √ a a n n n n am/n = n am a = n am a · b = ab √ = n n b b √
50 =
> sqrt (3) [ 1 ] 1.732051 > sqrt (234) [ 1 ] 15.29706 > 35^(5 / 3) [ 1 ] 374.4956
m
√ n
a=
√
m·n
√ √ √ √ √ 4 25 · 2 = 5 2, 50/ 2 = 50/2 = 25 = 5, 312 = 312/4 = 33 = 27 √ √ √ √ 5 3 √ 3 3 3 3·2 2 2 ( 8) = 4 = 8 ; 64 = 2 = 64; 355 = 35 3 = 374, 5. √
# Radizieren in R
a;
42
2 Grundlagen aus der Mathematik
2.3.3 Logarithmen Das Rechnen mit Logarithmen (Logarithmieren): Logarithmen sind Exponenten. Wenn a eine positive Zahl ist, und y eine beliebige Zahl (> 0), dann gibt es eine eindeutig bestimmte Zahl x, so dass ax = y ist. Diese Zahl x heißt Logarithmus von y zur Basis a, geschrieben: x =a logy
oder
x = loga y
Mit a0 = 1 gilt loga 1 = 0 .
Die Zahl y heißt Numerus des Logarithmus zur Basis a. Meist werden Logarithmen zur Basis 10 verwendet, geschrieben 10 log x, log10 x oder einfach lg x. Andere Logarithmensysteme werden weiter unten erwähnt. Nehmen wir a = 10 und y = 3, dann ergibt sich mit den Logarithmen zur Basis 10 (Briggssche, dekadische oder Zehnerlogarithmen) x = 0,4771 und 100,4771 = 3. Weitere Beispiele mit vierstelligen Logarithmen: 5 1 10 1000 0,01
= = = = =
100,6990 100 101 103 10−2
oder oder oder oder oder
lg 5 lg 1 lg 10 lg 1000 lg 0,01
= = = = =
0,6990 0 1 3 −2
Da Logarithmen Exponenten sind, gelten also die Potenzgesetze, z. B.: 2 · 4 = 100,3010 · 100,6021 = 100,3010+0,6021 = 100,9031 = 8. Die Multiplikation von Zahlen wird zurückgeführt auf die Addition der Logarithmen der Zahlen. Entsprechend gilt: Division wird zu Subtraktion, Potenzieren wird zu Multiplikation, Radizieren wird zu Division – allgemein: 1. lg(ab) = lg a + lg b 2. lg ab = lg a − lg b
(a > 0, b > 0)
lg [vgl.
(a > 0, 3. lg an = n lg a √ n = Dezi4. lg n a = lg a1/n = n1 lg a malzahl)
1 = lg 1 − lg c = 0 − lg c = − lg c = lg c−1 = (−1) lg c = c
lg 630 = lg(10 · 63) = lg 10 + lg 63 = 1 + 1,7993 = 2,7993; lg 6,30 = lg(63/10) = lg 63 − lg 10 = 1,7993 − 1 = 0,7993]
(1) Effekt: multiplikativ −→ additiv y = ab lg y = lg a + lg b
(2) Symmetrie: nein −−−→ ja a/b = b/a lg(a/b) = − lg(b/a)
Die sogenannten natürlichen Logarithmen (ln) haben als Basis die Konstante e ≈ 2,718281828459 . . . Die Umrechnungsformeln lauten mit gerundeten Werten (vgl. auch Tabelle 2.3): ln x = ln 10 · lg x 2,302585 · lg x lg x = lg e · ln x 0,4342945 ln x
(vgl. ln 1 = 0, ln e = 1, ln 10k k · 2,302585)
2.3 (Grund-) Rechenarten
43
Anstelle „ln x“ findet man auch „e log x“ und „loge x“ [vgl. auch ln ex = x, eln x = x und insbesondere ax = ex·ln a (a > 0)]. Den Logarithmus zur Basis 2, Logarithmus dualis, ld (bzw. mit lb [binär, aus zwei Einheiten bestehend] bezeichnet), erhält man nach: lg x 3,321928 lg ·x lg 2 ln x ldx = 1,442695 · ln x ln 2
ldx =
(z. B. ld 5 = 2,322 = 3,322 · 0,699 = 1,1443 · 1,609)
Sonderfälle: loga a = 1 loga 1 = 0 loga (ax ) = x
Tabelle 2.3: Wichtige, in der Mathematik häufig verwendete Konstanten Wichtige Konstanten π (2π)−1/2 Eulersche Zahl e lg e ln 10 Eulersche Konstante
> pi [ 1 ] 3.141593 > exp ( 1 ) [ 1 ] 2.718282 > l o g ( 1 2 , b a s e = exp ( 1 ) ) [ 1 ] 2.484907 > log10 (16) [ 1 ] 1.20412 > log2 (20) [ 1 ] 4.321928
3,141592654 0,398942280 2,718281828 0,434294482 2,302585093 0,577215665
# Die Z a h l p i = 3 . 1 4 1 5 9 3 # Die Z a h l e = 2 . 7 1 8 2 8 2 # Logarithmus zur Basis e # L o g a r i t h m u s z u r B a s i s 20 # Logarithmus zur Basis 2
2.3.4 Rundungen Dezimalzahlen werden häufig gerundet, um ein Rechenergebnis an die Genauigkeit der zugrundeliegenden (Mess-) Werte anzupassen oder aber auch um bevorzugte, allgemein verwendete Einheiten für die Darstellung der Ergebnisse zu verwenden. Grundlage für das Runden ist die Abrundungsfunktion (2.18) (Gaussklammer), die jede reelle Zahl x auf die größte ganze Zahl abbildet, die nicht größer ist als x. Die entsprechende Aufrundung (Deckelung) führt dagegen auf die kleinste ganze Zahl, die nicht kleiner ist als x. x = max{y ∈ Z | y ≤ x}
Abrundung (floor)
x = min{y ∈ Z | y ≥ x}
Aufrundung (ceiling)
(2.18)
In R stehen hierfür die Funktionen floor() und ceiling() zur Verfügung. > x floor (x) [1] 1 2 3 > ceiling (x) [1] 2 3 4
44
2 Grundlagen aus der Mathematik
Als praktisch zweckmäßiger hat sich allerdings das kaufmännische Runden auf ganzzahlige Werte nach (2.19) erwiesen. x + 0, 5 für x ≥ 0 (2.19) x − 0, 5 für x ≤ 0 > x floor (x + 0.5) [1] 1 2 4 > x ceiling (x − 0.5) [ 1 ] −1 −2 −4
Die häufigste Art der Rundung von Dezimalzahlen zielt auf ein Vielfaches bestimmter Einheiten (m>0) zwischen ganzen Zahlen, z.B. auf die Nachkommastellen mit m=0,1 (Zehntel), m=0,01 (Hundertstel), m=0,001 (Tausendstel), usw. Auch vielfache Anteile können für eine Rundung verwendet werden, z.B. m=0,5 (halbieren), m=0,25 (vierteln) oder m=0,125 (achteln). x + 0, 5 · m m x − 0, 5 · m m
Rundung (round):
für x ≥ 0 für x ≤ 0
(2.20)
Das Prinzip dieser Rundung wird durch die folgende Funktion rundung() in R für den Wert 1,3567 mit verschiedenen Vielfachen m gezeigt. > r u n d u n g r u n d u n g ( x = 1 . 3 5 6 7 , m=c ( 0 . 1 , 0 . 0 1 , 0 . 0 0 1 , 0 . 2 5 , 0 . 5 ) ) [1] 1.400 1.360 1.357 1.250 1.500
Die Tabelle zeigt Rundungen beispielhaft für Dezimalzahlen zwischen 1,10 und 1,40. x 1,10 1,12 1,14 1,16 1,18 1,20 1,22 1,24 1,26 1,28 1,30 1,32 1,34 1,36 1,38 1,40 m=0,1 1,10 1,10 1,10 1,20 1,20 1,20 1,20 1,20 1,30 1,30 1,30 1,30 1,30 1,40 1,40 1,40 m=0,25 1,00 1,00 1,25 1,25 1,25 1,25 1,25 1,25 1,25 1,25 1,25 1,25 1,25 1,25 1,50 1,50 In R steht für Rundungen die Funktion round() zur Verfügung, wobei hier mit dem zusätzlichen Argument digits die Zahl der Nachkommastellen angegeben wird, auf die gerundet werden soll. > round ( x = 1 . 3 5 6 7 , d i g i t s =c ( 1 , 2 , 3 ) ) [1] 1.400 1.360 1.357
Resultate sind auf eine sinnvolle Zahl signifikanter Ziffern zu runden, die selten die der Originaldaten (die am wenigsten genaue oder kleinste Zahl) übersteigt, was dann methodisch bedingt bzw. besonders zu begründen ist. Signifikante Ziffern: Wichtig ist auch der Begriff der signifikanten Ziffern. Unter den signifikanten Ziffern einer Zahl versteht man die Ziffernfolge der Zahl ohne Berücksichtigung des evtl. vorhandenen Kommas und bei Zahlen kleiner als 1 ohne die Null vor dem Komma und ohne die dann noch folgenden Nullen. Tabelle 2.4 vergleicht drei gerundete Resultate, die Anzahl der signifikanten Ziffern und die hiermit zum Ausdruck gebrachte Genauigkeit: die im Ergebnis mit einbegriffenen Genauigkeitsgrenzen sowie ihren maximalen Rundungsfehler. Werden zwei Zahlen, jede mit x genauen oder signifikanten Ziffern multipliziert, dann sind höchstens (x−1) Ziffern des Produktes als verlässlich anzusehen. Für die Division gilt Entsprechendes.
5
Beispiel: Berechne die Fläche eines Rechtecks aus den gemessenen Seitenlängen 38,22 cm und 16,49 cm. Die Antwort als 38,22 · 16,49 = 630,2478 cm2 zu formulieren wäre falsch, da die Fläche jeden Wert zwischen 38,216 · 16,486 = 630,02898 und 38,224 · 16,494 = 630,46666 annehmen kann. Dieses Gebiet wird charakterisiert durch 630,2 cm2 ± 0,3 cm2 . Der Wert kann nur durch drei signifikante Ziffern dargestellt werden (630 cm2 ).
2.3 (Grund-) Rechenarten
45
Tabelle 2.4: Rundungen und der daraus resultierende Fehler Resultat (R)
4 4,4 4,44
Anzahl signifikanter Ziffern
Grenzwerte des Fehlerbereiches
1 2 3
3,5 - 4,5 4,35 - 4,45 4,435 - 4,445
Differenz (D)
1 0,1 0,01
Größter Fehler (%) 0, 5 · |D| = · 100 R 12,5 1,14 0,113
2.3.5 Rechnen mit fehlerbehafteten Zahlen Werden fehlerbehaftete Zahlen durch Rechenoperationen verbunden, dann lässt sich die so genannte Fehlerfortpflanzung abschätzen. Hierzu können zwei parallele Rechnungen durchgeführt werden, einmal mit den Fehlerschranken, die im Endergebnis zu einem Minimum führen, und ein zweites Mal mit den Fehlerschranken, die im Ergebnis zu einem Maximum führen. Beispiel:
30 ± 3 Bereich: von 27 bis 33 20 ± 1 Bereich: von 19 bis 21
1. Addition: Die wahre Summe beider Zahlen liegt zwischen 27 + 19 = 46 und 33 + 21 = 54. Der relative Fehler der Summe beträgt (54 − 46)/(54 + 46) = 8/100 = 0,08; er liegt in den Grenzen von ±8%. 2. Subtraktion: Die wahre Differenz liegt zwischen 27 − 21 = 6 und 33 − 19 = 14 (Subtraktion „überkreuz“, d. h. der obere Grenzwert einer Zahl wird von dem unteren Grenzwert der anderen Zahl abgezogen, der untere Grenzwert einer Zahl wird von dem oberen der anderen Zahl abgezogen). Der relative Fehler der Differenz beträgt: (14 − 6)/(14 + 6) = 8/20 = 0,40, ±40%! 3. Multiplikation: Das wahre Produkt liegt in den Grenzen von 27 · 19 = 513 bis 33 · 21 = 693. Der relative Fehler des Produktes beträgt 513 − 30 · 20 513 − 600 −87 = = = −0,145 ⇒ −14,5% bzw. 30 · 20 600 600 693 − 30 · 20 693 − 600 93 = = = 0,155 ⇒ +15,5% 30 · 20 600 600 4. Division: Der wahre Quotient liegt zwischen 27/21 = 1,286 und 33/19 = 1,737 (Division „überkreuz“). Den relativen Fehler des Quotienten erhält man zu 1,286 − 30/20 0,214 = = −0,143 ⇒ −14,3% bzw. 30/20 1,500 1,737 − 30/20 0,237 = = 0,158 ⇒ +15,8% 30/20 1,500 Von allen vier Grundrechenoperationen ist die Subtraktion bei fehlerbehafteten Zahlen besonders gefährlich, der Endfehler liegt mitunter wesentlich höher als bei den anderen Rechenoperationen.
5
46
2 Grundlagen aus der Mathematik
2.4 Einführung in die Matrixalgebra • • • • • • •
Definition und Schreibweise Matrixoperationen Determinanten Die Inverse Matrix Lineare Abhängigkeit, Rang einer Matrix Lineare Gleichungssysteme Eigenwerte und Eigenvektoren
Eine Matrix ist eine feste Struktur von Zahlen, die in Zeilen und Spalten angeordnet sind. Die große Bedeutung des Begriffes in der Statistik liegt darin, dass Beobachtungen im Rahmen von Experimenten und Erhebungen „natürlich“ in dieser Form vorliegen (vgl. auch Abbildung 1.7 im 1. Kapitel). Die Zeilen sind die Fälle (Merkmalsträger, Beobachtungseinheiten) und die Spalten sind die Beobachtungen (Merkmale, Variablen). Diese Einführung in die Matrixalgebra geht über das Niveau der vorangehenden Abschnitte hinaus und ist für dieses Buch ausschließlich zum Verständnis des Kapitels zur Modellbildung (Beschreibung und Bewertung multipler Einflussgrößen) notwendig. In den anderen Kapiteln wird traditionell die algebraische Darstellung verwendet. Für den Einstieg kann dieses Kapitel zunächst übersprungen und bei Bedarf zu einem späteren Zeitpunkt nachgelesen werden. Für den interessierten Leser gibt J.E. Gentle [Gen07] eine umfassende Darstellung, einschließlich numerischer Verfahren für die statistische Datenanalyse. 2.4.1 Definition und Schreibweise Eine Matrix A ist ein rechteckiges Schema von (reellen) Zahlen aij ; die Zahlen in diesem Schema heißen Elemente von A. Matrizen werden in der Regel mit großen lateinischen Buchstaben bezeichnet. ⎞ ⎛ a11 a12 · · · a1m ⎜ a21 a22 . . . a2m ⎟ ⎟ ⎜ A(n×m) = ⎜ . (2.21) .. .. ⎟ = (aij ) ⎝ .. . . ⎠ an1 an2 . . . anm Der erste Index (i) heißt Zeilenindex, der zweite Index (j) heißt Spaltenindex. Die Dimension oder auch Ordnung einer Matrix wird durch die Anzahl der Zeilen und Spalten (n × m) bestimmt. Eine Matrix (A) wird transponiert, indem Zeilen und Spalten vertauscht werden. Dieses entspricht einer Spiegelung der Matrixelemente an der Hauptdiagonalen (aii ) der Matrix. Für die Transponierte einer Matrix A schreibt man AT oder auch A . ⎞ ⎛ a11 a21 · · · an1 ⎜ a12 a22 . . . an2 ⎟ ⎟ ⎜ A(m×n) = ⎜ . (2.22) .. .. ⎟ = (aji ) ⎝ .. . . ⎠ a1m a2n . . . anm Für die Definition einer Matrix und für das Transponieren stehen in dem Programm R spezielle Funktionen zur Verfügung:
2.4 Einführung in die Matrixalgebra
47
> A A . t r a n s A B C A A; 2 ∗ A # M u l t i p l i k a t i o n mit einem S k a l a r [ ,1] [ ,2] [ ,3] [1 ,] 1 2 3 [2 ,] 6 5 4 [ ,1] [ ,2] [ ,3] [1 ,] 2 4 6 [2 ,] 12 10 8
Dabei gelten die folgenden Regeln (c und d sind Skalare): cA = Ac (cd)A = c(dA)
(2.28)
(c ± d)A = cA ± dA c(A ± B) = cA ± cB
Bei der Multiplikation zweier Matrizen A und B werden die Elemente über die Zeilen von A und den Spalten von B miteinander multipliziert und addiert. Somit muss die Zahl der Spalten in A mit der Zahl der Zeilen in B übereinstimmen: C(n×m) = A(n×k) B(k×m) cij =
k l=1
ail blj
(i = 1, . . . , n
und
j = 1, . . . , m)
(2.29)
2.4 Einführung in die Matrixalgebra
49
> A B C a > b > c [1] [1]
A
b x A %∗% x # Kontrolle [ ,1] [1 ,] 2 [2 ,] 4 [3 ,] 8
2.4.7 Eigenwerte und Eigenvektoren Gibt es für eine quadratische Matrix A(n×n) einen Vektor x und einen Skalar λ (Lambda), so dass gilt: Ax = λx , (2.51) dann heißt λ Eigenwert und x Eigenvektor der Matrix A. Die Eigenwerte λi (i = 1, . . . , n) von A ergeben sich aus der Lösung des charakteristischen Polynoms |A − λI| = 0. Für jeden Eigenwert λi kann der zugehörige Eigenvektor xi durch die Lösung der charakteristischen Gleichung (A − λI)x = 0 bestimmt werden. > A
l x 0 ∀x = 0), wenn alle Eigenwerte größer sind als Null: λi > 0 ∀i. • Eine Matrix A ist positiv semidefinit, wenn λi ≥ 0 und mindestens ein λi = 0. • Eine Matrix A ist negativ definit (Q < 0 ∀x = 0), wenn alle Eigenwerte kleiner sind als Null: λi < 0 ∀i • Eine Matrix A ist negativ semidefinit, wenn λi ≤ 0 und mindestens ein λi = 0. Mit Hilfe der orthogonalen Matrix P lässt sich eine so genannte orthogonale Transformation einer Matrix A(n×n) definieren: y := P x
⇒
x = Py
⇒
x Ax = (Py) APy = y P APy = y Λy =
(2.53) n
λi yi2
.
i=1
2.5 Funktionen • • • • • •
Lineare Funktionen Nichtlineare Funktionen Periodische Funktionen Exponentialfunktion und logarithmische Funktion Wachstumsfunktionen Flächen unter einer Funktion: Integrale
Eine Funktion ist eine Zuordnungsvorschrift: Wie jedem Sitzplatz in einem Theater bei jeder Vorstellung eine bestimmte Eintrittskarte zugeordnet ist, so ordnet eine Funktion jedem Element einer Menge (Wertemenge, Wertebereich) ein bestimmtes Element einer anderen Menge (Bildmenge) zu. Dabei handelt es sich in der Regel jeweils um die Menge der reellen Zahlen (). Im einfachsten Fall ist jedem Wert der unabhängigen Variablen x ein bestimmter Wert der abhängigen Variablen y zugeordnet: y = f (x) (sprich: y gleich f von x) (das Funktionssymbol f (x) hat L. Euler eingeführt); die unabhängige Variable x heißt Argument. So ist z. B. für die Funktion y = x3 dem Argument x = 2 der Funktionswert y = 23 = 8 zugeordnet. Für die graphische Darstellung derartiger Zuordnungen wird das Kartesische Koordinatensystem verwendet, indem zwei Koordinaten (senkrecht zueinander), die y-Koordinate (Ordinate) und die x-Koordinate (Abszisse) eine Fläche aufspannen, in der Wertepaare (x, y) durch Punkte dargestellt werden können. Das Bild der Funktion im Koordinatensystem wird auch als Graph der Funktion bezeichnet. 2.5.1 Lineare Funktionen Eine lineare Funktion wird im einfachsten Fall durch die folgende Funktionsgleichung beschrieben: y = a + bx (2.54) Der Graph der Funktion ist eine Gerade, die die Ordinate bei dem Wert a schneidet (Achsenabschnitt) und die die Steigung b aufweist. Ist b < 0, dann fällt die Gerade, ist b > 0, dann steigt die Gerade. Für b = 0 liegt die Gerade parallel zur Abszisse. Insbesondere ist b = tan(α), wobei α den Winkel angibt, unter dem die Gerade die Abszisse schneidet. Die Koordinaten für den Schnittpunkt zweier Geraden (xS , yS ), bzw. für den Schnittpunkt mit der Abszisse bestimmt man aus der Lösung der entsprechenden linearen Gleichungen.
2.5 Funktionen
8
g(x)=5−2x
55
f(x)=2+3x
6
4
2
Schnittpunkt: (0.6, 3.8) 0 −2.0
−1.5
−1.0
−0.5
0.0
0.5
1.0
1.5
2.0
−2
−4
Abbildung 2.6: Lineare Funktionen y = f (x) = 2 + 3x und y = g(x) = 5 − 2x Beispiel: Darstellung der linearen Funktionen f (x) = 2 + 3x und g(x) = 5 − 2x im Kartesischen Koordinatensystem (Abbildung 2.6): → (2 + 3x) = (5 − 2x) → (2 + 3x) − (5 − 2x) = 0 → −3 + 5x = 0 → x = 3/5 = 0, 6 → xS = 0, 6 und yS = 5 − 2x = 5 − 2 · 0, 6 = 3, 8. Anmerkung zur Darstellung: Kurven werden im Folgenden in R mit der Funktion plot() gezeichnet. Die Koordinatenachsen liegen grundsätzlich am linken (y-Achse) und am unteren Rand (x-Achse) der Abbildung, ohne dass sich die beiden Achsen schneiden. In einer multiplen linearen Funktion wird der Zusammenhang zwischen einer abhängigen Variablen y und mehreren unabhängigen Variablen xi (i = 1, . . . , n) beschrieben. Neben einem konstanten Term a wird für jede unabhängige Variable ein entsprechender Koeffizient bi eingeführt: y = a + b1 x1 + b2 x2 + . . . + bn xn 2.5.2 Nichtlineare Funktionen 2.5.2.1 Polynomfunktionen Die allgemeine Form einer Polynomfunktion ist y = a + b1 x + b2 x2 + . . . + bn xn
(2.55)
n kennzeichnet darin den Grad der Funktion (des Polynoms). Speziell für n = 2 führt dieser Ansatz auf quadratischen Funktionen, deren Graphen durch Parabeln im Koordinatensystem dargestellt werden. y = a + b1 x + b2 x2
56
2 Grundlagen aus der Mathematik
6
f(x) = 1 − 2x + 3x2
4
2
0 −2.0
−1.5
−1.0
−0.5
0.0
0.5
1.0
1.5
2.0
−2
g(x) = 4 + 5x − 3x2
−4
−6
Abbildung 2.7: Quadratische Funktionen y = f (x) = 1−2x+3x2 und y = g(x) = 4+5x−3x2 Der Scheitelpunkt einer Parabel wird durch den maximalen (minimalen) Funktionswert bestimmt. Er kann durch Umformung der Funktionsgleichung in die so genannte Scheitelgleichung bestimmt werden. y = b2 (x − sx )2 + sy mit
xs = −
b1 2b2
und
ys = a −
b21 4b2
Ein weitere Möglichkeit zur Bestimmung des Scheitelpunktes erfolgt über die 1. Ableitung mit f (x) = 0 (Bestimmung von Maximum bzw. Minimum). 2.5.3 Periodische Funktionen Periodische (trigonometrische) Funktionen können am Einheitskreis (Radius = 1) definiert werden oder sie ergeben sich (für spitze Winkel < 90◦ ) aus den Seitenverhältnissen an einem rechtwinkligen Dreieck. Die abhängige Variable x wird dabei entweder als Winkel (0◦ bis 360◦ ) oder als reelle Zahl im im Bogenmaß (0 bis 2π (≡ 360◦ )) angegeben (B = (W/180)π). Sinus:
y = sin(x) = BC =
Gegenkathete Hypothenuse Ankathete Hypothenuse
Kosinus:
y = cos(x) = 0B =
Tangens:
Gegenkathete y = tan(x) = AD = Ankathete
Kotangens:
y = ctg(x) = EF =
Ankathete Gegenkathete
(2.56)
2.5 Funktionen
E
F
1.0
sin(x)
0.8
C
D
57
0.6 0.4 0.2
x
0
B
A
0.0 −0.2 −0.4 −0.6
cos(x)
−0.8 −1.0 0
π 2
π
3π 2
2π
Abbildung 2.8: Periodische Funktionen am Einheitskreis (2.56) Der Einheitskreis (s. Abbildung 2.8) wird im Kartesischen Koordinatensystem durch die Funktion x2 + y 2 = 1 dargestellt. Bildlich entsteht er durch einen „Zeiger“ der Länge 1, der sich entgegengesetzt zum Uhrzeigersinn dreht. Betrachtet werden entsprechend x-Werte im Bereich [+1, 0, −1, 0, +1] (dieses entspricht den Zeigerwinkeln α im Bereich [0, 90◦ , 180◦ , 270◦ , 360◦ ]). Die Funktionswerte zu den trigonometrischen Funktionen können dann durch entsprechende Seitenverhältnisse bzw. Strecken nach (2.56) berechnet werden. Die in der Definition verwendeten Strecken sind in der Abbildung am Einheitskreis gekennzeichnet. Die vier wichtigsten Formeln zu den Funktionen in der Trigonometrie sind übersichtlich in (2.57) zusammengestellt: sin2 (x) + cos2 (x) = 1
sin(x) = tan(x) cos(x) cos(x) = ctg(x) sin(x)
(2.57) tan(x) · ctg(x) = 1
2.5.4 Exponentialfunktion und logarithmische Funktion Die Exponentialfunktion y = ax (für a = e = 2, 718282 die natürliche Exponentialfunktion) nimmt nur positive reelle Werte an. Für a > 1 wächst sie monoton von 0 bis ∞; für 0 < a < 1 nimmt sie monoton von ∞ bis 0 ab. Die logarithmische Funktion y = loga x a > 0 ist die Umkehrfunktion zur Exponentialfunktion; für a = e natürliche logarithmische Funktion. Ihr Graph ist das Spiegelbild an der Winkelhalbierenden im Kartesischen Koordinatensystem. 1 2 Von besonderer Bedeutung in der Statistik ist die Funktion y = e− 2 x . Sie wird genutzt als Grundlage für die Dichtefunktion der Standardnormalverteilung einer stetigen Zufallsvariable. Ihr Verlauf ist in Abbildung 2.9 dargestellt.
58
2 Grundlagen aus der Mathematik
20
4
y = ex
1.0
y = e−(2x) 1
15
10
0.8
y = ln(x)
2
2
y = lg(x)
0.6
0 0.4
5
−2
y = 0.2x
0.2
0
−4 −3
−2
−1
0
1
2
3
0.0 0
2
4
6
8
10
−3
−2
−1
0
1
2
3
Abbildung 2.9: Exponentialfunktionen y = ex und y = ( 15 )x , Logarithmusfunktionen y = ln(x) 2 und y = log10 (x) und die spezielle Funktion y = e−0.5x 2.5.4.1 Wachstumsfunktionen Das Wachstum oder die Abnahme (Zerfall) eines Bestandes (N ) wird exponentiell genannt, wenn sich der Vorgang durch eine Exponentialfunktion vom Typ (2.58) beschreiben lässt (ergänzende Ausführungen zum Wachstum siehe auch im Abschnitt zum geometrischen Mittelwert [3.3.8]). N (t) = N0 eλ0 t
(2.58)
Dabei bezeichnet N0 einen Anfangsbestand (Ausgangswert) und λ0 kennzeichnet eine konstante Wachstumsrate (für λ0 < 0 auch Zerfallskonstante). Die Halbwertszeit, das heißt die Zeit, in der sich ein Bestand verdoppelt (halbiert), kann durch T1/2 = ln(2)/λ0
(2.59)
bestimmt werden. Abbildung 2.10 (A) zeigt eine Exponentialfunktion nach (2.58) für die Werte N0 = 10 und λ0 = 0, 1. Besonders interessant ist ein Wachstum, das durch einen festen Wert (Sättigungsniveau) begrenzt wird: N (t) = Nmax − (Nmax − N0 )eλ0 t
,
(λ0 < 0)
(2.60)
Nmax ist das Sättigungsniveau, N0 der Ausgangswert. Die Wachstumsrate ist in diesem Fall keine konstante Größe, sondern eine monoton fallende Funktion: λ(t) = λ0
Nmax − N (t) = λ0 R(t) N (t)
(2.61)
Die Funktion R(t) charakterisiert einen relativen Abstand vom Sättigungsniveau. Die Wachstumsrate λ(t) ist proportional zu R(t), der Proportionalitätsfaktor ist λ0 . Abbildung 2.10 (B) zeigt eine modifizierte Wachstumsfunktion vom Typ (2.60) für die Werte N0 = 10, Nmax = 90 und λ0 = −0, 2.
2.5 Funktionen
59
Eine spezielle Wachstumsfunktion ist auch die logistische Funktion: N (t) =
A
100
40
20
80
Bestand [N]
60
60
40
20
0 5
10
15
20
60
40
20
0 0
C
100
80
Bestand [N]
Bestand [N]
(2.62)
B
100
80
Nmax 1 + ea−bt
0 0
5
Zeit [t]
10
Zeit [t]
15
20
0
5
10
15
20
Zeit [t]
Abbildung 2.10: Wachstumsfunktionen: exponentiell (A), modifiziert exponentiell (B) und logistisch (C) Die Funktion (2.62) hat im Gegensatz zu der modifizierten Exponentialfunktion (2.60) einen Wendepunkt zum Zeitpunkt TW = a/b. Bis zu diesem Zeitpunkt steigt das Wachstum, danach nimmt es ab und der Bestand strebt gegen das Sättigungsniveau Nmax . Die Funktion ist zentralsymmetrisch zum Wendepunkt. Der Ausgangswert kann nach (2.63) berechnet werden. Nmax (2.63) 1 + ea Die Steilheit der Kurve wird wesentlich durch den Wert b bestimmt. Die Wachstumsrate ist durch (2.64) gegeben. b λ(t) = b − N (t) (2.64) Nmax N0 = N (0) =
Abbildung 2.10 (C) zeigt eine logistische Funktion mit den Werten Nmax = 90, a = 5, b = 0, 5. Der Wendepunkt liegt somit bei TW = 10. 2.5.5 Fläche unter einer Funktion: Integral Der Fläche, die innerhalb bestimmter Grenzen (in einem festen Intervall [a, b]) durch die x-Achse und den Graphen einer Funktion f(x) begrenzt wird (kurz die Fläche unter der Funktion), ist in zahlreichen Situationen von großer Bedeutung, so zum Beispiel in der Pharmakokinetik als AUC (area under curve) zur Kennzeichnung von aufgenommenen / ausgeschiedenen Mengen einer Substanz in Abhängigkeit von der Zeit. In der Statistik kommt der Fläche unter der Funktion eine zentrale Bedeutung zu, zunächst in dem Begriff der Wahrscheinlichkeitsdichte, und darauf aufbauend in dem Modell der Verteilungsfunktion, mit der wesentliche Eigenschaften von (insbesondere stetigen) Zufallsvariablen beschrieben werden.
60
2 Grundlagen aus der Mathematik
Für die Bestimmung des Flächeninhalts wird das Intervall [a, b] in n gleiche Teile zerlegt. Die Teilpunkte sind dann bestimmt durch: b−a xk = a + k · Δx mit k = 0, 1, 2, . . . , n und Δx := n Zwischen den Teilpunkten kann die Fläche unter der Kurve durch die Summe einzelner Rechtecke (genauer noch durch Trapeze, vgl. Abbildung 2.11) näherungsweise gekennzeichnet werden. Dabei ist die Annäherung um so besser, je schmaler die Breite der Rechtecke gewählt wird. Allgemein gilt: b n F = f (x)dx = lim f (xk ) · Δx (2.65) n→∞
a
k=1
Den linken Teil der Formel 2.65 nennt man das bestimmte Integral der Funktion f(x) im Intervall [a, b]. Die praktische Berechnung von Integralen basiert auf der sogenannten Stammfunktion F (x) mit F (x) = f (x), die auf die Mathematiker Newton (1643-1727) und Leibniz (1646-1716) zurückgeht: b b f (x)dx = F (b) − F (a) = F (x) (2.66) a
5
a
3
4
(b − 3)(f(3) − f(b))
0
1
2
F(x)
a
−1
b
0
1
2
3
Abbildung 2.11: Fläche unter der Kurve(AUC) im Intervall [a, b]
4
5
2.6 Kombinatorik
61
2.6 Kombinatorik • • • • • • •
Permutationen Kombinationen - der Binomialkoeffizient Kombinationen mit Wiederholung Kombinationen mit Berücksichtigung der Anordnung Zerlegung einer Menge Das Pascalsche Dreieck Der Multinomialkoeffizient
2.6.1 Permutationen Jede Reihenfolge, in der eine Menge von n verschiedenen Elementen angeordnet ist, bezeichnet man als Permutation. Das Programm R stellt in dem Paket library(combinat) [Cha12] spezielle Funktionen zum Permutieren und Kombinieren von Objekten zur Verfügung. > library ( combinat ) > x permn ( x ) [ [ 1 ] ] [1] "a" "b" "c" [ [ 2 ] ] [1] "a" "c" "b" [ [ 3 ] ] [1] "c" "a" "b" [ [ 4 ] ] [1] "c" "b" "a" [ [ 5 ] ] [1] "b" "c" "a" [ [ 6 ] ] [1] "b" "a" "c"
Insgesamt gibt es [vgl. (2.16) auf Seite 39] n(n − 1) · . . . · 1 = n!
(gelesen: n-Fakultät)
(2.67)
verschiedene Permutationen. Für die Auswahl des 1. Elements gibt es n Möglichkeiten, für die Auswahl des nächsten nur noch n − 1, da ein Element schon ausgewählt wurde. Diese Anzahlen müssen miteinander multipliziert werden, um die Gesamtzahl der möglichen Permutationen zu erhalten. Folgende Sonderfälle sind besonders zu beachten: 1! = 1 und auch
0! = 1
Eine Erklärung für 0! = 1 liefert (k + 1)! = (k + 1)k! und k! =
(k + 1)! . k+1
Es gibt n! Möglichkeiten, um n unterschiedliche Objekte in einer Reihe anzuordnen. Beispiel: Acht unterschiedliche Bücher lassen sich auf 8! = 8 · 7 · 6 · 5 · 4 · 3 · 2 · 1 = 40320 verschiedene Arten nebeneinander ins Regal stellen. > n prod ( 1 : n ) [ 1 ] 40320
5
# P r o d u k t d e r Z a h l e n von 1 b i s n
Einen Sonderfall bilden kreisförmige Permutationen: n unterschiedliche Objekte lassen sich auf (n − 1)! Arten kreisförmig anordnen. Beispiel: Wie viele ungleiche Halsketten lassen sich allein durch unterschiedliche Anordnungen von 8 farblich unterschiedlichen Steinen herstellen? (8 − 1)!/2[= 2520]; denn die Kette kann umgedreht werden.
5
62
2 Grundlagen aus der Mathematik
In Stammbäumen lassen sich zum Beispiel drei Objekte A, B und C hinsichtlich ihrer Ähnlichkeit oder Verwandtschaft auf drei Arten anordnen: ABC
ACB
BCA.
Für n ≥ 2 Objekte (z. B. Pflanzen- oder Tiergattungen) gibt es N=
(2n − 2)! 2n−1 (n − 1)!
(2.68)
Stammbäume. Für n = 20 erhält man bereits N=
38! 5,2302 · 1044 ≈ ≈ 8,20 · 1021 . 219 · 19! 5,2429 · 105 · 1,2165 · 1017
> n prod ( 1 : ( 2 ∗n −2)) / ( 2 ^ ( n−1)∗prod ( 1 : ( n − 1 ) ) ) [ 1 ] 8 . 2 0 0 7 9 5 e +21
k-Permutationen: Will man nicht alle Elemente anordnen, sondern nur einen Teil, also k Elemente aus n Elementen auswählen und diese anordnen, so hat man nur das Produkt über die ersten k dieser n Faktoren zu bilden, also n(n − 1) . . . (n − k + 1) =
n! = n[k] (n − k)!
(2.69)
Für die k-Permutationen aus n Elementen, hier abgekürzt durch n[k] , gibt es keine einheitliche Schreibweise; gelegentlich wird auch eine fallende Folge von Faktoren mit n[k] angegeben.
5
Beispiel: Wenn aus 30 Vereinsmitgliedern ein Vorsitzender, ein Schriftführer und ein Kassenwart gewählt werden sollen, so gibt es hierfür rein theoretisch 30!/(30 − 3)! = 30!/27! = 30 · 29 · 28 = 24360 Möglichkeiten. 2.6.2 Binomialkoeffizient Häufig interessiert die Zahl der Teilmengen mit k Elementen aus einer Menge von n Elementen, die Anzahl „k-elementiger“ Teilmengen. Für die Anzahl der Möglichkeiten, k Elemente in einer bestimmten Reihenfolge auszuwählen, haben wir n!/(n − k)! erhalten. Hierbei wird aber jede Reihenfolge der k Elemente als eigene Möglichkeit angesehen. Wir haben also die Gesamtzahl durch die Anzahl der Möglichkeiten, k Elemente anzuordnen, zu dividieren, d. h. durch k!. Somit ergibt sich als Zahl möglicher Teilmengen mit k Elementen aus einer Menge von n Elementen, d. h. als Zahl k-elementiger Teilmengen von n Elementen (oder je k gleichzeitig): n! = (n − k)!k!
n k
(gelesen: n über k)
(2.70)
Diese Größe heißt Binomialkoeffizient oder Euler-Symbol (nach Leonhard Euler: 1707–1783). Für das Rechnen mit Binomialkoeffizienten beachte man insbesondere ⎧ ⎨ n! n n für k ≤ n = (n − k)!k! = (2.71) ⎩ n−k k 0 für k > n
2.6 Kombinatorik
63
und die Sonderfälle: 0 =1 0
n n =n= n−1 1
n n =1= n 0
Häufig findet man auch die Schreibweise: n n n! = = n Cx = n−x x (n − x)!x! 0≤x≤n
mit
ganzzahlig
9 9·8 9 = wird als Beispiel: = 36 berechnet, und nicht als 2 7 2·1
5
9·8·7·6·5·4·3·2·1 = 36. 7·6·5·4·3·2·1·2·1 Die Berechnung der Binomialkoeffizienten im Programm R erfolgt über die Funktion “choose“: > n k choose ( n , k ) [ 1 ] 36
# Binomialkoeffizienten in R
Die Kombinationen von k aus n Elementen können in R mit der Funktion combn() generiert und angezeigt werden, wie zum Beispiel die 10 Kombinationen von 3 Buchstaben aus den ersten 5 Buchstaben des Alphabets. > combn ( l e t t e r s [ ,1] [ ,2] [1 ,] "a" "a" [2 ,] "b" "b" [3 ,] "c" "d"
[ 1 : 5 ] , 3) [ ,3] [ ,4] "a" "a" "b" "c" "e" "d"
[ ,5] "a" "c" "e"
[ ,6] "a" "d" "e"
[ ,7] "b" "c" "d"
[ ,8] "b" "c" "e"
[ ,9] "b" "d" "e"
# Kombinationen [ ,10] "c" "d" "e"
2.6.2.1 Rechnen mit dem Binomialkoeffizienten - weitere Formeln
n+1 x+1
=
n+1 n x+1 x
sowie
n+1 k
=
n−1 x−1
=
n+1 x
x n n x
=
n n + k−1 k
n x−1
=
x n n−x−1 x
n+1 n n−x+1 x
n k+1
=
n−k n k+1 k
64
2 Grundlagen aus der Mathematik
Binomialkoeffizienten lassen sich auch rekursiv berechnen (Rekursionsformel): n n n+1 + = k+1 k k+1 k n−1 n + ··· + + = k k k n−k n n−i i = = k k i=0
(2.72)
i=k
Die Reduktionsformel für Binomialkoeffizienten lautet: n n−1 n−1 k n = − = n k k k k−1
(2.73)
Die folgende Identität für Binomialkoeffizienten wird Additionstheorem nach A.T. Vandermonde (1735-1796) genannt: k m+n n m = (2.74) k k−i i i=0 Interpretation: Um aus m + n Personen (z. B. m Männern und n Frauen) genau k auszuwählen, wähle man i (Männer) aus den ersten m und anschließend k − i (Frauen) aus den restlichen n. Die Summe der Auswahlmöglichkeiten für i = 1, . . . , k führt zu dem Ergebnis.
5 5
Beispiel: Die Anzahl der Auswahlmöglichkeiten, unter m = 4 Männern und n = 2 Frauen k = 2 Personen auszuwählen ist 15: 1 (zwei Frauen) + 8 (ein Mann und eine Frau) + 6 (zwei Männer). Für den Sonderfall m = n und k = n resultiert: n n n 2 n 2n n n n n = = = n−i i n i i i i=0 i=0 i=0
.
Beispiel (Zahlenlotto): Die Anzahl verschiedener Tipps mit genau i „Richtigen“ beim Zahlenlotto (6 aus 49) ist nach dem Additionstheorem (2.74): 6 49 43 6 = 6 6 − i i i=0
.
2.6.3 Kombinationen Eine Auswahl von k Elementen aus einer Menge von n Elementen (n ≥ k) heißt eine Kombination von n Elementen zur k-ten Klasse, oder einfacher, eine Kombination k-ter Ordnung. Je nachdem, ob die gegebenen Elemente evtl. gleich oder alle verschieden sind, spricht man von Kombinationen mit oder ohne Wiederholung. Sollen zwei Kombinationen, die zwar genau dieselben k Elemente, aber in verschiedener Anordnung enthalten, als verschieden gelten, so spricht man von Kombinationen mit Berücksichtigung der Anordnung, andernfalls von Kombinationen ohne Berücksichtigung der Anordnung. Danach können wir 4 Modelle unterscheiden. Die Anzahl der Kombinationen k-ter Ordnung (je k zugleich) von n Elementen
2.6 Kombinatorik
65
I ohne Wiederholung und ohne Berücksichtigung der Anordnung ist durch den Binomialkoeffizienten gegeben: n n! n(n − 1) · . . . · (n − k + 1) = = k (n − k)!k! k!
(2.75)
II ohne Wiederholung, aber mit Berücksichtigung der Anordnung ist gleich: n n! k! = = n(n − 1) · . . . · (n − k + 1) k (n − k)!
(2.76)
Beispiel: Bewerben sich n Personen um k unterschiedliche Preise (1., 2., . . . , k. Preis), dann ! kann die Preisverteilung auf nk k! unterschiedliche Arten folgen: 10 Rennfahrer kämpfen um ! 3 Medaillen (G,S,B); dann kann die Preisverteilung auf 10 3 3! = 120 · 6 = 720 unterschiedliche Arten erfolgen. Für die Goldmedaille gibt es 10 Möglichkeiten, für die silberne kommen 9 Rennfahrer in Frage und für die bronzene 8, d. h. insgesamt 10 · 9 · 8 = 720 unterschiedliche Arten der Preisverteilung.
5
> c h o o s e ( 1 0 , 3 ) ∗ prod ( 1 : 3 ) [ 1 ] 720
III mit Wiederholung, aber ohne Berücksichtigung der Anordnung ist gleich:
n+k−1 k
=
(n + k − 1)! k!(n − 1)!
(2.77)
Beispiel: Sind von fünf verschiedenen jeweils 12 Bonbons in eine Tüte abzuBonbonsorten 16 5 + 12 − 1 = 1820 Möglichkeiten. = füllen, so gibt es hierfür 12 12
5
> c h o o s e (5+12 −1 , 1 2 ) [ 1 ] 1820
IV mit Wiederholung und mit Berücksichtigung der Anordnung ist gleich: nk
(2.78)
Beispiel: Wie viele „Wörter“ aus maximal drei Buchstaben lassen sich aus den 26 Buchstaben des Alphabets bilden, wenn Wiederholungen zugelassen werden? Zunächst lassen sich 26 „Wörter“ aus einem Buchstaben bilden, dann 262 aus zwei Buchstaben und 263 aus drei Buchstaben, insgesamt somit 26 + 262 + 263 = 18 278. > 26^3 + 26^2 +26 [ 1 ] 18278
5
66
2 Grundlagen aus der Mathematik
2.6.4 Zerlegung einer Menge Beispielsweise gibt es für die dreielementige Menge {A, B, C} ¯ B, ¯ C) ¯ + (A) + (B) + (C) + (A, B) + (A, C) + (B, C) + (A, B, C) (A, 3 3 3 3 =1+3+3+1=8 mögliche Teilmengen. + + + 23 = 8 = 3 2 1 0 Allgemein kann man eine Menge in Teilmengen mit 0, 1, 2, . . . , n Elementen zerlegen, deren Anzahl 2n beträgt: n n n n n n n = + + ... + + + = 2n n n−1 2 1 0 k
(2.79)
k=0
Die Zahl der Auswahlmöglichkeiten von k aus n Elementen beträgt für k ≥ 1 (dabei verzichtet man speziell auf das erste Glied der Reihe, die Betrachtung der leeren Menge): n n n n n = + ... + + = 2n − 1 n 2 1 k
(2.80)
k=1
5 5
Beispiel (Zähne): Von den ursprünglichen 32 Zähnen bilden die beim älteren Menschen vorhandenen Zähne eine Teilmenge; insgesamt gibt es 232 = 4,3 · 109 verschiedene Teilmengen. Ohne ! n die leere Menge 0 = 1 ist dann die Zahl der Teilmengen einer n-elementigen Menge zu jeweils k Elementen, k ≤ n, gleich 2n − 1. Beispiel: Ausstattungsvarianten beim Autokauf mit k = 1, 2, . . . , n verschiedenen Komponenten: Drei beliebig miteinander kombinierbare Zusatzausrüstungen (z. B. Antiblockiersystem, Stahlkurbeldach und schwenkbare Scheinwerfer) führen z. B. zu 3 3 k=1
k
=
3 3 3 =3+3+1=7 + + 3 2 1
Varianten. Häufig liegt die Zahl der Varianten (V ) unter diesem Maximum, da gewisse Einzelvarianten nicht in Frage kommen. Für 4 Karosserie-, 5 Motor-, 2 Getriebe-Varianten und 5 unterschiedliche Ausstattungspakete ergeben sich 4 · 5 · 2 · 5 = 200 Varianten; 10 Zusatzausstattungen bringen allein 10 10 k=1
k
= 10 + 45 + 120 + 210 + 252 + 210 + 120 + 45 + 10 + 1 = 1023 Varianten.
> sum ( c h o o s e ( 1 0 , 1 : 1 0 ) ) [ 1 ] 1023
Mit den 200 Varianten sind das (ohne Farbvarianten) schon 200 · 1023 = 204 600 Varianten.
2.6 Kombinatorik
67
2.6.5 Bootstrap-Stichproben Die Verteilung aller möglichen Stichproben vom Umfang n, die aus einer „Originalstichprobe“ (Ursprung) der Größe n durch zufälliges Ziehen mit Zurücklegen gebildet werden können, wird „Bootstrap-Verteilung“ genannt. Die Anzahl möglicher unterschiedlicher Stichproben ist dann nach P. Hall [Hal92]:
2n − 1 n
= (2n − 1)![n!(n − 1)!]
(2.81)
Für n = 10 gibt es danach bereits 92378 verschiedene Bootstrap-Stichproben. Hinweis: Es gibt nur n! Permutationen von n Elementen. Andererseits gibt es nn Auswahlmöglichkeiten mit Wiederholung und mit Berücksichtigung der Anordnung. Diese sind jedoch nicht eindeutig, da die Permutationen einer Bootstrap-Stichprobe die gleichen Elemente enthalten. Diese Wiederholungen werden durch die obige Formel berücksichtigt; allgemein gilt: 2n − 1 n−1 ≥ 2n−1 für n > 2 . 3 ≥ n 2.6.6 Das Pascalsche Dreieck Die Binomialkoeffizienten ergeben sich elegant aus dem unten aufgeschriebenen Pascalschen Dreieck (Pascal 1623–1662): Werden zwei nebeneinander stehende Zahlen des Dreiecks addiert, so erhält man die darunter auf Lücke stehende Zahl. Die Gesetzmäßigkeit des Pascalschen Dreiecks lautet: n+1 n n = + (2.82) x+1 x+1 x Die Besonderheit des Dreiecks besteht darin, dass es unmittelbar die Anzahl der Kombinationen mit einem festen n zeilenweise übersichtlich wiedergibt (vgl. Abbildung 2.12).
Zeile n 1 1 1 1
1
2
1
4
5
10
1
1 1
3 6
0
0 1
3
Binomialkoeffizienten
2
2 1
3
3
4
1
10
5
4
4 1
5
5 0
0
0
Abbildung 2.12: Pascalsches Dreieck von n = 1, · · · , 5
1
1
1
2
1
2
3
4
5 2
1
2
3
4
5 1
0
0
0
2
3
4
5 3
2
3
3
4
5 4
4
5 5
68
2 Grundlagen aus der Mathematik
Die Entwicklung der Binomialkoeffizienten nach dem Pascalschen Dreieck aus Abbildung 2.12 wird auch bei der Auflösung binomischer Formeln deutlich, z. B. für Zeile n = 5: 5 5 (5−i) i a (a + b)5 = b = a5 b0 + 5a4 b1 + 10a3 b2 + 10a2 b3 + 5a1 b4 + a0 b5 i i=0 Einige Identitäten zum Pascalschen Dreieck 1. Jede Zeile ist symmetrisch, d. h. n n = n−x x 2. Jeder Binomialkoeffizient ist (für n > 0 und x > 0) gleich der Summe der beiden über ihm stehenden, d. h. n−1 n−1 n + = x x−1 x 3. Für die Zeilensumme der Binomialkoeffizienten gilt: n n n n = 2n + ... + + + n 2 1 0 4. Für die Zeilensumme der quadrierten Binomialkoeffizienten gilt: 2 2 2 2 n n n 2n n + + + ... + = 1 3 n n 0 5. Für alle Zeilen ist die alternierende Summe gleich Null: n n n n n + . . . + (−1)n − + − =0 3 2 1 0 n
5
Sind n gleiche in k unterschiedliche Fächer zu legen, kein Fach darf leer bleiben, so gibt Objekte n−1 mit n k unterschiedliche Arten. es hierfür k−1 3 3 4−1 = 3. = = Beispiel: n = 4, k = 3, d. h. 1 2 3−1
2.6 Kombinatorik
69
2.6.7 Der Multinomialkoeffizient Wenn n Elemente in k Gruppen angeordnet werden, so dass n1 + n2 + . . . + nk = n, wobei n1 , n2 , . . . , nk die Anzahl der Elemente pro Gruppe bezeichnet, dann gibt es n! n 1 ! · n2 ! · . . . · nk !
(2.83)
unterschiedliche Möglichkeiten, die n Elemente in diese k Gruppen zu gruppieren (Multinomialkoeffizient). Beispiel (Teambildung): Zehn Studenten sollen in zwei Gruppen zu je 5 Basketballspielern eingeteilt werden. Wie viele unterschiedliche Teams können gebildet werden?
5
10! 3 628 800 = = 252 5! · 5! 120 · 120 Beispiel (Kartenspiel): Ein Satz von 52 Spielkarten soll so unter 4 Spielern verteilt werden, dass jeder 13 Karten enthält. Wie viele unterschiedliche Möglichkeiten gibt es für die Verteilung der Karten? 52! 8,0658 · 1067 = 5,36 · 1028 . 13! · 13! · 13! · 13! (6,2270 · 109 )4 > k a r t e n s p i e l e r k . s p i e l prod ( 1 : k a r t e n ) / ( prod ( 1 : k . s p i e l ) ^ s p i e l e r [ 1 ] 5 . 3 6 4 4 7 4 e +28
# Anzahl der Karten # Anzahl der S p i e l e r # Anzahl Karten pro S p i e l e r )
5
3 Deskriptive Statistik • • • • • • • • •
Häufigkeiten Ordinaldaten Metrische Daten Fehlerrechnung Häufigkeitsverteilung Konzentration; Gini-Koeffizient Maßzahlen für den Zusammenhang Nichtlineare Regression Nichtparametrische Regression
Die Verfahren der deskriptiven Statistik können grundsätzlich nach vier Gesichtspunkten eingeteilt werden. Maßzahlen, die 1. eine zentrale Tendenz (mittlere Lage) von Beobachtungen / Messungen ausdrücken, 2. die eine Streuung oder Variabilität in den Beobachtungen / Messungen erfassen, 3. die die Form bzw. das Profil der (Häufigkeits-) Verteilung beschreiben und 4. die weitere spezielle Aspekte, z.B. den Zusammenhang oder eine Assoziation zwischen zwei Merkmalen oder Beobachtungsreihen, untersuchen. Übersicht 7: Maßzahlen der deskriptiven Statistik für die vier Skalentypen Skalentyp Nominalskala
Ordinalskala
Intervallskala
Verhältnisskala
Lagemaße absolute, relative und prozentuale Häufigkeiten (H), Dichtemittel (D) H, D, Medianwert (˜ x), Perzentile, spezielle Quartile: Q1 und Q2 H, D, x ˜, Perzentile, arithmetischer Mittelwert (¯ x) H, D, x ˜, Perzentile, x ¯, geometrischer Mittelwert (¯ xG ), harmonischer Mittelwert (¯ xH )
Streuungsmaße Gini-Simpson-Index (VG )
Spannweite (Range R), Interquartilbereich (IQR), ˜ Median-Deviation (D) ˜ R, IQR, D, Standardabweichung (s) und Varianz (s2 ) ˜ s, s2 , R, IQR, D, Variationskoeffizient (V )
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 J. Hedderich und L. Sachs, Angewandte Statistik, https://doi.org/10.1007/978-3-662-62294-0_3
Assoziationsmaße „bedingte“ Häufigkeiten, Assoziationsmaß nach Goodman-Kruskal (τGK ), Odds-Ratio (OR) Rangkorrelationskoeffizient nach Kendall (rτ ) oder nach Spearman (rS ) lineare Abhängigkeit Korrelationskoeffizient (r) und Regressionskoeffizienten rτ , rS , r und Regressionskoeffizienten
3.1 Häufigkeiten
71
Übersicht 8: Methoden zur deskriptiven Statistik und Explorativen Datenanalyse
3.1 Häufigkeiten • • • • • •
Absolute und relative Häufigkeiten Sinnvolle Quotienten: Verhältniszahlen Prozentwerte Torten- und Balkendiagramme Tabellen Bedingte Häufigkeiten
3.1.1 Absolute und relative Häufigkeiten Die Beschreibung nominal skalierter Daten erfolgt (univariat) stets über Häufigkeiten, d. h. zu einem Merkmal wird die Häufigkeit des Auftretens der einzelnen Merkmalsausprägungen in einer Stichprobe bzw. Gesamtheit von n-Fällen bestimmt. Für ein Merkmal mit k Ausprägungen gilt: x1 + x 2 + x 3 + . . . + xk =
k
xi = n
(3.1)
i=1
Die xi mit i = 1, . . . , k heißen absolute Häufigkeiten. Für das Verständnis und die Interpretation von Häufigkeiten ist die Angabe der Gesamtzahl n (Anzahl der Fälle) zwingend erforderlich. Ein Beispiel zur Darstellung von Häufigkeiten ist in Tabelle 3.1 dargestellt. Der Modalwert oder auch Modus (Dichtemittel, D) kennzeichnet die Merkmalsausprägung, die am häufigsten auftritt und lässt sich leicht aus einer Häufigkeitstabelle oder einer graphischen Darstellung entnehmen. Das Dichtemittel ist das wichtigste Lagemaß für nominal skalierte Merkmale. Es ist allerdings nur sinnvoll, wenn eine Merkmalsausprägung dominiert, d.h. bei eingipfligen Verteilungen, oder es wird als lokales Dichtemittel eingesetzt.
72
3 Deskriptive Statistik
Tabelle 3.1: Blutgruppen des AB0-Systems Blutgruppe Anzahl (gesamt n=155) relative Häufigkeit prozentuale Häufigkeit
A 69 0,45 44,5%
B 17 0,11 11,0%
AB 7 0,05 4,5%
0 62 0,40 40,0%
In R kann die Verteilung der Häufigkeit des Auftretens einzelner Werte in einem Vektor durch die Funktion table() ermittelt werden. Der Modalwert wird dann durch das Maximum dieser Häufigkeiten bestimmt. Wie das zweite Beispiel mit den Ziffern 0 bis 9 zeigt, muss der Modalwert nicht eindeutig sein. > B l u t g r u p p e n v t M o d a l w e r t > v e c t v t a b s o l u t names ( a b s o l u t ) anzahl r e l a t i v p r o z e n t Gini
> > + + > + + + > > > +
library ( gplots ) par ( mfrow=c ( 1 , 3 ) , lwd = 1 . 5 , f o n t . a x i s =2 , b t y = " n " , ps = 15 , c e x . a x i s = 1 ) b a r p l o t 2 ( a b s o l u t , names . a r g =c ( "A" , "B" , "AB" , " 0 " ) , c e x . a x i s = 1 . 3 , c e x . names = 1 . 3 , y l i m =c ( 0 , 7 0 ) , d e n s i t y =c ( 1 0 , 1 5 , 1 8 , 2 0 ) , a n g l e =c ( 4 5 , 1 3 5 , 4 5 , 1 3 5 ) , c o l = " b l a c k " ) b a r p l o t 2 ( a s . m a t r i x ( a b s o l u t ) , names . a r g = " B l u t g r u p p e " , b e s i d e = FALSE , y l i m =c ( 0 , 1 6 0 ) , yaxp =c ( 0 , 1 6 0 , 8 ) , x l i m =c ( 0 , 1 . 5 ) , c e x . a x i s = 1 . 3 , c e x . names = 1 . 1 , d e n s i t y =c ( 1 0 , 1 5 , 1 8 , 2 0 ) , a n g l e =c ( 4 5 , 1 3 5 , 4 5 , 1 3 5 ) , c o l = " b l a c k " ) t e x t ( 1 . 4 , 3 0 , "A" , bg= " w h i t e " , c e x = 1 . 8 ) ; t e x t ( 1 . 4 , 7 8 , "B" , bg= " w h i t e " , c e x = 1 . 8 ) t e x t ( 1 . 4 , 9 0 , "AB" , bg= " w h i t e " , c e x = 1 . 8 ) ; t e x t ( 1 . 4 , 1 2 0 , " 0 " , bg= " w h i t e " , c e x = 1 . 8 ) p i e ( a b s o l u t , l a b e l s =c ( "A" , "B" , "AB" , " 0 " ) , r a d i u s = 1 . 0 , d e n s i t y =c ( 1 0 , 1 5 , 1 8 , 2 0 ) , a n g l e =c ( 4 5 , 1 3 5 , 4 5 , 1 3 5 ) , c o l = " b l a c k " , c e x = 1 . 7 )
Hierbei – wie bei allen Prozentangaben – muss die 100% entsprechende Anzahl der Gesamt- Stichprobenelemente, der Umfang der Stichprobe, im Diagramm selbst oder in der Legende vermerkt werden. 70
160
60
140
A
0
120
50
100 40
AB B
80
B
30 60 20
AB
40
A
10
20
0
0 A
B
AB
0
0 Blutgruppe
Abbildung 3.1: Balken- und Kreisdiagramm am Beispiel Blutgruppen im AB0-System
3.1 Häufigkeiten
77
3.1.5 Tabellen Die gemeinsame Häufigkeitsverteilung von zwei, an n Fällen beobachteten, Merkmalen wird in einer Tabelle (Schema in Tabelle 3.3) dargestellt. Dabei wird zwischen dem Zeilenmerkmal (r Ausprägungen) und dem Spaltenmerkmal (c Ausprägungen) unterschieden. Die beobachteten Häufigkeiten werden durch die Randsummen (Zeilen- und Spaltensummen) ergänzt. Tabelle 3.3: Tabellenschema für die Klassifikation nach zwei Merkmalen: Eine der beiden Merkmalsreihen dieser r·c-Tafel (row, column) kann auch als Stichprobenreihe aufgefasst werden hhh hhh Spaltenmerkmal hhh 1 2 ... j ... c Zeilensumme hhh Zeilenmerkmal h h 1 2 .. . i .. . r Spaltensumme
n11 n21 .. . ni1 .. . nr1 n.1
n12 n22 .. . ni2 .. . nr2 n.2
. . . n1j . . . n2j .. .. . . . . . nij .. .. . . . . . nrj . . . n.j
. . . n1c . . . n2c .. .. . . . . . nic .. .. . . . . . nrc . . . n.c
n1. n2. .. . ni. .. . nr. n..
Beispiel (Blutgruppen): Wird neben der Blutgruppe auch das Geschlecht der Personen erfasst, dann kann die gemeinsame Häufigkeitsverteilung der beiden Merkmale durch die folgende Tabelle dargestellt werden: X XXX Blutgruppe XX A B AB 0 Summe Geschlecht XXXX männlich 30 10 5 40 85 weiblich 39 7 2 22 70 Summe 69 17 7 62 155 Tabellen werden im Programm R in einer Matrix gespeichert. Die Bezeichnungen zu den Zeilenund Spaltenmerkmalen können durch einige spezielle Funktionen hinzugefügt werden. In dem Beispiel wird auch die Berechnung der relativen Häufigkeiten auf die Zeilen- und Spaltensummen (vgl. bedingte Häufigkeiten) mit den Funktionen margin.table() und prop.table() gezeigt. > > > >
a b s o l u t + + + + + + + + + + + + + + + + + +
t a u _GK 0 und
. P (A|B) = P (A|B)
Produktdefinition: Mathematiker bevorzugen anstelle von (4.27) die folgende Definition der stochastischen Unabhängigkeit: P (A ∩ B) = P (A) · P (B)
(4.28)
Insbesondere müssen hier die Fälle P (A) = 0 und P (B) = 0 nicht explizit ausgeschlossen werden. Die Ereignisse A und B sind somit voneinander stochastisch unabhängig, wenn die Wahrscheinlichkeit für ihr gleichzeitiges Eintreten gleich dem Produkt ihrer Wahrscheinlichkeiten ist. A ist von B genau dann stochastisch unabhängig, wenn auch B von A stochastisch unabhängig ist (Symmetrie der stochastischen Unabhängigkeit).
5
Beispiel: Die Produktdefinition der Stochastischen Unabhängigkeit, (4.28), lässt sich anhand eines Zweiwürfelexperimentes anschaulich machen. Wirft man zwei einwandfreie (unterscheidbare) Würfel, so ergibt sich für jede Kombination (1,1) (1,2) (2,1) . . . (3,1) . . . ... ... ... ... (6,1) . . .
(1,3) . . . ... ... ... ... ... ... ... ... ... ...
die Wahrscheinlichkeit
Die Wahrscheinlichkeit für die Augenzahlsumme 7 ergibt sich aus den Ereignissen 1 + 6, 6 + 1, 2 + 5, 5 + 2, 3 + 4, 4 + 3 (6 von 36 Möglichkeiten) als P (X = 7) = 6/36 = 1/6 [bei nicht unterscheidbaren Würfeln [d. h. z. B. (1,2) = (2,1)] gibt es nur 21 Ereignisse].
(1,6) (2,6) (3,6) ... ... (6,6)] 1 6
·
1 6
=
1 36 :
Stochastische Abhängigkeit und kausale Abhängigkeit sind zweierlei: erstere ist symmetrisch („voneinander abhängig“), dagegen hat die kausale Abhängigkeit stets eine Richtung. Aus der kausalen folgt notwendigerweise die stochastische Abhängigkeit, die damit Hinweise geben kann. Die Kennzeichnung der Eigenschaften eines Zufallsexperimentes lässt sich nun hinsichtlich des „nicht vorhersagbaren“ Ausgangs präzisieren: die Menge aller möglichen Ergebnisse ist bekannt, welches Ergebnis im konkreten Fall auftreten wird, kann nicht vorhergesagt werden, da es von den vorhergehenden Ergebnissen stochastisch unabhängig ist.
4.3 Bedingte Wahrscheinlichkeiten, stochastische Unabhängigkeit
177
Beispiel: Für die Ereignisse A und B gelten die Wahrscheinlichkeiten P (A) = 0,8, P (B) = 0,7 und P (A ∩ B) = 0,6. (1) Wir berechnen P (A|B), P (B|A), wenden (2) den Multiplikationssatz an und prüfen (3) beide Ereignisse auf stochastische Unabhängigkeit: 0, 6 6 P (A ∩ B) = = P (B) 0, 7 7 P (A ∩ B) 0, 6 6 P (B|A) = = = P (A) 0, 8 8
(1) P (A|B) =
(2) P (A ∩ B) = P (A) · P (B|A) = P (B) · P (A|B) 8 6 7 6 6 = · = · 0, 6 = 10 10 8 10 7 (3) P (A ∩ B) 6 10 P (A|B) 6 7
= P (A) · P (B) 8 7 56 = · = bzw. 10 10 100 = P (A) oder P (B|A) = P (B) 8 6 7 = = 10 8 10
Beachte: Für P (A) = a und P (B) = b gilt P (B|A) (a + b − 1)/a. P (A) = 0,8, P (B|A) > (0,8 + 0,7 − 1)/0,8 = 0,625 P (B) = 0,7 [vgl. P (B|A) = 6/8 = 0,75] Die Ereignisse A und B sind somit stochastisch abhängig. Das zeigt auch die folgende Wahrscheinlichkeitstabelle, deren „Diagonalprodukte“ (odds ratio) ungleich sind. ¯ B B A 0,60 0,20 0,8 Diagonalprodukte: 0, 60 · 0, 10 = 0, 20 · 0, 10 0, 6 · 0, 1 =1 bzw. A¯ 0,10 0,10 0,2 0, 2 · 0, 1 0,7 0,3 1 Für P (A ∩ B) = P (A) · P (B) = 0, 8 · 0, 7 = 0, 56 sind die Ereignisse A und B stochastisch unabhängig. ¯ B B A 0,56 0,24 0,8 Diagonalprodukte: 0, 56 · 0, 06 = 0, 24 · 0, 14 0, 56 · 0, 06 =1 bzw. A¯ 0,14 0,06 0,2 0, 24 · 0, 14 0,7 0,3 1
5
178
4 Wahrscheinlichkeiten
4.3.2.1 Stochastische Unabhängigkeit für drei und mehr Ereignisse Eine Familie Ai (i ∈ I = 1, . . . , n) von Ereignissen zu einer Indexmenge I, heißt (vollständig) unabhängig, wenn für jede Auswahl von Ereignissen die Wahrscheinlichkeit des Durchschnitts gleich dem Produkt der Einzelwahrscheinlichkeiten ist: P
1 j∈J⊆I
Aj = P (Aj )
(4.29)
j∈J
Für die stochastische Unabhängigkeit von drei Ereignissen lautet (4.28) dementsprechend P (A ∩ B ∩ C) = P (A) · P (B) · P (C)
(4.30)
Bei vollständiger stochastischer Unabhängigkeit kommen allerdings noch drei paarweise Gleichungen hinzu: P (A ∩ B) = P (A) · P (B) P (A ∩ C) = P (A) · P (C) P (B ∩ C) = P (B) · P (C)
(4.31)
n Ereignisse A1 , A2 , . . . , An mit n ≥ 2 heißen somit stochastisch unabhängig, wenn die Wahrscheinlichkeit für alle möglichen Durchschnitte gleich dem Produkt der Einzelwahrscheinlichkeiten ist, d. h., wenn für alle Kombinationen von 2 oder mehr Ereignissen die Produktregeln erfüllt sind (4.29). Sonst heißen sie stochastisch abhängig. Um die stochastische Unabhängigkeit für n Ereignisse zu definieren, sind somit 2n − n − 1
Gleichungen notwendig.
Für das aus n voneinander stochastisch unabhängigen Experimenten mit den Ereignissen Ai (i = 1,2, . . . , n) zusammengesetzte Ereignis gilt (4.32), vorausgesetzt P (Ai ) = P (Ai |Aj . . . Aq ) für alle i, j, . . . , q mit i = j = . . . = q. P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 ) · P (A2 ) · . . . · P (An )
5 5
(4.32)
Beispiel (Kinder): Eine Mutter von vier Jungen glaubt, dass ihr fünftes Kind ein Mädchen sein wird. Denn die Wahrscheinlichkeit, nacheinander 5 Knabengeburten zu erleben, ist [vgl. (4.32)] mit (1/2)5 = 1/25 = 1/32 = 0,03125 sehr gering. Die bedingte Wahrscheinlichkeit für die Geburt eines Knabens bzw. eines Mädchens beim Vorliegen von 4 Knaben ist jedoch ebenso groß wie die unbedingte Wahrscheinlichkeit und damit unverändert 1/2 und nicht 1/32. Beispiel: Unabhängige Ereignisse, die täglich mit der Wahrscheinlichkeit 0,99 bzw. 0,9999 eintreten, also als praktisch „sicher“ gelten können, sind an allen Tagen eines Jahres mit der Wahrscheinlichkeit 0,99365 = 0,0255 bzw. 0,9999365 = 0,9642 zu erwarten: diese Werte 2,6% und 96,4% differieren beträchtlich. Paarweise Unabhängigkeit: Ereignisse Ai (i ∈ I = 1, . . . , n) heißen paarweise unabhängig, wenn je zwei EreignisseAi , Aj , i = j, unabhängig sind. Die Unabhängigkeit der Ereignisse Ai impliziert die paarweise Unabhängigkeit, die Umkehrung gilt jedoch nicht! Hinweis: Paarweise Unabhängigkeit impliziert nicht Unabhängigkeit. Ebenso impliziert auch eine Tripelunabhängigkeit P (A ∩ B ∩ C) = P (A)P (B)P (C) nicht die vollständige Unabhängigkeit von A, B und C!
4.3 Bedingte Wahrscheinlichkeiten, stochastische Unabhängigkeit
179
4.3.2.2 Unvereinbarkeit und stochastische Unabhängigkeit Für die stochastische Unabhängigkeit zweier Ereignisse A und B gilt: P (A ∩ B) = P (A) · P (B). Für die Unvereinbarkeit zweier Ereignisse A und B gilt: A ∩ B = ∅, hieraus folgt P (A ∩ B) = 0. Die Unvereinbarkeit zweier Ereignisse schließt die stochastische Unabhängigkeit dieser Ereignisse aus: A und B sind unvereinbar bedeutet ja, dass A und B nicht gemeinsam auftreten können. Sie beeinflussen sich also gegenseitig. Tritt z. B. A ein, so tritt B nicht ein. I Für die Ereignisse A und B mit P (A) > 0 und P (B) > 0 gilt: Wenn A und . . stoch. unabh. unvereinbar B sind, dann können sie nicht sein. unvereinbar stoch. unabh. II Sind A und B unvereinbar und stochastisch unabhängig, dann ist P (A) = 0 oder P (B) = 0. 4.3.2.3 Ungleichungen nach Bonferroni Mit P (A ∪ B) = P (A) + P (B) − P (A ∩ B) und P (A ∪ B) ≤ 1 erhält man P (A) + P (B) − P (A ∩ B) ≤ 1(−1) −P (A) − P (B) + P (A ∩ B) ≥ −1 P (A ∩ B) ≥ P (A) + P (B) − 1 P (A ∩ B) P (A) + P (B) − 1
(4.33)
einen Spezialfall der Bonferroni-Ungleichung (Carlo Emilio Bonferroni, 1892-1960), die untere Grenze für die Wahrscheinlichkeit gemeinsamer Ereignisse ausgedrückt in Wahrscheinlichkeiten der Ereignisse (vgl. auch Abschnitt 4.2.3.1). Angenommen, zwei Ereignisse A und B mit P (A) = P (B) = 0,9 treten gemeinsam auf, dann ist die untere Grenze für diese Wahrscheinlichkeit P (A ∩ B) ≥ P (A) + P (B) − 1 = 0,9 + 0,9 − 1 = 0,8 . Für kleine Wahrscheinlichkeiten wird diese Bonferroni-Grenze negativ und damit wertlos. Die allgemeine Version der Bonferroni-Ungleichung lautet: n n P (A1 ∩ A2 ∩ . . . ∩ An ) ≥ 1 − i=1 (P (A¯i ) bzw. P (A1 ∩ A2 ∩ . . . ∩ An ) ≥ i=1 P (Ai ) − (n − 1) Sind die Ai voneinander stochastisch unabhängig, so gilt das Gleichheitszeichen und der Term (n − 1) entfällt. Die Ungleichungen von Bonferroni [vgl. auch (4.9)]: ⎞ ⎞ ⎛ ⎛ i=n i=n i2= n i0= n P ⎝ Ai ⎠ ≤ P (Ai ) und P ⎝ Ai ⎠ ≥ 1 − P (A¯i ) i=1 i=1 i=1 i=1
(4.34)
180
4 Wahrscheinlichkeiten
4.3.2.4 Bedingte Wahrscheinlichkeiten und Korrelation Für P (B|A)
> P (B) positiv sagt man: B und A sind korreliert < P (B) negativ
P (A ∩ B) = P (A) · P (B|A) = P (B) · P (A|B)
(4.35)
Obere und untere Grenzen für P (A ∩ B) in den Spezialfällen I und II sind: I Positive Korrelation P (A) · P (B) ≤ P (A ∩ B)≤ Min [P (A), P (B)]
(4.36)
II Negative Korrelation Max[O, P (A) + P (B) − 1] P (A ∩ B) P (A) · P (B)
(4.37)
Als Korrelationskoeffizient dient
¯ · P (B) · P (B) ¯ Korr(A, B) = [P (A ∩ B) − P (A) · P (B)]/ P (A) · P (A)
4.3.2.5 Dreizehn Beispiele zur stochastischen Unabhängigkeit
5 5 5 5
(1) Regelmäßiger Würfel: Wie gross ist die Wahrscheinlichkeit, mit drei regelmäßigen Würfeln 1 . Das ist auch die Wahrscheinlichzugleich dreimal die Sechs zu werfen? P = 61 · 16 · 16 = 216 keit, mit einem Würfel dreimal hintereinander die Sechs zu werfen. In einer langen Versuchsreihe werden im Durchschnitt nur einmal unter 216 Würfen alle drei Würfel gleichzeitig eine Sechs zeigen. (2) Lotterie: Angenommen, zwei Lotterien versehen 10% bzw. 20% ihrer Lose mit Gewinnen. Mit welcher Wahrscheinlichkeit gewinnt man in beiden zugleich? P = 0,10 · 0,20 = 0,02 = 2%. (3) Stochastisch unabhängige Ereignisse: Für zwei stochastisch unabhängige Ereignisse A und B gelte P (B|A) = 0,4 und P (B ∩ A) = 0,2. Wie groß sind die Wahrscheinlichkeiten P (A) und P (B)? P (B|A) = P (B) = 0,4 und P (B ∩ A) = P (B) · P (A) = 0,2, d. h. P (A) = 0,2/0,4 = 0,5. (4) Mehrfaches Werfen eines Würfels: Ein regelmäßiger Würfel wird viermal nacheinander geworfen. Wie groß ist die Wahrscheinlichkeit, mindestens eine Sechs zu erzielen? Ersetzt man „mindestens eine Sechs“ durch seine Negation „keine Sechs“, dann erhält man: die Wahrscheinlichkeit, mit einem Wurf keine Sechs zu werfen, ist 5/6, mit 4 Würfen beträgt sie (5/6)4 . Die Wahrscheinlichkeit, mit 4 Würfen mindestens eine Sechs zu erhalten, ist 1−(5/6)4 = 0,518, also etwas größer als 1/2. Das verspricht Vorteile, wenn man mit Geduld, Kapital und gutem Würfel auf das Erscheinen einer Sechs in 4 Würfen wettet. Entsprechend kann man für den Fall des Werfens zweier Würfel fragen, bei wie vielen Würfen es sich lohne, auf das Erscheinen einer Doppelsechs zu wetten. Die Wahrscheinlichkeit, in einem Spiel keine Doppelsechs zu erhalten, beträgt 35/36, da 36 gleich wahrscheinliche Fälle 1 − 1, 1 − 2, . . . , 6 − 6 vorhanden sind. Die Wahrscheinlichkeit, in n Würfen mindestens eine Doppelsechs zu erhalten, ist dann wieder gegeben durch P =1 − (35/36)n . P soll >0,5, sein, dass heißt (35/36)n 24,6. Wir setzen n lg(35/36)= lg 0,5 und erhalten
4.3 Bedingte Wahrscheinlichkeiten, stochastische Unabhängigkeit
n=
lg 0,5 0,6990 − 1 9,6990 − 10 −0,3010 = = = = 24,6 lg(35/36) lg 35 − lg 36 1,5441 − 1,5563 −0,0122
181
.
Man wird also auf das Erscheinen einer Doppelsechs in mindestens 25 Würfen wetten; die Wahrscheinlichkeit, eine Doppelsechs zu werfen, ist dann größer als 50%. (5) Der Chevalier de Méré (1607–1684) erwarb eine größere Geldsumme mit dem Abschluss der Wetten: bei viermaligem Würfeln wenigstens eine Sechs zu erhalten und verlor sie durch den Abschluss der folgenden: bei 24maligem Wurf mit zwei Würfeln mindestens eine Doppelsechs zu bekommen: 1 − (35/36)24 = 0,491 < 0,5 < 0,518 = 1 − (5/6)4 .
5
Die Wahrscheinlichkeit, mit zwei Würfeln in n Würfen wenigstens eine Doppelsechs zu werfen, beträgt: P (≥ 1 Doppelsechs) = 1 − [1 − ( 16 )2 ]n P = 0,4914 n = 24 mit für P = 0,5055 n = 25
Der Briefwechsel zwischen Pierre de Fermat (1601–1665) und Blaise Pascal (1623–1662), der vom Chevalier de Méré um die Lösung der oben erwähnten Probleme gebeten worden war, begründete im Jahre 1654 die Wahrscheinlichkeitsrechnung, die später durch Jakob Bernoulli (1654–1705) zu einer mathematischen Theorie der Wahrscheinlichkeit ausgebaut worden ist. (6) Treffsicherheit: Drei Geschütze mögen unabhängig voneinander auf dasselbe Flugzeug schießen. Jedes Geschütz habe die Wahrscheinlichkeit 1/10, unter den gegebenen Umständen zu treffen. Wie groß ist die Wahrscheinlichkeit, dass das Flugzeug getroffen wird? Erfragt wird die Wahrscheinlichkeit, mindestens einen Treffer zu erzielen. Die Wahrscheinlichkeit, dass kein Flugzeug getroffen wird, beträgt (9/10)3 . Für die Wahrscheinlichkeit, dass mindestens ein Treffer erfolgt, ergibt sich dann 271 729 = = 27,1% P = 1 − (9/10)3 = 1 − 1000 1000 28 (vgl. P = 1 − [9/10] = 94,8% oder P = 1 − [1/2]4 = 93,7%) Trefferwahrscheinlichkeiten: Die Wahrscheinlichkeit P für wenigstens einen Erfolg (Treffer) in n unabhängigen Versuchen jeweils mit der Erfolgswahrscheinlichkeit p ist nach (4.16) gegeben durch: P = 1 − (1 − p)n In der Tabelle 4.5 sind einige Trefferwahrscheinlichkeiten aufgeführt: Tabelle 4.5: Wahrscheinlichkeiten für mindestens einen Treffer p n P
1 0,010
5 0,049
p n P
2 0,098
0,05 5 10 0,226 0,401
p n P
0,30 5 10 0,832 0,972
0,01 10 15 0,096 0,140
15 0,537
0,50 5 10 0,969 0,999
30 0,260
50 0,395
2 0,040
5 0,096
0,02 10 15 0,183 0,261
2 0,190
0,10 5 10 0,410 0,651
15 0,794
5 0,672
0,75 2 5 0,937 0,999
0,90 2 3 0,990 0,999
30 0,455
50 0,636
0,20 10 15 0,893 0,965
30 0,999
5
182
4 Wahrscheinlichkeiten
Die relative Häufigkeit einer Krankheit K in der Bevölkerung betrage p = 0,01. Die Wahrscheinlichkeit, in Zufallsstichproben des Umfangs n = 30 wenigstens ein an K erkranktes Individuum zu finden, ist nach Tabelle 4.5 P = 0,26. (7) Geburtstagsproblem: Es werden 24 Personen nach einem Zufallsverfahren ausgewählt. Wie gross ist die Wahrscheinlichkeit, dass mindestens 2 Personen am selben Tage Geburtstag haben? Sie beträgt P = 0,538. Angenommen, das Jahr habe 365 als Geburtstag gleichwahrscheinliche Tage. Uns interessiere das Ereignis E, „keine 2 (von insgesamt n) Personen haben ¯ gibt es dann 365n mögliche und 365·364·363·. . . (365−n+1) denselben Geburtstag“. Für E günstige Fälle, d. h. die Wahrscheinlichkeit, dass in einer Gruppe von 24 Personen wenigstens 2 Personen am selben Tage Geburtstag haben, beträgt P (E) = 1 − P (E) = 1 −
365 · 364 · . . . 342 = 0,5383 36524
.
Die Abbildung 4.4 zeigt die Wahrscheinlichkeiten dafür, dass unter n=2, . . . , 24 Personen mindestens 2 am selben Tag im Jahr Geburtstag haben. 0.5 Wahrscheinlichkeit
5
0.4 0.3 0.2 0.1 0.0 2
4
6
8
10
12
14
16
18
20
22
24
Anzahl der Personen
Abbildung 4.4: Geburtstagsproblem: mindestens 2 Personen haben am selben Tag Geburtstag Zur schnellen Approximation dient auch P (E) 1 − e−k mit k =
n(n − 1) 2 · 365
(4.38)
24 · 23 = 0,7562 ; 1/e0,7562 = 0,4694 ; P (E) 0,5306 . 2 · 365 Mit anderen Worten, eine Wette, daß von 24 Personen mindestens 2 am selben Tag Geburtstag feiern, würde sich bei einer größeren Serie gleichartiger Wetten lohnen, da von 100 Wetten nur 46 verloren gingen, aber 54 gewonnen würden. Hierbei haben wir den 29. Februar ignoriert; außerdem ist unberücksichtigt geblieben, dass sich die Geburten in bestimmten Monaten häufen. Ersteres verringert die Wahrscheinlichkeit, letzteres erhöht sie: wäre jeder am 1.1. geboren, so resultierte P (E) = 1. Außerdem dürfen keine Zwillinge vorliegen.
z. B.
n = 24 , k =
P. Diaconis und F. Mosteller [DM89] geben eine analytische Lösung für das allgemeine Geburtstagsproblem an. Die Berechnung erfolgt in R mit der Funktion qbirthday(). Die folgende Tabelle zeigt die Anzahl n der Personen, unter denen mindestens k Personen am selben Tag mit einer Wahrscheinlichkeit von P >0,50 ihren Geburtstag haben. k n
2 23
3 88
4 187
5 313
6 460
7 623
8 798
4.3 Bedingte Wahrscheinlichkeiten, stochastische Unabhängigkeit
183
Bei jedem Fußballspiel - zwei Mannschaften und ein Schiedsrichter - werden mit einer Wahrscheinlichkeit von über 50% unter den n=23 Akteuren auf den Platz mindestens zwei denselben Geburtstag haben. (8) Urne: Eine Urne enthalte 15 rote und 5 schwarze Kugeln. E1 bedeute Ziehen einer roten, E2 Ziehen einer schwarzen Kugel. Wie groß ist die Wahrscheinlichkeit, in zwei aufeinanderfolgenden Ziehungen zuerst eine rote und dann eine schwarze Kugel zu erhalten? Die Wahrscheinlichkeit, eine rote Kugel zu ziehen, ist P (E1 ) = 15/20 = 3/4. Ohne die Kugel zurückzulegen, wird wieder gezogen. Die Wahrscheinlichkeit, eine schwarze Kugel zu ziehen, wenn rot gezogen war, ist P (E2 |E1 ) = 5/19 0,26. Die Wahrscheinlichkeit, in zwei Ziehungen ohne Zurücklegen eine rote und eine schwarze Kugel zu ziehen, ist P (E1 ) · P (E2 |E1 ) = 3/4 · 5/19 = 15/76 ≈ 0,20. (9) Krankheit: Zehn Prozent einer Bevölkerung seien in einem gegebenen Zeitraum im Durchschnitt von einer Krankheit befallen (P (E1 ) = 0,10). Von diesen Erkrankten mögen in der Regel 8% sterben (P (E2 |E1 ) = 0,08). Dann ist die Wahrscheinlichkeit für dieses Ereignis P = 0,08 eine bedingte Wahrscheinlichkeit (Bedingung: Erkrankung). Die Wahrscheinlichkeit dafür, dass eine Person der betrachteten Bevölkerung in einem gegebenen Zeitabschnitt erkrankt und an dieser Krankheit stirbt, ist dann P (E1 ∩ E2 ) = P (E1 ) · P (E2 |E1 ) = 0,1 · 0,08 = 0,008 = 0,8%. Der Mediziner würde in diesem Falle sagen: Die Morbidität der Krankheit ist 10%, die Letalität 8% und die Mortalität 0,8%; es ist also Mortalität = Morbidität · Letalität (Maßzahlen der Epidemiologie und die Standardisierungen IDR und SMR werden im Abschnitt Epidemiologie [4.6] vorgestellt).
5
5
Von einer anderen Krankheit mögen 20% infiziert sein (E1 ), davon mögen in einem bestimmten Zeitraum beispielsweise 30% erkranken (E2 ), von denen schließlich 5% sterben (E3 ). Dann ist die Mortalität gegeben durch P (E1 ∩ E2 ∩ E3 ) = P (E1 ) · P (E2 |E1 ) · P (E3 |E2 ) = 0,20 · 0,30 · 0,05 = 0,003 = 0,3%. Aus klinischen Statistiken lassen sich ohne Bezug auf die Bevölkerung keine Aussagen über Morbiditätsverhältnisse gewinnen (auch nicht über ihre Altersabstufung), da das Einzugsgebiet der Klinik, die Personenzahl, die auch von diesem Ereignis hätte betroffen sein können – Personen unter Risiko – meist unbekannt ist. (10) Operationen: Zwei voneinander unabhängige Operationen (A, B) werden jeweils mit den Wahrscheinlichkeiten 0,9 bzw. 0,8 überlebt; und zwar beide mit der Wahrscheinlichkeit P (A∩ B) = P (A) · P (B) = 0,9 · 0,8 = 0,72. Mindestens eine Operation wird dann mit P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = 0,9 + 0,8 − 0,72 = 0,98 überlebt und genau eine mit P (A ∪ B) − P (A ∩ B) = P (A) + P (B) − 2P (A ∩ B) = 0,9 + 0,8 − 2 · 0,72 = 0,26. (11) Stochastisch unabhängige Ereignisse: Zwei Ereignisse A und B seien stochastisch unabhängig voneinander. Sie treten mit den Wahrscheinlichkeiten P (A) = 0,6 und P (B) = 0,8 auf. Wie groß ist die Wahrscheinlichkeit, dass mindestens eines dieser beiden Ereignisse eintritt, d. h. dass entweder nur A oder nur B oder beide Ereignisse eintreten? Zwei Lösungsmöglichkeiten bieten sich an:
5 5
(1) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = P (A) + P (B) − P (A)P (B) = 0,6 + 0,8 − 0,6 · 0,8 = 0,92 ; ¯ (2) P (A ∪ B) = 1 − P („nicht beide“) = 1 − P (A¯ ∩ B) = 1 − P (A)P (B) = 1 − 0,4 · 0,2 = 0,92. (12) Kinder: Zwei Kinder versuchen unabhängig voneinander, eine bestimmte Aufgabe zu lösen, jeweils mit einer Wahrscheinlichkeit von 0,5. Die Wahrscheinlichkeit dafür, dass wenigstens eines der beiden Kinder die Aufgabe löst, ist mit den Ereignissen A: Kind I gelingt die Lösung, B: Kind II gelingt die Lösung,
5
184
4 Wahrscheinlichkeiten
C: wenigstens eines der beiden Kinder löst die Aufgabe und C = A ∪ B P (C) = P (A ∪ B) = P (A) + P (B) − P (A ∩ B), für stochastisch unabhängige Ereignisse A und B gilt P (A ∩ B) = P (A) · P (B), d.h. P (C) = P (A) + P (B) − P (A) · P (B) = 0,5 + 0,5 − 0,5 · 0,5 = 0,75.
5
(13) Brotsorten: In einer Gemeinde werden drei Brotsorten, A, B, C verzehrt, den Wahrscheinlichkeiten P (A) = 0,50 ;
P (B) = 0,40 ;
P (C) = 0,30 ;
P (A ∩ B) = 0,20 ; P (A ∩ C) = 0,15 ; P (B ∩ C) = 0,10 ; P (A ∩ B ∩ C) = 0,05 entsprechend. Die Wahrscheinlichkeiten dafür, dass ein Bewohner dieser Gemeinde die Brotsorte(n): 1. A oder B oder C verzehrt, 2. keine dieser Brotsorten verzehrt, 3. nur A verzehrt, 4. weder B noch C verzehrt, 5. B und C nur gemeinsam verzehrt, 6. höchstens zwei der Brotsorten verzehrt, sind dann: (1) P1 = P (A ∪ B ∪ C) = P (A)+P (B) + P (C) − P (A ∩ B) − P (A ∩ C) −P (B ∩ C) + P (A ∩ B ∩ C) = 0,50 + 0,40 + 0,30 − 0,20 − 0,15 − 0,10 + 0,05 = 0,80 (2) P2 = 1 − P (A ∪ B ∪ C) = 1 − 0,80 = 0,20 (3) P3 = P (A)−P (A ∩ B)−P (A ∩ C)+P (A ∩ B ∩ C) = 0,50−0,20−0,15+0,05 = 0,60 (4) P4 = 1−P (B ∪ C) = 1−P (B)−P (C)+P (B ∩ C) = 1−0,40−0,30+0,10 = 0,40 (5) P5 = P (B ∩ C)−P (A ∩ B ∩ C) = 0,10−0,05 = 0,05 (6) P6 = 1−P (A ∩ B ∩ C) = 1−0,05 = 0,95.
4.4 Bayessches Theorem • Pfadregel und das Bayessche Theorem • Beispiele zum Bayesschen Theorem Bezeichnen wir mit K eine spezielle Krankheit, mit F eine Frau und mit M einen Mann, dann ist die Erkrankungswahrscheinlichkeit für einen aus der Bevölkerung zufällig ausgewählten Erwachsenen: P (K) = P (F ) · P (K|F ) + P (M ) · P (K|M )
(4.39)
Es ist danach davon auszugehen, dass in der Bevölkerung der Anteil der Männer und Frauen nicht gleich ist und dass auch die Wahrscheinlichkeit für das Vorliegen der Krankheit bei Männern und Frauen unterschiedlich ist. Die Frage, mit welcher Wahrscheinlichkeit auf das Vorliegen der Krankheit geschlossen werden kann, wenn das Geschlecht bekannt ist, kann mit dem Bayesschen Theorem beantwortet werden.
4.4 Bayessches Theorem
185
Die totale Wahrscheinlichkeit:
Abbildung 4.5: Zerlegung der Ergebnismenge S in disjunkte Teilmengen •
Die Ai bilden eine disjunkte Zerlegung von S (vgl. Abb. 4.5); man spricht von einer totalen Ereignisdisjunktion der Ai . • Die Ai ∩ E bilden eine disjunkte Zerlegung von E. • Dann gilt P (E) = P (Ai ∩E) und unter Anwendung des Multiplikationssatzes i
erhält man die totale Wahrscheinlichkeit des Ereignisses E P (E) =
i
P (Ai ∩ E) =
i
P (Ai ) · P (E|Ai )
(4.40)
Angenommen, das Ereignis E kann nur unter n sich gegenseitig ausschließenden Umständen Ai eintreten, dann zeigt (4.40), wie sich die Totale Wahrscheinlichkeit des Ereignisses E als Summe von Produkten aus den Wahrscheinlichkeiten der verschiedenen Umstände und den entsprechenden bedingten Wahrscheinlichkeiten ergibt. Uns interessiere der Umstand oder das Ereignis Ak , das in Verbindung mit dem Ereignis E auftrete. Dann gilt die bedingte Wahrscheinlichkeit P (Ak |E) =
P (Ak ∩ E) P (E)
Wenden wir auf den Zähler den Multiplikationssatz an und auf den Nenner die „Totale Wahrscheinlichkeit“, dann erhalten wir auch anhand des Pfaddiagramms auf Seite 186 das Bayessche Theorem: P (Ak ) · P (E|Ak ) P (Ak |E) = n P (Ai ) · P (E|Ai )
(4.41)
i=1
Die Ereignisse A1 , A2 , . . . An schließen sich gegenseitig aus, indem sie eine vollständige Zerlegung von S darstellen. Tritt nun eines dieser Ereignisse, sagen wir Ak , in Verbindung mit dem Ereignis E auf, das ebenfalls zu S gehört, wobei P (E) > 0 gilt, dann kann nach dem Bayesschen Theorem die Wahrscheinlichkeit P (Ak |E) (nach 4.41) berechnet werden. Mit P (E ∩ A) = P (E) · P (A|E) = P (A) · P (E|A) erhält man P (A|E) = P (E|A)
P (A) · P (E|A) P (A) = P (E) P (E)
(4.42)
186
4 Wahrscheinlichkeiten
die so genannte spezielle Bayes-Formel; (4.41) heißt dagegen auch allgemeine Bayes-Formel. Der Schluss nach Bayes von einem Symptom S auf die Krankheit K (einfachster Fall: 2 Er¯ gegeben: P (K), P (S|K) und P (S|K): ¯ eignisse K und K), P (K|S) =
P (K) · P (S|K) ¯ · P (S|K) ¯ P (K) · P (S|K) + P (K)
(4.43)
Die Wahrscheinlichkeit P (K) wird als „a-priori“ Wahrscheinlichkeit für K bezeichnet. P (K|S) als die „a-posteriori“ Wahrscheinlichkeit für K [vgl. auch den Abschnitt zum diagnostischen Test]. Im Rückblick wird anhand von Wahrscheinlichkeiten eine bestimmte Situation eingeschätzt. Aus der Wahrscheinlichkeit an K zu erkranken und den Wahrscheinlichkeiten, das betreffende Symptom aufzuweisen – und zwar im Krankheitsfall und („lästigerweise“) auch im NichtKrankheitsfall – wird die Wahrscheinlichkeit berechnet, dass beim Vorliegen eines Symptoms auch die Krankheit vorhanden ist, wird vom Symptom auf die Krankheit geschlossen (wird aus Erfahrung gelernt). 4.4.1 Bayessches Theorem und Pfadregel (1) Die Wahrscheinlichkeit eines Pfades ergibt sich als Produkt der Einzelwahrscheinlichkeiten längs des Pfades. (2) Die Wahrscheinlichkeit eines Ereignisses ergibt sich als Summe der Wahrscheinlichkeiten aller Pfade, die zu dem Ereignis führen [(4.44)].
Abbildung 4.6: Pfadregel und Bayessches Theorem I. Die Wahrscheinlichkeit, vom Start nach E zu gelangen, ist P (E) =
n
P (Ai ) · P (E|Ai )
(4.44)
i=1
II. Angenommen, ich gelange über Ak nach E, dann ist diese Wahrscheinlichkeit wieder (4.41): P (Ak ) · P (E|Ak ) P (Ak |E) = n P (Ai ) · P (E|Ai ) i=1
4.4 Bayessches Theorem
187
4.4.2 Acht Beispiele zum Bayesschen Theorem (1) Brückenbau nach erfolgreicher Bewerbung: Drei Personen bewerben sich um ein öffentliches Amt. Eine Meinungsumfrage ergebe die individuellen Wahlchancen 0,25, 0,35 und 0,40. Die Chancen, dass die Drei nach ihrer Wahl einen Brückenbau durchsetzen, betragen 0,60, 0,90 und 0,80. Wie groß ist die Wahrscheinlichkeit, dass die Bevölkerung nach der Wahl die Brücke erhält? Die Wahlchancen sind: P (A1 ) = 0,25 P (A2 ) = 0,35 P (A3 ) = 0,40 Die Chancen für den Brückenbau sind: P (B|A1 ) = 0,60 P (B|A2 ) = 0,90 und P (B|A3 ) = 0, 80; dann ist die totale Wahrscheinlichkeit für den Brückenbau: P (B) =
3
5
P (Ai )P (B|Ai ) = 0,25 · 0,60 + 0,35 · 0,90 + 0,40 · 0,80 = 0,785.
i=1
(2) Karotten aus drei Gärtnereien: Ein Gemüsehändler erhalte Karotten aus drei Gärtnereien: 50% stamme aus A1 , 30% aus A2 und 20% aus A3 . Der Händler weiß, daß A1 1 % Ausschuß liefert, A2 3% und A3 4%. Wie viel Prozent Ausschuss sind zu erwarten?
5
Mit P (A1 ) = 0,5, P (A2 ) = 0,3 und P (A3 ) = 0,2 und P (E|A1 ) = 0,01, P (E|A2 ) = 0,03 sowie P (E|A3 ) = 0,04 ergibt sich insgesamt P (E) = 0,5·0,01+0,3·0,03+0,2·0,04 = 0,022 ein Ausschussanteil von 2,2%. (3) Krankheit: In einer bestimmten Grundgesamtheit mit 60% Frauen (F ) und 40% Männern (F¯ ) leiden 10% der Frauen und 3% der Männer an der Krankheit K. Wie groß ist die Wahrscheinlichkeit dafür, dass (a) eine zufällig ausgewählte Person an K leidet, (b) diese Person eine Frau bzw. (c) ein Mann ist? P (F ) = 0,6 P (F¯ ) = 0,4 P (K|F ) = 0,1 P (K|F¯ ) = 0,03
5
(a) P (K)= P (F ) · P (K|F ) + P (F¯ ) · P (K|F¯ ) = 0,6 · 0,1 + 0,4 · 0,03 = 0,06 + 0,012 = 0,072, P (F ) · P (K|F ) 0,06 = = 0,833 = 1 − P (F |K) P (K) 0,072 P (F¯ ) · P (K|F¯ ) 0,012 (c) P (F¯ |K) = = = 0,167 = 1 − P (F |K) . P (K) 0,072 (b) P (F |K) =
(4) Terrorismus im Flugverkehr: Auf dem Flughafen werden alle Passagiere vorsorglich kontrolliert. Ein Terrorist werde mit P (F |T ) = 0,98 festgenommen, ein Nicht-Terrorist mit P (F |T¯) = 0,001. Jeder hunderttausendste Flugpassagier sei ein Terrorist, P (T ) = 0,00001. Wie groß ist die Wahrscheinlichkeit, dass eine Festnahme tatsächlich einen Terroristen erbringt? 0,00001 · 0,98 P (T ) · P (F |T ) = 0,00001 · 0,98 + 0,99999 · 0,001 P (T ) · P (F |T ) + P (T¯) · P (F |T¯) 98 = 0,0097 < 0,01 = 10098
P (T |F ) =
Trotz der Zuverlässigkeit der Kontrollen erfolgen somit über 99% aller Festnahmen zu Unrecht.
5
188
5
4 Wahrscheinlichkeiten
(5) Herkunft von Ausschussware I: Zwei Maschinen A und B produzieren Teekessel desselben Typs; A liefert 60%, B 40% der Produktion. Der Anteil einwandfreier (E) Teekessel betrage für A 99%, für B 95%. Aus der Gesamtproduktion wird anhand einer Zufallszahl Z der Z-te Teekessel ausgewählt. Wie groß ist die Wahrscheinlichkeit, dass dieser Teekessel A bzw. B entstammt, wenn er (a) einwandfrei oder (b) defekt ist? Gegeben sind somit P (A) = 0,6 und P (B) = 0,4 sowie P (E|A) = 0,99 und P (E|B) = ¯ ¯ 0,95 [und damit P (E|A) = 1 − 0,99 = 0,01 und P (E|B) = 1 − 0,95 = 0,05]. Gesucht ¯ und P (B|E). ¯ werden (a) P (A|E) und P (B|E) sowie (b) P (A|E) (a) P (A|E) =
P (A) · P (E|A) 0,6 · 0,99 = = 0,610 P (A) · P (E|A) + P (B) · P (E|B) 0,6 · 0,99 + 0,4 · 0,95
P (B|E) = 1 − P (A|E) = 1 − 0,610 = 0,390 ¯ 0,6 · 0,01 P (A) · P (E|A) ¯ ¯ = 0,6 · 0,01 + 0,4 · 0,05 = 0,231 P (A) · P (E|A) + P (B) · P (E|B ¯ = 1 − P (A|E) ¯ = 1 − 0,231 = 0,769. P (B|E)
¯ = (b) P (A|E)
5
(6) Herkunft von Ausschussware II: Zwei Maschinen einer Firma seien zu 10% und 90% an der Gesamtproduktion eines bestimmten Gegenstandes beteiligt. Angenommen, die Wahrscheinlichkeit, dass die erste Maschine (M1 ) Ausschuss produziert, sei 0,01 und die Wahrscheinlichkeit, dass die zweite Maschine (M2 ) Ausschuss liefert, sei 0,05. Wie groß ist die Wahrscheinlichkeit, dass ein zufällig der Tagesproduktion entnommener Gegenstand von M1 stammt, vorausgesetzt, dass es sich um ein Ausschussprodukt handelt? Es sei E = das Ereignis, dass ein Gegenstand Ausschussware ist, A1 das Ereignis, dass er von M1 hergestellt worden ist, und A2 , dass er von M2 stammt, d. h. P (M1 | Ausschuss) = P (A1 |E): P (A1 |E) =
5
0,10·0,01 1 P (A1 )·(P (E|A1 ) = = 0,022. P (A1 )·P (E|A1 )+P (A2 )·P (E|A2 ) 0,10·0,01+0,90·0,05 46
(7) Aus welcher Urne entnommen? Angenommen, es liegen zwei Urnen vor. Die Wahrscheinlichkeit, Urne I zu wählen, betrage 1/10; für Urne II beträgt sie dann 9/10. Nehmen wir weiter an, die Urnen enthalten schwarze und weiße Kugeln: Urne I enthalte zu 70% schwarze Kugeln, Urne II zu 40%. Wie gross ist die Wahrscheinlichkeit, dass eine mit verbundenen Augen entnommene schwarze Kugel der Urne I entstammt? E = das Ereignis, dass die Kugel schwarz ist, A1 = das Ereignis, dass sie aus Urne 1 entnommen ist, und A2 , dass sie aus Urne II stammt. P (aus Urne I|schwarz) =
0,10 · 0,70 = 0,163 0,10 · 0,70 + 0,90 · 0,40
Das heißt, nach vielen Versuchen wird man in 16,3% aller Fälle, in denen man eine schwarze Kugel zieht, mit Recht auf die Herkunft aus Urne I schließen.
5
(8) Durchleuchtung der Brust mit Röntgenstrahlen: Nehmen wir an, die Verlässlichkeit einer Durchleuchtung der Brust mit Röntgenstrahlen zur Entdeckung einer Tbc betrage für TbcTräger 90%, d. h. 10% der Tbc-Träger bleiben bei der Untersuchung unerkannt; für Tbc-freie Personen betrage sie 99%, d. h. 1 % der Tbc-freien Personen werden fälschlich als Tbc-Träger diagnostiziert.
4.5 Der diagnostische Test
189
Aus einer großen Bevölkerung mit 0,1 % Tbc-Fällen sei eine Person durchleuchtet und als Tbc-Träger eingestuft worden. Wie groß ist die Wahrscheinlichkeit, dass diese Person eine Tbc hat? Gesucht wird somit P (Tbc-Träger bei positivem Röntgentestbefund) = P (Tbc|T+ ) :
!
d. h. wir finden, dass von den röntgenologisch als Tbc-Träger eingestuften nur gut 8% wirklich eine Tbc aufweisen. Mit P = 0,0826 oder 0,083 (a posteriori) ist man jetzt aufgrund der Erfahrung gegenüber P = 0,001 (a priori) 83mal sicherer als vorher.
4.5 Der diagnostische Test • • • • •
Sensitivität und Spezifität Positiver und negativer Voraussagewert ROC - Analyse Der Likelihoodquotient Entscheidungsanalyse nach A.J. Vickers
!
"!
# $ % &
$ " '
Abbildung 4.7: Ziel eines diagnostischen Tests Aufgrund eines diagnostischen Tests, der positiv (T+ ) oder negativ (T− ) ausfallen kann, wird auf die Existenz einer bestimmten Krankheit (K) geschlossen bzw. angenommen, die Krankheit K ¯ Wichtige bedingte Wahrscheinlichkeiten, die die Brauchbarkeit eines diagnoliege nicht vor (K). stischen Tests zur Erkennung einer Krankheit, eines vorliegenden speziellen Befundes, charakterisieren, sind: ¯ der Anteil negativer Testergebnisse unter den Gesunden. (1) Spezifität: P (T − |K), (2) Sensitivität: P (T + |K), der Anteil positiver Testergebnisse unter den Kranken.
190
4 Wahrscheinlichkeiten
¯ − ), der Anteil der Gesunden unter den Personen mit ne(3) Negativer Voraussagewert: P (K|T gativem Testergebnis. (4) Positiver Voraussagewert: P (K|T + ), der Anteil der Kranken unter den Personen mit positivem Testergebnis. Diese Wahrscheinlichkeiten – sie sollten möglichst nahe bei 1 liegen – lassen sich aus umfangreichen Stichproben schätzen. Hierzu benutzt man das Vierfelderschema in Tabelle 4.6. Tabelle 4.6: Vierfelderschema zum diagnostischen Test
Ist der diagnostische Test ideal, so gilt a+d=n [„Konkordanzrate“ (a+d)/n ≤ 1]. F N (oder b) seien die aufgrund des Tests falsch negativ eingestuften Personen, F P (oder c) die falsch positiv eingestuften. Anhand einer Zufallsstichprobe des Umfangs n lässt sich zunächst der Anteil an K erkrankter in der Grundgesamtheit durch die Prävalenz (a+b)/n schätzen. Für großes n erhält man die entsprechende Wahrscheinlichkeit P (K) [vgl. Punkt (1) in Übersicht 10]. Entsprechend erhält man auch die bedingten Wahrscheinlichkeiten (2) und (3), die Wahrscheinlichkeit, dass ein Kranker ein positives Testergebnis aufweist, wird Sensitivität des Tests genannt, die Wahrscheinlichkeit, dass ein Nicht-Kranker ein negatives Testergebnis aufweist, wird Spezifität genannt; beide Wahrscheinlichkeiten sollten möglichst groß sein, jedenfalls deutlich größer als 0,7. Eine zusammenfassende Maßzahl zur Beurteilung der Güte eines diagnostischen Tests ist der Youden-Index (W.J. Youden [You50]), der für einen „guten“ Test, d. h. mit hoher Sensitivität und hoher Spezifität, nahe bei Eins liegt: Youden-Index:
¯ − 1 = Sensitivität + Spezifät − 1 J = P (T + |K) + P (T − |K)
Übersicht 10: Diagnostischer Test: Prävalenz, Sensitivität und Spezifität Begriff
relative Häufigkeit
für großes −−n −→
Wahrscheinlichkeit
(1)
Prävalenz
a+b n
P (K)
(2)
Sensitivität
a a+b
P (T + |K)
(3)
Spezifität
d c+d
¯ P (T − |K)
(4.45)
4.5 Der diagnostische Test
191
Aus den Wahrscheinlichkeiten (1) bis (3) der Übersicht 10 lassen sich anhand des Satzes nach Bayes so genannte Voraussagewerte (4) und (5) berechnen - den prädiktiven Wert eines: •
positiven Testresultates, die Wahrscheinlichkeit P (K|T + ), ¯ − ). • negativen Testresultates, die Wahrscheinlichkeit P (K|T Voraussagewert eines positiven Testergebnisses: P (K|T + ) = = =
(Prävalenz) · (Sensitivität) (Präv.) · (Sens.) + (1-Präv.) · (1-Spez.) P (K) ·
P (K) · P (T + |K) ¯ + ([1 − P (K)] · [1 − P (T − |K)]
P (T + |K)
(4.46)
P (K) · P (T + |K) ¯ · P (T + |K) ¯ P (K) · P (T + |K) + P (K)
Voraussagewert eines negativen Testergebnisses: (1-Prävalenz) · (Spezifität) (1-Präv.) · (Spez.) + (Präv.) · (1-Sens.) ¯ ¯ · P (T − |K) P (K) = ¯ · P (T − |K) ¯ + P (K) · [1 − P (T + |K)] P (K)
¯ T¯) = P (K|
=
(4.47)
¯ ¯ · P (T − |K) P (K) ¯ · P (T − |K) ¯ + P (K) · P (T − |K) P (K)
Der Anteil richtiger Testresultate ist dann die entscheidende Resultatvalidität: ¯ −) 2 P (K|T + ) + P (K|T
(4.48)
Beachtet sei der Unterschied zwischen der aus Sensitivität und Spezifität gebildeten „Testva¯ und der bedeutungsvolleren „Resultatvalidität“ lidität“ (Youden-Index) P (T + |K) + P (T − |K) ¯ − ). P (K|T + ) + P (K|T Übersicht 11: Diagnostischer Test: Voraussagewerte und Resultatvalidität Begriff (1)
Voraussagewert eines positiven Tests
(2)
Voraussagewert eines negativen Tests
(3)
Anteil richtiger Resultate
relative Häufigkeit
für großes −−n −→
Wahrscheinlichkeit
a a+c
P (K|T + )
d b+d
¯ −) P (K|T
d a + a+c b+d
¯ −) P (K|T + ) + P (K|T
192
4 Wahrscheinlichkeiten
Hinweise: (1) Die Prävalenz P (K) wird anhand einer Zufallsstichprobe aus der Bevölkerung geschätzt. Diese Wahrscheinlichkeit P (K) wird als a-priori-Wahrscheinlichkeit für K bezeichnet. P (K|X) als die a-posteriori-Wahrscheinlichkeit für K, z. B. P (K|T + ). (2) P (K|T + ), der positive prädiktive Wert eines diagnostischen Tests, der Voraussagewert eines positiven Tests, ist die Wahrscheinlichkeit, die Krankheit K aufzuweisen, wenn der Test positiv (T + ) ausfällt: P (K|T + ) = P (K ∩T + )/P (T + ). Dieser Wert sollte wie der Voraussa¯ − ) = P (K ¯ ∩ T − )/P (T − ) gewert eines negativen Tests, der negative prädiktive Wert P (K|T möglichst nahe bei Eins liegen.
positiver / negativer Voraussagewert
(3) Beachtet sei, daß P (K|T + ) mit zunehmender Prävalenz ebenfalls zunimmt [vgl. (4.46]; ¯ − ) nimmt natürlich mit abnehmender Prävalenz zu [vgl. (4.47)]. Dieser ZusammenP (K|T hang ist in Abbildung 4.8 für einen Test mit hoher Sensitivität und hoher Spezifität dargestellt (siehe auch Tabelle 4.7). 1.0
0.8
0.6
positiver Voraussagewert negativer Voraussagewert
0.4
0.2
0.0 0.0
0.2
0.4
0.6
0.8
1.0
Prävalenz
Abbildung 4.8: Positiver und negativer Voraussagewert in Abhängigkeit von der Prävalenz: Sensitivität = 0,99 und Spezifität = 0,97 Sind beim Vorliegen einer ernsten Krankheit falsch positive Testergebnisse zu erwarten, die: (a) nicht zu sehr irritieren, dann sollte die Sensitivität des Tests, die ja der Power entspricht, größer sein als die Spezifität, (b) stark irritieren, dann sollte die Spezifität möglichst hoch sein, (c) ebenso stark irritieren wie eine unterlassene Behandlung aufgrund falsch negativer Testergebnisse, dann sollten beide Maße etwa gleichgroß sein (vgl. die folgenden Beispiele und Tabelle 4.7). Kann der Arzt die Krankheit nur lindern, so sollte die Spezifität hoch sein.
5
Beispiel: Von 10000 Personen weisen 150 die Krankheit K auf; bei 130 von den 150 Personen ist der Test positiv ausgefallen. Wie groß ist (a) die Sensitivität und (b) der positive Voraussagewert ¯ = 0,940 und damit P (T + |K) ¯ = 0,060]? des Tests [gegeben sei seine Spezifität P (T − |K) (a) P (T + |K) =
130/10 000 P (T + ∩ K) = = 0,8667 P (K) 150/10 000
In knapp 87% aller Fälle ist zu erwarten, dass der Test positiv ausfällt, vorausgesetzt, die Krankheit K liegt vor.
4.5 Der diagnostische Test
193
0,015·0,8667 P (K)·P (T |K) ¯ ¯ = 0,015·0,8667+0,985·0,060 P (K)·P (T + |K)+P (K)·P (T + |K) = 0,1803 +
(b) P (K|T + )=
In 18 % aller Fälle ist zu erwarten, dass die Krankheit K vorliegt, vorausgesetzt, der Test ist positiv ausgefallen. Tabelle 4.7: Positiver und negativer Voraussagewert eines diagnostischen Tests Prävalenz P (K) 0,0001 0,001 0,01 0,10 0,50 0,90
Se = Sp = 0, 95 ¯ −) P (K|T + ) P (K|T 0,0019 ≈1 0,019 ≈1 0,161 0,9995 0,679 0,994 0,950 0,950 0,994 0,679
Se = Sp = 0, 99 ¯ −) P (K|T + ) P (K|T 0,0098 ≈1 0,090 ≈1 0,500 0,9999 0,917 0,999 0,990 0,990 0,999 0,917
¯ = Sp] des Die Gleichheit von Sensitivität [P (T + |K) = Se] und Spezifität [P (T − |K) diagnostischen Tests wird auf zwei hohen Niveaus angenommen; P ≈ 1 bedeutet P > 0,9999
Beispiel (Reihenuntersuchung): Nach (4.46) und (4.47) ergeben sich die folgenden prädiktiven Werte oder Voraussagewerte für eine Sensitivität und Spezifität von jeweils 0,95 und einer Prävalenz von 0,005 bzw. 0,05 bzw. 0,5: 3 P (K) =
0,005 0,05 0,5
4
3 : P (K|T ) = +
0,0872 0,5000 0,9500
4
3 ¯ −) = und P (K|T
0,9997 0,9972 0,9500
4
Rechnet man somit in einer Reihenuntersuchung mit der Prävalenz einer Krankheit K von einem halben Prozent, dann beträgt der Aussagewert eines positiven Testergebnisses knapp 9%. Die Wahrscheinlichkeit dafür, dass bei einem Patienten trotz eines positiven Testresultates die Krankheit K nicht vorliegt, beträgt dann gut 91% (1-0,0872). Bei negativem Testresultat lässt sich dann K mit Sicherheit (99,97%) ausschließen. Weitere Beispiele sind in Tabelle 4.7 zusammengestellt. So ergibt sich nach (4.46) und aus Tabelle 4.7 für P (K) = 0,001 und bei Gleichheit von Sensitivität und Spezifität (= 0,95), dass bei einer so seltenen Krankheit nur knapp 2% aller Probanden mit positivem Testergebnis die Krankheit K wirklich aufweisen. Zur Ausbreitung von Krankheiten: Das Problem der Verbreitung von (Infektions-) Krankheiten aufgrund falsch negativer Testresultate stellt sich insbesondere bei der Kontrolle von Blutkonserven (z. B. HIV oder Hepatitis), aber auch bei der Lebensmittelkontrolle aus industrieller Herstellung oder bei dem Import von Zucht- oder Schlachtvieh. Die Wahrscheinlichkeit dafür, dass unter n Fällen (Proben, Personen, Tieren) mindestens ein Fall falsch negativ befundet und somit „über¯ T¯)) (vgl. (4.47)) sehen“ wird, kann mit Hilfe des negativen Voraussagewertes (N P V = P (K| berechnet werden (N. Marchevsky et al. [MHGC89]): P (c > 1|N ) = 1 − P (c = 0|N ) = 1 − [N P V ]n
(4.49)
N bezeichnet die Anzahl negativer Befunde, darunter c falsch negativ, bei insgesamt n Untersuchungen. In der Tabelle 4.8 sind einige Werte in Abhängigkeit von der Sensitivität des Testverfahrens (Spezifität 100%), der Prävalenz und der Gesamtzahl der Untersuchungen aufgeführt.
5
194
4 Wahrscheinlichkeiten
Tabelle 4.8: Wahrscheinlichkeit für mindestens einen falsch negativen Befund bei n Untersuchungen für ausgewählte Sensitivitäten eines Testverfahrens und unterschiedlichen Prävalenzen (Spezifität 100%) Sensitivität 0.90 0.95 0.99
Prävalenz 0.02 0.01 0.02 0.01 0.02 0.01
500 63.9 39.6 39.9 22.3 9.7 4.9
Anzahl n 1000 2000 87.0 98.3 63.6 86.7 63.9 87.0 39.6 63.6 18.5 33.5 9.6 18.3
5000 100.0 99.4 99.4 92.0 64.0 39.7
Für n=1000 (5000) Proben aus einem Gebiet (Population) mit einer Prävalenz von 0,01, für die ein Test mit der Sensitivität 0,95 (95%) und der Spezifität von 1,0 (100%) eingesetzt wurde, ist die Wahrscheinlichkeit für mindestens ein falsch negatives Ergebnis 39,6% (92,0%). Setzt man für die Spezifität einen realistischen Wert von z. B. 90% an, dann erhöht sich diese Wahrscheinlichkeit auf 42,9% (93,9%). Die Berechnungen können einfach durch die folgenden R-Befehle nachvollzogen werden. > p f n p f n ( n=c ( 1 0 0 0 , 5 0 0 0 ) , prev = 0 . 0 1 , s e n s = 0 . 9 5 , s p e c = 0 . 9 ) [1] 42.9 93.9
4.5.1 ROC - Analyse
120 100 80 60 40
Blutzucker [mg/dl]
140
160
Das Ergebnis eines diagnostischen Tests ist häufig eine kontinuierliche (quantitative) Messgröße (physikalische Messungen, Ergebnisse aus klinisch-chemischen Verfahren). Eine „natürliche“ Grenze zwischen „pathologisch“ und “normal“ gibt es in der Regel nicht. Sensitivität und Spezifität sind somit abhängig von der Festlegung eines geeigneten Trennwertes („cut off value“), der den Anteil falsch positiver und/oder falsch negativer Entscheidungen möglichst gering hält. Eine „optimale“ Trenngröße ist somit abhängig von den Risiken falscher Entscheidungen. Abbildung 4.9 zeigt die 30 20 10 0 10 20 30 Verteilung für den Nüchternblutzucker im Diabetiker Kontrollen Histogramm für Diabetiker und gesunde Kontrollpersonen mit einem Trennwert Abbildung 4.9: Nüchternblutzucker [mg/dl] bei Diabetikern und gesunden Kontrollpersonen bei 100[mg/dl].
4.5 Der diagnostische Test
195
Eine häufig eingesetzte Methode zur Festlegung eines objektiven Trennwertes ist das ROCVerfahren („receiver operating characteristic“). Dazu werden über den Definitionsbereich der Messgröße in diskreten Schritten möglichst viele (abhängig von der Anzahl der Messungen) Werte durchlaufen und die zugehörigen Sensitivitäten und Spezifitäten berechnet (Abbildung 4.10). Das Ergebnis wird in einem speziellen Diagramm, der sogenannten ROC-Kurve, aufgezeichnet. Ein optimaler Trennwert (cut-point) ist insbesondere der Wert, für den Sensitivität und Spezifität möglichst hoch liegen (linke obere Ecke in Abbildung 4.10). Dazu kann eine Tangente an die ROC-Kurve parallel zu der Diagonalen (Winkelhalbierende) gelegt werden, die einen Wert mit maximalem Abstand von der Diagonalen festlegt (Berührungspunkt). Rechnerisch ergibt sich ein optimaler Trennwert c aus dem maximalen Youden-Index (4.45); vgl. E.F. Schisterman et al. [SPLB05]: Jc = max (Sensitivität(c) + Spezifität(c) − 1) In dem Beispiel für den Nüchternblutzucker gilt dieses für den Wert 100mg/dl, der zu einer Sensitivität von 85% und zu einer Spezifität von 81% führt. Ein Test trennt insgesamt um so besser, je größer die Fläche unter der ROC-Kurve ist. Diese ist maximal 1 bei einer 100%igen Sensitivität und Spezifität. Sie ist 0,5, wenn eine Trennung nicht möglich ist, d.h. wenn die ROCKurve entlang der Diagonalen verläuft. In dem Beispiel (Abbildung 4.10) ist die Fläche unter der Kurve (Area Under Curve, AUC) 0,885. Hinweis: Werden durch falsch positive und falsch negative Testentscheidungen unterschiedliche „Kosten“ (Risiken) verursacht, dann müssen bei der Festlegung eines optimalen Trennwertes die Sensitivität und die Spezifität auch unterschiedlich gewichtet werden. Ein entsprechend modifizierter Youden-Index J ist hierfür durch (4.50) gegeben. J = w · Sensitivität + (1 − w) · Spezifität Mit w=0,5 werden Sensitivität und Spezifität gleich gewichtet. Die Steigung λ der Tangente an die ROC-Kurve in Abbildung 4.10 ist entsprechend obiger Überlegungen
mit
0 15[·109 /L] (LR+ = 7), können schrittweise zu einer erhöhten PosttestWahrscheinlichkeit beitragen. Die einzelnen Schritte sind durch entsprechende Linien im FaganNomogramm (Abbildung 4.11) nachvollziehbar. Hinweis: Ein diagnostischer Test, z. B. im Rahmen klinischer Untersuchungen, kann häufiger auch zu unklaren, fraglichen Ergebnissen führen, d. h. nicht positiv und nicht negativ. Die Kriterien zur Bewertung der Güte des Tests aus diesem Abschnitt müssen dann grundsätzlich mit der Einschränkung versehen werden, dass ein positives oder negatives Ergebnis vorliegt! Testergebnis positiv fraglich negativ krank a b c nicht krank d e f Die bedingten Maßzahlen (conditional) sind dann entsprechend der Übersicht 10: Sensitivität = a/(a + c) Spezifität = f /(d + f ) LR+ = Sensitivität /(1 − Spezifität ) LR− = (1 − Sensitivität )/Spezifität Zusätzlich sollte in diesem Fall aber auch ein Likelihood-Quotient für fragliche Testergebnisse (LR± ) angegeben werden, der die Unsicherheit im Rahmen einer diagnostischen Testentscheidung kennzeichnet (vgl. D.L. Simel et al. [SFDM87]). Dazu wird die Wahrscheinlichkeit Y D+ (Y D− ) für ein positives (negatives) Ergebnis unter der Bedingung bestimmt, dass die Krankheit vorliegt (nicht vorliegt). Y D+ = (a + c)/(a + c + b) (4.53) Y D− = (d + f )/(d + f + e) Der Likelihood-Quotient LR± nach (4.54) gibt an, um wie viel wahrscheinlicher ein fragliches Testergebnis bei Erkrankten gegenüber den nicht Erkrankten ist. LR± = (1 − Y D+ )/(1 − Y D− )
(4.54)
5
198
5
4 Wahrscheinlichkeiten
Beispiel: Ein neuer Screening-Test für die Erkennung einer Lungenembolie zeigt folgendes Ergebnis: LungenTestergebnis embolie positiv fraglich negativ ja 10 13 2 nein 5 27 13 Die Gütekriterien für den Test, bedingt auf die positiven/negativen Ausgänge, sind
Sensitivität = 0, 83
Spezifität = 0, 72
LR+ = 3, 00
.
Der Likelihood-Quotient bezüglich fraglicher Testergebnisse beträgt LR± = (1 − 12/25)/(1 − 18/45) = (1 − 0.48)/(1 − 0, 4) = 0, 52/0, 60 = 0, 87
.
Ein fraglicher Testausgang ist somit bei Vorliegen einer Lungenembolie weniger wahrscheinlich! 4.5.3 Entscheidungsanalyse nach A.J. Vickers Wie sind neue diagnostische Tests, Modelle oder Marker bezüglich ihrer klinischen Relevanz zu beurteilen? Eine Antwort für klinische Praktiker bietet der Ansatz einer Entscheidungsanalyse nach A.J. Vickers ( [Vic08] und [VCEG08]). Als Ergänzung zu den Voraussagewerten in (4.46) und (4.47) sowie zur ROC-Analyse in Abschnitt [4.5.1] mit dem optimalen Trennwert lässt sich mit der sogenannten Schwellenwahrscheinlichkeit pt (threshold probability, kurz Entscheidungsschwelle) entscheiden, ob eine weitere diagnostische Maßnahme, etwa die Biopsie bei einem Patienten mit Verdacht auf ein Prostatakarzinom aufgrund eines erhöhten PSA-Wertes sinnvoll ist oder unterbleiben sollte. Die Entscheidungsschwelle pt ist unabhängig von der Prävalenz und kennzeichnet die individuelle Risikobereitschaft (pt → 0 vorsichtig, ängstlich; pt → 1 mutig, sorglos). Die Festlegung und Interpretation eines festen Wertes für pt ist von vielen Faktoren abhängig, u.a. von den Konsequenzen falsch positiver bzw. falsch negativer Testentscheidungen, und im Einzelfall nur schwer zu begründen. Aufschlussreich ist dagegen ein Vergleich verschiedener Teststrategien (Modelle) über den gesamten Bereich 0 ≤ pt ≤ 1. Mit der Entscheidungsschwelle pt und der Prävalenz π lässt sich somit der mögliche Nutzen (net benefit) eines diagnostischen Tests nach (4.55) bestimmen. Nutzen = π(Sensitivität) − (1 − π)(1 − Spezifität)(pt /(1 − pt ))
(4.55)
Eine andere Darstellung aufgrund richtig und falsch positiver Testentscheidungen im Rahmen einer diagnostischen Studie mit insgesamt n Patienten ist auch: pt richtig Positive falsch Positive (4.56) Nutzen = − n n 1 − pt
4.6 Maßzahlen in der Epidemiologie
Modell null alle
0.5
(möglicher) Nutzen
199
0.4 0.3 0.2 0.1 0.0
−0.1 0.0
0.2
0.4
0.6
0.8
1.0
Schwellenwahrscheinlichkeit
Abbildung 4.12: Entscheidungskurve nach A.J. Vickers für einen oralen Glucose-Toleranztest Beispiel: Unter welchen Umständen ist ein oraler Glucose-Toleranztest (oGT) zu empfehlen, wenn der Wert für den Nüchternblutzucker (NBLZ) erhöht ist (>100 mg/dl; vgl. Abschnitt [4.5.1])? Der mögliche Nutzen eines Screenings durch den NBLZ-Test unter der Annahme einer Diabetes Prävalenz von π = 0,5 wird durch die Entscheidungskurve in Abbildung 4.12 beschrieben. Zwei Linien dienen hier der Referenz: • Die horizontale (gestrichelte) Linie kennzeichnet den Nutzen „Null“, wenn sich unabhängig von dem NBLZ-Test niemand einem oGT-Test unterzieht. • Die andere Referenzlinie kennzeichnet dagegen einen Nutzen, wenn sich alle Individuen aus der Population einem oGT-Test unterziehen würden, abhängig von der individuellen Entscheidungsschwelle pt . Es liegt nahe, dass dabei der höchste mögliche Nutzen für pt = 0% der Prävalenz in der Population (hier π = 0, 50) entspricht. Der Nutzen wird geringer ausfallen, wenn das individuelle Risiko geringer eingeschätzt wird, d.h. wenn pt wächst. Es wird sogar negativ, wenn pt > π angenommen wird. Der mögliche Nutzen aus einen zusätzlichen NBLZ-Test wird an der durchgezogenen Linie erkennbar. Er zeigt sich deutlich in dem Bereich 20% < pt < 80%. Bei hohem Risiko pt < 20% (gefährdete, sehr „vorsichtige“ Individuen) ist unter Umständen direkt eine oGt-Test zu empfehlen. Bei geringem Risiko pt > 80% (sichere, „mutige“ Individuen) kann dagegen möglicherweise auf beide Tests verzichtet werden.
4.6 Maßzahlen in der Epidemiologie • Prävalenz und Inzidenz • Standardisierungen Epidemiologie („die Lehre von dem, was über das Volk kommt“) ist die Wissenschaft vom Auftreten von Krankheiten und ihrer Determinanten in unterschiedlichen Bevölkerungsgruppen. Mit den Grundaufgaben: • Krankheitsursachen aufspüren und ihre relative Bedeutung herausarbeiten. • Bevökerungsteile identifizieren, die besonderen gesundheitlichen Risiken unterliegen.
5
200
•
4 Wahrscheinlichkeiten
Programme entwickeln und Prioritäten setzen, um (1) und (2) zu realisieren, um den Gesundheitszustand der Bevölkerung zu verbessern: Infektionsmöglichkeiten und präventive Maßnahmen zu erkunden und zu bewerten sowie Trends vorauszusagen.
Im 18. Jahrhundert wurde bekannt, dass katholische Nonnen einem höheren Brustkrebs-Risiko und dass Schornsteinfeger einem höheren Hodenkrebs-Risiko ausgesetzt sind. Zum anderen wird auch heute noch behauptet, der hohe Anteil Krebskranker unter den Rauchern habe nichts mit deren Rauchgewohnheiten zu tun – eher seien andere Faktoren, persönliche Merkmale, hierfür verantwortlich. Diese These wurde kurz nach dem 2. Weltkrieg auch von zwei führenden Statistikern und starken Rauchern vertreten, R.A. Fisher (1890–1962) und J. Neyman (1894–1981) , die – ohne befreundet zu sein – unabhängig voneinander Front machten gegen Epidemiologen ihrer Zeit. R.A. Fisher publizierte sogar im Auftrag einer Tobacco Company. Heute wissen wir, dass Raucher, die das Rauchen aufgegeben haben, ein merklich geringeres Risiko haben, an Lungenkrebs zu erkranken. Krankheiten sind abhängig (a) vom Grad der Exponiertheit der Person, (b) vom Grad der Anfälligkeit der Person und (c) von weiteren schädigenden Faktoren. Ziel der Epidemiologie ist es, jeder Krankheit mindestens einen sogenannten Risikofaktor zuzuordnen. Risikofaktoren sind Krankheitsursachen im weiteren oder engeren Sinne, identifiziert anhand von „Fall-KontrollStudien“ [BD80] und „Kohortenstudien“ [BD87] (vgl. Kapitel [7.7.3] auf Seite 707). Ein Risikofaktor ist jedes Merkmal, das dem Krankheitsstatus zeitlich vorangeht und mit ihm nach Ansicht von Fachleuten kausal verknüpft ist; d. h. ein epidemiologisch belegter Gefährdungsfaktor heißt Risikofaktor. In epidemiologischen Studien nennt man bekannte Risikofaktoren für eine bestimmte Krankheit Mitursachen (confounding factors, vgl. z. B. Breslow und Day [BD80], S. 93–108). Confounding bezeichnet eine Verzerrung der Beziehung zwischen Exponiertheit und Krankheit durch Mitursachen. Mitursachen ermöglichen diagnostische Voraussagen: 12 Beispiele sowie Analogien und Unterschiede zwischen Fall-Kontroll-Studien und Kohorten-Studien geben Miettinen und Cook [MC81]. 4.6.1 Prävalenz und Inzidenz Unter Prävalenz versteht man in der Epidemiologie den Anteil von Personen in einer bestimmten Bevölkerung (population), der eine bestimmte Krankheit aufweist, d. h. aus der Sicht dieses Kapitels auch die Wahrscheinlichkeit, dass eine Person, die zufällig aus der Bevölkerung ausgewählt wurde, erkrankt ist. Die Prävalenzrate (Präv) (4.57) wird als ein Bestandsmaß somit durch die Zahl der Erkrankten im Verhältnis zur Gesamtbevölkerung zu einem bestimmten Zeitpunkt bestimmt. Zahl der Erkrankten Präv = (4.57) Anzahl der Individuen in der Bevölkerung Der Bezug auf die Zeit kann wie folgt präzisiert werden: • Die Punktprävalenz wird durch einen genau bestimmten Zeitpunkt, z. B. „im Augenblick“ oder „zum gegebenen Stichtag“ definiert. • Die Periodenprävalenz wird durch einen Zeitraum definiert, wie z. B. „im vergangenen Monat“, „im geschlechtsreifen Alter“ oder „im Senium“, im letzten Jahr (Jahresprävalenz) oder während des gesamten Lebens (Lebenszeitprävalenz)
4.6 Maßzahlen in der Epidemiologie
201
Beispiel: Wenn in Amerika der Anteil der schwer Übergewichtigen in der erwachsenen Bevölkerung von 12,0% im Jahr 1991 auf 17,9% im Jahr 1999 stieg, kann die Dynamik des Geschehens mittels der Angabe zweier Punktprävalenzen weit besser vermittelt werden, als wenn der Anteil der Übergewichtigen nur durch eine Periodenprävalenz (zwischen 1991 und 1999) erfasst würde.
5
Die Inzidenz wird definiert als die Anzahl der Neuerkrankungen in einer Bevölkerung während einer bestimmten Zeit. Damit kennzeichnet die Inzidenz die Veränderung des Krankenstandes hinsichtlich einer bestimmten Krankheit in der Bevölkerung. Dabei unterscheidet man die folgenden Situationen: •
Die kumulative Inzidenz (Inzidenzanteil) CI (4.58) gibt an, welcher Anteil einer gesunden Bevölkerung (population at risk) in einem bestimmten Zeitraum T neu erkrankt ist (häufig auf 100000 bezogen). CI =
Anzahl der neu erkrankten Personen innerhalb eines Zeitraumes T Anzahl der gesunden Personen zu Beginn des Zeitraumes T
(4.58)
Die kumulative Inzidenz ist demnach eine Maßzahl für das Entstehen einer Krankheit. Sie erfordert die Beobachtung (follow up) einer Bevölkerung mindestens über den Referenzzeitraum (Longitudinalstudien, Kohortenstudien). • Die Definition der Inzidenzdichte (Inzidenzrate, hazard rate) I (4.59) erfolgt dagegen mit einem Bezug auf Risikozeiten. Unter Risikozeit versteht man die Zeit, in der ein einzelnes nicht erkranktes Individuum aus der Bevölkerung einer Exposition (Risiko) ausgesetzt ist. Diese Risikozeiten werden für alle Individuen zur Personenzeit unter Risiko addiert. I=
Anzahl Erkrankungsfälle Personenzeit
(4.59)
Die Inzidenzdichte I ist eine Beziehungszahl und keine Verhältniszahl, kann also insbesondere auch nicht als eine Wahrscheinlichkeit interpretiert werden. I ist eine Maßzahl, die Neuerkrankungen pro Risikozeit angibt (Dimension: 1/Zeitspanne) und kennzeichnet damit die Dynamik der Erkrankungen in der Bevölkerung. Beispiel: In Stockholm ereigneten sich 1973 unter den 40-44 jährigen Männern (41532 Personenjahre) 29 Herzinfarkte. Die Inzidenzdichte betrug I = 29/41532 = 0, 00071/Jahr.
5
Im Falle einer konstanten Inzidenzdichte kann der Zusammenhang zwischen der kumulativen Inzidenz und der Inzidenzdichte durch CI = 1 − exp(−T · I) beschrieben werden. Befindet sich die Bevölkerung hinsichtlich der Zu- und Abgänge hinsichtlich einer Erkrankung im Gleichgewicht (steady state) und ist die Inzidenzdichte gering (I · T < 0, 1), dann folgt näherungsweise die wichtige Beziehung CI ≈ I · T . Beispiel: Aus einer Inzidenzdichte von 0.005/J ergibt sich für die Erkrankungswahrscheinlichkeit innerhalb von 5 Jahren CI5J = 1 − exp((−0, 005/j)5J) = 0, 025. Der Zusammenhang zwischen der Prävalenz (Präv) und der Inzidenzdichte I kann in stabilen Bevölkerungen (Gleichgewicht) mit Hilfe der mittleren Krankheitsdauer D verdeutlicht werden. Präv =I ·D 1 − Präv
(4.60)
Der „Anteil des Krankenstandes“ in einer Bevölkerung auf gesunde Personen bezogen (z. B. auf 100000) kann aus dem Produkt aus Inzidenzdichte und Krankheitsdauer ermittelt werden. Wird weiterhin angenommen, dass die Prävalenz sehr klein ist (< 1%), dann ist Präv ≈ I · D.
5
202
5
4 Wahrscheinlichkeiten
Beispiel: Die jährliche Inzidenzrate für Typhus in der BRD beträgt 0.2 auf 100000 Personenjahre. Die durchschnittliche Erkrankungsdauer beträgt etwa einen Monat. Bei sehr seltenen Erkrankungen kann (1 − Präv) = 1 angenommen werden. Dann ist Präv ≈ I · D = (0, 2/100000)(1/12) = 0, 000017%). Bei einer Bevölkerung von 81.5 Mio. sind somit zu einem festen Zeitpunkt ca. 14 Fälle von Typhus in der Bevölkerung zu erwarten. Die Sterblichkeit oder Mortalität kann als ein Sonderfall für die Inzidenz betrachtet werden. Als Ereignisse werden dann nicht die Erkrankungen, sondern die Todesfälle an einer Erkrankung gezählt. Entsprechend gibt es auch eine kumulative Mortalität und eine Mortalität(-sdichte), hier als Sterblichkeit pro Zeitintervall (bezogen auf die Personenzeit der Population unter Risiko, hazard rate). Ein Sonderfall ist die amtliche Mortalitätsstatistik. Hier wird statt der Personenzeit nur die durchschnittliche Populationsgröße mit Bezug auf das Zeitintervall 1 Jahr berechnet. 4.6.2 Der Impfeffekt Für die Bewertung eines Interventionsprogrammes bei infektiösen Erkrankungen (Impfung, Prävention) gibt es spezielle Maßzahlen. Der Impfeffekt IE (vaccine efficacy) wird aus dem relativen Risiko einer Ansteckung bei geimpften und nicht geimpften Personen abgeleitet. Ist x1 die Zahl der Erkrankten unter n1 geimpften und x0 die Zahl der Erkrankten unter n0 nicht geimpften Personen (Inzidenzanteile aus dem vorangehenden Abschnitt), dann ist das relative Risiko RR =
x1 /n1 R1 = x0 /n0 R0
.
Der Impfeffekt, d. h. die Wirksamkeit einer Impfung, kann dann wie folgt hergeleitet werden: IE = 1 − RR = 1−
x 1 · n0 x1 /n1 =1− x0 /n0 x 0 · n1
n1 (x0 + x1 ) − x1 (n0 + n1) x 0 · n1 5 n1 n1 x1 x1 = − 1− n0 + n1 x0 + x1 n0 + n1 x0 + x1 =
p−c mit p(1 − c) n1 p= Anteil der geimpften Personen und n 0 + n1 x1 c= Anteil der Erkrankten unter allen geimpften Personen x0 + x1
IE =
(4.61)
Für die Erfassung eines Impfeffektes sind somit nur die beiden Anteile p und c aus (4.61) zu bestimmen.
5
Beispiel: In einer Population von 900 Personen werden 300 geimpft (n1 = 300, n0 = 600). Trotz einer Impfung erkranken 30 (3) Personen: (a) p = 300/900 = 0,333 c = 30/300 = 0,10 IE = (0,333 − 0,1)/(0,333 · 0,9 = 0,78) (b) p = 300/900 = 0,333 c = 3/300 = 0,01 IE = (0,333 − 0,01)/(0,333 · 0,99) = 0,98
4.6 Maßzahlen in der Epidemiologie
203
Hinweis: Bei der Herleitung des Impfeffektes wird vorausgesetzt, dass das Infektionsrisiko für geimpfte und nicht geimpfte Personen gleich ist und dass die Impfungen in der Population nach einer Zufallszuteilung erfolgen. Die Bewertung direkter und indirekter Einflüsse, z. B. Übertragungswege oder Expositionsrisiken, wird von M.E. Halloran et al. [HHLS91] beschrieben. 4.6.3 Standardisierte Raten am Beispiel der Mortalität Vorbemerkung: Eine Käsemasse mit < 54% Wasser heißt Hartkäse, etwa einer mit 40% Wasser, d. h. 60% Trockenmasse. Mit 50% Fett in der Trockenmasse liegt der absolute Fettgehalt dieses Käses bei [0,50 · 0,60 = 0,30] 30%; 100 g dieses Käses enthalten 30 g Fett. Die Sterbewahrscheinlichkeit nimmt mit wachsendem Alter zu: zunächst kaum, dann aber immer schneller (vgl. Tabelle 4.4 auf Seite 174). Die Personengruppe mit der größten Altersvariabilität wird daher auch eine höhere Sterblichkeit aufweisen. Deshalb wird man vor einem Vergleich der Sterberaten von Bevölkerungen (Populationen) mit ungleicher Altersstruktur die Sterberaten nach dem Alter standardisieren. Bei der direkten Standardisierung werden die altersspezifischen Sterberaten der zu vergleichenden Bevölkerungen auf die Altersstruktur einer Standardbevölkerung (Referenz) bezogen. Bei der indirekten Standardisierung fehlen die altersspezifischen Sterberaten der zu vergleichenden Bevölkerungen. Dagegen liegen die der Standardbevölkerung vor, aus denen die erwarteten Sterbefälle der zu vergleichenden Bevölkerungen bestimmt werden können, unter der Annahme, dass dort die altersspezifischen Sterberaten der Standardbevölkerung gelten würden. Für ein bestimmtes Jahr und eine bestimmte betrachtete Bevölkerung gilt: • Die Summe aller Todesfälle ist D. • Die Größe der Bevölkerung (zur Jahresmitte) ist B. • Die Sterberate für eine bestimmte Altersklasse i ist dann: Gestorbene des Alters i Di = = Mi Bevölkerung des Alters i Bi Für eine Referenz- bzw. Standardbevölkerung lauten die entsprechenden Begriffe dann: Ds , Bs , Dsi , Msi und z. B. i Dsi = Ds . Im Prinzip ist die Wahl der Referenz beliebig, sollte jedoch nicht zu stark von den zu vergleichenden Studienpopulationen abweichen. Ein Beispiel für eine geeignete Standardbevölkerung ist die so genannte „Standard-Weltbevölkerung“ (world standard population), die regelmäßig durch das WHO Krebsforschungszentrum in Lyon, Frankreich, aktualisiert wird (vgl. F. Bray et al. [BGSP02]). Die rohe Sterberate B i · Mi D = i M= B B ist ungeeignet für den Vergleich von Bevölkerungen mit unterschiedlicher Altersstruktur. Die direkt standardisierte Sterberate Bsi · Mi i Bsi · Mi Mdir = = Bs i Bsi i
(4.62)
kennzeichnet den Anteil zu erwartender Todesfälle in der Standardbevölkerung, wenn dort die altersspezifischen Sterberaten der entsprechenden Bevölkerung gültig sind.
204
5
4 Wahrscheinlichkeiten
Beispiel: Zwei Bevölkerungen A und B mit unterschiedlicher Altersstruktur sollen hinsichtlich der Sterblichkeit verglichen werden. Als Referenz wird die Altersverteilung einer (künstlichen) Standardbevölkerung herangezogen. Altersklasse i 1: Exponierte
nicht Summe Exponierte Fälle a b m=a+b Länge∗ L1 L0 L = L1 + L0 ∗ Beobachtungszeit für alle Personen
Beispiel:
a = 10 b = 239 m = 249
IDR =
a/L1 b/L0
L1 = 2 935 L0 = 135 130 L = 138 065
Zu vergleichen sind 10 Fälle in 2935 Personen-Jahren (341 F pro 100 000 P-J) mit 239 Fällen in 135 130 Personen-Jahren (177 F pro 100 000 P-J). Daraus ergibt sich IDR = 1,926.
5
5 Zufallsvariablen, Verteilungen • • • • • •
Die Zufallsvariable Maßzahlen zur Kennzeichnung einer Verteilung Diskrete Verteilungen Stetige Verteilungen Testverteilungen Verteilung zweidimensionaler Zufallsvariablen
Los-Entscheide sind uns aus vielen Stellen des alten Testaments bekannt. In der Antike war das Los-Orakel eine Antwort der Götter auf eine spezifische, in der Regel durch eine unangenehme Sachlage bedingte Frage!
5.1 Die Zufallsvariable Eine Zufallsvariable ist eine Größe, die bei einem Zufallsexperiment auftritt, z. B. das Werfen einer „6“ mit einem Würfel oder die Länge der Brenndauer einer Glühbirne. Eine Zufallsvariable oder zufällige Variable ordnet jedem Ausgang des Experimentes eine Zahl zu (vgl. Abbildung 5.1). Hat man ein Experiment gemacht, bei dem die Zufallsvariable X einen Wert x angenommen hat, so nennt man x eine Realisierung von X. Die Grundgesamtheit ist eine Menge aller möglichen Realisierungen einer Zufallsvariablen, die Stichprobe ist die n-fache Realisierung. Die Werte von x sind reelle Zahlen. Hierunter versteht man Zahlen, die sich durch Dezimalzahlen √ mit endlich (2, −4) oder unendlich vielen Stellen [periodisch (−7/3) oder nicht periodisch ( 2, lg 3, π, e)] darstellen lassen. Die Wahrscheinlichkeit des Ereignisses, dass X irgendeinen Wert in dem Intervall von a bis b annimmt, bezeichnen wir mit P (a < X < b). Entsprechend ist P (−∞ < X < +∞) das sichere Ereignis, da X ja stets irgendeinen Wert auf der Zahlengeraden annehmen muss. Soll X irgendeinen Wert annehmen, der größer als c ist: P (X > c), so gilt, da P (X > c) + P (≤ c) = 1, für beliebiges reelles c: P (X > c) = 1 − P (X ≤ c) P (a < X < b) = P (X < b)−P (X ≤ a) P (a ≤ X < b) = P (X < b)−P (X < a)
P (X ≥ c) = 1 − P (X < c) P (a < X ≤ b) = P (X ≤ b)−P (X ≤ a) P (a ≤ X ≤ b) = P (X ≤ b)−P (X < a)
Abbildung 5.1: Modell der diskreten Zufallsvariablen (R - Menge der reellen Zahlen)
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 J. Hedderich und L. Sachs, Angewandte Statistik, https://doi.org/10.1007/978-3-662-62294-0_5
(5.1)
(5.2)
5.1 Die Zufallsvariable
207
Beispiel: Die beim Wurf eines regelmäßigen Würfels erzielte Augenzahl sei X, dann ist P (X = 6) gleich 1/6: P (5 < X < 6) = 0 P (5 ≤ X < 6) = 1/6 P (1 ≤ X ≤ 6) = 1 P (5 < X ≤ 6) = 1/6 P (X > 1) = 1 − P (X ≤ 1) = 1 − 1/6 = 5/6. Zusammenfassung: (1) Eine Abbildung oder Funktion, die den Elementen der Ergebnis- oder Ereignismenge eines Zufallsexperimentes reelle Zahlen zuordnet, heißt Zufallsvariable (vgl. Abbildung 5.1). (2) Zufallsvariable werden mit großen Buchstaben wie X, Y und Z bezeichnet; kleine Buchstaben wie x, y und z stehen für mögliche Werte: Realisierungen der betreffenden Zufallsvariablen. (3) Die Bezeichnung Zufallsvariable ist irreführend, denn eine Zufallsvariable ist weder zufällig noch variabel, sondern eine feste (deterministische) Abbildung des Stichprobenraumes in die reellen Zahlen. Die Werte dieser Funktion, als Realisierungen aus einem Zufallsexperiment aufgefasst, sind zufällig. (4) Eine Zufallsvariable X heißt diskret, wenn sie höchstens abzählbar viele Werte xi mit den Einzelwahrscheinlichkeiten P (X = xi ) annehmen kann, deren Summe 1 ist. Andernfalls heißt sie stetig. (5) X wird als Zufallsvariable bezeichnet, wenn für jede reelle Zahl x die Wahrscheinlichkeit P (X ≤ x) existiert.
5
5.1.1 Wahrscheinlichkeitsfunktion, Wahrscheinlichkeitsdichte und Verteilungsfunktion Die „Wahrscheinlichkeitsverteilung“ einer Zufallsvariablen gibt an, mit welcher Wahrscheinlichkeit die Werte der Zufallsvariablen angenommen werden. Die „Wahrscheinlichkeitsverteilung“ der Zufallsvariablen X wird durch die Verteilungsfunktion F (x) = P (X ≤ x)
(5.3)
eindeutig definiert. Sie gibt die Wahrscheinlichkeit an, dass die Zufallsvariable X einen Wert kleiner x oder gleich x annimmt. Die Funktion F , die jeder reellen Zahl x die Wahrscheinlichkeit P (X ≤ x) des Ereignisses (X ≤ x) zuordnet, nennt man Verteilungsfunktion der Zufallsvariablen X. F (x) ist monoton nicht fallend (Abbildung 5.4: links oben) mit den Grenzwerten F (−∞) = 0 und F (∞) = 1; d. h. für x2 > x1 gilt F (x2 ) ≥ F (x1 ). F ist damit für alle reellen Zahlen x definiert. F (x) wird auch Summenhäufigkeitsfunktion oder kumulierte Wahrscheinlichkeitsverteilung genannt. Die Funktion Fˆn (x) = [Anzahl der Xi ≤ x]/n heißt Stichproben-Verteilungsfunktion oder empirische Verteilungsfunktion (ecdf, empirical cumulative distribution function). Beispiel (einfacher Würfelwurf): Die Zufallsvariable X ist die Zahl der geworfenen Augen. Die Wahrscheinlichkeiten für die zu werfenden Augen sind je 1/6. Die Verteilungsfunktion F (x) nimmt die folgenden Werte an: x x 0) und nennt sie linkssteil (skewed to the right) . Anderenfalls, d. h. wenn gilt γ1 < 0, bezeichnet man die Verteilung als rechtssteil (skewed to the left). Hinweis: Linkssteile Verteilungen kommen in der Biologie und Medizin wesentlich häufiger vor als rechtssteile Verteilungen (siehe Abbildung 5.5 rechts). So ist das Alter von Patienten mit typischen „Jugendkrankheiten“ linkssteil verteilt (z. B. Akne). „Alterskrankheiten“ sind dagegen rechtssteil verteilt (z. B. Prostata-Adenom bei Männern). • Das 4. zentrale Moment charakterisiert die Wölbung / Steilheit einer Verteilung und wird Exzess (kurtosis) genannt. Exzess für diskrete / stetige Zufallsvariable X: n (xi − μ)4 · f (xi ) γ2 = i=1 −3 σ4 +∞ (x − μ)4 · f (x)dx −3 γ2 = −∞ σ4
(5.26)
Dabei erfolgt auch hier eine Normierung mit Hilfe von σ 4 , um eine dimensionslose Kennzeichnung der Steilheit einer Verteilung zu ermöglichen. Die zusätzliche Zentrierung (Subtraktion von 3) erfolgt, da die Form der Normalverteilung (s.d.) als Referenz herangezogen wird, die den Exzess 3 hat. 5.2.3.1 Berechnung der empirischen Momente Die Berechnung des empirischen 1. und 2. zentralen Momentes, arithmetischer Mittelwert und empirische Varianz, ist ausführlich im Kapitel 3 (deskriptive Statistik) beschrieben. Für das empirische 3. Moment gilt entsprechend: ⎧ n 1 ⎪ ⎪ (xi − x ¯ )3 ⎪ ⎪ ⎪n ⎪ i=1 ⎪ ⎪ ⎪ ⎨ s3 g1 = (5.27) ⎪ k ⎪ ⎪ 1 ⎪ ⎪ ni (xi − x ¯ )3 ⎪ ⎪n ⎪ ⎪ ⎩ i=1 s3 Im unteren Ansatz wird auf Häufigkeiten ni klassierter Beobachtungen Bezug genommen. Die Größe der drei Maßzahlen zur zentralen Lage (Mittelwert (¯ x), Modus, Modalwert oder Dichtemittel (D), Medianwert (˜ x)) zeigt folgenden Zusammenhang mit der Schiefe einer Verteilung: ⎧ linkssteile Verteilung: D < x ¯, x ˜x ¯, D>x ˜ g1 < 0 rechtssteile Verteilung: D > x
5.2 Maßzahlen zur Kennzeichnung einer Verteilung
221
Ein auf empirischen Momenten basierendes Exzessmaß ist das 4. Moment:
g2 =
⎧ n 1 ⎪ ⎪ (xi − x ¯ )4 ⎪ ⎪ ⎪ n i=1 ⎪ ⎪ ⎪ −3 ⎪ ⎨ s4 ⎪ k ⎪ ⎪ 1 ⎪ ⎪ ni (xi − x ¯ )4 ⎪ ⎪ ⎪ n ⎪ ⎩ i=1 −3 s4
(5.28)
Eine Verteilung (vgl. Abbildung 5.5 links) heißt • platykurtisch: flach gewölbt, wenn g2 < 0), • mesokurtisch: mittlere Wölbung, wenn g2 = 0, • leptokurtisch: stark gewölbt, wenn g2 > 0. Für die Berechnung dieser (zentrierten!) Momente in R stehen in dem Paket library(e1071) ( David Meyer et al. [MDH+ 19]) die Funktionen skewness() und kurtosis() zur Verfügung: > x l i b r a r y ( e1071 ) > skewness ( x , type = 3) [ 1 ] 2.198071 > k u r t o s i s ( x , type = 3) [ 1 ] 3.89879
# Schiefe
5.2.3.2 Potenzmomente Für eine symmetrische Verteilung gilt γ1 = 0, für die N (0, 1)-Verteilung γ2 = 0. Ist γ1 positiv, dann liegt eine linkssteile Verteilung vor, bei negativen Werten eine rechtssteile Verteilung. Eine Verteilung mit Hochgipfligkeit – steiler als die Normalverteilung – oder positivem Exzess weist einen positiven Wert γ2 auf; eine Verteilung mit negativer Wölbung – flacher als die Normalverteilung – ist durch einen negativen Wert γ2 charakterisiert, der, genau genommen, „peakedness combined with tailedness“ oder „lack of shoulders“ misst und daher bei einer bimodalen Kurve stark negativ ist (Finucan [Fin64], vgl. auch Chissom [Chi70] und Darlington [Dar70]). Die Rechteckverteilung mit ausgeprägter „Schulterpartie“ hat daher auch eine negative Wölbung (γ2 = −1,2). Dies gilt sogar für jede Dreiecksverteilung (γ2 = 0,6), die gegenüber einer Normalverteilung mit gleicher Varianz eine stärker ausgebildete „Schulterpartie“ aufweist. Zunächst eine Bemerkung über Potenzmomente. Größen der Form
¯ )r fi (xi − x n
= mr
(5.29)
bezeichnet man als Potenzmomente r-ten Grades (mr ) der Stichprobe. Für r = 2 resultiert aus (5.29) angenähert die Stichprobenvarianz. Die beiden Momentenkoeffizienten lassen sich abgekürzt als g1 = m3 /s3 und g2 = m4 /s4 − 3 schreiben. Ist die Klassenbreite nicht gleich eins (b = 1), so wird
222
5 Zufallsvariablen, Verteilungen
fi
mr =
xi − x ¯ b n
r (5.30)
Zur Erleichterung der Rechnung war es üblich, die Potenzmomente nicht auf das arithmetische Mittel, sondern auf einen beliebigen Ursprung, sagen wir auf den Wert d, der am stärksten besetzten Klasse einer Häufigkeitsverteilung, zu beziehen. Die so erhaltenen Momente bezeichnen wir zur Unterscheidung von mr mit mr . Nennen wir (x − d)/b = z, so erhalten wir für unsere eigentlich zu kleine Stichprobenverteilung aus Tabelle 5.1 (n = 40) die Potenzmomente ersten bis vierten Grades der Stichprobe nach Moment 1. Grades m1 = =
=
=
m3 =
=
fi · zi2 n
(5.32)
fi · zi3 n
(5.33)
216 = 5,40 40
Moment 4. Grades m4
(5.31)
110 = 2,75 40
Moment 3. Grades
=
f i · zi n
18 = 0,45 40
Moment 2. Grades m2
=
fi · zi4 n
(5.34)
914 = 22,85 40
Tabelle 5.1: Rechenschema zur Berechnung der Potenzmomente xi 8,8 9,3 d=9,8 10,3 10,8 11,3 11,8 Summe
fi 4 8 11 7 5 3 2 40
zi -2 -1 0 1 2 3 4
f i zi -8 -8 0 7 10 9 8 18
fi zi2 16 8 0 7 20 27 32 110
fi zi3 -32 -8 7 40 81 128 216
fi zi4 64 8 0 7 80 243 512 914
fi (zi + 1)4 4 0 11 112 405 768 1250 2550
5.2 Maßzahlen zur Kennzeichnung einer Verteilung
223
Zur Kontrolle der Rechnung enthält Tabelle 5.1 noch eine Spalte mit den Produkten fi · (zi + 1)4 . Die Spaltensummen lassen sich dann nach
fi (zi + 1)4 =
fi + 4
f i zi + 6
fi zi2 + 4
fi zi3 +
fi zi4
(5.35)
mit 2550 = 40 + 72 + 660 + 864 + 914 leicht überprüfen. Hieraus ergeben sich die Kennwerte der Verteilung: 1. Mittelwert
x ¯ = d + bm1
(5.36)
x ¯ = 9,8 + 0,5 · 0,45 = 10,025 2. Varianz
s2 = b2 (m2 − m 1 ) 2
(5.37)
s2 = 0,52 (2,75 − 0,452 ) = 0,637 3. Schiefe g1 = g1 =
0,53 · (5,40 − 3 · 0,45 · 2,75 + 2 · 0,453 ) = 0,460 0,5082
g2 =
b4 · (m4 − 4 · m1 m3 + 6 · m1 m2 − 3 · m4 1 ) −3 s4
4. Wölbung
g2 =
b3 (m3 − 3m1 m2 + 2m3 1 s3
(5.38)
2
0,54 · (22,85 − 4 · 0,45 · 5,40 + 6 · 0,452 · 2,75 − 3 · 0,454 ) − 3 = −0,480 0,4055
(5.39) .
Für die Berechnung der Potenzmomente 2. und 4. Grades sollte man beim Vorliegen sehr großer Stichprobenumfänge und auch nur dann, wenn die Stichprobenverteilung keine Asymmetrie aufweist, eine nach Sheppard korrigierte Varianz wählen (b = Klassenbreite): s2korr = s2 − b2 /12
(5.40)
m4,korr = m4 − (1/2)m2 b2 + (7/240)b4
(5.41)
Die Berechnungen können in R mit der folgenden Funktion schrittweise nachvollzogen werden: > momente dbinom ( 2 , 4 , 0 . 2 ) [ 1 ] 0.1536
5
Beispiel (Chevalier de Méré): Was ist wahrscheinlicher: Beim Werfen a) mit 6 Würfeln wenigstens eine Sechs zu erzielen oder b) mit 12 Würfeln wenigstens zwei Sechsen zu erhalten? Ideale Würfel vorausgesetzt. 0 6 1 6 5 a) PNull Sechsen zu erzielen = 0,335 0 6 6 0 6 1 6 5 0,665 PEine oder mehr Sechsen z. e. = 1 − 0 6 6 , 1 11 0 12 1 1 12 12 5 5 b) Pzwei oder mehr Sechsen z. e. = 1 − + 0 1 6 6 6 6 1 − (0,1122 + 0,2692) 0,619 . > 1− pbinom ( 0 , 6 , 1 / 6 , l o w e r . t a i l =TRUE) [ 1 ] 0.665102 > pbinom ( 1 , 1 2 , 1 / 6 , l o w e r . t a i l =FALSE ) [ 1 ] 0.6186674
Damit ist a) wahrscheinlicher als b). In der Lösung in R ist zu beachten, das mit der Funktion pbinom() über das zusätzliche Argument lower.tail sowohl die Verteilungsanteile links (lower.tail=TRUE, ≤) oder rechts (lower.tail=FALSE, >) berechnet werden können.
5
Beispiel: Ein idealer Würfel wird 120mal geworfen. Gefragt ist nach der Wahrscheinlichkeit, dass die Ziffer 4 achtzehnmal oder weniger häufig erscheint. Die manuelle Berechnung ist schon recht aufwendig. Die Lösung in R lautet: > pbinom ( 1 8 , 1 2 0 , 1 / 6 ) [ 1 ] 0.3657008
5.3 Diskrete Verteilungen
235
Beispiel (Mäusewürfe): Uns interessiert die Zahl der weiblichen Jungtiere in Würfen zu je 4 Mäusen (vgl. David, F. N.: A Statistical Primer, Ch. Griffin, London 1953, S. 187 ff.). Die Befunde von 200 Würfen dieser Art liegen vor: Zahl der weiblichen Mäuse/Wurf Anzahl der Würfe (beobachtet insgesamt 200) Anzahl der Würfe (erwartet mit pˆ=0.465)
0 15 16.38
1 63 56,96
2 66 74,26
3 47 43,04
5
4 9 9,36
Die erwarteten Zahlen sind zum Vergleich mit den beobachteten Werten eingetragen und werden durch die folgenden Überlegungen begründet. Nehmen wir nun an, dass für den verwendeten Mäusestamm die Wahrscheinlichkeit, als Weibchen geboren zu werden, konstant, unabhängig von der Anzahl der bereits geborenen weiblichen Tiere ist und dass auch zweitens die Würfe unabhängig voneinander sind, also einem Zufallsprozess folgen, dann lässt sich der Prozentsatz weiblicher Tiere in der Grundgesamtheit aus der vorliegenden Stichprobe von 200 Würfen schätzen. Hinweis: Die Schätzung für einen Parameter wird im folgenden stets durch ein „Dach“- oder „Hut“-Symbol über dem Parameter angezeigt. Der Anteil weiblicher Jungtiere beträgt pˆ =
Anzahl weiblicher Jungtiere Gesamtzahl der Jungtiere
pˆ =
(0 · 15 + 1 · 63 + 2 · 66 + 3 · 47 + 4 · 9) = 0,465 . 4 · 200
Wir wissen nun, das, wenn die Voraussetzungen der Binomialverteilung erfüllt sind, die Wahrscheinlichkeiten 0, 1, 2, 3, 4 weibliche Tiere in Würfen zu je 4 Tieren zu erhalten, mit Hilfe der binomischen Entwicklung (0,535 + 0,465)4 ermittelt werden können. Die aufgrund dieser Entwicklung für 200 Vierlinge erwarteten Zahlen sind dann gegeben durch: 200(0,535 + 0,465)4 = 200(0,0819 + 0,2848 + 0,3713 + 0,2152 + 0,0468) = 16,38 + 56,96 + 74,27 + 43,03 + 9,35 . Die Berechnung der erwarteten Anzahl kann in R einfach mit der Funktion dbinom() erfolgen: > round ( 2 0 0 ∗dbinom ( 0 : 4 , 4 , 0 . 4 6 5 ) , [1] 16.38 56.96 74.27 43.03 9.35
2)
Erwartungswert und Varianz einer Binomialverteilung Bi(n; P ) lassen sich einfach aus den entsprechenden Parametern der Bernoulli-Verteilung (n-malige Wiederholung) ableiten. Erwartungswert:
μ=n·p
Varianz:
σ 2 = n · p · (1 − p) = n · p · q
μ > σ2 Variationskoeffizient: CV = (1 − p)/np beachte
2. Moment:
n · p · (1 − p + n · p)
(5.52)
236
5 Zufallsvariablen, Verteilungen
Schiefe und Exzess einer Bi(n; P )-Verteilung sind: 1 − 2p (1 − p) − p = (Schiefe) σ np(1 − p) 1 − 6pq (Exzess) γ2 = npq
γ1 =
(5.53)
Die Schiefe ist 0, wenn p = 0, 5. Die Verteilung ist dann symmetrisch zum Erwartungswert. Die Schiefe wird auch sehr klein, wenn die Anzahl der Wiederholungen n sehr groß wird.
5
Beispiel (Behandlungserfolge): Die Wahrscheinlichkeit, dass eine bestimmte Behandlung erfolgreich ist, sei 0,8. Wie groß ist die Wahrscheinlichkeit, dass von 2 0,8·0,2 = 2·0,8·0,2 = 0,32 , (a) 2 Behandlungen nur eine erfolgreich ist, (a) P = 1 5 0,8·0,24 = 5·0,8·0,24 = 0,0064 , (b) 5 Behandlungen nur eine erfolgreich ist, (b) P = 1 5 0,85 ·0,20 = 0,85 = 0,32768 . (c) 5 Behandlungen alle erfolgreich sind? (c) P = 5 2 Für die Bi(5; 0,8)-Verteilung ist nach (5.52) und (5.53) μ = 5 · 0,8 = 4; σ = 5 · 0,8 · 0,2 = 0,8; Schiefe = (0,2 – 0,8)/ 0,8 = −0,671. Für die Bi(500; 0,8)-Verteilung ist die Schiefe = (0,2 − 0,8)/ 500 · 0,8 · 0,2 = −0,067.
5
Beispiel (Fünfkinderfamilie): Wie groß ist die Wahrscheinlichkeit, dass in Familien mit 5 Kindern: (a) 2 Kinder Mädchen sind, (b) 5 Kinder Knaben sind, wenn die Wahrscheinlichkeit einer Mädchengeburt p = 0,5 gesetzt wird? 5 0,52 ·0,55−2 (a) P (X=2|5; 0,5) = 2 = 10·0,55 = 10/25 = 10/32 , 5 0,55 · 0,55−5 5 = 1 · 0,55 =1/25 = 1/32
(b) P (X=5|5; 0,5) =
Hinweis: Es ist ein Trugschluss, unabhängige Ereignisse als abhängig aufzufassen: nach 5 Münzwürfen mit dem Ergebnis „Wappen“ gilt auch für den 6. Wurf nicht der „erwartete Ausgleich“ in der Art von „P (Zahl) > 0,5“ [bekannt als Gambler’s Fallacy]; es bleibt bei P (Wappen)= P (Zahl) = 0,5. Dies entspricht einem „Ziehen“ mit Zurücklegen im Urnenmodell. Anders stellt sich die Situation, wenn über die Erfolgswahrscheinlichkeit keine gesicherte Annahme gemacht werden kann, etwa wenn die Münze gefälscht wurde, und dieses Phänomen im Laufe der Wiederholungen auffällt. In diesem Fall sollte man aus der Erfahrung lernen und mit einer modifizierten Erfolgswahrscheinlichkeit rechnen!
5.3 Diskrete Verteilungen
237
5.3.3.3 Approximation der Binomialverteilung durch die Standardnormalverteilung Eine erste Approximation der Binomialverteilung durch das Modell der Standard-Normalverteilung (vgl. Abschnitt [5.4.3] und Übersicht 21 auf Seite 320) auf der Grundlage des Zentralen Grenzwertsatzes ist durch die Transformation (5.54) möglich. Z1 = (X + 0.5 − n · p)/ n · p · (1 − p) (5.54) Die Zufallsvariable X bezeichnet die Anzahl der „Erfolge“ unter n Wiederholungen mit einer jeweiligen Erfolgswahrscheinlichkeit von p. Grundlage für diese Approximation sind der Erwartungswert E[X] = n · p und die Varianz V ar[X] = n · p · (1 − p) einer binomialverteilten Zufallsvariablen; die Addition von 0,5 in (5.54) entspricht einer so genannten Kontinuitätskorrektur. Wenn min(n·p, n·(1−p)) > 5, dann ist die Zufallsvariable Z1 angenähert standardnormalverteilt (N (0, 1)). Insbesondere gilt dann: , P (x1 < X < x2 ) ≈ P , P (x1 ≤ X ≤ x2 ) ≈ P
x1 + 0,5 − np x2 − 0,5 − np < Z1 < np(1 − p) np(1 − p) x1 − 0,5 − np x2 + 0,5 − np ≤ Z1 ≤ np(1 − p) np(1 − p)
-
-
(5.55)
Beispielsweise sei P (16 < X ≤ 26) für n = 100 und p = 0,25 zu bestimmen. Da np(1 − p) = 100 · 0,25 · 0,75 = 18,75 > 9, berechnen wir np = 25 und np(1 − p) = 4,330 und 16 + 0,5 − 25 26 + 0,5 − 25 < Z1 ≤ = P (−1,963 < Z1 ≤ 0,346) . P 4,330 4,330 Hieraus erhält man für P (16 < X ≤ 26) = P (17 ≤ X ≤ 26) und nach der Verteilungsfunktion der Standardnormalverteilung (Tabelle 5.6) die angenäherten Werte (0,5 − 0,0248) + (0,5 − 0,3647) = 0,4752 + 0,1353 = 0,6105 oder 0,61 (exakter Wert 0,62063). Beispiel: P (X ≤ 13|0,6; 25) = 0,268; zˆ = | 0,4(52 + 3,5) − 0,6(100 − 52 − 0,5)| = 0,627, d. h. P = 0,265; mit 3 und 1 ergibt sich über zˆ = 0,620 P = 0,268. Beispiel (Werfen eines Würfels): Ein idealer Würfel wird 120mal geworfen. Gefragt ist nach der Wahrscheinlichkeit, dass die Ziffer 4 achtzehnmal oder weniger häufig erscheint. Die Wahrscheinlichkeit dafür, dass die Vier null- bis achtzehnmal aufzeigt (p = 1/6; q = 5/6), ist genau gleich
120 18
18 102 1 5 6 6
17 103 1 120 5 17 6 6
+
+
...
+
120 0
0 120 1 5 . 6 6
Da der Rechenaufwand ziemlich groß ist, benutzen wir die Approximation über die Standardnormalverteilung (vgl. npq = 120 · 1/6 · 5/6 = 16,667 > 9). Betrachten wir die Zahlen als kontinuierlich, dann folgt, dass 0 bis 18 Vieren als −0,5 bis 18,5 Vieren aufgefasst werden können, d. h. 1 √ x ¯ = np = 120 · = 20 und s = npq = 16,667 = 4,08 . 6 −0,5 und 18,5 werden dann in Standardeinheiten transformiert: zˆ = (x − x ¯)/s , für −0,5 erhält man (−0,5 − 20)/4,09 = −5,01 für 18,5 erhält man (18,5 − 20)/4,09 = −0,37 .
5 5
238
5 Zufallsvariablen, Verteilungen
Die gewünschte Wahrscheinlichkeit P ist dann durch die Fläche unter der Normalkurve zwischen z = −5,01 und z = −0,37 gegeben. P = (Fläche zwischen z = 0 und z = −5.01)− (Fläche zwischen z = 0 und z = −0,37) P = 0,50000 − 0,1443 = 0,3557 . Hieraus folgt: Nehmen wir wiederholt Stichproben von 120 Würfen, dann sollte die Vier in etwa 36% der Würfe 18mal oder seltener erscheinen. Die Approximation nach (5.54) ist hier wenig befriedigend. Für n = 100 und p = 0, 05 gilt P (X > 100) = 0, 0115 exakt nach der Binomialverteilung, die Näherung dagegen (vgl. auch Tabelle 5.3) ergibt nur den Wert 0, 0058. Für n = 10 und p = 0, 5 ist P (X > 8) = 0.0107 anstelle von 0,0134. Exaktere Approximationen lassen sich auf der Grundlage der Arcus-SinusTransformation oder durch spezielle Wurzeltransformationen erzielen. Relative Häufigkeiten (X/n) können durch eine Winkeltransformation (angular transformation) „normalisiert“ werden. Die Arcus-Sinus-Transformation (arcsin X/n) bezeichnet dabei das Grad- (0◦ − 90◦ ) bzw. Bogenmaß (0 − 2π) jenes Winkels, dessen Sinus gleich X/n ist. √ Z2 = (arcsin ( X/n) − arcsin ( p))/ 1/4n (5.56) √ Für großes n ist arcsin ( X/n) angenähert normalverteilt mit dem Erwartungswert arcsin ( p) und der Varianz 1/4n. Damit ist nach der Transformation die Varianz unabhängig vom Erwartungswert (Varianz stabilisierende Transformation). Die Zufallsvariable Z2 in (5.56) ist angenähert standardnormalverteilt (N (0, 1)). Die Güte der Annäherung kann durch verschiedene Modifikationen verbessert werden (F. Mosteller und C. Youtz [MY61] sowie M.F. Freeman und J.W. Tukey [FT50]). Der Ansatz nach Freeman-Tukey in (5.57) führt insbesondere bei sehr kleinen (nahe 0) und sehr großen Anteilen (nahe 1) zu deutlich verbesserten Ergebnissen (vgl Tabelle 5.3). √ ! Z3 = 2(arcsin ( (X + 1)/(n + 1)) − arcsin ( p) / 1/(n + 0, 5) (5.57) Eine Übersicht zu verschiedenen Möglichkeiten der Approximation einer Binomial-Verteilungsfunktion P (X ≤ k) durch die Standardnormalverteilung gibt auch I.W. Molenaar [Mol70] und [Mol73]. Danach sind spezielle Wurzeltransformationen am besten für die Approximation der Binomialverteilung geeignet; für kleines p (in den Verteilungsenden, z. B. p = 0, 001 bis p = 0, 05) ist die Formel nach Mosteller und Tukey [MT49] (5.58), für 0, 05 < p < 0, 93 der Ansatz nach Freeman und Tukey [FT50] (5.59) zu verwenden (falls p > 0, 5, sind p und q zu vertauschen). Z4 = Z5 =
4q(X + 1) − 4p(n − X)
(mit p ≤ 0, 5)
q(4X + 3) − p(4n − 4X − 1)
(mit p ≤ 0, 5)
(5.58) (5.59)
In Tabelle 5.3 sind die unterschiedlichen Approximationen (Z1 bis Z5 ) für zwei typische Beispiele gegenübergestellt. Tabelle 5.3: Approximation der Binomialverteilung durch die Standardnormalverteilung; Vergleich unterschiedlicher Transformationen exakt normal arcsin arcsin Wurzel Wurzel p n X binomial nach (5.54) nach (5.56) nach (5.57) nach (5.58) nach (5.59) 0.05 100 10 P (X > 10) 0.0115 0.0058 0.0271 0.0132 0.0131 0.0156 0.50 10 8 P (X > 8) 0.0107 0.0134 0.0209 0.0127 0.0125 0.0104
5.3 Diskrete Verteilungen > > > > > > > > > > > > > > > > > > > > > >
239
p DI_ t e s t k o b s v p beob r . h a t p . h a t round ( dnbinom ( 0 : 1 1 , 3 . 9 6 , 0 . 5 5 ) ∗ 6 0 , 0 ) [ 1 ] 6 10 11 10 8 6 4 2 1 1 1 0
Zahlreiche Anwendungen der negativen Binomialverteilung, besonders in der Ökonometrie, basieren auf einer Parametrisierung der Wahrscheinlichkeitsfunktion mit Hilfe des Erwartungswertes (Ehrenberg [Ehr86]). r Mit p= μ+r wird aus (5.74): k + r − 1 r r μ k P (X = k) = (5.79) k μ+r μ+r In dieser Darstellung ist zu erkennen, dass die Verteilung neben dem Erwartungswert μ durch einen weiteren Parameter r (häufig auch mit s (engl. size) bezeichnet) bestimmt wird. Die negative Binomialverteilung kann daher als eine Verallgemeinerung der Poissonverteilung betrachtet werden. Sie stellt dieselben Voraussetzungen an das Zufallsexperiment, erfordert aber nicht, dass die „durchschnittliche Rate“ konstant ist. Damit ergeben sich für die negative Binomialverteilung mehr Möglichkeiten der Anwendung. Die beiden Parameter der negativen Binomialverteilung können aus den Beobachtungen durch den arithmetischen Mittelwert (¯ x) und die empirische Varianz (s2 ) wie folgt geschätzt werden: μ ˆ=x ¯
und
rˆ =
x ¯2 s2 − x ¯
(5.80)
5.3 Diskrete Verteilungen
255
Beispiel (Markenartikel): Die Anzahl der Käufe eines Markenartikels nach dem Prozentsatz der kaufenden Haushalte ist in der folgenden Tabelle angegeben (Ehrenberg [Ehr86]). Die beobachteten Anteile können mit dem Modell einer negativen Binomialverteilung (mit den Parametern μ = 3, 4 und r = 0, 5) wesentlich besser erklärt werden als mit einer Poisson-Verteilung (mit dem Parameter λ = 3, 4). kaufende Haushalte (%) beobachtet neg. binomial Poisson
0 39 36 3
1 14 16 11
Anzahl der Käufe in einem halben Jahr 2 3 4 5 6 7 8 10 6 4 4 3 3 2 10 7 6 4 4 3 2 19 22 19 13 7 3 1
9 2 2 1
5
10+ 13 2(+8) 0
Die Käufe folgen einer Mischung von Poisson-Verteilungen , da verschiedene Verbraucher unterschiedlich oft kaufen. Insbesondere die extreme Schiefe, wegen der stark besetzten „Null“-Klasse, kann durch die Poisson-Verteilung nicht ausreichend erfasst werden. Die Rechnungen sind mit Hilfe der entsprechenden Funktionen dnbinom() und dpois() in R einfach nach zu vollziehen. > m round ( d p o i s ( x , m) ∗n , 0 ) [ 1 ] 3 11 19 22 19 13 7 3 1 1 0
5.3.7 Geometrische Verteilung Die geometrische Verteilung ist ein Spezialfall der negativen Binomialverteilung. Hier wird eine Serie von Bernoulli-Versuchen so lange durchgeführt, bis das erste Mal ein Erfolg eintritt. Der Wertebereich der Zufallsvariablen, X-Anzahl der Versuche bis zum ersten Erfolg, ist abzählbar unendlich W = 1, 2, 3, . . .. P (X = k) = p · (1 − p)k−1
(5.81)
Die geometrische Verteilung ist eine der wenigen diskreten Verteilungsmodelle, in denen auch die Verteilungsfunktion explizit angegeben werden kann: F (n) = P (X ≤ n) = 1 − (1 − p)n
für n = 1, 2, 3, . . .
(5.82)
Beispiel (Mensch, ärgere Dich nicht): Das erste Auftreten einer „Sechs“ im Spiel „Mensch, ärgere Dich nicht“ kann mit dem Modell einer geometrischen Verteilung beschrieben werden. Wahrscheinlichkeitsfunktion und Verteilungsfunktion (nach (5.81) und (5.82)) sind in Abbildung 5.15 für die ersten 20 Versuche dargestellt.
5
5 Zufallsvariablen, Verteilungen
0.6 0.0
0.00
0.2
0.4
F(x)
0.10 0.05
f(x)
0.15
0.8
1.0
0.20
256
0
5
10
15
20
0
5
10
15
20
Abbildung 5.15: Geometrische Verteilung: Anzahl der Würfe bis zur 1. Sechs bis für n ≤ 20 Erwartungswert und Varianz der geometrischen Verteilung sind in (5.83) angegeben (vgl. auch die negative Binomialverteilung in (5.77) mit r = 1): Erwartungswert:
μ=
1−p p
(1 − p) p2 1 Variationskoeffizient: CV = (1 − p) 1 2 2. Moment: · −1 p p
Varianz:
σ2 =
(5.83)
Hinweis: Ist von einer geometrisch verteilten Zufallsvariablen bekannt, dass ihr Wert größer als n ist, dann ist die (bedingte) Wahrscheinlichkeit dafür, dass sie diesen Wert um k übertrifft, genauso so groß wie die Wahrscheinlichkeit, dass sie den Wert k annimmt. P (X = n + k|X > n) = P (X = k)
für n, k = 1, 2, . . .
(5.84)
Diese Eigenschaft (5.84) kennzeichnet die so genannte Gedächtnislosigkeit der geometrischen Verteilung („memoryless“). Die entsprechende stetige Verteilung ist das Modell der Exponentialverteilung (vgl. Abschnitt [5.4.7]).
5.3 Diskrete Verteilungen
257
5.3.8 Hypergeometrische Verteilung Urnenmodell: In einer Urne befinden sich N Kugeln, von denen W Kugeln weiß und S = N −W Kugeln schwarz sind (N = W + S). Aus dieser Urne werden nun n Kugeln „ohne Zurücklegen“ gezogen. Gesucht ist die Wahrscheinlichkeit, dass darunter genau k weiße und n−k schwarze Kugeln auftreten. Diese Modellvorstellung führt auf die hypergeometrische Verteilung. Verteilungen zu unterschiedlichen Urnenmodellen sind in der folgenden Übersicht gegenübergestellt. Übersicht 19: Zusammenhang zwischen den Verteilungen von vier Urnenmodellen Modell Zahl der Erfolge bei fest vorgegebener Anzahl von Ziehungen Zahl der Ziehungen bis zu einer fest vorgegebenen Anzahl von Erfolgen
Stichprobenziehen mit Zurücklegen ohne Zurücklegen Binomial-Verteilung hypergeom. Verteilung (5.48) Seite 230 (5.85) Seite 257 negat. Binomialverteilung negat. hyperg. Verteilung (5.74) Seite 251 (5.91) Seite 261
Die hypergeometrische Verteilung wird durch die Wahrscheinlichkeitsfunktion (5.85) mit den Parametern W , S und n beschrieben: ⎧ N −W W ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ k n− k N P (X = k) = ⎪ ⎪ n ⎪ ⎪ ⎪ ⎩ 0
für
max(0; W + n − N ) ≤ k und k ≤ min(n; W )
(5.85)
sonst
Beispiel (Urnenmodell): Betrachten wir eine Urne mit W = 5 weißen und S = 10 schwarzen Kugeln. Gefragt ist nach der Wahrscheinlichkeit, zufällig genau w = 2 weiße und s = 3 schwarze Kugeln zu ziehen. Wir erhalten für P (X = 2) = P (2 von 5 weißen Kugeln und 3 von 10 schwarzen Kugeln) = ! ! 5 10 (5!/3! · 2!)(10!/7! · 3!) 5 · 4 · 10 · 9 · 8 · 5 · 4 · 3 · 2 · 1 2 !3 = = = 0,3996, 15 15!/10! · 5! 2 · 1 · 3 · 2 · 1 · 15 · 14 · 13 · 12 · 11 5 eine Wahrscheinlichkeit von rund 40%. In R stehen für Rechnungen nach dem Modell der hypergeometrischen Verteilung die Funktionen dhyper(), phyper(), qhyper() und rhyper() zur Verfügung. > # d h y p e r ( k , W, S , n ) > dhyper ( 2 , 5 , 1 0 , 5 ) [ 1 ] 0.3996004
5
258
5
5 Zufallsvariablen, Verteilungen
Beispiel (Urnenmodell): Gegeben sei eine Urne mit 4 blauen (B) und 3 roten (R) Kugeln, dann gelten für die entsprechenden Ereignisse die Wahrscheinlichkeiten: (1) eine blaue Kugel zu ziehen P (B) = 4/7 (2) eine rote Kugel zu ziehen P (R) = 3/7 (3) eine blaue Kugel sei entnommen, anschließend ist eine rote zu ziehen P (R|B) = 3/6 = 1/2 (4) eine rote Kugel sei entnommen, anschließend ist eine blaue zu ziehen P (B|R) = 4/6 = 2/3 (5) entweder zuerst eine blaue und dann eine rote zu ziehen oder zuerst eine rote und dann eine blaue zu ziehen (Multiplikationssatz) P (B) · P (R|B) = P (R) · P (B|R) = P (B ∩ R) (4/7)(1/2) = (3/7)(2/3) = 2/7 (6) beide zugleich zu ziehen d. h. sowohl eine von den 4 blauen (1 von 4) und eine von den 3 roten (1 von 3) ( 7 4 3 = 4 · 3/[7 · 6/(1 · 2)] = 4/7 . P (1 von 4, 1 von 3) = 2 1 1 Erwartungswert und Varianz der hypergeometrischen Verteilung sind in (5.86) angegeben: W = np N N −n σ 2 = np(1 − p) N −1
Erwartungswert: μ = n Varianz: 2. Moment:
np
(5.86)
(N − W ) + n(W − 1) N −1
Ist n/N klein, so wird diese Verteilung praktisch mit der Binomialverteilung identisch. Dementn N −n 1− 1 sprechend strebt auch die Varianz gegen die der Binomialverteilung (vgl. N −1 N für N n). Die hypergeometrische Verteilung kann u. a. im Rahmen der Qualitätsüberwachung und für die Abschätzung des unbekannten Umfangs N einer Population ( z. B. Wildbestände) verwendet („Wildlife Tracking“) werden:
5 5
Beispiel (Fische zählen): Aus einem Teich werden M Fische gefangen, markiert und wieder ausgesetzt. Nach einer gewissen Zeit, wenn von einer „guten Durchmischung“ der Fischpopulation ausgegangen werden kann, werden zufällig k Fische gefangen, darunter beobachtet man m > 0 markierte Fische. Zu erwarten ist ein ähnliches Zahlenverhältnis der wieder gefangenen markierten Fische zu den gefangenen wie das der gefangenen zu allen Fischen im Teich. Das führt heuristisch ˆ = k · M/m für die Größe der Population N . zu dem Schätzer N Beispiel (Studenten): Nehmen wir an, wir hätten 10 Studenten, von denen 6 Biochemie und 4 Statistik studieren. Eine Stichprobe von 5 Studenten sei ausgewählt. Wie groß ist die Wahrscheinlichkeit, dass unter den 5 Studenten 3 Biochemiker und 2 Statistiker sind? 6 4 (6!/[3! · 3!])(4!/[2! · 2!]) 3 2 = P (3 von 6 B., 2 von 4 S.) = 6+4 10!/[5! · 5!]) 3+2 6·5·4·4·3·5·4·3·2·1 20 = = = 0,4762 . 3 · 2 · 1 · 2 · 1 · 10 · 9 · 8 · 7 · 6 42 Die Wahrscheinlichkeit beträgt damit erwartungsgemäß fast 50%.
5.3 Diskrete Verteilungen
259
Beispiel (Lotto): Gegeben seien die ganzen Zahlen von 1 bis 49. Hiervon sind 6 zu wählen. Wie groß ist die Wahrscheinlichkeit dafür, vier richtige Zahlen gewählt zu haben? ( 49 15 · 903 6 43 = P (4 von 6, 2 von 43) = 6 2 4 13 983 816
5
> dhyper ( 4 , 6 , 4 3 , 6 ) [ 1 ] 0.0009686197
P
13,545 · 103 0,969 · 10−3 , d. h. knapp 0,001. 13,984 · 106
1.0 0.8 0.6 0.0
0.2
0.4
F(x)
0.3 0.2 0.0
0.1
f(x)
0.4
0.5
Die Wahrscheinlichkeit, mindestens 4 richtige Zahlen zu wählen, liegt( ebenfalls noch unter 1 Pro49 = 1/13 983 816 ≈ mille. Die Wahrscheinlichkeit, 6 richtige Zahlen zu wählen, beträgt 1 6 7 · 10−8 . Ein vollständiges Modell ist in Abbildung 5.16 wiedergegeben.
0 1 2 3 4 5 6 7
0 1 2 3 4 5 6 7
Abbildung 5.16: Hypergeometrische Verteilung: Anzahl der „Richtigen“ unter 6 aus 49 (Lotto) Beispiel (Ausschussware): Eine Grundgesamtheit aus 100 Elementen enthalte 5% Ausschuss. Wie groß ist die Wahrscheinlichkeit, in einer 50 Elemente umfassenden Stichprobe (a) kein bzw. (b) ein Ausschussstück zu finden? 5 95 · 95! · 5! · 50! · 50! 95! · 50! 0 50 = = Zu a: P (50 von 95, 0 von 5) = 95 + 5 50! · 45! · 5! · 0! · 100! 45! · 100! 50 + 0 1,0330 · 10148 · 3,0414 · 1064 = 0,02823 = 1,1962 · 1056 · 9,3326 · 10157 5 95 · 95! · 5! · 50! · 50! 1 49 = Zu b: P (49 von 95, 1 von 5) = 95 + 5 49! · 46! · 4! · 1! · 100! 49 + 1 95! · 50! · 50! =5· = 0,1529 49! · 46! · 100! > dhyper ( 5 0 , 9 5 , 5 , 5 0 ) [ 1 ] 0.02814225 > dhyper ( 4 9 , 9 5 , 5 , 5 0 ) [ 1 ] 0.152947
5
260
5
5 Zufallsvariablen, Verteilungen
Beispiel (Annoncen in einer Zeitschrift): Werden im Laufe eines Jahres von W = 52 aufeinanderfolgenden Nummern einer Wochenzeitschrift A = 10 beliebige Ausgaben mit einer bestimmten ¯ Wahrscheinlichkeit, dass ein Leser von w = 15 beliebigen NumAnzeige versehen, dann ist die ¯ mern kein Heft mit einer Annonce erhält (a = 0) ( W A W −A P (a von A, w von W ) = w w−a a Die „manuelle“ Rechnung über die entsprechenden Binomialkoeffizienten kann unter Verwendung der Logarithmen vereinfacht werden: lg 42! = 51,14768 10 52 − 10 lg 15! = 12,11650 15 − 0 0 lg 37! = 43,13874 oder P (0 von 10, 15 von 52) = 52 ⎤ 106,40292 n 15 =1, d. h. vgl. lg 15! = 12,11650 ⎥ ⎥ 0 lg 27! = 28,03698 ⎥ − 42 ⎦ lg 52! = 67,90665 42! · 15! · 37! 15 108,06013 P = = 52 15! · 27! · 52! lg P = 0,34279−2 15 P = 0,02202 2,2% Damit beträgt die Wahrscheinlichkeit, mindestens eine Anzeige zu sehen, knapp 98%. > dhyper ( 0 , 1 0 , 4 2 , 1 5 ) [ 1 ] 0.02201831
Die verallgemeinerte hypergeometrische Verteilung (polyhypergeometrische Verteilung) ( N1 N2 Nk N P (n1 , n2 , . . . , nk |N1 , N2 , . . . , Nk ) = (5.87) ... n n1 n2 nk gibt die Wahrscheinlichkeit an, dass in einer Stichprobe vom Umfang n gerade n1 , n2 , . . . nk Beobachtungen mit den Merkmalen A1 , A2 , . . . Ak auftreten, wenn in der Grundgesamtheit vom Umk Ni = fang N die Häufigkeiten dieser Merkmalsausprägungen N1 , N2 , . . . , Nk betragen und i=1
N und
k
ni = n gelten. Die Parameter (für die ni ) sind:
i=1
Erwartungswerte: μi = n Varianzen:
Ni N
σi2 = npi (1 − pi )
N −n N −1
(5.88)
5.3 Diskrete Verteilungen
261
5.3.8.1 Approximationen der Hypergeometrischen Verteilung 1. Für großes N1 und N2 und im Vergleich hierzu kleines n (n/N < 0,1; N ≥ 60) kann die hypergeometrische Verteilung durch die Binomialverteilung approximiert werden p = N1 /(N1 + N2 ). 2. Für np ≥ 4 kann
zˆ = (n1 − np)/
npq(N − n)/(N − 1)
(5.89)
als angenähert standardnormalverteilt aufgefasst werden (vgl. Übersicht 21 auf Seite 320). Die kumulierte Wahrscheinlichkeit der hypergeometrischen Verteilung ( N1 N1 N2 N P (X ≤ k = n1 |N ; N1 ; n) = n n n 1 2 n =0 1
lässt sich für n ≤ N1 ≤ N/2 besser nach (5.90) approximieren ( [Mol70]): zˆ = 2 (k+0,9)(N −N1 −n+k+0,9)− (n−k−0,1)(N1 −k−0,1) / N −0,5
(5.90)
In (5.90) ist für 0,05 ≤ P ≤ 0,93 der Wert 0,9 durch 0,75; 0,1 durch 0,25 und 0,5 durch 0 zu ersetzen; für extremere P -Werte ersetze man 0,9 durch 1; 0,1 durch 0 und 0,5 durch 1. Beispiel: P (X ≤ 1|10; 5; 5) = 0,103; zˆ (nach 5.90) = 1,298, d. h. P = 0,0971; mit 0,75; 0,25 und 0 folgt über zˆ = 1,265 der Wert P = 0,103. 3. Für kleines p, großes n und im Vergleich zu n sehr großes N (n/N ≤ 0,05) lässt sich die hypergeometrische Verteilung durch die Poisson-Verteilung annähern (λ = np). 5.3.9 Negative Hypergeometrische Verteilung Urnenmodell: In einer Urne befinden sich N Kugeln, von denen W Kugeln weiß und S = N −W Kugeln schwarz sind (N = W + S). Aus dieser Urne werden nun solange Kugeln „ohne Zurücklegen“ gezogen, bis eine fest vorgegebene Zahl k weißer Kugeln vorliegt. Betrachtet wird die Wahrscheinlichkeit für die Anzahl gezogener schwarzer Kugeln s bis zu dem gewünschten Erfolg bzw. Misserfolg. Die Modellvorstellung führt auf eine negative hypergeometrische Verteilung (vgl. Übersicht 19 auf Seite 257). Die Zufallsvariable X - Zahl der gezogenen schwarzen Kugeln, um k weiße Kugeln zu erhalten weist eine negative hypergeometrische Verteilung auf und kann die Werte 0, 1, 2, . . . , S annehmen. Die Wahrscheinlichkeitsfunktion (5.91) wird durch die drei Parameter W , S und k bestimmt. ⎧ s+k−1 S−s+W −k ⎪ ⎪ ⎪ ⎪ ⎪ s ⎨ W − k N P (X = s) = ⎪ ⎪ W ⎪ ⎪ ⎪ ⎩ 0
für
sonst
0≤s≤S
(5.91)
5
262
5 Zufallsvariablen, Verteilungen
Eine zusammenfassende übersichtliche Darstellung und Details zur negativen hypergeometrischen Verteilung findet sich in N. Balakrishnan und V.B. Nevzorov [BN03] sowie G. Blom et. al [BHS94]. Der Erwartungswert und die Varianz der negativen hypergeometrischen Verteilung sind in (5.92) angegeben. Erwartungswert: μ =
k·S W +1
σ2 =
Varianz:
k · (S + W + 1) · S · (W − k + 1) (W + 1)2 (W + 2)
(5.92)
Beispielsweise erhält man mit W = 2, S = 3 und k = 2 die Werte P (X = 0) P (X = 1) P (X = 2) P (X = 3) 0,1 0,2 0,3 0,4 mit insgesamt n = 2 3 4 5
Ziehungen
und berechnet nach (5.92) den Erwartungswert und die Varianz: E[X] = μ =
2·3 =2 2+1
bzw.
V ar[X] = σ 2 =
36 2(3 + 2 + 1)3(2 − 2 + 1) = =1 (2 + 1)2 (2 + 2) 36
.
In R können diese Wahrscheinlichkeiten elementar durch die Funktion choose() bestimmt werden: > + + + + + > > P
5
n h y p e r n > p [1] > q [1] > > W [1]
5
+1) = P (Z ≤ −1) = 0, 15866 P (85[mg/dl] ≤ X ≤ 105[mg/dl]) = P (Z ≤ 1, 5) − P (Z ≤ −0, 5) = 0, 93319 − 0, 30854 = 0, 62465 0.04
(b)
0.00
5
5 Zufallsvariablen, Verteilungen
60
70
80
90
100
110
120
60
70
80
90
100
110
120
Abbildung 5.25: Drei Wahrscheinlichkeiten zum Beispiel „Nüchternblutzucker“ > pnorm ( 7 5 , mean =90 , sd = 1 0 ) [ 1 ] 0.0668072 > pnorm ( 1 0 0 , mean =90 , sd =10 , l o w e r . t a i l =FALSE ) [ 1 ] 0.1586553 > pnorm ( 1 0 5 , mean =90 , sd = 1 0 ) − pnorm ( 8 5 , mean =90 , sd = 1 0 ) [ 1 ] 0.6246553
5.4.3.1 Zentrale Schwankungsintervalle der Standardnormalverteilung Aufschlussreich für die Beurteilung der Verteilung einer normalverteilten Zufallsvariablen sind die folgenden zentralen Schwankungsintervalle: μ ± 1,96σ μ ± 2,58σ μ ± 3,29σ
oder oder oder
z = ±1,96 mit 95 % der Gesamtfläche z = ±2,58 mit 99 % der Gesamtfläche z = ±3,29 mit 99,9 % der Gesamtfläche
(5.110)
Die Flächenanteile der zentralen Schwankungsintervalle für die Standardnormalverteilung (Abbildung 5.26) enthalten die Formeln in (5.111). Darunterliegende (d. h. linksseitige) Flächenanteile sowie darüber liegende (d. h. rechtsseitige) Flächenanteile sind als Formeln in (5.114) angegeben. Weitere Wahrscheinlichkeiten für rechts und linksseitige Flächenanteile können natürlich auch mit Hilfe der Tabelle 5.6 bestimmt werden. μ ± 1σ μ ± 2σ μ ± 3σ
oder z = ±1 mit 68,27 % der Gesamtfläche oder z = ±2 mit 95,45 % der Gesamtfläche oder z = ±3 mit 99,73 % der Gesamtfläche
μ ± 4σ
oder
z = ±4 mit 99,98 % der Gesamtfläche
(5.111)
5.4 Stetige Verteilungen
275
Abbildung 5.26: Flächenanteile (Quantile) für eine Normalverteilung; die letzte Zeile enthält die Transformation zur Standardnormalverteilung N (0, 1); siehe auch Sigma-Regeln in 5.111 Die sog. „Drei-Sigma-Regel“ besagt, dass beim Vorliegen einer Normalverteilung außerhalb der Grenzen μ ± 3σ kaum noch gültige Beobachtungen vorliegen. Dies ist so nicht richtig; denn für kleine Stichproben ist diese „Regel“ zu konservativ und für große Stichproben ist sie zu liberal. Eine ausführliche Begründung der Drei-Sigma-Regel gibt F. Pukelsheim [Puk94]. Eine Abweichung um mehr als σ vom Erwartungswert ist etwa einmal in je drei Versuchen zu erwarten, eine Abweichung um mehr als 2σ etwa nur einmal in je 22 Versuchen und eine Abweichung um mehr als 3σ etwa nur einmal in je 370 Versuchen, anders ausgedrückt: die Wahrscheinlichkeit, dass sich ein Wert X vom Erwartungswert absolut genommen um mehr als 3σ unterscheidet, ist mit knapp 0,3 % wesentlich kleiner als 0,01. P (|X − μ| > 3σ) = 0,0027
(5.112)
Lage der mittleren 95% der Zufallsvariablen X und Z: P (μ − 1,96σ ≤ X ≤ μ + 1,96σ) = 0,95 P (−1,96 ≤ Z ≤ 1,96) = 0,95
(5.113)
Beide Beziehungen in (5.113) sind gleichwertig, verbalisiert: 1. Die Wahrscheinlichkeit, dass eine normalverteilte Zufallsvariable X mit den Parametern μ und σ zwischen −1,96σ und +1,96σ liegt, einschließlich dieser Grenzen, beträgt 0,95. 2. Die Wahrscheinlichkeit, dass eine standardnormalverteilte Zufallsvariable Z (mit den Parametern μ = 0 und σ = 1) zwischen den z-Schranken −1,96 und +1,96 liegt, einschließlich dieser Grenzen, beträgt 0,95 .
276
5 Zufallsvariablen, Verteilungen
Bevorzugt man als z-Schranken ganze Zahlen, so resultieren für die Wahrscheinlichkeiten der Standardnormalvariablen Z folgende zentrale und nichtzentrale Intervalle (5.114):
P (−1 ≤ Z ≤ +1) P (−2 ≤ Z ≤ +2) P (−3 ≤ Z ≤ +3) P (−4 ≤ Z ≤ +4)
= 0,68269 = 0,95450 = 0,99730 = 0,99994
P (Z ≥ 1) = 0,15866 P (Z ≤ 1) = 0,84134 P (Z ≥ 2) = 0,02275 P (Z ≤ 2) = 0,97725 P (Z ≥ 3) = 0,00135 P (Z ≤ 3) = 0,99865 P (Z ≥ 4) = 0,00003 P (Z ≤ 4) = 0,99997
(5.114)
Der Schrankenwert 1,96 bedeutet bei: 1. zweiseitiger Fragestellung, dass unterhalb von −1,960 und oberhalb von 1,960 insgesamt („zweiseitige Schranken“) 5% aller Werte der Standardnormalvariablen liegen (Irrtumswahrscheinlichkeit α = 0,05), 2. einseitiger Fragestellung, dass oberhalb von 1,960 („einseitige obere Schranke“) genau 2,5 % aller Werte der Standardnormalvariablen liegen (Irrtumswahrscheinlichkeit α = 0,025). Mitunter interessiert die einseitige Fragestellung in die andere Richtung: unterhalb von −1,960 („einseitige untere Schranke“) liegen dann ebenfalls 2,5 % aller Werte (Irrtumswahrscheinlichkeit α = 0,025; −1,960 heißt 2,5te Perzentil, 1,960 ist das 97,5te Perzentil und 1,645 ist das 95te Perzentil). 5.4.3.2 Hinweise und Beispiele zur Normalverteilung Ein Modell ist eine das Wesentliche eines Sachverhaltes erfassende formalisierte Darstellung. Ein statistisches Modell ist eine Beschreibung der Wahrscheinlichkeitsverteilung der Daten, die als beobachtete Zufallsvariablen (Zufallsveränderliche) aufgefasst werden. Meist ist man an den unbekannten Parametern dieser Wahrscheinlichkeitsverteilung und an Wahrscheinlichkeiten interessiert. Der Name „normal distribution“ (Normalverteilung) wurde im Jahr 1893 durch Karl Pearson (1857–1936) eingeführt; entdeckt wurde sie 1721 durch Abraham De Moivre (1667–1754), wiederentdeckt und angewandt durch Laplace (1749–1827) und Gauss (1777–1855). Das Modell der Normalverteilung [N (μ, σ 2 )] ist: (1) ein idealisiertes Modell für empirische Häufigkeitsverteilungen, (2) bedeutungsvoll als theoretische Verteilung, (3) viele theoretische Verteilungen lassen sich durch eine N (μ, σ 2 ) gut annähern. Verteilung des Stichprobenmittelwertes bei bekannter Varianz: ¯= 1 Xi ; X n i=1 n
¯ = μ; E(X)
¯ = σ2 = Var(X) x ¯
σ ¯ √ -verteilt X ist N μ; n ¯ − μ√ X n ist N (0, 1)-verteilt Z= σ
σ2 : n
(5.115)
5.4 Stetige Verteilungen
277
Verteilung der Differenz von Stichproben-Mittelwerten bei bekannter Varianz: Gegeben seien zwei voneinander unabhängige nach N (μ1 , σ12 ) bzw. N (μ2 , σ22 ) verteilte Zufalls¯2: ¯ 1 und X stichproben mit X ¯2, ¯1 − X D=X ⎛ ' D ist verteilt wie N ⎝δ;
δ = μ1 − μ2 ;
⎞ σ12 σ22 ⎠ , + n1 n2
E(D) = δ;
Var(D) =
σ12 σ2 + 2 n1 n2
d. h.:
Z = 'D − δ ist N (0, 1)-verteilt σ12 σ22 + n1 n2
(5.116)
Ist σ1 = σ2 = σ und σ bekannt, dann vereinfacht sich (5.116) zu: Z=
D−δ
n 1 + n2 σ· n1 n2
(5.117)
Hinweise: • Stichprobenverteilungen in den exakten Naturwissenschaften sind bisweilen angenähert normalverteilt, zumindest in ihrem mittleren Bereich. • Viele Stichprobenverteilungen lassen sich durch eine geeignete Transformation einer Normalverteilung annähern, beispielsweise indem man linkssteil verteilte Beobachtungswerte durch ihre Logarithmen ersetzt (vgl. Abschnitt [5.4.6]). • Mittelwerte und Summen beliebiger Verteilungen sind für hinreichend viele Beobachtungen angenähert normalverteilt. • Normalverteilung und Standardnormalverteilung sind mathematisch einfach zu handhaben. Tabellen der Standardnormalverteilung (z. B. Tabelle 5.6) liegen vor. • Normalverteilung und Standardnormalverteilung sind Ausgangspunkt wichtiger abgeleiteter Prüfverteilungen (t, χ2 , F , vgl. auch Übersicht 21 auf Seite 320). • Resultate, die für normalverteilte Zufallsvariable gelten, lassen sich in erster Annäherung auf nicht normalverteilte Zufallsvariable übertragen, vorausgesetzt der Stichprobenumfang ist hinreichend groß bzw. das Verfahren ist hinreichend robust gegenüber Abweichungen von der Normalverteilung. • Eine „schiefe Normalverteilung“, mit einem zusätzlichen Parameter λ für die Schiefe, kurz SN (μ, σ 2 ; λ), wird ausführlich von C.-H. Chang et al. [CLPC08] beschrieben; sie dient insbesondere zur Approximation der Binomialverteilung und anderer schiefer Verteilungsmodelle. Typisches für eine Normalverteilung: Typisch für eine Normalverteilung ist, dass ¯ und S 2 voneinander stochastisch unabhängig sind, X ¯ exakt normalverteilt ist, X 2 n Xi − μ nach χ2ν mit ν = n Freiheitsgraden verteilt ist. (3) σ i=1
(1) (2)
˜ ist angenähert normalverteilt. Daneben gilt: (a) μ ˜ = μ und (b) X
278
5 Zufallsvariablen, Verteilungen
•
Sind X1 und X2 unabhängige normalverteilte Zufallsvariablen aus N (μ1 , σ12 ) und N (μ2 , σ22 ), dann ist: μ = μ1 + μ 2 X = X1 + X2 normalverteilt mit (5.118) σ = σ12 + σ22
•
Sind Z1 und Z2 unabhängige standardnormalverteilte Zufallsvariablen, dann ist √ Z = (Z1 + Z2 )/ 2
standardnormalverteilt
(5.119)
Verallgemeinerung für wechselseitig unabhängige Standardnormalvariablen Z1 , . . . , Zn : √ Z = (Z1 + . . . + Zn )/ n •
verteilt
(5.120)
Verteilung einiger Schätzfunktionen aus normalverteilten Grundgesamtheiten: Nr. (1)
Schätzfunktion Xi
Verteilung N (μ, σ 2 )
Kommentar Einzelwerte
(2)
X1 + X 2 + . . . + Xn
N (nμ, nσ 2 )
Summe
(3)
(X1 + X2 + . . . + Xn )/n
N (μ, σ 2 /n)
Mittelwert
N (0, 1)
Transformation
N (0, 1)
Einstichproben-Gauss-Test (s.d.)
Xi − μ σ ¯i − μ √ X n σ
(4) (5) •
N (0, 1)
ist nach
Ergänzende Hinweise zur Standardnormalvariablen Z (1) Erwartungswert: E(Z) = E
X −μ σ
=
1 1 μ μ E(X) − E(μ) = − = 0 σ σ σ σ
(5.121)
(2) Varianz: Var(Z) = Var
X −μ σ
= Var
1 μ X− σ σ
X −μ −0 Var(Z) = E[Z − E(Z)] = E σ
= 2
2
=
1 σ2 Var(X) = =1 σ2 σ2
Var(Z) = E(Z ) − 2
=
μ2z
= E(Z ) − 0 = E 2
σ2 1 E[(X − μ)2 ] = 2 = 1 2 σ σ
1 σ2 Var(X) = 2 = 1 2 σ σ
=
1 E(X − μ)2 σ2 (5.122)
"
X −μ σ
2 #
5.4 Stetige Verteilungen
279
Beispiele: 1. Mit Hilfe der Funktion dnorm() lässt sich eine Normalkurve in R leicht skizzieren. > > > > > > >
mue mue pnorm ( 1 6 0 , mean=mue , sd = s i g ) − pnorm ( 1 3 0 , mean=mue , sd = s i g ) [ 1 ] 0.8185946 > qnorm ( 0 . 0 2 5 , mean=mue , sd = s i g ) [ 1 ] 130.4004 > qnorm ( 0 . 9 7 5 , mean=mue , sd = s i g ) [ 1 ] 169.5996
5
5. Wahrscheinlichkeiten für normalverteilte Zufallsvariablen: Für eine normalverteilte Grundgesamtheit mit μ= 12,00 und σ = 2,00 interessiere der Anteil der Werte oberhalb von x = 15,11. Mit z = (15,11-12,00)/2,00 = 3,11/2,00 = 1,555 sind P = 0,06 oder 6% aller Werte der Grundgesamtheit größer als 15,11. Aus Symmetriegründen (Skizze!) sind dann auch: (1) 6% aller Werte kleiner als 8,89; denn z = (8,89 − 12,00)/2,00 = −3,11/2,00 = −1,555; (2) 100% − 6% = 94% aller Werte nicht größer als 15,11; (3) 100% − 2 · 6% = 88% aller Werte im Bereich zwischen 8,89 und 15,11. Für die normalverteilte Zufallsvariable X und für die entsprechende Standardnormalvariable Z lassen sich diese Resultate so formulieren: (1) P (X > 15,11) = P (Z > 1,555) = 0,06 (vgl. auch Tabelle 5.6); (2) P (X < 8,89) = P (Z < −1,555) = 0,06; (3) P (X < 15,11) = 1 − 0,06 = 0,94; (4) P (8,89 < X < 15,11) = 0,88; da eine stetige Zufallsvariable vorliegt [P (X = x) = 0] gilt natürlich auch: (5) P (8,89 ≤ X ≤ 15,11) = 0,88. Für (4) bei nicht zu kleinen Zufallsstichproben aus angenähert normalverteilten Grundgesamtheiten erhält man anhand von zˆ = (xf − x ¯)/s eine Schätzung für den Anteil P der Werte, der größer (bzw. kleiner) ist als xf (wobei xf ein bestimmter fester Wert x ist). Für (1) würden wir dann z. B. P (X > 15,11) ≈ 0,06 schreiben.
5.4 Stetige Verteilungen
281
20 0
10
Häufigkeit
30
40
6. Das Zeichnen einer angepassten Normalverteilung: Es liege eine Stichprobe des Umfangs n mit den Statistiken x ¯ und s vor. Über das zugehörige Histogramm mit der Klassenbreite b und der Fläche b · n lässt sich dann eine Normalkurve zeichnen, deren Ordinate yˆ = (b n/s)f (z) beträgt; f (z) kann in R mit der Funktion dnorm() (mit μ = 0 und σ = 1) für z = (x− x ¯)/s (x sind jeweils die Klassenmitten) berechnet werden. Die Güte der Anpassung ist abzuschätzen (vgl. Abbildung 5.29).
0
5
10
15
20
Abbildung 5.29: Angepasste Normalverteilung auf der Grundlage von Histogrammdaten > > > > + > > > > >
mue
# Dichte Halbnormalverteilung ( s q r t ( 2 ) / ( s ∗ s q r t ( p i ) ) ) ∗exp(−x ^2 / ( 2 ∗ s ^ 2 ) ) # Fehlerfunktion erf c i . r a t i o x y d t . t e s t ( x , y , mu=0 , p a i r e d =TRUE , con . l e v e l = 0 . 9 5 ) P a i r e d t−t e s t d a t a : x and y , ... 95 p e r c e n t c o n f i d e n c e i n t e r v a l : 0.1781177 2.1218823 ...
Einseitige Vertrauensgrenzen lassen sich auch angeben. Als obere 95%-Vertrauensgrenze erhielte man nach (6.82) mit t7;0,95 = 1,895 über 1,15 + 1,895 · 0,411 = 1,15 + 0,78 den Wert 1,93, d. h. 95%-VGoben : μd = 1,93 bzw. μd ≤ 1,93. 6.8.5 Konfidenzintervall für das Verhältnis zweier Erwartungswerte Für λ = μ1 /μ2 , mit μ2 = 0, lässt sich nach Chakravarti [Cha71] ein (1 − α)-Konfidenzintervall angeben: P (λ− ≤ λ ≤ λ+ ) ≥ 1 − α mit √ λ± = (b ± b2 − ac)/a a=x ¯22 −
t2n2 −1,1−α/2 s22 n2
,
b=x ¯1 x ¯2 ,
c=x ¯21 −
und
(6.83)
t2n1 −1,1−α/2 s21 n1
Zu beachten ist, dass das Konfidenzintervall mindestens gleich und nicht genau gleich 1 − α ist.
6.8 Konfidenzintervalle für den Erwartungswert bei Normalverteilung
389
Beispiel: Für den Vergleich zweier Gruppen folgt Untersuchungsgruppe: Kontrollgruppe: ˆ = λ a = b = c = λ± =
n1 = 42 , x ¯1 = 11, 33 , s1 = 7, 59 n2 = 32 , x ¯2 = 15, 25 , s1 = 8, 55 t41;0,975 = 2, 02 , t31;0,975 = 2, 04 x ¯1 11, 33 = 0, 743 = x ¯2 15, 25 2, 042 · 8, 552 = 223, 06 15, 252 − 32 11, 33 · 15, 25 = 172, 78 2, 022 · 7, 592 11, 332 − = 122, 77 42 (172, 78 ± 29852, 928 − 223, 06 · 122, 77)/223, 06 λ+ = 0, 9973 , λ− = 0, 5519 95%-KI: 0, 552 ≤ λ ≤ 0, 997
6.8.6 Konfidenzintervall für Verhältniszahlen Eine Verhältniszahl ist ein Quotient zweier Kennziffern, der Auskunft gibt über Beziehungen zwischen zwei Erscheinungen. Etwa die mittlere Zahl der Einwohner pro Arzt, die mittlere Höhe der Ausgaben für Nahrungsmittel pro Haushaltseinkommen oder die mittlere Wertänderung von Einfamilienhäusern nach zwei Jahren, jeweils bezogen auf ein bestimmtes Gebiet. Für die Formeln werden die folgenden Bezeichnungen verwendet: N μy i=1 Yi = Grundgesamtheit: v = N μ x i=1 Xi n yi y¯ Zufallsstichprobe: vˆ = ni=1 = x ¯ x i i=1 Für nicht zu kleine Stichprobenumfänge (n > 20) und für den Fall, dass für beide Variationskoeffizienten gilt: sx /¯ x < 0, 1 und sy /¯ y < 0, 1, lässt sich ein angenähertes 95%-Konfidenzintervall für den Quotienten v in der Grundgesamtheit angeben:
N − n 1 2 2 vˆ ± 1, 96 v rsx sy ] (6.84) [ˆ v sx + s2y − 2ˆ Nn μ2x ¯. Hierbei sind s2x und s2y die beiden StichprobenvaIst μx unbekannt, so ersetze man μx durch x rianzen, sx und sy die entsprechenden Standardabweichungen und r ist der Stichprobenkorrelationskoeffizient. Sollte der r zugrundeliegende Parameter bekannt sein, so wird r durch ersetzt. Bei unendlich großer Grundgesamtheit ist [(N − n)/(N n)] durch [1/n] zu ersetzen. Liegen μx und r nicht vor, so ersetze man (6.84) durch (6.85) oder (6.86). $ % n n n 5 % N − n 1 2 2 vˆ ± 1, 96& x + y − 2ˆ v xi yi (n − 1) (6.85) v ˆ i i 2 nN x ¯ i=1 i=1 i=1
5
390
6 Schätzen
$ % n %N − n 1 (yi − xi y¯/¯ x)2 vˆ ± 1, 96& Nn x ¯2 i=1 n−1
(6.86)
Beispiele sind bei Bedarf z. B. Mendenhall und Mitarbeitern [MOS71] zu entnehmen. 6.8.7 Konfidenzintervall für den Erwartungswert einer Lognormalverteilung Sei X eine log-normalverteilte Zufallsvariable mit dem Erwartungswert E[X] = Θ und Y = log X die durch die Logarithmusfunktion transformierte Zufallsvariable mit E[Y ] = μ und V ar[Y ] = σ 2 , dann gilt: σ2 (6.87) Θ = exp μ + 2 Der Erwartungswert von X ist somit nicht gleich dem Antilogarithmus des Erwartungswertes von Y (Median) und kann nach X.H. Zhou und S. Gao [ZG97] aus einer Stichprobe der logarithmierten Werte yi = lg(xi ), i = 1, . . . , n durch (6.88) geschätzt werden. 2 = y¯ + sy log(θ) 2
(6.88)
2 s4y = sy + V ar[log(θ)] n 2(n − 1)
Ein einfacher Ansatz zur Bestimmung eines angenäherten Konfidenzintervalls orientiert sich dann ˜ = exp (μ): an der Lage des Medians Θ ,
exp y¯ ± tn−1, 1−α/2
s2y n
(6.89)
Hinsichtlich einer Intervallschätzung für den Erwartungswert von X ist diese Schätzung allerdings verzerrt. D.R. Cox empfiehlt in einer persönlichen Mitteilung (C.E. Land [Lan71]) die Verwendung eines Konfidenzintervalles aufgrund der Schätzungen in (6.88): ⎛ s2y ± z1−α/2 exp ⎝y¯ + 2
'
⎞ s2y s4y ⎠ + n 2(n − 1)
(6.90)
U. Olsson [Ols05] weist darauf hin, dass die Überdeckungseigenschaften des Intervalls (6.90) für kleine Stichproben besser sind, wenn anstelle des Quantils der Standard-Normalverteilung z1−α/2 das entsprechende Quantil der t-Verteilung verwendet wird.
5
Beispiel (Kohlenmonoxid aus [Ols05]): In der Nähe einer Mineralöl-Raffinerie in Kalifornien wurden in den Jahren 1990-1993 folgende Kohlenmonoxid-Werte gemessen: 12,5
20,0
4,0
20,0
25,0
170,0
15,0
20,0
15,0
Die beschreibende Statistik zu diesen Messwerten ist in der folgenden Tabelle zusammengefasst. CO-Wert (x) y = log(x)
Mittelwert Medianwert Standardabw. 33,5 20 51,54 2,963 2,996 0,97
6.9 Konfidenzintervalle für die mittlere absolute Abweichung
391
Die einfache Schätzung für ein 95%-Konfidenzintervall nach (6.89) mit Bezug auf den Median exp(ˆ y ) = 19, 36 führt auf [9, 15 − 40, 95]. Die Schätzung für den Erwartungswert nach (6.88) ist 31,13. Das entsprechende 95%-Konfidenzintervall nach Cox (6.90), hier mit dem Quantil der t-Verteilung berechnet, ist [12.31 − 78, 72]. > x . CO n
d a t a
1976 9.9 10.5 13.6 15.9 23.0 11.23 15.97
1980 3.1 8.8 16.8 24.6 41.4 10.35 23.25
y1 | t | ) ( Intercept ) 7.7288 2.8621 2.700 0.0428 ∗ x 0.4262 0.1897 2.246 0.0746 . ...
Auf der Grundlage der so geschätzten Standardabweichungen (Standardfehler) können dann Konfidenzintervalle zur Regression bestimmt werden. 6.14.2 Konfidenzintervalle für den Regressionskoeffizienten, für den Achsenabschnitt und für die Restvarianz Die Konfidenzintervalle für den Regressionskoeffizienten und für den Achsenabschnitt sind durch (6.142) gegeben. Darin bezeichnet t das entsprechende Quantil der t-Verteilung mit F G = n − 2 Freiheitsgraden. byx ± tn−2;1−α/2 · sbyx
und
ayx ± tn−2;1−α/2 · sayx
(6.142)
Beispiel: (für 95%-Konfidenzintervalle): Gegeben: byx = 0,426; sbyx = 0,190; n = 80; d. h. t78;0,975 = 1,99 byx ± tsbyx = 0,426 ± 0,378
5
95%-KI: 0,048 ≤ βyx ≤ 0,804
Gegeben: ayx = 7,729; sayx = 2,862; n = 80; d. h. t78;0,975 = 1,99 ayx ± tsayx = 7,729 ± 5,695
1,99 · 0,19 = 0,378 1,99 · 2,862 = 5,695
95%-KI: 2,034 ≤ αyx ≤ 13,424
2 erhält man nach: Das Konfidenzintervall für die Restvarianz σy·x
s2y·x (n − 2) s2y·x (n − 2) 2 ≤ σ ≤ y·x χ2(n−2;α/2) χ2(n−2;1−α/2) Beispiel: Gegeben: sy·x = 0,138; n = 80; P = 95% (d. h. α = 5% = 0,05; α/2 = 0,025; 1 − 0,025 = 0,975)
χ278;0,025 = 104,31
Das 95%-Konfidenzintervall lautet damit:
χ278;0,975 = 55,47
0,138 · 78 0,138 · 78 2 ≤ σy.x ≤ 104,31 55,47 95%-KI: 0,103 ≤ σy.x ≤ 0,194.
(6.143)
5
418
6 Schätzen
Tabelle 6.19: Zweiseitige Schranken der Studentisierten Maximum Modulus Verteilung tρ=0 ν;k;α = |M |ν;k;α (SMM-Verteilung) mit dem Parameter k und den Freiheitsgraden ν für den Korrelationskoeffizienten ρ = 0 und die Signifikanzstufen α = 0, 05 und α = 0, 01 (aus Hahn, G. J. and Hendrickson, R.W. (1971): A table of percentage points of the distribution of the largest absolute value of k Student t variates and its applications. Biometrika 58, 323-332, Table 1, p. 325; mit freundlicher Erlaubnis) k=1
2
3
4
5
ν=3 4 5 6 7 8 9 10 11 12 15 20 25 30 40 60
3,183 2,777 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,132 2,086 2,060 2,042 2,021 2,000
3,960 3,382 3,091 2,916 2,800 2,718 2,657 2,609 2,571 2,540 2,474 2,411 2,374 2,350 2,321 2,292
4,430 3,745 3,399 3,193 3,056 2,958 2,885 2,829 2,784 2,747 2,669 2,594 2,551 2,522 2,488 2,454
4,764 4,003 3,619 3,389 3,236 3,128 3,046 2,984 2,933 2,892 2,805 2,722 2,673 2,641 2,603 2,564
5,023 4,203 3,789 3,541 3,376 3,258 3,171 3,103 3,048 3,004 2,910 2,819 2,766 2,732 2,690 2,649
ν=3 4 5 6 7 8 9 10 11 12 15 20 25 30 40 60
5,841 4,604 4,032 3,707 3,500 3,355 3,250 3,169 3,106 3,055 2,947 2,845 2,788 2,750 2,705 2,660
7,127 5,462 4,700 4,271 3,998 3,809 3,672 3,567 3,485 3,418 3,279 3,149 3,075 3,027 2,969 2,913
7,914 5,985 5,106 4,611 4,296 4,080 3,922 3,801 3,707 3,631 3,472 3,323 3,239 3,185 3,119 3,055
8,479 6,362 5,398 4,855 4,510 4,273 4,100 3,969 3,865 3,782 3,608 3,446 3,354 3,295 3,223 3,154
8,919 6,656 5,625 5,046 4,677 4,424 4,239 4,098 3,988 3,899 3,714 3,541 3,442 3,379 3,303 3,229
6 8 α=0,05 5,233 5,562 4,366 4,621 3,928 4,145 3,664 3,858 3,489 3,668 3,365 3,532 3,272 3,430 3,199 3,351 3,142 3,288 3,095 3,236 2,994 3,126 2,898 3,020 2,842 2,959 2,805 2,918 2,760 2,869 2,716 2,821 α=0,01 9,277 9,838 6,897 7,274 5,812 6,106 5,202 5,449 4,814 5,031 4,547 4,742 4,353 4,532 4,205 4,373 4,087 4,247 3,995 4,146 3,800 3,935 3,617 3,738 3,514 3,626 3,448 3,555 3,367 3,468 3,290 3,384
10
12
15
20
5,812 4,817 4,312 4,008 3,805 3,660 3,552 3,468 3,400 3,345 3,227 3,114 3,048 3,005 2,952 2,900
6,015 4,975 4,447 4,129 3,916 3,764 3,651 3,562 3,491 3,433 3,309 3,190 3,121 3,075 3,019 2,964
6,259 5,166 4,611 4,275 4,051 3,891 3,770 3,677 3,602 3,541 3,409 3,282 3,208 3,160 3,100 3,041
6,567 5,409 4,819 4,462 4,223 4,052 3,923 3,823 3,743 3,677 3,536 3,399 3,320 3,267 3,203 3,139
10,269 7,565 6,333 5,640 5,198 4,894 4,672 4,503 4,370 4,263 4,040 3,831 3,713 3,637 3,545 3,456
10,616 7,801 6,519 5,796 5,335 5,017 4,785 4,609 4,470 4,359 4,125 3,907 3,783 3,704 3,607 3,515
11,034 8,087 6,744 5,985 5,502 5,168 4,924 4,739 4,593 4,475 4,229 3,999 3,869 3,785 3,683 3,586
11,559 8,451 7,050 6,250 5,716 5,361 5,103 4,905 4,750 4,625 4,363 4,117 3,978 3,889 3,780 3,676
Gibt man im konkreten Fall jeweils die drei 95%-KIe (6.142 und 6.143) an, so gilt nach Bonferroni für die Wahrscheinlichkeit, dass diese drei die entsprechenden Parameter erfassen oder überdecken P ≥ 1 − (0,05 + 0,05 + 0,05) = 0,85 (simultane Wahrscheinlichkeit: bei Unabhängigkeit Psim = 0,953 = 0,8573). Für α und β allein lässt sich mühelos anhand der beiden 95%Konfidenzintervalle (0,952 = 0,9025) ein simultanes 90%-Konfidenzintervall angeben. Sonst bevorzugt man bei t-Tests generell die Maximum Modulus t Prozedur, d. h. zweiseitige Schranken der Studentisierten Maximum Modulus-Verteilung für Rho gleich Null (Hahn [HH71], Tabelle 6.19). Erhält man z. B. für n Beobachtungspaare (xi , yi ) die vier Schätzwerte in (6.142), dann ist der Wert tn−2;0,975 durch den Wert |M |10;2;0,05 zu ersetzen, um Konfidenzintervalle zu erhalten, die mit einer Wahrscheinlichkeit von mindestens [1 − 0,05 =] 0,95 beide Parameter enthalten.
6.14 Konfidenzintervalle für die Parameter einer linearen Regression
419
6.14.3 Konfidenzintervalle und Prädiktionsintervalle für die Regressionsgerade Jede gegebene Regressionsgerade erfährt durch Veränderung von y¯ eine Parallelverschiebung nach oben oder unten. Verändert man den Regressionskoeffizienten b, so beginnt die Gerade um ihren Mittelpunkt (¯ x, y¯) zu rotieren (vgl. Abbildung 6.10). Wir benötigen zwei Standardabweichungen: 1. Die Standardabweichung für einen geschätzten Mittelwert yˆ an der Stelle x ¯ ' 1 (x − x ¯ )2 + sˆy = sy.x · n Qx ¯
(6.144)
2. Die Standardabweichung für einen vorausgesagten Einzelwert yˆ. an der Stelle x ' sˆy. = sy.x ·
1+
(x − x ¯ )2 1 + n Qx
(6.145)
Abbildung 6.10: Konfidenzintervall für die lineare Regression Folgende Konfidenzintervalle (KI) gelten für: 1. die gesamte Regressionsgerade (simultanes Konfidenzintervall): yˆ ±
2F(2,n−2) syˆ
(6.146)
¯
2. den Erwartungswert von Y [E(Y )] an der Stelle X = x: yˆ ± t(n−2) syˆ
(6.147)
¯
3. Prädiktionsintervall (prediction interval) für eine zukünftige Beobachtung Y an der Stelle X = x: yˆ ± t(n−2) syˆ. (6.148)
420
5
6 Schätzen
Diese Bereiche gelten nur für den Messbereich. Sie werden in Abhängigkeit von x durch Hyperbeläste begrenzt. Das Konfidenzintervall (6.146) ist von den drei Bereichen das weiteste, (6.147) ist das engste; für n → ∞ schrumpfen (6.146) und (6.147) gegen Null, (6.148) schrumpft gegen einen Streifen der Breite z · σy.x . Beispiel: Wir nehmen wieder das einfache Modellbeispiel (Tabelle 6.18), wählen vier x-Werte aus, zu denen die entsprechenden Punkte des simultanen Vertrauensbandes ermittelt werden sollen (95%-KI: d. h. F(2;5;0,025) = 8,43). Die x-Werte sollten innerhalb des gemessenen Bereiches liegen, sie mögen gleiche Abstände voneinander aufweisen. In Tabelle 6.20 bilden diese vier xWerte Spalte 1, ihre Abweichungen vom Mittelwert (¯ x = 14,714) sind in der folgenden Spalte notiert. Spalte 3 enthält die aufgrund der Regressionsgeraden yˆ = 7,729 + 0,426x für die ausgewählten x-Werte geschätzten yˆ-Werte. Die Abweichungen der x-Werte von ihrem Mittelwert werden quadriert, durch Qx = 77,429 dividiert und √ um (1/n) =√(1/7) vermehrt. Die Quadratwurzel aus diesem Zwischenergebnis liefert, mit 2F · sy·x = 2 · 8,43 · 1,67 = 6,857 multipliziert, die entsprechenden Bx Werte (vgl. yˆ ± Bx mit Bx = 2F(2;n−2) syˆ ). Verbindet man die erhaltenen Punkte des Vertrauensbereiches (y ± Bx ) (Tabelle 6.20) durch einen die oberen Punkte und einen die unteren Punkte erfassenden Kurvenzug, dann erhält man ein simultanes 95%-Vertrauensband für die gesamte Regressionsgerade. Werden mehr Punkte benötigt, dann sollte beachtet werden, dass aus Symmetriegründen die vier Bx -Werte praktisch acht Bx -Werte darstellen, es sind dann jeweils nur noch die vier restlichen yˆ-Werte zu ermitteln. Beispielsweise hat Bx denselben Wert bei x = 14, d. h. (¯ x − 0,714) und bei x = 15,428, d. h. (¯ x + 0,714). Tabelle 6.20: Schema zur Berechnung von Prädiktionsintervallen; Fortsetzung zu Tabelle 6.18 x 12 14 16 18
x−x ¯ -2,714 -0,714 1,286 3,286
yˆ 12,84 13,69 14,54 15,40
1 n
x) + (x−¯ Qx 0,488 0,387 0,405 0,531
2
Bx 3,35 2,65 2,78 3,64
y − Bx 9,49 11,04 11,76 11,76
y + Bx 16,19 16,34 17,32 19,07
Häufiger finden allerdings die beiden anderen Konfidenzintervalle Anwendung, die mit dem Quantil der t-Verteilung, in unserem Beispiel t5;0,975 = 2,57, bestimmt werden. Für den Punkt x = 16 sollen die Vertrauensgrenzen ermittelt werden, wobei wir zunächst Bx=16 nach (6.147) und an schließend Bx=16 nach (6.148) berechnen wollen: ' ' 1 (x−¯ 1 (16−14,714)2 x)2 Bx=konst. = tsy·x · + + =1,74 , d. h. z. B. B16 = 2,57·1,67· n Qx 7 77,429 Das 95%-Konfidenzintervall für eine Schätzung des Mittelwertes von y an der Stelle x = 16 ist dann durch das Intervall 14,54 ± 1,74 gegeben. Die Grenzwerte des Bereiches sind 12,80 und 16,28. In R kann die Bestimmung des Konfidenzintervalles durch die Funktion predict() erfolgen; die Schätzung ist mit est, die untere und obere Vertrauensgrenze mit lwr und upr bezeichnet. > new p r e d i c t ( lm ( y~x ) , new , i n t = " c " , l e v e l = 0 . 9 5 ) fit lwr upr 1 12.84317 10.74953 14.93681 2 13.69557 12.03656 15.35458 3 14.54797 12.80896 16.28698 4 15.40037 13.12028 17.68046
6.14 Konfidenzintervalle für die Parameter einer linearen Regression
' Bx=konst. = tsy·x ·
1+
' B16 = 2,57 · 1,67 ·
1+
421
(x − x ¯ )2 1 + , z. B. n Qx
1 (16 − 14,714)2 + = 4,63 7 77,429
Das 95%-Konfidenzintervall für eine Schätzung des Wertes y (Prädiktionsintervall) an der Stelle x = 16 ist durch das Intervall 14,54 ± 4,63 gegeben. Die Grenzwerte dieses Bereiches sind 9,91 und 19,17. Dieses Intervall ist als Bereich für Einzelwerte wesentlich größer als der oben berechnete Mittelwert-Bereich. Auch dieser Bereich kann in R mit der Funktion predict() bestimmt werden, wenn der Funktionsparameter int=p" gesetzt wird. > p r e d i c t ( lm ( y~x ) , new , i n t = " p " , l e v e l = 0 . 9 5 ) fit lwr upr 1 12.84317 8.068231 17.61812 2 13.69557 9.094586 18.29656 3 14.54797 9.917538 19.17840 4 15.40037 10.540783 20.25996
Beispiel (Flügelweite): Zusammenfassend soll an einem Beispiel die einfache lineare Regression mit dem Programm R gezeigt werden. Bei 13 Sperlingen unterschiedlichen Alters wurden die Flügelweiten gemessen. Die Ergebnisse sind in der folgenden Tabelle zusammengefasst. Alter (Tage) Flügel (cm)
3 1,4
4 1,5
5 2,2
6 2,4
8 3,1
9 3,2
10 3,2
11 3,9
12 4,1
14 4,7
15 4,5
16 5,2
17 5,0
Die Darstellung der Werte in einer Punktwolke (vgl. Abbildung 6.11) weist deutlich auf eine lineare Abhängigkeit hin, die durch die Funktion lm() (fitting linear models) näher analysiert wird. Der Achsenabschnitt ist a=0,71, der Regressionskoeffizient (Steigung) beträgt b=0,27. Zeichnet man die zugehörige Regressionsgerade in die Punktwolke ein, so wird die gute Annäherung von Beobachtung und Modell deutlich. Eine Statistik zu den Residuen und die Standardfehler für die Schätzung von Achsenabschnitt und Regressionskoeffizient (im Beispiel say x =0, 148 bzw. sby x =0,0135 können durch die Funktion summary() angezeigt werden. > alter f l u e g e l l a b x mod summary ( mod ) ... Residuals : Min 1Q Median 3Q Max −0.30699 −0.21538 0 . 0 6 5 5 3 0 . 1 6 3 2 4 0 . 2 2 5 0 7 Coefficients : E s t i m a t e Std . E r r o r t v a l u e Pr ( > | t | ) ( I n t e r c e p t ) 0.71309 0.14790 4 . 8 2 1 0 . 0 0 0 5 3 5 ∗∗∗ alter 0.27023 0 . 0 1 3 4 9 2 0 . 0 2 7 5 . 2 7 e−10 ∗∗∗ ... > a b par ( mfrow=c ( 1 , 1 ) , lwd =2 , f o n t =2 , f o n t . a x i s =2 , b t y = " l " , ps = 1 4 ) > p l o t ( a l t e r , f l u e g e l , t y p e = " p " , l a s =1 , + x l a b = l a b x , y l a b = l a b y , c e x = 1 . 5 , pch =16 , c o l = " b l u e " ) > t e x t ( 7 , 5 , "95%− K o n f i d e n z i n t e r v a l l " ) > c h o l . e s t l i n e s ( a l t e r , chol . est , l t y =1.2 , col =" black " )
5
6 Schätzen
Flügelspannweite [cm]
5
95%−Konfidenzintervall
5
Flügelspannweite [cm]
422
4
3
2
95%−Prädiktionsintervall
4
3
2
4
6
8
10
12
14
16
4
Alter [Tage]
6
8
10
12
14
16
Alter [Tage]
Abbildung 6.11: Lineare Regression: Flügelspannweite und Alter von Sperlingen; Regressionsgerade (Linie), 95%-Konfidenzintervall (Strich) und 95%-Prädiktionsintervall (Punkt-Strich) Die Schätzung der Flügelweite aus dem Alter nach dem linearen Modell kann durch die Funktion predict() angezeigt werden. Insbesondere werden Konfidenzintervalle bzw. Prädiktionsintervalle berechnet und können ebenfalls in Abbildung 6.11 eingezeichnet werden. > > + > >
newx l i n e s ( newx , c o n f _ band [ , 3 ] , c o l = " r e d " , l t y =4 , lwd = 3 )
6.14.4 Inverse Prädiktion aus einer linearen Regression Unter bestimmten Voraussetzungen kann es wünschenswert und sinnvoll sein, einen Wert der unabhängigen Variablen (xi ) zu bestimmen, der nach einem fest vorgegebenen Wert der abhängigen Variablen (yi ) unter dem gewählten (hier linearen) Modell zu erwarten ist (inverse Prädiktion). Für das Beispiel auf Seite 421 bedeutet dies, dass auf der Basis einer gemessenen Flügelweite auf das Alter des Vogels geschlossen werden soll. Wie alt ist ein Vogel, dessen Flügelweite z. B. 5,2cm beträgt? Eine einfache algebraische Umformung der linearen Regressionsgleichung führt auf x ˆi =
yi − ayx byx
(6.149)
Die Übertragung dieser Überlegung auf die Bestimmung eines geeigneten Konfidenzintervalles ist allerdings nicht so einfach, da dieses nicht symmetrisch verläuft. Das 1 − α-Konfidenzintervall für ein xi , zu einem gegebenen yi kann nach 6.150 berechnet werden. ' (yi − y¯)2 t byx (yi − y¯)2 1 2 +K 1+ ± sy.x x ¯+ x K K n (6.150) mit
K = b2yx − t2n−2,1−α/2 s2byx
6.15 Konfidenzintervall für den Korrelationskoeffizienten nach Pearson
423
6.15 Konfidenzintervall für den Korrelationskoeffizienten nach Pearson Das 95%-Konfidenzintervall für entnimmt man Abbildung 6.12 (aus David [Dav38]) an der über r errichteten Senkrechten zwischen den beiden mit dem betreffenden n versehenen Kurven. Nur dann, wenn der Vertrauensbereich den Wert = 0 nicht einschließt, kann von einer echten Korrelation ( = 0) gesprochen werden.
Abbildung 6.12: 95%-Konfidenzintervalle für den Korrelationskoeffizient ; die Zahlen an den Kurven bezeichnen den Stichprobenumfang (aus F.N. David: Tables of the Ordinates and Probability Integral of the Distribution of the Correlation Coefficient in Small Samples, The Biometrika Office, London 1938) Beispiel 1: Ein extremes Beispiel mit r = 0,5 und n = 3 mag dies illustrieren. Wir gehen mit r = +0,5 (Abszisse: Mitte der rechten Hälfte) in das Nomogramm ein und lesen über r = 0,5 die Höhen der beiden Kurven n = 3 auf der Ordinate ab: 1 −0,91 und 2 +0,98. Das < < Konfidenzintervall ist riesig (95%-KI: −0,91 +0,98) und lässt praktisch keine Aussage zu. Beispiel 2: Für r = 0,68 und n = 50 (vgl. Abb. 6.12) erhalten wir den 95%-KI: 0,50 und damit die Bestätigung einer echten formalen Korrelation (P = 0,05).
n r > zp s z p l w r . z > l w r . r u p r . r lwr . r ; upr . r [ 1 ] 0.5052731 [ 1 ] 0.8103824
6.16 Übereinstimmung und Präzision von Messwerten
425
Stichprobenumfang zur Schätzung von Die Berechnung des Stichprobenumfangs (Anzahl der Paarbeobachtungen) zur Schätzung von basiert auf der geforderten Weite (w = o − u ) des Konfidenzintervalles und einer Umrechnung in die z-Transformation ˙ nach (6.151). P ( u ≤ ρ ≤ o ) = 1 − α P (z˙u ≤ z˙ ≤ z˙o ) = 1 − α Mit
2z1−α/2 z˙o − z˙u = 2z1−α/2 · sz˙ = √ n−3
folgt für den Stichprobenumfang für ein (1-α)-Konfidenzintervall: n=4
z1−α/2 z˙o − z˙u
2 +3
(6.155)
5
Beispiel: Für die Schätzung von durch ein 95%-Konfidenzintervall der Form P (0,50 ≤ ≤ 0,80) = 0,95 werden 54 Paarbeobachtungen benötigt (s. obiges Beispiel). P (z˙0,50 ≤ z˙ ≤ z˙0,80 ) = P (0,549 ≤ z˙ ≤ 1,099) = 0,95 2 1,96 + 3 = 53,9 ≈ 54 n=4 1,099 − 0,549
6.16 Übereinstimmung und Präzision von Messwerten Der Korrelationskoeffizient r (ρ) nach Pearson ist ein Maß für die Stärke eines linearen Zusammenhangs zwischen zwei Zufallsvariablen X und Y . Eine „starke“ Korrelation ermöglicht eine „gute“ Voraussage von Y aus X (und umgekehrt). Eine gute Übereinstimmung zwischen X und Y ist aber nur dann gegeben, wenn die Beobachtungen zu Wertepaaren xi und yi (i = 1, . . . , n) führen, die bei einer Darstellung im Koordinatensystem (Punktwolke) eng an der Geraden y = x (Winkelhalbierende) liegen. Die Abbildung 6.13 zeigt Beispiele einer fehlenden Übereinstimmung bei hoher Korrelation durch Verschiebungen in der Lage (location shift) und im Verhältnis (scale shift). 6.16.1 Übereinstimmung von Messwertreihen nach Bland-Altman J.M. Bland und D.G. Altman [BA86] schlagen daher eine Analyse der Abweichungen (Differenzen) zwischen den Messwertreihen in Abhängigkeit von der Höhe der Messungen (Mittelwert) vor. Sie definieren mit den Grenzen der Übereinstimmung (6.156) (limits of agreement) einen Bereich in Anlehnung an den Normbereich (Toleranzintervall). L1/2 = d¯ ± 2 · sd
(6.156)
426
6 Schätzen
0
2
4
6 x
8
10
8 0
2
4
y
6
8 6 y 4 2 0
0
2
4
y
6
8
10
Lage− und Verhältnis−Verschiebung
10
Verhältnis−Verschiebung
10
Lage−Verschiebung
0
2
4
6
8
10
0
2
x
4
6
8
10
x
Abbildung 6.13: Fehlende Übereinstimmung bei hoher Korrelation durch systematische Unterschiede in der Lage und im Verhältnis In (6.156) bezeichnet d¯ den Mittelwert und sd die Standardabweichung der Differenzen. Die statistische Bewertung der so berechneten (geschätzten) Grenzwerte kann durch die Bestimmung entsprechender Konfidenzintervalle anhand der Quantile der t-Verteilung erfolgen. sd L1/2 ± tn−1,1−α/2 · √ (6.157) n Die Anwendung dieser Methode soll in R an einigen, mit der Funktion rnorm() künstlich erzeugten, Daten schrittweise gezeigt werden. > x1 diff n tval
> upp95u u p p 9 5 l > low95u l o w 9 5 l 0 oder < 0) und andererseits durch eine Abhängigkeit der Differenz von der Größe der Messungen (z. B. größere Messwerte führen auch zu größeren Fehlern).
6.16 Übereinstimmung und Präzision von Messwerten
2
15
−2
10
0
Differenz
2. Messung
4
6
20
427
−6
5 0 0
5
10
15
20
0
5
1. Messung
10
15
20
Mittelwert
Abbildung 6.14: Analyse der Übereinstimmung von Messungen nach Bland-Altman, Punktwolke mit den Messwerten links, Differenz in Abhängigkeit von der Größe der Messungen und Grenzwerte für die Übereinstimmung rechts
95%−KI Weite [+/−SD%]
Fallzahlabschätzung: Nach J.M. Bland und D.G. Altman ist der Standardfehler für die Grenzen der Übereinstimmung 3s2d /n. Somit kann auch ein 95%-Konfidenzintervall für die Grenzen der Übereinstimmung angenähert mit
3 · sd ±1, 96 · (6.158) n angegeben werden. Der Faktor 1,96 3/n bezeichnet somit ein Vielfaches der Standardabweichung der Differenzen in Abhängigkeit von der Anzahl der Messwertpaare und kann für die Abschätzung einer erforderlichen Fallzahl herangezogen werden (vgl. Abbildung 6.15). Mit n=50 hat das 95%-Konfidenzintervall etwa die Weite von w=1,96·0,48·sd ≈ sd .
1.0 0.8 0.6 0.4 20
40
60
80
100
Anzahl n
Abbildung 6.15: Fallzahlabschätzung nach Bland-Altman Allgemein kann sich die Festlegung der Fallzahl auch an der gewünschten Weite w eines (1−α)Konfidenzintervalles für die Übereinstimmungsgrenzen mit dem entsprechenden Quantil der Standardnormalverteilung orientieren. n = 12
z
1−α/2
w
· sd 2
(6.159)
428
6 Schätzen
Hinweis: Das Bland-Altman-Verfahren setzt unabhängige Messwertpaare voraus. Werden an einem Fall (Patient) wiederholte Messungen durchgeführt, dann müssen intraindividuelle Abhängigkeiten (vgl. auch Abschnitt [6.16.5] zur Intraklassen-Korrelation) für beide Verfahren bestimmt und bei der Bestimmung der Grenzen der Übereinstimmung berücksichtigt werden. Eine ausführliche Darstellung hierzu geben J.M. Bland und D.G. Altman in [BA99] und [BA07]. 6.16.2 Regressionsverfahren zur Übereinstimmung zweier Messwertreihen Die Übereinstimmung zweier Messverfahren X und Y kann auch durch eine Regressionsanalyse beurteilt werden. Dazu muss allerdings davon ausgegangen werden, dass beide Methoden fehlerbehaftet sind: i = 1, . . . , n . xi = Xi + i und yi = Yi + ηi Deming Regression Die Fehler in den Reihen sind normalverteilt (i ∼N (0, σ2 ) und ηi ∼N (0, ση2 )), konstant für alle i=1, . . . , n und unabhängig voneinander. Das Verhältnis ihrer Varianzen wird in der Regel als bekannt vorausgesetzt. σ2 ρ = 2 = konstant ση Die Schätzung der Regressionskoeffizienten für yˆi = β0 + β1 · xi kann durch eine OLS-Schätzung (kleinste Fehlerquadrate) aus SSR =
n n 2i ηi2 ! = + [(xi − x ˆi )2 + ρ(yi − yˆi )2 ] = minimal 2 2 σ σ η i=1 i=1
nach W.E. Deming [Dem43] nach (6.160) erfolgen. βˆ1 =
mit
(ρ · s2y − s2x ) +
(s2x − ρ · s2y )2 + 4 · ρ · s2xy
2 · ρ · ssy ¯ βˆ0 = y¯ − βˆ1 · x n n x ¯ = n1 i=1 xi y¯ = n1 i=1 yi n n 1 1 s2x = n−1 ¯ )2 s2y = n−1 ¯)2 i (xi − x i=1 (yi − y n 1 sxy = n−1 ¯)(yi − y¯) . i=1 (xi − x
(6.160)
Für ρ=1 resultiert aus (6.160) auch der Ansatz einer orthogonalen Regression (vgl. Abschnitt [3.7.10.3] auf Seite 140). Schätzungen für einzelne Messwerte können nach (6.161) berechnet werden. Sie ermöglichen eine genaue Analyse der Fehler (Residuen). x ˆ i = xi +
ρβˆ1 di (1 + ρβˆ2 )
und
1
mit di = yi − (βˆ0 + βˆ1 xi )
yˆi = yi −
di (1 + ρβˆ12 )
(6.161)
6.16 Übereinstimmung und Präzision von Messwerten
429
Beispiel (Arsen): In 20 Wasserproben wurde die Arsenkonzentration (μg/l) mit zwei unterschiedlichen Methoden bestimmt. Methode 1 Methode 2
8.71 3.69 7.35 2.72
3.28 0.34 3.40 2.32
5.60 1.94 5.44 1.50
1.55 2.07 2.07 3.50
1.75 1.38 2.29 1.17
0.73 1.81 0.66 2.31
3.66 0.82 3.43 0.44
0.90 1.88 1.25 1.37
9.39 10.66 6.58 12.53
4.39 19.25 3.31 15.86
Die Berechnung der Deming Regression nach (6.160) kann einfach in R mit den folgenden Befehlen erfolgen. > x y r h o mx l i l l i e . t e s t ( nblz ) L i l l i e f o r s ( Kolmogorov−Smirnov ) n o r m a l i t y t e s t data : n b l z D = 0 . 1 0 0 6 , p−v a l u e = 0 . 3 8 9 7 > l i l l i e . t e s t ( chol ) L i l l i e f o r s ( Kolmogorov−Smirnov ) n o r m a l i t y t e s t data : chol D = 0 . 1 9 9 7 , p−v a l u e = 0 . 0 0 0 3 4 3 5
7.2 Tests der Verteilung (Anpassungstests, goodness-of-fit)
497
Beispiel (Vergleich der Spalten (2) und (9) der Tabelle 7.7): Wir verwenden das Beispiel √ in Tabelle 7.7 und √ erhalten über 2,55/40 = 0,063 < 0,127 = 0,819/6,446 [mit d40 = ( 40 − 0,01 + 0,83/ 40) = 6,446] ebenfalls das Resultat: Die Nullhypothese lässt sich auf dem 10%-Niveau nicht ablehnen. B E FB FE |FB − FE |
1 0,98 1 0,98 0,02
4 5,17 5 6,15 1,15
16 12,30 21 18,45 2,55
10 13,32 31 31,77 0,77
7 6,56 38 38,33 0,33
2 1,47 40 39,80 0,20
7.2.6.1 Anpassung an eine Poisson-Verteilung Die Nullhypothese, nach der die Daten einer Poisson-Verteilung entstammen, wird auf dem ˆ größerer ist als ein kritischer Wert D. In 100α%-Niveau abgelehnt, sobald das empirische D Tabelle 7.11 sind einige Werte für D aufgeführt [CO79]. Tabelle 7.11: Kritische Werte D für den Kolmogoroff-Smirnoff Test (Poisson-Verteilung). Anpassung an eine Poisson-Verteilung mit aus der Zufallsstichprobe geschätztem Mittelwert x ¯ (¯ x ≤ 10) für 5 Mittelwertsbereiche, 6 Stichprobenumfänge (n ≥ 6) und drei Signifikanzniveaus (α=0,10; 0,05; 0,01): ist x ¯ keine ganze Zahl, so benutze den nächst größeren vorgegebenen Wert und die entsprechende Spalte n 6
x ¯≤1 0,202 0,234 0,290
1 library ( nortest ) > ad . t e s t ( n b l z ) Anderson−D a r l i n g n o r m a l i t y t e s t data : n b l z A = 0 . 3 0 5 1 , p−v a l u e = 0 . 5 5 2 5 > ad . t e s t ( c h o l ) Anderson−D a r l i n g n o r m a l i t y t e s t data : chol A = 2 . 7 6 1 , p−v a l u e = 4 . 3 9 e−07
500
7 Hypothesentest
7.2.9 Ausreißerproblem
Extrem hohe oder niedrige Werte innerhalb einer Reihe üblicher mäßig unterschiedlicher Messwerte, von denen fraglich ist, ob sie unter den vorgegebenen Bedingungen möglich sind, dürfen unter gewissen Umständen vernachlässigt werden. Man bezeichnet sie als Ausreißer. Messfehler, Beurteilungsfehler, Rechenfehler oder ein pathologischer Fall im Untersuchungsmaterial von Gesunden können zu Extremwerten führen, die, da sie anderen Grundgesamtheiten als die der Stichprobe entstammen, gestrichen werden müssen (sobald „zwingende sachlogische Begründungen“ dies rechtfertigen). Saubere statistische Entscheidungen über die Wertung eines Messwertes als Ausreißer sind nur selten möglich. Ausreißer sind aus Sicht eines Beobachters überraschend extrem gelegene Beobachtungen, wobei der Beobachter ein Modell voraussetzt und den Ausreißer als Modell-Abweichung auffasst. Steht die Schätzung der Modellparameter im Vordergrund, dann stört er – andernfalls liegt ein „erfreulicher Fund“ vor, der wie im Fall der Entdeckung des Penizillins Neuland erschließt. Wunder lassen sich in diesem Kontext auch als extreme Ausreißer nichtwissenschaftlicher Art auffassen. Gegen starke Abweichungen vom Modell der Normalverteilung (Asymmetrie, wesentlich schwächer oder stärker besetzte Verteilungsenden) werden drei Verfahren angewandt: 1. robuste Verfahren, 2. Ausreißerverfahren und 3. adaptive Verfahren. Statistische Verfahren (Schätzfunktionen und Teststatistiken), die unempfindlich gegenüber Abweichungen vom zugrundegelegten Verteilungsmodell sind, werden robust genannt. Robuste Statistiken füllen die Lücke zwischen parametrischen und nichtparametrischen Verfahren mit dem Ziel, die Struktur in der Masse der Daten zu erfassen und dabei auch Hinweise auf einzelne stark abweichende Beobachtungen (influential points) zu geben. Unempfindlichkeit gegenüber heterogenen Daten und Ausreißern (verunreinigte Daten) wird im engeren Sinn auch als Resistenz ¯ und S sind äußerst „nonresistant“, dagegen wird der Median X ˜ erst (resistance) bezeichnet. X bei mindestens 50% „Verunreinigung“ verzerrt. Als robuste Lage-Schätzer gelten z. B. das 10%getrimmte arithmetische Mittel (bei asymmetrischer Kontamination ist der 25%-getrimmte Mittelwert besser geeignet). Bei kleinem Kontaminationsanteil eignen sich Ausreißerverfahren, nicht aber bei asymmetrischer Kontamination. Am bekanntesten sind Verfahren, die einen Ausreißer identifizieren und ihn dann beim Schätzen der Modellparameter nicht weiter verwenden. Adaptive Verfahren sind zweistufig. Auf der 1. Stufe wird entschieden, welches Schätz- oder Testverfahren auf der 2. Stufe verwendet werden soll: ist z. B. die Spannweite klein, so eignet sich (xmin + xmax )/2 als robuster Lageschätzer, ist sie groß, so bevorzugt man den Median. Man unterscheide: (a) mutmaßliche Ausreißer, (b) Ziffernvertauschungen (z. B. 18,83 anstatt 18,38), (c) doppelte Eintragungen, spalten- oder zeilenweise, wobei die richtige Eintragung fehlt, sowie (d) falsche Zahlen in den entsprechenden Spalten. Ein Teil dieser Irrtümer lässt sich erfassen, wenn für jede Variable Variationsbereiche vorgegeben werden; mitunter hilft auch ein Blick auf die Tabelle, um sonderbare Zahlen rechtzeitig aufzuspüren. Je umfangreicher der Datenkörper ist, desto schwieriger wird es, Fehler der genannten Art vollständig zu vermeiden.
7.2 Tests der Verteilung (Anpassungstests, goodness-of-fit)
501
Eine allgemeine Regel besagt, dass bei mindestens 10 Einzelwerten (besser: n 25) dann ein Wert als Ausreißer verworfen werden darf, wenn er außerhalb des Bereiches x ¯ ± 4s liegt, wobei Mittelwert und Standardabweichung ohne den ausreißerverdächtigen Wert berechnet werden. Der „4-Sigma-Bereich“ (μ±4σ) umfasst (große Stichprobenumfänge!) bei Normalverteilung 99,99% der Werte, bei symmetrisch-eingipfligen Verteilungen 97% und bei beliebigen Verteilungen noch 94% der Werte. Robuste Grenzen für die Erkennung von Ausreißern für viele Verteilungstypen können auch auf der Grundlage der Quartile und der Quartildistanz abgeleitet werden: Q1 − k(Q3 − Q1 ) ≤ kein Ausreißer ≤ Q3 + k(Q3 − Q1 ) für eher
explorative konfirmative
k= 1,5 k=3
Studien wählt man
(7.34)
> x bp Q x med . x 8) angewendet werden (für 3 ≤ n ≤ 8 wird der Q-Test nach Dixon bevorzugt, für n ≥ 25 können die standardisierten Extremabweichungen verwendet werden). Der Grubbs-Test prüft die Hypothese: H0 : Es gibt keine Ausreißer in den Daten, HA : Es gibt mindestens einen Ausreißer. Die Teststatistik, die größte absolute Abweichung vom Mittelwert (¯ x) der Stichprobe in Einheiten der Standardabweichung (s), wird in (7.36) definiert. ¯|) ˆ = max(|xi − x G s
(7.36)
ˆ größer ist als der Die Nullhypothese kann abgelehnt werden, sobald der Wert der Teststatistik G entsprechende kritische Wert Gn,α , der nach (7.37) berechnet werden kann. ˆ > Gn,α G
$ % t2n−2,α/2n (n − 1) % & = √ n − 2 + t2n−2,α/2n n
(7.37)
Dabei ist tn−2,α/2n der kritische Wert der t-Verteilung mit (n-2) Freiheitsgraden und dem Signifikanzniveau von α/2n.
5
Beispiel: Die Anzahl der Überstunden aus dem letzten Kalenderjahr für 20 Mitarbeiter einer Firma betrug: 3 4 4 5 6 6 7 8 9 10 10 11 13 15 16 17 19 19 20 50 Die Berechnung der Teststatistik zum Grubbs-Test und die Bestimmung des entsprechenden kritischen Wertes kann in R direkt erfolgen.
7.2 Tests der Verteilung (Anpassungstests, goodness-of-fit)
503
> x n grubbs . t e s t ( x ) Grubbs t e s t f o r one o u t l i e r G = 3 . 6 1 0 4 , U = 0 . 2 7 7 8 , p−v a l u e = 2 . 1 1 3 e−05 a l t e r n a t i v e h y p o t h e s i s : h i g h e s t v a l u e 50 i s an o u t l i e r
7.2.9.3 Standardisierte Extremabweichungen Bei Stichprobenumfängen über n = 25 lassen sich die Extremwerte mit Hilfe der Tabelle 7.13 anhand der Prüfgröße T1 = |(x1 − μ)/σ|
x1 = der mutmaßliche Ausreißer
(7.39)
testen, wobei μ und σ durch x ¯ und s ersetzt werden. Erreicht oder überschreitet T1 für die vorgegebene Irrtumswahrscheinlichkeit α = 1−P die dem Stichprobenumfang n entsprechende Schranke der Tabelle 7.13, so ist anzunehmen, dass der geprüfte Extremwert einer anderen Grundgesamtheit entstammt als die übrigen Werte der Reihe. Der Extremwert darf jedoch, auch wenn er durch diese Tests als Ausreißer ausgewiesen ist, nur dann gestrichen werden, wenn wahrscheinlich ist, dass die vorliegenden Werte angenähert normalverteilt sind. Tabelle 7.13: Obere Signifikanzschranken der standardisierten Extremabweichung (xmax − μ)/σ oder (μ − xmin )/σ (Normalverteilung vorausgesetzt); auszugsweise aus Pearson, E.S. and H.O. Hartley: Biometrika Tables for Statisticians, Cambridge University Press 1954, Table 24 n 1 2 3 4 5 6 8 10 15 20 25 30 35 40 45 50
P = 95% 1,645 1,955 2,121 2,234 2,319 2,386 2,490 2,568 2,705 2,799 2,870 2,928 2,975 3,016 3,051 3,083
P = 99% 2,326 2,575 2,712 2,806 2,877 2,934 3,022 3,089 3,207 3,289 3,351 3,402 3,444 3,479 3,511 3,539
n 55 60 65 70 80 90 100 200 300 400 500 600 700 800 900 1000
P = 95% 3,111 3,137 3,160 3,182 3,220 3,254 3,283 3,474 3,581 3,656 3,713 3,758 3,797 3,830 3,859 3,884
P = 99% 3,564 3,587 3,607 3,627 3,661 3,691 3,718 3,889 3,987 4,054 4,106 4,148 4,183 4,214 4,240 4,264
Für Probleme, die mit der Qualitätsüberwachung zusammenhängen, hat Tabelle 7.13 eine besondere Bedeutung. Angenommen, von einem Gegenstand mit x ¯ = 888 und s = 44 werden jeweils Stichproben des Umfangs n = 10 geprüft. Der niedrigste Stichprobenwert sollte dann höchstens einmal in hundert Fällen kleiner sein als 888 − 44 · 3,089 = 752,1 (vgl. für n = 10 und P = 99% erhält man den Faktor 3,089). Durch Vorzeichenwechsel 888 + 44 · 3,089 = 1023,9 erhält man den größten Stichprobenwert, der höchstens einmal in hundert Fällen rein zufällig überschritten werden dürfte. Treten Extremwerte dieser Art häufiger auf, muss die Produktion des betreffenden Gegenstandes überprüft werden.
7.3 Einstichprobenverfahren
505
7.3 Einstichprobenverfahren • • • • • •
Hypothesen zu Wahrscheinlichkeiten Hypothesen zu Erwartungswerten Einstichproben-Median-Test Vergleich einer empirischen Varianz mit ihrem Parameter Prüfung der Zufallsmäßigkeit Prüfung der Erwartungswerte von Poisson-Verteilungen
Übersicht 40: Entscheidungsdiagramm zu Einstichproben-Verfahren
! "
7.3.1 Hypothesen zu Wahrscheinlichkeiten 7.3.1.1 Binomialtest Der Binomialtest prüft Hypothesen bezüglich einer (unbekannten!) Wahrscheinlichkeit (π) an Hand des Modells einer Binomialverteilung, z. B. bei einer einseitigen Fragestellung, ob die Wahrscheinlichkeit für den Erfolg einer bestimmten Therapie größer ist als ein vermuteter oder angenommener Wert (z. B. π0 = 0,7). HA : π > π0 H0 : π ≤ π0
(7.40)
Unter der Annahme, dass π = π0 gilt, kann dann für eine feste Zahl von „Versuchen“ (z. B. n=30) die Verteilung durch eine binomial-verteilte Zufallsvariable beschrieben werden. Das vollständige Modell ist in Abbildung 7.12 dargestellt. Die Entscheidung gegen die Nullhypothese aus (7.40) kann dann für das Ergebnis einer konkreten Stichprobe (X) mit Hilfe der Binomialverteilung getroffen werden. Ist z. B. P (X ≥ x) ≤ 0,05, kann die Nullhypothese mit einer Irrtumswahrscheinlichkeit von α = 0,05 abgelehnt werden. In R erfolgen die Berechnungen zum Binomialtest entweder direkt über die Funktionen zur Binomialverteilung (pbinom() und qbinom()), oder einfacher über die Funktion binom.test(), in der zusätzlich auch die Berechnung des entsprechenden Vertrauensbereiches durchgeführt wird.
7 Hypothesentest
0.6 0.0
0.00
0.2
0.4
F(x)
0.10 0.05
f(x)
0.15
0.8
1.0
0.20
506
0
5
10
15
20
25
30
0
5
10
15
20
25
30
Abbildung 7.12: Anzahl der Erfolge unter n=30 Versuchen (Erfolgswahrscheinlichkeit π=0.7) > pbinom ( 2 5 , 3 0 , 0 . 7 , l o w e r . t a i l =FALSE ) [ 1 ] 0.03015494 > binom . t e s t ( 2 6 , 3 0 , p = 0 . 7 , a l t e r n a t i v e = " g r e a t e r " ) Exact binomial t e s t d a t a : 26 and 30 number o f s u c c e s s e s = 2 6 , number o f t r i a l s = 3 0 , p−v a l u e = 0 . 0 3 0 1 5 a l t e r n a t i v e hypothesis : t r u e p r o b a b i l i t y of success i s g r e a t e r than 0.7 95 p e r c e n t c o n f i d e n c e i n t e r v a l : 0 . 7 2 0 3 8 4 8 1.0000000 sample e s t i m a t e s : p r o b a b i l i t y o f s u c c e s s 0.8666667 > qbinom ( 0 . 9 5 , 3 0 , 0 . 7 ) [ 1 ] 25
In der Funktion binom.test() muss neben der Anzahl der Wiederholungen (n), der Anzahl der Erfolge (x) und der unter der Nullhypothese angenommenen Erfolgswahrscheinlichkeit (π) auch die Art der Hypothesenstellung (einseitig: ’less’ oder ’greater’ bzw. zweiseitig: ’two.sided’) angegeben werden. Werden z. B. unter n = 30 Behandlungen x = 26 Therapieerfolge beobachtet (ˆ π = 0,87), dann kann die Nullhypothese H0 : π ≤ 0,7 mit einer Irrtumswahrscheinlichkeit von α = 0,05 abgelehnt werden. Die Wahrscheinlichkeit für einen Erfolg ist somit größer als 0,7 (p = 0,030, P -Wert). Um andererseits zu prüfen, ob die Wahrscheinlichkeit für das Auftreten unerwünschter Nebenwirkungen einer Therapie kleiner als ein angenommener oder vorgeschriebener Wert ist, kann in ähnlicher Weise eine einseitige Hypothesenstellung formuliert werden. HA : π < π0 H0 : π ≥ π0
(7.41)
Die zweiseitige Fragestellung, z. B. gleiche Chancen bei einem Glücksspiel (Wurf einer Münze), führt dazu, dass die entsprechende Irrtumswahrscheinlichkeit auf beiden Seiten der Verteilung (in beiden Richtungen) zu berücksichtigen ist. HA : π = π0 H0 : π = π0
(7.42)
7.3 Einstichprobenverfahren
507
Beispiel: Sind statistisch Zweifel an der „Regularität“ einer Münze (π=0,5 für „Kopf“) berechtigt, wenn bei 20 Würfen mit dieser Münze in 15 Fällen das Ereignis „Kopf“ beobachtet wurde?
5
> binom . t e s t ( 1 5 , 2 0 , p = 0 . 5 , a l t e r n a t i v e = " two . s i d e d " ) Exact binomial t e s t d a t a : 15 and 20 number o f s u c c e s s e s = 1 5 , number o f t r i a l s = 2 0 , p−v a l u e = 0 . 0 4 1 3 9 a l t e r n a t i v e h y p o t h e s i s : t r u e p r o b a b i l i t y of s u c c e s s i s not equal to 0.5 95 p e r c e n t c o n f i d e n c e i n t e r v a l : 0 . 5 0 8 9 5 4 1 0.9134285 sample e s t i m a t e s : p r o b a b i l i t y o f s u c c e s s 0.75
Es handelt sich „vermutlich“ nicht um eine reguläre Münze. Die Nullhypothese (H0 : π = 0,5) kann mit einer Irrtumswahrscheinlichkeit von α = 0,05 abgelehnt werden, da p = 0,041. Die Testentscheidung für den zweiseitigen Binomialtest wird dabei exakt an Hand der Binomialverteilung getroffen. Die Nullhypothese H0 : π=π0 =0,50 wird verworfen, wenn gilt: x n i=0
i
π0i (1
− π0 )
n−i
n n i π (1 − π0 )n−i < α + i 0 i=n−x
(7.43)
> n 9 benutzen wir die Approximation über die Normalverteilung 1 1 |0,16 − 0,20| − |ˆ p1 − π| − 2n 2 · 200 = 0,875
= zˆ = 0,20 · 0,08 π(1 − π) 100 n Ein Wert zˆ = 0,875 entspricht einer Irrtumswahrscheinlichkeit P {ˆ p1 ≤ 0,16|π = 0,20} = 0,19 > 0,05. Damit weisen 19 von 100 Zufallsstichproben aus einer Grundgesamtheit mit π = 0,20 einen Abonnentenanteil pˆ1 ≤ 0,16 auf. Wir behalten daher die Nullhypothese bei. Übersicht 41: Hypothesen zum Binomialtest für np0 q0 = np0 (1 − p0 ) > 9 und α = 0, 05
H01 : p ≤ p0
HA1 : p > p0
H02 : p ≥ p0
HA2 : p < p0
H0 wird auf dem 5%-Niveau abgelehnt für x > xo = np0 + 12 + 1,645 · (np0 (1 − p0 )) x < xu = np0 − 12 − 1,645 · (np0 (1 − p0 ))
H03 : p = p0
HA3 : p = p0
x > xo oder x < xu , wobei 1,645 durch 1,96 ersetzt wird
Hypothesenpaar
5
Beispiel 3: Von 2000 Händlern entscheiden sich π = 40% z. B. ihren Umsatz zu erhöhen. Kurze Zeit später wird angenommen, dass sich dieser Prozentsatz wieder erhöht habe. Eine Zufallsstichprobe von 400 Händlern zeigt, dass der Prozentsatz mit pˆ1 = 46% tatsächlich höher liegt. Gefragt ist, ob diese Zunahme als statistisch signifikant gelten kann. Getestet wird die Nullhypothese π1 = 0,40 gegen die Alternativhypothese π1 > 0,40 mit pˆ1 = 0,46 (Signifikanzniveau α = 0,05). Da die Stichprobe 20% der Grundgesamtheit umfasst, muss mit einer Endlichkeitskorrektur gerechnet werden: 1 1 |ˆ p1 − π| − |0,64 − 0,40| − 2n 2 · 400 zˆ = ' = ' = 2,68 π(1 − π) 0,40 · 0,60 N −n 2000 − 400 · · n N −1 400 2000 − 1 P {ˆ p1 0,46|π = 0,40} = 0,0037 < 0,05 Die Nullhypothese wird auf dem 5%-Niveau abgelehnt, da zˆ > z0,95 = 1,64: Es besteht eine echte Zunahme. Eine Lösung in R kann entsprechend direkt formuliert werden. > N 0) kann jedoch keine Irrtumswahrscheinlichkeit (α-Fehler) angegeben werden, da bei Gültigkeit der Nullhypothese keine Möglichkeit besteht, diese abzulehnen. Unter der Alternativhypothese ist in einer Stichprobe vom Umfang n mit einer Sicherheit von ppower mindestens ein Ereignis zu erwarten. Tritt unter den n Beobachtungen mindestens ein Ereignis auf, dann kann π0 > 0 mit einiger Sicherheit angenommen werden. Tritt kein Ereignis auf, dann kann nicht auf π0 = 0 geschlossen werden. In diesem Fall kann jedoch eine obere Konfidenzgrenze für π0 bestimmt werden, z.B. für ein 95%-KI nach der 3er-Regel durch po =3/n (vgl. Abschnitt 6.6.2). Ist die wahre Wahrscheinlichkeit π0 >πA (π0 80%) und kleiner Ereigniswahrscheinlichkeit p0 die Nullhypothese H0 : p ≥ ps gegenüber der spezifizierten Alternativhypothese HA : p < ps ablehnen zu können (nach E.L. Korn [Kor86]) wahrer Anteil p0 0,00 0,01 0,03 0,05 0,10 0,15
n für obere 95%-Konfidenzgrenze für Anteile < ps ps = 0, 05 ps = 0, 10 ps = 0, 0, 15 ps = 0, 20 59 (100%) 29 (100%) 19 (100%) 14 (100%) 124 (87%) 46 (92%) 19 (82%) 14 (86%) >500 76 (80%) 40 (88%) 22 (92%) – – 179 (81%) 59 (82%) 30 (88%) – – – – 281 (81%) 82 (80%) – – – – – – 365 (80%)
Beispiel (Toxizitätsstudie): Für eine Toxizitätsstudie wird festgelegt, dass der Anteil der Patienten mit Nebenwirkungen höchstens 15% (ps = 0.15) sein darf. Der „wahre“ Anteil wird bei p0 = 0,05 vermutet. Mit n=59 Patienten liegt die oberer 95%-Konfidenzgrenze für die Rate der Nebenwirkungen mit einer Power von 82% unterhalb von 0,15. 7.3.1.4 Binomialtest: Likelihood-Quotienten-Test Werden unter n Wiederholungen genau x Erfolge beobachtet (ˆ π = x/n), dann kann für den Fall einer einseitigen Hypothesenstellung (H0 : π = π0 ) die logarithmierte Likelihood-Funktion für den unbekannten Parameter π L(π) = log(π x (1 − π)n−x ) = x log(π) + (n − x) log(1 − π)
(7.46)
zur Konstruktion eines einfachen Likelihood-Quotiententests herangezogen werden. unter H0 :
L0 = x log(π0 + (n − x) log(1 − π0 ))
unter HA :
LA = x log(ˆ π + (n − x) log(1 − π ˆ ))
Teststatistik:
(7.47)
x n−x + (n − x) log =χ ˆ2 −2(L0 − LA ) = 2 x log nπ0 n − nπ0 Die Teststatistik in (7.47) ist asymptotisch χ2 -verteilt mit einem Freiheitsgrad. Die Nullhypothese kann abgelehnt werden, wenn der Wert der Teststatistik größer ist als das entsprechende Quantil der χ2 -Verteilung: −2(L0 − LA ) > χ21;1−α .
5
512
5
7 Hypothesentest
Beispiel: Ein Würfel wird verdächtigt, gefälscht zu sein. Bei 60 Würfen wurde nur 4mal eine Sechs beobachtet. Für den statistischen Test gegen die einseitige Alternative HA : π < 1/6 folgt daraus: > n 3,84 = χ ˆ21;0,95 kann H0 auf dem 5%-Niveau verworfen werden (p = 0,0206). Der exakte P-Wert aus der Funktion binom.test() ist für dieses Beispiel p = 0,0202. Für den Vergleich einer beobachteten (empirischen) Häufigkeitsverteilung mit (z. B. nach einer Modellannahme) erwarteten Werten kann eine Verallgemeinerung der Likelihood-Statistik nach (7.48) verwendet werden. LR = 2
k
ni log
i=1
ni ≈ χ2 ei
(7.48)
Die Statistik LR ist asymptotisch χ2 -verteilt mit k − 1 Freiheitsgraden. Zu beachten ist, dass weitere Freiheitsgrade verloren gehen, wenn Modellparameter zusätzlich aus den Beobachtungen geschätzt werden müssen.
5
Beispiel (Hardy-Weinberg-Gleichgewicht): Untersucht wird, ob die Verteilung eines bestimmten Genotypes in einer Population im Hardy-Weinberg-Gleichgewicht (HWG) ist. Dazu liegen die Allelhäufigkeiten von n = 100 zufällig ausgewählten Personen vor. Anzahl a beobachtet (ni ) Modell (HWG) geschätzt (ei )
aa 2 18 nˆ p2 20,7
aA 1 55 2nˆ pqˆ 49,6
AA 0 27 nˆ q2 29,7
Die Schätzung der Allelfrequenzen nach dem HWG-Kriterium erfolgt nach 2n1 + n2 = 1 − qˆ , d. h. für das Beispiel 2n 2 · 18 + 55 = 0,455 und qˆ = 0,545 . pˆ = 2 · 100 Der Wert der Likelihood-Statistik nach (7.48) LR = 1,92 ist kleiner als das entsprechende Quantil der χ2 -Verteilung χ21;0,95 = 3,84. Die Nullhypothese (Population im Hardy-WeinbergGleichgewicht) kann somit nicht verworfen werfen. Beachte: Ein weiterer Freiheitsgrad geht in dem Beispiel verloren, da die Wahrscheinlichkeit p aus den Daten geschätzt wurde. pˆ =
7.3 Einstichprobenverfahren
513
7.3.2 Hypothesen zu Erwartungswerten, die sich auf einen empirischen Mittelwert beziehen 7.3.2.1 Einstichproben-t-Test Die Frage, ob der Mittelwert x ¯ einer konkreten Stichprobe nur zufällig oder statistisch signifikant von einem vorgegebenen Erwartungswert μ0 verschieden ist, heißt anschaulich: Schließt das mit x ¯ berechnete Konfidenzintervall für μ den vorgegebenen Erwartungswert μ0 ein oder nicht, d. h. ist also√die absolute Differenz |¯ x − μ0 | kleiner oder größer als die halbe Konfidenzintervallspanne ts/ n? Eine Stichprobe habe den Umfang n und die Standardabweichung s; dann ist der Unterschied ihres Mittelwertes x ¯ vom vorgegebenen Erwartungswert μ0 auf dem 100α%-Niveau statistisch signifikant, wenn s |¯ x − μ0 | √ · n>t (7.49) |¯ x − μ0 | > t √ oder s n wobei der Wert t für den Freiheitsgrad n − 1 und die geforderte Irrtumswahrscheinlichkeit α dem Quantil t1−α/2 (zweiseitige Fragestellung) der t-Verteilung (Tabelle 5.8 oder mit der Funktion qt() in R) entspricht. Die Grenze, bei der und oberhalb der ein Unterschied auf dem 100α%Niveau statistisch signifikant und unterhalb der ein Unterschied zufällig ist, liegt somit für diesen sogenannten Einstichproben-t-Test (zur Fallzahlabschätzung vgl. auch [7.3.2.2]) bei t=
|¯ x − μ0 | √ · n s
FG = n − 1
(7.50)
Bei großen Stichprobenumfängen kann t durch das für die vorgegebene Irrtumswahrscheinlichkeit gewählte Quantil der Standardnormalverteilung z1−α/2 (Tabelle 5.6) ersetzt werden. Da Parameter verglichen werden – in diesem Fall μ0 mit dem der Stichprobe zugrunde liegenden μ – liegt ein Parametertest vor. Beispiel: Eine Stichprobe vom Umfang n = 25 aus einer Normalverteilung habe x ¯ = 9 und s = 2 ergeben. Gefragt wird, ob die Nullhypothese H0 : μ = μ0 = 10 auf dem 5%-Niveau aufrechterhalten werden kann (zweiseitige Fragestellung: d. h. HA : μ = μ0 = 10). |9 − 10| √ 25 = 2,50 > 2,06 = t24;0,975 . tˆ = 2 Da 2,50 > 2,06, wird H0 auf dem 5%-Niveau abgelehnt. Die Berechnungen können leicht direkt in R nachvollzogen werden. > m tn−1;1−α/2 tˆ = s
P-Wert: Fläche unter der tn−1 -Verteilung rechts von tˆ links von −tˆ rechts/links von ±tˆ
5
514
0.15
Beispiel: Die Behauptung, dass der mittlere diastolische Blutdruck (DBP) bei Patienten mit Übergewicht höher als 80mmHg ist (HA : μ > 80), soll an einer Stichprobe von n = 11 adipösen Männern im Alter von 40-50 Jahren überprüft werden. Das Ergebnis aus einer Stichprobe ist x ¯ = 85mmHg und s = 9mmHg. Die Verteilung der Mittelwerte zum DBP (aus Stichproben vom Umfang n = 11) unter Annahme der Nullhypothese (H0 : μ = 80) enthält die linke Seite der Abbildung 7.14. Der Wert der Prüfgröße tˆ = 1,84 ist größer als das 95%-Quantil der t-Verteilung mit 10 Freiheitsgraden t10;0,95 = 1,8125 (P = 0,048). Andererseits √ kann der Bereich für eine Ablehnung von H0 auch mit dem Wert xkrit = μ0 + tn−1;1−α · s/ n = 84,92 bestimmt werden (Abbildung 7.14); der beobachtete Mittelwert fällt somit in den Ablehnungsbereich. Annahmebereich
Ablehnungsbereich
Annahmebereich
0.05
f(x) 0.05
f(x)
0.10
0.15
5
Der P-Wert ist insbesondere dann aufschlussreich, wenn die H0 plausibel erscheint. Außerdem wird er bei verteilungsunabhängigen Methoden (z. B. Chiquadrat-Unabhängigkeitstest und Rangsummen-Tests) angegeben sowie dann, wenn mehrere Parameter zugleich geschätzt werden, etwa in der Varianzanalyse.
0.10
7 Hypothesentest
β = 0.14 0.00
0.00
α = 0.05
70
75
80
85
90
95
100
70
mittlerer DBP (mmHg)
75
80
85
90
95
100
mittlerer DBP (mmHg)
Abbildung 7.14: Mittlerer diastolischer Blutdruck (DBP) unter Null- und Alternativhypothese; n = 11, s = 9mmHg und μ0 = 80 - H0 : μ = 80mmHg, HA : μ > 80mmHg, α = 0,05, δ = 8mmHg, β = 0,14 Eine Überlegung zur Power dieser Testentscheidung setzt die Festlegung eines Effektes δ = 8mmHg, d. h. eines tatsächlichen Erwartungswertes μ = 88mmHg voraus. Unter dieser zusätzlichen Annahme kann dann die Verteilung unter der Alternativhypothese für die Berechnung der Power herangezogen werden (vgl. rechte Seite in Abbildung 7.14): (1 − β) = (1 − 0,14) = 0,86. Die Prüfung einer einseitigen Hypothese (z. B. HA : μ > μ0 ) mit der Funktion t.test() in R soll an einem weiteren Beispiel gezeigt werden.
5
Beispiel: Die Behauptung, dass unter bestimmten Bedingungen die mittlere Körpertemperatur größer ist als 37◦ C, soll an Hand einer Stichprobe mit den folgenden Werten geprüft werden. 1 2 3 4 5 6 7 8 36,8◦ 37,2◦ 37,5◦ 37,0◦ 36,9◦ 37,4◦ 37,9◦ 38,0◦ > temp t . t e s t ( temp , a l t e r n a t i v e = " g r e a t e r " , mu= 37 ) One Sample t−t e s t d a t a : temp t = 2 . 1 3 5 5 , d f = 7 , p−v a l u e = 0 . 0 3 5 0 5 a l t e r n a t i v e h y p o t h e s i s : t r u e mean i s g r e a t e r t h a n 37 95 p e r c e n t c o n f i d e n c e i n t e r v a l : 3 7 . 0 3 8 0 7 Inf sample e s t i m a t e s : mean o f x 37.3375
7.3 Einstichprobenverfahren
515
Die Nullhypothese kann bei einseitiger Hypothesenstellung mit einer Irrtumswahrscheinlichkeit von α = 0, 05 abgelehnt werden. Die Funktion t.test(), die auch für den Vergleich von zwei Stichproben eingesetzt werden kann, berechnet ergänzend das Konfidenzintervall zu einer vorgegeben Wahrscheinlichkeit, hier bei einseitiger Fragestellung auch als einseitiges 95%-Konfidenzintervall, d. h. μ > 37, 04◦ . Hinweis: Eine andere Möglichkeit, die Nullhypothese (H0 : μ = μ0 gegen HA : μ = μ0 ) zu prüfen, besteht darin, festzustellen, ob der konkrete Mittelwert x ¯ innerhalb des Nichtablehnungsberei¯ α in Abschnitt [7.1.6]) liegt. ches (7.51) der Nullhypothese H0 (vgl. K s ¯ ≤ μ0 + tn−1;1−α/2 · √s μ0 − tn−1;1−α/2 · √ ≤ X n n
(7.51)
¯ und dem konkreten StichprobenmitHier ist der Unterschied zwischen der Schätzfunktion X telwert x ¯ wichtig! Liegt x ¯ in (7.51), so wird H0 beibehalten. Außerhalb der beiden Annahmegrenzen liegt der kritische Bereich, der untere und obere Ablehnungsbereich (vgl. Kα in Abschnitt [7.1.6]). Fällt x ¯ in diesen Bereich, so wird H0 abgelehnt. Für die einseitige Fragestellung (H0 : μ ≤ μ0 gegen HA : μ > μ0 ) wird H0 beibehalten, solange für den Mittelwert x ¯ einer Stichprobe des Umfanges n gilt: s x ¯ ≤ μ0 + tn−1;1−α · √ n
(7.52)
Bereiche dieser Art sind für die Güteüberwachung in der Industrie wichtig, sie dienen zur Überprüfung möglichst konstanter „Sollwerte“ (Parameter) wie Erwartungswerte oder Mediane, Standardabweichungen (oder Spannweiten und relativer Häufigkeiten, z. B. zulässiger Ausschussprozentsätze). 7.3.2.2 Fallzahlabschätzung zum Einstichproben-t-Test Für die Ermittlung einer ausreichenden Fallzahl muss die Verteilung der Teststatistik unter der Alternativhypothese herangezogen werden. Einerseits ist neben dem Fehler 1. Art (Signifikanzniveau α) auch die Power (1 − β) für eine Testentscheidung vorzugeben, andererseits muss auch die zu bewertende Differenz μ − μ0 (Effekt) festgelegt werden. Die Zusammenhänge werden in (7.53) für den Fall einer einseitige Alternativhypothese HA : μ > μ0 deutlich. Die Entscheidungsgrenze c zwischen Ablehnungsbereich und Annahmebereich kann unter der Nullhypothese und unter der Alternativhypothese formuliert werden: s unter H0 gilt: c = μ0 + tν,1−α √ (7.53) n s c = μ − tν,1−β √ unter HA gilt: n Fügt man die beiden Bedingungen zusammen und löst die entstehende Gleichung nach n auf, so erhält man (7.54). n≥
(tν,1−α + tν,1−β )2 2 ·s (μ − μ0 )2
(7.54)
516
7 Hypothesentest
Hinweis: • Die Zahl der Freiheitsgrade (ν = n−1) für die t-Verteilung ist nicht bekannt. Man ersetzt die Quantile der t-Verteilung durch die entsprechenden Quantile der Standardnormalverteilung (z1−α bzw. z1−β bei bekannter Varianz σ 2 ) und führt mit dem so berechneten Wert für n eine neue Abschätzung durch. • Für den Fall einer zweiseitigen Hypothesenstellung wird α/2 anstelle von α verwendet. • Der Quotient aus der Differenz μ − μ0 und der Standardabweichung σ ist ein zentrales Maß für die Stärke des zu prüfenden Effektes: δ=
Beispiel: In einer Studie soll gezeigt werden, dass der Blutzuckerwert unter einer bestimmten Therapie um 15mg/dl gesenkt werden kann (μ0 = 0, μ = 15 unter HA ). Aus Voruntersuchungen ist bekannt, dass für die Standardabweichung σ ≈ 30mg/dl angenommen werden kann. Der Test soll mit einem Signifikanzniveau α = 0,05 und einer Teststärke (Power) von 1 − β = 0,80 gerechnet werden. > d 0) = Φ (7.56) 1/2 − ε˜1 ≤ P ((¯ σ gleichbedeutend mit 1 μ−μ 1 0 − ε˜1 ≤ ≤ Φ−1 + ε˜2 = +ε2 (7.57) −ε1 = Φ−1 2 σ 2 Dabei bezeichnet Φ (griech. Phi) die Verteilungsfunktion der Standardnormalverteilung (Φ−1 bedeutet die inverse Verteilungsfunktion, Quantilfunktion). Setzt man in (7.55) nun ε1 = ε2 = 0, 5, dann wird damit die maximale Abweichung zwischen der Wahrscheinlichkeit für eine positive Differenz und dem Wert 0,5 auf ca. 20% begrenzt. Diese Annahme bezüglich einer Äquivalenz ist dabei eher großzügig einzuschätzen. Für ε1 = ε2 = 0,1 sinkt der Wert auf ca. 4%. Der Test auf Äquivalenz kann unter diesen Annahmen und Voraussetzungen sehr ähnlich dem Einstichproben t-Test gerechnet werden. Die Nullhypothese in (7.55) wird abgelehnt, wenn der Wert
518
7 Hypothesentest
der Teststatistik in (7.58) kleiner ist als ein kritischer Wert, der sich aus der Wurzel des entsprechenden Quantils der nichtzentralen Fisher-Verteilung mit (1, n-1)-Freiheitsgraden bestimmen lässt (der Nichtzentralitätsparameter wird aus nε2 berechnet). |¯ x − μ0 | √ n < Fα,1,n−1,nε2 tˆ = s
(7.58)
Quantile der nichtzentralen Fisher-Verteilung sind nur in wenigen Statistiklehrbüchern tabelliert und können in R mit einem kleinen Kunstgriff über die Funktion uniroot() direkt aus der Verteilungsfunktion abgeleitet werden. Das folgende Beispiel aus [Wel95] soll die Berechnung eines Einstichprobentests auf Äquivalenz in R zeigen.
5
Beispiel (Mikrozirkulation): In einer experimentellen Untersuchung zur medikamentösen Beeinflussung des Flows in der zerebralen Mikrozirkulation von Kaninchen (n=23) soll sichergestellt werden, dass der Messparameter [ml/min/100gGewicht] während einer 15-minütigen Vorbehandlungsphase ausreichend stabil ist (ε = 0,5). Als Signifikanzniveau wird α = 0,05 gewählt. Die mittlere Differenz zwischen den Messzeitpunkten ist x ¯ = 0,16 mit einer Standardabweichung von s = 4,0 (μ0 =0). > # Q u a n t i l e z u r n i c h t z e n t r a l e n F i s h e r −V e r t e i l u n g > myqf > n x w i l c o x . t e s t ( x , a l t e r n a t i v e = " two . s i d e d " , mu=30 , c o n f . i n t =TRUE) Wilcoxon s i g n e d rank t e s t data : x V = 1 0 , p−v a l u e = 0 . 3 1 2 5 a l t e r n a t i v e h y p o t h e s i s : t r u e mu i s n o t e q u a l t o 30 95 p e r c e n t c o n f i d e n c e i n t e r v a l : 16.0 35.5 sample e s t i m a t e s : ( p s e u d o ) median 25.5
Hinweis: Die Funktion wilcox.test() berechnet exakte P-Werte, solange n < 50 ist und keine Bindungen durch gleiche Beobachtungswerte auftreten. Anderenfalls wird eine Approximation nach der Normalverteilung auf der Grundlage von (7.16) gerechnet. Spezielle Versionen zu den Rangtest-Verfahren, die exakte P-Werte auch für den Fall von Bindungen berechnen, stehen in R unter wilcox.exact() in einem speziellen Paket library(exactRankTests) (T. Hothorn und K. Hornik [HH19]) zur Verfügung. 7.3.4 Vergleich einer empirischen Varianz mit ihrem Parameter Für normalverteilte Grundgesamtheiten gilt: Die Nullhypothese σ = σ0 bzw. σ 2 = σ02 (gegen σ > σ0 bzw. σ 2 > σ02 ) wird abgelehnt, sobald χ ˆ2 =
(xi −¯ x)2 (n−1)s2 = > χ2n−1,1−α σ02 σ02
und
χ ˆ2 =
(xi −μ)2 ns2 = 20 > χ2n,1−α 2 σ0 σ0
wenn μ unbekannt ist
wenn μ bekannt ist
(7.60)
(7.61)
Wenn μ bekannt ist, dann kann die empirische Varianz in der Grundgesamtheit nach s20 = (x − 2 μ) /n berechnet werden. Liegen umfangreiche Stichproben aus einer normalverteilten Grundgesamtheit vor, dann wird H0 : σ = σ0 auf dem 5%-Niveau abgelehnt und HA : σ = σ0 akzeptiert, sobald |s − σ0 | √ 2n > 1,96 σ0
5
zum 1%-Niveau: ersetze 1,96 durch 2,58
(7.62)
Beispiel: Sind die folgenden 8 Beobachtungen 40, 60, 60, 70, 50, 40, 50, 30 (¯ x = 50) mit der Nullhypothese σ 2 = σ02 = 60 gegen σ 2 > σ02 = 60 verträglich (α = 0,05)? (60 − 50)2 (30 − 50)2 (40 − 50)2 + + ... + = 20,00 60 60 60 Da χ ˆ2 = 20,00 > 14,07 = χ27;0,95 ist, muss H0 : σ 2 = σ02 zugunsten von HA : σ 2 > σ02 verworfen werden. Für n = 100, s2 = 5 und σ02 = 4 wird nach (7.60) χ ˆ2 = (100 − 1) · 5/4 = 123,75 > 123,23 = χ299;0,95 H0 ebenfalls verworfen. χ ˆ2 =
7.3 Einstichprobenverfahren
521
7.3.5 Asymptotischer Test für den Variationskoeffizienten Der Variationskoeffizient (γ, auch CV - coefficient of variation) ist für normalverteilte Zufallsvariable X definiert als das Verhältnis zwischen der Standardabweichung (σ) und dem Erwartungswert (μ), d. h. γ = σ/μ, geschätzt durch s/¯ x. Er ist ein häufig verwendetes relatives und dimensionsloses Streuungsmaß für die Genauigkeit und Wiederholbarkeit von Messungen, typisch für den Vergleich unterschiedlicher Messverfahren oder Laboratorien sowie für den Vergleich in unterschiedlichen Skalen gemessener Variabilität. ¯ nach (7.63) asymNach C.V. Miller [Mil91] ist der empirische Variationskoeffizient V = S/X ptotisch normalverteilt. γ 2 [0, 5 + γ 2 ] V ≈ N γ, (7.63) n−1 Daraus kann ein angenähertes (1 − α)100%-Konfidenzintervall (7.64) für γ abgeleitet werden: ' s ± z(1−α/2) x ¯
(s/¯ x)2 [0, 5 + (s/¯ x)2 ] n−1
(7.64)
Insbesondere gibt es entsprechend einen einfachen asymptotischen Einstichprobentest (7.65) für die Hypothesenstellung H0 :
σ = γ = c0 μ
gegen
HA :
σ = γ = c0 μ
(n − 1)(|s/¯ x − c0 |) zˆ = c0 [0, 5 + c20 ]
(7.65)
H0 wird abgelehnt, wenn zˆ > z(1−α/2) (entsprechend bei einseitiger Hypothesenstellung auch für zˆ > z(1−α) ). Beispiele: • Zu (7.64): Das 95%-KI für γ = σ/μ und n = 10, s = 4, x ¯ = 20, d. h. V = s/¯ x = 4/20 = 0,20 ist 0,20 ± 1,96 0,22 [0,5 + 0,22 ]/(10 − 1) ⇒ [0,104, 0,296] Das Konfidenzintervall liegt oberhalb von Null. Für n = 25 resultiert das deutlich engere 95%-KI: 0,141 < γ < 0,259. • Zu (7.65): Für die Prüfung von H0 : γ = 0,25 gegen HA : γ = 0,25 anhand von n = 10, s = 4, x ¯ = 20 mit V = 4/20 = 0,20 ergibt sich (10 − 1)(|0,20 − 0,25|) zˆ = = 0,8 < 1,96 ; 0,25 0,5 + 0,252 d. h. H0 kann auf dem 5%-Niveau nicht abgelehnt werden.
5
522
7 Hypothesentest
7.3.6 Prüfung der Zufallsmäßigkeit einer Folge von Alternativdaten oder von Messwerten 7.3.6.1 Die sukzessive Differenzenstreuung Ein einfacher Trendtest anhand der Dispersion zeitlich aufeinanderfolgender Stichprobenwerte x1 , x2 , . . . , xi , . . . , xn , die einer normalverteilten Grundgesamtheit entstammen, basiert auf der in üblicher Weise ermittelten Varianz und dem mittleren Quadrat der n − 1 Differenzen aufeinanderfolgender Werte, der sukzessiven Differenzenstreuung (mean square successive difference) δ 2 (Delta-Quadrat): δ 2 = [(x1 − x2 )2 + (x2 − x3 )2 + (x3 − x4 )2 + . . . + (xn−1 − xn )2 ]/(n − 1) d. h.
δ2 =
(xi − xi+1 )2 /(n − 1)
(7.66)
Sind die aufeinanderfolgenden Werte unabhängig, dann gilt δ 2 2s2 oder δ 2 /s2 2. Sobald ein Trend vorliegt, wird δ 2 < 2s2 , da dann benachbarte Werte ähnlicher sind als entferntere, d. h. δ 2 /s2 < 2. Die Nullhypothese, aufeinanderfolgende Werte sind unabhängig, muss zugunsten der Alternativhypothese, es besteht ein Trend, aufgegeben werden, sobald der Quotient δ 2 /s2 =
(xi − xi+1 )2 /
(xi − x ¯ )2
(7.67)
die kritischen Schranken der Tabelle 7.17 erreicht oder unterschreitet. ¯)2 = 10 und (xi − xi+1 )2 = Beispielsweise lässt sich für die Reihe: 2, 3, 5, 6 mit (xi − x (2 − 3)2 + (3 − 5)2 + (5 − 6)2 = 6, d. h. δ 2 /s2 = 6/10 = 0,60 < 0,626 die Nullhypothese auf dem 1%-Niveau ablehnen. Für große Stichprobenumfänge kann man anhand der Standardnormalverteilung approximierte Schranken nach (7.68) 2 − 2z · √
1 n+1
(7.68)
berechnen, wobei der Wert der Standardnormalvariablen z für die 5%-Schranke 1,645, für die 1%Schranke 2,326 und für die 0,1%-Schranke 3,090 beträgt. Beispielsweise erhalten wir für n = 200 als approximierte 5%-Schranke nach (7.68) 2 − 2 · 1,645 · √
1 = 1,77 . 200 + 1
7.3 Einstichprobenverfahren
523
Tabelle 7.17: Kritische Schranken zur sukzessiven Differenzenstreuung; Quotient aus der mittleren quadratischen sukzessiven Differenzenstreuung und der Varianz, auszugsweise entnommen und mit dem Faktor (n − 1)/n korrigiert aus B.I. Hart: Significance levels for the ratio of the mean square successive difference to the variance. Ann. Math. Statist. 13 (1942) 445–447 n 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
0,1% 0,5898 0,4161 0,3634 0,3695 0,4036 0,4420 0,4816 0,5197 0,5557 0,5898 0,6223 0,6532 0,6826 0,7104 0,7368 0,7617 0,7852 0,8073 0,8283 0,8481 0,8668 0,8846 0,9017 0,9182 0,9341 0,9496 0,9645 0,9789 0,9925
1% 0,6256 0,5379 0,5615 0,6140 0,6628 0,7088 0,7518 0,7915 0,8280 0,8618 0,8931 0,9221 0,9491 0,9743 0,9979 1,0199 1,0406 1,0601 1,0785 1,0958 1,1122 1,1278 1,1426 1,1567 1,1702 1,1830 1,1951 1,2067 1,2177
5% 0,7805 0,8204 0,8902 0,9359 0,9825 1,0244 1,0623 1,0965 1,1276 1,1558 1,1816 1,2053 1,2272 1,2473 1,2660 1,2834 1,2996 1,3148 1,3290 1,3425 1,3552 1,3671 1,3785 1,3892 1,3994 1,4091 1,4183 1,4270 1,4354
n 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 ∞
0,1% 1,0055 1,0180 1,0300 1,0416 1,0529 1,0639 1,0746 1,0850 1,0950 1,1048 1,1142 1,1233 1,1320 1,1404 1,1484 1,1561 1,1635 1,1705 1,1774 1,1843 1,1910 1,1976 1,2041 1,2104 1,2166 1,2227 1,2288 1,2349 2,0000
1% 1,2283 1,2386 1,2485 1,2581 1,2673 1,2763 1,2850 1,2934 1,3017 1,3096 1,3172 1,3246 1,3317 1,3387 1,3453 1,3515 1,3573 1,3629 1,3683 1,3738 1,3792 1,3846 1,3899 1,3949 1,3999 1,4048 1,4096 1,4144 2,0000
5% 1,4434 1,4511 1,4585 1,4656 1,4726 1,4793 1,4858 1,4921 1,4982 1,5041 1,5098 1,5154 1,5206 1,5257 1,5305 1,5351 1,5395 1,5437 1,5477 1,5518 1,5557 1,5596 1,5634 1,5670 1,5707 1,5743 1,5779 1,5814 2,0000
7.3.6.2 Der Iterationstest für die Prüfung, ob eine Folge von Alternativdaten oder von Messwerten zufallsgemäß ist Der Iterationstest ist wie die folgenden beiden Tests verteilungsunabhängig. Er dient zur Prüfung der Unabhängigkeit, der zufälligen Anordnung von Stichprobenwerten. Eine Iteration (run) ist eine Folge identischer Symbole. So bildet die Münzwurf-Folge (W = ¯ W, W, W, Z, W, W, Z, Z für die 8 Würfe Wappen, Z = Zahl): W, W, W Z W, W Z, Z ; ; ; 1 2 3 4 rˆ = 4 Iterationen (n = 8). Iterationen erhält man nicht nur bei Alternativdaten, sondern auch bei Messwerten, die nach ihrem Medianwert in über- oder unterdurchschnittlich gruppiert werden.
524
7 Hypothesentest
Für gegebenes n weist ein kleines rˆ auf Klumpungen ähnlicher Beobachtungen hin, ein großes rˆ auf einen regelmäßigen Wechsel. Der Nullhypothese (H0 ), die Reihenfolge ist zufällig, d. h. es liegt eine Zufallsstichprobe vor, wird bei zweiseitiger Fragestellung die Alternativhypothese (HA ), es liegt keine Zufallsstichprobe vor, d. h. die Stichprobenwerte sind nicht unabhängig voneinander, gegenübergestellt. Bei einseitiger Fragestellung wird der H0 entweder die HA1 : „Klumpungseffekt“ oder die HA2 : „regelmäßiger Wechsel“ gegenübergestellt. Die kritischen Schranken runten = ru;α/2 und roben = ro;α/2 für n1 und n2 ≤ 20 sind der Tabelle 7.18 zu entnehmen. Abweichend von der sonst verwendeten Notation (Quantile) werden hier untere und obere kritische Werte prozentual gekennzeichnet. Für n1 oder n2 > 20 benutze man die Approximation (7.69). rˆ − 2n1 n2 + 1 n + n |ˆ r − μr | 1 2 zˆ = =' σr 2n1 n2 (2n1 n2 − n1 − n2 ) (n1 + n2 )2 (n1 + n2 − 1)
Für
|n(ˆ r − 1) − 2n1 n2 | mit n = n1 + n2 = 2n1 n2 (2n1 n2 − n) n−1 n (d. h. n = 2n1 = 2n2 ): n 1 = n2 = 2 " #) n n(n − 2)/[4(n − 1)] zˆ = rˆ − 2 + 1
(7.69)
Zweiseitiger Test: r > >
library ( t s e r i e s ) w e r t e 30: h − 2n − 7 3 zˆ = 16n − 29 90
(7.70)
7.3 Einstichprobenverfahren
527
Beispiel: Es liege eine aus 22 Werten bestehende Reihe von Messwerten vor: Messwert 5 6 2 3 5 6 4 3 7 8 9 7 5 3 4 7 3 5 6 7 8 9 Vorzeichen + - + + + - - + + + - - - + + - + + + + + Nr. der Phase 1 2 3 4 5 6 7 Für h =7 wird zˆ = [|7 − (2 · 22 − 7)/3| − 0,5]/ (16 · 22 − 29)/90 = 4,83/1,89 = 2,56 > 1,96 = z0,95 . Die Nullhypothese wird auf dem 5%-Niveau abgelehnt.
5
7.3.6.4 Der Vorzeichen-Trendtest von Cox und Stuart Eine Zeitreihe ist eine (zeitliche) Folge von Beobachtungen oder Messungen. Sie bringt die Ausprägungen einer Veränderlichen im Zeitablauf zum Ausdruck, etwa die monatlichen Verkaufszahlen für Wein. Für die Prüfung einer Zeitreihe auf Trendänderung nach D.R. Cox und A. Stuart [CS55] wird die Folge der n Werte in zwei gleich große Gruppen geteilt. X1 , X2 , . . . , Xn −1 Xn , Xn +1 , . . . , Xn . n/2 falls n gerade n = (n + 1)/2 falls n ungerade
mit
Ist n ungerade, wird auf diese Weise die mittlere Beobachtung ignoriert. Es können n Beobachtungspaare (Xi , Xi+n ) für i = 1, . . . , n gebildet werden, für die eine Folge von Vorzeichen bestimmt wird (identische Paare, Bindungen werden ausgeschlossen). “ + “ , wenn Xi < Xi+n für i = 1, . . . , n “ − “ , wenn Xi > Xi+n Als Teststatistik T wird die Summe der Paare mit positivem Vorzeichen (“ + “) verwendet. T ist unter der Nullhypothese (keine Veränderung im Trend) binomialverteilt mit T ∼ Bin(n , 0,5). Ein Aufwärtstrend kann bei einseitiger Hypothesenstellung angenommen werden, wenn P (T ≥ tˆ | H0 ) ≤ α. Für den Abwärtstrend gilt entsprechend P (T ≤ tˆ | H0 ) ≤ α. Beispiel: Die mittlere Laufleistung (mileage) von Kraftfahrzeugen in den Vereinigten Staaten betrug in den Jahren 1970-1983 (U.S. Dept. of Commerce) Jahr Laufleistung Jahr Laufleistung Vorzeichen 1970 9.800 1977 9.600 − 1971 9.900 1978 9.800 − 1972 10.000 1979 9.300 − 1973 9.800 1980 8.900 − 1974 9.200 1981 8.700 − 1975 9.400 1982 9.200 − 1976 9.500 1983 9.300 − Die Summe der positiven Vorzeichen ist 0. Ein statistisch signifikanter Abwärtstrend kann mit P (T ≤ 0) = 0,0078 bestätigt werden.
5
528
7 Hypothesentest
Mit der folgenden Funktion cox.stuart.test() kann der Test in R berechnet werden. > + + + + + + + + + + + + + + + + + + + + + + > >
cox . s t u a r t . t e s t 0 ] ; neg = s i g n s [ s i g n s < 0 ] i f ( l e n g t h ( pos ) < l e n g t h ( neg ) ) { prop = pbinom ( l e n g t h ( pos ) , l e n g t h ( s i g n c o r r ) , 0 . 5 ) names ( prop ) = " A u f w ä r t s t r e n d , P−Wert " r v a l 1 − p p o i s ( 1 5 , . 1 0 ∗ 1 0 0 , l o w e r . t a i l = TRUE) # one s a m p l e t e s t [ 1 ] 0.0487404 > poisson . t e s t (16 , 0.10∗100 , a l t e r n a t i v e =" g r e a t e r " ) Exact Poisson t e s t d a t a : 16 t i m e b a s e : 0 . 1 ∗ 100 number o f e v e n t s = 1 6 , t i m e b a s e = 1 0 , p−v a l u e = 0 . 0 4 8 7 4 a l t e r n a t i v e hypothesis : true event r a t e i s g r e a t e r than 1 95 p e r c e n t c o n f i d e n c e i n t e r v a l : 1 . 0 0 3 5 9 6 Inf sample e s t i m a t e s : event ra te 1.6 > ppois (16 , 1.6∗10) [ 1 ] 0.5659624
# Power
Zur schnellen Orientierung dienen auch die Schranken der Poisson-Verteilung in Tabelle 7.19. Erwartet man aufgrund langer Erfahrung oder einer brauchbaren Theorie mittlere Häufigkeiten, die in einem gewählten Intervall (z. B. 1 Sekunde, 1 Jahr, 1 Quadratkilometer), etwa zwischen 1 und 100 liegen, so lassen sich anhand der Tabelle für die einseitige Fragestellung Abweichungen von dem Erwartungswert Lambda (λ) auf dem 5%-Niveau bzw. auf dem 1%-Niveau statistisch sichern.
5
530
7 Hypothesentest
Tabelle 7.19: Obere 5%- und 1%-Schranken der Poisson-Verteilung für ausgewählte Erwartungswerte λ; tabelliert sind kleinste ganze Zahlen, für die die Wahrscheinlichkeit, erreicht oder überschritten zu werden, kleiner als 0,05 bzw. kleiner als 0,01 ist λ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
obere Schranke 0,05 0,01 4 5 6 7 7 9 9 10 10 12 11 13 13 15 14 16 15 18 16 19 18 20 19 22 20 23 21 24 23 26
obere Schranke 0,05 0,01 23 26 24 27 26 30 29 32 34 38 40 44 46 50 52 56 57 62 63 68 74 80 85 91 96 103 107 114 118 125
λ 15 16 18 20 25 30 35 40 45 50 60 70 80 90 100
z. B. P (X ≥ 4 | λ = 1) < 0,05; denn P (X ≥ 4 | λ = 1) = P (X = 4 | λ = 1) + P (X > 4 | λ = 1) = 0,0153 + 0,0037 = 0,019 < 0,05.
5
Beispiel: Man erwarte im Durchschnitt λ = 10 Ereignisse pro Intervall. Treten statt dessen 11, 12, 13, 14 oder 15 Ereignisse pro Intervall auf, so ist dies mit H0 : λ = 10 gegen HA : λ > 10 und αeinseitig = 0,05 verträglich. Treten jedoch 16 Ereignisse pro Intervall auf, so muss H0 auf dem 5%-Niveau zugunsten von HA verworfen werden. Es spricht dann einiges dafür, dass Lambda größer als 10 ist. Tabelle 7.20 gestattet die Angabe, dass bei fest vorgegebenem Wert Lambda λ einer PoissonVerteilung mit einer Wahrscheinlichkeit von knapp P % höchstens k Ereignisse (k ≤ 10) zu erwarten sind. So ergibt sich für P = 5% und k = 4 der Wert λ = 9,2, d. h. genauer: P (X ≤ 4|λ = 9,2) = 0,0486 < 0,05. Damit wäre für k = 4 Ereignisse in einer Zufallsstichprobe aus einer nach Poisson verteilten Grundgesamtheit mit dem Erwartungswert λ = 9,2 die Nullhypothese H0 : λ = 9,2 auf dem 5%-Niveau abzulehnen. Tabelle 7.20: Kumulierte Poisson-Wahrscheinlichkeiten P für k Ereignisse und Werte λ; die Werte für λ sind so gewählt, dass die links angegebenen Schranken von P gerade noch unterschritten werden @ k P@ @ 10% 5% 1%
1
2
3
4
5
6
7
8
9
10
3,9 4,8 6,7
5,4 6,3 8,5
6,7 7,8 10,1
8,0 9,2 11,7
9,3 10,6 13,2
10,6 11,9 14,6
11,8 13,2 16,1
13,0 14,5 17,5
14,3 15,8 18,8
15,5 17,0 20,2
Für k = 5 Ereignisse [vgl. P (X = 5|λ = 9,2) = 0,0555] und damit P (X ≤ 5|λ = 9,2) = 0,0486 + 0,0555 = 0,1041 > 0,05 hätte man H0 auf diesem Niveau nicht ablehnen können. Die Tabelle dient etwa zur Kontrolle von Störfällen bzw. von nicht einwandfreien Objekten. So lässt sich H0 : λ = 13,2 für k ≤ 5 auf dem 1%-Niveau ablehnen, für k ≤ 7 auf dem 5%-Niveau. Ist bisher mit durchschnittlich 13,2 Störfällen pro entsprechender Einheit gerechnet worden, so weisen die neuerdings festgestellten höchstens 5 (bzw. 7) Störfälle pro Einheit auf eine Prozessverbesserung hin.
7.3 Einstichprobenverfahren
531
7.3.7.1 Fallzahl und Power zum Einstichproben-Lambda-Test Für die Abschätzung der erforderlichen Fallzahl n bei geforderter Power (1−β) bzw. der Power bei fester Fallzahl (post hoc) wird eine Approximation der Poisson-Verteilung durch die Normalverteilung herangezogen (Wurzeltransformation). √ √ X ∼ P ois(λ), μ = n · λ, X ∼ N ( n · λ, 0,5) Die Power für einen Effekt |μ − μ0 |/σ kann dann angenähert durch die Verteilungsfunktion Φ der Standardnormalverteilung wie folgt bestimmt werden. β = P (Z ≤ zβ ) = Φ(zβ ) = P (Z ≤
|μ − μ0 | + z1−α ) σ
√ √ √ 1 − β = 1 − Φ(2 n( λ − λ0 ) + z1−α ) Aus (7.74) lässt sich auch eine Annäherung für die erforderliche Fallzahl berechnen. 2 z1−α + z1−β n = 14 √ λ + λ0
(7.74)
(7.75)
Hinweis: Exakte Werte können iterativ auch aus der Poissonverteilung direkt abgeleitet werden (vgl. L.S. Nelson [Nel91]). Beispiel: Der Hersteller von Bauteilen verzeichnet im Mittel eine Fehlerrate von λ0 = 1,26 pro Produktionseinheit. Es soll untersucht werden, ob durch eine Änderung im Produktionsablauf die Fehlerrate halbiert werden kann (λ = 0,63). Mit α = 0,05 und (1−β) = 0,90 folgt #2 " 1 1,645 + 1,282 n= ∼ 20 4 0,63 + 1,26
.
> lA σ22 ) auf dem 5%-Niveau statistisch signifikant? Für F = 1,53, ν1 = 60 und ν2 = 60 erhalten wir 1 1 1 1,15129 · log 1,53 + − 2 60 60 ' zˆ = = 1,647 , 1 1 1 + 2 60 60 d. h. zˆ = 1,647 > 1,645; das einer Irrtumswahrscheinlichkeit von P = 0,05 entsprechende Quantil der Standardnormalverteilung z0,95 = 1,6449 wird überschritten, damit muss die Hypothese der Varianzhomogenität auf dem 5%-Niveau abgelehnt werden. Diese Approximation ist bereits für ν1;2 = 60 Freiheitsgrade ausgezeichnet. 7.4.1.3 Varianzvergleich bei großem bis sehr großem Stichprobenumfang zˆ = (|s1 − s2 |)/ [s21 /(2n1 )] + [s22 /(2n2 )]
(7.82)
Für zˆ > z1−α/2 wird H0 : σ12 = σ22 (bzw. σ1 = σ2 ) auf dem 100α%-Niveau abgelehnt; beide gelten dann auf dem betreffenden Niveau als statistisch signifikant verschieden, d. h. als heterogen, im anderen Falle gelten sie als gleich oder homogen.
5
Beispiel: Gegeben seien s1 = 14 s2 = 12 n1 = n2 = 500 ; Nullhypothese: σ12 = σ22 ; Alternativhypothese: σ12 = σ22 ; α = 0,05; zˆ = (14 − 12)/ [142 /(2 · 500)] + [122 /(2 · 500)] = 3,430 > 1,960; d. h. auf dem 5%-Niveau wird H0 : σ12 = σ22 abgelehnt und HA : σ12 = σ22 akzeptiert. 7.4.1.4 Stichprobenumfang und Power für den F-Test Die Prüfung der Nullhypothese H0 : erfolgt mit der Teststatistik
σ12 = σ22 s2 Fˆ = 12 s2
bzw.
H0 :
σ12 =1 σ22
(s21 > s22 )
durch das Quantil der Fisher-Verteilung F1−α pwr . var >
s i e g e l . t u k e y . t e s t = f u n c t i o n ( x=NA, y=NA, t i e s =T ) { n1 aktiv i n a k t i v > t . t e s t ( a k t i v , i n a k t i v , a l t e r n a t i v e = " g r e a t e r " , var . e q u a l =FALSE ) Welch Two Sample t−t e s t data : a k t i v and i n a k t i v t = 2 . 2 3 7 8 , d f = 1 1 . 1 4 1 , p−v a l u e = 0 . 0 2 3 3 0 a l t e r n a t i v e h y p o t h e s i s : t r u e d i f f e r e n c e i n means i s g r e a t e r t h a n 0 95 p e r c e n t c o n f i d e n c e i n t e r v a l : 3 . 2 4 3 2 3 6 Inf sample e s t i m a t e s : mean o f x mean o f y 60.45556 44.10909
5
552
7 Hypothesentest
Die Annahme homogener Varianzen, die in R mit der Funktion var.test() überprüft werden kann, ist in den vorliegenden Daten nicht berechtigt. Daher wird die Funktion t.test() mit dem zusätzlichen Argument var.equal=FALSE verwendet. R berechnet die Prüfgröße, insbesondere die Anzahl der Freiheitsgrade nach der Welch-Statistik. Die Nullhypothese H0 : μ1 ≤ μ2 kann auf dem 5%-Niveau abgelehnt werden, da tˆ = 2,24 > 1,796 = t11; 0,95 bzw. der P-Wert 0,0233 ist. Im Falle gleicher Stichprobenumfänge (n1 = n2 = n) ergeben sich wieder folgende Vereinfachungen [Q wird nach (7.98) berechnet] ¯2 | ¯2 | |¯ x1 − x |¯ x1 − x = tˆ = 2 Q1 + Q2 s1 + s22 n(n − 1) n
mit ν = n − 1 Freiheitsgraden
(7.106)
Für den Vergleich mehrerer Erwartungswerte bei nicht unbedingt gleichen Varianzen existiert die so genannte Welch-Statistik (vgl. Varianzanalyse), eine hervorragende Approximation (vgl. z. B. Sachs [Sac06])! Einen weiteren Weg zur Lösung des Behrens-Fisher-Problems hat Weir [Wei60] vorgeschlagen. Für uns ist interessant, dass ein Erwartungswert-Unterschied auf dem 5%-Niveau statistisch gesichert ist, sobald für Stichprobenumfänge n1 ≥ 3 und n2 ≥ 3 die Prüfgröße '
|¯ x1 −¯ x2 | 1 Q1 +Q2 1 + n1 +n2 −4 n1 n2
'
|¯ x1 − x ¯2 |
+ (n2 −1)s22 1 1 + n1 +n2 −4 n1 n2
(n1 −1)s21
(7.107)
≥ 2 ist; unterschreitet der Quotient den Wert 2, dann lässt sich die Nullhypothese μ1 = μ2 auf dem 5%-Niveau nicht ablehnen. Übersicht 44: Vergleich zweier empirischer Mittelwerte unabhängiger Stichproben aus angenähert normalverteilten Grundgesamtheiten Varianzen Stichprobenumfänge gleich: n1 = n2 = n
ungleich: n1 = n2
tˆ = !
gleich: σ12 = σ22
ungleich: σ12 = σ22
¯2 | |¯ x1 − x tˆ = 2 s1 + s22 n
¯2 | |¯ x1 − x tˆ = 2 s1 + s22 n
F G = 2n − 2
FG = n − 1
¯2 | |¯ x1 − x (n1 − 1)s21 + (n2 − 1)s22 n1 + n2 · n1 n2 n 1 + n2 − 2 F G = n 1 + n2 − 2
¯2 | |¯ x1 − x tˆ = s2 s21 + 2 n1 n2 F G = n2 − 1 für n1 > n2
7.4 Zweistichprobenverfahren
553
Beispiel (wenn auch etwas bizarr): Vergleich zweier empirischer Mittelwerte auf dem 5%-Niveau: n1 = 3; 1,0 5,0 9,0 x ¯1 = 5,0; Q1 = 32; s21 = 16 ¯2 = 11,0; Q2 = 0,02; s22 = 0,01 n2 = 3; 10,9 11,0 11,1 x Q lässt sich hier schnell nach Q = (x − x ¯)2 berechnen. Nach (7.107): '
|5,0 − 11,0| 6 = 3,27 < 2,0 32 + 0,02 1 1 + 3 + 3 − 4) 3 3
Anhand der vorliegenden Stichproben lässt sich auf dem 5%-Niveau ein Unterschied nicht sichern. Das Standardverfahren (7.106) (beachte: n1 und n2 sind jetzt beide kleiner als 6) 6 |5,0 − 11,0| < 4,303 = t2;0,975 = tˆ = ' 3,31 32 + 0,02 3(3 − 1) ⎡
Nach Hsu: ⎣ν = 3 − 1 = 2
bzw.
ν =3−1+
2·3−2 2 32 0,02 + 0,02 32
⎤ ⎦
liefert die gleiche Entscheidung. 7.4.4.3 Fallzahlabschätzung für den t-Test: zwei unabhängige Stichproben Die Ermittlung einer ausreichenden Fallzahl für den t-Test für zwei unabhängige Stichproben im Rahmen der Studienplanung geht von (7.108) aus. Dabei wird vorausgesetzt, dass die beiden Stichproben aus normalverteilten Grundgesamtheiten mit etwa gleicher Varianz stammen. n≥
2σ 2 (tν;1−α + tν;1−β )2 δ2
(7.108)
Damit wird der Stichprobenumfang durch vier Faktoren beeinflusst. 1. δ bezeichnet die kleinste Differenz, die durch den Hypothesentest bestätigt werden soll (δ = μ1 − μ2 ). Kleine Differenzen erfordern somit eine höhere Fallzahl gegenüber großen (unter sonst gleichen Bedingungen). 2. Die Varianz in der Grundgesamtheit ist σ 2 . Eine hohe Variabilität in den Beobachtungen oder Messungen erfordert eine größere Fallzahl, um einen Unterschied als statistisch signifikant bestätigen zu können. σ 2 ist in der Regel unbekannt. Unter der Annahme, dass die Varianz in den Grundgesamtheiten gleich ist, kann σ 2 durch eine gemeinsame Varianzschätzung (pooled variance) aus Voruntersuchungen oder auf der Grundlage einer Literaturrecherche ermittelt werden. σ2 σ2 s2 s2 σx2¯1 −¯x2 = + ∼ 1 + 2 = s2p (7.109) n1 n2 n1 n2 Hinweis: Die Beziehung (7.109) gilt nur dann, wenn beide Messreihen oder Stichproben stochastisch unabhängig voneinander sind.
5
554
7 Hypothesentest
3. Das Quantil der t-Verteilung tν;1−α (einseitig) oder tν;1−α/2 (zweiseitig) wird um so größer ausfallen, je kleiner α gewählt wird, d. h. es müssen größere Stichproben untersucht werden. Mit anderen Worten, man benötigt größere Stichproben, wenn der Fehler 1. Art, das Risiko einer fälschlichen Ablehnung der Nullhypothese kleiner festgelegt wird. 4. Entsprechendes gilt für das Quantil der t-Verteilung tν;1−β hinsichtlich des Fehlers 2. Art. Eine höhere Power (Teststärke (1 − β)) fordert eine höhere Fallzahl in den Stichproben. Übersicht 45: Zweistichproben-Verfahren: weiterführende Details 1. Stichproben, die nicht rein zufällig ausgewählt werden, sind gegenüber zufälligen Stichproben durch größere Ähnlichkeit der Stichprobenelemente untereinander und geringere Ähnlichkeit der Stichprobenmittelwerte charakterisiert. Beim nichtzufälligen Stichprobenziehen werden somit die Standardabweichungen verkleinert und die Mittelwertsunterschiede vergrößert. Beide Effekte können damit einen „signifikanten Mittelwertsunterschied“ vortäuschen! Daher müssen knapp signifikante Resultate mit großer Vorsicht interpretiert werden, sofern keine echten Zufallsstichproben vorgelegen haben. 2. Ein Vergleich zweier Parameter aufgrund ihrer Konfidenzintervalle ist möglich: (1) Überdecken sich die Konfidenzintervalle teilweise, so darf nicht gefolgert werden, dass sich die Parameter nicht signifikant unterscheiden. G.W. Ryan und St. D. Leadbetter [RL02] benennen Umstände, unter denen signifikante Unterschiede auch bei überlappenden Konfidenzintervallen möglich sind. (2) Überdecken sich die Konfidenzintervalle nicht, so besteht zwischen den Parametern ein echter Unterschied: H0 : μ1 = μ2 lässt sich für n1 > 10 und n2 > 10 auf dem 5%-Niveau ablehnen, sobald sich die beiden 95%Konfidenzintervalle nicht überlappen. 3. Die Anzahl der Stichprobenwerte, die man für den Vergleich eines Stichprobenmittelwertes mit dem Parameter der Grundgesamtheit oder für den Vergleich zweier Stichprobenmittelwerte benötigt, wird in Tabelle 7.23 für kontrollierte Fehler 1. Art (α = 0,05 und α = 0,01) und 2. Art (β = 0,3; 0,2 sowie 0,1) und definierte Abweichungen gegeben. 4. Nach I.W. Molenaar [Mol04] kann auf eine Prüfung der Gleichheit zweier Varianzen anhand von s21 und s22 verzichtet werden. Gilt 0,5 ≤ s21 /s22 ≤ 2 bzw. gilt für n1 ≈ n2 : 0,25 ≤ s21 /s22 ≤ 4, dann ist der t-Test anwendbar, vorausgesetzt, die Zufallsstichproben sind zumindest angenähert normalverteilt. 5. Der t-Test gilt als robust, auch wenn keine Normalverteilung vorliegt bzw. die Varianzen aus den zu vergleichenden Grundgesamtheiten verschieden sind. Diese Feststellung bezieht sich praktisch für n > 8 auf das Einhalten des nominellen Signifikanzniveaus (α) - so der allgemeine „Eindruck“ in der Mitte des vergangenen Jahrhunderts. Die Power blieb im Hintergrund. Indessen hat der t-Test auch schon bei kleineren Abweichungen von der Annahme einer Normalverteilung eine recht geringe Power im Vergleich zu exakten Verfahren, z. B. Rangtestverfahren. Mit anderen Worten: Soll ein bestehender Unterschied mit möglichst hoher Sicherheit bestätigt werden, dann kann der t-Test bzw. das entsprechende Konfidenzintervall zu sehr unbefriedigenden Ergebnissen führen (vgl. auch R.R. Wilcox [Wil10]). 6. Eine Verallgemeinerung des Zweistichproben-t-Test für eine angenähert normalverteilte Variable auf mehrere bietet der im Abschnitt 7.4.4.5 auf Seite 559 vorgestellte Test nach Hotelling.
7.4 Zweistichprobenverfahren
555
Die Tabelle 7.23 gibt bei einseitiger oder zweiseitiger Fragestellung für den Zweistichproben-tTest den angenäherten Stichprobenumfang n (Zweistichprobentest: n = n1 = n2 ) an, der notwendig ist, um bei einer Irrtumswahrscheinlichkeit α mit der Power 1 − β eine Differenz auf dem 100α%-Niveau als statistisch signifikant auszuweisen, wenn sich die Erwartungswerte zweier Grundgesamtheiten mit der gemeinsamen Standardabweichung σ um (μ1 − μ2 )/σ = δ/σ unterscheiden. Um z. B. bei einseitiger Fragestellung auf dem 5%-Niveau eine Differenz (μ1 − μ2 )/σ = 2/5 = 0,4 mit einer Power von 0,7 als statistisch signifikant auszuweisen, benötigt man für den Zweistichproben-t-Test (α = 0,05; Power = 0,7) jeweils 59 Beobachtungen; bei zweiseitiger Fragestellung auf dem 1%-Niveau und sonst gleichen Voraussetzungen werden bereits 121 Beobachtungen in jeder Stichprobe benötigt. Tabelle 7.23: Stichprobenumfänge zum Zweistichproben-t-Test: ein- und zweiseitig Irrtumswahrscheinlichkeit α = 0, 05 |μ1 − μ2 | σ 0.1 0.2 0.3 0.4 0.5 0.7 1.0 1.5
einseitiger Test(1 − β) Power 0,7 0,8 0,9
zweiseitiger Test (1 − β) Power 0,7 0,8 0,9
942 236 105 59 38 20 10 5
1235 309 138 78 50 26 13 6
1237 310 138 78 50 26 13 6
1713 429 191 108 69 35 18 8
1570 393 175 99 63 33 16 7
2102 526 234 132 85 43 22 10
Irrtumswahrscheinlichkeit α = 0, 01 |μ1 − μ2 | σ 0.1 0.2 0.3 0.4 0.5 0.7 1.0 1.5
einseitiger Test(1 − β) Power 0,7 0,8 0,9
zweiseitiger Test (1 − β) Power 0,7 0,8 0,9
1626 407 181 102 66 34 17 8
1923 481 214 121 77 40 20 9
2008 502 224 126 81 41 21 9
2604 651 290 163 105 54 27 12
2336 584 260 146 94 48 24 11
2976 744 331 186 120 61 30 14
Die Abschätzung der Fallzahl kann in R mit der Funktion power.t.test() erfolgen. In dem folgenden Beispiel soll die Fallzahl für den Zweistichproben-t-Test bei einseitiger Hypothesenstellung mit α=0,05 und β=0,20 bestimmt werden; z. B. soll die Behauptung überprüft werden, dass der mittlere diastolische Blutdruck bei Patienten mit einer bestimmten Krankheit gegenüber gesunden Kontrollen „um mindestens“ 15mmHg erhöht ist. Die gemeinsame Varianz wird mit σ 2 =400 angenommen. Für die Funktion power.t.test() sind neben der Teststatistik (Ein- bzw. Zweistichprobentest) und der Art der Hypothesenstellung (ein- bzw. zweiseitig) die relevanten Parameter aus (7.108) zu spezifizieren. Dabei wird die zu berechnende Größe (z. B. n=N U LL) ausgelassen. Besonders zu beachten ist, dass der Parameter „delta=15“ in diesem Fall die wahre (zu prüfende)
556
7 Hypothesentest
Differenz zwischen den Erwartungswerten angibt, die hinsichtlich der in Tabelle 7.23 verwendete Effektstärke noch durch die Standardabweichung dividiert werden muss. > power . t . t e s t ( d e l t a =15 , sd =20 , s i g . l e v e l = 0 . 0 5 , power = 0 . 8 0 , n=NULL, + t y p e = " two . s a m p l e " , a l t e r n a t i v e = " one . s i d e d " ) Two−sample t t e s t power c a l c u l a t i o n n delta sd sig . level power alternative
= = = = = =
22.69032 15 20 0.05 0.8 one . s i d e d
Für unser Zahlenbeispiel ist (μ1 − μ2 )/σ = 15/20 = 0,75 (die so genannte Effektstärke). Mit dem festen Signifikanzniveau α = 0,05 und der Power 1 − β = 0,80 liefert die Funktion power.t.test() in R einen notwendigen Stichprobenumfang von n1 = n2 = 23 Beobachtungen. Die Formel für die Fallzahl (7.108) kann so umgeformt werden, dass insbesondere auch die Teststärke (Power) oder die „minimal aufdeckbare“ Differenz (7.110) für einen Test bei fester Fallzahl bestimmt werden können.
2σ 2 (tν;1−α + tν;1−β ) δ≥ (7.110) n
5
Beispiel (Gerinnung): Welche minimal aufdeckbare Differenz kann in einem zweiseitigen Test hinsichtlich der Gerinnungszeiten (in Minuten gemessen) unter der Therapie mit zwei verschiedenen Medikamenten erfasst werden, wenn die Untersuchung mit je 20 Fällen durchführt wird? Die Testentscheidung soll mit α = 0,05 und β = 0,10 getroffen werden. Aus Voruntersuchungen kann die Varianz mit σ 2 = 0,905 angenommen werden.
2(0,905) δ= (2,024 + 1,304) ≈ 1 20 > power . t . t e s t ( n =20 , sd = s q r t ( 0 . 9 0 5 ) , s i g . l e v e l = 0 . 0 5 , power = 0 . 9 0 , + t y p e = " two . s a m p l e " , a l t e r n a t i v e = " two . s i d e d " ) Two−sample t t e s t power c a l c u l a t i o n n delta sd sig . level power alternative
= = = = = =
20 1.000755 0.9513149 0.05 0.9 two . s i d e d
Mit n = 20 Patienten je Behandlungsgruppe kann demnach bei einer zweiseitigen Fragestellung mit einer Irrtumswahrscheinlichkeit von 5% und einer Power von 90% eine Differenz von mindestens einer Minute als statistisch signifikant erkannt werden.
Hinweise zur Fallzahlplanung und Poweranalyse zum Zweistichproben-t-Test (unabhängige, normalverteilte Zufallsvariablen): 1. Der Zweistichproben-t-Test ist robust und hat die größte Power, wenn die Stichprobenumfänge gleich sind (n1 = n2 = n). Ist n1 = n2 , dann kann (7.110) mit dem harmonischen Mittel von n1 und n2 verwendet werden. n=
2n1 n2 n1 + n2
(7.111)
7.4 Zweistichprobenverfahren
557
2. Unter der Alternativhypothese H0 : μ1 = μ2 folgt die Teststatistik (7.105) einer nichtzentralen t-Verteilung (vgl. Kapitel 5.5.1.1 auf Seite 308) mit ν = n1 + n2 − 2 Freiheitsgraden und dem Nichtzentralitätsparameter δ =
|μ1 − μ2 | σ12 /n1 + σ22 /n2
.
Die Power, einen Unterschied |μ1 − μ2 | mit dem t-Test bei zweiseitiger Fragestellung mit dem Signifikanzniveau α zu erkennen, ist dann: P ower = 1 − β = P (tν,δ > tν,1−α/2 ) + P (tν,δ < tν,α/2 )
(7.112)
Beispiel (Sauerstoffaufnahme): Im Rahmen eines Belastungstests wurde die maximale Sauerstoffaufnahme V O2 max (ml · min−1 · kg −1 ) bei jeweils 15 Männern (n1 = n2 = 15) in zwei Altersgruppen untersucht.
5
20-30 Jahre (A) 30-40 Jahre (B) 46,2 43,5 gemeinsame Standardabweichung: σp = 2,8 Die elementare Berechnung der Power für einen t-Test kann mit R durch die folgenden Befehlen erfolgen: > m1 > >
two . sample . b o o t s t r a p > > > > > >
R1 R2 T1 T2
0,05.
• Nach der Simes-Hochberg-Prozedur wird der größte P-Wert mit 1 multipliziert, d. h. p˜SH (5) = p(5) · 1 = 0,62 > 0,05. Der nächst niedrigere Wert wird mit 2 multipliziert, d. h. p(4) · 2 = 0,08 > 0,05 und somit wird p˜SH ˜SH (4) = p (5) gesetzt. In den nächsten Schritten ist SH SH dann p˜(3) = p(3) · 3 = 0,045, p˜(2) = p(2) · 4 = 0,044 und p˜SH (1) = p(1) · 5 = 0,010.
5
616
•
7 Hypothesentest
Nach der Benjamini-Hochberg-Prozedur erfolgt die Adjustierung der P-Werte in den folgenden Schritten: p˜BH ˜BH (1) = p(1) · 5 = 0,010, p (2) = p(2) · 2,5 = 0,0275, BH BH p˜(3) = p(3) · 1,67 = 0,025, p˜(4) = p(4) · 1,25 = 0,05 und p˜BH (5) = p(5) · 1 = 0,062.
Die Ergebnisse sind in der folgenden Tabelle zusammengestellt. Die auf einem (multiplen) Signifikanzniveau von α = 0,05 signifikanten Ergebnisse sind durch (*) markiert. Nummer 1 2 3 4 5
pj 0,011 (*) 0,062 (-) 0,015 (*) 0,040 (*) 0,002 (*)
p˜Bo j 0,055 (-) 0,310 (-) 0,075 (-) 0,200 (-) 0,010 (*)
Rang (j) 2 5 3 4 1
p˜Ho (j) 0,044 (*) 0,080 (-) 0,045 (*) 0,080 (-) 0,010 (*)
p˜SH (j) 0,044 (*) 0,062 (-) 0,045 (*) 0,062 (-) 0,010 (*)
p˜BH (j) 0,025(*) 0,062(-) 0,025(*) 0,050(-) 0,010(*)
In R können die Adjustierungen mit der Funktion p.adjust() berechnet werden. > p p . a d j u s t ( p , method = " b o n f e r r o n i " ) [1] 0.055 0.310 0.075 0.200 0.010 > p . a d j u s t ( p , method = " holm " ) [1] 0.044 0.080 0.045 0.080 0.010 > p . a d j u s t ( p , method = " h o c h b e r g " ) [1] 0.044 0.062 0.045 0.062 0.010 > p . a d j u s t ( p , method = "BH" ) [1] 0.025 0.062 0.025 0.050 0.010
Hinweis: Eine starke Motivation für die Anwendung der F DR resultiert z. B. aus Genexpressionsstudien, in denen eine große Anzahl von Variablen (10000 Gene) bei einer vergleichsweise kleinen Anzahl von Fällen (100 Patienten) erfasst und bewertet werden sollen. Durch die Kontrolle des Anteils fälschlich abgelehnter Nullhypothesen kann die Power erhöht werden. Analog zum P -Wert wird für die F DR der Q-Wert als die kleinste F DR definiert, für die ein Testergebnis signifikant ist. Im Gegensatz zum P -Wert orientiert sich der Q-Wert somit an der Anzahl falsch positiver Testentscheidungen unter allen signifikanten Ergebnissen. Q(pi ) = min F DR(t) pi ≤t
(7.195)
Dieser Definition entsprechend ist es sinnvoll, die F DR als Funktion eines Schwellenwertes t (0 < t ≤ 1) nach (7.196) zu interpretieren. Der Operator # steht hier für die Anzahl der P Werte (m ist sehr groß), welche die jeweilige Bedingung erfüllen. p0i bezeichne die P -Werte, die fälschlicherweise zur Ablehnung der Nullhypothese führen, aber nicht bekannt sind. V (t) = #{p0i ≤ t; i = 1, . . . , m} R(t) = #{pi ≤ t; i = 1, . . . , m} F DR(t) = E
(7.196)
V (t) R(t)
Die Schätzung der F DR ist ohne weitere Kenntnisse oder Annahmen über die Verteilung der P Werte nicht möglich. J.D. Storey und R. Tibshirani [ST03] geben einen Ansatz nach (7.197) an.
7.5 Mehrfacher Hypothesentest
F DR(t) =
π ˆ0 · m · t #{pi ≤ t; i = 1, . . . , m}
617
mit
#{pi > λ; i = 1, . . . , m} π ˆ0 (λ) = m(1 − λ)
(7.197)
Da auch der Anteil wahrer Nullhypothesen (π0 ) unbekannt ist, wird dieser aus der Verteilung der pi mit Hilfe eines zusätzlichen Skalierungsparameters λ (0 ≤ λ < 1) geschätzt. Für λ = 0 ist π ˆ0 = 1, d. h. es wird angenommen, dass keine Alternative wahr ist. Diese Annahme ist streng konservativ und führt zu F DR = F W ER. Die Varianz von π ˆ0 wächst und die Schätzung der F DR wird zunehmend unzuverlässig, je näher der Parameter λ bei dem Wert 1 liegt. J.D. Storey und R. Tibshirani [ST03] empfehlen λ = 0,5 als einen plausiblen Orientierungswert. Für die Schätzung des Q-Wertes geben die Autoren einen Algorithmus an, in dem π0 auf der Basis der vorliegenden P -Werte aus limλ→1 π ˆ0 (λ) ≡ π ˆ0 (λ = 1) durch eine polynomiale Funktion 3. Grades (natural cubic spline) geschätzt wird. In R kann die Funktion qvalue() aus dem gleichnamigen Paket library(qvalue) von J.D. Storey et al. [SBDR19] für die Schätzung des Q-Wertes eingesetzt werden. 7.5.3 Kombination von P -Werten aus gleichgerichteten einseitigen Tests Aus k unabhängigen, gleichgerichteten einseitigen Tests mit den individuellen Hypothesen H0i 0k (i = 1, . . . , k) soll eine Testentscheidung für die kombinierte Nullhypothese H0 = i=1 H0i begründet werden (z. B. im Rahmen einer Metaanalyse). H0 ist wahr, wenn alle Nullhypothesen wahr sind und H0 ist falsch, wenn nur eine der H0i falsch ist. Ein kombinierter P -Wert bezeichnet die Wahrscheinlichkeit, eine wahre H0 fälschlicherweise abzulehnen. Fisher’s kombinierter Test [Fis32] verwendet die P -Werte aus den k Tests für die Berechnung einer neuen Teststatistik t. tˆ = −2
k
ln (Pi ) = −2 ln
i=1
k
Pi
i=1
(7.198)
PF = 1 − Fχ2 (t; 2k) Die Teststatistik tˆ ist χ2 -verteilt mit 2k Freiheitsgraden. Der kombinierte P -Wert kann aus der entsprechenden Verteilungsfunktion abgeleitet werden. Ein wesentlicher Nachteil dieses Ansatzes ist es, dass sehr große und sehr kleine P -Werte ungleich gewichtet behandelt werden. Für P1 = 0,999 und P2 = 0,001 resultiert z. B. tˆ = 13,8 und PF = 0,008. Ein kombinierter P -Wert nach (7.198) ist somit asymmetrisch sensitiv für kleine P -Werte gegenüber großen P -Werten. Dieser Nachteil wird durch die Anwendung einer z-Transformation vermieden (S.A. Stouffer et al. [SSD+ 49]). k k 1 −1 1 zˆs = √ Φ (Pi ) = √ zi k i=1 k i=1
(7.199)
PS = Φ(ˆ z) z ∼ N (0, 1)). Φ−1 bezeichnet die inverse Verteilungsfunktion der Standardnormalverteilung (ˆ
618
5
7 Hypothesentest
Beispiel: Für die Kombination von k = 3 P -Werten folgt: P1 = 0,04 P2 = 0,07 P3 = 0,10
z1 = 1,751 z2 = 1,476 z3 = 1,282 4,509
√ zˆs = 4,509/ 3 = 2,603
Mit zˆs = 2,603 > 2,326 = z0,01;einseitig lässt sich für die kombinierte Betrachtung ein Effekt auf dem 1%-Niveau sichern. Durch die Einführung von zusätzlichen Gewichtungen, z. B. im Rahmen einer Metaanalyse, kann die Wertigkeit einzelner P -Werte (studienbedingt) bei der Berechnung des kombinierten Wertes berücksichtigt werden (vgl. T. Liptak [Lip58]). k i=1 wi zi zˆw = (7.200) k 2 i=1 wi T. Liptak empfiehlt Gewichte proportional zum reziproken Wert der Fehlervarianz der Teststatistik (Standardfehler). Liegen darüber keine näheren Angaben vor, dann kann die Gewichtung auch nach der Anzahl der Freiheitsgrade der entsprechenden Teststatistik oder nach der Anzahl der untersuchten Fälle (Stichprobenumfang) erfolgen. Die folgende Funktion berechnet den kombinierten P -Wert in R. Mit den Daten aus dem obigem Beispiel erhält man bei gleicher Gewichtung den kombinierten P -Wert 0,0046. > + + + + + + > z
s t o u f f e r _ t e s t b a r t l e t t . test ( l i s t (x ,y , z )) Bartlett
t e s t for homogeneity of v a r i a n c e s
data : l i s t (x , y , z) B a r t l e t t ’ s K−s q u a r e d = 1 0 . 3 6 7 , d f = 2 , p−v a l u e = 0 . 0 0 5 6 0 8
7.6.1.4 Robuster Test auf Varianzhomogenität nach Levene in der Brown-Forsythe-Version Die Homogenität mehrerer (k) Varianzen lässt sich für ni ≥ 10 nach Levene [Lev60] in der Brown-Forsythe-Version [BF74] auch mit Hilfe einer einfachen Varianzanalyse ablehnen. Für k unabhängige Stichprobengruppen mit jeweils mindestens 10 Beobachtungen wird die Nullhypothese: gleiche Varianzen H0 : σ12 = σ22 = . . . = σk2 geprüft. Die Alternativhypothese lautet: mindestens zwei Varianzen sind ungleich. HA : σi2 = σj2 H0 wird auf dem 100α%-Niveau abgelehnt, sobald für die nach yij = |xij − x ˜i | transformierten Beobachtungen (˜ xi ist der Medianwert der i-ten Stichprobengruppe), also für die jetzt vorliegenden yij -Werte, das Fˆ der Varianzanalyse größer ist als Fk−1;n−k;1−α . Fˆ wird nach (7.217) oder nach (7.216) berechnet, entsprechend der Symbolik von [7.6.3]. Der Levene-Test ist ein recht robustes Testverfahren und hat eine hohe Power gegenüber anderen Testverfahren zur Überprüfung der Varianzhomogenität (vgl. T.S. Lim und W.Y. Loh [LL96]). In R kann der Test mit der Funktion leveneTest() aus dem Paket library(car) [FW13] gerechnet werden. Für die Daten aus dem vorangegangenen Beispiel folgt: > library ( car ) > v a l g r p le v e n e T e s t ( val ~ grp ) Levene ’ s T e s t f o r Homogeneity o f V a r i a n c e ( c e n t e r = median ) Df F v a l u e P r ( >F ) group 2 3.9043 0.03241 ∗ 27
Auch der Fligner-Killeen-Test, der sich in Simulationsstudien als der robusteste Test gegenüber Abweichungen von der Normalverteilung gezeigt hat (W.J. Conover et. al [CJJ81]) kann in R durch die Funktion fligner.test() für die Prüfung auf Varianzhomogenität eingesetzt werden. > f l i g n e r . t e s t ( val ~ grp ) F l i g n e r −K i l l e e n t e s t o f h o m o g e n e i t y o f v a r i a n c e s data : v a l by g r p F l i g n e r −K i l l e e n : med c h i−s q u a r e d = 7 . 3 2 3 5 , d f = 2 , p−v a l u e = 0 . 0 2 5 6 9
7.6 Mehrstichprobenverfahren, varianzanalytische Methoden
625
7.6.2 Transformation zur Stabilisierung der Varianz Heterogene Varianzen (Heteroskedastizität) verfälschen den Vergleich unabhängiger Stichproben (Varianzanalyse, ANOVA) sowie auch die Ergebnisse in linearen Modellen (Regressionsanalysen). Ein allgemeiner Ansatz für Transformationen zur Stabilisierung von Varianzen basiert auf einer Taylor-Approximation. Ist X eine Zufallsvariable mit dem Erwartungswert E[X]=μ und der Varianz V AR[X]=σ 2 , dann folgt für eine Transformation Y = f (X): Y = f (μ) + (X − μ) · f (μ) V AR[Y ] = [f (μ)]2 · σ 2 = konstant
d.h.
c f (μ) = √ σ2
(7.205)
1. Folgt die Zufallsvariable X einer Poisson-Verteilung, mit σ 2 =μ, dann folgt mit t=μ aus (7.205) f (t) = c · t−1/2 f (t) = 2 · c · t1/2 für c=1/2 die bekannte Quadratwurzel-Transformation. Y =
√
X
E[Y ]
√ μ
V AR[Y ] 1/4
(7.206)
Näheres findet sich in N.A. Thacker und P.A. Bromiley [TB01]. 2. Folgt die Zufallsvariable einer Binomial-Verteilung verteilt, mit μ=n·p und σ 2 =n·p·(1 − p), dann folgt mit t=μ und p=x/n aus (7.205) √ c· n . f (t) = t(1 − t) √ Die Lösung dieser Differentialgleichung erfolgt durch eine Substitution mit t = sin (θ) bzw. (1 − t) = cos (θ) und führt auf die arcsin-Transformation (vgl. auch Abschnitt [5.3.3.3] zur Approximation der Binomialverteilung auf Seite 237). Y = arcsin
x n
E[Y ] arcsin
x n
V AR[Y ] 1/4n
(7.207)
Näheres findet sich in P.A. Bromiley und N.A. Thacker [BT02]. 3. Ein allgemeiner Ansatz folgt aus der Annahme, dass die Varianz von X proportional zu einer bekannten Potenz q von μ ist: σ 2 ∼μq . In diesem Fall kann eine Potenz-Transformation für die Stabilisierung der Varianzen verwendet werden (vgl. hierzu insbesondere auch den Abschnitt zur Box-Cox-Transformation [7.2.4] auf Seite 488). Für q=1 ergibt sich als Spezialfall wieder die Wurzel-Transformation. Für q=2 folgt aus (7.205) die LogarithmusTransformation. c f (t) = t f (t) = c · log (t) Y = log (X)
E[Y ] = log (μ)
V AR[Y ] = konstant
(7.208)
626
7 Hypothesentest
Neben den Annahmen zur Verteilung von X helfen auch graphische Methoden bei der Auswahl einer geeigneten Transformation (siehe auch Übersicht 49). Trägt man beispielsweise auf: a. die Varianzen s2i gegen die arithmetischen Mittelwerte x ¯i , xi ), b. den Logarithmus der Varianzen log (s2i ) gegen den Logarithmus der Mittelwerte log (¯ ¯2i , c. die Standardabweichungen si gegen die Quadrate der arithmetischen Mittelwerte x und lässt sich durch die Punktwolke „bequem“ eine Gerade legen, dann ist im Fall: ¯i ] eine Quadratwurzel-Transformation, a. [s2i gegen x xi )] eine Logarithmus-Transformation, b. [log (s2i ) gegen log (¯ Hinweis: Mit σi2 = μ2i → log (σi2 ) = 2 · log (μi ) ist die Steigung der Geraden gleich 2, ¯2i ] eine Kehrwert-Transformation (Y = 1/X) c. [si gegen x angezeigt. Liegen Körperlängen, -flächen, -volumina oder -gewichte biologischer Objekte vor, dann wird man fast stets die Logarithmus-Transformation bevorzugen, da Geneffekte weitgehend multiplikativ (logarithmisch additiv) wirken. Beim Lebensalter und bei Entwicklungsdauern ist häufig die Kehrwert-Transformation angebracht. Übersicht 49: Varianzstabilisierende Transformationen Daten Häufigkeiten, Zählwerte, seltene Ereignisse (Poisson-Verteilung) σ2 ∼ μ Anteile, Prozentwerte (Binomial-Verteilung) σ 2 ∼ n · p · (1 − p)
Messwerte (stetige Verteilung) σ 2 ∼ μ2
Transformation Quadratwurzel-Transformation: √ x = x bzw. x = x + 3/8 Bei kleinen Häufigkeiten (einschließlich der Null) ist besser √ x = x + 0, 4 zu verwenden. Winkel-Transformation: x = arcsin !x/n bzw. auch
x + 3/8 n + 3/8 Für Prozentwerte zwischen 30% und 70% kann auf eine Transformation auch verzichtet werden. Logarithmus-Transformation: x = log (x) bzw. x = log (x ± a) Für gemessene Werte im Bereich [0, 1] kann x = log(x + 1) verwendet werden. Für viele zeitabhängige Variablen ist häufig auch die Kehrwert-Transformation 1 x = gut geeignet. x x = arcsin
Hinweise zu varianzstabilisierenden Transformationen: 1. Die Kehrwert-Transformation 1/x (Reziproken-Transformation) dient insbesondere zur „Normalisierung“ von Verweildauern, die sehr große Zeiträume (∞) umfassen können; durch den Kehrwert werden diese praktisch auf den Wert 0 reduziert. Kleine Spannweiten werden allerdings stark vergrößert. Unter der Annahme, dass sich die Standardabweichung proportional zur Spannweite verhält, ist die Logarithmus-Transformation besser geeignet. 2. Werden Zählungen durchgeführt (Zählwerte), z.B. die Anzahl der Keime pro Volumeneinheit, so sind die möglichen Werte 0,1,2,3,4,... In diesem Fall erhält man häufig eine brauchbare Homogenität durch die Transformation x = (x + 3/8). 3. Eingipflig-schiefe Verteilungen werden häufig durch die Logarithmus-Transformation x = log (x ± a) in eine Normalverteilung überführt; die Konstante a lässt sich nach W. Lehmann [Leh70] und D.A. Berry [Ber87] approximieren.
7.6 Mehrstichprobenverfahren, varianzanalytische Methoden
627
4. Die Winkel-Transformation dient auch zur Normalisierung rechtsgipfliger Verteilungen, für die allerdings auch eine Potenz-Transformation (x =xq ) verwendet werden kann; mit q=1,5 bei mäßiger und q=2 bei ausgeprägter Rechtsgipfligkeit. 5. Eine Zufallsvariable, die nur Werte zwischen 0 und 1 annehmen kann, ist für x = log (− log (x)) normalverteilt. 6. Die so genannte Logit-Transformation für Anteile weitet den Bereich 0≤(x/n)≤1 anhand von logit(x/n) = log ((x/n)/(1−(x/n)) zum Bereich −∞≤logit(x/n)≤ + ∞, wobei die Varianz angenähert konstant bleibt. 7. Auf die transformierten Werte werden Schätz- und Prüfverfahren angewandt. Die vor einer Rücktransformation gemachten Signifikanzaussagen gelten dann auch für die ursprünglichen Variablen. Die durch die Rücktransformation erhaltenen Mittelwerte und Varianzen sind jedoch nicht immer unverfälscht. Näheres ist J. Neyman und E.L. Scott [NS60] zu entnehmen. 7.6.3 Einfache Varianzanalyse (ANOVA, analysis of variance) Der Vergleich zweier Erwartungswerte normalverteilter Grundgesamtheiten (Abschnitt [7.4.4]) lässt sich auf den Vergleich einer beliebigen Zahl von Erwartungswerten erweitern. Gegeben seien k Stichprobengruppen mit je ni und insgesamt n Stichprobenelementen, also: k
ni = n
i=1
Jede Stichprobengruppe entstamme einer normalverteilten Grundgesamtheit. Die k normalverteilten Grundgesamtheiten haben gleiche Varianzen; diese sind unbekannt: „Zufallsstichproben mit unbekannter gemeinsamer Varianz“. Notation: Die Stichprobenwerte xij erhalten zwei Indizes: xij ist der j-te Wert in der i-ten Stichprobe (1 ≤ i ≤ k; 1 ≤ j ≤ ni ). Die Gruppenmittelwerte x ¯i. sind gegeben durch ni 1 x ¯i. = xij ni j=1
Der Punkt deutet den Index an, über den summiert worden ist; so ist z. B. ni k xij die Summe aller x-Werte. x.. = i=1 j=1
Das Gesamtmittel x ¯: i 1 1 xij = ni x ¯i. n i=1 j=1 n i=1
(7.209)
1 1 xij = ni x ¯i. n i,j n i
(7.210)
k
x ¯=
n
k
in vereinfachter Schreibweise: x ¯=
628
7 Hypothesentest
Wesentlich für die einfache „Varianzanalyse“, auch einfache „Streuungszerlegung“ genannt, ist, dass sich die Summe der Abweichungsquadrate (SAQ oder Q) der Stichprobenwerte um das Gesamtmittel („Q insgesamt“) in zwei Anteile zerlegen lässt, in die 1. SAQ der Einzelwerte um die Gruppenmittelwerte, „SAQ innerhalb der Gruppen“ genannt („Qinnerhalb “) und in die 2. SAQ der Gruppenmittelwerte um das Gesamtmittel, „SAQ zwischen den Gruppen“ genannt („Qzwischen “), d. h. Qinsgesamt = Qinnerhalb + Qzwischen
(xij − x ¯ )2 =
i,j
(xij − x ¯i. )2 +
i,j
ni (¯ xi. − x ¯ )2
(7.211)
i
mit den zugehörigen Freiheitsgraden (n − 1) = (n − k) + (k − 1)
(7.212)
Die Quotienten aus den SAQ und den zugehörigen F G, d. h. die Varianzen Q/ν bezeichnet man in der Varianzanalyse als „Mittlere Quadrate“ (M Q). Entstammen alle Gruppen derselben Grundgesamtheit, dann sollten die Varianzen, also die Mittleren Quadrate s2zwischen = M Qzwischen =
1 ni (¯ xi. − x ¯ )2 k−1 i
(7.213)
s2innerhalb = M Qinnerhalb =
1 (xij − x ¯i. )2 n − k i,j
(7.214)
und
ungefähr gleich groß sein. Sind die Varianzen nicht gleich groß, d. h. ist der Quotient aus M Qzwischen und M Qinnerhalb größer als der durch ν1 = k − 1, ν2 = n − k und α festgelegte kritische Wert der F -Verteilung, so befinden sich unter den Gruppen solche mit unterschiedlichen Erwartungswerten μi . Die Nullhypothese μ1 = μ2 = . . . = μi = . . . = μk = μ (Globalhypothese) wird anhand der Prüfgröße (7.215) [d. h. (7.216) bzw. (7.217)] abgelehnt, wenn Fˆ > F(k−1;n−k;1−α) . In diesem Fall sind mindestens zwei μi voneinander verschieden, d. h. die Alternativhypothese μi = μ für bestimmte i wird akzeptiert. Wenn M Qzwischen < M Qinnerhalb ist, lässt sich die Nullhypothese nicht ablehnen, dann sind (7.209) und (7.214) Schätzungen für μ sowie für σ 2 mit n − k Freiheitsgraden. Man bezeichnet M Qzwischen auch als „Stichprobenfehler“ und M Qinnerhalb = s2innerhalb als „Versuchsfehler“.
M Qzwischen Fˆ = M Qinnerhalb
1 1 ni (¯ xi. − x ¯ )2 ni (¯ xi. − x ¯ )2 k−1 i k−1 i = = 1 1 2 (xij − x ¯i. )2 s (ni − 1) n − k i,j n−k i i
(7.215)
7.6 Mehrstichprobenverfahren, varianzanalytische Methoden
629
Fˆ wird berechnet nach (7.216): " # x2 x2.. 1 i. − k − 1 i ni n ⎡ ⎤ Fˆ = x2 1 ⎣ 2 i. ⎦ x − n − k i,j ij n i i
(7.216)
Für Stichprobengruppen gleicher Umfänge (ni = n0 ) bevorzugt man (7.217): " k Fˆ = ⎡ ⎣n0
#) x2i.
−
⎤)
i
i,j
x2ij
−
(k − 1)
x2..
x2i. ⎦
(7.217) (n0 − 1)
i
Die Wahl gleichgroßer Stichprobenumfänge pro Gruppe bietet mehrere Vorteile: 1. Abweichungen von der Varianzgleichheit sind nicht so schwerwiegend. 2. Der beim F -Test auftretende Fehler 2. Art wird minimal. 3. Weitere Erwartungswertvergleiche (vgl. multiple Vergleiche von Mittelwerten [7.5.1]) sind einfacher durchzuführen. Beispiel: Ungleiche Stichprobenumfänge ni pro Gruppe (betont einfach, um die Berechnung und die Interpretation der Teststatistik zu erklären): Stichprobengruppe i Wert j 1 2 3 1 3 4 8 2 7 2 4 3 7 6 4 3 xi. 10 16 18 ni 2 4 3 x ¯i 5 4 6
x.. = 44 n=9 x ¯ = 4,89
Wenig elegant (direkt) nach (7.213; 7.214) berechnet: 2 2 2 44 44 44 +4 4− +3 6− 2 5− 6,89 9 9 9 M Qzwischen = = 3−1 2 M Qinnerhalb [(3−5)2 +(7−5)2 ]+[(4−4)2 +(2−4)2 +(7−4)2 +(3−4)2 ]+[(8−6)2 +(4−6)2 +(6−6)2 ] 9−3 30 = 6
=
5
630
7 Hypothesentest
442 9 2 Fˆ = 10 162 182 1 2 2 2 2 2 2 2 2 2 (3 +7 +4 +2 +7 +3 +8 +4 +6 ) − + + 9−3 2 4 3
Nach (7.216) und (7.217):
1 3−1
102 162 182 + + 2 4 3
−
1 [6,89] = 0,689 Fˆ = 21 [30] 6 Da Fˆ = 0,689 < 5,14 = F(2;6;0,95) , lässt sich die Nullhypothese, alle drei Erwartungswerte entstammen derselben Grundgesamtheit mit (7.209) x ¯ = (2 · 5 + 4 · 4 + 3 · 6)/9 = 4,89 und (7.214) s2innerhalb = 30/6 = 5 auf dem 5%-Niveau nicht ablehnen. In R kann eine einfache Varianzanalyse mit der Funktion aov() berechnet werden. Der Fragestellung (Versuchsaufbau) entsprechend, werden die Zahlenwerte in einer speziellen Datenstruktur („data.frame“) gespeichert. Dabei ist besonders darauf zu achten, dass die Zuordnung zu den Stichprobengruppen durch eine Variable vom Typ „factor“ erfolgt (einfaktorielle Varianzanalyse, oneway analysis of variances). > g r u p p e wert d a t e n summary ( aov ( w e r t ~ g r u p p e , d a t a = d a t e n ) ) Df Sum Sq Mean Sq F v a l u e P r ( >F ) gruppe 2 6.8889 3.4444 0.6889 0.5379 Residuals 6 30.0000 5.0000
Die Funktion summary() ergibt in diesem Fall die klassische Ergebnistabelle für die Varianzanalyse. Für den Faktor „gruppe“ (Zwischeneffekt) und die „residuals“ (Abweichungen innerhalb der Gruppen, Versuchsfehler) werden die Varianzkomponenten einzeln aufgelistet. Der Wert der Teststatistik (F value) stimmt mit dem oben abgeleiteten Ergebnis überein. Eine Testentscheidung kann hier auf der Grundlage des P-Wertes (P = 0,54) erfolgen.
5
Beispiel: Gleichgroße Stichprobenumfänge (ni = konst. = n0 ) pro Gruppe: Stichprobengruppe i Wert j 1 2 1 6 5 2 7 6 3 6 4 4 5 5 xi. 24 20 ni = n0 4 4 x ¯i 6 5
3 7 8 5 8 28 4 7
x.. = 72 n = 16 x ¯=6
7.6 Mehrstichprobenverfahren, varianzanalytische Methoden
631
Nach (7.216): 1 1 722 1 (242 + 202 + 282 ) − [8] 3 − 1 4 12 = 2 = 3,60 Fˆ = 1 1 1 2 2 2 2 2 2 [10] (6 + 7 + . . . + 8 ) − (24 + 20 + 28 ) 9 12 − 3 4 Nach (7.217): Fˆ =
96/2 [3(242 + 202 + 282 ) − 722 ]/(3 − 1) = = 3,60 2 2 2 2 2 2 40/3 [4(6 + 7 + . . . + 8 )(24 + 20 + 28 )]/(4 − 1)
Da Fˆ = 3,60 < 4,26 = F(2;9;0,95) , lässt sich die Nullhypothese, Gleichheit der 3 Erwartungswerte (¯ x = 6, s2innerhalb = 10/9 = 1,11), auf dem 5%-Niveau nicht ablehnen. > > > >
g r u p p e μ2 dienen. ν=
[1,03/10 + 8,12/10]2 = 11,25 1,032 /[102 (10 − 1)] + 8,122 /[102 (10 − 1)]
d. h.
ν = 11
7.6 Mehrstichprobenverfahren, varianzanalytische Methoden
639
Aus Tabelle 7.38 folgt dann q11;3;0,05 = 3,84 (interpoliert)
1,03 8,12 + = 0,9566 10 10 √ 3,84 · 0,9566/ 2 = 2,597 9,43 − 6,59 = 2,84 > 2,597
.
Damit lässt sich auf dem 5%-Niveau die Nullhypothese ablehnen. Auf gleiche Weise lassen sich auch die anderen Nullhypothesen prüfen: einmal H0 : μ1 = μ3 und zum anderen H0 : μ2 = μ3 . 7.6.4.3 Multiple Vergleiche mit einer Kontrolle nach Dunnett Sind die Erwartungswerte von k Normalverteilungen gegen den Erwartungswert μ0 einer Referenz (Kontrolle) zu vergleichen, wobei das multiple Signifikanzniveau α eingehalten werden soll (comparisons to control, many to one), dann ist das Verfahren von Dunnett zu verwenden ( [Dun55], [Dun64]). Die Teststatistik nach Dunnett Di (7.224) folgt dem Modell nach einer zenk tralen k-variaten t-Verteilung mit ν = i=1 ni − (k + 1) Freiheitsgraden. Zusätzlich wird diese Verteilung durch die Korrelationen rij zwischen den Gruppen bestimmt. Di =
mit s2 =
¯0 x ¯ −x
i 1 1 s· + ni n0 ni k (xij − x ¯ i )2 i=0 j=1 k
und
R = rij =
ni − (k + 1)
ni n0 + ni
(7.224) nj n0 + nj
i=0
Die einzelnen Hypothesen Hi0 : μi = μ0 sind abzulehnen, sobald der Wert der Teststatistik |Di | größer ist als das entsprechende Quantil der multivariaten t-Verteilung tν,k,R,1−α . Auf eine Tabelle zu diesen Quantilen wird verzichtet, da deren Tabellierung wegen des zusätzlichen Parameters R sehr aufwendig ist (Horn und Vollandt [HV95]). Die wichtigsten Quantile sind auch Sachs [Sac90] auf den Seiten 200-223 zu entnehmen. In R besteht mit der Funktion qmvt() in dem Paket library(mvtnorm) von A. Genz et al. [GBH+ 19] die Möglichkeit, Quantile zur multivariaten t-Verteilung direkt zu berechnen (A. Genz und F. Bretz [GB09]; vgl. folgendes Beispiel zu Blutzellen). Für gleiche Stichprobenumfänge vereinfacht sich in (7.224) die Berechnung der Korrelationsmatrix R und es kann dann auch die Tabelle 7.39 (zweiseitig) auf der Seite 642 verwendet bzw. die Funktion qDunnett() von Seite 641 eingesetzt werden. Simultane zweiseitige Konfidenzintervalle für die Differenzen der entsprechenden Erwartungswerte lassen sich nach (7.225) angeben.
x ¯i − x ¯0 ± tν,k,R,1−α/2 s ·
1 1 + ni n0
(7.225)
640
5
7 Hypothesentest
Beispiel (Blutzellen): Die folgenden Beispieldaten [Dun55] geben Messungen von Blutzellen (106 /mm3 ) in 3 Tiergruppen wieder. Die erste Gruppe ist eine unbehandelte Kontrollgruppe, während die beiden anderen Gruppen unterschiedliche (aktive) Medikamente erhielten. Versuchsbedingte Ausfälle führten zu unterschiedlichen Fallzahlen in den Gruppen. Gruppe Kontrolle Präp. A Präp. B
1 7,40 9,76 12,80
2 8,50 8,80 9,68
3 7,20 7,68 12,16
4 8,24 9,36 9,20
5 9,84
6 8,32
10,55
> K o n t r o l l e Praep .A Praep .B
> n0 qmvt ( 0 . 9 5 , t a i l = " b o t h . t a i l " , d f = f , c o r r = cR ) $ q u a n t i l e [ 1 ] 2.543489
Die Werte für die Teststatistik sind DA = 0,82 und DB = 3,54. Das Quantil der multivariaten t-Verteilung mit ν = 11 Freiheitsgraden und dem Korrelationskoeffizienten rAB = 0, 43 ist t11;2;R;0,975 = 2,54. Damit zeigt nur die Therapiegruppe B auf dem 5%-Niveau signifikant veränderte Werte gegenüber der Kontrollgruppe für die Blutzellen an. Eine einfache Lösung in R ist auch mit den Funktionen glht() aus dem Paket library(multcomp) [HBW08] möglich. Hierzu werden die Daten mit einer Kennzeichnung der Gruppenzugehörigkeit in einen eigenen Rahmen kopiert. Dabei ist besonders auf die Anordnung der Faktorstufen zu achten, die sich standardmäßig alphabetisch aus den entsprechenden Bezeichnungen ergibt. Die Kontrastmatrix für den Vergleich nach Dunnett wird durch die Funktion contrMat() definiert. Im folgenden Beispiel werden die adjustierten P-Werte für die beiden Kontraste gegen die Kontrollgruppe berechnet. > > > > >
l i b r a r y ( multcomp ) g r p (k − 1)F(k−1;n−k;1−α) = Sα 1 1 s2in + n3 n5
(7.234)
Für den Fall markant ungleich großer Gruppen bildet man gewichtete lineare Kontraste, also z. B. für V1 n1 μ 1 + n2 μ 2 n3 μ 3 + n4 μ 4 + n5 μ 5 − n1 + n2 n3 + n4 + n5 geschätzt nach
n1 x ¯ 1 + n2 x ¯2 ¯ 3 + n4 x ¯ 4 + n5 x ¯5 n3 x − n1 + n2 n3 + n 4 + n5
Beispiele: Vergleiche zwischen 5 Stichproben umfängen. Nr. (i) x ¯i 1 10 2 9 3 14 4 13 5 14
nI =
.
mit (I) gleichen und (II) ungleichen Stichprobenni s2i 10 8 12 11 7
I 10 10 10 10 10
II 15 5 15 10 5
nII = 50
5
648
7 Hypothesentest
Die Mittelwerte nach (3.35) berechnet sind: x ¯I = 12,0; x ¯II = 12,1 Nach (7.216) ergibt sich für den Fall gleicher (I) und ungleicher (II) Stichprobenumfänge: 10[(10 − 12)2 + (9 − 12)2 + (14 − 12)2 + (13 − 12)2 + (14 − 12)2 ]/(5 − 1) FˆI = 9 · 48/(50 − 5) 55 = 5,73 FˆI = 9,6 [15(10−12,1)2 +5(9−12,1)2 +15(14−12,1)2 +10(13−12,1)2 +5(14−12,1)2 ]/(5−1) FˆII = (10 · 14+8 · 4+12 · 14+11 · 9+7 · 4)/(50−5)
48,75 = 4,69 FˆII = 10,38 Da 5,73 und 4,69 > 3,77 = F(4;45;0,99) , prüfen wir μ1 = μ2 < μ3 = μ4 = μ5 nach (7.232) bzw. (7.233) und bilden für I |¯ xA − x ¯B | = 12 (¯ x1 + x ¯2 ) − 13 (¯ x3 + x ¯4 + x ¯5 ) = 12 (10 + 9) − 13 (14 + 13 + 14) = 4,17 " # ! 5 # 1 1 1 1 1 1 1 1 $s 2 2 c 9,6 = + + + + = 0,8 = 0,894 in i 2 2 ni 10 10 10 10 10 2 3 i=1
für II ¯ 1 + n2 x ¯2 ¯ 3 + n4 x ¯ 4 + n5 x ¯5 n1 x n3 x − n1 + n2 n3 + n4 + n5 15 · 10 + 5 · 9 15 · 14 + 10 · 13 + 5 · 14 − = 3,92 |¯ xA − x ¯B | = 15 + 5 15 + 10 + 5 ¯B | = |¯ xA − x
und $ % 5 % 1 &s2 2 ci in n i i=1 " % # 2 & % 2 2 2 & 2 # 3 1 1 1 1 1 1 3 2 1 = $10,38 · + · · + · + · + = 0,930 4 15 4 5 6 15 6 10 6 5
vgl.
3 4
= n1 /(n1 + n2 ) = 15/(15 + 5)
und erhalten für I
für II
4,17 = 4,66 0,894
3,92 = 4,21 0,930
mit F(4;45;0,99) = 3,77 und (5 − 1)3,77 = 3,88 nach (7.234) in beiden Fällen (I : SˆI = 4,66 > 3,88 = S; II: SˆII = 4,21 > 3,88 = S) statistisch signifikante Unterschiede (P = 0,01).
7.6 Mehrstichprobenverfahren, varianzanalytische Methoden
649
Beispiel: Die Definition und Berechnung von Kontrasten in R wird im Kapitel Modellbildung [8] ausführlicher dargestellt. An dieser Stelle soll ein Hinweis auf die Berechnung des Standardfehlers von Kontrasten nach (7.233) mit der Funktion se.contrast() genügen. Eine Funktion zur erweiterten Analyse von Kontrasten ist auch mit der Funktion fit.contrast() aus dem Paket library(gmodels) von Gregory R. Warnes et al. [WBLJ18] möglich. In dem Beispiel sollen drei Stichproben (x, y und z) miteinander verglichen werden. > x y z > grp wert d a t e n aov . mod F ) grp 2 166.408 83.204 8 . 6 4 4 0 . 0 0 1 2 5 5 ∗∗ Residuals 27 2 5 9 . 8 9 2 9.626 −−− S i g n i f . c o d e s : 0 ‘∗∗∗ ’ 0 . 0 0 1 ‘∗∗ ’ 0 . 0 1 ‘∗ ’ 0 . 0 5 ‘ . ’ 0 . 1 ‘ ’ 1 > > s e . c o n t r a s t ( aov . mod , l i s t ( g r p = = " 1 " , g r p = = " 2 " , g r p = = " 3 " ) , c o e f =c ( −1 , 0 , 1 ) ) [ 1 ] 1.416099 > > l i b r a r y ( gmodels ) > f i t . c o n t r a s t ( aov . mod , grp , c ( −1 , 0 , 1 ) ) Estimate Std . Error t value Pr ( > | t | ) g r p c = ( −1 0 1 ) 5 . 7 9 1 6 6 7 1.416099 4.089874 0.0003487793
Die Mittelwerte sind: x ¯ = 9,1, y¯ = 11,7 und z¯ = 14,9. Die Varianzanalyse nach (7.216) führt zu einem signifikanten Unterschied der Erwartungswerte (Fˆ = 8, 64 und P = 0,001). Der Vergleich von x und z (Gruppe 1 mit Gruppe 3) wird durch den Kontrastvektor (-1, 0, 1) definiert. Die entsprechende Differenz 5,79 mit dem Standardfehler 1, 42 weist auf einen hochsignifikanten √ Unterschied (P < 0,001) hin (auch nach (7.234) ergibt sich Sˆ = 4,09 > 2,59 = 2 · 3,354 = (k − 1)Fk−1;n−k;0,95 ). Hinweis zur Maximalzahl linearer Kontraste Bei drei Mittelwerten gibt es bereits x2 + x ¯3 )/2 (¯ x1 + x ¯2 )/2 − x ¯3 x ¯1 − (¯ x ¯2 − (¯ x1 + x ¯3 )/2 (¯ x1 + x ¯3 )/2 − x ¯2 x ¯3 − (¯ x1 + x ¯2 )/2 (¯ x2 + x ¯3 )/2 − x ¯1 6 Kontraste, bei 15 Mittelwerten sind es bereits über 7 Millionen. Eine Übersicht wird in Tabelle 7.42 gegeben. Tabelle 7.42: Maximalzahl linearer Kontraste für 3 bis 10 Mittelwerte Mittelwerte max. Anzahl Kontraste
3 6
4 25
5 90
6 301
7 966
8 3025
9 9330
10 28501
5
650
7 Hypothesentest
7.6.4.8 Bildung homogener Gruppen von Mittelwerten anhand des nach Hayter modifizierten LSD-Tests, eines Lücken-Tests für geordnete μi Wenn der F -Test H0 (μi = μ) abzulehnen gestattet,ordnet man die k Mittelwerte aus Stichx(1) ≥ probengruppen gleichen Umfangs (ni = konst., n = i ni ) der Größe nach absteigend (¯ x ¯(2) ≥ x ¯(3) . . .) und prüft, ob benachbarte Mittelwerte eine größere Differenz Δ (Delta) aufweisen als die kleinste signifikante Differenz (least significant difference, LSD, besser LSDH nach Hayter [Hay86]): LSDH = qν;k;α s2in /ni (7.235) ni = konstant; s2in basiert auf ν Freiheitsgraden; qν;k;α ist der Tabelle 7.37 mit ν = ν2 zu entnehmen Für ungleiche Stichprobenumfänge (ni = konst.) ergibt sich ' 1 qν;k;α 1 LSDH(a,b) = √ s2in + na nb 2
(7.236)
Für Δ ≤ LSDH bzw. Δ(a,b) ≤ LSDH(a,b) lässt sich H0 (Gleichheit benachbarter Erwartungswerte) nicht ablehnen; man unterstreicht die Mittelwerte durch eine gemeinsame Linie.
5
Beispiel: k = 6 Stichproben sollen verglichen werden. Die geordnete Mittelwerte sind in der folgenden Tabelle zusammengestellt. x ¯i Δ
x ¯1 = 26, 8
x ¯2 = 26, 3 0,5
x ¯3 = 25, 2 1,1
x ¯4 = 19, 8 5,4
x ¯5 = 14, 3 5,5
x ¯6 = 11, 8 2,5
ni = 8; k = 6; s2in = 10,38; ν = 48 − 6 = 42 q42;6;0,05 = 4,22 LSDH = 4,22 10,38/8 = 4,81 bzw. ' 1 1 + = 4,81 LSDH(a,b) = 4,22 10,38 · 0,5 8 8 Auf dem 5%-Niveau lassen sich drei Bereiche erkennen: x ¯(1) x ¯(2) x ¯(3) x ¯(4) x ¯(5) x ¯(6) [Anwendung von (7.236): n4 = 6; n5 = 10; sonst unverändert; ' 1 1 4,22 + = 4,96 ; 10,38 LSDH(4,5) = √ 6 10 2 dieser Wert ist zwar größer als 4,81, am Resultat ändert sich nichts.]
7.6 Mehrstichprobenverfahren, varianzanalytische Methoden
651
7.6.5 H-Test von Kruskal und Wallis Der H-Test von Kruskal und Wallis [Kru52] ist eine Verallgemeinerung des U -Tests. Er prüft die Nullhypothese, die k Stichproben entstammen derselben Grundgesamtheit: die k Verteilungsfunktionen sind gleich (HA : mindestens zwei sind ungleich). Ähnlich wie der U -Test hat auch der H-Test, verglichen mit der bei Normalverteilung optimalen Varianzanalyse eine asymptotische Effizienz von 100 · 3/π 95%. k Die n = i=1 ni Beobachtungen, Zufallsstichproben von Rangordnungen oder Messwerten mit den Umfängen n1 , n2 , . . . , nk aus umfangreichen Grundgesamtheiten, werden der Größe nach aufsteigend geordnet und mit Rängen von 1 bis n versehen (wie beim U -Test). Ri sei die Summe der Ränge der i-ten Stichprobe: Unter der Nullhypothese ist die Prüfgröße # " k 2 12 R i ˆ = · − 3(n + 1) H n(n + 1) ni i=1
(7.237)
ˆ ist die Varianz der Stichproben-Rangsummen Ri ) für großes n (d. h. praktisch für ni ≥ 5 und (H ˆ > χ2 k ≥ 4) χ2 -verteilt mit k − 1 Freiheitsgraden; d. h. H0 wird abgelehnt, sobald H k−1;α (vgl. Tab. 5.9). Für ni ≤ 8 und k = 3 enthält Tab. 7.44 (Kruskal [KW52] sowie Iman und Mitarbeiter [IQA75]) die exakten Überschreitungswahrscheinlichkeiten (H0 wird mit P abgelehnt, wenn ˆ ≥ H mit P ≤ α). Für k = 3 und n1 = n2 = n3 = n sind die 5%-Schranken für n = 6 (7; 8) H durch den Wert 5,8 [5,801; (5,819; 5,805)] gegeben. Für gleiche Stichprobenumfänge und „große“ Stichproben (ni 25) benutze man die Schranken der Tabelle 7.43. Tabelle 7.43: Kritische Schranken für den H-Test; Quantile in R mit der Funktion qKruskalWallis() aus library(SuppDists) berechnet (B. Wheeler [Whe20]) α
@ k n@ @ 3 4 5 6 7 8 9 10 12 14 16 18 20 25 30 40 50 ∞
0,10
0,05
0,01
3
4
5
6
3
4
5
6
3
4
5
6
4,472 4,543 4,569 4,581 4,588 4,593 4,595 4,597 4,600 4,601 4,602 4,603 4,603 4,604 4,604 4,605 4,605 4,605
5,912 6,039 6,098 6,132 6,154 6,169 6,180 6,189 6,201 6,209 6,215 6,219 6,223 6,229 6,233 6,238 6,241 6,251
7,286 7,452 7,535 7,585 7,618 7,641 7,659 7,672 7,692 7,706 7,716 7,723 7,729 7,740 7,747 7,755 7,760 7,778
8,618 8,815 8,917 8,980 9,022 9,052 9,075 9,092 9,118 9,137 9,150 9,160 9,168 9,182 9,191 9,203 9,210 9,235
5,292 5,546 5,668 5,738 5,783 5,815 5,838 5,856 5,882 5,900 5,912 5,922 5,929 5,943 5,951 5,962 5,968 5,990
6,850 7,162 7,323 7,421 7,486 7,533 7,568 7,596 7,636 7,663 7,683 7,699 7,711 7,733 7,747 7,764 7,775 7,813
8,330 8,685 8,874 8,991 9,071 9,128 9,172 9,206 9,257 9,292 9,317 9,337 9,353 9,381 9,399 9,422 9,435 9,485
9,758 10,147 10,359 10,492 10,583 10,649 10,700 10,740 10,798 10,839 10,869 10,892 10,911 10,944 10,965 10,992 11,008 11,067
6,544 7,327 7,762 8,035 8,222 8,359 8,462 8,543 8,662 8,745 8,806 8,853 8,890 8,956 9,000 9,054 9,085 9,204
8,393 9,220 9,689 9,990 10,199 10,352 10,469 10,561 10,698 10,794 10,865 10,920 10,964 11,042 11,093 11,157 11,195 11,337
10,115 10,981 11,477 11,798 12,022 12,187 12,314 12,414 12,563 12,668 12,746 12,807 12,855 12,940 12,997 13,068 13,110 13,268
11,755 12,655 13,174 13,511 13,747 13,922 14,056 14,163 14,321 14,433 14,517 14,581 14,633 14,725 14,786 14,861 14,907 15,077
652
7 Hypothesentest
Zur Kontrolle der Ri benutze man die Beziehung k
Ri = n(n + 1)/2
(7.238)
i=1
n Sind die Stichproben gleich groß, ist also ni = , rechnet man bequemer nach der vereinfachten k Formel: # " k 12k 2 ˆ · Ri − 3(n + 1) (7.239) H= n2 (n + 1) i=1 Gehören mehr als 25% aller Werte zu Bindungen, d. h. zu Folgen gleicher Rangzahlen, dann muss ˆ korrigiert werden. Die Korrekturformel für H ˆ lautet: H ˆ H
ˆ korr = H
i=r
1−
(t3i
(7.240) − ti )
i=1
n3 − n
wobei ti die Anzahl der jeweils gleichen Rangplätze in der Bindung i bezeichnet. Da der korrigierˆ te H-Wert größer als der nicht korrigierte Wert ist, braucht man bei einem statistisch signifikanten ˆ ˆ korr nicht zu berechnen. H-Wert H
5
Beispiel: Prüfe die 4 Stichproben aus der folgenden Tabelle mit dem H-Test (α = 0,05). A
12,1 14,8 15,3 11,4 10,8 Ri Ri2 ni Ri2 /ni
B
C D 15 12,7 11 7,3 3 21 25,1 16 1,9 1 6,5 47,0 20 5,8 2 19 16,3 14 10,1 6,5 17 30,4 18 9,4 5 4 52,0 82,5 79 17,5 2704 6806,25 6241 306,25 5 6 5 5 k=4 540,800 + 1134,375 + 1248,200 + 61,250 = 2984,625 = i=1 Ri2 /ni 10 12 13 9 8
18,3 49,6 10,1 35,6 26,2 8,9
Kontrolle zur Bestimmung der Rangzahlen: 52,0 + 82,5 + 79,0 + 17,5 = 231 = 21(21 + 1)/2 Berechnung der Teststatistik: 12 ˆ · [2984,625] − 3(21 + 1) = 11,523 H= 21(21 + 1) ˆ = 11,523 > 7,815 = χ2 Da H 3;0,95 ist, ist nicht anzunehmen, dass die 4 Stichproben einer gemeinsamen Grundgesamtheit entstammen. Für die Berechnung der Teststatistik nach dem Kruskal-Wallis-Test steht in R die Funktion kruskal.test() zur Verfügung.
7.6 Mehrstichprobenverfahren, varianzanalytische Methoden
653
Tabelle 7.44: Irrtumswahrscheinlichkeiten für den H-Test von Kruskal und Wallis, aus Kruskal, W.H. und W.A. Wallis: Use of ranks in one-criterion variance analysis, J. Amer. Statist. Ass. 47 (1952) 614–617, unter Berücksichtigung der Errata in J. Amer. Statist, Ass. 48 (1953) 910] sowie einiger Werte aus Iman u. Mitarb. (1975) n1
n2
n3
H
P
n1
n2
n3
H
P
n1
n2
n3
H
P
n1
n2
n3
H
P
2
1
1
2,7000
0,500
4
3
2
2
2
4
3,6000
0,200
5,6571 6,5176 4,6187 4,5527
0,049 0,050 0,100 0,102
2
2
2
5
1
1
1
0,067 0,200 0,300
5
3
4,5714 3,7143 3,2000
0,008 0,013 0,034 0,056 0,090 0,122
4
1
6,5333 6,1333 5,1600 5,0400 4,3733 4,2933
5
2
0,008 0,011 0,046 0,051 0,098 0,102
5
2
6,4444 6,3000 5,4444 5,4000 4,5111 4,4444
1
1
4,2857 3,8571
0,100 0,133
2
2
5,3572 4,7143 4,5000 4,4643
0,029 0,048 0,067 0,105
6,4000 4,9600 4,8711 4,0178 3,8400
0,012 0,048 0,052 0,095 0,123
0,009 0,011 0,046 0,053 0,086 0,105
3
0,010 0,013 0,046 0,050 0,092 0,101
3
2
6,7455 6,7091 5,7909 5,7273 4,7091 4,7000
5
3
7,3091 6,8364 5,1273 4,9091 4,1091 4,0364
5
5
2
5
3
2
6,9091 6,8218 5,2509 5,1055 4,6509 4,4945
0,009 0,010 0,049 0,052 0,091 0,101
7,3385 7,2692 5,3385 5,2462 4,6231 4,5077
0,010 0,010 0,047 0,051 0,097 0,100
5
5
3
5
3
3
7,0788 6,9818 5,6485 5,5152 4,5333 4,4121
0,009 0,011 0,049 0,051 0,097 0,109
7,5780 7,5429 5,7055 5,6264 4,5451 4,5363
0,010 0,010 0,046 0,051 0,100 0,102
5
5
4
7,8229 7,7914 5,6657 5,6429 4,5229 4,5200
0,010 0,010 0,049 0,050 0,099 0,101
5
5
5
8,0000 5,7800 4,5600
0,009 0,049 0,100
6
6
6
8,2222 5,8011 4,6430
0,010 0,049 0,099
7
7
7
8,378 5,819 4,594
0,010 0,049 0,099
8
8
8
8,465 5,805 4,595
0,010 0,050 0,099
4
3
3
1
5,1429 4,5714 4,0000
0,043 0,100 0,129
3
3
2
6,2500 5,3611 5,1389 4,5556 4,2500
0,011 0,032 0,061 0,100 0,121
7,2000 6,4889 5,6889 5,6000 5,0667 4,6222
0,004 0,011 0,029 0,050 0,086 0,100
3,5714
0,200
3
4 4
4
4
3
1 2
2
3
3
1 1
2
1
4,8214 4,5000 4,0179
0,057 0,076 0,114
6,0000 5,3333 5,1250 4,4583 4,1667
0,014 0,033 0,052 0,100 0,105
5,8333 5,2083 5,0000 4,0556 3,8889
0,021 0,050 0,057 0,093 0,129
4
4
4
4
3
4
4
4
4
3
1
2
3
4
6,6667 6,1667 4,9667 4,8667 4,1667 4,0667
0,010 0,022 0,048 0,054 0,082 0,102
7,0364 6,8727 5,4545 5,2364 4,5545 4,4455
0,006 0,011 0,046 0,052 0,098 0,103
5
4
1
7,1439 7,1364 5,5985 5,5758 4,5455 4,4773
0,010 0,011 0,049 0,051 0,099 0,102
6,9545 6,8400 4,9855 4,8600 3,9873 3,9600
0,008 0,011 0,044 0,056 0,098 0,102
5
4
2
7,6538 7,5385 5,6923 5,6538 4,6539 4,5001
0,008 0,011 0,049 0,054 0,097 0,104
7,2045 7,1182 5,2727 5,2682 4,5409 4,5182
0,009 0,010 0,049 0,050 0,098 0,101
7,4449 7,3949 5,6564 5,6308 4,5487 4,5231
0,010 0,011 0,049 0,050 0,099 0,103
7,7604 7,7440
0,009 0,011
5
1
1
3,8571
0,143
5
2
1
5,2500 5,0000 4,4500 4,2000 4,0500
0,036 0,048 0,071 0,095 0,119
5
5
4
4
3
4
654 > > > > > > > >
A B C D
7 Hypothesentest t1−α/2,(b−1)(k−1) (7.263) (b − 1)(k − 1)
5
Beispiel (Marktanalyse, aus [Con99]): Im Rahmen einer Marktanalyse wurden 7 Geschäfte ausgewählt und die Verkaufszahlen aus einer Woche zu 5 unterschiedlichen Marken von Handlotionen erhoben. Gibt es einen signifikanten (α=0,05) Unterschied in den Verkaufszahlen zwischen den Marken. Handlotion (Marke) A B C D E Geschäft 1 5 4 7 10 12 1 3 1 0 2 2 3 16 12 22 22 35 4 5 4 3 5 4 10 9 7 13 10 5 19 18 28 37 58 6 10 7 6 8 7 7 Der Quade-Test kann in R direkt mit den folgenden Anweisungen berechnet werden. > y k range f o r ( i i n 1 : k ) range [ i ] Qi # Quade T e s t s t a t i s t i k > S A2 B s t a t p v a l quade . t e s t ( y ) Quade t e s t data : y Quade F = 3 . 8 2 9 3 , num d f = 4 , denom d f = 2 4 , p−v a l u e = 0 . 0 1 5 1 9 > l i b r a r y (PMCMR) > p o s t h o c . q u a d e . t e s t ( y , d i s t = " T D i s t " , p . a d j = " none " ) P a i r w i s e c o m p a r i s o n s u s i n g p o s t h o c−Quade t e s t w i t h T D i s t a p p r o x i m a t i o n data :
B C D E
y
A 0.2087 0.8401 0.1477 0.0416
B − 0.2874 0.0102 0.0021
C − − 0.1021 0.0269
D − − − 0.5172
P v a l u e a d j u s t m e n t method : none
7.6.8 Zweifache Varianzanalyse Bei der zweifachen Varianzanalyse (two factorial analysis of variances) wird der Einfluss zweier Faktoren (unabhängige Variablen) auf ein bestimmtes Merkmal (abhängige Variable) untersucht. Ein Beispiel dazu ist die Wirksamkeit einer bestimmten Behandlungsform (Faktor A mit drei Stufen - Placebo, einfache Dosierung, doppelte Dosierung) unter Berücksichtigung des Geschlechtes (Faktor B mit zwei Stufen - männlich, weiblich) auf die Depressivität, die durch einen bestimmten Punktwert (Score) gemessen wird [Bor99]. Vom Faktor A sollen allgemein a, vom Faktor B sollen allgemein b Stufen in der Betrachtung berücksichtigt werden. Für diesen Studienansatz gibt es somit insgesamt a · b verschiedene Klassen. Jede dieser Klassen soll zunächst eine feste Zahl n an Beobachtungen (balanciert) enthalten. Die beobachteten Werten können mit einer mehrfachen Indizierung beschrieben werden. xi,j,k
für i = 1, 2, . . . , a; j = 1, 2, . . . , b und k = 1, 2, . . . , n
Das Schema und die verwendete Notation (Punktnotation für Summen), die zum Verständnis der folgenden Formeln notwendig ist, wird in Tabelle 7.50 dargestellt. Wie bei der einfachen (einfaktoriellen) Varianzanalyse basiert die zweifache Varianzanalyse auf einer Zerlegung der Abweichungsquadrate (Quadratsummen) auf der Grundlage von ¯)2 = [(¯ xi.. − x ¯) + (¯ x.j. − x ¯) + (xijk − x ¯ij. ) + (¯ xij. − x ¯i.. − x ¯.j. + x ¯)]2 (xijk − x Die gesamte Quadratsumme SAQges wird in der zweifachen Varianzanalyse in die Quadratsumme des Faktors SAQA , die Quadratsumme des Faktors SAQB , die Wechselwirkungsquadratsumme SAQA×B und die Fehlerquadratsumme SAQin zerlegt. Die Wechselwirkung oder Interaktion (interaction) kennzeichnet einen über die Haupteffekte (hinsichtlich der Faktoren A und B) hinausgehenden Effekt, der auf bestimmte Kombinationen der Stufen der einzelnen Faktoren zurückgeführt werden kann.
678
7 Hypothesentest
Tabelle 7.50: Notation zur zweifachen Varianzanalyse mit balancierten Daten B1 x111 x112 ... x11n x11.
B2 x121 x122 ... x12n x12.
... ... ... ... ... ...
Bj x1j1 x1j2 ... x1jn x1j.
... ... ... ... ... ...
Bb x1b1 x1b2 ... x1bn x1b.
...
...
...
...
...
...
Summen
... xa11 xa12 ... xa1n xa1.
... xa21 xa22 ... xa2n xa2.
... ... ... ... ... ...
... xaj1 xaj2 ... xajn xaj.
... ... ... ... ... ...
... xab1 xab2 ... xabn xab.
xa.n xa..
Summen
x.1.
x.2.
...
x.j.
...
x.b.
x...
Klassen A1
Summen .. . .. . Aa
Summen x1.1 x1.2 x1.n x1.. .. . .. . xa.1 xa.2
Ein Test auf einen unterschiedlichen Einfluss der Stufen der Faktoren und auf Vorliegen einer Wechselwirkung zielt somit auf verschiedene, voneinander unabhängige Nullhypothesen. Dazu ist eine Unterscheidung nach dem Studienansatz nach einem Modell mit festen (Modell I, fixed effect model), zufälligen (Modell II, random effect model) oder gemischten (Modell III, mixed effect model) Effekten notwendig. SAQges = SAQA + SAQB + SAQA×B + SAQin SAQges =
a b n
(xijk − x ¯ )2
mit
Summe der Abweichungsquadrate
i=1 j=1 k=1
SAQA =
a b n
(¯ xi.. − x ¯ )2
innerhalb der Stufen von A
i=1 j=1 k=1
SAQB =
a b n
(7.264) (¯ x.j. − x ¯)
2
innerhalb der Stufen von B
i=1 j=1 k=1
SAQin =
a b n
(¯ xijk − x ¯ij. )2
innerhalb der Klassen (Rest)
i=1 j=1 k=1
SAQA×B = SAQges − SAQA − SAQB − SAQin
Wechselwirkung
Modell I mit festen Effekten oder systematischen Komponenten: Spezielle Behandlungen, Arzneien, Methoden, Stufen eines Faktors, Sorten, Versuchstiere, Maschinen werden bewusst ausgewählt und in den Versuch bzw. die Studie einbezogen, weil gerade sie (etwa die Dosierung A, B und C) von praktischem Interesse sind und man etwas über ihre mittleren Effekte und deren Bedeutsamkeit erfahren möchte. Vergleiche von Erwartungswerten stehen somit hier im Vordergrund! Die Nullhypothesen für diesen Studienansatz lauten: •
H0A : kein unterschiedlicher Einfluss des Faktors A. Die Beobachtungen unter den Stufen des Faktors A entstammen Grundgesamtheiten mit gleichem Erwartungswerten: μ1 = μ2 = . . . = μa .
7.6 Mehrstichprobenverfahren, varianzanalytische Methoden
679
•
H0B : kein unterschiedlicher Einfluss des Faktors B. Die Beobachtungen unter den Stufen des Faktors B entstammen Grundgesamtheiten mit gleichem Erwartungswert: μ1 = μ2 = . . . = μb .
•
H0A×B : keine Wechselwirkung. Die Erwartungswerte der Kombinationen in den Faktorstufen lassen sich additiv aus den Haupteffekten ableiten: μij = μi + μj − μ
Für die Prüfung dieser Hypothesen werden unter der Annahme der Normalverteilung und homogener Varianzen entsprechend der einfachen Varianzanalyse als Teststatistik (Fˆ ) die Quotienten der gemittelten Summe der Abweichungsquadrate - die Mittleren Quadrat-Summen (M S) - mit den Quantilen der F-Verteilung verglichen. Das allgemeine Schema zur Varianzanalyse mit festen Effekten ist in Tabelle 7.51 zusammengefasst. Tabelle 7.51: Schema der zweifachen Varianzanalyse mit festen Effekten (balancierte Daten) Faktor SAQ
FG
A
a 1 2 x2 SAQA = xi.. − ... bn i=1 abn
a−1
B
SAQB =
b 1 2 x2 x.j. − ... an j=1 abn
b−1
A × B SAQA×B =
SAQges − SAQA − SAQB − SAQin
Rest
SAQin =
x2ijk −
ijk
Gesamt SAQges =
1 2 xij. n ij
x2ijk −
ijk
x2... abn
(a − 1)(b − 1)
MS SAQA a−1
Test Fˆ M SA M Sin
SAQB b−1
M SB M Sin
SAQA×B M SA×B (a − 1)(b − 1) M Sin
ab(n − 1)
SAQin ab(n − 1)
abn − 1
SAQges abn − 1
Beispiel (Antidepressivum): Die Wirksamkeit eines Antidepressivums soll in einer Studie geprüft werden. Zusätzlich soll dabei der Einfluss des Geschlechtes berücksichtigt werden (aus [Bor99]). Eine balancierte Untersuchung mit je n = 5 Beobachtungen pro Gruppe zeigte folgendes Ergebnis. Geschlecht Plazebo A männlich 22 25 22 21 22 weiblich 18 19 17 21 19
Therapie (B) einfache Dosierung 16 16 16 15 15 19 20 17 16 16
doppelte Dosierung 13 12 12 13 12 16 14 16 13 14
Die Berechnung des Beispiels soll in R mit der Funktion aov() gezeigt werden. Die einzelnen Teilsummen aus Tabelle 7.51 können zur Übung auch elementar berechnet werden.
5
680 > + + + + 1 2 3 4
7 Hypothesentest
d e p r summary ( aov ( s c o r e ~ t h e r a p + g e s c h l + Df Sum Sq Mean Sq F v a l u e therap 2 253.4 126.7 74.5294 geschl 1 0.3 0.3 0.1765 therap : geschl 2 54.2 27.1 15.9412 Residuals 24 40.8 1.7 −−− S i g n i f . c o d e s : 0 ‘∗∗∗ ’ 0 . 0 0 1 ‘∗∗ ’ 0 . 0 1
geschl : therap , depr ) ) P r ( >F ) 5 . 0 6 1 e−11 ∗∗∗ 0.6782 3 . 9 3 8 e−05 ∗∗∗ ‘∗ ’ 0 . 0 5
‘. ’ 0.1 ‘ ’ 1
Die Daten (Punktwerte) aus dem Beispiel werden zusammen mit den beiden Faktoren Therapie (A) und Geschlecht (B) in einem Datenrahmen gespeichert. Die Berechnung der zweifachen Varianzanalyse mit festen Effekten (Modell I) und balancierten Daten erfolgt dann mit der Funktion aov(). In der Ergebnistabelle werden die einzelne Varianzkomponenten SAQA = 253, 4, SAQB = 0, 3, SAQA×B = 54, 2 und SAQin = 40, 8 angegeben. Die Berechnung der Teststatistik (Fˆ unter F value) und die Angabe entsprechender P-Werte erfolgt hier für die Hypothesen zu dem Modell mit festen Effekten (Typ I). Das Ergebnis zeigt einen signifikanten Haupteffekt hinsichtlich der Therapie (FˆA = 74, 53) und eine signifikante Wechselwirkung aus der Therapie und dem Geschlecht (FˆA×B = 15, 94), während sich aus den Daten kein signifikanter Haupteffekt des Geschlechtes ableiten lässt.
Abbildung 7.24: Zweifache Varianzanalyse mit Berücksichtigung einer Wechselwirkung; (a) kein Effekt zu Faktor A, kein (oder nur ein geringer) Effekt zu Faktor B, keine Wechselwirkung von A × B. (b) Großer Effekt von A, kein (oder nur geringer) Effekt von B, keine Wechselwirkung von A × B. (c) Kein Effekt von A, großer Effekt von B und starke Wechselwirkung von A × B. (d) Kein Effekt von A, kein Effekt von B, aber starke Wechselwirkung von A × B
7.6 Mehrstichprobenverfahren, varianzanalytische Methoden
681
22 20
Mann Frau
14
16
18
Geschlecht
12
Depression (Score)
Bei der Interpretation der Ergebnisse aus einer zweifachen Varianzanalyse bereitet der Wechselwirkungseffekt (Interaktion) häufig Schwierigkeiten. In Abbildung 7.24 sind daher einige ausgewählte Kombinationen hinsichtlich der Einflussnahme zweier Faktoren auf eine abhängige Größe dargestellt. Speziell für die Daten aus dem Beispiel unter Berücksichtigung des Geschlechtes kann das Ergebnis der zweifachen Varianzanalyse in R auch mit Hilfe der Funktion interaction.plot() veranschaulicht werden (Abbildung 7.25, die an Abb. 7.24(d) erinnert).
doppelt
einfach
Plazebo
Abbildung 7.25: Wechselwirkung zwischen Geschlecht und Therapie auf den Grad der Depression Im Gegensatz zum Modell mit festen Effekten (Modell I) spricht man von einem Modell mit zufälligen Effekten oder Zufallskomponenten (Modell II, random effect model), wenn sich die Faktorstufen aus zufälligen Stichproben einer Grundgesamtheit ergeben. Hier interessieren ausschließlich die Variabilitätsanteile der einzelnen Faktoren an der Gesamtvariabilität. Die entsprechenden Hypothesen beziehen sich somit auf die Varianzen: •
H0A : kein unterschiedlicher Einfluss des Faktors A. Der Varianzanteil von Faktor A ist Null: σα2 = 0. • H0B : kein unterschiedlicher Einfluss des Faktors B. Der Varianzanteil von Faktor B ist Null: σβ2 = 0. • H0A×B : keine Wechselwirkung. 2 Der Varianzanteil aus der Wechselwirkung A × B ist Null: σαβ = 0. Tabelle 7.52: Erwartungswerte der gemittelten Summen aus der zweifachen Varianzanalyse Faktor
Modell I feste Effekte
Modell II zufällige Effekte
Modell III A fest, B zufällig A zufällig, B fest
A
σe2 + nbσα2
2 σe2 + nσαβ + nbσα2
2 σe2 + nσαβ + nbσα2
σe2 + nσα2
B
σe2 + naσβ2
2 σe2 + nσαβ + naσβ2
σe2 + naσβ2
2 σe2 + nσαβ + naσβ2
A×B
2 σe2 + nσαβ
2 σe2 + nσαβ
2 σe2 + nσαβ
2 σe2 + nσαβ
σe2
σe2
σe2
σe2
Rest (e-error)
Die Analyse geht auch hier von einer Zerlegung der Summe der Abweichungsquadrate aus. Die Rechnung erfolgt weitgehend analog zum Modell mit festen Effekten. Allerdings dürfen bei diesem Modellansatz die Teststatistiken aus Tabelle 7.51 nicht übernommen werden, da sich die
682
7 Hypothesentest
Erwartungswerte der gemittelten Summen (M S) bei den verschiedenen Modellannahmen unterscheiden. In der Tabelle 7.52 sind daher die Erwartungswerte für die gemittelten Summen für die drei verschiedenen Modellansätze (einschließlich Modell III für gemischte Effekte, mixed effects) zusammenfassend dargestellt. Für die Herleitung geeigneter Teststatistiken werden die Varianzquotienten dann so gebildet, dass im Zähler genau ein zusätzlicher Term steht, welcher unter der Nullhypothese verschwindet (zu Null wird), z. B. für einen Haupteffekt von A in einem Modell mit zufälligen Effekten: H0A
(kein Effekt von A): E(Fˆ ) =
2 + nbσα2 σe2 + nσαβ =1 2 2 σe + nσαβ
Tabelle 7.53 enthält eine Zusammenstellung aller Teststatistiken für die zweifache Varianzanalyse mit festen und zufälligen Effekten bei balancierten Daten. In der Regel wird in den Statistikprogrammen das Modell mit festen Effekten vollständig berechnet. Für die anderen Situationen können die Teststatistiken nach dieser Tabelle einfach berechnet werden. Tabelle 7.53: Teststatistiken verschiedene Modelle zur zweifachen Varianzanalyse Modell I feste Effekte
Modell II zufällige Effekte
A
M SA Fˆ = M Sin
Fˆ =
M SA M SA×B
Fˆ =
B
M SB Fˆ = M Sin
Fˆ =
M SB M SA×B
M SB Fˆ = M Sin
Fˆ =
M SA×B Fˆ = M Sin
M SA×B Fˆ = M Sin
M SA×B Fˆ = M Sin
M SA×B Fˆ = M Sin
Faktor
A×B
Modell III A fest, B zufällig A zufällig, B fest M SA M SA×B
M SA Fˆ = M Sin M SB M SA×B
7.6.9 Analyse von wiederholten Messungen Typische Studienansätze, in denen wiederholte Messungen (repeated measurement) auftreten, sind: 1. Split-Plot-Experimente werden häufig in landwirtschaftlichen Versuchen gewählt, in denen nicht die gesamte Versuchsfläche randomisiert werden kann. Die Fläche wird in Teilflächen (main plots) aufgeteilt, in denen dann die zufällige Zuordnung einer Behandlung (z. B. Bewässerung oder Düngung) in definierten Segmenten (subplots) erfolgt. Eine aktuelle Übersicht zu Versuchsanordnungen nach dem Split-Block-Prinzip geben W.T. Federer und F. Kling [FK07]. 2. In Verlaufsstudien (longitudinal im Gegensatz zu transversal) wird ein Merkmal am selben Fall bzw. Individuum im zeitlichen Verlauf wiederholt gemessen, z. B. das Körpergewicht über ein halbes Jahr wöchentlich in einer Studie zur Wirksamkeit einer Reduktionsdiät. 7.6.9.1 Typisierung wiederholter Messungen Messwiederholungen resultieren aus einer zu verschiedenen Zeitpunkten (ti ) wiederholten Messung eines bestimmten Merkmals (Y ) an derselben Untersuchungseinheit (Fall, Individuum) unter einer oder mehreren unterschiedlichen Interventionen (Behandlungen). Für die statistische Analyse kann das Modell einer zweifaktoriellen Varianzanalyse (Zeit, Intervention und ggf. die Wechselwirkung) herangezogen werden (vgl. auch [7.6.9.2]), deren Ergebnis inhaltlich aber häufig nur schwer zu interpretieren ist. Primär sollte sich die Auswertung serieller Messungen an der Form des zeitlichen Verlaufes orientieren. Dabei können grundsätzlich zwei wesentliche Eigenschaften unterschieden werden (vgl. Abbildung 7.26):
15 10 5 0
0
5
10
15
Messwert (Y)
20
B
20
A Messwert (Y)
683
25
25
7.6 Mehrstichprobenverfahren, varianzanalytische Methoden
0
10
20
30
40
Zeit
0
10
20
30
40
Zeit
Abbildung 7.26: Formen eines zeitlichen Verlaufs; A - „Gipfelwert“ und B - „Wachstum“ •
•
Gipfelwert (Senke); häufig steigt die untersuchte Größe nach einer Intervention an (bzw. fällt ab), erreicht nach einer bestimmten Zeit einen maximalen (minimalen) Wert und geht dann wieder auf den Ausgangswert zurück. Ein Beispiel ist der Vorgang der Freisetzung, Aufnahme, Verteilung, Verstoffwechselung und Ausscheidung eines Arzneistoffes (Pharmakokinetik). Von besonderem Interesse ist dabei der erreichte maximale (minimale) Wert, die Geschwindigkeit der Zunahme (Abnahme) und die Fläche unter der Kurve (AUC, area under curve). Wachstum (Abnahme); die Zielgröße steigt (fällt) mit der Zeit auf einen bestimmen Wert. Der erreichte Endwert, die Zeit bis zum erreichen eines bestimmten Endwerts und die Geschwindigkeit der Zunahme (Abnahme) sind hierbei von besonderem Interesse.
Übersicht 51: Aspekte für die Bewertung und den Vergleich von Messwiederholungen Verlauf
Fragestellung Ist der mittlere Wert bzw. der „Gesamtwert“ über die Zeit unterschiedlich? Gipfelwert Ist der höchste (niedrigste) Wert unterschiedlich? Ist die Zeit bis zum Erreichen des höchsten (niedrigsten) Wertes unterschiedlich? Ist die Geschwindigkeit der Zunahme (Abnahme) unterschiedlich? Wachstum Ist der erreiche Endwert (die Differenz zwischen Ausgangs- und Endwert) unterschiedlich? Ist die Zunahme (Abnahme) verzögert?
Maßzahl(en) Mittelwert (bei gleichen Zeitabständen) oder die Fläche unter der Kurve AUC (bei unterschiedlichen Zeitabständen) Maximum bzw. Minimum über den zeitlichen Verlauf Zeitintervall zwischen Start (Intervention) und Maximum bzw. Minimum. Regressionskoeffizient (Linearität angenommen) Letzter Wert bzw. Differenz zwischen dem 1. und letzten Wert. Zeit bis zum Erreichen eines fest vorgegebenen Sollwerts.
684
7 Hypothesentest
Hinweise: 1. Für die Analyse von wiederholten Messungen wird häufig eine Normierung (Adjustierung) der Werte vorgenommen. Zum Beispiel kann der Ausgangswert oder der Mittelwert über alle Messungen (eines Falles) als Basiswert (baseline) betrachtet werden, auf den dann alle Werte relativ (prozentual) oder absolut (Differenz) bezogen werden. 2. Werden mehrere Eigenschaften/Maßzahlen eines Verlaufes (vgl. Übersicht 51) mit statistischen Testverfahren geprüft, dann ist unter Umständen auch eine Korrektur des Signifikanzniveaus (α-Adjustierung, Bonferroni) notwendig. 3. Die Analyse von Messwiederholungen nach den in Übersicht 51 skizzierten Gesichtspunkten setzt • feste Zeitpunkte bzw. Zeitabstände voraus, an denen die Werte gemessen bzw. beobachtet wurden. • vollständige Daten voraus, d. h. Fälle, bei denen ein Wert oder mehrere Werte fehlen, fallen in der Regel aus der Analyse heraus! Sind die Zeitpunkte für die Messungen unterschiedlich (variabel), oder treten gehäuft fehlende Werte zu bestimmten Zeitpunkten auf, dann können die Daten durch ein Modell mit gemischten Effekten beschrieben und bewertet werden (vgl C.S. Davis [Dav02]). 4. Die Berechnung der Fläche unter der Kurve im zeitlichen Verlauf (ti , i = 1, . . . , k) erfolgt zum Beispiel anhand der Trapezregel durch (7.265). 1 (ti+1 − ti )(yi + yi+1 ) 2 i=1 k−1
AU C =
(7.265)
5. Die Berechnung des Regressionskoeffizienten (bei linearem Verlauf) erfolgt durch (7.266). REGR =
k i=1
5
(ti − t¯)(yi − y¯)/
k
(ti − t¯)2
(7.266)
i=1
Beispiel: Im Beispiel werden Messungen Yijk (hypothetisch) in 2 Gruppen (i = 1, 2) zu 6 verschiedenen Zeitpunkten nach 0, 5, 10, 20, 30, 60 Minuten (j = 1, . . . , 6) an jeweils 5 Probanden (k = 1, . . . , 5) untersucht (vgl. Abbildung 7.27). Gruppe Nr. t0 t5 t10 t20 t30 t60 Max. AUC REGR A 1 10.00 15.20 18.00 14.70 12.00 10.00 18.00 773.00 −0.1479 A 2 10.92 14.29 18.16 11.10 13.38 6.67 18.16 713.60 −0.1958 A 3 7.73 18.24 18.76 12.99 12.57 8.95 18.76 766.77 −0.1690 A 4 11.15 18.21 19.07 13.41 9.94 7.40 19.07 705.85 −0.2096 A 5 11.24 14.50 15.79 15.63 12.26 10.21 15.79 773.67 −0.1184 B 1 11.69 10.43 11.59 12.00 10.00 11.13 12.00 655.25 −0.0128 B 2 12.70 11.37 8.84 11.74 11.38 7.70 12.70 615.40 −0.0451 B 3 8.31 8.77 11.72 12.13 10.57 8.84 12.13 617.83 −0.0646 B 4 10.42 12.42 10.09 10.42 7.94 10.62 12.42 586.12 0.0090 B 5 11.06 10.99 11.85 11.67 10.26 11.18 11.85 661.07 −0.0131 Ein Vergleich der beiden Gruppen soll zunächst über (a) den erreichten Maximalwert, (b) die Fläche unter der Kurve, (c) den Regressionskoeffizienten zur Geschwindigkeit des Abfalls der werte von 10 bis 60 Minuten und (d) den letzten nach 60 Minuten gemessenen Wert erfolgen. Die Berechnung nach (7.265) bzw. (7.266) erfolgt in R mit den folgenden Funktionen:
7.6 Mehrstichprobenverfahren, varianzanalytische Methoden > + + + > > + > > + > > > >
AUC
685
npwr . RR t a b f i s h e r . t e s t ( tab , a l t e r n a t i v e =" l e s s " , conf . l e v e l =0.95) F i s h e r ’ s E x a c t T e s t f o r Count D a t a data : tab p−v a l u e = 0 . 0 1 8 0 4 a l t e r n a t i v e h y p o t h e s i s : t r u e odds r a t i o i s l e s s t h a n 1 95 p e r c e n t c o n f i d e n c e i n t e r v a l : 0 . 0 0 0 0 0 0 0 0 . 6 9 6 5 0 0 9 sample e s t i m a t e s : odds r a t i o 0.1121872
Bei symmetrischer hypergeometrischer Verteilung (d. h. hier, Tabelle 7.69: Zeilen- oder Spaltensummen gleich groß) gilt für die zweiseitige Fragestellung 2P , d. h. im Beispiel P = 0,036. In beiden Fällen wird die Nullhypothese (π1 = π2 bzw. Unabhängigkeit) (wegen P < 0,05) auf dem 5%-Niveau abgelehnt. Hinweis: Die Berechnung der Wahrscheinlichkeit (P-Wert) für den exakten Fisher-Test kann einfacher und schneller als in (7.308) durch die folgenden Rekursionsformeln erfolgen: Für ad − bc < 0 Pi+1 =
ai · d i Pi bi+1 · ci+1
Für ad − bc > 0 Pi+1 =
bi · ci Pi ai+1 di+1
(7.309)
Bezeichnen wir die 3 Tabellen der Tabelle 7.69 von links nach rechts mit 1, 2, 3, so ergibt sich für die Grundtabelle (a) 10! · 14! · 12! · 12! · 1! P = = 0,016659 24! · 2! · 8! · 10! · 4! 2·4 · P1 = 0,0808 · 0,016659 = 0,001346 für die Tabelle b P1+1 = P2 = 9 · 11 1·3 · P2 = 0,0250 · 0,001346 = 0,000034 und für die Tabelle c P2+1 = P3 = 10 · 12 Insgesamt: P = P1 + P2 + P3 = 0,0167 + 0,0013 + 0,0000 = 0,018. P -Werte dieser Art werden heute fast stets per Programm berechnet. Früher wurden Tabellen benutzt. Eine moderne Version für 5 ≤ n1 + n2 ≤ 40 stammt von Martin Andrés und Mitarbeitern [MALDCHT91]: einige Werte für die ein- und zweiseitige Fragestellung enthält Tabelle 7.70.
7.7 Die Analyse von Häufigkeiten
723
Tabelle 7.70: Exakter Test nach R.A. Fisher; einige Werte n0 für 8 ≤ n1 + n2 ≤ 16 nach Martin Andrés und Mitarbeitern [MALDCHT91] x 1 y1 n 1 x 2 y2 n 2 a1 a2 N
1) a1 = kleinste der 4 Randsummen 2) x1 so, dass x1 /n1 < x2 /n2 pˆ1 < pˆ2
H0 : p1 = p2 ; HA1 : p1 < p2 ; HA2 : p1 = p2 . Für n1 ≥ n0 (tabelliert für N , a1 und x1 ) wird H0 abgelehnt.
724
7 Hypothesentest
7.7.5 Äquivalenz zweier Binomialwahrscheinlichkeiten Ein zweiseitiger Test auf Äquivalenz - dies ist hier die Alternativhypothese - zweier Binomialwahrscheinlichkeiten π1 und π2 basiert auf folgender Hypothesenstellung. H0 : |π1 − π2 | > Δ, d. h. (π1 − π2 ) ∈ / [−Δ, +Δ]
nicht äquivalent
HA : |π1 − π2 | < Δ, d. h. (π1 − π2 ) ∈ [−Δ, +Δ]
äquivalent
(7.310)
Dabei bezeichnet Δ (griech. Delta) die kleinste Differenz zwischen π1 und π2 , die aus Sicht des Untersuchers von Bedeutung ist, d. h. die höchste Abweichung, die bei Gültigkeit von HA noch als äquivalent (gleichwertig, unbedeutend) angenommen werden kann. Ein einfacher Weg zur Überprüfung von (7.310) führt durch zwei einseitige Hypothesen der Form (7.311) zum Prinzip der Intervallinklusion, welches auch im Abschnitt zum Begriff der Bioäquivalenz [7.4.11.1] näher dargestellt ist. (a) H01 : π1 − π2 ≥ +Δ vs. HA1 : π1 − π2 < +Δ (b) H02 : π1 − π2 ≤ −Δ vs. HA2 : π1 − π2 > −Δ
(7.311)
Im ersten Fall (a) gilt die Alternative π2 > π1 − Δ, somit ist π2 nicht unterlegen (noninferiority), und im zweiten Fall (b) gilt π2 < π1 + Δ, somit ist π2 auch nicht überlegen (nonsuperiority).
Abbildung 7.32: Äquivalenzintervall: Zweiseitiger Test für Binomialwahrscheinlichkeiten Nach diesem Ansatz (TOST, two one-sided tests) kann auf die Äquivalenz von π1 und π2 geschlossen werden, wenn beide Nullhypothesen H01 und H02 auf einem festen Signifikanzniveau abgelehnt werden können, d. h. −Δ < π1 − π2 < +Δ. Das ist insbesondere dann der Fall, wenn das (1 − 2α)100%-Konfidenzintervall für die Differenz π1 − π2 nach (7.312) vollständig in dem Äquivalenzintervall [Δ, +Δ] enthalten ist (vgl. auch Abbildung 7.32).
(ˆ π1 − π ˆ2 ) ± z1−α
π ˆ1 (1 − π ˆ1 ) π ˆ2 ) ˆ2 (1 − π + n1 n2
(7.312)
ˆ2 = r2 /n2 die Schätzungen der Binomialwahrscheinlichkeiten Dabei sind π ˆ1 = r1 /n1 und π π1 und π2 aus zwei unabhängigen Stichproben vom Umfang n1 und n2 und z1−α bezeichnet das entsprechende Quantil der Standardnormalverteilung. Für kleine Stichprobenumfänge (n1 < 50, n2 < 50) ist die Überdeckungsrate kleiner als das gewählte Signifikanzniveau. L. Barker und Mitarbeiter [BRRB01] weisen deshalb auf eine einfache Kontinuitätskorrektur hin (7.313) und vergleichen verschiedene Ansätze zur Berechnung entsprechender Konfidenzintervalle. Näheres zur Bestimmung von Konfidenzintervallen für Anteilsdifferenzen findet sich auch im Abschnitt [6.6.4].
7.7 Die Analyse von Häufigkeiten
(ˆ π1 − π ˆ2 ) ± z1−α
π ˆ1 (1 − π ˆ1 ) π ˆ2 ) 1/n1 + 1/n2 ˆ2 (1 − π + + n1 n2 2
725
(7.313)
Die Bestimmung des Konfidenzintervalles nach (7.313) in R kann durch folgende einfache Funktion erfolgen. TOST_ i n t = 0,8)? Nach (7.399): √ zˆ = |2,0923 − 1,0986| 14 − 3 = 3,296 ,
5
mit zˆ = 3,296 > 1,645 = z0,95 , kann auf dem 5%-Niveau angenommen werden, dass zwischen X und Y ein wesentlich stärkerer Zusammenhang als = 0,8 besteht. Für kleines n ist (7.390) oder (7.393) zu bevorzugen. Beispiel 3: Gegeben r1 = 0,6; n1 = 28 und r2 = 0,8; n2 = 23. Kann angenommen werden, dass 1 = 2 (α = 0,05 mit HA : 1 = 2 )? Nach (7.400) gilt: |0,6931 − 1,0986| = 1,35 < 1,96 . zˆ = 1 1 + 28 − 3 23 − 3 Da zˆ = 1,35 < 1,96 ist, kann die Nullhypothese 1 = 2 auf dem 5%-Niveau nicht abgelehnt werden. Das 95%-Konfidenzintervall für ist dann nach (7.401):
5
794
7 Hypothesentest
z=
17,328 + 21,972 = 0,8733 28 + 23 − 6
sz = √
1 = 0,1491 28 + 23 − 6 = 0,8733 ± 1,96 · 0,1491
z ± 1,960sz
= 0,8733 ± 0,2922
0,5811 ≤ z ≤ 1,1655 95%-KI: 0,5235 ≤ ≤ 0,8223
oder
0,52 ≤ ≤ 0,82 .
7.8.1.2 Korrelation bei Mehrfachbeobachtungen Die statistische Bewertung des Korrelationskoeffizienten nach Pearson setzt Beobachtungen zu unabhängigen, normalverteilten Zufallsvariablen X und Y voraus. Bei mehrfachen Messungen an einem Fall können erhebliche systematische Verzerrungen und Fehleinschätzungen aufgrund der Unterschiede zwischen den Fällen (Inhomogenitätskorrelation) auftreten. Eine angemessene Analyse orientiert sich dann an der primären Fragestellung (vgl. J.M Bland und D.G. Altman - [BA94a], [BA95a] und [BA95b]). 1. Korrelation zwischen den Fällen (between subject correlation): In diesem Fall können die Werte für jeden der n Fälle getrennt gemittelt und der Korrelationskoeffizient aus den Mittelwerten bestimmt werden. Für die statistische Prüfung stehen dann n−2 Freiheitsgrade zur Verfügung. Ist die Zahl der Messungen zwischen den Fällen sehr unterschiedlich, dann muss eine Gewichtung mit der jeweiligen Anzahl der Messungen mi (i=1, . . . , n) nach (7.402) erfolgen.
mi x mi y¯i / ¯i y¯i − mi x ¯i mi r= ( mi x ¯2i − ( mi x ¯ i )2 / mi )( mi y¯i2 − ( mi y¯i )2 / mi )
(7.402)
2. Korrelation in den Fällen (within subject correlation): Hierfür muss die Korrelation für jeden Fall getrennt bestimmt und bewertet werden. Die Berechnung des Korrelationskoeffizienten kann direkt aus einer zweifaktoriellen Varianzanalyse mit den Varianzkomponenten SAQx und SAQresid erfolgen, wobei neben der fallweisen Zuordnung die unabhängige Variable X zu berücksichtigen ist.
r=
SAQx SAQx + SAQresid
(7.403)
7.8 Hypothesentests zur Korrelation und Regression
795
Beispiel (aus J.M. Bland [Bla00]): In der folgende Tabelle sind für n=4 Fälle jeweils 10 Messwertpaare (x und y) aufgelistet, aus denen nach den obigen Ansätzen die Korrelation zwischen den Zufallsvariablen X und Y untersucht werden soll (Abbildung 7.33). Die Rechnungen zu der Analyse von Zusammenhängen erfolgen anschließend in R.
Mittelwert Korrelation P-Wert
Fall 1 X Y 47 51 46 53 50 57 52 54 46 55 36 53 47 54 46 57 36 61 44 57 45,0 55,2 r=-0,33 P=0,35
Fall 2 X Y 49 52 50 56 42 46 48 52 60 53 47 49 51 52 57 50 49 50 49 49 50,2 50,9 r=0,49 P=0,15
Fall 3 X Y 51 46 46 48 46 47 45 55 52 49 54 61 48 53 47 48 47 50 54 44 49,0 50,1 r=0,06 P=0,86
Fall 4 X Y 63 64 70 62 63 66 58 64 59 62 61 62 67 58 64 62 59 67 61 59 62,5 62,6 r=-0,39 P=0,27
(ad1) Der Korrelationskoeffizient aus den 40 Einzelmessungen, r=0,53 (P =0,0004), gibt offensichtlich ein falsches Bild über die Stärke des wahren Zusammenhangs. Für die Einzelfälle getrennt ergeben sich die Korrelationskoeffizienten r1 = − 0,33, r2 =0,49, r3 =0,06 und r4 = − 0,39. Der Korrelationskoeffizient aus den Mittelwerten der 4 Fälle führt auf r=0,77 (P =0,23). Eine Gewichtung ist hier nicht erforderlich, da die Zahl der Messungen für alle Fälle gleich ist. > cor . t e s t ( y , x )
# Pearson K o r r e l a t i o n a l l e Beobachtungen
P e a r s o n ’ s p r o d u c t −moment c o r r e l a t i o n d a t a : y and x t = 3 . 8 8 8 9 , d f = 3 8 , p−v a l u e = 0 . 0 0 0 3 9 2 1 a l t e r n a t i v e hypothesis : t r u e c o r r e l a t i o n i s not equal to 0 95 p e r c e n t c o n f i d e n c e i n t e r v a l : 0 . 2 6 6 3 1 6 1 0 . 7 2 4 6 3 0 3 sample e s t i m a t e s : cor 0.5335613 > > # Pearson Korrelation E i n z e l f a e l l e > tmp k o r r # Mittelwerte für jeden Fall > tmp . y tmp . x tmp . n c o r . t e s t ( tmp . y , tmp . x ) # Pearson K o r r e l a t i o n aus M i t t e l w e r t e n P e a r s o n ’ s p r o d u c t −moment c o r r e l a t i o n d a t a : tmp . y and tmp . x t = 1 . 7 1 7 7 , d f = 2 , p−v a l u e = 0 . 2 2 8 a l t e r n a t i v e h y p o t h e s i s : t r u e c o r r e l a t i o n i s not equal to 0 95 p e r c e n t c o n f i d e n c e i n t e r v a l : −0.7327773 0 . 9 9 4 9 0 6 9 sample e s t i m a t e s : c o r 0 . 7 7 2 0 0 2 2
5
796
7 Hypothesentest
A
B
75
70
70
65
65
60
60
55
55
Y
Y
75
50
50
45
45
40
40
35
35 35 40 45 50 55 60 65 70 75
35 40 45 50 55 60 65 70 75
X
X
Abbildung 7.33: Korrelation zwischen (A) und innerhalb von (B) 4 Fällen mit jeweils 10 Messungen (ad2) Für die Bestimmung der Korrelation innerhalb der Fälle wird eine zweifaktorielle Varianzanalyse gerechnet, in der neben der Zugehörigkeit zu den Fällen (“id“) auch die unabhängige Variable X berücksichtigt wird. Df Sum Sq Mean Sq F value Pr(>F) as.factor(id) 3 982.60 327.53 26.32 v a r t a b F ) as . f a c t o r ( i d ) 3 982.6 3 2 7 . 5 2 6 . 3 1 7 4 . 3 4 e−09 ∗∗∗ x 1 0.2 0.2 0.016 0.901 Residuals 35 4 3 5 . 6 12.4 ... > saq k o r r . w npwr . r h o x y c o r . t e s t ( x , y , method = " k e n d a l l " ) Kendall ’ s rank c o r r e l a t i o n tau d a t a : x and y T = 4 1 , p−v a l u e = 0 . 0 0 0 3 5 7 7 a l t e r n a t i v e hypothesis : t r u e tau i s not equal to 0 sample e s t i m a t e s : tau = 0.8222222
7.8 Hypothesentests zur Korrelation und Regression
803
Mit
n k − nd , n(n − 1) 2 wobei nk bzw. nd die Anzahl der konkordanten (Proversionen) bzw. diskordanten (Inversionen) Paare bezeichnet (vgl. auch Abschnitt 3.2.5 auf Seite 87), ist für (7.413) eine äquivalente Darstellung möglich: n k − nd zˆ = (7.414) n(n − 1)(2n + 5)/18 τˆ =
Für n ≤ 30 kann in (7.414) der Zähler durch (|nk − nd | − 1) im Sinn einer Kontinuitätskorrektur eingesetzt werden. Stichprobenumfang zur Prüfung von τ Der Rangkorrelationskoeffizient nach Kendall kann auch durch die Differenz der Wahrscheinlichkeiten für konkordante und diskordante Beobachtungspaare definiert werden: τ =πc −πd . Der Erwartungswert für die Anzahl konkordanter Paare in einer Stichprobe vom Umfang n ist 1 2 n(n−1)πc . Eine Näherung für die Bestimmung des erforderlichen Stichprobenumfangs zur Prüfung von τ gibt G. Noether [Noe87] an. n=
(z1−α/2 + z1−β )2 9(πc − 12 )2
mit πc =
1 (1 + τ ) 2
(7.415)
Vergleichende Hinweise zu ρS und τ Spearman’s ρS und Kendall’s τ beschreiben und bewerten beide den monotonen Zusammenhang zweier Rangreihen auf ähnliche Weise: •
Die Schätzung von ρS basiert auf einer Produkt-Moment-Korrelation (Pearson) mit den Rangzahlen von 1 bis n. Dieser Ansatz wird bevorzugt verwendet, da die Interpretation sehr ähnlich zum Korrelationskoeffizienten ρ erfolgen kann. Die Differenzen di (i = 1, . . . , n) aufeinanderfolgender Ränge entsprechen äquidistanten Positionen (gleiche Abstände) auf der Skala des untersuchten Merkmals. Ist diese Voraussetzung allerdings nicht erfüllt, dann überschätzt ρS den wahren Zusammenhang. • Die Schätzung von τ basiert ausschließlich auf der ordinalen Information, da nur die Anzahl der Proversionen/Inversionen betrachtet werden. Insofern stellt τ geringere Anforderungen an das Skalenniveau als ρS . Die asymptotische Annäherung an die Standardnormalverteilung (7.414) ist für τ mit n > 10 früher gegeben als für ρS . Auch wenn die Schätzungen von τ und ρS numerisch zu unterschiedlichen Ergebnissen führen, ist das Ergebnis einer Signifikanzprüfung in der Regel gleich. Für die untere Grenze von ρS bei gegebenem τ nennen J. Durbin und A. Stuart [DS51] die folgende Ungleichung: ρS ≥
3nτ − (n − 2) 2(n + 1)
(7.416)
804
7 Hypothesentest
Stichprobenumfänge zur Schätzung von Korrelationskoeffizienten D.G. Bonett und T.A. Wright [BW00] geben erforderliche Stichprobenumfänge an zur Schätzung der Korrelationskoeffizienten nach Pearson, Spearman und Kendall. Die Tabelle 7.85 übernimmt Fallzahlen zur Bestimmung der 95%-Konfidenzintervalle mit fester Weite w = 0,1 (0,2 und 0,3); [BW00] enthält auch Fallzahlen zur Bestimmung der entsprechenden 99%-Konfidenzintervalle sowie fast identische Werte einer sehr guten Approximation. Für den Praktiker interessieren hierbei nur Korrelationskoeffizienten ≥ 0,30. Tabelle 7.85: Stichprobenumfänge zur Schätzung von Korrelationskoeffizienten nach Pearson (ρ), Spearman (ρS ) und Kendall (τ ) durch ein 95%-Konfidenzintervall der Weite w θ
w
0,10
0,1 0,2 0,3
1507 378 168
1517 382 169
661 168 77
0,30
0,1 0,2 0,3
1274 320 143
1331 334 149
560 143 65
0,40
0,1 0,2 0,3
1086 273 123
1173 295 132
448 122 57
0,50
0,1 0,2 0,3
867 219 99
975 246 111
382 99 46
0,60
0,1 0,2 0,3
633 161 74
746 189 86
280 73 35
0,70
0,1 0,2 0,3
404 105 49
503 129 60
180 49 24
0,80
0,1 0,2 0,3
205 56 28
269 72 35
93 27 15
0,90
0,1 0,2 0,3
62 20 12
86 27 16
30 11 8
Pearson (ρ) Spearman (ρs ) Kendall (τ )
7.8 Hypothesentests zur Korrelation und Regression
805
7.8.4 Hypothesentests zu den Parametern einer Regression • • • • • • • •
Prüfung der Linearität einer Regression. Chow-Test: Strukturbrüche. Durbin-Watson-Test: Autokorrelation der Residuen. Prüfung des Regressionskoeffizienten gegen Null. Prüfung der Differenz zwischen geschätztem und hypothetischem Regressionskoeffizienten. Prüfung der Differenz zwischen geschätztem und hypothetischem Achsenabschnitt. Vergleich zweier Regressionskoeffizienten. Vergleich zweier Achsenabschnitte.
7.8.4.1 Prüfung der Linearität einer Regression Die Prüfung der Nullhypothese, es liegt eine lineare Regression vor, ist möglich, wenn die Gesamtzahl n der y-Werte größer ist als die Anzahl k der x-Werte: Zu jedem Wert xi der k x-Werte liegen also ni y-Werte vor. [Wenn der „Punkteschwarm“ die Linearität oder Nichtlinearität deutlich zum Ausdruck bringt, kann man auf den Linearitätstest verzichten.] Beim Vorliegen einer linearen Regression müssen die Gruppenmittelwerte y¯i angenähert auf einer Geraden liegen, d. h. ihre Abweichung von der Regressionsgeraden darf nicht zu groß sein im Verhältnis zur Abweichung der Werte einer Gruppe von ihrem zugehörigen Mittelwert. Erreicht oder übersteigt somit das Verhältnis Abweichung der Mittelwerte von der Regressionsgeraden Abweichung der y-Werte von ihrem Gruppenmittelwert d. h. die Prüfgröße 1 ni (¯ yi − yˆi )2 k − 2 i=1 k
Fˆ =
ν1 = k − 2
k ni 1 (yij − y¯i )2 n − k i=1 j=1
(7.417)
ν2 = n − k
mit (k−2, n−k) Freiheitsgraden den Tabellenwert Fk−2;n−k;1−α , so muss die Linearitätshypothese verworfen werden. Die Summen in (7.417) sind die beiden Komponenten der Gesamtstreuung der Werte yij um die Regressionsgerade. ni k
(yij − yˆi )2 =
i=1 j=1
ni k
(yij − y¯i )2 +
i=1 j=1
k
ni (¯ yi − yˆi )2
i=1
Beispiel: Die Linearität der Beobachtungen aus folgender Tabelle mit n=8 Beobachtungen in k=4 Gruppen auf dem 5%-Niveau soll überprüft werden.
yij
xi j=1 j=2 j=3 ni
1 1 2 2
5 2 3 3 3
9 4
13 5 6
1
2
5
806
7 Hypothesentest
Das folgende kleine R-Programm zeigt die Berechnung der Prüfgröße (unter ausführlicher Verwendung der Vektor- bzw. Matrixindizes) in einzelnen Schritten. Zunächst werden die Mittelwerte y¯i bestimmt. Anschließend schätzen wir die Regressionsgerade und berechnen für die vier xi Werte die entsprechenden Schätzungen yˆi . Die Abweichungen von der Regression (Zählerterm in (7.417)) und die Abweichungen der einzelnen Beobachtungen von den Gruppenmittelwerten (Nenner) können dann einfach bestimmt werden. > x i x > >
chow . t e s t 0, 4) eine deutliche Verbesserung aus. Das Pseudo-Bestimmtheitsmaß von Cox und Snell [CS89] vergleicht den maximalen Wert der Likelihood-Funktion des interessierenden Modells mit dem maximalen Wert der LikelihoodFunktion des Nullmodells. 2/n L0 2 RCS =1− (8.71) Lmod
8.4 Logistische Regression
863
n bezeichnet die Anzahl der Beobachtungen, aus denen das Modell abgeleitet wird. Da die Likelihood-Funktion aus dem Produkt der Wahrscheinlichkeiten (vgl. (8.51)) berechnet wird und durch die Aufnahme zusätzlicher Einflussgrößen in das Modell stets Lmod ≥ L0 anzunehmen 2 2 2 durch 0 ≤ RCS < 1 bestimmt. RCS kann den Wert 1 nicht ist, ist der Wertebereich für RCS erreichen. Daher schlägt Nagelkerke [Nag91] die Normierung nach (8.72) vor. 2 RN =
2 RCS 2 RCSmax
=
2 RCS 1 − (L0 )2/n
(8.72)
2 > 0, 2 bereits Für die Einordnung dieser Pseudo-Bestimmtheitsmaße gilt ein Modell mit RN 2 als akzeptabel und mit RN > 0,5 als sehr gut. Eine ausführlichere Darstellung zu PseudoBestimmtheitsmaßen und Beispiele geben K. Backhaus und Mitarb. [BEPW06] sowie J.S. Long [Lon97].
8.4.7 Güte der Klassifikation: ROC/AUC-Analyse Das logistische Regressionsmodell ordnet einer Beobachtung x∈ die Wahrscheinlichkeit pˆ zu, einer bestimmten Kategorie K anzugehören (x∈K). Die Güte eines Verfahrens zur Klassifikati¯ (y(x)=0)), kann mit Hilfe eines gleitenden on, d.h. einer Zuordnung x∈K (y(x)=1) oder x∈K Schwellenwertes t wie folgt beschrieben werden: T (t) = P (ˆ p(x) > t | y(x) = 1)
für 0 ≤ t ≤ 1
F (t) = P (ˆ p(x) > t | y(x) = 0)
(8.73)
Entsprechend der Notation für den diagnostischen Test (vgl. Abschnitt 4.5 auf Seite 189) bezeichnet T (t) die richtig positiven Zuordnungen (Sensitivität) und F (t) die falsch positiven Zuordnungen (1-Spezifität). In der ROC-Analyse (receiver operating characteristic) wird T (t) gegen F (t) im Koordinatensystem aufgezeichnet und die Fläche unter der Kurve bestimmt. AU C = P (ˆ p(x) > pˆ(x ) | y(x) = 1 und y(x ) = 0)
1.0
0.8
Sensitivät
Die AU C entspricht demnach einem korrekten Ranking der Wahrscheinlichkeiten für die Zuordnung ausgewählter Beobachtungspaare (x, x ); ¯ dann ist auch pˆ(x)>ˆ wenn x∈K und x ∈K, p(x ). Erfolgt diese Zuordnung rein zufällig, dann ist AU C=0,50. Mit AU C=1,0 ist eine „sichere“ Zuordnung durch das Modell gegeben. Werte kleiner 0,60 werden in der Regel als wenig informativ für eine Klassifikation angesehen.
(8.74)
0.6
0.4
AUC= 0.8603 Für das Beispiel einer Wirbelsäulenverkrüm0.2 mung (Kyphose, vgl. Datensatz in R unter data(kyphosis) in library(rpart)) kann die Güte der 0.0 Klassifikation aus dem logistischen Regressions0.0 0.2 0.4 0.6 0.8 1.0 modell mit den folgenden Befehlen in R direkt be1 − Spezifität wertet werden. Die Fläche unter der Kurve in AbAbbildung 8.16: Güte der Klassifikation bildung 8.16 ist AU C=0,8603. durch die ROC/AUC-Analyse
864
8 Statistische Modellbildung
> f i t x p . h > t r p = t c u t & x == 1 ) / sum ( x == 1 ) } ) > t f p = t c u t & x == 0 ) / sum ( x == 0 ) } ) > > AUC f o r ( i i n 1 : ( l e n g t h ( f p ) −1)) { + s t e p p s d psd [ 1 : 4 , ] i d e n t age s e x bmi t r e a t 1 1 40 f e m a l e 27 1 2 2 37 male 19 1 3 3 30 f e m a l e 26 1 4 4 34 male 27 1 ... > mod p s d $ y e s p s d $ no # Matching ( 1 : 1 ) > l i s t M a t c h summary ( l i s t M a t c h ) ... > t r e a t cntr r e s u l t