314 85 8MB
German Pages XIV, 359 [371] Year 2020
Mario Schneider
Datenanalyse für Naturwissenschaftler, Mediziner und Ingenieure
Datenanalyse für Naturwissenschaftler, Mediziner und Ingenieure
Mario Schneider
Datenanalyse für Naturwissenschaftler, Mediziner und Ingenieure
Mario Schneider Oppenau, Deutschland
ISBN 978-3-662-61866-0 (eBook) ISBN 978-3-662-61865-3 https://doi.org/10.1007/978-3-662-61866-0 Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. © Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen etc. in diesem Werk bedeutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die Berechtigung zur Benutzung unterliegt, auch ohne gesonderten Hinweis hierzu, den Regeln des Markenrechts. Die Rechte des jeweiligen Zeicheninhabers sind zu beachten. Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informationen in diesem Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag, noch die Autoren oder die Herausgeber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen. Der Verlag bleibt im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutionsadressen neutral. Planung/Lektorat: Stephanie Preuss Springer Spektrum ist ein Imprint der eingetragenen Gesellschaft Springer-Verlag GmbH, DE und ist ein Teil von Springer Nature. Die Anschrift der Gesellschaft ist: Heidelberger Platz 3, 14197 Berlin, Germany
Dieses Buch widme ich Felix und Aurelia.
Vorwort
Ich habe die Erfahrung gemacht, dass zwar Statistik in vielen wissenschaftlichen Disziplinen Teil des Lehrplans ist, diese jedoch häufig nur theoretisch behandelt wird und nicht anhand von Beispielen aus der wissenschaftlichen Praxis, wo es viel um Datenanalyse geht. Die entsprechenden Kurse werden dann häufig von Mathematikprofessoren gehalten, und dementsprechend ist der Stoff dann auch aufbereitet. Verstehen Sie mich nicht falsch, ich achte Mathematiker sehr, es hat jedoch auch seinen Grund, dass die Mathematik nicht zu den Naturwissenschaften zählt. Falls es dann praktische Übungen im Rahmen der Statistikmodule gibt, müssen sich die Studenten zunächst eine gewisse Zeit in ein mehr oder minder komplexes Softwarepaket einarbeiten, Zeit, die ihnen für das grundlegende Verständnis, wie Daten wissenschaftlich ausgewertet werden können, am Ende fehlt. Spätestens, wenn Sie selbst einmal ein wissenschaftliches Projekt eigenständig bearbeiten sollen, holt Sie schnell die Realität ein. Hier tauchen Fragen auf wie bspw. „Sollte ich meine Daten mit der Modellfunktion A oder B fitten?“ oder „Darf ich den den Wert aus meinen Daten entfernen?“ oder „Welche Faktoren beeinflussen mein Experiment?“ usw. Ich habe in meiner beruflichen Praxis z. T. mit Wissenschaftlern zu tun gehabt, die nicht wussten, was ein Median oder was die Standardabweichung von Daten ist, geschweige denn, wie man diese errechnet. Für deren Berechnung gibt es nämlich mehr als eine Formel, die je nachdem zu stark unterschiedlichen Ergebnissen führen können (später dazu mehr). Vermutlich schrecken viele Wissenschaftler davor zurück, sich mit Datenanalyse zu beschäftigen, da sie denken, ihnen fehle erstens das mathematische Rüstzeug und zweitens Kenntnisse im Umgang mit statistischer Software. Meines Erachtens nach ist es sicherlich nicht verkehrt, ein gewisses mathematisches Vorwissen mitzubringen, aber es reicht in den meisten Fällen das Wissen aus dem Grundkurs Mathematik. Sie müssen für viele Analysen auch kein R-, SPSS- oder Minitab-Profi zu sein, um Ihre Daten analysieren zu können. Vieles können Sie mit Microsoft Excel (oder vergleichbaren Tabellenkalkulationsprogrammen) machen, von beschreibender Statistik bis hin zu Machine Learning. In diesem Buch werden Sie kein einziges Excel-Makro benötigen. Im Gegenteil, ich werden Ihnen zeigen, dass die meisten Berechnungen, sogar die der multivariaten Datenanalyse, mit verhältnismäßig einfachen Bordmitteln funktionieren. Mir ist VII
VIII
Vorwort
durchaus bewusst, dass es je nach Problemstellung besser geeignete Softwarelösungen gibt. Ich selbst bin ein großer Fan von R, Octave und MATLAB (The MathWorks). Doch kennen sich die meisten bereits relativ gut mit Excel aus, es ist beinahe auf jedem Bürorechner vorhanden und man erhält direktes Feedback, sobald der an einer Berechnung beteiligte Zellinhalt geändert wird. Dadurch verinnerlicht man die Grundlagen nochmals sehr gut. Hier kann ich aus eigener Erfahrung sprechen, denn mein damaliger Professor für Chemometrie, Dr. Ernst Cleve, hat auch Excel verwendet, um uns die Datenanalyse praktisch näherzubringen. Ihm möchte ich an dieser Stelle für die Durchsicht und die Anmerkungen zum Manuskript, sowie für die Bereitstellung diverser Unterrichtsmaterialien herzlich danken. Ich habe das Buch so aufgebaut, dass wir uns im ersten Kapitel zunächst mit den Grundlagen im Umgang mit Microsoft Excel beschäftigen, v. a. damit, wie Sie Zellbezüge richtig setzen und Ihre Berechnungen automatisieren können. Außerdem lernen Sie, wie Sie in Excel mit Vektoren und Matrizen rechnen können, was in den darauffolgenden Kapiteln häufig angewendet wird. Im zweiten Kapitel beschäftigen wir uns mit den Möglichkeiten zur Darstellung von Daten. Im Grunde genommen erhalten Sie dadurch einen kleinen Einblick in die Elemente der explorativen Datenanalyse, wobei ich dieses Wort bewusst nicht in einer der Überschriften verwendet habe. Sie lernen hier v. a., wie Sie bestimmte Daten(-Typen) in welcher Form darstellen können. Hier zeige ich Ihnen außerdem, wie Sie publikationsreife Abbildungen aus Excel heraus erzeugen können. Im dritten Kapitel beschäftigen wir uns mit Wahrscheinlichkeitsverteilungen, die in der wissenschaftlichen Praxis an der ein oder anderen Stelle auftreten. Dies schließt diejenigen Verteilungen ein, die bei den sogenannten Hypothesentests eine wichtige Rolle spielen, mit denen wir uns ebenso in diesem Kapitel beschäftigen. Im vierten Kapitel lernen wir verschiedene Methoden der Datenvorbehandlung kennen. Neben Skalierungs- und Glättungsmethoden beinhaltet diese auch Interpolationsmethoden, die in der Praxis des Öfteren verwendet werden. Im fünften Kapitel kommen wir dann zur häufig in der Praxis angewendeten linearen bzw. der nicht-linearen Regression, mit deren Hilfe Sie eine Modellfunktion an Ihre experimentellen Daten anpassen können. Im sechsten Kapitel beschäftigen wir uns mit verschiedenen Klassifikationsmethoden, um Muster in multivariaten Daten erkennen zu können. Hierbei gehe ich sowohl auf unüberwachte Methoden wie die Hauptkomponentenanalyse und Clusteranalyse ein, aber auch auf überwachte Methoden wie die des aktiven Lernens mittels künstlicher neuronaler Netze. Im siebten Kapitel erfahren Sie dann, wie Sie Versuche mit mehreren Einflussgrößen statistisch sinnvoll planen und umsetzen können und wie Sie die Haupteinflussgrößen Ihrer Experimente bestimmen können. Im achten Kapitel finden Sie ausführliche Lösungswege und Hilfen zu den Übungsaufgaben aus den zuvor genannten Kapiteln.
Vorwort
IX
Im neunten Kapitel habe ich u.a. mathematische Grundlagen zusammengefasst, die zum besseren Verständnis der Inhalte der anderen Kapitel beitragen sollen. Außerdem finden Sie hier eine Sammlung statistischer Tabellen, die zum Lösen der Beispiele und der Übungsaufgaben benötigt werden. Die Lösungen zu den Übungen finden Sie im nächsten Kapitel. Datenanalytische Konzepte lernt man meiner Erfahrung nach am besten, wenn man sie anhand von Übungen, oder noch besser, anhand von eigenen Problemstellungen (aus der Praxis) anwendet, daher kann ich Ihnen die praxisnahen Übungsaufgaben nur ans Herz legen. Ebenso wichtig wie die Übungen sind die Videos, die zu diesem Buch gehören. Hier werden Sie anhand von Fallbeispielen lernen, wie man Daten in Excel analysieren kann. In den Videos gehe ich komplette Analysen mit Ihnen von Anfang bis Ende durch. Ein Video kann durch Scannen des jeweiligen QR-Codes mittels QR-Code-Scanner-App aufgerufen werden. Sie werden hierbei auf eine YouTube-Website weitergeleitet, auf der Sie das jeweilige Video anschauen können. Zusätzlich stelle ich Ihnen die Videos auf meiner Website unter http://dataanalysistools.de/videos-to-the-book/ zur Verfügung, auf die Sie, nach Eingabe des Passworts DaNiM (das steht für Datenanalyse für Naturwissenschaftler, Ingenieure und Mediziner), freien Zugriff haben. Wenn Sie Fragen zu Inhalten im Buch oder in den Videos haben, sparen Sie sich die Zeit und recherchieren Sie nicht stundenlang im Internet. Gehen Sie bitte den kurzen Weg und kontaktieren Sie mich einfach per Mail ([email protected]). Ich werde versuchen, Ihnen möglichst schnell zu antworten. Nutzen Sie die Kontaktmöglichkeit bitte auch für Feedback, denn so weiß ich, was ich in Zukunft besser machen könnte. Sie können mich auch gerne über meine Website http://www.dataanalysistools.de kontaktieren. Dort führe ich einen Blog, lade hier regelmäßig Videos zum Thema Datenanalyse hoch und stelle kleine Software-Tools kostenfrei zur Verfügung. Ich wünsche Ihnen viel Spaß mit dem Buch. Oppenau 30. Mai 2020
Mario Schneider
Inhaltsverzeichnis
1 Streifzug durch Excel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1 Tabellenkalkulation mit Excel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Rechnen mit Vektoren und Matrizen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3 Der Solver – ein starkes Werkzeug . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.4 Numerisches Differenzieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.5 Numerische Integration. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2 Darstellung von Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.1 Tabellen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.2 Diagramme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.2.1 Grafische Darstellung mathematischer Funktionen. . . . . . . . . . . . . 31 2.2.2 Streudiagramme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.2.3 Box-Whisker-Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.2.4 Histogramm. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.2.5 Kumulative Häufigkeitsverteilung. . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.2.6 Violin-Plot. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.2.7 Fehlerbalken. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.2.8 Darstellung dreidimensionaler Daten. . . . . . . . . . . . . . . . . . . . . . . . 44 2.2.9 Publikationsreife Abbildungen in Excel . . . . . . . . . . . . . . . . . . . . . 44 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen. . . . . . . . . . . . . 47 3.1 Was ist Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.2 Wichtige Wahrscheinlichkeitsverteilungen. . . . . . . . . . . . . . . . . . . . . . . . . 50 3.2.1 Binomialverteilung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.2.2 Poissonverteilung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 3.2.3 Gauß’sche Normalverteilung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 3.2.4 Logarithmische Normalverteilung. . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.2.5 χ 2-Verteilung – und die Gammafunktion. . . . . . . . . . . . . . . . . . . . . 58 3.2.6 Student-t -Verteilung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 XI
XII
Inhaltsverzeichnis
3.2.7 F-Verteilung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.2.8 Maßzahlen von Wahrscheinlichkeitsverteilungen. . . . . . . . . . . . . . 62 3.3 Erzeugung von Zufallszahlen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 3.4 Hypothesentests. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.4.1 Parametrische Tests – ANOVA & Co.. . . . . . . . . . . . . . . . . . . . . . . 74 3.4.2 Nichtparametrische Hypothesentests. . . . . . . . . . . . . . . . . . . . . . . . 110 3.4.3 Das Problem der multiplen Vergleiche. . . . . . . . . . . . . . . . . . . . . . . 119 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 4 Datenvorbehandlung und Signalwertanalyse. . . . . . . . . . . . . . . . . . . . . . . . . . 123 4.1 Datenskalierung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 4.1.1 Zentrierung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 4.1.2 Bereichsskalierung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 4.1.3 Standardisierung/Autoskalierung. . . . . . . . . . . . . . . . . . . . . . . . . . . 125 4.1.4 Vektornormierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 4.2 Glätten von Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 4.2.1 Gleitender Mittelwert. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 4.2.2 Medianglättung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 4.2.3 Savitzky-Golay-Glättung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 4.2.4 Glättung mit Gauß’schen Gewichten. . . . . . . . . . . . . . . . . . . . . . . . 131 4.3 Konvolution und Dekonvolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 4.4 Korrelation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 4.5 Interpolationsmethoden. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 4.5.1 Lineare Interpolation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 4.5.2 Kubische Spline-Interpolation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 4.6 Fouriertransformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 5 Lineare und nicht-lineare Regression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 5.1 Lineare Regression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 5.1.1 Lineare Regression in analytischer Form. . . . . . . . . . . . . . . . . . . . . 155 5.1.2 Lineare Regression in Matrixform. . . . . . . . . . . . . . . . . . . . . . . . . . 160 5.2 Nicht-lineare Regression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 5.2.1 Gradienten-basierte Verfahren. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 5.2.2 Simplex-Optimierung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 5.2.3 Genetische Algorithmen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 5.3 Regression mit Replikaten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 5.4 Globale Regression mit geteilten Parametern. . . . . . . . . . . . . . . . . . . . . . . 176 5.5 Gewichtete Regression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 5.6 Robuste Regression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
Inhaltsverzeichnis
XIII
5.7 Beurteilung von Regressionsergebnissen/-analysen . . . . . . . . . . . . . . . . . . 182 5.7.1 Gütemaße der Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 5.7.2 Vergleich von Fitmodellen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 6 Multivariate Datenanalyse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 6.1 Multivariate lineare Regression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 6.2 Methoden der unüberwachten Klassifikation. . . . . . . . . . . . . . . . . . . . . . . . 204 6.2.1 Hauptkomponentenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 6.2.2 Clusteranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 6.3 Methoden der überwachten Klassifikation. . . . . . . . . . . . . . . . . . . . . . . . . . 223 6.3.1 k-nächste-Nachbarn-Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . 224 6.3.2 Bayes’sche Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227 6.3.3 Support Vector Machine-Klassifizierung. . . . . . . . . . . . . . . . . . . . . 231 6.3.4 Klassifizierung mittels Entscheidungsbäumen. . . . . . . . . . . . . . . . . 240 6.3.5 Klassifizierung mittels künstlicher neuronaler Netze . . . . . . . . . . . 241 6.3.6 Klassifikationsfehlerrate. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 7 Statistische Versuchsplanung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 7.1 Versuchsplan 1. Ordnung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 7.1.1 Vollfaktorieller Versuchsplan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258 7.1.2 Teilfaktorielle Versuchspläne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266 7.2 Versuchsplan 2. Ordnung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269 7.3 Zentral zusammengesetzter Versuchsplan. . . . . . . . . . . . . . . . . . . . . . . . . . 273 7.4 Box-Behnken-Versuchsplan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274 7.5 Allgemeine Hinweise zu Versuchsplänen . . . . . . . . . . . . . . . . . . . . . . . . . . 278 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278 8 Lösungen zu den Übungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279 8.1 Lösungen zu Kap. 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279 8.2 Lösungen zu Kap. 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282 8.3 Lösungen zu Kap. 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285 8.4 Lösungen zu Kap. 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292 8.5 Lösungen zu Kap. 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294 8.6 Lösungen zu Kap. 6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302 8.7 Lösungen zu Kap. 7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306 9 Anhang. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309 9.1 Ein klein wenig lineare Algebra. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309 9.1.1 Rechnen mit Vektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310 9.1.2 Rechnen mit Matrizen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312 9.1.3 Eigenwerte und Eigenvektoren von Matrizen. . . . . . . . . . . . . . . . . 316
XIV
Inhaltsverzeichnis
9.2 Lagrange’sches Multiplikationsverfahren – Optimierung mit Nebenbedingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318 9.3 Mehr zur Fehlerfortpflanzung – für mathematisch Versierte. . . . . . . . . . . . 320 9.4 Statistische Tabellen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323 9.5 Software. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352 Stichwortverzeichnis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353
1
Streifzug durch Excel
1.1
Tabellenkalkulation mit Excel
Wenn Excel geöffnet wird, lädt automatisch eine leere Arbeitsmappe mit einer Tabelle. Die Tabelle hat 1.048.576 Zeilen und 16.384 Spalten, die entsprechend von 1 bis 1.048.576 bzw. mit A bis XFD bezeichnet werden. Es kann also schon mit relativ großen Datenmengen umgehen, im Gegensatz zu dem ein oder anderen Statistikprogramm. Durch ihre jeweilige Zeilen- und Spaltenbezeichnung ist jede Zelle im Tabellenblatt eindeutig gekennzeichnet. Excel unterscheidet generell drei Arten von Datentypen: Zahlen, Text und Formeln. Alle drei können jeweils direkt in Zelle eingegeben werden und Excel erkennt automatisch den Datentyp. Zahlen sind in der jeweiligen Zelle rechtsbündig angeordnet1 , im Gegensatz zu Text, der linksbündig angeordnet wird. Damit Excel eine Formel erkennen kann, muss sie mit einem Gleichheitszeichen eingeleitet werden. Angenommen, Sie wollen die Werte der Zellen A1 = 2 und B1 = 3 miteinander addieren und das Ergebnis in Zelle C1 schreiben, dann markieren Sie C1 und geben direkt in die Zelle, oder in die Bearbeitungsleiste, die Formel = A1 + B2 ein. Die Bearbeitungsleiste ist das lang gestreckte Feld neben dem f x -Zeichen (vgl. Abb. 1.1). Nach Drücken der Eingabetaste wird das Ergebnis 5 in der Zelle C1 angezeigt. Markieren Sie nun die Zelle C1, dann finden Sie die zuvor eingegebene Formel nur noch in der Bearbeitungsleiste, aber nicht in der Zelle selbst. Dennoch ist der Zellinhalt von C1 immer noch funktional mit A1 und B1 verknüpft. Das erkennen Sie spätestens dann, wenn Sie bspw. den Wert von A1 ändern, denn dann ändert sich der Wert in C1 automatisch mit. Neben Addieren kann Excel natürlich auch Subtrahieren, Dividieren und Multiplizieren. Darüber hinaus bringt Excel eine relativ große Bibliothek an vorgefertigten Funktionen aus verschiedensten Disziplinen mit, von denen die statistischen Funktionen, die mathematischen und trigonometrischen, aber auch die technischen Funktionen hier von besonderem Interesse sind. 1 Sofern Sie nicht im Eingabemodus sind.
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 M. Schneider, Datenanalyse für Naturwissenschaftler, Mediziner und Ingenieure, https://doi.org/10.1007/978-3-662-61866-0_1
1
2
1 Streifzug durch Excel
Abb. 1.1 Die Oberfläche von Microsoft Excel 2016. In der (markierten) Zelle C1 wurde die Summe der Inhalte aus den Zellen A1 und B1 berechnet. In der Bearbeitungsleiste (s. Beschriftung) erkennt man die zugehörige Formel. Hervorgehoben habe ich hier auch das Ausfüllkästchen. Bewusst habe ich im Menüband die Registerkarte Daten ausgewählt, weil sich hier das Datenanalyse-Werkzeug und der Solver befinden (oben rechts), die beide noch eine große Rolle in diesem Buch spielen werden. „Nutzung mit Genehmigung von Microsoft.“
Die Funktionenbibliothek kann mithilfe des f x -Symbols der Bearbeitungsleiste aufgerufen werden. Häufig kennt man bereits den Funktionsnamen und man kann ihn nach dem Gleichheitszeichen eingeben. Excel macht bereits nach dem ersten Buchstaben Vorschläge für Funktionen, die mit demselben Buchstaben anfangen. Wenn Sie in Excel eine oder mehrere Zellen kopieren, die Formeln enthalten, dann beachten Sie, dass beim „normalen“ Einfügen (z. B. über strg + v ) auch die Zellbezüge mit kopiert werden. Standardmäßig werden relative Zellbezüge gesetzt, d. h., wenn Sie die Zelle C1 von oben kopieren und bspw. bei D5 wieder einfügen, dann wird Ihnen dort eine Null angezeigt werden (vorausgesetzt, die Zellen B5 und C5 waren leer wie in Abb. 1.1). Wenn in B5 eine 7 und C5 eine 1 gestanden hätten, dann wäre nach dem Kopieren der Zelle C1 in D5 der Inhalt Letzterer gleich 8. Ein relativer Zellbezug bedeutet hier also relativ zur Position der Formel enthaltenden Zelle (hier die neue Position D5). Gehen Sie nun nochmals zurück zur Zelle mit der ursprünglichen Formel in C1 und doppelklicken Sie auf die Zelle. Nun gehen Sie auf den ersten Summanden A1 und drücken F4 . Das Gleiche machen Sie mit dem zweiten Summanden B2. Die Formel hat nun insgesamt vier Dollarzeichen hinzubekommen. Diese sagen Excel, dass es sich hierbei jeweils um einen absoluten Zellbezug handelt, d. h., sowohl die Zelle A1 als auch die Zelle B1 sind jetzt fester Bestandteil der Formel, die in C1 geschrieben wurde. Wenn Sie nun diese Zelle kopieren und wiederum in D5 einfügen, dann bekommen Sie nun auch in dieser Zelle das Ergebnis 5. Wenn Sie nochmals auf die Formel in der Bearbeitungsleiste schauen, dann ist diese identisch mit der in C1. Wir werden weiter unten auch Gebrauch von den
1.1 Tabellenkalkulation mit Excel
3
sogenannten absoluten Zeilenadressen und den absoluten Spaltenadressen machen. Im ersten Fall hat die Zeile einen absoluten-, die Spalte jedoch einen relativen Bezug, im zweiten Fall hat die Spalte einen absoluten- und die Zeile einen relativen Bezug. Um sich das klarer zu machen, bearbeiten Sie noch einmal die Formel in C1, indem Sie wiederum jeweils beide Summanden markieren und F4 drücken. Ihre Formel sollte nun so aussehen: = A$1 + B$1. Wenn Sie nun die Zelle nach C2 kopieren, sollten Sie genau dasselbe Ergebnis und dieselbe Formel erhalten wie in C1. Wenn Sie aber die Zelle nach D2 kopieren, dann sollten Sie als Ergebnis 8 erhalten, nämlich als Summe der Zelle B1 und C1. Sie sehen, die Zeile ist gleich geblieben, lediglich die Spalte ist dynamisch. Dies war ein Beispiel für eine absolute Zeilenadresse. In diesem Zusammenhang möchte ich auf eine Kleinigkeit hinweisen, die viele gar nicht kennen, die aber in den Anwendungen das Leben erleichtern, und zwar das Ausfüllkästchen. Sie sehen es rechts unten am Rand der aktuell markierten Zelle2 (vgl. auch Abb. 1.1). Wenn die aktive Zelle eine Formel enthält und Sie mit dem Mauszeiger über das Ausfüllkästchen fahren, die linke Maustaste gedrückt halten und nach rechts, links, oben oder unten ziehen, so wird die Zelle kopiert. Wenn dort eine Zahl oder Text drinstand, so wird die Zahl oder der Text kopiert, wenn eine Formel drinstand, so wird die ganze Formel kopiert. Excel ist auch in der Lage, einfache Reihen automatisch zu erkennen. Geben Sie bspw. 1 in Zelle A1 ein und 2 in Zelle A2. Nun markieren Sie beide Zellen und ziehen nun (am Ausfüllkästchen) nach unten. Excel führt dann die Reihe mit 3, 4 etc. automatisch weiter. Ein von mir regelmäßig verwendetes Tool zum Erzeugen von Datenreihen ist das Datenreihe-Tool unter Start → Ausfüllen → Datenreihe... Hierzu geben Sie in einer Zelle die Startzahl Ihrer Reihe ein, markieren diese Zelle und öffnen anschließend besagtes Tool. Hier können Sie angeben, ob Sie die Datenreihe in Spalten oder in Zeilen ausfüllen möchten. Die Bezeichnungen beziehen sich dabei auf die Tatsache, dass Sie mehrere Spalten bzw. Zeilen mit diesem Werkzeug ausfüllen lassen können. Sie können auch angeben, ob Sie bspw. Linear oder Geometrisch ausfüllen möchten, mit welchem Inkrement das geschehen soll und bis zu welchem Endwert die Reihe fortgesetzt werden soll. Das Reihenwerkzeug ist in den Anwendungen oft sehr nützlich. In folgender Übung können Sie dies einmal ausprobieren. 1.1 Übung Erzeugen Sie mit dem Datenreihe-Werkzeug in Excel x-Werte von 1 bis 2 in 0,1er-Schritten in der Spalte A. Anschließend schreiben Sie in die Zellen C1 und C2 die Parameternamen b1 bzw. b2 und die zugehörigen Werten 5 bzw. 0, 5 in den darauffolgenden Zellen D1 bzw. D2. Nun berechnen Sie neben den Zellen der x-Werte die zugehörigen Funktionswerte f (x) = b1 + b2 x. Verwenden Sie hierbei absolute Zellbezüge.
2 Falls Sie es nicht sehen sollten, gehen Sie unter Datei → Optionen → Erweitert, und
unter den Bearbeitungsoptionen finden Sie den Punkt Ausfüllkästchen und Drag & Drop von Zellen aktivieren, der aktiviert sein muss.
4
1 Streifzug durch Excel
1.2
Rechnen mit Vektoren und Matrizen
Oben habe ich Ihnen gezeigt, wie Sie einzelne Zahlen miteinander verrechnen können. In der datenanalytischen Praxis hat man es häufig mit Matrizen und Vektoren statt mit einzelnen Zahlen zu tun. Kurz zur Erinnerung, eine Matrix ist ein rechteckiges Schema von Zahlen mit m Zeilen und n Spalten, für die besondere Rechenregeln gelten. Ein Vektor ist ein Spezialfall einer Matrix, mit nur einer Zeile (Zeilenvektor) oder nur einer Spalte (Spaltenvektor). Zum Rechnen mit Vektoren und Matrizen in Excel brauchen wir den sogenannten ArrayOperator) {}. Schauen wir uns den Gebrauch dieses Operators mal anhand der Addition zweier Matrizen A und B an. Beispiel 1.1 Wir berechnen die Summe der beiden Matrizen in Excel: ⎤ ⎡ 4 03 A = ⎣1 4⎦ und B = ⎣6 7 25 ⎡
⎤ 3 1⎦ 1
Angenommen, die Matrix A stünde in den Zellen A1:B3 und die Matrix B in den Zellen D1:E3. Da beides 3 × 2-Matrizen sind, können beide problemlos addiert werden. Das geschieht jeweils elementweise (für mehr Details siehe Abschn. 9.1.2). Die Ergebnismatrix C ist dann ebenfalls eine 3 × 2-Matrix. Nehmen wir an, diese soll in den Zellen G1:H3 ausgegeben werden. Unter Excel gehen Sie wie folgt vor: 1. Markieren Sie die Zellen G1:H3 und klicken Sie anschließend in die Bearbeitungsleiste. 2. Geben Sie hier = ein und markieren Sie die Zellen A1:B3. Nachdem Sie + eingegeben haben, markieren Sie die Zellen D1:E3. 3. Dann drücken Sie shift + strg + und Sie erhalten die Matrix C in Ihren Ausgabezellen G1:H3.
Wenn Sie sich die Formel in den Ausgabezellen danach noch einmal in der Bearbeitungsleiste anschauen, sehen Sie, dass Excel automatisch die geschweiften Klammern um die Formel {=B11:C13+E11:F13} gesetzt hat. Dadurch weiß Excel, dass diese Zellen Teil eines Arrays sind. Würden Sie versuchen, eine Zelle, die Teil eines solchen Arrays ist, zu löschen oder zu bearbeiten, so gibt Excel einen Hinweis, dass Teile einer Matrix nicht bearbeitet werden können. Der Nachteil beim Rechnen mit Matrizen in Excel ist, dass Sie vorab bereits die Größe der resultierenden Matrix kennen müssen und die richtigen Zellen markieren, in denen
1.2
Rechnen mit Vektoren und Matrizen
5
das Ergebnis stehen soll3 . Wenn Sie bspw. wie hier, eine 3 × 2-Matrix mit einer anderen 3 × 2-Matrix addieren wollen, dann müssen Sie vorab 3 × 2-Zellen in Excel markieren und dann erst die Formel in der Bearbeitungsleiste eingeben. Bei der Addition ist das vielleicht nicht so schwer, denn die Ergebnismatrix ist genauso groß wie die beiden zu addierenden Matrizen, aber bei der Multiplikation sieht das ganze schon anders aus (für mehr Details siehe Abschn. 9.1.2). Das Rechnen mit Matrizen ist in der Praxis sehr wichtig, daher widme ich ihm hier auch einen eigenen Abschnitt. Matrizen treten bspw. dann auf den Plan, wenn es um das Lösen linearer Gleichungssysteme geht: 0,7 x1 + 0,1 x 2 = 0,3 x1 + x2 = 1
(1.1)
Dieses Gleichungssystem lässt sich in Form einer Matrixgleichung darstellen:
0,7 0,1 1 1 A
x1 0,3 = x2 1 x
(1.2)
b
A ist die sogenannte Koeffizientenmatrix, x ist der Variablenvektor und b ist der Lösungsvektor. Bevor wir nun zur Lösung eines Gleichungssystems wie in Gl. 1.2 zurückkommen, erinnern Sie sich bitte daran, dass zwei Matrizen A und B nur dann in der Form AB miteinander multipliziert werden können, wenn die Anzahl der Spalten von A gleich der Anzahl Zeilen von B ist. In der Regel gilt AB = BA (siehe auch Abschn. 9.1). Das kann man sich v. a. dann klarmachen, wenn beide Matrizen nicht quadratisch sind (bspw. wenn A eine 2 × 3-Matrix und B eine 3 × 5-Matrix ist), dann können Sie zwar AB berechnen, aber BA aufgrund unpassender Matrixdimensionen nicht. Excel zeigt im Namensfeld (links über der Spaltenbezeichnung A) beim Markieren der entsprechenden Zellen, wie viele Zeilen und Spalten ausgewählt wurden. Zur Multiplikation von zwei Matrizen A und B verwendet man die Funktion MMULT(A;B). Da Vektoren Spezialfälle von Matrizen sind, kann man mit der gleichen Funktion auch Matrizen mit Vektoren multiplizieren. Beispiel 1.2 Angenommen, Sie haben 1 l einer 70 %igen und 1 l einer 10 %igen Acetonitril-Lösung. Nun wollen Sie durch geschicktes Mischen 1 l einer 30 %igen Acetonitril-Lösung herstellen. Um dieses Problem zu lösen, stellt man ein lineares Gleichungssystem auf: 0,7 x 1 + 0,1 x 2 = 0,3 (1.3) x1 + x2 = 1
3 Nachtrag: Das hat sich übrigens in Excel für Office 365, aufgrund der Einführung dynamischer
Arrays im Jahr 2019, geändert. Da ich aber für dieses Buch mit Excel 2016 gearbeitet habe, werde ich weiterhin die alte Vorgehensweise für Arrays beschreiben, da sie auch für ältere Excel-Versionen gilt.
6
1 Streifzug durch Excel
x1 bzw. x2 sind jeweils die zu mischenden Volumina der 70 %igen bzw. der 10 %igen Acetonitril-Lösung. Die obere Gleichung bezieht sich auf den reinen Anteil Acetonitril. Die 70 %ige Acetonitril-Lösung enthält 0,7 l reines Acetonitril. Die 10 %ige Acetonitril-Lösung enthält 0,1 l reines Acetonitril. Die Endlösung soll letztlich 0,3 l reines Acetonitril beinhalten. Die untere Gleichung berücksichtigt, dass man nach dem Mischen am Ende 1 Liter 30 %ige Acetonitril-Lösung erhalten soll. In der Schule haben Sie sicherlich verschiedene Verfahren kennengelernt, wie man ein solches lineares Gleichungssystem lösen kann. Ich zeige nun die Matrixvariante. Man kann nämlich o.g. Gleichungen durch eine Matrixgleichung ausdrücken: 0,7 0,1 x1 0,3 = (1.4) 1 1 x2 1 x
A
b
A ist die Koeffizientenmatrix, x bezeichnet man als Variablen- und b als Lösungsvektor. Ich nehme jetzt schon mal vorweg, dass die Lösung der Matrixgleichung wie folgt lautet: x1 1/3 = (1.5) 2/3 x2 Sie müssen demnach 0,33 l der 70 %igen Acetonitril-Lösung mit 0.66 l der 10 %igen Lösung mischen, um 1 l der 30 %igen Acetonitril-Lösung zu erhalten. Wie lösen Sie typischerweise eine herkömmliche Gleichung der Form Ax = b nach x auf? Sie teilen beide Seiten durch A und erhalten x = b/A. Mathematisch sagt man, Sie multiplizieren beide Seiten mit dem inversen Element 1/A = A−1 , wodurch auf der linken Seite x und auf der rechten Seite b · A−1 = A−1 · b übrig bleibt. Mit der letzten Gleichung wollte ich andeuten, dass es bei der normalen Multiplikation egal ist, ob man A−1 von links oder von rechts zur ursprünglichen Gleichung multipliziert. Dasselbe gilt allgemein nicht für die Matrizenmultiplikation (vgl. auch Abschn. 9.1). Um nun eine Matrizengleichung in der Form von Gl. 1.4 nach dem Vektor x aufzulösen, müssen Sie diese von links her mit der inversen Matrix A−1 multiplizieren: =
Ax ⇔ A
−1
⇔ Ix ⇔ x
Ax
b
| × A−1 (von links)
(1.6)
−1
b
(1.7)
−1
b
(1.8)
=A =A
−1
=A
b
(1.9)
I ist hierbei die Einheitsmatrix. Die Inverse von A lässt sich in Excel mit der Funktion MINV berechnen. Nur quadratische Matrizen können eine Inverse haben. Woran kann man nun (schnell) erkennen, ob eine quadratische eine Inverse hat? Indem man ihre Determinante
1.3
Der Solver – ein starkes Werkzeug
7
berechnet. Ist diese ungleich null, dann existiert eine eindeutige Lösung. In Excel können Sie die Determinante mit der Funktion MDET berechnen. Anhand der Koeffizientenmatrix A aus Beispiel 1.2 hätte man bereits sehen können, dass das Gleichungssystem eine eindeutige Lösung besitzt. Die Determinante ist hier gleich 3/5 = 0, und das bedeutet, A ist tatsächlich invertierbar und das System hat eine eindeutige Lösung. Kommen wir abschließend noch zum Begriff der Transponierten einer Matrix. Eine gängige Schreibweise für die Transponierte einer Matrix A ist AT . Beim Transponieren werden die Zeilen von A zu Spalten und umgekehrt. Z. B. wird eine 2 × 3-Matrix durch Transponieren zu einer 3 × 2-Matrix. In Excel lässt sich das mithilfe der Funktion MTRANS bewerkstelligen. 1.2 Übung Berechnen Sie das Skalarprodukt v T w der beiden Vektoren: ⎡ ⎤ ⎡ ⎤ 0 1 v = ⎣0⎦ und w = ⎣1⎦ 1 0 Verwenden Sie hierzu die oben genannten Excel-Funktionen.
1.3
Der Solver – ein starkes Werkzeug
Der Solver muss in Excel zunächst aktiviert werden. Dazu geht man unter Datei -> Optionen -> Add-Ins, und in der Dropdown-Liste Verwalten wählen Sie Excel-Add-Ins und klicken auf Los... Dann werden Ihnen alle verfügbaren Add-Ins angezeigt. Den Solver aktivieren Sie, indem Sie vor das entsprechende AddIn einen Haken setzen4 . Ebenso können Sie hier auch direkt die Analyse-Funktionen mit aktivieren, da wir sie später noch brauchen werden. Nachdem Sie beide aktiviert haben, sind sowohl der Solver als auch die Datenanalysefunktionen im Register Daten verfügbar. Was kann man nun mit dem Solver machen? Das möchte ich im Folgenden an mehreren Beispielen aus der Praxis zeigen5 .
4 Der Solver wird übrigens von einer Firma namens Frontline Systems entwickelt (https://www.solver. com), wobei laut Microsoft Teile des Programmcodes dem Urheberrecht von Frontline Systems, Inc., Copyright 1990–2009 unterliegen und Teile dem Urheberrecht von Optimal Methods, Inc., Copyright 1989 (siehe hierzu https://support.office.com/en-us/article/define-and-solve-a-problem-by-usingsolver-5d1a388f-079d-43ac-a7eb-f63e45925040?omkt=en-US&ui=en-US&rs=en-US&ad=US). 5 Die Beispiele sollen Ihnen für Ihr Problem als Richtschnur dienen. Es sind Beispiele, bei denen ich in meiner Praxis den Solver angewendet habe.
8
1 Streifzug durch Excel
Beispiel 1.3 Das Mischungsproblem aus Beispiel 1.2 konnte mithilfe des folgenden linearen Gleichungssystems beschrieben werden: 0,7 x 1 + 0,1 x 2 = 0,3 x1 + x2 = 1
(1.10)
Wir haben dieses Gleichungssystem bereits mithilfe der Matrizenrechnung lösen können. Auf dieselbe Lösung kann man relativ einfach mit dem Solver kommen. Dazu schreibt man sich zunächst noch einmal die entsprechenden Koeffizienten der Gleichungen hin und errechnet in einer Ergebnisspalte (Spalte $F$9:$F$10, vgl. Abb. 1.2) mit entsprechenden Startvorgaben für x1 = 1 und x2 = 1 die Lösungen b = [b1 , b2 ]. Es lohnt oft, die Startparameter etwas zu variieren und zu schauen, ob man der eigentlichen Lösung des Gleichungssystems b1 = 0,3 und b2 = 1 näher kommt. Wie oben beschrieben, rufen Sie den Solver auf. Wählen Sie als Zielzelle die Zelle $F$9 und weisen ihr den Wert 0,3 zu. Unter den Nebenbedingungen für den Solver wählen Sie Zelle $F$10 aus, der ein Wert von =1 zugewiesen wird. Die Lösungsmethode LP-Simplex ist standardmäßig nicht voreingestellt (sondern GRG-Nichtlinear). Die LP-Simplex-Methode wird zur Lösung linearer Probleme empfohlen und kann daher zur Lösung unseres linearen Gleichungssystem verwendet werden. Mit dem GRG-Nichtlinear lassen sich allgemein auch nicht-lineare Probleme lösen. Ich werde weiter unten im Buch noch näher auf die Konzepte hinter diesen Lösungsmethoden zu sprechen kommen und spare mir daher hier weitere Erklärungen. Bitte beachten Sie, dass der Haken bei Nicht eingeschränkte Variablen als nicht-negativ festlegen nicht gesetzt ist, damit allgemein auch negative Werte als Lösung erlaubt sind. Nachdem Sie Lösen geklickt haben, sollte derselbe Parametervektor als Lösung erscheinen wie beim Lösen mithilfe der Matrizen in Beispiel 1.2. Es ist recht interessant, unter Optionen einen Blick auf Einstellungen zu werfen, die man für die jeweiligen Lösungsmethoden vorgeben kann. Unter Alle Methoden können Sie die Anzahl an Iterationen (Iterationen) oder die Zeit (Höchstzeit) beschränken, die der Solver maximal zum Rechnen verwenden sollte. Für den GRG-Nichtlinear kann man zusätzlich noch Einfluss auf die Konvergenz nehmen, d. h., der Solver iteriert so lange, bis sich die Lösung bis auf die, durch Konvergenz vorgegebene, Nachkommastelle nicht mehr ändert. Es sollte außerdem darauf geachtet werden, dass unter Ableitungen die zentrale Ableitung ausgewählt ist. Sie ist nämlich genauer als die Vorwärtsableitung, wie wir in Abschn. 1.4 noch sehen werden. Beispiel 1.3 ist natürlich eines von vielen, das mithilfe des Solvers gelöst werden kann. Ebenso kann er bspw. zum Lösen von Nullstellen- oder Extremwertproblemen eingesetzt werden. Hierzu ein weiteres Beispiel (1.4) aus der Praxis.
1.3
Der Solver – ein starkes Werkzeug
9
Abb. 1.2 Lösen des linearen Gleichungssystems aus Beispiel 1.2 mithilfe des Solvers. „Nutzung mit Genehmigung von Microsoft.“
Beispiel 1.4 Angenommen, Sie haben ein Experiment gemacht, bei dem Sie mithilfe von Standards definierter Konzentrationen eine Kalibrationskurve erstellt haben (siehe Abb. 1.3). Für eine unbekannte Probe haben Sie anschließend das Signal yu = 60 gemessen und wollen mithilfe des Kalibrationsmodells auf die Konzentration xu dieser Probe schließen. Das Kalibrationsmodell sei durch folgende Funktion gegeben (durchgezogene Linie in Abb. 1.3): y(x) = B +
A−B D 1 + Cx
(1.11)
mit A = 100, B = 10, C = 0,0005 und D = 1. Um Ihre unbekannte Konzentration zu berechnen, geben Sie zunächst einen Startwert für x u vor und berechnen in einer Zelle mit diesem x-Wert den zugehörigen y-Wert. Dieser wird vermutlich nicht gleich dem Signalwert sein, den Sie gemessen haben. Nun verwenden Sie den Solver, um verschiedene x-Werte durchzuprobieren, um einen y-Wert von yu zu erreichen. Dazu markieren Sie im Solver-Fenster die Zellen, in der y berechnet wurde als Zielzelle. Diese soll einen Wert von yu haben. Leider erlaubt der Solver an dieser Stelle nicht die Auswahl einer Zelle, in der Sie yu vorgelegt haben, Sie müssen yu direkt unter Wert eintragen. Die Variablenzelle ist diejenige, in die Sie den Startwert für xu eingetragen haben. Bitte beachten Sie, dass der Haken bei Nicht eingeschränkte Variablen als nicht-negativ festlegen wiederum nicht gesetzt ist.
10
1 Streifzug durch Excel
Meines Erachtens sollte das in den meisten Fällen so sein, es sei denn, es können bspw. aus physikalischen Gründen keine negativen Werte als Ergebnis der Optimierung rauskommen. Wenn Sie auf Lösen klicken, wird Ihnen xu = 0,0004 berechnet, und Sie haben die Konzentration Ihrer unbekannten Probe ermittelt. Anstatt den yu Wert im Solver-Fenster einzutragen, könnten Sie den Solver auch die Nullstelle der Funktion yu − y(xu ) berechnen lassen. Hierzu geben Sie wiederum eine erste Schätzung des xu -Wertes vor, berechnen anschließend in einer weiteren Zelle yu − y(xu ) und suchen für diese (Differenz-)Funktion die Nullstelle, indem Sie die jeweilige Zelle als Ziel festlegen, den Wert auf 0 setzen und wiederum xu als Variablenzelle definieren. Es sollte dasselbe rauskommen wie zuvor. Zugegeben, Gl. 1.11 kann man tatsächlich noch analytisch nach x auflösen. Probieren Sie es doch mal und kontrollieren, ob der Solver alles richtig gemacht hat. Spätestens, wenn das Kalibrationsmodell nicht mehr oder nur schwer noch analytisch nach x auflösbar ist, müssen Sie auf den Solver zurückgreifen. Im Laufe des Buches werden Sie den Solver bei den verschiedensten Szenarien im Einsatz sehen. Insbesondere im Kapitel zur linearen- und nicht-linearen Regression werden wir auf seine Verwendung zurückkommen. 1.3 Übung Angenommen, die Daten in Tab. 1.1 entstammen der linearen Kalibrierung eines photometrischen Verfahrens, wobei die Absorption y einer Substanz bei verschiedenen Konzentrationen c gemessen wurde. Ermitteln Sie die Bestimmungsgrenze c B in Gl. 1.12 mithilfe des Solvers. Abb. 1.3 Bestimmung der Konzentration einer unbekannten Probe mithilfe des Solvers
120 100 80 y 60
yu
40 20 0 5.10 −7
xu 5.10 −5
x
5.10 −3
5.10 −1
1.4
Numerisches Differenzieren
11
Tab. 1.1 Beispieldaten zur Berechnung der Bestimmungsgrenze mithilfe des Solvers c
0,010
0,030
0,050
0,070
0,090
0,110
0,130
0,150
0,170
0,190
y
0,022
0,181
0,353
0,421
0,604
0,741
0,884
0,984
1,092
1,226
1 (c B − c) SE ¯2 1 c B = k · t1−α/2,n−2 + + n b2 n m (ci − c) ¯2 i=1
SE (c B − c) ¯2 c B = 6,92 1.01 + n b2 (ci − c) ¯2
(1.12)
i=1
k ist der sogenannte k-Faktor und wird zur Berechnung der Bestimmungsgrenze meist gleich 3 gesetzt. t1−α/2,n−2 ist das (1 − α/2)-Quantil der Student-t-Verteilung mit n − 2 Freiheitsgraden (hierzu später mehr), wobei n der Gesamtzahl an Messungen entspricht (hier n = 10). Dieser Wert lässt sich in Excel mit der Funktion T.INV(1-α/2;n − 2) berechnen6 , wobei α das Signifikanzniveau bezeichnet, welches in der Praxis häufig zu α = 0,05 gesetzt wird. m entspricht der Anzahl an Parallelbestimmungen (hier gleich 1), und S E bezeichnet den Standardfehler7 , der sich mithilfe der Excel-Funktion STFEHLERYX berechnen lässt. c¯ entspricht dem Mittelwert der Konzentrationen, b2 der Steigung der Regressionsgeraden. Diese können Sie aus den Daten mit der Funktion STEIGUNG berechnen.
1.4
Numerisches Differenzieren
Kommen wir vorab zur mathematischen Definition der Ableitung f (x) einer differenzierbaren Funktion f (x) an einer Stelle x0 : f (x0 + x) − f (x0 ) (1.13) x Die Ableitung ist demnach die Steigung einer Geraden (Sekante), die durch die Punkte (x0 , f (x0 )) und (x0 + x, f (x0 + x)) geht und durch Grenzwertbildung x → 0 zur Tangente im Punkt x 0 wird (vgl. Abb. 1.4). Die Sekante S2, die durch die Punkte x0 und x0 + x2 verläuft, ist eine erste, aber schlechte Näherung für die Tangente T durch den Punkt x0 . Die Steigung von S2, f 2 /x2 , ist weit größer als die der Tangente. Das liegt daran, dass x2 relativ groß gewählt wurde. Verkleinern wir dieses, so erkennt man, dass die Sekante S1 bereits deutlich mehr Ähnlichkeit f (x0 ) = lim
x→0
6 Alternativ können Sie auch die Funktion T.INV.2S(α;n − 2) verwenden. 7 In Abschn. 5 sage ich mehr dazu.
12
1 Streifzug durch Excel
Abb. 1.4 Zur Veranschaulichung der numerischen Differentiation
f(x) S1 S2
∆f2
T
∆f1
x0 x0+∆x1
x0+∆x2
mit der Tangente hat und somit auch die Steigung f 1 /x1 weit näher bei der Steigung der Tangente liegt. Machen wir nun x sehr klein, dann wird die Annäherung der Sekante an die Tangente und somit deren Steigungen nicht mehr voneinander unterscheidbar sein. Den Ausdruck hinter dem Gleichheitszeichen in Gl. 1.13 können wir noch etwas verkürzt schreiben und führen dabei nebenher den Differentialquotient dd xf ein: lim
x→0
df f = x dx
(1.14)
Im Laufe des Buches werden wir noch des Öfteren die Schreibweise mit dem Differentialoperator ddx sehen. n-fach auf eine Funktion f angewendet, erhält man die n-te Ableitung dn f d x n . Zur numerischen Berechnung einer Ableitung, legen wir Gl. 1.13 zugrunde, verwenden jedoch den Buchstaben h anstelle von x und benutzen zur Approximation von f (x): f (x) ≈
f (x + h) − f (x) h
(1.15)
h ist hierbei eine hinreichend kleine Zahl (z. B. 10−6 ) und wird oft Schrittweite genannt. h darf weder zu groß, noch zu klein gewählt werden. Wenn man es zu groß wählt, ist die Approximation des Differentialquotienten genau genug, wenn man es zu klein wählt, v. a. bei zweiten und höheren Ableitungen, kann es bspw. zu numerischen Unterläufen kommen. Als Daumenregel sollte man h ungefähr zwei bis drei Zehnerpotenzen kleiner als die Auflösung x der x-Werte wählen. Gl. 1.15 stellt das sogenannte Vorwärtsableiten dar, weil man zur Berechnung der Ableitung an der Stelle x zusätzlich den Funktionswert an der Stelle x + h benötigt. Dementsprechend gibt es auch ein rückwärts Ableiten, bei dem man, neben f (x) den Funktionswert an der Stelle x − h benötigt: f (x) ≈
f (x) − f (x − h) h
(1.16)
1.4
Numerisches Differenzieren
13
Wie jede Approximation haben natürlich auch diejenigen in Gl. 1.15 und 1.16 einen gewissen Fehler. Ohne hier näher ins Detail gehen zu wollen, lässt sich dieser relativ leicht abschätzen. Der Fehler ist 1. Ordnung, d. h., er ist proportional zu h 1 . (gängige Schreibweise O(h 1 )). Eine noch bessere Approximation der Ableitung lässt sich mit der sogenannten zentralen Ableitung erreichen: f (x) ≈
f (x + h) − f (x − h) 2h
(1.17)
Mit ihr lässt sich die Approximation auf einen Fehler 2. Ordnung (O(h 2 )) nochmals deutlich reduzieren. Die Herleitung von Gl. 1.17 lässt sich übrigens relativ einfach mithilfe der Taylor-Reihe für f (x +h) und f (x −h) bewerkstelligen. Ebenso lassen sich entsprechend weitere Approximationen für f (x) herleiten, die eine noch höhere Genauigkeit haben. In der Praxis ist jedoch die zentrale Ableitung oft völlig ausreichend. Machen wir doch mal den Vergleich. Beispiel 1.5 Wir vergleichen einmal die Genauigkeiten der Ableitungen durch Vorwärtsableiten, Rückwärtsableiten und zentrales Ableiten gegenüber der analytischen Lösung der Funktion f (x) = x 2 an der Stelle x0 = 2. Wir wählen für alle Methoden h = 10−6 . 1. Vorwärtsableiten f (x) =
(2 + h)2 − 22 = 4,0000010006 h
(1.18)
f (x) =
22 − (2 − h)2 = 3,9999989996 h
(1.19)
(2 + h)2 − (2 − h)2 = 4,0000000001 2h
(1.20)
2. Rückwärtsableiten
3. Zentrales Ableiten f (x) =
Bei der zentralen Ableitung ist die Lösung bis auf die neunte Nachkommastelle gleich mit der wahren Lösung f (x0 ) = 2x0 = 2 · 2 = 4. Kommen wir nun noch zur numerischen Berechnung der zweiten Ableitung und von partiellen Ableitungen. Ausgehend von Gl. 1.17 können wir die zentrale Ableitung für f (x) berechnen:
14
1 Streifzug durch Excel
f (x + h) − f (x − h) 2h f (x + 2 h) − 2 f (x) + f (x − 2 h) = 4 h2
f (x) ≈
(1.21)
Der Ausdruck hinter dem Gleichheitszeichen kommt durch Anwenden der zentralen Ableitung (Gl. 1.17) auf f (x + h) bzw. f (x − h) in Gl. 1.21 zustande. Da auch diese zweite Ableitung zentral ist, hat sie die Fehlerordnung O(h 2 ). Bei einigen Anwendungen, wie bspw. der Nahen-Infrarot-Spektroskopie, kommt es häufig vor, dass die erste und zweite Ableitung des Signals berechnet werden muss. Zum Vergleich, schauen wir uns das an einem Beispiel an: Beispiel 1.6 Für diese Beispiel habe ich ein Kosinus-Signal hergenommen und künstlich ein ganz kleines normalverteiltes Rauschen mithilfe der Funktion NORMINV(ZUFALLSZAHL();0;0,005) aufaddiert. Das Signal ist mit 0,1er-tInkrementen im Intervall 0 bis 2π aufgelöst. Abb. 1.5 soll Ihnen zur Kontrolle dienen8 . Sie sehen im Diagramm (rechts), dass das Rauschen des ursprünglichen Signals (blau gepunktete Linie) kaum auffällt, es jedoch durch die beiden Differentiationsschritte deutlich verstärkt wird. Bei der 1. Ableitung (gestrichelte orangefarbene Linie)), einem sinusförmigen Signal, fällt das Rauschen dann auf. Es wird durch die Bildung der 2. Ableitung (durchgezogene Linie) nochmals verstärkt. Die gegenüber dem Ursprungssignal Frequenz-verschobene Kosinusfunktion erkennt man in der 2. Ableitung kaum noch. Wie Sie sehen, habe ich in diesem Beispiel die 2. Ableitung nicht direkt berechnet, sondern als Ableitung der 1. Ableitung, da ich die drei Graphen gemeinsam darstellen wollte. Zweite Ableitungen kommen in den Anwendungen öfter mal vor, aber eben häufig in Form von partiellen Ableitungen. Die partielle Ableitung einer Funktion f (x1 , x2 , . . . , xn ) erhält man dann, wenn man diese Funktion nach einer oder mehreren der Variablen x1 , . . . , xn differenziert und die anderen Variablen dabei konstant hält. Auch die partielle Ableitung schreibt man oft in Form eines Differentialoperators ∂∂x . Hierbei deutet das del (∂) darauf hin, dass es sich um eine partielle Ableitung handelt. Es gibt einige Besonderheiten bei partiellen Ableitungen gegenüber nicht-partiellen Ableitungen. Es kann bspw. mehrere verschiedene zweifache Ableitungen geben. Es kann auch gemischte Ableitungen geben. Wenn wir bspw. eine Funktion f (x, y) zunächst nach x ableiten und anschließend nach y, so erhalten wir die gemischte Ableitung. Für f (x, y) = x y 2 ergeben sich bspw. die nachfolgenden partiellen Ableitungen:
8 Aufgrund des zufälligen Rauschens werden Sie natürlich nicht exakt dieselben Werte erhalten.
Numerisches Differenzieren
Abb. 1.5 Numerische Ableitung eines kosinusförmigen Signals (gepunktete Linie). Durch Bildung der ersten (gestrichelte Linie) und der zweiten Ableitung (durchgezogene Linie) erhöht sich das Rauschen deutlich
15
2,0
1,0
f(t)
1.4
0,0
1
2
3
4
5
6
t
-1,0
-2,0
∂ f (x, y) =y 2 ∂x ∂ 2 f (x, y) =2y ∂ x∂ y ∂ f (x,y) ∂x
(1.22) (1.23)
(x,y) schreiben wir in Kurzform als f x . Dementsprechend schreiben wir ∂ ∂fx∂ y als f x y . Die partielle Ableitung f x einer Funktion f (x, y) nach x lässt sich gemäß Gl. 1.22 numerisch berechnen: 2
fx ≈
f (x + h x , y) − f (x − h x , y) 2h x
(1.24)
Das ist formal identisch mit Gl. 1.17. h x ist hierbei die Schrittweite in x-Richtung. Die partielle Ableitung von f (x, y) nach y sieht entsprechend wie folgt aus: fy ≈
f (x, y + h y ) − f (x, y − h y ) 2h y
(1.25)
Hierbei ist h y die Schrittweite in y-Richtung. Die gemischte partielle Ableitung f x y von f (x, y) nach x und nach y lässt sich schließlich wie folgt approximieren: fx y ≈
f (x + h x , y + h y ) − f (x + h x , y − h y ) − f (x − h x , y + h y ) + f (x − h x , y − h y ) 4h x h y
(1.26) Die ersten und zweiten Ableitungen einer Funktion sind mitunter deshalb so wichtig, weil Sie mit ihnen die Extremwerte einer Funktion (Maxima und Minima) bestimmen können. Für eine univariate Funktion kennen Sie das vermutlich noch aus Ihrer Schulzeit. Eine Funktion f (x) hat am Punkt x = a ein
16
1 Streifzug durch Excel
• Minimum, falls f (a) = 0 und f (a) > 0, bzw. ein • Maximum, falls f (a) = 0 und f (a) < 0. Für eine bivariate Funktion lassen sich ebenso die Extremwerte bestimmen. Eine Funktion f (x, y) hat am Punkt a0 = a1 a2 ein • Minimum, falls f x (a) = f y (a) = 0 (häufig auch als Vektor ∇ f (a) = 0 geschrieben) und f x x f yy − f x2y > 0 gilt, sowie ein • Maximum, falls f x (a) = f y (a) = 0 und f x x f yy − f x2y < 0. Der Ausdruck f x x f yy − f x2y stammt übrigens aus der Berechnung der Determinanten9 der sogenannten Hesse-Matrix, der Matrix aller partiellen zweiten Ableitungen einer allgemeinen Funktion f (x1 , x2 , . . . , xn ): ⎡
f x1 x1 (a) f x1 x2 (a) ⎢ f x2 x1 (a) f x2 x2 (a) ⎢ H f (a) = ⎢ .. .. ⎣ . . f xn x1 (a) f xn x2 (a)
⎤ . . . f x1 xn (a) . . . f x2 xn (a)⎥ ⎥ ⎥ .. .. ⎦ . . . . . f xn xn (a)
(1.27)
Falls Sie die Extremwerte höherdimensionaler Funktionen finden wollen, kommen Sie um die Hesse-Matrix leider nicht herum. Diese wird in den Anwendungen aber in der Regel numerisch berechnet. Die Hesse-Matrix kann aus der sogenannten Jacobi-Matrix, der Matrix aller ersten partiellen Ableitungen berechnet werden. Die Jacobi-Matrix werden wir bspw. in Abschn. 5 noch näher kennenlernen. 1.4 Übung Berechnen Sie die partiellen Ableitungen f x , f y , f x x , f yy und f x y der Funktion f (x, y) = (x + 0,5)2 + (y − 0,5)2 am Punkt (x0 , y0 ) = (−1/2, 1/2) numerisch in Excel und bestimmen Sie, was für eine Art Extremwert vorliegt. Die partielle Differentiation spielt u. a. bei der Fehlerfortpflanzung eine große Rolle, mit der wir uns im kommenden Abschnitt beschäftigen werden. Fehlerfortpflanzung Bevor wir zur numerischen Integration übergehen, möchte ich an dieser Stelle kurz etwas zu Fehlerfortpflanzung sagen, da dieses Konzept bspw. hilfreich für das Verständnis der Konfidenzintervalle von Fitparametern ist, über die wir in Abschn. 5.7 noch ausführlicher sprechen werden. Ich habe mich entschieden es an dieser Stelle im Buch zu bringen, weil sie zur Berechnung der Fehlerfortpflanzung partielle Ableitungen verwenden. In der Praxis kommt es häufig vor, dass man eine Messgröße nicht direkt, sondern nur indirekt mithilfe 9 Wie sie diese berechnen können, zeige ich im Abschn. 9.
1.4
Numerisches Differenzieren
17
von anderen (direkten) Messgrößen bestimmen kann. Ein Beispiel ist die Bestimmung der Konzentration eines Chromophors (indirekte Messgröße) in Lösung, aus der Messung der Extinktion E (direkte Messgröße) der Lösung mithilfe eines Photometers. Gemäß dem Lambert-Beer’schen Gesetz lässt sich die Konzentration c wie folgt berechnen: E (1.28) d Im Nenner von Gl. 1.28 finden sich der Extinktionskoeffizient , der eine Konstante für den jeweiligen Chromophor und die jeweilige Wellenlänge darstellt und die Schichtdicke d, also die Länge des Weges, den das Licht durch die Lösung geht. Häufig wird die Chromophorlösung in einer Küvette mit bekannter Schichtdicke gemessen. Sowohl E, als auch d und ganz streng genommen auch (das lassen wir aber an dieser Stelle mal außen vor) haben jeweils eine gewisse Messunsicherheit, die sich aufgrund des gesetzmäßigen Zusammenhangs der Messgrößen gemäß Gl. 1.28 auch auf c auswirken. Angenommen, wir kennen die Standardabweichung s E von E und sd von d, dann können wir die Standardabweichung sc von c, die wir als Maß für die Messunsicherheit von c heranziehen wollen, mithilfe der partiellen Ableitungen von c nach den direkten Messgrößen gemäß dem Gauß’schen Fehlerfortpflanzungsgesetz abschätzen: c=
sc =
∂c ∂E
2
s E2 +
∂c ∂d
2 sd2
(1.29)
Verallgemeinert lässt sich das dann in Form von Gl. 1.30 schreiben: sz =
∂z ∂ x1
2
sx21
+
∂z ∂ x2
2
sx22
+ ··· +
∂z ∂ xn
2 sx2n
(1.30)
Hierbei ist z die indirekte Messgröße, und x1 , . . . , xn sind die direkten Messgrößen. Streng genommen gilt Gl. 1.30 nur, sofern die indirekten Messgrößen voneinander unabhängig sind, denn die Gleichung berücksichtigt keine Kovarianzen zwischen den direkten Messgrößen. Wenn wir davon ausgehen, dass wir die Schichtdicke der Küvette mit einer separaten Messmethode (im einfachsten Fall mit einem Messschieber) bestimmt haben und die Extinktion mit dem Photometer gemessen haben, dann können wir von der Unabhängigkeit der beiden Messgrößen ausgehen10 . Wenn Sie die partiellen Ableitungen für unser kleines Absorptionsbeispiel in Gl. 1.29 berechnen und in Gl. 1.29 einsetzen, dann sollten Sie auf folgenden Ausdruck kommen: sc =
1 d
2
E 2 s E2 + − 2 sd2 d
(1.31)
10 Falls das Photometer in der Lage wäre, bis zu einer Wellenlänge von 1000 nm zu messen, dann
könnte man die Schichtdicke auch mithilfe der NIR-Absorption von Wasser bei 1000 nm bestimmen (vgl. [1]).
18
1 Streifzug durch Excel
Zur Kontrolle lohnt es sich, einmal nach den Einheiten zu schauen. E hat keine Einheit, hat typischerweise die Einheit M−1 cm−1 , und d hat die Einheit cm. Die Varianz s E2 ist ebenfalls einheitenlos, während sd2 die Einheit cm2 hat. Der erste Term unter der Wurzel in Gl. 1.31 hat demnach die Einheit M2 und der zweite Term ebenso. Das passt also. Nehmen wir einmal an, Sie haben sowohl E als auch d mehrfach bestimmt, dann können Sie für beide Größen sowohl den Mittelwert E¯ bzw. d¯ als auch die Standardabweichung des Mittelwertes se E¯ bzw. sed¯ bestimmen. Ich habe hier die Buchstaben se verwendet, um der Tatsache Rechnung zu tragen, dass die Standardabweichung des Mittelwertes in der Literatur oft auch als Standardfehler (engl. standard error, se) bezeichnet wird. Der Mittelwert c¯ der indirekten Messgröße lässt sich nun einfach durch Einsetzen der Mittelwerte E¯ und d¯ in Gl. 1.28 berechnen. Der zugehörige Standardfehler lässt sich analog zur normalen Standardabweichung gemäß Gl. 1.29 berechnen:
sec¯ =
∂c ∂E
2
se2E¯
+
∂c ∂d
2 sed2¯
(1.32)
oder wieder allgemein: sez¯ =
∂z ∂ x1
2
se2x¯1 +
∂z ∂ x2
2
se2x¯2 + · · · +
∂z ∂ xn
2 se2x¯n
(1.33)
Bitte beachten Sie, dass nun jeweils die Mittelwerte E¯ bzw. d¯ bei den partiellen Ableitungen in Gl. 1.29 eingesetzt werden müssen: sec¯ =
1 d¯
2 se2E¯
2 E¯ + − 2 sed2¯ d¯
(1.34)
Im obigen Beispiel waren wir davon ausgegangen, wir hätten sowohl das E als auch das d mehrfach gemessen und konnten demnach die Standardabweichungen berechnen. Was, wenn wir aber bspw. keine Möglichkeit gehabt hätten die Schichtdicke selbst zu bestimmen? Dann macht es Sinn, beim Hersteller der Küvetten nachzufragen. Diese liefern in der Regel auch Fehlerdaten, aber häufig in der Form d¯ ± d. Hierbei könnte [d¯ − d, d¯ + d] dann das Konfidenzintervall für den Mittelwert d¯ sein (mehr zu Konfidenzintervallen in Abschn. 5.7) oder ein Toleranzbereich11 . In solchen Fällen bleibt der obige Formalismus prinzipiell erhalten, nur dass Sie statt der Standardabweichung nun das nehmen, was Sie haben, nämlich d. E müssen Sie ggf. dann noch berechnen. Außerdem verwendet man nun Beträge statt Quadrate, um die maximal mögliche Messunsicherheit zu berechnen. Das sieht dann für unser Beispiel wie folgt aus: ∂c ∂c |E| + |d| c = (1.35) ∂E ∂d 11 Leider rücken Hersteller oft nicht mit den Details raus, wie das einer Messgröße bestimmt wurde
und was es am Ende aussagt.
1.5
Numerische Integration
19
c nennt man den (absoluten) Größtfehler von c. Die -Werte werden häufig bei Messgeräten mitgeliefert. Wenn Sie also nur eine einmalige Messung einer oder mehrerer Größen machen und eine Toleranzangabe der Form x¯ ±x eines Herstellers haben, dann verwenden Sie diese in der allgemeinen Formel für den Größtfehler: ∂z ∂z ∂z |xn | |x1 | + |x2 | + . . . z = (1.36) ∂ x1 ∂ x2 ∂ xn Bisweilen werden die Messunsicherheiten in Form von relativen bzw. prozentualen Messunsicherheiten angegeben. Hierzu wird die absolute Messunsicherheit durch den Mittelwert geteilt und von dem Ergebnis der Absolutbetrag gebildet, also allgemein in der Form z z¯ angegeben, wobei hier jetzt z auch die Standardabweichung sein könnte. 1.5 Übung Bei der sogenannten Fluoreszenzkorrelationsspektroskopie kann man mithilfe eines konfokalen Lasermikroskops die Diffusionskonstante D von fluoreszierenden Molekülen bestimmen, die durch einen Laserfokus der Breite ω diffundieren. ω wird zunächst in einem Kalibrationsexperiment bestimmt, um anschließend die Diffusionskonstante D X aus der Diffusionszeit τ X einer unbekannten Probe X durch den Laserfokus zu bestimmen. Es gilt folgender Zusammenhang: DX =
ω2 4τ X
(1.37)
Angenommen, wir hätten ω = 0,26 ± 0,05 μm und τ X = 60 ± 10 μs bestimmt. Die Zahlen hinter dem ±-Zeichen sind hierbei die Standardabweichungen der Wiederholungsmessungen. Berechnen Sie die Diffusionskonstante D X der Probe inklusive des zugehörigen (Größt-)Fehlers und der Standardabweichung bzw. des mittleren Fehlers.
1.5
Numerische Integration
Als wir im Studium das Thema Integrieren und Differenzieren durcharbeiteten, pflegte mein Matheprofessor zu sagen: „Das Differenzieren ist ein stupides Anwenden von Regeln, das Integrieren hingegen ist eine Kunst.“ Das sagte er v. a. dann, wenn es um die analytische Lösung eines Integrals ging, denn hier konnte man oft das ursprünglich kompliziert anmutende Integral durch eine geschickte Substitution in ein relativ einfach zu lösendes Integral überführen. In der Praxis zieht dieser Ausspruch nicht mehr so sehr, denn hier wird die Integration in aller Regel numerisch durchgeführt. Das bedeutet aber nicht, dass man sich nicht vorab ein paar Gedanken zur Vereinfachung eines Integralproblems machen sollte. Oft hilft bspw. der Wechsel zu einem dem Problem angepassten Koordinatensystem. Ähnlich wie die Ableitung einer Funktion, ist auch das Integral über eine Grenzwertbildung definiert. Wir schauen uns diese Grenzwertbildung einmal im Detail an, weil sie nachher zum besseren Verständnis der Approximationsformeln für die numerische Berechnung bestimmter
20
1 Streifzug durch Excel
Integrale führt. Beginnen wir einmal mit der einfachen Funktion f (x) = x, für die wir das Integral im Intervall (a, b) berechnen wollen (vgl. Abb. 1.6). Wir teilen das genannte Intervall zunächst in n Teilintervalle der Breite (b − a)/n. Ein Punkt x k aus dem Intervall ergibt sich dann mithilfe der folgenden Gleichung: b−a n Für die Teilintervalle (xk , xk+1 ) berechnen wir dann Folgendes: xk = a + k
1. Den Flächeninhalt AU k (n) des Rechtecks, das durch die Breite x k − x k−1 = Höhe f (xk−1 ) über folgende Gleichung
(1.38)
b−a n
b−a n b−a = xk−1 n k−1 b−a (b − a) = a+ n n b−a 2 b−a + (k − 1) =a n n
und die
AU k (n) = f (x k−1 )
vollständig definiert ist (vgl. Abb. 1.6a). 2. Den Flächeninhalt AkO (n) des Rechtecks, das durch die Breite xk − xk−1 = Höhe f (xk ) über die Gleichung b−a n b−a = xk n k b−a = a + (b − a) n n b−a b−a 2 +k =a n n
(1.39)
b−a n
und die
AkO (n) = f (xk )
(1.40)
vollständig definiert ist (vgl. Abb. 1.6b). Durch Aufsummieren aller n Rechtecksflächen erhält man die Gesamtfläche AU , die kleiner ist als die des eigentlichen Integrals und die Gesamtfläche A O , die größer ist als die des eigentlichen Integrals:
1.5
Numerische Integration
21
a
f(x)=x
b
f(x)=x f(xk)
f(xk-1)
a
xk-1 xk
b
a
xk-1 xk
b
Abb. 1.6 Zur Veranschaulichung der numerischen Integration
AU (n) =
n
AU k
(1.41)
k=1 n
b−a b−a 2 = + (k − 1) a n n k=1 n n n b−a b−a 2 1+ k− 1 =a n n k=1 k=1 k=1 b−a b − a 2 n(n + 1) =a n+ −n n n 2 n AkO A O (n) =
(1.42)
k=1 n
b−a b−a 2 = +k a n n k=1 n n b−a b−a 2 1+ k =a n n k=1 k=1 b−a b − a 2 n(n + 1) n+ =a n n 2 Um vom vorletzten Term auf den letzten Term in den Gl. 1.41 und 1.42 zu gelangen, habe ich die Gauß’sche Summenformel verwendet12 : 12 Diese Formel ist nach Carl Friedrich Gauß benannt, der sie als neunjähriger Schüler im Mathema-
tikunterricht auf seiner Dorfschule angewandt haben soll, um die Zahlen von 1 bis 100 aufzusummieren, eine Aufgabe, die er und seine Mitschüler vom Lehrer gestellt bekommen hatten. Gauß hatte das
22
1 Streifzug durch Excel n
k=
k=1
n(n + 1) 2
(1.43)
Die Flächen AU und A O können nun als untere bzw. obere Schranke zur Bestimmung b des bestimmten Integrals a xd x verwendet werden, denn offensichtlich wird die Fläche des bestimmten Integrals größer oder gleich der Fläche von AU und kleiner oder gleich der Fläche von A O sein: b AU (n) ≤ xd x ≤ A O (n) (1.44) a
a(b − a) +
− a)2
(b b−a − 2 2n
≤
a
b
xd x ≤ a(b − a) +
(b − a)2 b−a + 2 2n
(1.45)
Wenn wir nun den Grenzwert für n → ∞ bilden, sehen wir, dass das bestimmte Integral gegen folgenden Ausdruck geht: lim
n→∞
AU (n) ≤ a
b
1 xd x ≤ A O (n) = (b2 − a 2 ) 2
(1.46)
Ich habe hier ein paar einfache Zwischenberechnungsschritte weggelassen. Sie können sich aber gerne mal selbst daran probieren. Die Diskretisierung der x-Werte, die bei der Berechnung des Grenzwertes benutzt wurde, wird letztlich auch bei der numerischen b Berechnung des allgemeinen Integrals a f (x)d x eingesetzt. Man bildet natürlich keinen Grenzwert im eigentlichen Sinne, aber n wird in der Regel relativ groß gewählt, um eine gute Approximation des eigentlichen Integrals zu erreichen. Die Approximation des Integrals mithilfe von Rechtecken auf den Teilintervallen führt zur sogenannten Mittelpunktintegration. Anstelle von Rechtecken, werden auch andere Funktionen wie eine Gerade oder eine quadratische Funktion verwendet. Die gängigen Approximationen gehen wir im Folgenden durch. Bei der Mittelpunktregel, auch Rechteckregel genannt, wird die zu integrierende Funktion f (x) intervallweise durch eine Konstante angenähert, das bedeutet, man erhält am Schluss eine Treppenfunktion als Annäherung (vgl. Abb. 1.7). Das entspricht im Prinzip dem Fall von oben, nur dass jetzt zur Berechnung des Funktionswertes beide Randpunkte (xk , xk+1 ) mit berücksichtigt werden. Hierzu wird der Funktionswert in der Mitte xk−1 +xk des Intervalls berechnet f und nicht nur an einem der beiden Randpunkte wie 2 oben. Die einzelnen Flächen Ak der Balken ergeben sich dann zu: xk−1 + xk b − a (1.47) Ak = f 2 n und das eigentliche Integral wird wiederum durch die Gesamtfläche A angenähert: Ergebnis ohne irgendwelche Zwischenrechnungen auf seine Rechentafel geschrieben zum Erstaunen seines Lehrers. Er war jedoch nicht der Erste, der diese Rechenvorschrift entdeckt hatte [2].
1.5
Numerische Integration
23
Abb. 1.7 Zur Veranschaulichung der numerischen Integration mittels Mittelpunktregel
f(x)
f([xk+xk−1]/2)
a
xk−1 xk
Abb. 1.8 Zur Veranschaulichung der numerischen Integration mittels Trapezregel
b
f(x)
[f(xk−1)+f(xk)]/2)
a
A=
n
xk−1 xk
b
Ak
k=1
=
n b−a xk−1 + xk f n 2
(1.48)
k=1
Bei der sogenannten Trapezregel treten Trapeze an die Stelle der Rechtecke, d. h., die zu integrierende Funktion f (x) wird intervallweise durch eine Gerade (Sehne) angenähert (vgl. Abb. 1.8). Die Flächen Ak der einzelnen Trapeze lassen sich leicht berechnen: Ak =
f (xk−1 ) + f (xk ) b − a 2 n
(1.49)
24
1 Streifzug durch Excel
Das eigentliche Integral A über dem Intervall (a, b) ergibt letztlich aus der Summierung der einzelnen Trapezflächen Ak : A=
n
Ak
k=1
=
n b − a f (xk−1 ) + f (xk ) n 2
(1.50)
k=1
Die Gl. 1.47 und 1.49 sehen sich relativ ähnlich, und man ist geneigt zu fragen, ob nicht bei der Trapezregel und der Mittelpunktregel dasselbe rauskommt? Im Allgemeinen nicht. Testen Sie es bspw. mit f (x) = x 2 . Sie werden sehen, dass beide Verfahren nicht dasselbe Ergebnis liefern. Beide Verfahren liefern jedoch eine ähnliche Genauigkeit. Man kann schon vermuten, dass die beiden genannten Integrationsmethoden nur dann einigermaßen gut das jeweilige Integral annähern, wenn die Intervallbreiten h = b−a n relativ klein sind (bzw. die Anzahl n der Teilintervalle groß). Sowohl bei der Rechtecks- als auch bei der Trapezregel liegt die Fehlerordnung bei O(h 2 ). Eine bessere Annäherung an das eigentliche Integral erreicht man mithilfe der sogenannten Simpson-Integration13 . Hierbei wird die eigentliche Funktion f (x) im Intervall (xk−1 , xk+1 ), statt durch eine Gerade, wie im Fall der Trapezregel, durch ein quadratisches Polynom c1 x 2 + c2 x + c3 angenähert. Da dieses Polynom drei Parameter hat (c1 , c2 , c3 ), bedarf es auch mindestens dreier Punkte im jeweiligen Intervall. Die drei Punkte ( f (xk−1 ), f (xk ) und f (xk+1 )) stammen jeweils aus den Randpunkten der beiden Teilintervalle bzw. Streifen (xk−1 , xk ) und (xk , xk+1 ). Das ist auch der Grund, warum bei der Simpson-Integration das zu integrierende Intervall [a, b] in 2n Teilintervalle unterteilt wird. Ein Teilintervall hat somit eine Breite von b−a 2n Durch die drei Punkte wird jeweils eine quadratische Funktion der Form h=
f (x) = b0 + b1 x + b2 x 2
(1.51)
(1.52)
gelegt, wobei die Koeffizienten bi eindeutig durch diese drei Punkte bestimmbar sind (vgl. Abb. 1.9). Bitte beachten Sie, dass in Gl. 1.52 mit f nicht die eigentlich zu integrierende Funktion f (x) gemeint ist. Tatsächlich ist es so, dass man die Koeffizienten überhaupt nicht bestimmen braucht, wie wir gleich sehen werden. Der Flächeninhalt Ak unter dem Doppelstreifen lässt sich also letztlich als bestimmtes Integral über eine quadratische Funktion schreiben:
13 Der Name der Methode hat übrigens nichts mit Homer und Marge aus Springfield zu tun, sondern
ist nach dem englischen Mathematiker Thomas Simpson benannt.
1.5
Numerische Integration
25
Abb. 1.9 Zur Veranschaulichung der numerischen Integration mittels Simpsonregel
f(x)
xk−1 xk xk+1
a
b
xk+1
b0 + b1 x + b22
Ak = xk−1
b1 b2 = b0 x + x 2 + x 3 2 3
xk+1 xk−1
b2 3 b1 2 b2 3 b1 2 = xk+1 + xk+1 + b0 xk+1 − xk−1 − xk−1 − b0 xk−1 3 2 3 2 b2 b1 = (xk−1 + 2 h)3 + (xk−1 + 2 h)2 + b0 (xk−1 + 2 h) 3 2 b2 3 b1 2 = − xk−1 − xk−1 − b0 xk−1 3 2
(1.53)
In der letzten Zeile von Gl. 1.53 habe ich von der Beziehung xk+1 = xk−1 + 2h Gebrauch gemacht, wobei h = b−a n ist. Wenn man in dieser Gleichung die Terme einmal ausmultipliziert, zusammenfasst und vereinfacht, erhält man 8 2 Ak = 2b2 xk−1 h + 4b2 xk−1 h 2 + b2 h 3 + 2b1 xk−1 h + 2b1 h 2 + 2b0 h 3
h 2 6b2 xk−1 + 12b2 xk−1 h + 8b2 h 2 + 6b1 xk−1 + 6b1 h + 6b0 = 3
(1.54)
Der Ausdruck in der Klammer ist identisch mit f (xk−1 )+4 f (xk )+ f (xk+1 ). Das ist zwar nicht auf Anhieb ersichtlich, aber wenn Sie mal für die drei f (xi ) jeweils die quadratische Gleichung einsetzen und wiederum beachten, dass xk = xk−1 + h und xk+1 = xk−1 + 2h gilt, dann erhalten Sie letztlich den Flächeninhalt unter dem Doppelstreifen: Ak = ( f (xk−1 ) + 4 f (xk ) + f (xk+1 ))
h 3
(1.55)
26
1 Streifzug durch Excel
Den gesamten Flächeninhalt unter der Kurve erhalten Sie dann als Summe über alle Doppelstreifen: A=
2n
Ak
k=1
⎛
= ⎝ f (x0 ) + f (x2n ) + 4
2n−1 k=1,3,5,...
f (xk ) + 2
2n−2 k=2,4,6,...
⎞ f (xk )⎠
h 3
(1.56)
Wie ich auf die zweite Zeile in Gl. 1.56 gekommen bin, können Sie sich mal in einer ruhigen Minute überlegen. Sie sehen, die Koeffizienten in Gl. 1.52 brauchten wir gar nicht zu bestimmen, sondern kommen bei einer sehr gut handhabbaren Formel aus. Alles, was Sie letztlich tun müssen, um das Integral der Funktion f (x) zu berechnen, ist, die Funktionswerte an den Intervallenden ( f (x0 ) = a und f (x2n ) = b mit dem Vierfachen der Summe aller ungeraden Elemente und dem Zweifachen der Summe aller geraden Elemente zu addieren. So etwas kann man sowohl in einem Tabellenkalkulationsprogramm einfach rechnen, als auch mal eben schnell programmieren. Fehlertechnisch könnte sich der Aufwand lohnen, mit der Simpson-Formel zu arbeiten. Sie hat mit O(h 4 ) nämlich eine deutlich höhere Fehlerordnung und somit einen deutlich kleineren Fehler. Beispiel 1.7 In diesem Beispiel vergleichen wir einmal die verschiedenen Methoden der numerischen Integration gegenüber der analytischen Lösung eines bestimmten Integrals. Nehmen wir hierzu die Funktion f (x) = 2x 2 + 1 und integrieren sie im Bereich von 1 bis 3 mit einer Schrittweite von x = 0,2. x m in Tab. 1.2 bezeichnet jeweils den x-Wert in der Mitte von zwei Stützstellen xi , xi+1 und f (xm ) entsprechend den Funktionswert an der Stelle xm . Im Prinzip ist x hier eine Art Laufvariable, die von 1 bis 3 in 0,2er-Schritten läuft. Das Integral 1 1 f (x) ist logischerweise null, daher habe ich diese auch jeweils als erstes Element für die drei numerischen Integralmethoden (Mittelpunkt, Trapez und Simpson) für x = 1 in Tab. 1.2 von Hand eingetragen. Die darauffolgenden Elemente habe ich jeweils gemäß den für die jeweiligen Methoden geltenden Formeln berechnet und den Wert in der Vorgängerzelle hinzuaddiert. Dadurch summieren sich die Werte am Ende zu dem gesuchten Integral auf. Entsprechend steht dies am unteren Ende der Tabelle (Werte sind unterstrichen). Bitte bedenken Sie, dass bei der Simpson-Integration die xm -Werte mit als Stützpunkte zählen (sie sind hier für den Vergleich der Methoden nur in einer separaten Spalte aufgeführt). Während Sie für die anderen beiden Methoden h = x ansetzen können, ist dies bei der Simpson-Integration h = x/2 (vgl. auch Gl. 1.51). In der Literatur finden Sie daher auch häufig die Formel:
1.5
Numerische Integration
27
Tab. 1.2 Vergleich der Genauigkeit der Mittelpunkts-Integration, der Trapez-Integration und der Simpson-Integration x
xm
1
f (x)
f (xm )
3,00
Mittelpunkt
Trapez
Simpson
0,00
0,00
0,00
Analytisch
1,2
1,1
3,88
3,42
0,68
0,69
0,69
1,4
1,3
4,92
4,38
1,56
1,57
1,56
1,6
1,5
6,12
5,50
2,66
2,67
2,66
1,8
1,7
7,48
6,78
4,02
4,03
4,02
2
1,9
9,00
8,22
5,66
5,68
5,67
2,2
2,1
10,68
9,82
7,62
7,65
7,63
2,4
2,3
12,52
11,58
9,94
9,97
9,95
2,6
2,5
14,52
13,50
12,64
12,67
12,65
2,8
2,7
16,68
15,58
15,76
15,79
15,77
3
2,9
19,00
17,82
19,32
19,36
19,33
19,33
Fehler:
1,33E-02
2,67E-02
0,00E+00
0,00E+00
1 (xk − xk−1 )( f (xk ) + 4 f (xm ) + f (xk−1 )) 6 n
A=
(1.57)
k=1
xm ist hierbei wiederum gleich dem x-Wert in der Mittel von xk und xk−1 , also xm = (xk +xk−1 )/2. In diesem Beispiel ist der Fehler der Simpson-Integration null. Das liegt daran, dass die zu integrierende Funkion quadratisch war. Für solche Funktionen ist die Simpson-Integration exakt. Im Allgemeinen ist sie jedoch auch nur eine Näherung. Aufgrund ihrer Einfachheit verwende ich in der Praxis meistens die Trapezregel. Sie ist sehr einfach zu implementieren, im Gegensatz zur Simpson-Integration. Um genauere Ergebnisse zu erhalten, kann man einfach die Anzahl Teilintervalle n vergrößern. Für meine Anforderungen war das in aller Regel ausreichend. In vielen gängigen Softwarepaketen findet man jedoch auch Funktionen zur numerischen Integration mittels Simpson-Formel. Ich bin bei den Formeln für die drei verschiedenen numerischen Integrationsmethoden insgeheim davon ausgegangen, dass die x-Werte äquidistant sind (vgl. die Gl. 1.48, 1.50 und 1.56). Natürlich können Sie auch Daten integrieren, bei denen das nicht der Fall ist. Dann können Sie jedoch das x (bzw. h) nicht mehr vor die Summe setzen, sondern müssen es in die Summe ziehen. Für die Trapezregel sähe das dann wie folgt aus:
28
1 Streifzug durch Excel n f (xk−1 ) + f (xk ) xk A= 2
(1.58)
k=1
Für die anderen Methoden wäre das entsprechend analog. Zum Schluss dieses Abschnitts noch ein paar Anmerkungen zu uneigentlichen Integralen mit unbeschränkten Integrationsbereichen, also z. B. ein Integral der Form: x f (s)ds
(1.59)
−∞
Solche Integrale müssen bspw. zur Ermittlung der Quantile x für eine gegebene Wahrscheinlichkeitsdichtefunktion f (s) (vgl. Abschn. 3) berechnet werden. Wie handhabt man nun die untere Integrationsgrenze bei der numerischen Integration? Gelegentlich lässt sich das Integral durch eine geeignete Transformation in ein eigentliches Integral überführen. In der Praxis wird jedoch häufig anstelle des −∞ eine hinreichend kleine Zahl eingesetzt. Falls möglich, kann es helfen, die Funktion vorher zu zeichnen, um abzuschätzen, wo der Integrand Funktionswerte hat, die signifikant zum Integral beitragen würden und nicht annähernd null sind. In der folgenden Übung sollen Sie ein solches Integral, das bei Hypothesentests eine große Rolle spielt, numerisch berechnen. 1.6 Übung Berechnen Sie das bestimmte Integral der Standardnormalverteilung (ExcelFunktion NORM.S.VERT) im Intervall a = −10...1,65 = b numerisch mithilfe der Trapezregel. Verwenden Sie hierzu n = 1000 x-Werte im angegebenen Intervall.
Literatur 1. Hafeman, D.G.: (Inventor). Bestimmung der optischen absorptions-weglänge in einem vertikalstrahlphotometer. EP Patent 0771417B1, Anmeldung eingereicht 25.07.1995, Antrag bewilligt 28.10.2009 2. Mania, H.: Gauß – Eine Biographie. Rowohlt Taschenbuch Verlag (2009) 3. de Levie, R.: How to Use Excel® in Analytical Chemistry: And in General Scientific Data Analysis. Cambridge University Press, Cambridge (2001) 4. Papula, L.: Mathematik für Ingenieure und Naturwissenschaftler. Bd. 1: Ein Lehr- und Arbeitsbuch für das Grundstudium. Friedr. Vieweg & Sohn Verlagsgesellschaft mbH, Braunschweig/ Wiesbaden (2001)
2
Darstellung von Daten
2.1
Tabellen
Obwohl eine Tabelle an sich nur ein 2D-Konstrukt darstellt, kann man durch eine geeignete Anordnung der Daten viel Information in einer Tabelle unterbringen, ohne gleich mehrere separate Tabellen generieren zu müssen. Nichtsdestotrotz sollten Daten nicht um jeden Preis in einer Tabelle zusammengefasst werden. Gerade wenn man die Daten anschließend in Form eines Diagramms darstellen will, bietet es sich ggf. an, gleich mehrere Tabellen anzulegen. Wie so vieles, ist die Darstellung einer Tabelle in einer DIN-Norm geregelt (DIN 5008). Natürlich müssen Sie ab jetzt nicht jede Tabelle gemäß den Vorgaben dieser Norm formatieren, ich will nur, dass Sie das mal gehört haben und an einem Beispiel gesehen haben, wie man eine Tabelle grundsätzlich aufbauen kann (vgl. Tab. 2.1). Die Tabelle zeigt anhand von Beispieldaten den typischen Aufbau einer Tabelle, die der DIN-5008 entsprechen sollte. Sie sehen, dass man durch einen solchen Aufbau schon eine ganze Menge an Information in eine Tabelle packen kann. In diesem Beispiel enthält die Tabelle sowohl qualitative (kategorische) Daten wie Form der Bakterien, als auch quantitative (stetige) Daten wie der Bakteriendurchmesser oder die Generationszeit. Die Begriffe kategorische Daten (engl. categorical data) und stetige Daten (engl. continuous data) werden Ihnen in der Literatur häufig über den Weg laufen. Es lohnt sich daher, sie einfach in Ihr statistisches Vokabular aufzunehmen. Da Wissenschaftler in der Regel in internationalen Fachjournalen publizieren, gelten natürlich die jeweiligen Vorgaben des Journals bezüglich Format und Layout. Vertikale Linien sind in Fachpublikationen meiner Erfahrung nach unüblich, obwohl eine DIN 5008-konforme Tabelle auch vertikale Linien enthalten kann. Ein Vorteil, den eine Tabelle gegenüber einem Diagramm genießt, ist die Darstellung exakter Zahlen. Jede Zahl kann im Prinzip mit allen signifikanten Ziffern dargestellt werden, während man bei der Darstellung verschiedener Zahlen in einem Diagramm im Grunde genommen einen Kompromiss eingeht, um alle Zahlen möglichst auf einer Skala abbilden zu können. Um die Übersichtlichkeit zu erhalten, werden die Skalen des Diagramms dabei nur © Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 M. Schneider, Datenanalyse für Naturwissenschaftler, Mediziner und Ingenieure, https://doi.org/10.1007/978-3-662-61866-0_2
29
30
2 Darstellung von Daten
Tab. 2.1 Beispiel für eine Tabelle, in der durch ein entsprechendes Format bereits viel Informationen untergebracht sind. Diese sollte konform mit der DIN-5008 Norm sein Gattung Eigenschaften
Bacillus Subtilis
Escherichia
Streptococcus
Megaterium Coli
Aureus
Lactis
Morphologie Form
Stäbchen
Stäbchen
Stäbchen
Kugel
Kugel
Durchmesser [µm]
0,5
1,5
0,5
1
1
27
25
17
30
26
Wachstum Generationszeit [min]
noch an wenigen Stellen beschriftet, wodurch es unmöglich wird, alle ursprünglichen Ziffern der Zahlen zu repräsentieren. In der Praxis ist das zugegebenermaßen häufig kein Problem, es gibt dennoch einige Punkte, über die man nachdenken sollte, wenn man vor der Wahl Tabelle versus Diagramm steht. Weitere Punkte finden sich bspw. hier [1]. Die Lesbarkeit einer Tabelle kann oft mithilfe geeigneter Werkzeuge verbessert werden. So können, Zellen mithilfe vordefinierter Regeln entsprechend gefärbt werden um bspw. extreme Datenwerte besser hervorzuheben. In Excel verwendet man hierzu die Bedingte Formatierung im Register Start. Das Ganze kann sogar mithilfe einer sogenannten heat-map (wörtlich übersetzt heißt das Wärmebild) auf die Spitze getrieben werden. Dabei werden die Daten im Prinzip nur noch als Farbcode dargestellt. Heat-maps eignen sich für einen schnellen Überblick über eine große Menge an Daten und werden bspw. gerne von Pharmaunternehmen beim Screenen nach neuen Wirkstoffen im Hochmikroplattendurchsatz eingesetzt. Hierbei werden Substanzen oft in Mikroplatten zur Reaktion gebracht, um sie auf ihre Wirksamkeit zu prüfen, wobei ein hohes Signal (rot in Abb. 2.1) auf einen potentiellen Hit hindeutet und somit in der heat-map hervorstechen würde.
2.2
Diagramme
Diagramme stellen eine tolle Möglichkeit dar, Daten zu visualisieren. Hiermit können Sie bereits eine erste explorative Datenanalyse betreiben. Ein vernünftig ausgewähltes Diagramm kann Ihnen nämlich bereits eine ganze Menge über Ihre Daten sagen. Die Darstellungsmöglichkeiten von Daten und Funktionen sind in Excel zwar nicht unbedingt so groß wie in dedizierten Softwarepaketen, aber dennoch für viele Zwecke ausreichend. Mit wenigen Tricks können oft sogar komplexere Diagramme erstellt werden. In diesem Abschnitt zeige ich Ihnen, wie Sie in Excel Funktionen zeichnen können und welche Möglichkeiten es gibt, experimentelle Daten wissenschaftlich darzustellen.
2.2
Diagramme
31 1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
A B C D E F G H I J K L M N O P
Abb. 2.1 Heat-map aus den Daten einer Messung mit Mikroplatte. Daten mit hohem Signal sind rötlich eingefärbt, diejenigen mit niedrigem Signal sind grün eingefärbt
2.2.1
Grafische Darstellung mathematischer Funktionen
Um eine zweidimensionale Funktion in der Form von Punkten (x, f (x)) darzustellen, bedient man sich Excels Diagrammbibliothek unter dem Register Einfügen und Diagramme dem Punkt(XY)-Diagramm. Sie sollten vorab einen x-Bereich [x min , xmax ] wählen, über dem die Funktion f (x) dargestellt werden soll. Außerdem sollten Sie vorab über die Mindestanzahl darzustellender Punkte N nachdenken. Wenn der falsche Bereich bzw. zu wenig Punkte gezeichnet werden, könnten interessante Stellen, wie z. B. ein Maximum, nicht dargestellt werden. Bei der Suche nach dem Schnittpunkt zweier Funktionen bspw. sollten Sie das Intervall derart wählen, dass Sie auch die Chance haben, den (bzw. die) Schnittpunkt(e) zu finden. Häufig ist das Intervall durch die Frage- bzw. Problemstellung bereits vorgegeben. Zur Frage bezüglich der Anzahl darzustellender Punkte empfehle ich, praktischerweise N einfach relativ groß zu wählen (z. B. 1000). Damit sollte man in vielen Fällen richtig liegen. Wie Sie nun den Bereich [xmin , xmax ] wählen, dafür gibt es keine Patentlösung. Im nachfolgenden Beispiel möchte ich aber einen Gedankenanstoß geben. Beispiel 2.1 Angenommen, Sie sollen die nachfolgende Funktion grafisch in Excel darstellen: f (x) = ax 2 + bx + c 1 f (x) = − x 2 − 2x + 10 2
(2.1) (2.2)
32
2 Darstellung von Daten
Anhand des negativen Koeffizienten a = −1/2 sieht man bereits, dass es sich um eine nach unten geöffnete Parabel handelt. Dementsprechend muss sie ein Maximum haben, das entsprechend dem Vorzeichen von b = −2 zu negativen x-Werten vorschoben ist. Es empfiehlt sich, das x-Intervall [xmin , xmax ] symmetrisch um den x-Wert des Maximums zu setzen. Diesen Wert können Sie mithilfe des Solvers finden, indem Sie einen x-Wert (z. B. x0 = −1) in einer Zelle vorgeben und mit diesem den Funktionswert f (x0 ) in einer weiteren Zelle berechnen. Nun verwenden Sie den Solver und übergeben letztere Zelle als Zielzelle und erstere Zelle als Variablenzelle und lassen den Solver das Maximum finden. Bitte achten Sie auch hier darauf, den Haken bei Nicht eingeschränkte Variablen als nicht-negativ festlegen zu entfernen. Detaillierte Anweisungen zur Verwendung des Solvers finden sich in Abschn. 1.3. Der Solver sollte x0 = −2 gefunden haben. Nun können Sie Ihre x-Werte symmetrisch um x = −2 anordnen. Das Beispiel 2.1 zeigt nur eine Art auf, wie man sich an Werte für xmin und xmax herantastet. Das habe mich mitunter auch deshalb so gemacht, damit Sie sehen konnten, wie Sie mithilfe des Solvers eine kleine Kurvendiskussion machen können. Überlegen Sie sich auch vorab, ob eine Funktion überhaupt Extremwerte und Unstetigkeitsstellen hat und wie sie sich für x → ±∞ verhält. Bei relativ einfachen Funktionen lässt sich das noch bewerkstelligen. Bei komplexeren funktionalen Zusammenhängen ist das leider nicht mehr so ohne Weiteres möglich. In der Praxis taste ich mich dann oft an die interessanten Stellen heran, indem ich xmin sehr klein und xmax sehr groß wähle. Ich verwende dabei gerne das AusfüllenWerkzeug, mit dem Sie, beginnend mit einer von Ihnen in einer Zelle vorgegebenen Zahl (xmin ), das Inkrement x und den Endwert xmax vorgeben können, und Excel generiert für Sie automatisch die x-Werte (mehr zum Ausfüllen-Werkzeug habe ich in Abschn. 1.1 gesagt). Möchte ich dann eine bestimmte Region der Funktion höher auflösen, dann schränke ich das Intervall von xmin und xmax sukzessive ein. Alternativ können Sie die x-Werte auch selbst erzeugen, indem Sie beginnend bei xmin in der nachfolgenden Zelle das Inkrement x selbst aufaddieren und mithilfe des Ausfüllkästchens die Berechnung nach unten ziehen, bis Sie xmax erreicht haben. Hierbei empfiehlt es sich, das Inkrement über die Anzahl der Punkte N im darzustellenden Bereich gemäß x = (xmax − xmin )/N zu definieren, damit Sie wissen, bis zu welcher Zelle (Zeilennummer) Sie die Berechnung nach unten ziehen müssen. Wenn Ihr xmin bspw. in Zelle B2 stünde, dann müssen Sie die Berechnung xmin + x, beginnend ab B3, bis runter zur Zelle B102 ziehen, falls N = 100 ist. Bitte denken Sie daran, einen absoluten Zellbezug zu verwenden, wenn Sie auf die Zelle für x referenzieren. Funktionen grafisch in Excel darzustellen, ist nicht nur von theoretischem Interesse, sondern findet praktische Anwendung, wenn Sie bspw. mithilfe einer Regression ein mathematisches Modell an Ihre experimentellen Daten fitten und anschließend dieses Funktions-
2.2
Diagramme
33
modell grafisch darstellen wollen. Hierbei ist zu beachten, dass die Einheiten konsistent sein müssen. Wenn Sie bspw. den EC50 -Wert für eine Dosis-Wirkungs-Kurve mithilfe einer Regression zu EC50 = 5 · 10−5 Molar bestimmt haben, dann sollten Sie die Funktionskurve nicht auf in Mikromolar-basierten x-Stützstellen darstellen. Doch bevor Sie mit der Regression beginnen, bietet sich oft zunächst mal eine grafische Darstellung der experimentellen Daten selbst an. Mit einem passenden Diagramm können Sie bereits gewisse Eigenschaften wie Mittelwert und Variation innerhalb der Daten abschätzen.
2.2.2
Streudiagramme
Streudiagramme (engl. scatter plots) sind sehr nützlich falls Sie Messvariabilitäten (Messwiederholbarkeit) oder biologische Variabilitäten abschätzen möchten. Ersteres entsteht durch Ungenauigkeit des Messgeräts, Letzteres durch die natürliche Variabilität, die einem biologischen System (Zellen, Tiere, Menschen, etc.) zugrunde liegt. Verschiedene Ansätze derselben Zellart sind nun mal nicht exakt identisch. Die Messvariabilität kommt bspw. in Abb. 2.2a zum Ausdruck, bei der bei jeder Konzentration eines Farbstoffes mehrere (technische oder Pseudo-) Replikate gemessen wurden. Sie sehen, dass man zu jeder Konzentration (x-Achse) mehrere Signalwerte erhält, die entlang der y-Achse streuen. Hierdurch bekommen Sie bereits einen ersten Eindruck, wie genau Sie den eigentlichen Messwert bestimmen können. Es ist zu erkennen, dass die Variabilität der Daten mit größer werdenden y-Werten zunimmt, eine Tatsache, die bei einer linearen Regression der Daten ggf. berücksichtigt werden sollte (vgl. Abschn. 5). Biologische Variabilität kommt in Abb. 2.2b zum Ausdruck, bei dem ein Datenpunkt jeweils dem Verhältnis der Kernfläche zur Gesamtfläche einer Zelle entspricht. In dieser Abbildung werden mithilfe eines sogenannten Spaltenpunktdiagramms (manchmal auch Gruppen-Streudiagramm genannt, engl. column scatterplot) zwei Zellarten jeweils miteinander verglichen. Damit die Datenpunkte mit ähnlichen Werten nicht zu sehr übereinanderliegen und man somit den Eindruck bekommt, es seien weniger Messwerte vorhanden, werden diese oft durch Hinzufügen kleiner zufälliger Schwankungen (engl. jitter) entlang der x-Achse verteilt, so wie es in Abb. 2.2b auch gemacht wurde. An der Verteilung der Daten in y-Richtung ändert das natürlich nichts. In einem Video zeige ich Ihnen im Detail, wie Sie ein Gruppen-Streudiagramm mit jitter in Excel erzeugen können. Rufen Sie dieses Video durch Scannen des QR-Codes (unten) auf.
34
2 Darstellung von Daten
80000 70000 60000 50000 40000 30000 20000 10000 0
b AZellkern / A Cytoplasma
Fluoreszenz in RFU
a
0
0,7 0,6 0,5 0,4 0,3 0,2
4·10 −4 8·10 −4 1,2·10 −3 Konzentration in µM
Zelllinie A
Zelllinie B
Abb. 2.2 Darstellung von in der Praxis häufig auftretenden Streudiagrammen. (a) Die Streuung der neun (technischen) Replikate je Konzentration sind auf die Messvariabilität zurückzuführen. Dieses Streudiagramm lässt erkennen, dass die Streuung mit größer werdenden Fluoreszenzsignalwerten zunimmt. (b) Vergleich des Kern-Cytoplasma-Flächenverhältnisses zweier Zelllinien mithilfe eines Spaltenpunktdiagramms
Das Hinzufügen der zufälligen Schwankungen entlang der x-Achse macht meiner Meinung nach nur Sinn, wenn dort kategorische Variablen (wie Gruppen etc.) aufgetragen sind. Falls dort numerische Variablen aufgetragen wären, würde man durch die künstlich hinzugefügten zufälligen Schwankungen die eigentlichen x-Werte verfälscht darstellen. Spaltenpunktdiagramme (oft auch dot plots genannt) sind relativ beliebt bei Biologen und Medizinern, da hier häufig Daten mehrerer Gruppen (kategorische Variablen) miteinander verglichen werden. Oft werden statistische Kennwerte wie Mittelwerte (horizontale Striche in Abb. 2.2b) und Fehlerbalken eingezeichnet, um schon anhand der Abbildung Aussagen über die Vergleichbarkeit der Gruppen machen zu können. Bei vielen Datenpunkten können diese Kennwerte im Graph aber schnell untergehen. Dann geht man oft zu den sogenannten Box-Whisker-Plots über. 2.1 Übung Versuchen Sie einmal, für die Daten in Tab. 2.2 ein Spaltenpunktdiagramm in Excel zu erzeugen, das so ähnlich aussieht wie in Abb. 2.2.
Tab. 2.2 Beispieldaten zur Darstellung in einem Spaltenstreudiagramm
Gruppe 1
46,3
39,1
59,9
48,1
51,4
Gruppe 2
31,0
29,7
28,7
23,0
17,2
2.2
Diagramme
2.2.3
35
Box-Whisker-Plot
Im Gegensatz zu den Spaltenpunktdiagrammen werden in einem Box-Whisker-Plot (auch Box-Plot genannt) nicht mehr alle Datenpunkte dargestellt, sondern Quartile der Daten (vgl. Abschn. 3.2.8.2). Wie der Name bereits andeutet, besteht ein Box-Whisker-Plot aus einer Box, bei der das untere Ende das untere bzw. 1. Quartil (also ca. 25 % der Datenpunkte) und das obere Ende das obere bzw. 3. Quartil (also ca. 75 % der Datenpunkte) der Daten repräsentiert1 . Box-Plots werden z. T. auch horizontal ausgerichtet. In diesem Fall ist das untere Quartil das linke Ende der Box und das obere Quartil das rechte Ende. Innerhalb der Box liegen ca. 50 % aller Datenpunkte. Dies ist der sogenannte Interquartilsbereich. Hierin liegt auch das 2. bzw. das 50 % Quartil, was man unter dem Namen Median kennt. Dieser ist häufig als separate Linie gekennzeichnet (gestrichelte Linie in Abb. 2.3). Die sogenannten Whisker erstrecken sich jeweils unterhalb und oberhalb der Box (bzw. links und rechts für horizontale Box-Plots) und können unterschiedliche Werte repräsentieren. Häufig repräsentieren sie das Minimum bzw. Maximum der Daten. Bisweilen stellen die Whisker auch andere Perzentile dar, wie das 5. Perzentil für den unteren Whisker und das 95. Perzentil für den oberen Whisker. Häufig werden Box-Plots nach der Methode von Tukey2 [2] dargestellt, bei dem der untere Whisker durch Subtraktion des 1,5-Fachen des Interquartilsbereichs vom 1. Quartil erhalten wird. Falls der so berechnete Wert unterhalb des Minimums liegt, endet der Whisker beim Minimumswert, ansonsten beim errechneten Wert, also zwischen Minimum und 1. Quartil. Der obere Whisker wird durch Addition des 1,5-Fachen des Interquartilsbereichs auf das 3. Quartil erhalten. Auch hier gilt, liegt der Wert oberhalb vom Maximum, erstreckt sich der Whisker nur bis zum Maximum, andernfalls liegt dieser zwischen dem 3. Quartil und dem Maximum. Mit dieser Darstellung werden häufig Ausreißer identifiziert. Als solche werden Werte angesehen, die außerhalb der Whisker liegen. Excel bietet ab Version 2016 eine einfache Möglichkeit an, Box-Plots zu erstellen. Unter Einfügen → Diagramme → Kastengrafik wird ein Box-Plot gezeichnet, dessen Whisker sich vom Minimum zum Maximum erstrecken. Wollen Sie einen Box-Plot nach Tukey in Excel selbst erzeugen (v. a. für ältere ExcelVersionen interessant), müssen Sie zunächst die Perzentile und den Interquartilsbereich (IQB) vorab ausrechnen und dann mithilfe eines gestapelten Säulendiagramms und unter Zuhilfenahme von Fehlerbalken (für die Whisker) das Diagramm manuell erzeugen. Hierzu gibt es im Internet sehr gute Anleitungen. Im Übrigen können Box-Plots, die mit verschiedenen Softwarepaketen erzeugt wurden, z. T. etwas unterschiedlich aussehen. Das liegt v. a. daran, dass die Art der Berechnung der Perzentile unterschiedlich sein kann, je nachdem, welche Formel hierfür herangezogen wird [3]. Übrigens bietet Excel selbst zwei verschiedene Möglichkeiten zur Berechnung der Quartile, die man im Box-Plot-Dialog Datenreihen formatieren... auswählen kann. Anhand eines Box-Whisker-Plots lassen sich Ausreißer gut identifizieren. Hierbei handelt es sich um diejenigen Werte, die 1 Ich habe hier angenommen, die Daten seien von klein (unten) nach groß (oben) sortiert. 2 Tukey gilt als Erfinder der Box-Whisker-Plots.
36
2 Darstellung von Daten
Abb. 2.3 Box-Whisker-Plot zweier Datensätze
50 45 40 y
35 30 25 20 15
Gruppe A
Gruppe B
außerhalb der Whisker liegen und daher sofort ins Auge stechen. Bisweilen werden die Datenpunkte, ähnlich wie in Abb. 2.2b, mit im Box-Plot als Punkte dargestellt. Ausreißer werden dann zusätzlich als Sternchen gekennzeichnet. Excel zeichnet standardmäßig keine Datenpunkte ein, lediglich die außerhalb der Whisker liegenden Ausreißer werden als Punkte dargestellt. Dennoch kann man im o. g. Box-Plot-Dialog (rechte Maustaste, Datenreihen formatieren...) einstellen, dass die Datenpunkte zusätzlich angezeigt werden. BoxWhisker-Plots haben den Vorteil, dass man für ihre Darstellung nur fünf (oder mehr) Datenpunkte braucht3 im Gegensatz zu dem im Folgenden beschriebenen Histogramm, für dessen Darstellung 30 oder mehr Datenpunkte empfohlen werden [4].
2.2.4
Histogramm
Bei größeren Datenmengen (30 Datenpunkte und mehr) kann ein Histogramm dazu verwendet werden, einen Eindruck von der zugrunde liegenden Verteilung zu bekommen. Hierbei werden sie in Klassen (oft auch Bins genannt) eingeteilt und in Form eines Balkendiagramms dargestellt. Die Wahl der Breite und somit der Anzahl der Bins ist entscheidend für das Aussehen des Histogramms. Würde man bspw. die Breite der Bins sehr klein machen, so brächte man in einem Bin höchstens einen Datenpunkt unter und man könnte von der zugrunde liegenden Verteilung nichts mehr erkennen. Wenn die Bins umgekehrt zu breit gewählt werden, dann geht Information über die Streuung der Daten verloren. Es gibt verschiedene Ansätze zur Ermittlung einer passenden Anzahl Bins Nb bzw. einer passenden Binbreite Wb für einen Datensatz mit n Datenpunkten:
3 Darunter empfiehlt sich die Darstellung aller Punkte in einem Streudiagramm (vgl. Abschn. 2.2.2).
2.2
Diagramme
37
• Regel nach Freedman-Diaconis: Wb = 2IQBn −1/3
(2.3)
Die Binbreite ist proportional zum Interquartilsbereich (IQB) und umgekehrt proportional zur dritten Wurzel der Anzahl Datenpunkte n • Ähnlich sieht die Regel nach Scott aus: Wb = 3,5σ n −1/3
(2.4)
wobei hier die Standardabweichung σ statt dem Interquartilsbereich als Maß für die Streuung der Daten verwendet wird. √ • Eine Regel, die ich gerne zuerst ausprobiere, ist die n-Regel Nb = n 1/2
(2.5)
• Ähnlich wird die Anzahl Bins nach der Regel von Rice berechnet: Nb = 2n 1/3
(2.6)
• Eine ebenfalls häufig eingesetzte Methode (aufgrund ihrer Einfachheit) ist die Methode nach Sturges: Nb = 1 + log2 n
(2.7)
Das Symbol in den Gl. 2.5, 2.6 und 2.7 bedeutet ein Aufrunden zur nächsthöheren Ganzzahl. So wird bspw. 5, 1 aufgerundet zur 6. Abb. 2.4 zeigt beispielhaft zwei Histogramme, deren Datenbasis dieselbe ist wie die der Box-Plots in Abb. 2.3. Das Histogramm des ersten Datensatzes (durchgezogene Linie) weist darauf hin, dass die den Daten zugrunde liegende Verteilung vermutlich bimodal (zwei Maxima) ist, während das Histogramm des zweiten Datensatzes (gestrichelte Linie) unimodal ist. 30 25 Häufigkeit
Abb. 2.4 Histogramme der beiden Datensätze 1 (durchgezogene Konturlinie) und 2 (gestrichelte Konturlinie) aus dem vorangegangenen Abschnitt (vgl. Abb. 2.3). Die Binbreite wurde mithilfe der Regel nach Scott berechnet. Interessanterweise erhält man dieselben√Histogramme, wenn man die n-Regel verwendet
20 15 10 5 0 15
20
25
30
y
35
40
45
50
38
2 Darstellung von Daten
Seit der Version 2016 hat Microsoft die Möglichkeit zur Darstellung von Histogrammen im Diagrammbereich in Excel integriert. Die Binbreite wird zunächst automatisch mit der Regel von Scott (vgl. Gl. 2.4) berechnet. Sowohl die Binbreite als auch die Anzahl Bins kann aber nach Belieben geändert werden. Problematisch kann die Regel nach Scott dann werden, wenn die Daten stark von einer Normalverteilung abweichen. Dann bietet sich bspw. die Regel nach Freedman-Diaconis an. Aufgrund der Tatsache das hierbei der Interquartilsbereich zur Berechnung der Binbreite herangezogen wird, ist diese Methode relativ robust gegenüber Ausreißern. In der Praxis reicht häufig eine der einfachen Regeln wie Gl. 2.5, die ich selbst gerne nehme.
2.2.5
Kumulative Häufigkeitsverteilung
Eine kumulative Häufigkeitsverteilung erhalten Sie bspw. dadurch, dass Sie die Werte eines Histogramms sukzessive aufaddieren, d. h., der erste Balken wird auf den zweiten Balken addiert, der erste und zweite Balken auf den dritten Balken, der dritte, zweite und erste Balken wiederum auf den vierten und so weiter. Dadurch erhalten Sie eine Darstellung, bei der die aufaddierten Werte gegen die entsprechenden Werte der x-Achse des Histogramms dargestellt werden. Man erhält dadurch eine monoton steigende Funktion, die von 0 bis n, der Anzahl aller Datenpunkte, ansteigt. Sie müssen diese Prozedur natürlich nicht mit den Daten eines zuvor berechneten Histogramms machen, sondern können die kumulative Häufigkeitsverteilung auch direkt mithilfe der sortierten Rohdaten y1 ≤ y2 ≤ · · · ≤ yn erzeugen. Hierzu tragen Sie die Indizes 1, 2, 3, . . . , n gegen die zugehörigen y-Werte auf und erhalten so Ihr kumulatives Häufigkeitsdiagramm (vgl. Abb. 2.5a). In Excel brauchen Sie lediglich die Daten zu sortieren und eine Spalte mit den Indizes zu erzeugen, um ein solches Diagramm zu erzeugen. Mithilfe der Indizes i lassen sich außerdem kumulierte Wahrscheinlichkeiten pi gemäß nachfolgender Gleichung berechnen: pi =
i − 3/8 n + 1/4
(2.8)
Durch Auftragung von pi gegen die Daten yi erhält man die kumulative Wahrscheinlichkeitsverteilung, aus der man interessante statistische Kenngrößen ablesen kann (vgl. Abb. 2.5b). Der Median bspw. befindet sich bei pi = 0,5. Das 25. bzw. 75. Perzentil, wie wir es vom Box-Whisker-Plot kennen, findet sich entsprechend bei pi = 0,25 bzw. pi = 0,75, d. h., Sie müssen das Lot von der pi -Achse auf die y-Achse schlagen und erhalten so diese Perzentile. Die so ermittelten Perzentile können Sie den Perzentilen y N or mal einer Normalverteilung gegenüberstellen und so überprüfen, ob Ihre Daten selbt annähernd normalverteilt sind (mehr dazu in Abschn. 3.4). Zur Berechnung der Perzentile der Normalverteilung verwenden Sie die Excel-Funktion NORM.INV, an die Sie Ihre pi als erstes Argument übergeben und den Mittelwert, sowie die Standardabweichung Ihrer Daten als zweites bzw. drittes Argument. Eine Darstellung von y-Werte gegen die y N or mal gibt Ihnen
Diagramme
a
39
b
100
Wahrscheinlichkeit
2.2
Index
80
0,8
60
0,6
40
0,4
20 0
1
0,2
20
30
40
50
0
20
30
y 50 45 40 35 30 25 20
20
30
y
50
y d 3 2 1 0 −1 −2 −3
z-score
yNormal
c
40
40
50
30
40
50
y
Abb. 2.5 Darstellung der kumulativen Verteilungsfunktion (a), der kumulativen Wahrscheinlichkeitsfunktion (b), eines Q-Q-Plots, bei dem die Quantile y der Daten denen einer Normalverteilung y N or mal gegenübergestellt sind (c) und derselben Darstellung wie in (C), nur dass hier die Quantile der Standardnormalverteilung auf der Ordinate aufgetragen wurden (d)
einen Eindruck, wie stark Ihre Daten von einer Normalverteilung abweichen (vgl. Abb. 2.5c). Wenn sie dabei linear erscheinen, ist die Annahme einer Normalverteilung berechtigt. Diese Art der Darstellung ist übrigens eine Form des sogenannten Quantil-Quantil-Plots (auch QQ-Plots abgekürzt), bei dem jeweils die sortierten Daten gegen die Quantile der Standardnormalverteilung aufgetragen werden (vgl. Abb. 2.5d). Die Kurve schneidet die y-Achse (also bei z = 0) beim Mittelwert der Daten. Die Steigung ist in dieser Darstellung invers zur Standardabweichung bzw. beim Vertauschen der beiden Achsen gleich der Standardabweichung.
2.2.6
Violin-Plot
Violin-Plots kombinieren Merkmale von Histogrammen und von Box-Whisker-Plots. Man erhält somit einen Eindruck über die Verteilungsdichte der Daten (entlang der y-Richtung) und über bestimmte statistische Kennwerte. Ein Beispiel findet man in Abb. 2.6. Hier sind zwei Datengruppen dargestellt, die unterschiedliche Verteilungen aufweisen. Ähnlich wie
40
2 Darstellung von Daten
50 45 40 y
35 30 25 20 15
Gruppe 1
x
Gruppe 2
Abb. 2.6 Beispiel für einen Violin-Plot zweier verschiedener Datengruppen. Der Median (gestrichelte Linie), sowie das 25. bzw. 75. Perzentil (Linie unterhalb bzw. oberhalb der Medianlinie) sind die vom Box-Whisker-Plot bekannten Elemente. Die äußere Hülle einer jeden Violine wird jeweils durch die Datenpunktdichte bestimmt und entspricht einer Art geglättetem Histogramm entlang der y-Achse, das nach rechts gespiegelt wurde
bei einem Box-Whisker-Plot sind für jede Gruppe jeweils der Median (gestrichelte Linie) und das 25. bzw. 75. Perzentil (untere bzw. obere durchgezogene Linien um die Medianlinie) dargestellt, d. h., sie schließen, wie gewohnt, den Interquartilsbereich ein. Die Hülle der Violinen4 entspricht einer Art geglättetem Histogramm (wer es genauer wissen will, suche bitte nach Kernel density estimator) entlang der y-Achse, das nach rechts gespiegelt ist und gibt somit die Punktdichte der Daten wieder. In Abb. 2.6 kann man dadurch bspw. erkennen, dass die Daten der ersten Gruppe bimodal sind. Diese Aussage hätten Sie anhand eines Box-Whisker-Plot nicht treffen können. Es gibt verschiedene Varianten, einen Violin-Plot darzustellen. Z. T. werden jeweils BoxWhisker-Plots mit in die Violinen-Fläche eingezeichnet. Bisweilen ebenso häufig werden die Datenpunkte, ähnlich wie bei einem Spaltenstreudiagramm, mit in die Violinen-Fläche eingezeichnet. In Excel können Sie mit Bordmitteln leider keine Violin-Plots zeichnen.
2.2.7
Fehlerbalken
Wurden Daten mehrfach gemessen (Replikate), so wird häufig, anstatt alle Replikate in einem Diagramm darzustellen, der Mittelwert mit einem entsprechenden Streumaß dargestellt. In wissenschaftlichen Publikationen wird das v. a. bei Balken- und Streudiagram4 Violin-Plots werden so genannt, weil die Darstellungen z. T. denen von Violinen gleichen [5].
2.2
Diagramme
41
men gerne durch die zusätzliche Darstellung von sogenannten Fehlerbalken gemacht (vgl. Abb. 2.7). Leider ist jedoch häufig nicht angegeben, wie diese Fehlerbalken berechnet wurden. Es gibt typischerweise drei Streumaße, die für die Darstellung als Fehlerbalken häufig verwendet werden, die Standardabweichung σ , der Standardfehler S E und das Konfidenzintervall C I . Auf alle drei möchte ich kurz eingehen und Ihnen zeigen, wann Sie welche Art von Fehlerbalken verwenden sollten. Außerdem werde ich Ihnen zeigen, wie Sie diese in Excel relativ leicht erzeugen können. Die Standardabweichung lernen wir in Abschn. 3.2.8 noch genauer kennen. In Excel lässt sie sich aus den Daten mithilfe der Funktion STABW.S oder STABW.N berechnen. STABW.N werden Sie in der Praxis selten brauchen, da sie davon ausgeht, dass Sie alle möglichen Werte kennen und somit auch den (wahren) Mittelwert kennen. Beim Würfeln mit einem Würfel ist das bspw. so. In der wissenschaftlichen Praxis ist das jedoch selten der Fall. Vielmehr stellen Ihre Daten nur eine Stichprobe der Grundgesamtheit dar. Mit zunehmender Anzahl Datenpunkte n nähert sich die aus den Daten berechnete Standardabweichung der wahren Standardabweichung der Grundgesamtheit. In diesem Fall macht es dann keinen nennenswerten Unterschied mehr, ob man STABW.S oder STABW.N nimmt. Dies steht im Gegensatz zum Standardfehler, der mit größer werdendem n immer kleiner wird. Dementsprechend werden auch daraus resultierende Fehlerbalken immer kleiner. Klingt zunächst mal verlockend, aber Vorsicht ist hier geboten. Sie vergleichen hier Äpfel mit Birnen, denn der Standardfehler ist kein Maß für die Streuung der Daten an sich, sondern ein Maß für die Streuung des aus den Daten berechneten Mittelwertes. Daher bezeichnet man es auch als Standardabweichung des Mittelwertes (engl. standard error of the mean oder nur standard error, S E). Er berechnet sich wie folgt: σ SE = √ n
a
b
15
15
(2.9)
c
B
15 12
12
12
9
9
9
6
6
6
3
3
3
0
Gr. 1
Gr. 2
0
Gr. 1
Gr. 2
0
C
Gr. 1
Gr. 2
Abb. 2.7 Darstellung verschiedener Arten von Fehlerbalken am Beispiel eines Balkendiagramms. Die Fehlerbalken wurden (a) auf Basis der Standardabweichung σ , (b) auf Basis des Standardfehlers S E und (c) auf Basis des 95 %-Konfidenzintervalls C I erzeugt
42
2 Darstellung von Daten
Gl. 2.9 folgt aus dem Additionssatz für Mittelwerte und Varianzen (vgl. Abschn. 3.2.8). Wenn Sie also die Streuung Ihrer Daten zeigen wollen, dann sind Fehlerbalken basierend auf dem S E nicht die richtige Wahl. Wollen Sie hingegen mit Ihren Fehlerbalken ausdrücken, wie genau Sie den Mittelwert der zugehörigen Daten bestimmen können, dann können Sie den S E durchaus nehmen. Alternativ können Sie hierzu auch das Konfidenzintervall bzw. die Fehlerspanne x¯ für den Mittelwert heranziehen. Sie berechnet sich mithilfe folgender Gleichung: σ x¯ = t(1 − α/2, d f ) √ n
(2.10)
Hierbei ist t(1 − α/2, d f ) gleich dem zweiseitigen (1 − α/2)-Quantilwert der Studentt-Verteilung (vgl. hierzu Abschn. 3.2.6) mit d f Freiheitsgraden. Dieser Wert lässt sich mithilfe der Excel-Funktion T.INV(1-α/2,d f ) berechnen. Für gängige Werte von α (z. B. α = 0,05) ist der t-Wert deutlich größer als 1. Demnach ist auch x¯ größer als S E. Das Konfidenzintervall C I = [x¯ − x, ¯ x¯ + x] ¯ ist dasjenige, in dem der wahre Mittelwert der Gesamtpopulation mit einer Wahrscheinlichkeit von 1 − α/2 liegt. Basierend auf den Konfidenzintervallen kann man bspw. die Mittelwerte zweier Datensätze miteinander vergleichen. Überlappen bspw. die 95 %-Konfidenzintervalle der beiden Mittelwerte nicht, dann kann man mit einer Sicherheit von p < 0,05 sagen, dass die beiden Mittelwerte nicht gleich sind. Die Umkehrung, dass die Mittelwerte gleich sind, wenn die beiden Konfidenzintervalle überlappen, gilt im Allgemeinen nicht. Es kann passieren, dass die Konfidenzintervalle der beiden Mittelwerte überlappen, diese dennoch statistisch signifikant unterschiedlich sind [6]. Auf das Thema überlappende Konfidenzintervallen werden wir in Abschn. 3.4.1.3 nochmals zurückkommen. Für den Standardfehler gibt es etwas Ähnliches, nur umgekehrt. Wenn die Standardfehlerintervalle zweier Datensätze überlappen, dann sind die Mittelwerte statistisch nicht signifikant verschieden für α = 0,05. Hier gilt die Umkehrung im Allgemeinen auch nicht. Das Gesagte über die Konfidenzintervalle sowie die Standardfehler gilt im Übrigen nur, wenn die beiden zugrunde liegenden Datensätze von vergleichbarer Größe sind. Ob Fehlerbalken basierend auf der Standardabweichung überlappen oder nicht, sagt Ihnen leider nichts über die Gleichheit bzw. Ungleichheit der zugehörigen Mittelwerte. Häufig sieht man in Publikationen ein oder mehrere Asteriske bspw. zwischen den Balken in einem Balkendiagramm. Sie sollen auf einen statistisch signifikanten Unterschied zwischen den zugrunde liegenden Mittelwerten hindeuten. Ein Beispiel zeigt Abb. 2.8. Hierin sind jeweils die Mittelwerte der Gruppe 1 (die zwei linken Balken mit durchgezogener Linie) und die Mittelwerte der Gruppe 2 (die zwei rechten Balken mit gestrichelter Linie) dargestellt mit der jeweiligen Standardabweichung als Fehlerbalken. Innerhalb einer Gruppe zeigen die Asterikse jeweils an, wie statistisch signifikant verschieden die beiden Mittelwerte sind. Je mehr Asterikse zwischen den Balken, desto signifikanter verschieden sind die Mittelwerte. Demnach sind die beiden Mittelwerte der Gruppe 2 signifikanter verschieden als die beiden Mittelwerte der Gruppe 1. Das erkennt man auch daran, dass die Fehlerbalken im letzten Fall deutlich näher zusammen sind und schon beinahe überlappen. Die Fehlerbalken in die-
2.2
Diagramme
43
Abb. 2.8 In wissenschaftlichen Publikationen trifft man häufig auf Balkendiagramme, bei denen zwischen Balkenpaaren die statistische Signifikanz mithilfe von Asterisken dargestellt wird. In diesem Diagramm ist der p-Wert für Differenz der beiden Mittelwerte der Gruppe eins p ≤ 0,01 und für die der Gruppe zwei p ≤ 0,001
25 20 15 10 5 0
Gr. 1
Gr. 2
sem Beispiel beruhen übrigens auf der Standardabweichung. Was aber bedeuten ein, zwei, drei oder z. T. sogar vier Asterikse? Sie hängen mit der Wahrscheinlichkeit p zusammen, dass die Mittelwerte (eigentlich) gleich sind und rein zufällig den gezeigten Unterschied aufweisen. Ein p-Wert von 0,05 bspw. entspricht einer fünfprozentigen Wahrscheinlichkeit, dass die Mittelwerte eigentlich gleich sind, wir aber nur durch Zufall eine den Werten entsprechende Differenz erhalten haben. Es gelten typischerweise die in Tab. 2.3 aufgeführten Zusammenhänge zwischen der Anzahl Asteriske und dem p-Wert. Auf statistische Signifikanz werden wir noch detaillierter in Abschn. 3 eingehen. Hier wird Ihnen die Bedeutung des p-Wertes sicher noch klarer werden. Statistische Signifikanz im Zusammenhang mit Fehlerbalken ist in [7] ausführlich beschrieben. In den ergänzenden Informationen zu dieser [8] Publikation befindet sich eine Excel-Datei, anhand derer Sie verschiedene Szenarien mit den drei Fehlerbalkentypen durchgehen können. Dadurch werden Ihnen auch die oben aufgeführten Regeln zur statistischen Signifikanz beim Überlappen bzw. beim Nichtüberlappen der Fehlerbalken klarer. Unterschiedliche Szenarien inklusive verschiedener Regeln im Umgang mit Fehlerbalken sind auch in dieser [9] Publikation beschrieben. Um Missverständnisse zu vermeiden, sollte immer die Art der dargestellten Tab. 2.3 Bedeutung der Asteriske in Diagrammen zur Indikation der statistischen Signifikanz mithilfe des p-Wertes (Erklärung siehe Text). ns bedeutet hierbei nicht signifikant
Asteriks p-Wert ns
p > 0,05
*
p ≤ 0,05
**
p ≤ 0,01
***
p ≤ 0,001
****
p ≤ 0,0001
44
2 Darstellung von Daten
Fehlerbalken dokumentiert sein, was leider nicht immer in wissenschaftlichen Publikationen der Fall ist. 2.2 Übung Erzeugen Sie ein Balkendiagramm in Excel für die zwei Datensätze in Tab. 2.2. Fügen Sie dem Diagramm Fehlerbalken basierend auf den zugehörigen Standardfehlern hinzu. Fügen Sie außerdem drei Asterikse zwischen den beiden Balken ein, sodass Sie eine ähnliche Darstellung wie in Abb. 2.8 erhalten. Kleiner Tip: Verwenden Sie hierfür das Kombi-Diagramm in Excel.
2.2.8
Darstellung dreidimensionaler Daten
3D-Diagramme spielen in der explorativen Datenanalyse eine weit geringere Rolle als die zuvor erwähnten 2D-Diagramme. Das liegt vermutlich daran, dass Experimente in der wissenschaftlichen Praxis zumeist so gestaltet werden, dass jeweils nur eine Variable verändert wird und deren Einfluss auf die entsprechende Systemantwort untersucht wird. Häufig bedingen sich jedoch Variablen. So führt die Temperaturerhöhung einer Lösung zu einer Veränderung ihres pH-Wertes. Wenn Sie das nicht berücksichtigen, könnten Sie zu Fehlschlüssen am Ende Ihres Experimentes kommen. In solchen fällen bietet sich eine statistische Versuchsplanung an, bei der z. T. 3D-Darstellungen verwendet werden (vgl. Abschn. 7). Excel bietet lediglich 3D-Oberflächendiagramme zur Darstellung dreidimensionaler Daten an, was aber für viele Zwecke genügen sollte. Damit Sie Ihre Daten sinnvoll mit dem 3DOberflächendiagramm darstellen können, müssen Sie sie in der Form eines Gitters vorliegen haben, bei dem bspw. die eine Variable in horizontaler (x-) Richtung variiert und die andere in vertikaler (y-) Richtung. Zu jedem Paar von x, y-Werten gibt es einen Messwert z, der letztlich als Höhe im Oberflächendiagramm dargestellt ist. Details möchte ich mir an dieser Stelle ersparen, da ich in der Lösung zu Übung 2.3 noch weiter darauf eingehen werde, wie Sie 3D-Daten in Excel darstellen können. 2.3 Übung Stellen Sie die folgende Funktion in einem Oberflächendiagramm in Excel dar: f (x, y) = exp(−2(x − 2)2 − 2(y − 1)2 ) Definieren Sie hierzu zunächst ein Gitter der Funktionswerte für x = 0,5...4 in 0,5erSchritten und für x = 0,2...2 in 0,2er-Schritten. Denken Sie hierbei daran, die richtigen Zellbezüge zu setzen.
2.2.9
Publikationsreife Abbildungen in Excel
In dem Institut, an dem ich meine Doktorarbeit angefertigt habe, gingen an alle Doktoranden, die in der nächsten Zeit ihre Dissertation einreichen sollten, Tipps zum Anfertigen
2.2
Diagramme
45
dieser Arbeit per Rundmail raus. Einer der Punkte in dieser Mail war die Erstellung publikationsreifer Abbildungen. Die Info bezüglich publikationsreifer Abbildungen war, man solle bitte nicht Excel zum Erstellen dafür heranziehen, sondern mit einem anderen Programm die Daten visualisieren. An meinem Institut war es aber so, dass die meisten Doktoranden ihre Daten (zumindest die Rohdaten) in Excel hatten. D. h. am Ende gingen viele hin, arbeiteten sich teilweise monatelang in ein neues Programm ein, um ihre Daten hierin zu verarbeiten, ggf. neu zu analysieren und am Ende „publikationsreifer“ darzustellen. Ein Hauptkritikpunkt vieler (Unwissender) ist, dass man aus Excel heraus keine Vektorgrafikformatabbildungen erzeugen kann. Wie wir weiter unten sehen werden, stimmt das nicht so ganz, denn das kann man bereits mit Bordmitteln. Ich zeige Ihnen aber zunächst, wie Sie effektiv mit Diagrammen arbeiten können, indem Sie Diagrammvorlagen verwenden. Wenn Sie in Excel bspw. die (x, y)-Daten in einem Punktdiagramm darstellen, erhalten Sie standardmäßig ein Diagramm, das zumindest meinen Anforderungen nicht genügt. In aller Regel entferne ich die Gitternetzlinien, ändere die Achsenfarbe von grau auf schwarz, mache die Achsenlinien dicker, füge Teilstriche (gekreuzt) ein, vergrößere die Schrift und ändere die Schriftfarbe von dunkelgrau in schwarz. Sie sehen, dass sind eine ganze Menge Änderungen, die ich nicht jedes Mal wieder für neu erzeugte X Y -Punktdiagramme machen wollte. Um die gemachten Änderungen zu speichern, kann man sich in Excel eine Diagrammvorlage anlegen. Dazu erzeugen Sie sich einmalig ein Diagramm, das Ihren Ansprüchen genügt, klicken mit der rechten Maustaste auf das Diagramm und wählen im Kontextmenü Als Vorlage speichern... Ich empfehle Ihnen, den von Excel vorgeschlagenen Speicherort ...\Templates\Charts zu belassen. Bitte beachten Sie folgendes eigenartiges Verhalten in Excel. Zur Erzeugung der Vorlage sollten Sie nur die Zahlen markieren und keine Spaltenüberschriften mit markieren. Dann erzeugen und formatieren Sie Ihr Diagramm und speichern es wie gehabt. Wollen Sie die Vorlage anschließend auf einen neuen x y-Datensatz anwenden, dann fügen Sie bitte nur oberhalb der y-Daten eine Spaltenüberschrift ein und entfernen Sie ggf. eine vorhandene Spaltenüberschrift oberhalb der x-Daten. Dann markieren Sie die (x, y)-Daten inklusive der beiden Zeilen oberhalb der Daten und gehen auf Empfohlene Diagramme → Alle Diagramme und können dann unter Vorlagen Ihre zuvor erzeugte Vorlage auswählen und auf die Daten anwenden. Wenn Sie dennoch eine Spaltenüberschrift oberhalb der x-Werte eingefügt hätten, dann interpretiert Excel die x-Werte als eigene Datenserie, und diese würden dann entsprechend auch separat in dem Diagramm dargestellt. Wenn Ihre Vorlage auf einer x-Datenreihe und nur einer y-Datenreihe beruht, dann ist sie so nicht auf multiple Daten mit mehreren yDatenreihen übertragbar. Dafür müssten Sie auch einer zuvor definierten Vorlage bereits auf mehrere y-Datenreihen angewendet haben. Andersrum, wenn Sie Ihre Vorlage mit mehreren y-Datenreihen erzeugt haben, dann ist es auf Daten mit nur einer y-Datenreihe übertragbar. Natürlich sind Vorlagen nicht nur auf X Y -Diagramme beschränkt, ich wollte sie hier nur als Beispiel anführen, weil sie in der Praxis häufig verwendet werden. Angenommen, Ihr Diagramm hat nun das Aussehen, was Sie für angemessen halten. Dann können Sie das Diagramm als Vektorgrafik exportieren. Hierzu markieren Sie es und wählen unter
46
2 Darstellung von Daten
Datei → Drucken einen PDF-Drucker aus. In Microsoft Windows 10 ist der Microsoft Print to PDF Drucker standardmäßig installiert und ist dafür geeignet. Falls Sie ihn nicht in Ihrer Liste sehen, können Sie ihn aktivieren unter Windows-Features aktivieren oder deaktivieren. Zurück zu Excel. Im Druckdialog achten Sie bitte darauf, dass unter Einstellungen Markiertes Diagramm drucken eingestellt ist. Wenn Sie anschließend auf Drucken gehen, können Sie den Pfad zum Speichern der PDF-Datei angeben. Nachdem Sie Speichern geklickt haben, haben Sie ihr Diagramm als PDF-Datei vorliegen. Dies ist letztlich ein Vektorgrafikformat, d. h. Sie können es beliebig skalieren, ohne dass es an Auflösung verliert, d. h., Sie sollten keine Probleme mit verpixelten Abbildungen bekommen. Diagramme im Vektorgrafikformat haben außerdem den Vorteil, dass nachträglich einzelne Teile (bspw. die Farbe Ihrer Kurve ändern) mit geeigneter Software, wie Inkscape (open source) oder Adobe Illustrator (kommerziell), im Nachhinein noch bearbeitet werden können. Falls nötig, können Sie dann aus der Software heraus in andere Formate speichern. Leider funktioniert das nicht mit allen Diagrammtypen, bspw. nicht mit 3D-Diagrammen oder Pareto-Diagrammen, diese werden nur als Pixelbilder in das PDF eingebettet.
Literatur 1. Gelman, A., Wainer, H., Briggs, W.M., Friendly, M., Kwan, E., Wills, G.: Why tables are really much better than graphs [with comments and rejoinder]. Journal of Computational and Graphical Statistics 20(1), 3–40 (2011) 2. Tukey, J.W.: Some graphic and semigraphic displays. Statistical Papers in Honor of George W, Snedecor (1972) 3. Hyndman, R.J., Fan, Y.: Sample quantiles in statistical packages. The American Statistician 50(4), 361–365 (1996) 4. Krzywinski, M., Altman, N.: Visualizing samples with box plots. Nature Methods 11, 119 (2014) 5. Hintze, J.L., Nelson, R.D.: Violin plots: A box plot-density trace synergism. The American Statistician 52(2), 181–184 (1998) 6. Ryan, G.W., Leadbetter, S.D.: On the misuse of confidence intervals for two means In: Testing For The Significance Of The Difference Between The Means. J. Mod. Appl. Stat. Methods 2(2), 473–478 (2002) 7. Motulsky, H.: Intuitive Biostatistics: A Nonmathematical Guide to Statistical Thinking. Oxford University Press (2017) 8. Krzywinski, M., Altman, N.: Error bars. Nature Methods 10, 921 (2013) 9. Cumming, G., Fidler, F., Vaux, D.L.: Error bars in experimental biology. J. Cell Biol. 177(1), 7–11 (2007)
3
Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
3.1
Was ist Wahrscheinlichkeit
Bezogen auf ein Ereignis X entspricht die Wahrscheinlichkeit P(X ) dem Grad, mit dem wir annehmen, dass dieses Ereignis eintreffen wird. Demnach ist eine Wahrscheinlichkeit eine reelle Zahl zwischen 0 und 1, wobei P(X ) = 1 bedeutet, dass X sicher eintreffen wird. Umgekehrt kennzeichnet P( X¯ ) den Grad, mit dem wir denken, dass X nicht wahr ist. In der Statistik wird X¯ als das zu X komplementäre Ereignis bezeichnet. Wenn Sie weiter darüber nachdenken, werden Sie zu dem Schluss kommen, dass die Wahrscheinlichkeit für das Eintreffen von X plus die Wahrscheinlichkeit für das Nichteintreffen von X gleich 1 sein muss, denn eines von beiden muss eintreffen. Bei diesen, sich ausschließenden Ereignissen gilt die Additionsregel: P(X ) + P( X¯ ) = 1 (3.1) Das Ereignis X kann bspw. das Würfeln einer 1 beim „Mensch ärgere dich nicht“ sein. Dementsprechend entspräche X¯ dem Würfeln einer 2, 3, 4, 5 oder 6. Irgendeine Zahl zwischen 1 und 6 wird gewürfelt werden, d. h., die Gesamtwahrscheinlichkeit ist 1: P({1}) + P({2, 3, 4, 5, 6}) = 1
(3.2)
Bei Verwendung eines Würfels ist das Würfeln einer Zahl {1, 2, 3, 4, 5, 6} unabhängig vom Würfeln einer anderen Zahl. Dementsprechend kann die Gesamtwahrscheinlichkeit für das Würfeln irgendeiner Zahl auch wie folgt berechnet werden:
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 M. Schneider, Datenanalyse für Naturwissenschaftler, Mediziner und Ingenieure, https://doi.org/10.1007/978-3-662-61866-0_3
47
48
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
P({1}) + P({2}) + P({3})+ P({4}) + P({5}) + P({6}) = 1 6
P({i}) = 1
(3.3) (3.4)
i=1
Die allgemeine Form von Gl. 3.4 bezeichnet man als Summenregel der Wahrscheinlichkeitsrechnung [3]. Sie wird in folgender (allgemeinen) Form dargestellt: N
P(X i ) = 1
(3.5)
i=1
Wenn wir nun nach der Wahrscheinlichkeit P(X i , X j ) für das Auftreten eines Ereignisses X i und eines anderen Ereignisses X j fragen, so müssen ggf. gewisse Abhängigkeiten zwischen diesen Ereignissen beachtet werden. P(X i , X j ) = P(X i |X j ) · P(X j )
(3.6)
Gl. 3.6 bezeichnet man in allgemeiner Form auch als Produktregel für Wahrscheinlichkeiten. P(X i |X j ) ist hierbei die Wahrscheinlichkeit für das Auftreten von X i unter der Voraussetzung, dass X j bereits eingetreten ist. Für den Spezialfall, dass die Ereignisse voneinander unabhängig sind, also X i nicht davon abhängt, ob X j bereits eingetreten ist, gilt: P(X i |X j ) = P(X i )
(3.7)
Der ein oder andere sehr Mathematik-affine Mensch wird vielleicht an dieser Stelle etwas die mathematische Strenge vermissen. Ich habe mich aber bewusst gegen eine detaillierte Ableitung aller Begriffe (inklusive einer mathematischen Definition von Wahrscheinlichkeit) und Regeln entschieden, da sie meiner Meinung nach nicht nötig sind, um die nachfolgenden Abschnitte zu verstehen. Im Übrigen kann man in Gl. 3.6 X i und X j problemlos vertauschen und erhält somit folgende Gleichung: P(X j , X i ) = P(X j |X i ) · P(X i )
(3.8)
Die Kombination von Gl. 3.6 und 3.8 führt letztlich auf den sogenannten Satz von Bayes1 (Bayes-Theorem): P(X j |X i ) · P(X i ) (3.9) P(X i |X j ) = P(X j ) Hierbei habe ich von der Tatsache Gebrauch gemacht, dass P(X i , X j ) gleich P(X j , X i ) ist. Der Satz von Bayes2 hat eine große Bedeutung im Bereich der Datenanalyse, ebenso 1 Thomas Bayes war ein englischer Mathematiker, der um 1701 in London geboren wurde. 2 Bayes war ein englischer Mathematiker.
3.1 Was ist Wahrscheinlichkeit
49
seine einzelnen Bestandteile, auf die ich im Folgenden kurz eingehen möchte. P(X j |X i ) bezeichnet man als Likelihood. Wie wir oben gelernt haben, handelt es sich hierbei einfach um eine bedingte Wahrscheinlichkeit. P(X i ) wird Priorwahrscheinlichkeit genannt, und P(X j ) wird als Evidence bezeichnet. Sie spielt beim Modellvergleich eine entscheidende Rolle (siehe hierzu auch Abschn. 5.7.2.3). Machen wir an dieser Stelle mal ein anschauliches Beispiel: Beispiel 3.1 Angenommen, Sie haben zwei unterscheidbare Würfel und fragen nach der Wahrscheinlichkeit P(X |Y ), dass die Augensumme X = 8 durch Würfeln eines Pasches Y entstand. Ein solches Würfelexperiment hat insgesamt 36 mögliche Zahlenpaare. Mathematisch spricht man bei {{1, 1}, {1, 2}, . . . , {6, 5}, {6, 6}} von der sogenannten Ergebnismenge dieses Würfelexperiments. Die Ergebnismenge ist die Zusammenfassung aller möglichen Zahlenpaare (mathematisch auch Elementarereignisse genannt). Die Wahrscheinlichkeit, ein bestimmtes Zahlenpaar zu würfeln, ist also gleich 1/36. Um die bedingte Wahrscheinlichkeit P(X |Y ) zu berechnen, stellen wir Gl. 3.8 um: P(X , Y ) P(X |Y ) = (3.10) P(Y ) Fangen wir mit dem Nenner P(Y ) an und bedienen uns gleichzeitig der Tab. 3.1. Die Anzahl aller möglichen Pasche ist 6. Demnach ist die Wahrscheinlichkeit P(Y ), einen Pasch zu würfeln, gleich 6/36 = 1/6. Kommen wir nun zur Bestimmung der Wahrscheinlichkeit P(X , Y ) im Zähler von Gl. 3.10, also der Wahrscheinlichkeit, dass X und Y (gleichzeitig) auftreten. Dazu bilden wir zunächst die Schnittmenge der Ereignisse X = {{2, 6}, {3, 5}, {4, 4}, {5, 3}, {6, 2}} und Y = {{1, 1}, {2, 2}, {3, 3}, {4, 4}, {5, 5}, {6, 6}}. Wie man sieht, besteht diese aus genau einem Ereignis, nämlich {4, 4}. D. h., die Wahrscheinlichkeit P(X , Y ) ist gleich 1/36. Nun können wir auch P(X |Y ) berechnen: 1 1/36 = (3.11) P(X |Y ) = 6/36 6 Das Würfeln eines Würfels ist ein klassisches Beispiel für ein Zufallsexperiment. Die Augenzahl ist hierbei eine sogenannte Zufallsvariable, sie unterliegt rein dem Zufall. Für das Würfeln mit zwei Würfeln gilt das Gleiche. Als Summe zweier Zufallsvariablen ist auch die Augensumme eine Zufallsvariable. Ich habe Tab. 3.1 bewusst so angeordnet, da man hierdurch auf einen Blick erkennen kann, dass bspw. die 7 die im Mittel am häufigsten geworfene Zahl bei zwei Würfeln ist. Dreht man diese Tabelle einmal auf den Kopf, so erkennt man den Verlauf der Häufigkeitsverteilung der Augensumme bei zwei Würfeln. Werden im genannten Beispiel die Häufigkeiten auf die Anzahl aller möglichen Würfelaugenpaare normiert, so
50
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
Tab. 3.1 Aufstellung aller möglichen Augenzahlenpaare und der entsprechenden Augensumme X . Mathematisch nennt man das die Ergebnismenge X
2
3
4
5
6
7
8
9
10
11
12
{1,1}
{1,2}
{1,3}
{1,4}
{1,5}
{1,6}
{2,6}
{3,6}
{4,6}
{5,6}
{6,6}
{2,1}
{2,2}
{2,3}
{2,4}
{2,5}
{3,5}
{4,5}
{5,5}
{6,5}
{3,1}
{3,2}
{3,3}
{3,4}
{4,4}
{5,4}
{6,4}
{4,1}
{4,2}
{4,3}
{5,3}
{6,3}
{5,1}
{5,2}
{6,2}
{6,1}
gelangt man von der Häufigkeitsverteilung zur Wahrscheinlichkeitsfunktion f (x). Über die in der Praxis wichtigen Wahrscheinlichkeitsfunktionen werden wir im folgenden Abschnitt noch im Detail sprechen.
3.2
Wichtige Wahrscheinlichkeitsverteilungen
Im vorangegangenen Abschnitt haben wir bereits den Begriff der Zufallsvariablen eingeführt. Ich möchte an dieser Stelle auf eine mathematische Definition verzichten, Ihnen aber anhand unseres altbekannten Würfelbeispiels 3.1 etwas genauer das Konzept der Zufallsvariablen näherbringen. Wie wir schon aus Tab. 3.1 sehen konnten, besteht die Ergebnismenge in diesem Beispiel aus 36 Elementarereignissen {{1, 1}, {1, 2}, . . . , {6, 5}, {6, 6}}. Wie wir auch schon bereits festgestellt hatten, ist die Augensumme X eine Zufallsvariable. Zunächst erscheint die Bezeichnung Zufallsvariable etwas irreführend, da es sich eigentlich um eine Funktion handelt, die einem Elementarereignis (bspw. {1, 2}) eine reelle Zahl zuordnet. D. h., die Elementarereignisse sind sozusagen die Funktionsvariablen von X . Hier z. B. X ({1, 2}) = 3. Andererseits ist die Zufallsvariable tatsächlich selbst auch eine Variable, nämlich dann, wenn man ihr mithilfe einer Wahrscheinlichkeitsfunktion eine Wahrscheinlichkeit zuordnet (vgl. z. B. Abb. 4.5d). Im Abschn. 4 werde ich Ihnen zeigen, wie man von der Wahrscheinlichkeitsfunktion für einen Würfel, zur Wahrscheinlichkeitsfunktion für zwei Würfel kommt. Die Wahrscheinlichkeitsfunktion nennt man übrigens auch Dichtefunktion bzw. Wahrscheinlichkeitsdichtefunktion. Neben dieser ist die sogenannte Verteilungsfunktion, oder auch kumulative Verteilungsfunktion genannt, sowohl von theoretischer als auch von praktischer Bedeutung. Von praktischer Bedeutung deshalb, weil man mit ihrer Hilfe bspw. Zufallszahlen erzeugen kann, die einer entsprechenden Dichtefunktion folgen (vgl. Abschn. 3.3). Einfach gesprochen entsteht die Verteilungsfunktion durch (kumulatives) Aufsummieren der Wahrscheinlichkeiten einer Dichtefunktion und entspricht somit einer Fläche unterhalb der Dichtefunktion (vgl. Abb. 3.1).
3.2 Wichtige Wahrscheinlichkeitsverteilungen
b Wahrscheinlichkeit
Wahrscheinlichkeitsdichte
a
51
Abb. 3.1 Die Verteilungsfunktion (b) entspricht der Menge aller Flächen die unterhalb der Wahrscheinlichkeitsdichtefunktion liegen (a)
Dem wachsamen Leser mag aufgefallen sein, dass dort, wo die Dichtefunktion ihr Maximum hat, die zugehörige Verteilungsfunktion einen Wendepunkt hat. Das kommt daher, weil die Verteilungsfunktion F(x) der integrierten Dichtefunktion f (x) entspricht: x F(x) =
f (s)ds
(3.12)
−∞
F(x) entspricht der Wahrscheinlichkeit, dass die Zufallsvariable X zwischen −∞ bis x zu finden ist. Für diskrete Wahrscheinlichkeitsverteilungen ist das Integral durch eine Summe zu ersetzen: x f (xk ) (3.13) F(x) = k=0
Will man nun die Wahrscheinlichkeit berechnen, dass X zwischen a und b liegt (mit a < b), so kommt man relativ schnell zu Gl. 3.14: P(a ≤ X ≤ b) = F(b) − F(a)
(3.14)
Bitte beachten Sie, dass im Gegensatz zu diskreten Zufallsvariablen, die Wahrscheinlichkeit für ein konkreten Wert X = x bei stetigen Zufallsvariablen gleich null ist. 3.1 Übung Wie groß ist die Wahrscheinlichkeit bei 10 Würfen mit einem Würfel, dass mindestens einmal die Zahl 6 erhalten wird?
52
3.2.1
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
Binomialverteilung
Mit der Binomialverteilung (auch Bernoulli-Verteilung genannt) beschäftigt man sich spätestens dann, wenn es um die Suche nach den Wahrscheinlichkeiten für zwei sich ausschließende Ereignisse geht. Sei nun p die Wahrscheinlichkeit für das Eintreten eines Ereignisses E, dann wissen wir aus Abschn. 3.1, dass bei sich gegenseitig ausschließenden Ereignissen die Wahrscheinlichkeit für das Eintreten von E gleich p E = 1 − p ist. Bei n-maligem Ausführen eines Zufallsexperimentes beschreibt die Binomialverteilung n x (3.15) f (x) = p (1 − p)n−x x die Wahrscheinlichkeit, dass x-mal das Ereignis E und entsprechend n − x-mal das Ereignis E eintritt. Der Münzwurf ist ein klassisches Beispiel, bei dem die Binomialverteilung Anwendung findet. Den Ausdruck nx kennen Sie vermutlich besser unter dem Namen Binomialkoeffizient, den man häufig im Zusammenhang mit binomischen Formeln bzw. dem Pascal’schen Dreieck kennenlernt. Ausgeschrieben bedeutet es nicht anderes als: n n · (n − 1) . . . (n − x + 2) · (n − x + 1) = (3.16) x x · (x − 1) . . . 2 · 1 und entspricht der Anzahl Möglichkeiten, bei n Ausführungen x-mal das Ereignis E und entsprechend n − x-mal das zu E komplementäre Ereignis E zu erhalten. Bei insgesamt n = 5 Münzwürfen wäre x = 3 mal Kopf ein Beispiel dafür. Dabei ist es egal, ob die drei Kopf direkt bei den ersten drei Würfen erhalten wurden und bei den letzten beiden Würfen dann eine Zahl, oder ob die drei Kopf erst bei den letzten drei Würfen zustande kamen. Der Ausgang „3 mal Kopf“ ist hier derselbe. p in Gl. 3.15 entspricht der Wahrscheinlichkeit für das Eintreten des Ereignisses bei einmaliger Ausführung des zugrunde liegenden Experimentes, 1− p entspricht dementsprechend der Wahrscheinlichkeit des Eintreffens des komplementären Ereignisses bei einmaliger Ausführung. n entspricht der Gesamtanzahl der Ausführungen des Experimentes und x der Gesamtanzahl der Experimente, in denen das Ereignis eingetreten ist. Abb. 3.2 verdeutlicht dies für P = 0,2 und verschiedene n-Werte. Um zu verdeutlichen, dass die Binomialverteilung diskret ist, habe ich Datenpunkte statt reine Liniendiagramme gezeichnet. Die geraden Verbindungslinien zwischen den Punkten dienen lediglich der besseren Veranschaulichung des Verlaufs. Sie sehen, dass dieser mit zunehmender Anzahl Ausführungen n immer mehr einer Glockenkurve ähnelt. Tatsächlich nähert sich die Binomialverteilung für große n immer mehr der Poisson-Verteilung an. Da wir es bei der Bernoulli-Verteilung mit einer diskreten Wahrscheinlichkeitsdichtefunktion zu tun haben, ist auch die Verteilungsfunktion entsprechend diskret. Dementsprechend muss sie in Summenform hingeschrieben werden: F(x) =
x n k=0
k
p k (1 − p)n−k
(3.17)
Abb. 3.2 Veranschaulichung verschiedener Binomialverteilungen mit p = 0,2 und n = 10 (schwarze Linie), n = 25 (magentafarbene Linie) und n = 100 (blaue Linie)
Wahrscheinlichkeitsdichte
3.2 Wichtige Wahrscheinlichkeitsverteilungen
53
0,3
0,2
0,1
0 0
5
10
15
20 x
25
30
35
40
3.2 Übung: Berechnen Sie die Wahrscheinlichkeit aus Übung 3.1 mithilfe der Binomialverteilung. Verwenden Sie hierzu die Excel-Funktion BINOM.VERT.
3.2.2
Poissonverteilung
Die Poisson-Verteilung ist sozusagen der kleine Bruder der Binomialverteilung. Sie findet dann Anwendung, wenn die Wahrscheinlichkeit p des Einzelereignisses sehr klein ist, die Anzahl der Ausführungen jedoch groß. Tatsächlich können wir die Poisson-Verteilung aus der Binomialverteilung ableiten, indem man im Grenzwert p gegen null und n gegen unendlich laufen lässt. Ich schreibe Ihnen hier lediglich das Endergebnis dieser Herleitung hin: λx f (x) = exp(−x) (3.18) x! x ist hierbei die Anzahl der Ereignisse, und λ bezeichnet die mittlere (zu erwartende) Ereignishäufigkeit und ist gleich: λ = np (3.19) Abb. 3.3 zeigt ein paar Beispiele für Poisson-Verteilungen mit verschiedenen Werten für λ. Wie klein muss p und wie groß soll n denn nun sein, damit man anstatt mit der Binomialverteilung mit der Poisson-Verteilung rechnen darf? Hier gibt es leider keine pauschale Antwort. Die Binomialverteilung wird Ihnen auf jeden Fall eine richtige Antwort liefern. Die Poisson-Verteilung ist aber wesentlich handlicher zum Rechnen. Ein Beispiel, wo die Poisson-Verteilung eine Rolle spielt, ist bei der Detektion seltener Ereignisse bei einer sehr großen Anzahl an Versuchen. So z. B. bei der Detektion einzelner Photonen mittels Avalanche Photodioden (APD). APDs haben eine sehr hohe zeitliche Auflösung und sind in der Lage, einzelne Photonen zu detektieren, sie werden gerne bei der Detektion von Fluoreszenzphotonen verwendet. In ungefähr 10.000 Zeitintervallen tritt hierbei nur ungefähr ein
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
Abb. 3.3 Veranschaulichung verschiedener Poisson-Verteilungen mit λ = 0,5 (schwarze Linie), λ = 3 (magentafarbene Linie) und λ = 8 (blaue Linie)
0,7 Wahrscheinlichkeitsdichte
54
0,6 0,5 0,4 0,3 0,2 0,1 0 0
5
10 x
15
20
Photonenereignis auf. Ähnlich wie bei der Binomialverteilung kann ich die Verteilungsfunktion der Poisson-Verteilung nur als Summenform hinschreiben: F(x) =
x λk k=0
k!
exp(−k)
(3.20)
Kommen wir im nächsten Abschnitt zu den wichtigsten stetigen Verteilungsfunktionen.
3.2.3
Gauß’sche Normalverteilung
Die Gauß’sche Normalverteilung (kurz Normalverteilung) ist sicherlich eine der in den Anwendungen am häufigsten verwendeten Verteilungsfunktionen. Im Gegensatz zur Binomialverteilung und Poisson-Verteilung ist sie eine stetige Verteilungsfunktion. Ihre Wichtigkeit in den Natur- und Ingenieurswissenschaften beruht hauptsächlich darauf, dass die meisten Messvariablen die Summe verschiedener zufälliger Einflüsse sind, wie bspw. das Rauschen des Messsystems oder die zufällige Natur des zu untersuchenden Systems selbst (bspw. Fluoreszenzemission). Diese zufälligen Einflüsse überlagern sich, wodurch sich die entsprechenden Wahrscheinlichkeitsverteilungen ineinanderfalten, was auch als Konvolution bezeichnet wird (was Konvolution ist, wird in Abschn. 4.3 erläutert). Dadurch nähert sich die Wahrscheinlichkeitsdichte der resultierenden Zufallsvariable immer mehr einer Gauß’schen Normalverteilung an, was mithilfe des zentralen Grenzwertsatzes (siehe unten) beschrieben wird. Die Gauß’sche Normalverteilung ist symmetrisch um einen Punkt μ, dem Mittelwert. Die Breite dieser Funktion ist durch die Maßzahl σ bestimmt, die man Standardabweichung nennt. Das sind zwei von mehreren möglichen Maßzahlen von Verteilungen, denen ich in diesem Buch ein eigenes Kapitel widme und daher an dieser Stelle nicht weiter darauf eingehen werde. Die Dichtefunktion f (x) schreibt sich in der folgenden Form:
3.2 Wichtige Wahrscheinlichkeitsverteilungen
55
1
1 f (x) = √ exp − 2 2πσ
x −μ σ
2 (3.21)
Anhand des quadrierten Exponenten in Gl. 3.21 erkennen Sie auch, warum die Normalverteilung symmetrisch um μ ist. Die Form wird häufig als Glockenkurve bezeichnet, weil sie wie ein Längsschnitt durch eine Glocke aussieht (vgl. Abb. 3.4). Wie in der Abbildung zu erkennen, wird die Verteilung breiter, je größer die Standardabweichung σ wird. Einige analytische Signale haben annähernd die Form einer Gauß’schen Normalverteilung. Die Peaks in einem Chromatogramm bspw. haben in sehr guter Näherung die genannte Form. Bei solchen Signalen werden oft die sogenannten Halbwertsbreiten (engl. full width at half maximum, kurz F W H M) als Maß für Breite der Verteilung ermittelt. Über die Beziehung √ F W H M = 2 2 ln 2σ 2 (3.22) lässt sich dann relativ leicht die Standardabweichung berechnen. Die zugehörige Verteilungsfunktion muss ich Ihnen an dieser Stelle als nicht aufgelöstes Integral hinschreiben, es lässt sich nur noch numerisch lösen (siehe Abschn. 1.5): 1
F(x) = √ 2π σ
x −∞
1 exp − 2
s−μ σ
2 (3.23)
ds
Man bezeichnet es auch als Gauß’sches Fehlerintegral. NORM.VERT ist die Funktion, mit der Sie entweder die Wahrscheinlichkeitsdichtefunktion (Gl. 3.21) oder die Verteilungsfunktion (Gl. 3.23) in Excel berechnen können. Übrigens wird der Exponent in Gl. 3.21 noch eine wichtige Rolle spielen: x −μ z= (3.24) σ
0,8 Wahrscheinlichkeitsdichte
Abb. 3.4 Veranschaulichung der Gauß’schen Normalverteilung mit μ = 5 und σ = 0,5 (durchgezogene Linie), σ = 1,0 (gestrichelte Linie) und σ = 1,5 (gepunktete Linie)
0,6
0,4
0,2
0 0
1
2
3
4
5 x
6
7
8
9
10
56
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
Er wird z-score genannt und spielt eine wichtige Rolle bei der χ 2 -Verteilung und beim Testen auf Verteilungen. Ist die Zufallsvariable x normalverteilt mit Mittelwert μ1 und Standardabweichung σ1 , dann ist auch z normalverteilt, mit Mittelwert μ = 0 und Standardabweichung σ = 1. Diese Aussage können Sie an dieser Stelle vielleicht noch nicht selbst überprüfen, aber mit den Erkenntnissen aus Abschn. 3.2.8 sollte dies möglich sein. Mit Hilfe von Gl. 3.24 transformieren Sie also die Zufallsvariable x in eine neue (standardisierte) Zufallsvariable z mit den genannten Eigenschaften. Diese Transformation bezeichnet man daher als z-Transformation oder auch Standardisierung. Zentraler Grenzwertsatz Der Gauß’schen Normalverteilung kommt eine besondere Bedeutung zu. Wenn Sie das Würfelexperiment von oben nochmals sukzessiv mit ansteigender Würfelanzahl wiederholen und jeweils die Verteilung der Summe der Würfelaugen aufschreiben würden, dann stellten Sie fest, dass sich die Verteilung der Würfelsummen mehr und mehr einer Gauß’schen Normalverteilung annähern. Das können Sie sich auch gerne mal simulieren. Dazu können Sie in Excel die Funktion ZUFALLSBEREICH(1;6) verwenden. Damit simulieren Sie den einmaligen Wurf eines Würfels mit 1 bis 6 Würfelaugen. Wenn Sie diese Funktion nun in sagen wir zehn benachbarte Zellen kopieren, sagen wir von B3 bis K3, diese zehn Zellen anschließend markieren und F5 (oder strg + G ) drücken, dann können Sie im auftretenden Gehe zu Dialog unter Verweis den Bereich B3:K10002 eingeben und OK klicken. Excel markiert dann den angegebenen Bereich. Wenn Sie nun in die Bearbeitungsleiste klicken (in dem ja ZUFALLSBEREICH(1;6) stehen sollte) und strg + drücken, dann kopiert Excel automatisch die Funktion in alle markierten Zellen. Somit haben Sie virtuell 10.000 mal je Spalte mit einem Würfel gewürfelt bzw. 1-mal mit zehn Würfeln je Zeile gewürfelt. Berechnen Sie bitte nun einmal die Summe über die Zeilen, sodass Sie 10.000 Werte für die Würfelaugensummen S10 der zehn Würfel erhalten. Wenn Sie daraus nun ein Histogramm erstellen (vgl. Abschn. 2.2.4), werden Sie erkennen, dass dieses sehr stark einer Gauß’schen Normalverteilung ähnelt. Mit zunehmender Anzahl n an Summanden Sn bzw. Würfeln verschiebt sich die Verteilung um den Faktor nμ nach rechts. Sie wird aber lediglich um den Faktor √ n breiter, also relativ zum Mittelwert gesehen sogar schmaler. Der zentrale Grenzwertsatz besagt nun, dass die standardisierte Zufallsvariable
zn =
Sn − nμ √ σ n
(3.25)
im Grenzfall n → ∞ einer Standardnormalverteilung folgt. Bitte behalten Sie dies im Hinterkopf, denn es erleichtert den Zugang zu Hypothesentests (vgl. Abschn. 3.4) ungemein. Der zentrale Grenzwertsatz ist auch von praktischer Bedeutung. Viele der in diesem Buch besprochenen statistischen Tests setzen normalverteilte Daten voraus. Haben Sie sich schon mal gefragt, ob das in der Praxis überhaupt der Fall sein kann? Häufig sind Messdaten selbst die Summe vieler Zufallsprozesse (bspw. Brown’sche Molekularbewegung, Detektorrauschen,
3.2 Wichtige Wahrscheinlichkeitsverteilungen
57
Hintergrundrauschen, systeminhärente Zufallsprozesse wie Fluoreszenzemission etc.), und demnach ist die Annahme von annähernd normalverteilten Daten häufig gerechtfertigt. 3.3 Übung: Erzeugen Sie, ähnlich wie bei unserem 10-Würfel-Beispiel von gerade, normalverteilte Zufallsdaten mithilfe der Funktion NORM.INV(ZUFALLSZAHL(),10,0,5). Der Mittelwert und die Standardabweichung betragen hier 10 bzw. 0,5. Generieren Sie zunächst 10.000 × 3 Zufallszahlen und berechnen Sie den Mittelwert zeilenweise, sodass Sie 10.000 Mittelwerte erhalten. Stellen Sie diese Mittelwerte in einem Histogramm dar. Dasselbe wiederholen Sie mit 10.000 × 10 Zufallszahlen und stellen auch die daraus erhaltenen Mittelwerte als Histogramm dar. Was fällt Ihnen auf, wenn Sie die beiden Histogramme vergleichen?
3.2.4
Logarithmische Normalverteilung
Wie wir gerade gesehen haben, erhält man eine normalverteilte Zufallsvariable immer dann, wenn sie die Summe vieler verschiedener Zufallsvariablen (Streueinflüsse) ist. Dies führte uns zur Gauß’schen Normalverteilung. Wenn eine Zufallsvariable z jedoch nicht die Summe, sondern das Produkt z = x1 · x2 · · · · xn vieler verschiedener Zufallsvariablen xi ist, dann führt das zur sogenannten logarithmischen Normalverteilung: 1 ln x − μ 2 1 exp − f (x) = √ (3.26) 2 σ 2π σ Hierbei gilt jedoch die Einschränkung, dass alle x positiv sein müssen. Trägt man f (x) gegen x auf, so erhält man im Allgemeinen eine nicht symmetrische Verteilung, wie in Abb. 3.5 dargestellt. Trägt man f (x) jedoch gegen ln x bzw. auf einer logarithmisch skalierten x-Achse auf, so erhält man wiederum eine Gauß’sche Normalverteilung. Die kumulierte Verteilungsfunktion kann wiederum nur noch in Integralform aufgeschrieben werden: x 1 ln s − μ 2 1 exp − ds (3.27) F(x) = √ 2 σ 2π σ 0
Die logarithmische Normalverteilung spielt bei bestimmten Anwendungen eine große Rolle, so z. B. bei der Verteilung der Partikelgröße von Mahlwerk oder der Verteilung der EC50 -Werte in der Pharmakologie (siehe auch Abschn. 3.4).
58
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
Wahrscheilichkeitsdichte
b
Wahrscheilichkeitsdichte
a
0,6 0,4 0,2 0
0
5
10 x
15
0,6 0,4 0,2
20
0 −2 10
10−1
x
100
101
Abb. 3.5 Veranschaulichung der logarithmischen Normalverteilung mit σ = 1 und μ = 0 (gestrichelte Linie) bzw. μ = 1 (durchgezogene Linie) mit linearer x-Achse (a) und logarithmischer x-Achse (b)
3.2.5
χ 2 -Verteilung – und die Gammafunktion
Die χ 2 -Verteilung spielt eine wichtige Rolle bei verschiedenen statistischen Testverfahren, die weiter unten in diesem Kapitel beschrieben werden. Nehmen wir einmal an, Sie haben n Zufallsvariablen z 1 , . . . , z n von der Form wie in Gl. 3.24. Diese quadrieren Sie und summieren sie auf. Dadurch erhalten Sie wiederum eine Zufallsvariable, nennen wir sie X : X=
n
z i2
(3.28)
i=1
Die Dichtefunktion f (x) zu dieser Zufallsvariablen sieht etwas respekteinflößend aus:
f (x) =
x
exp − x2 f¨ur x ≥ 0 n 2 2 Γ n2
n−2 2
(3.29)
Hierbei ist n die Anzahl der Freiheitsgrade3 . Γ ist die sogenannte Gammafunktion. Sie berechnet sich nach folgender Gleichung: ∞ Γ (α) =
s α−1 exp (−s) ds
0
3 Zu Freiheitsgraden finden Sie weiter unten mehr.
(3.30)
3.2 Wichtige Wahrscheinlichkeitsverteilungen Abb. 3.6 Veranschaulichung der χ 2 -Verteilung mit n = 2 (durchgezogene Linie), n = 4 (gestrichelte Linie) und n = 8 Freiheitsgraden (gepunktete Linie)
59
Wahrscheinlichkeitsdichte
0,5 0,4 0,3 0,2 0,1 0 0
5
10 x
15
20
Aber keine Panik, Sie müssen das Integral in Gl. 3.30 nicht von Hand ausrechnen. In Excel ist diese Funktion bereits als GAMMA() implementiert. Wie Sie vielleicht schon anhand von Gl. 3.29 erkennen können, ist die χ 2 -Verteilung, im Gegensatz zur Gauß’schen Normalverteilung im Allgemeinen nicht symmetrisch (vgl. Abb. 3.6). Setzen Sie bspw. n = 2 in Gl. 3.29 ein, so erhalten Sie eine exponentiell abfallende Wahrscheinlichkeitsdichtefunktion. Sie wird es jedoch mit einer immer größer werdenden Anzahl Freiheitsgraden n und nähert sich dann der Gauß’schen Normalverteilung an. Die Verteilungsfunktion F(x) kann ebenso wenig in geschlossener Form angegeben werden wie die Dichtefunktion selbst:
z n−2 exp − 2s s 2 ds F(x) = n Γ n2 22
(3.31)
0
Mit der Funktion CHIQU.VERT können Sie entweder die Wahrscheinlichkeitsdichtefunktion (Gl. 3.29) oder die kumulative Verteilungsfunktion (Gl. 3.31) in Excel berechnen.
3.2.6
Student-t-Verteilung
Die Student-t-Verteilung geht auf den Chemiker und Mathematiker William Sealy Gosset zurück, der seine Ergebnisse unter dem Pseudonym Student veröffentlichte [4] und daher der Verteilung ihren Namen gegeben hat. Sie hat eine besondere Bedeutung bei verschiedenen Arten von statistischen Tests, wie wir in Abschn. 3.4.1.2 noch sehen werden. An dieser Stelle legen wir den Grundstein für ein besseres Verständnis dieser Tests. Dazu nehmen wir an, U sei eine Zufallsvariable, die einer Gauß’schen Normalverteilung folge. V sei eine zweite Zufallsvariable, die einer χ 2 -Verteilung mit n Freiheitsgraden folge. Dann folgt die Zufallsvariable
60
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
X=√
U V /n
(3.32)
der sogenannten Student-t-Verteilung. Sie genügt der Dichtefunktion − n+1 2 Γ n+1 x2 2 f (x) = √ 1+ n n nπ Γ 2
(3.33)
Wie wir sehen werden, ist U bspw. die Differenz zweier Mittelwerte und V die (gepoolte) Standardabweichung der zugehörigen Messreihen. Grafisch dargestellt (vgl. Abb. 3.7) ergibt sich eine symmetrische Dichteverteilungsfunktion, die sich mit größer werdendem n immer mehr einer Standardnormalverteilung annähert. Die Student-t-Verteilung mit nur einem Freiheitsgrad (vgl. Abb. 3.7 gestrichelte Kurve) ist übrigens auch unter dem Namen Cauchy-Verteilung oder Lorentz-Verteilung bekannt und spielt eine gewisse Rolle bei der Peak-Form verschiedener spektroskopischer Methoden. Die Verteilungsfunktion F(x) erhält man wieder durch Integration x − n+1 2 Γ n+1 s2 2 F(x) = √ 1 + ds n nπ Γ n2
(3.34)
−∞
T.VERT ist die Excel-Funktion, mit der Sie entweder die Wahrscheinlichkeitsdichtefunktion (Gl. 3.33) oder die Verteilungsfunktion (Gl. 3.34) berechnen können, abhängig davon, welchen dritten Parameter Sie an diese Funktion übergeben.
0,4 Wahrscheinlichkeitsdichte
Abb. 3.7 Veranschaulichung der Student-t-Verteilung mit 1 Freiheitsgrad (gestrichelte Linie) bzw. 5 Freiheitsgraden (gepunktete Linie). Zum Vergleich ist die Standardnormalverteilung (durchgezogene Linie) auch im Diagramm dargestellt, der sich die Student-t-Verteilung mit größer werdenden Freiheitsgraden immer mehr annähert
0,3
0,2
0,1
0 −6
−4
−2
0 x
2
4
6
3.2 Wichtige Wahrscheinlichkeitsverteilungen
3.2.7
61
F-Verteilung
Die F-Verteilung, auch Fisher-Verteilung genannt, ist nach dem englischen Mathematiker R.A. Fisher bekannt. Nehmen wir einmal an, U und V seien zwei unabhängige χ 2 -verteilte Zufallsvariablen mit m bzw. n-Freiheitsgraden. Dann ist die Zufallsvariable X=
U m V n
(3.35)
F-verteilt mit m und n Freiheitsgraden. Sie besitzt die Dichtefunktion m−2 Γ m+n m n x 2 2 f (x) = m n m 2 n 2 m+n Γ 2 Γ 2 (mx + n) 2
(3.36)
und die Verteilungsfunktion F(x) m−2 x Γ m+n m n s 2 2 F(x) = m n m 2 n 2 m+n ds Γ 2 Γ 2 (ms + n) 2
(3.37)
0
Mit F.VERT können Sie entweder die Wahrscheinlichkeitsdichtefunktion (Gl. 3.36) oder die Verteilungsfunktion (Gl. 3.37) in Excel berechnen. Je nach der Anzahl Freiheitsgrade kann die Dichtefunktion stark unterschiedlich aussehen (vgl. Abb. 3.8). Im Allgemeinen ist sie unsymmetrisch, wird jedoch symmetrischer, je größer m und n werden. Dabei konzentriert sie sich zunehmend um den x-Wert 1, eine Tatsache, die eine Rolle beim sogenannten F-Test spielt, mit dem bspw. überprüft wird, ob zwei Werte statistisch signifikant verschieden sind oder nicht. Hierbei ist Gl. 3.35 bspw. das Verhältnis
2 Wahrscheinlichkeitsdichte
Abb. 3.8 Veranschaulichung der F-Verteilung mit m = 100, n = 90 (strichpunktierte Linie), m = 30, n = 25 (gestrichelte Linie), m = 6, n = 10 (gepunktete Linie) und m = 2, n = 10 Freiheitsgraden (durchgezogene Linie)
1,5
1
0,5
0 0
1
2 x
3
4
62
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
zweier Varianzen, die mithilfe des F-Tests miteinander verglichen werden sollen. Der F-Test bildet auch die Grundlage für die Varianzanalyse (vgl. Abschn. 3.4.1.7).
3.2.8
Maßzahlen von Wahrscheinlichkeitsverteilungen
Für Wahrscheinlichkeitsfunktionen gibt es gewisse Maßzahlen, die in den Anwendungen sehr nützlich sind. Diese Maßzahlen nennt man Momente. Eines der bekanntesten Momente ist der Mittelwert. Interessant an den Momenten ist, dass sie sehr viel Information über eine Wahrscheinlichkeitsverteilung tragen können. Generell gilt: Wenn man alle Momente kennt, dann weiß man alles über die entsprechende Wahrscheinlichkeitsverteilung. Im Folgenden lernen wir die in der Praxis am häufigsten verwendeten Maßzahlen für Verteilungen kennen.
3.2.8.1 Momente von Verteilungen Mittelwert Der Mittelwert ist das mit Abstand bekannteste Moment. Für eine diskrete Verteilung f (x) errechnet er sich wie folgt: ∞ μ= xi f (xi ) (3.38) i=1
Im Falle einer stetigen Wahrscheinlichkeitsfunktion f (x), wird die Summe durch ein Integral ersetzt: ∞ μ= x f (x)d x (3.39) −∞
Statt vom Mittelwert einer Verteilung spricht man auch häufig vom Mittelwert der zugehörigen Zufallsvariablen X . Gl. 3.38 bzw. 3.39 nennt man auch den Erwartungswert E(X ) dieser Zufallsvariablen. Bitte beachten Sie, dass der Mittelwert ein theoretisches Konstrukt ist. In der Praxis hat man es in aller Regel nur mit einer kleinen Auswahl aller möglichen Daten zu tun, also einer Stichprobe x1 , . . . , xn . Für diese berechnet sich der Schätzwert des Mittelwerts, bezeichnen wir ihn mit x, ¯ entsprechend zu: x¯ =
n 1 xi n i=1
(3.40)
3.2 Wichtige Wahrscheinlichkeitsverteilungen
63
Beispiel 3.2 Wir berechnen den Mittelwert für die Poisson-Verteilung E(X ) =
∞ xi =0
xi
λxi exp (−λ) xi !
= λ exp (−λ) = λ exp (−λ)
∞ λxi−1 (xi−1 )!
xi =1 ∞ λj j=1
j!
=λ Der Audruck
∞ j=1
λj j!
(3.41)
in Gl. 3.41 entspricht der Taylorreihenentwicklung der Exponen-
tialfunktion mit dem Exponenten λ, d. h., exp (−λ) und exp (λ) kürzen sich weg und λ bleibt übrig. Ist die Zufallsvariable, nennen wir sie jetzt Y , selbst die Summe von anderen Zufallsvariablen X 1 , . . . , X n , dann ist der Mittelwert μY der Variablen Y gleich: μY = μa1 X 1 +···+an X n = a1 μ X 1 + · · · + an μ X n
(3.42)
Das hängt damit zusammen, dass das Integral (vgl. Gl. 3.39) einer Summe gleich der Summe der einzelnen Integrale ist. Summation und Integration ist also vertauschbar. Gl. 3.42 nennt man auch den Additionssatz für Mittelwerte. Die Koeffizienten ai können auch durchaus negativ sein. Ich bin sicher, die meisten haben mit dem Additionssatz in der Praxis (möglicherweise unbewusst) bereits zu tun gehabt. Wenn Sie bspw. mit einem Photometer die Absorption eines Analyten messen, dann messen Sie nicht nur das reine Signal des Analyten selbst, sondern auch das Untergrundsignal, auch Blank genannt. Beide Signale sind im Prinzip Zufallsvariablen. Das gemessene Signal, ebenfalls eine Zufallsvariable, ist die Summe aus dem reinen Analytensignal und dem Blank. Da Sie an dem (mittleren) Analytensignal interessiert sind, ziehen Sie den Blank vom gemessenen Signal ab. Der Vollständigkeit halber erwähne ich hier noch den Multiplikationssatz für Mittelwerte, der aber streng nur für unabhängige Zufallsvariablen X 1 , . . . , X n (siehe hierzu Abschn. 3.1) gilt: μ y = μa1 X 1 ·····an X n = a1 μ X 1 · · · · · an μ X n
(3.43)
Neben dem Mittelwert (bzw. Erwartungswert, Gl. 3.39) ist gerade für lognormalverteilte Daten das sogenannte geometrische Mittel interessant. Der normale Mittelwert wird relativ stark verzerrt durch die weiter außen liegenden Datenpunkte (vgl. Abb. 3.9), die ja wesentlich
64
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
Abb. 3.9 Zum Vergleich des „klassischen“ Mittelwertes (gestrichelte horizontale Linie) gegenüber dem geometrischen Mittel (durchgezogene horizontale Linie) dargestellt mit linear skalierter Ordinate (links) und logarithmisch skalierter Ordinate (rechts)
610
1000
410 100 210
10
10
häufiger bei einer logarithmischen Normalverteilung auftreten als bei einer Normalverteilung der Daten. Das geometrische Mittel berechnet sich über folgende Gleichung: μY =
√ n
x1 x2 . . . xn−1 xn
(3.44)
Das führt dazu, dass der Mittelwert bei logarithmischer Skalierung der y-Achse offenbar die Datenwolke alles andere als in der Mitte trennt, sondern eher nach oben gezogen wird. Das geometrische Mittel hingegen trennt die Daten beinahe in der Mitte auf. Es befinden sich sieben Datenpunkte oberhalb der Linie, sechs Datenpunkte unterhalb der Linie und zwei Datenpunkte annähernd auf der Linie des geometrischen Mittels. Das geometrische Mittel ist immer kleiner oder gleich dem Mittelwert. Die xi in Gl. 3.44 sind die nichtlogarithmierten Werte. Alternativ können Sie zur Berechnung des geometrischen Mittels die Daten zunächst logarithmieren, anschließend den klassischen Mittelwert berechnen und dieses dann zurücktransformieren. Excel hat mit GEOMITTEL bereits eine Funktion, womit das geometrische Mittel gemäß Gl. 3.44 berechnet wird. Varianz Neben dem Mittelwert wird oft die Varianz σ 2 für eine Verteilung bzw. für eine Zufallsvariable X berechnet, da sie ein Maß für die Streuung der Werte dieser Zufallsvariablen ist. Zu ihrer Berechnung wird der Mittelwert μ benötigt. Dann erhalten wir für den diskreten Fall: ∞ (3.45) σ2 = (xi − μ)2 f (xi ) i=1
Für den stetigen Fall berechnet sich σ zu: 2
∞
σ =
(x − μ)2 f (x)
(3.46)
−∞
Die Varianz und die aus ihr durch Wurzelziehen berechnete Standardabweichung σ werden in der Praxis häufig als Maß für die Streuung verwendet. Die Varianz wird noch im
3.2 Wichtige Wahrscheinlichkeitsverteilungen
65
Abschnitt zur Varianzanalyse (vgl. Abschn. 3.4.1.7) eine große Rolle spielen. In den Anwendungen kann man die wahre Varianz in aller Regel nicht berechnen (ebenso wenig den wahren Mittelwert), da man es mit einer Stichprobe zu tun hat und nicht mit der Grundgesamtheit. In dem Fall muss ein Schätzwert für die Varianz der Grundgesamtheit berechnet werden kann. Nehmen wir an, x1 , . . . , xn sei unsere Stichprobe, dann kann man als Schätzwert s für die Varianz bspw. den Mittelwert der quadratischen Abweichungen vom Mittelwert nehmen: n 1 s = (xi − μ)2 n 2
(3.47)
i=1
In Excel gibt es hierfür die Funktion VAR.P. Wenn der Mittelwert μ jedoch auch nur ein Schätzwert für den wahren Wert sein sollte, was in der Praxis der häufigste Fall sein sollte, dann ist die in Gl. 3.47 berechnete Varianz nicht die Richtige. In diesem Fall sollten Sie die folgende Gleichung nehmen: 1 ¯ 2 (xi − x) n−1 n
s2 =
(3.48)
i=1
Der Faktor 1/(n − 1) berücksichtigt hierbei, dass der Mittelwert x¯ (genauer gesagt der Schätzwert für den wahren Mittelwert) aus der Stichprobe berechnet wird. Wir werden den Faktor n − 1 an anderer Stelle als Freiheitsgrade bezeichnen. Diese Korrektur findet man häufig auch unter dem Namen Bessel-Korrektur. Gl. 3.48 steckt letztlich auch in der ExcelFunktion VAR.S. Ihnen ist vielleicht aufgefallen, dass ich an manchen Stellen griechische Buchstaben für bspw. den Mittelwert verwendet habe und an manchen Stellen lateinische Buchstaben. Es hat sich eingebürgert, theoretische Maße einer Verteilung mit griechischen Buchstaben und Maße, die aus Stichproben berechnet wurden, also Schätzwerte für die wahren Maße, mit lateinischen Buchstaben zu kennzeichnen. Ich werde mich nicht immer strikt daran halten, da einem irgendwann die Bezeichner ausgehen. Sie werden jedoch in aller Regel aus dem Kontext schließen können, ob Sie eine entsprechende Größe aus einer Stichprobe berechnet vor sich haben, oder aus einer zugrunde liegenden (theoretischen) Verteilung. Ähnlich wie für Mittelwerte verschiedener Zufallsvariablen gibt es auch für die Varianzen einen Additionssatz. Nehmen wir wieder an, Y sei eine Zufallsvariable, die als Summe anderer Zufallsvariablen X 1 , . . . , X n geschrieben werden kann. Dann gilt: σY2 = σ 2 (a1 X 1 + · · · + an X n ) = a12 σ X2 1 + . . . an2 σ X2 n
(3.49)
Sie sehen, dass, wenn einer der Koeffizienten ai negativ sein sollte, dieser durch das Quadrieren positiv wird. Die Varianz von σ 2 (X 1 − X 2 ) ist demnach σ X2 1 + σ X2 2 Ähnlich wie das geometrische Mittel gibt es auch die geometrische Standardabweichung. Diese berechnen Sie, indem Sie wiederum zunächst ihre Daten logarithmieren, daraus
66
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
die Standardabweichung berechnen und anschließend zurücktransformieren. Eine ExcelFunktion hierfür gibt es leider nicht. 3.4 Übung: Berechnen Sie die Varianz für die Wahrscheinlichkeitsdichte des Würfels. Schiefe Die Schiefe ist eine Art Maß für die Abweichung der Verteilung von einer symmetrischen Verteilung. Als Maß für die Schiefe einer Verteilung wird, im diskreten Fall, oft die folgende Größe herangezogen: ∞ (xi − μ)3 f (xi ) i=1 (3.50) γ1 = σ3 oder für den stetigen Fall:
∞ (x − μ)3 f (x) γ1 =
−∞
(3.51) σ3 Wenn die Verteilung f (x) symmetrisch ist, dann ist γ1 null. Falls γ1 < 0, so spricht man von einer linksschiefen Verteilung und von einer rechtsschiefen Verteilung, falls γ1 > 0 (vgl. Abb. 3.10). Für eine Stichprobe aus n-Werten berechnet sich die Schiefe gemäß Gl. 3.52. g1 =
n n xi − x¯ 3 (n − 1)(n − 2) s
(3.52)
i=1
Hierbei sind x¯ und s wiederum der Mittelwert bzw. die Standardabweichung der Stichprobe. Die Formel in Gl. 3.52 ist übrigens auch in der Excel-Funktion SCHIEFE implementiert. Abb. 3.10 Zur rechtsschiefen(gepunktete Linie), linksschiefen- (gestrichelte Linie) und symmetrischen Verteilung (durchgezogene Linie)
y
γ1> 0
γ1= 0
x
γ1< 0
3.2 Wichtige Wahrscheinlichkeitsverteilungen Abb. 3.11 Die Kurtosis der Normalverteilung (durchgezogene Linie) hat definitionsgemäß eine Kurtosis von null. Verteilungen mit positiver Kurtosis (gestrichelte Linie) sind an den Schultern breiter als die Normalverteilung, die mit negativer Kurtosis (gepunktete Linie) sind dagegen an den Schultern schmaler
67
γ2= 0
γ 2< 0
γ 2> 0 y
x
Wölbung (Kurtosis) Neben der Schiefe ist auch noch die Wölbung (Kurtosis) γ2 einer Verteilung interessant. Anhand dieser Maßzahl kann man ablesen, wie breit die Verteilung in der Nähe des Maximums ausgeprägt ist. Die Wölbung wird für den diskreten Fall wir folgt berechnet: ∞
γ2 =
(xi − μ)4 f (xi )
i=1
σ4
−3
(3.53)
−3
(3.54)
oder für den stetigen Fall:
∞ γ2 =
−∞
(x − μ)4 f (x) σ4
Für die Standardnormalverteilung errechnet sich der Integralterm in Gl. 3.54 zu drei4 . Diese werden zur Berechnung der Wölbung abgezogen, d. h., die Standardnormalverteilung dient hier als Referenzrahmen. Demnach haben normalverteilte Daten die Wölbung 0.Verteilungen, die ganz deutlich nach innen gewölbt sind, (ähnlich wie bei einer konkaven Linse) weisen ein γ2 > 0 auf. Verteilungen hingegen, die ganz deutlich nach außen gewölbt sind (ähnlich wie bei konvexen Linsen), weisen ein γ2 < 0 auf (vgl. Abb. 3.11).
4 Für die Standardnormalverteilung ist ja μ = 0 und σ = 1. Das übrig bleibende Integral
2 ∞
4 1 x √ exp − x2 ergibt dann die 3. 2π −∞
68
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
Die Kurtosis für eine Stichprobe mit n Datenpunkten kann mithilfe der nachfolgenden Gleichung berechnet werden: n
¯ 4 (xi − x) 1 i=1 −3 g2 = n s4
(3.55)
Mit der Excel-Funktion KURT können Sie die Kurtosis berechnen, die eine etwas andere Formel als die in Gl. 3.55 implementiert hat: n
¯ 4 (xi − x) (n + 1)n (n − 1)2 i=1 g2 = −3 4 (n − 1)(n − 2)(n − 3) s (n − 2)(n − 3)
(3.56)
Die Kurtosis und die Schiefe werden wir später zur Überprüfung von Daten auf Normalverteilung verwenden (siehe Abschn. 3.4.1.5).
3.2.8.2 Lageparameter Neben den o. g. Momenten können bestimmte Zahlen von Verteilungen sehr interessant sein, auf die wir im Folgenden eingehen werden. Quantile Quantile sind Lageparameter einer Verteilung. Ein p-Quantil ist eine Zahl Q p , unterhalb derer 100∗ p-% der Daten liegen. Rechts vom p-Quantil liegt der restliche Anteil der Daten, also 100∗ (1 − p)-% (vgl. Abb. 3.12).
0,4
Wahrscheinlichkeitsdichte
Abb. 3.12 Quantile Q p sind x-Werte, unterhalb derer 100∗ p-% der Daten liegen, entsprechend sind 100∗ (1 − p)-% der Daten oberhalb von diesem Quantil. Wie wir weiter unten noch sehen werden, spielen Quantile eine große Rolle bei Hypothesentests (vgl. Abschn. 3.4)
0,3 p=0,95 0,2
0,1 1−p=0,05 0 x
Qp
3.2 Wichtige Wahrscheinlichkeitsverteilungen
69
Zur Bestimmung von Q p anhand von experimentellen Daten werden diese zunächst aufsteigend sortiert x1 ≤ x2 ≤ . . . xn . Anschließend wird das empirische p-Quantil bspw. mithilfe folgender Formel berechnet5 : x +x np np+1 falls np eine ganze Zahl ist 2 (3.57) Qp = falls np keine ganze Zahl ist xnp Hierbei bedeutet das Aufrunden auf die nächste ganze Zahl. Mit der Excel-Funktion QUANTIL.INKL werden Sie ggf. einen etwas anderen Wert herausbekommen als mit Gl. 3.57. Das liegt daran, dass Excel versucht, durch lineare Interpolation ein noch genaueres Ergebnis für das Quantil zu berechnen, auch wenn der daraus resultierende Wert ggf. nicht Teil der ursprünglichen Datenmenge ist. Ein Sonderfall der Quantile sind die sogenannten Quartile. Sie teilen die Daten in vier Bereiche ein. Im unteren Quartil (1. Quartil) finden sich ca. 25 % der Daten, im Interquartilbereich, dem Abstand zwischen dem untersten und obersten Quartil, finden sich ca. 50 % der Daten und im oberen Quartil (3. Quartil) ca. 75 % der Daten. Das wohl bekannteste Quartil (2. Quartil), der sogenannte Median, teilt die Daten in der Mitte. Demnach finden sich ca. 50 % der Daten unterhalb des Medians und ca. 50 % oberhalb der Medians. Gemäß Gl. 3.57 liegt der Median genau in der Mitte, wenn n ungerade ist. Wenn n gerade ist, so errechnet sich der Median als Mittelwert des n/2-ten und des n/2 + 1-ten Datenpunktes. Hieraus ergibt sich die bekannte Formel für den Median: xn/2 f¨ur n gerade x˜ = xn/2 +xn/2+1 (3.58) f¨ur n ungerade 2 Kleine und große Werte gehen nicht mit in die Berechnung des Medians ein. Das macht ihn auch, verglichen mit dem Mittelwert, robust gegenüber Ausreißern. Quartile können in Excel mithilfe der Funktionen QUARTILE.INKL oder QUARTILE.EXKL berechnet werden. Beide Funktionen können bei denselben Daten ggf. etwas andere Ergebnisse liefern, da sie verschiedene Algorithmen zur Berechnung der Quartile verwenden. Wie bereits erwähnt, gibt es mehrere Arten Quantile und somit auch Quartile zu berechnen. Als erstes Argument übergeben Sie den genannten Funktionen die Zellen, in denen die Daten stehen, und als zweites Argument die Zahl des Quartils, das berechnet werden soll. Bitte beachten Sie dabei, dass das 0. Quartil dem Minimum und das 4. Quartil dem Maximum der Daten entsprechen. Eine anschauliche Form der Darstellung von Quartilen ist der sogenannte Box-Whisker-Plot. Diesen besprechen wir noch etwas detaillierter in Abschn. 2.2.3. Wie wir weiter unten noch sehen werden, spielen Quantile bestimmter Wahrscheinlichkeitsdichten eine große Rolle bei Hypothesentests, daher möchte ich an dieser Stelle noch ein paar Worte darüber verlieren.
5 Es gibt verschiedene Formeln zur Berechnung von Quantilen. Excel selbst hat zwei verschiedene
Funktionen hierfür implementiert: QUANTIL.INKL und QUANTIL.EXKL. Eine gute Übersicht über die verschiedenen Methoden bietet bspw. Langford [5]
70
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
Für eine Wahrscheinlichkeitsdichtefunktion f (x) lässt sich das Q p Quantil aus folgender Integralgleichung berechnen: Q p f (x)d x (3.59) p= −∞
Das Integral müssen Sie unter Umständen numerisch lösen, aber glücklicherweise hat Excel für die gängigsten Wahrscheinlichkeitsdichtefunktionen f (x) bereits integrierte Funktionen, mit deren Hilfe Sie entweder Q p aus p bestimmen können, oder umgekehrt. So können Sie bspw. mit der Excel-Funktion T.INV den Wert Q p aus dem p-Wert berechnen, oder mithilfe eines gegebenen Q p -Wertes und der Excel-Funktion T.VERT den zugehörigen pWert berechnen. Natürlich gibt es noch andere Lageparameter, die aber meiner Meinung nach in der wissenschaftlichen Praxis etwas weniger häufig Anwendung finden und daher hier nicht behandelt werden.
3.3
Erzeugung von Zufallszahlen
In diesem Abschnitt besprechen wir die Möglichkeiten zur Erzeugung von Zufallszahlen, die einer gewissen Verteilung folgen. Zufallszahlen sind v. a. im Bereich der Simulationen höchst interessant. Im wissenschaftlichen Alltag können sie sehr nützlich sein, da man mit ihrer Hilfe bspw. Hypothesen testen kann. Echte Zufallsereignisse könnte man nur dann erzeugen, wenn zwischen den Zahlen keine funktionale Beziehung stünde. Das kann man mit einem Computer jedoch nicht erreichen. Stattdessen begegnet man in diesem Zusammenhang häufig dem Begriff der Pseudozufallszahlen. Das sind Zahlenfolgen, die zwar zunächst zufällig erscheinen, es aber nicht sind. Sie wiederholen sich naturgemäß nach einer (i. d. R. sehr großen) Periode wieder. Anhand eines einfachen Pseudozufallszahlengenerators möchte ich Ihnen kurz die Fallstricke bei deren Erzeugung etwas näher bringen. Beispiel 3.3 Mithilfe der folgenden Rekursion, die nach Derrick Lehmer bekannt wurde6 , erzeugen Sie Pseudozufallszahlen im Bereich von 0 bis 1. xi+1 = (69069xi + 1) mod m xi+1 ri+1 = m−1
(3.60) (3.61)
Hierbei sind xi Zufallszahlen im Bereich 0 . . . m − 1 und ri Zufallszahlen normiert auf den Bereich 0 . . . 1. Die sogenannte Periode m ist eine ganze Zahl, die in der Regel sehr groß gewählt wird (z. B. 232 ). Viele von Ihnen kennen noch das Teilen mit Rest aus Schulzeiten, aber kennen evtl. nicht die Modulofunktion mod. Sie gibt
3.3
Erzeugung von Zufallszahlen
71
Abb. 3.13 Veranschaulichung von 100 Zufallszahlen, die mittels Gl. 3.60 und 3.61 in Excel erzeugt wurden
1
Zufallszahl ri
0,8 0,6 0,4 0,2 0 0
Zufallszahl #
100
den Rest beim Teilen zweier ganzer Zahlen zurück. So ist bspw. 11mod3 = 2, da 2 der Rest der Division von 11 durch 3 ist (11 = 3 · 3 + 2). Sie initialisieren den Zufallszahlengenerator mit x0 , dem sogenannten seed. Für unsere Zwecke können Sie x0 = 0 setzen. Die Modulofunktion in Excel heißt Rest. Zufallszahlen können Sie nun dadurch erzeugen, dass Sie x0 und m vorgeben und dann bspw. x1 . . . x100 mithilfe der Gl. 3.60 und 3.61 berechnen. Abb. 3.13 zeigt diese Zahlenfolge grafisch. An dieser Stelle möchte ich Sie noch auf einen weiteren Fallstrick bei der Erzeugung von Pseudozufallszahlen hinweisen. Wie Sie in Abb. 3.13 sehen können, erscheinen die ersten paar Zahlen gar nicht so zufällig, sondern als würden sie erst noch „einschwingen“ müssen. Das liegt daran, dass die Elemente der erzeugten Zufallszahlenfolge eben nicht ganz unabhängig voneinander sind. Das könnte man umgehen, indem man bspw. parallel zwei Sequenzen von Pseudozufallszahlen erzeugt und diese anschließend ineinandermischt. Excel bringt bereits ein paar Möglichkeiten zur Erzeugung von Pseudozufallszahlen mit. Gleichverteilte Pseudozufallszahlen, wie oben, können bspw. mit der Funktion ZUFALLSZAHL() erzeugt werden. Gleichverteilte Zufallszahlen folgen, wie der Name bereits andeutet, einer Gleichverteilung, ähnlich wie die Augenzahlen beim einfachen Würfelexperiment. Mit Hilfe gleichverteilter Zufallszahlen und der entsprechenden Verteilungsfunktion lassen sich Zufallszahlen mit andersartiger Verteilung erzeugen. Wenn ich bspw. ein Zwei-Würfel-Experiment simulieren möchte, dann kann ich die Augensummen 2, ..., 12 mithilfe gleichverteilter Zufallszahlen erzeugen. Dafür brauche zusätzlich die Wahrscheinlichkeitsdichtefunktion des Zwei-Würfel-Beispiels. Abb. 3.14 zeigt das Prinzip für dieses Beispiel. 6 Lehmer war ein amerikanischer Physiker und Mathematiker, der sich u. a. auf dem Gebiet der numerischen Zahlentheorie hervortat.
Abb. 3.14 Erzeugung von Zufallszahlen, für das Zwei-Würfel-Beispiel mithilfe der zugehörigen kumulativen Verteilungsfunktion (Stufenfunktion) und im Bereich [0,1] gleichverteilter Zufallszahlen ri
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
1 Wahrscheinlichkeit
72
0,8 0,6
ri
0,4 0,2 0 2
3
4
5 6 7 8 9 10 11 12 Würfelaugensumme
Eine im Intervall [0,1] gleichverteilte Zufallszahl ri , repräsentiert einen Wahrscheinlichkeitswert. Zu diesem Wert wird mithilfe der Verteilungsfunktion des Zwei-WürfelExperiments ein entsprechender Wert auf der x-Achse (hier der Augensumme) erzeugt. Die Höhe der Stufen in der Verteilungsfunktion ist hierbei proportional der Wahrscheinlichkeit, mit der die entsprechende Zahl (auf der x-Achse) erzeugt wird. Demnach wird die Zahl 7 am häufigsten gewürfelt, eine Beobachtung, die wir bereits festgestellt hatten. Die generelle Vorgehensweise zur Erzeugung von Zufallszahlen mit einer Wahrscheinlichkeitsdichte f (x) mithilfe der entsprechenden Verteilungsfunktion F(x) ist wie folgt: 1. Generiere gleichverteilte Zufallszahlen ri zwischen null und eins. 2. Finde die entsprechenden Wahrscheinlichkeiten auf der y-Achse der Verteilungsfunktion F(x). 3. Schlage das Lot über die Verteilungsfunktion auf die x-Achse. 4. Die sich daraus ergebenden Zufallszahlen folgen der gewünschten Wahrscheinlichkeitsdichte f (x). Man nennt dieses Verfahren auch das Inversionsverfahren, denn eigentlich wird bei dieser Prozedur nichts anderes gemacht, als aus einem y-Wert (hier der Wahrscheinlichkeit durch Generation einer gleichverteilten Pseudozufallszahl) der zugehörige x-Wert berechnet7 . Genau das macht bspw. auch die Excel-Funktion NORM.INV(ZUFALLSZAHL(); MITTELWERT;STABW), sie nimmt eine gleichverteilte Zufallszahl her und setzt diese in die Umkehrfunktion der Normalverteilung mit gegebenem Mittelwert und Standardabweichung ein. Somit wird eine normalverteilte Zufallszahl in der jeweiligen Zelle erhalten. Ich möchte an dieser Stelle nicht verschweigen, dass Excel Unter Datenanalyse 7 Wenn Sie bspw. nach inverser Funktion im Netz suchen, werden Sie den Zusammenhang schnell erkennen.
3.4
Hypothesentests
73
→ Zufallszahlengenerierung ein eigenes Tool zur Zufallszahlengenerierung hat. Hierbei kann man Zufallszahlen von bis zu sieben verschiedenen (gängigen) Verteilungen generieren. Die Verteilungsfunktion F(x) muss nicht in funktionaler Form vorliegen, sondern kann auch empirisch ermittelt worden sein. 3.5 Übung: Berechnen Sie in Excel 1000 exponentiell verteilte Zufallszahlen. Die Wahrscheinlichkeitsdichte der Exponentialfunktion f (x) = λ exp(−λx) bzw. deren Verteilungsfunktion f (x) = 1 − exp(−λx) lässt sich in Excel mit der Funktion EXPON.VERT berechnen. Verwenden Sie für λ den Wert 0,5.
3.4
Hypothesentests
In diesem Abschnitt lernen Sie, wie man mithilfe bestimmter statistischer Verfahren Hypothesen überprüft. Hypothesen können hierbei bspw. Aussagen sein wie „Die Daten folgen einer Normalverteilung.“ oder „Die Konzentration an N O2 (Stickstoffdioxid) in Luft überschreitet den Grenzwert von X μg pro m 3 .“ oder „Das Medikament A wirkt signifikant besser als Medikament B.“ oder „Der Wert x ist ein Ausreißer.“ Letztlich wollen Sie mithilfe von Hypothesentests zu einer Entscheidung kommen, ob eine entsprechende Hypothese angenommen oder abgelehnt werden soll. Hierbei unterscheidet man die Nullhypothese und die Alternativhypothese. Als Nullhypothese nehmen Sie in der Regel genau das Gegenteil an, von dem, was Sie experimentell beweisen möchten. Wenn Sie also bspw. beweisen möchten, dass die Mittelwerte zweier unabhängiger Messreihen verschieden sind, dann nehmen Sie als Nullhypothese an, sie seien gleich und testen unter der Annahme dieser Hypothese und den Werkzeugen, die ich im Folgenden vorstelle, ob sich ein Widerspruch ergibt oder nicht. Falls ja, dann war die Nullhypothese falsch und die Alternativhypothese ist anzunehmen. Die Nullhypothese ist demnach eigentlich nur Mittel zum Zweck (die Alternativhypothese zu überprüfen). Sie wird letztlich aufgestellt, um verworfen zu werden. Eine nicht-verworfene Nullhypothese kann nicht angenommen werden. Man unterscheidet parametrische- von nicht-parametrischen Hypothesentests. Erstere beinhalten Methoden wie den t-Test oder die Varianzanalyse. Nicht-parametrische Tests, die man auch verteilungsfreie Tests nennt8 , beinhalten bspw. den Mann-Whitney-Test, den Kruskal-Wallis-Test oder den Friedman-Test, die auf der Auswertung von Rangplätzen der Daten beruhen. Sie werden beide Arten von Tests in diesem Abschnitt kennenlernen. Wir beginnen mit den parametrischen Tests zuerst.
8 Verteilungsfrei nennt man diese Tests deshalb, weil sie keine Grundannahme über die zugrunde liegende Verteilung der Daten machen.
74
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
3.4.1
Parametrische Tests – ANOVA & Co.
Parametrische Hypothesentests wie der t-Test oder die Varianzanalyse setzen voraus, dass die Daten annähernd einer Normalverteilung folgen, die mithilfe der beiden Parameter Mittelwert und Varianz vollständig definiert ist. Im Folgenden werden wir uns etwas näher mit Methoden dieser Klasse beschäftigen. Beginnen wir mit einem Beispiel aus der wissenschaftlichen Praxis. Beispiel 3.4 Nehmen wir an, Sie bearbeiteten ein Laborprojekt, bei dem Sie den internen Sauerstoffgehalt c O2 einer Zellart untersuchen. Aufgrund einer Theorie haben Sie Grund zur Annahme, dass dieser signifikant niedriger sei als der Umgebungssauerstoffgehalt, den Sie bei μ = 21 % halten. Um das statistisch zu untermauern, führen Sie eine Versuchsreihe durch, bei der Sie die interne Sauerstoffkonzentration mit fünf Replikaten messen. Das Ergebnis dieser Messreihe zeigt Tab. 3.2. Sie überprüfen daraufhin, ob der von Ihnen bestimmte Mittelwert c¯ O2 = 19,26 signifikant von μ nach unten hin abweicht und stellen folgende Hypothesen auf: • H0 : c¯ O2 = μ gleichbedeutend mit c¯ O2 − μ = 0 gegen • H1 : c¯ O2 < μ gleichbedeutend mit c¯ O2 − μ < 0 Grafisch kann man das auch wie in Abb. 3.15 visualisieren.√Der Mittelwert Ihrer Daten hat die in blau dargestellte Verteilung mit Varianz Vc¯ O2 / 5. Mit der Nullhypothese nehmen Sie zunächst an, sowohl der experimentell bestimmte Mittelwert c¯ O2 als auch der Mittelwert μ entstammen eigentlich derselben Verteilung (Abb. 3.15a). Nun wollen Sie bestimmen, wie groß die Wahrscheinlichkeit P(X ≤ c¯ O2 ) ist, einen Wert kleiner oder gleich dem Mittelwert Ihrer Daten unter der gegebenen Verteilung zu erhalten9 . Diese errechnet sich mithilfe des Integrals c¯ O2 P(X ≤ μ) =
p(x)d x
(3.62)
−∞
und entspricht der dunkelgrauen Fläche in Abb. 3.15a. Sie macht im vorliegenden Beispiel um die 2 % der Gesamtfläche aus. Dieser Wert entspricht dem sogenannten p-Wert, wie wir weiter unten noch sehen werden. Ist 2 % nun bereits ausreichend, um zu sagen, dass Ihr Mittelwert signifikant kleiner ist als der Literaturwert? Nun, ab wann der Unterschied signifikant ist, müssen Sie vorab festlegen. Dazu definieren Sie ein sogenanntes Signifikanzniveau α, was in der Praxis häufig auf 5 % festgesetzt wird. Das entspricht der Summe der dunkelgrauen und hellgrauen Fläche in Abb. 3.15a. α = 5 % bzw. α = 0,05 entspricht einer Irrtumswahrscheinlichkeit, mit der Sie die
3.4
Hypothesentests
a
75
b
Abb.3.15 Unter der Annahme normalverteilter Daten und unter der Annahme, die Nullhypothese sei wahr, beantwortet der Einstichproben-t-Test für (a) u. a. die Frage wie wahrscheinlich das Auftreten eines Wertes, kleiner oder gleich c¯ O2 sei. Zu einem äquivalenten Ergebnis kommen Sie, wenn man die Verteilung ins Zentrum von c¯ O2 legt und nach der Wahrscheinlichkeit für das Auftreten eines Wertes größer oder gleich μ unter der gezeichneten Verteilung fragt (b). Falls diese Wahrscheinlichkeit (dunkelgraue Fläche) kleiner ist als das Signifikanzniveau α (hellgraue Fläche), dann sind c¯ O2 und µ signifikant unterschiedlich
Nullhypothese in 1 von 20 Fällen irrtümlicherweise verwerfen würden, obwohl sie an sich richtig ist (Fehler 1. Art). Umgekehrt könnte es passieren, dass Sie die Nullhypothese nicht verwerfen, obwohl sie an sich falsch ist (Fehler 2. Art, oft mit β bezeichnet). Die Wahl von α sollte demnach u. a. davon abhängen, wie fatal die Folgen für diese Fehler sein könnten. Angenommen, Sie hätten α vorab auf α = 0,05 festgesetzt, dann würde Ihr Hypothesentest im vorliegenden Beispiel einen signifikanten Unterschied zwischen Ihrem Mittelwert und dem Literaturwert ergeben. Nun können Sie einwenden, dass μ doch ein fester Wert sei und keine Streuung hat und somit die Abb. 3.15a nicht korrekt sei. Dann machen wir es eben wie in Abb. 3.15b und zentrieren die Verteilung um c¯ O2 herum. Ausgehend hiervon beantwortet der Einstichproben-t-Test nun, unter den genannten Annahmen, wie wahrscheinlich das Auftreten eines Wertes größer oder gleich μ sei unter der linken Verteilung in Abb. 3.15b. Beide Ansätze führen zu demselben Ergebnis. Dies war ein einführendes Beispiel, um Ihnen die Grundidee von Hypothesentests näherzubringen. In der Praxis rechnet man meist mit einer (normierten) Prüfgröße |c¯ O2 − μ| T = = 3,1 Vc¯ O2 /5
(3.63)
9 Bitte beachten Sie, dass die Wahrscheinlichkeit einen bestimmten Wert unter einer gegebenen Wahr-
scheinlichkeitsdichte zu erhalten, immer Null ist. Daher müssen Sie immer einen Bereich wie bspw. [−∞, c¯ O2 ] angeben.
76
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
Tab. 3.2 Beispieldaten zur Messung der internen Sauerstoffkonzentration in Zellen Messung
c O2 in %
1
18,8
2
18,1
3
18,47
4
19,7
5
21,2
c¯ O2
19,26
Vc¯ O2
1,54
indem man zunächst den Mittelwert c¯ O2 vom Wert μ abzieht und das Ergebnis durch die Varianz des Mittelwertes teilt. Durch diese Art der Normierung erhält man eine der Student-tVerteilung folgende Zufallsvariable T , die gegenüber tabellierten Werten der 1−α-Quantile der Student-t-Verteilung verglichen werden kann. Das vereinfacht die Sache deutlich, denn Sie müssen das Integral in Gl. 3.62 nicht mehr selbst berechnen. Der tabellierte t-Wert (bzw. das t-Quantil) für d f = 4 (= 5 − 1) Freiheitsgrade für α = 0,05 ist gleich t = 2,132. Da T > t, erhalten wir letztlich das Ergebnis, dass der mittlere interne Sauerstoffgehalt signifikant kleiner ist als der der Umgebung. Der Wert t wird auch oft kritischer Wert genannt, weil er die Schwelle darstellt, ab der die Nullhypothese verworfen wird. Den t-Wert können Sie in Excel mithilfe der Funktion T.INV(1-α;d f ) berechnen. Aus dem T -Wert können Sie den sogenannten p-Wert berechnen. Dieser Wert entspricht der Wahrscheinlichkeit, dass Ihr Mittelwert c¯ O2 , unter der Annahme, die Nullhypothese sei wahr, rein zufällig die in Gl. 3.63 gezeigte Differenz hat. Das klingt vielleicht jetzt noch nicht familiär, aber wir werden uns weiter unten noch mehr mit p-Werten beschäftigen, dort wird es vermutlich etwas klarer. Falls Sie den p-Wert aus dem T -Wert berechnen wollen, können Sie dies mit der Funktion T.VERT.RE(T ;d f ) tun. Zusammenfassend hier noch einmal der Ablauf eines einfachen Hypothesentests: 1. Sie stellen eine Nullhypothese H0 und eine Alternativhypothese H1 auf. 2. Sie legen ein Signifikanzniveau α fest, auf dem getestet werden soll (dazu gleich mehr). 3. Sie berechnen eine Prüfgröße aus den experimentellen Daten. Diese Prüfgröße richtet sich nach Wahl der Testverteilung. 4. Sie berechnen den sogenannten p-Wert aus der Prüfgröße. 5. Sie vergleichen den errechneten p-Wert mit einem zuvor festgelegten Signifikanzniveau α. Ist p < α, so wird die Nullhypothese verworfen und entsprechend die Alternativhy-
3.4
Hypothesentests
77
Tab. 3.3 ED50-Werte einer antibakteriell wirkenden Substanz B. Die Messreihe wurde 10-fach wiederholt Messung
1
2
3
4
5
6
7
8
9
10
E D50 B
3,63
4,16
3,27
3,01
4,43
2,20
3,31
3,76
2,93
3,53
pothese akzeptiert. Falls p ≥ α, dann verwerfen Sie die Nullhypothese nicht. Häufig sagt man im Fall von p < α, die Differenz der beiden Mittelwerte sei statistisch signifikant10 . Die Prüfgröße T in Gl. 3.63 folgte im vorliegenden Beispiel einer Student-t-Verteilung (vgl. auch Abschn. 3.2.6). Dies kann aber auch eine andere Prüfgröße sein, wie wir weiter unten noch sehen werden. Bitte beachten Sie, dass ein Verwerfen der Nullhypothese nicht bedeutet, dass sie auch wahr ist. Dies war lediglich Ihre zuvor gemachte Annahme, unter der Sie den Hypothesentest durchgeführt haben. Die Nullhypothese kann deshalb nicht angenommen werden, sondern lediglich nicht verworfen werden. Ich möchte Sie anhand von Gl. 3.63 auf ein wichtiges Verhalten von Hypothesentests hinweisen. Wenn die Anzahl Datenpunkte immer größer wird (in der Gleichung waren es 5), dann wird der Nenner in Gl. 3.63 immer kleiner, der T -Wert entsprechend größer und der pWert auch immer kleiner. Damit wird ein für die Praxis nur marginaler Unterschied zwischen c¯ O2 und μ irgendwann statistisch signifikant, d. h., Sie können sich statistische Signifikanz dadurch „erkaufen“, dass Sie die Stichprobenanzahl erhöhen. Wie Sie vermuten können, ist das keine gute wissenschaftliche Praxis. Es gilt nämlich immer noch ein Relevanzkriterium, d. h., die eben erwähnte Differenz muss auch für die Praxis relevant sein. Relevanzkriterien können bspw. von Experten festgelegt worden sein (vgl. hierzu auch Abschn. 3.4.1.3). Man spricht hier auch häufig von praktischer Signifikanz. Ein statistisch signifikantes Ergebnis muss noch lange nicht praktisch signifikant sein. 3.6 Übung: Angenommen, eine Pharmafirma hat eine Wirksubstanz A modifiziert, um eine bessere Wirksamkeit zu erzielen. Nennen wir dieses Derivat B. Dazu wurden Dosisempfindlichkeitstests durchgeführt, an deren Ende der sogenannten E D50-Wert (mittlere effektive Dosis) ermittelt wird. Ein niedrigerer E D50-Wert der Substanz B würde vereinfacht gesprochen eine höhere Wirksamkeit bedeuten. Die Messreihe mit zehn Replikaten ist in Tab. 3.3 aufgeführt. Nehmen wir einmal an, Substanz B wurde entwickelt, um eine andere Substanz A in einem Medikament zu ersetzen. Die Voraussetzung für das Ersetzen der zuletzt genannten Substanz kann aber nur dann erfolgen, wenn sie genau dieselbe Wirkung hat wie Substanz A. Die Fragestellung lautet nun, ob die Substanz B tatsächlich die gleiche Wirksamkeit aufweist wie Substanz A, deren E D50 A -Wert mit E D50 A = 3,14 μg/kg bekannt sei? 10 Diesen Begriff verwende ich in diesem Buch gelegentlich, möchte Ihnen aber nicht verschweigen,
dass er nicht unumstritten ist (siehe bspw. [6]).
78
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
3.4.1.1 Zu einseitig? Dann zweiseitig In Beispiel 3.4 waren wir aufgrund von Vorüberlegungen daran interessiert, ob die interne Sauerstoffkonzentration signifikant kleiner als die der Umgebung ist. Zur Überprüfung haben wir den experimentell berechneten T -Wert (vgl. Gl. 3.63) gegenüber dem linksseitigen tQuantil der Student-t-Verteilung verglichen. Hierbei handelt es sich demnach um einen einseitigen t-Test, da nur an einem Rand der Student-t-Verteilung getestet wurde. Wenn Sie in Beispiel 3.4 nun daran interessiert gewesen wären, ob es überhaupt einen signifikanten Unterschied zwischen der Sauerstoffkonzentration der Umgebung und der internen Konzentration gibt (egal ob nach unten oder oben), ohne eine entsprechende Ahnung in welche Richtung, dann hätten Sie einen zweiseitigen t-Test durchführen müssen. Hierzu verwenden Sie in Excel die Funktion T.INV.2 S(α;d f ), die der alten Excel-Funktion TINV(α;d f ) entspricht, oder Sie verwenden T.INV(1-α/2;d f ), was zum selben Ergebnis führt. Ob eine Hypothese einseitig- oder zweiseitig getestet wird, hängt demnach von der jeweiligen Fragestellung ab. Beim einseitigen Test wollen Sie bspw. wissen, ob eine von Ihnen gemessene Bisphenol-A-Konzentration den Grenzwert von 4 μg/kg Körpergewicht überschreitet. Hierbei interessiert Sie also nur (einseitig) eine obere Grenze. Wenn Sie jedoch bspw. fragen, ob ein von Ihnen gemessener Wert signifikant von einem vorgegebenen Wert abweicht (egal ob nach oben oder nach unten), dann bedarf es eines zweiseitigen Hypothesentests. Testen sie zweiseitig mit einem Signifikanzniveau α, dann „verteilen“ Sie dieses sozusagen gleichmäßig auf beide Enden der Testverteilung auf (vgl. Abb. 3.16), wohingegen bei einseitigen Tests entweder am linken oder am rechten Rand der Verteilung getestet wird. Beim einseitigen Hypothesentest stecken Sie eine Art Vorwissen bereits in den Test mit hinein und können gezielter mit einem gegebenen Signifikanzniveau in eine Richtung testen. Falls Sie bei einem Problem nicht genau wissen sollten, ob Sie den T -Wert gegenüber dem der einseitigen oder zweiseitigen Student-t-Verteilung testen sollen, dann nehmen Sie im Zweifelsfall Letzteres (vgl. hierzu z. B. [7]).
α/2
α/2
α
α
Abb.3.16 Beim zweiseitigen Hypothesentest wird bei einem gegebenen Signifikanzniveau α jeweils mit α/2 an beiden Enden der Verteilung der Nullhypothese getestet (links), wohingegen beim einseitigen Test an einem der beiden Enden mit α getestet wird (Mitte und rechts)
3.4
Hypothesentests
79
3.4.1.2 Vergleich zweier Mittelwerte – der Differenzentest Im Grunde genommen wollten wir im Beispiel 3.4 wissen, ob der aus den Daten errechnete Mittelwert, bezeichnen wir ihn jetzt mit μ1 , vom Vergleichswert (im Beispiel war das die Sauerstoffkonzentration der Umgebung) μ2 abweicht. Die Nullhypothese besagt, die Differenz der beiden Werte sei null und die beobachtete Differenz käme rein zufällig zustande, während die Alternativhypothese besagt, die Differenz sei ungleich null und käme nicht nur rein zufällig zustande. Daher findet man in der Literatur oft den Namen Differenztest. Im genannten Beispiel war μ2 von vornherein bekannt und lediglich μ1 stammte aus einer Messreihe. Deshalb nennt man diese Art t-Test auch Einstichproben-t-Test. Bisher haben wir uns noch keine Gedanken dazu gemacht, dass ja auch der Wert μ2 selbst der Mittelwert einer Messreihe sein könnte, was in der Praxis relativ häufig vorkommt. Somit würden Sie also die Mittelwerte zweier Messreihen miteinander vergleichen, die beide jeweils ihre statistischen Unsicherheiten haben. Wenn μ1 und μ2 abhängig voneinander sind, dann verwendet man den sogenannten abhängigen t-Test (engl. paired t-test). Dieser wird v. a. bei medizinischen „Vorher-Nachher-Studien“ angewendet, bei denen bspw. die Wirkung eines Medikaments gegenüber einem Placebo untersucht wird. Den Probanden wird dabei zunächst das Placebo verabreicht und dessen Einfluss auf einen Körperfunktionsparameter (wie bestimmte Marker im Blut) bestimmt. Denselben Probanden wird anschließend das zu untersuchende Medikament verabreicht und dessen Einfluss auf den Körperfunktionsparameter bestimmt. Für jeden Probanden wird die Änderung D = dMedikament − dPlacebo im Wert des Körperfunktionsparameters berechnet. Im Mittel ergibt sich (über alle Probanden) eine Änderung D¯ mit einer Standardabweichung von s D¯ . Bei der statistischen Auswertung wird nun die Nullhypothese μ D = 0 gegenüber der Alternativhypothese μ D = 0 getestet. Die Berechnung erfolgt dabei genau wie beim Einstichproben-t-Test gemäß nachfolgender Gleichung:
T = =
| D¯ − μ D | s D¯ | D¯ − 0| s D¯
¯ | D| = s D¯
(3.64)
Dieser T -Wert wird wiederum mit einem tabellierten t-Wert verglichen, anhand dessen man entscheiden kann, ob die Differenz statistisch signifikant unterschiedlich ist oder nicht. Der abhängige t-Test wird auch häufig als Paardifferenztest bezeichnet. Wenn es sich bei den beiden Gruppen nicht um dieselben Individuen handelt, würden sich also jeweils verschiedene Individuen in der Placebo- und der Medikamentengruppen befinden, so wäre die biologische Variabilität (Variabilität zwischen den Probanden) vermutlich deutlich größer als beim Paardifferenztest. Beim Vergleich der Mittelwerte zweier unabhängiger Gruppen
80
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
(Stichproben) verwendet man einen Zweistichproben-t-Test. Beim Zweistichproben-t-Test stellt sich die Frage, ob die Daten der beiden Stichproben derselben Verteilung angehören (bspw. beide gehören der linken Verteilung in Abb. 3.17 an) oder ob beide Datensätze verschiedenen Verteilungen entstammen (durchgezogene bzw. blau gestrichelte Verteilung in Abb. 3.17). Im Folgenden gehen wir davon aus, dass die zu den Mittelwerten gehörigen Daten normalverteilt sind und die Mittelwerte nur Schätzwerte für die wahren Mittelwerte sind. Wenn man solche Mittelwerte miteinander vergleichen will, muss man außerdem unterscheiden, wie es sich mit den jeweiligen Varianzen (bzw. deren Schätzwerte) verhält. Sind diese vergleichbar, so werden die Mittelwerte mithilfe der Prüfgröße T gemäß Gl. 3.65 berechnet. |μ1 − μ2 | N1 N2 (N1 + N2 − 2) T = (3.65) N1 + N2 (N − 1)s 2 + (N − 1)s 2 1
1
2
2
Der Ausdruck N1 + N2 − 2 in Gl. 3.65 entspricht übrigens der Anzahl Freiheitsgrade. Jeweils ein Freiheitsgrad wurde zur Berechnung des Mittelwertes μ1 bzw. μ2 „verbraucht“, daher wird im genannten Ausdruck auch 2 von N1 + N2 subtrahiert. Sind die Varianzen nicht vergleichbar, so wird die Prüfgröße gemäß dem t-Test nach Welch berechnet: |μ1 − μ2 | T = s12 N1
+
(3.66)
s22 N2
Hierbei sind N1 und N2 die Anzahl der Datenpunkte des ersten bzw. des zweiten Datensatzes. Gl. 3.66 sieht zwar etwas einfacher aus als Gl. 3.65, dafür muss aber die Anzahl Freiheitsgrade d f zur Bestimmung des kritischen Wertes bzw. des p-Wertes mithilfe der folgenden Gleichung berechnet werden:
Abb. 3.17 Beim Zweistichproben-t-Test wird überprüft, ob die Daten der einen Stichprobe derselben Verteilung angehören wie die Daten der anderen Stichprobe (gestrichelte Kurve) oder ob beide Stichproben jeweils zu einer eigenen Verteilung gehören (magentafarbene und blaue gestrichelte Kurve)
µ1
µ2
3.4
Hypothesentests
81
df =
s12 /N1 + s22 /N2
2 s12 /N1 N1 −1
+
2
2 2 s2 /N2 N2 −1
(3.67)
In beiden Fällen wird aus dem T -Wert mithilfe der Funktion T.VERT der zugehörige p-Wert berechnet, der wiederum mit dem zuvor festgelegten Signifikanzniveau α verglichen wird. Ist p < α, dann unterscheiden sich die Mittelwerte der beiden Datensätze statistisch signifikant voneinander. In einem Video zeige ich Ihnen im Detail, wie Sie einen Zweistichproben-t-Test in Excel durchführen. Rufen Sie dieses Video durch Scannen des QR-Codes (unten) auf.
Die Gleichheit der Varianzen wird typischerweise mittels F-Test überprüft. Hierbei macht man wiederum einen Hypothesentest, bei dem die Nullhypothese besagt, die Varianzen seien gleich, und die Alternativhypothese besagt, die Varianzen seien nicht gleich. Die Prüfgröße f = s12 /s22 (mit s12 > s22 ) folgt hierbei einer F-Verteilung (statt einer Student-t-Verteilung), d. h., man muss entsprechend die Quantile der F-Verteilung heranziehen, um den kritischen Wert zu berechnen, ab dem die Nullhypothese verworfen wird. Ich muss zugeben, ich habe so meine Probleme mit dieser Art, die Gleichheit der Varianzen zu zeigen, da das Nichtverwerfen der Nullhypothese ja nicht bedeutet, dass sie auch stimmt. Sie ist lediglich unser Ausgangspunkt, damit wir den Hypothesentest überhaupt aufstellen können und wird nur aufgestellt, um verworfen zu werden. Im vorliegenden Fall bedeutet das aber für mich, dass man durch das Nichtverwerfen der Nullhypothese nicht zeigen kann, dass die Varianzen gleich sind. Ein vergleichbares Problem tritt bspw. auf, wenn Pharmazeuten versuchen, die gleiche Wirksamkeit von zwei Medikamenten anhand von gemessenen Parametern (wie der maximalen Konzentration im Blut) nachzuweisen. Da hier die Gleichheit der beiden Medikamente gezeigt werden soll, muss man auf einen Äquivalenztest statt eines Differenztests zurückgreifen. Ersteren werde ich in folgendem Abschnitt näher erläutern. 3.7 Übung: Nehmen wir mal an, die Pharmafirma aus Übung 3.6 wolle die ED50-Werte zweier Substanz X und Y miteinander vergleichen. Die zugehörigen Messdaten sind in Tab. 3.4 aufgeführt. Überprüfen Sie zunächst die Varianzen mithilfe der Excel-Funktion F.TEST und führen Sie anschließend den passenden t-Test durch.
82
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
Tab. 3.4 Zum Vergleich der ED50-Werte zweier antibakteriell wirkenden Substanzen X und Y . Die Messreihe wurde 10-fach wiederholt Messung
1
2
3
4
5
6
7
8
9
10
E D50 X
3,63
4,16
3,27
3,01
4,43
2,20
3,31
3,76
2,93
3,53
E D50Y
2,92
2,81
3,25
3,90
2,16
3,17
2,85
3,62
3,54
3,17
3.4.1.3 Vergleich zweier Mittelwerte – der Äquivalenztest Beim Äquivalenztest soll die Äquivalenz zweier Mittelwerte gezeigt werden. An dieser Stelle sollte man sich allerdings fragen, was denn Äquivalenz bedeutet. Gleichheit würde bedeuten, dass die Mittelwerte bis auf die letzte Nachkommastelle identisch sind, was bei endlich vielen Probemessungen natürlich eine gegen null gehende Wahrscheinlichkeit hat. Äquivalenz bedeutet, dass sich die Differenz μ1 − μ2 oder das Verhältnis μ1 /μ2 der beiden zu vergleichenden Mittelwerte in einem bestimmten Intervall bewegt [θ L , θU ]. Dieses Äquivalenzintervall muss zuvor von Spezialisten festgelegt worden sein und wird nicht von Statistikern gesetzt. Im Zusammenhang mit Dosis-Wirkungs-Kurven kommen im Pharmabereich entsprechende Vorgaben bspw. von der US Pharmacopeia (USP) [8] oder der European Pharmacopeia [9]. Die Äquivalenz überprüft man dann anhand folgender Hypothesen [10]: • H0 : μ1 − μ2 ≤ θ L oder μ1 − μ2 ≥ θU • H1 : θ L < μ1 − μ2 < θU Die zu beweisende Alternativhypothese H1 besagt, dass sich die Differenz der beiden Mittelwerte im Äquivalenzintervall befindet. Ähnlich verhält es sich, wenn man statt der Differenz, das Verhältnis der beiden Mittelwerte heranzieht. Beim sogenannten two one-sided test (TOST) zerlegt man das Problem und führt jeweils zwei Hypothesentests durch: • H01 : μ1 − μ2 ≤ θ L • H11 : μ1 − μ2 > θ L und • H02 : μ1 − μ2 ≥ θU • H12 : μ1 − μ2 < θU Wenn Sie nun in beiden Fällen zeigen können, dass die Nullhypothese verworfen werden kann, dann haben Sie die Äquivalenz von μ1 und μ2 gezeigt und H1 gezeigt. Dazu führen wir für beide Hypothesen einen einseitigen t-Test durch:
3.4
Hypothesentests
83
(μ1 − μ2 ) − θ L und √ s 2/n θU − (μ1 − μ2 ) T2 = √ s 2/n T1 =
(3.68) (3.69)
Durch Gl. 3.68 testen Sie am linken Ende des Äquivalenzintervalls mit einem rechtsseitigen t-Test, ob die Differenz μ1 − μ2 statistisch signifikant größer ist als θ L oder nicht. Mit Gl. 3.69 testen Sie √ mit einem linksseitigen t-Test, ob die Differenz signifikant kleiner ist als θU . Der Faktor 2 in Gl. 3.68 und 3.69 folgt aus der Annahme, dass die Varianzen der beiden Datenreihen gleich sind (was man ggf. noch zeigen müsste). Außerdem wurde hier angenommen, dass der Stichprobenumfang gleich war. Die beiden so errechneten T -Werte werden jeweils gegenüber einem einseitigen kritischen t1−α -Wert mit Signifikanzniveau α verglichen. Hier gilt wiederum, dass, wenn T1 , T2 ≥ t1−α , die beiden Nullhypothesen verworfen werden, und die Äquivalenz der beiden Werte ist bewiesen. Wenn auch nur eine der beiden Nullhypothesen nicht verworfen werden kann, dann kann man dies nicht behaupten. Anschaulich ist das in Abb. 3.18 dargestellt.
a
H01
H11 bzw. H12
θL
b
μ1-μ2
H02
θU
0 H11 bzw. H12
H01
θL
H02
μ1-μ2
θU
Abb. 3.18 Prinzip des Äquivalenztests mittels two one-sided test (TOST) und Konfidenzintervallansatzes. (a) Da die Differenz der Mittelwerte μ1 − μ2 statistisch signifikant verschieden sowohl vom unteren θ L als auch vom oberen Wert θU des Äquivalenzintervalls ist, kann man auf die Äquivalenz der beiden Mittelwerte schließen. Zu demselben Ergebnis kommt man, wenn man erkennt, dass das Konfidenzintervall ( ) der Differenz vollständig innerhalb des Äquivalenzintervalls liegt. Im Fall von (b) kann nicht auf die Äquivalenz der beiden Mittelwerte geschlossen werden, da die Nullhypothese (H02 , blaue Kurve rechts) am rechten Rand des Äquivalenzintervalls nicht verworfen werden kann. Auf dasselbe Ergebnis kommt man, wenn man erkennt, dass das Konfidenzintervall der Differenz beider Mittelwerte ( ) rechts das Äquivalenzintervall durchbricht
84
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
Im ersten Fall (Abb. 3.18a) ist die Differenz μ1 − μ2 der beiden Mittelwerte statistisch signifikant größer als der Wert θ L , da der zugehörige p-Wert kleiner als das Signifikanzniveau ist (grau unterlegte Fläche der Verteilung der Nullhypothese H01 ). Das bedeutet, die Nullhypothese H01 kann verworfen und die Alternativhypothese H11 entsprechend akzeptiert werden. Am oberen Ende ergibt sich ein ähnliches Bild. Hierbei wird linksseitig die Nullhypothese überprüft, ob die Differenz statistisch signifikant kleiner ist als θU . Da auch hier wiederum der p-Wert deutlich kleiner ausfällt als das vorgegebene Signifikanzniveau (grau unterlegte Fläche der Verteilung der Nullhypothese H02 ), muss auch diese Nullhypothese verworfen werden, und die Alternativhypothese H12 kann akzeptiert werden. Damit ist die Äquivalenz der beiden Mittelwerte gezeigt. Hier habe ich auch nochmals das Konfidenzintervall der Differenz oberhalb der Verteilung der Alternativhypothese eingezeichnet. Sie sehen, dass μ1 und μ2 dann äquivalent sind, wenn das Konfidenzintervall komplett innerhalb des Äquivalenzintervalls liegt. Der Äquivalenzintervallansatz ist eine gern genutzte Alternative zum Testen auf Äquivalenz, da dieser sehr anschaulich ist gegenüber dem TOST-Ansatz. Beide liefern jedoch dieselbe Aussage, was Sie in Abb. 3.18 schön sehen können. Hätte die Differenz bspw. im vorliegenden Fall eine noch größere Streuung, dann würden die Verteilungen der Nullhypothesen H01 und H02 breiter, ebenso wie die Konfidenzintervalle. Das könnte dann dazu führen, dass die graue Fläche von H01 nach rechts rückt und somit die Nullhypothese nicht mehr verworfen werden könnte. Entsprechend würde das linke Ende des Konfidenzintervalls um denselben Betrag nach links rücken und unterhalb von θ L zu liegen kommen. Wenn das passiert, kann nicht mehr behauptet werden, dass die beiden Mittelwerte äquivalent sind. In Abb. 3.18b ist ein solcher Fall einmal gezeigt, nur mit dem Unterschied, dass nun der rechte äußere Teil des Äquivalenzintervalls durch das rechte Ende des Konfidenzintervalls der Differenz durchbrochen wird. D. h., Sie können die Äquivalenz auch zeigen, indem Sie ein Konfidenzintervall (genauer gesagt ein 1 − 2α Konfidenzintervall) für die Differenz μ1 − μ2 berechnen und überprüfen, ob dessen beide Enden innerhalb des Äquivalenzintervalls liegen. Sie müssen also zur Berechnung der beiden Enden des Konfidenzintervalls jeweils die einseitigen t-Werte mit α = 0,05 heranziehen und nicht die zweiseitigen t-Werte, wo die 0,05 nochmals zu gleichen Teilen (1 − α/2) auf die beiden Enden der Verteilung aufgeteilt werden (siehe hierzu auch Abschn. 3.4.1.1). Bei einem Äquivalenztest mit Signifikanzniveau α = 0,05 muss man demnach ein 90 % Konfidenzintervall berechnen. Dies für eine Differenz zu berechnen, ist relativ leicht, denn es gilt hier der Additionssatz für Varianzen: V ar (X − Y ) = V ar (X ) + V ar (Y ) Damit ergibt sich das Konfidenzintervall zu: ⎡ ⎤ 2 2 2 2 s s s s ⎣(μ1 − μ2 ) − t1−α 1 + 2 , (μ1 − μ2 ) + t1−α 1 + 2 ⎦ n n n n
(3.70)
(3.71)
3.4
Hypothesentests
85
Hierbei habe ich lediglich die Annahme gemacht, dass der Stichprobenumfang der beiden Datenreihen gleich ist, die Varianzen s12 und s22 können verschieden sein. Nehmen Sie statt der Differenz das Verhältnis der Mittelwerte, dann können Sie bspw. das sogenannte FiellerTheorem [11] zur Berechnung des Konfidenzintervalls heranziehen: ⎡ μ1 ⎢ μ2 + ⎢ ⎢ ⎢ ⎣
t1−α μ2
μ1 μ2
t1−α μ2
1−
1−
2
μ22
⎤
S E μ2 1 +
2
μ22
2 SE2 t1−α μ
μ22
μ1 2 μ2 S E μ2
,
2 SE2 t1−α μ
2 SE2 t1−α μ
1−
S E μ2 1 +
2
μ22
1−
−
2 SE2 t1−α μ
2
(3.72)
μ1 2 μ2 S E μ2 ⎥
⎥ ⎥ ⎥ ⎦
S E μ1 = s12 /n bzw. S E μ2 = s22 /n entsprechen hierbei dem Standardfehler des jeweiligen Mittelwertes (vgl. z. B. Abschn. 2.2.7). Auch wenn der hier gezeigte Konfidenzintervallansatz (v. a. bei der Verwendung des Verhältnisses) rechnerisch etwas komplizierter erscheint, ist er visuell wesentlich intuitiver (vgl. Abb. 3.18) als der TOST-Ansatz. Nichtsdestotrotz werden Sie bei beiden auf dasselbe Endergebnis kommen, wenn Sie beim TOSTAnsatz mit Signifikanzniveau α testen und beim Konfidenzintervallansatz ein (1 − 2α) Konfidenzintervall berechnen (vgl. [7, 12]).
3.4.1.4 Fehlerarten bei Hypothesentests Ich hatte oben bereits kurz erwähnt, dass das Signifikanzniveau α der Wahrscheinlichkeit entspricht, mit der die Nullhypothese im Mittel abgelehnt würde, obwohl sie an sich richtig wäre. Ich hatte dies mit Fehler 1. Art bezeichnet. Nun könnte man geneigt sein zu sagen, dass man einfach α noch viel kleiner wählt, bspw. α = 0,001. Das können Sie tun, aber Ihnen muss dann auch bewusst sein, dass eine Reduzierung von α mit einer Erhöhung des Fehlers 2. Art einhergeht, also dem Fehler, der begangen wird, wenn eine an sich falsche Nullhypothese nicht verworfen wird. Die Wahrscheinlichkeit dafür bezeichnet man oft mit β. Mit einem kleineren α würden Sie, um beim Beispiel 3.4 zu bleiben, größere Differenzen zwischen der internen und der äußeren Sauerstoffkonzentration als statistisch nicht signifikant ansehen, als mit einem größeren α. Wenn Sie den Hypothesentest aus diesem Beispiel mal mit α = 0,001 durchrechnen, sollten Sie feststellen, dass die Nullhypothese in diesem Fall nicht verworfen werden kann. Dafür müssten Sie √ entweder weniger streuende Daten (Vc¯ O2 wird kleiner) und/oder mehr Datenpunkte ( N wird größer) haben. Wenn die Nullhypothese an sich schon falsch gewesen sein sollte, dann erhöhen Sie dadurch logischerweise den Fehler 2. Art, da man sich bildlich gesprochen nun nicht mehr auf der Verteilung der Nullhypothese befindet, sondern auf derjenigen der Alternativhypothese (vgl. Abb. 3.19).
86
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
β µ1
α
T
µ2
Abb. 3.19 Zur Veranschaulichung des Fehlers 1. Art (α) und 2. Art (β). Angenommen, die Nullhypothese (durchgezogene Linie) sei an sich wahr, dann wird sie mit einer Wahrscheinlichkeit von α fälschlicherweise verworfen. Dies nennt man einen Fehler 1. Art. Angenommen, die Alternativhypothese (gestrichelte Linie) sei an sich wahr, dann wird die Nullhypothese mit einer Wahrscheinlichkeit von β fälschlicherweise nicht verworfen
β ergibt sich dann durch Aufsummieren der Wahrscheinlichkeiten dieser Verteilung von 0 bis zum Wert T und wird größer mit kleiner werdendem α (vgl. Abb. 3.19). Auch hier wieder der Hinweis, dass die Wahl von α (und somit implizit von β) jeweils von den möglichen Folgen abhängt, die ein Fehler 1. Art und 2. Art mit sich bringt. Wollen Sie β verringern, ohne dabei α zu erhöhen, dann müssen Sie, bei einer gegebenen Varianz der Daten, die Anzahl Datenpunkte erhöhen. Die Fähigkeit eines Tests, die Nullhypothese abzulehnen, wenn die Alternativhypothese an sich wahr ist, bezeichnet man auch als die Macht oder die Trennschärfe eines Tests (engl. statistical power). Sie berechnet sich zu 1 − β und entspricht somit der Wahrscheinlichkeit, einen Fehler 2. Art zu vermeiden. In Tab. 3.5 habe ich einmal die verschiedenen Ausgänge von statistischen Tests den tatsächlich vorherrschenden Begebenheiten gegenübergestellt. Die verschiedenen Zeilen entsprechen jeweils den unterschiedlichen Ausgängen des Hypothesentests und die jeweiligen Spalten für die wahre Situation. Die Betrachtung möglicher Fehlerquellen bei statistischen Tests spielt v. a. im medizinischen Bereich eine große Rolle. Hier haben sich z. T. andere Begriffe etabliert, die ich in Tab. 3.5 in Klammern geschrieben habe. Anhand der englischen Ausdrücke sehen Sie bereits, dass sich positives immer auf die Alternativhypothese beziehen und negatives auf die Nullhypothese. Hieran merkt man wiederum, dass die Nullhypothese im Grunde genommen nur aufgestellt wird, um verworfen zu werden (das ist dann ein positives Ergebnis). Diese Begriffe werden uns an anderer Stelle in diesem Buch noch einmal begegnen.
3.4
Hypothesentests
87
Tab. 3.5 Betrachtung möglicher Fehler bei Hypothesentests H0 ist an sich wahr
Wahre Situation H1 ist an sich wahr
Testergebnis: H0 ist wahr
Kein Fehler mit Wahrscheinlichkeit 1 − α (Spezifität, true negatives)
Fehler 2. Art mit Wahrscheinlichkeit β (false negative)
Testergebnis: H1 ist wahr
Fehler 1. Art mit Wahrscheinlichkeit α (false positive)
Kein Fehler mit Wahrscheinlichkeit 1 − β (Sensitivität, true positives)
3.4.1.5 Test auf Verteilungen In den zuvor genannten Abschnitten haben wir die Verteilung der Daten als bekannt vorausgesetzt. An dieser Stelle zeige ich Ihnen, wie Sie vorgehen müssen, um diese Annahme zu verifizieren. Um solche Tests durchführen zu können, müssen Sie bereits eine Hypothese ˜ über die empirische Verteilungsfunktion F(x) der Daten haben und diese dann gegenüber ihrem theoretischen Pendant F(x) testen. Die hier vorgestellten Tests gehen dabei jeweils etwas unterschiedlich vor. χ 2 -Test Beim χ 2 -Test werden die Daten x1 , . . . , xn vorab in m Klassen eingeteilt, d. h. es werden Intervalle I1 , . . . , Im vorgegeben, in die die Daten jeweils einsortiert werden. Die Intervalle werden typischerweise so erzeugt, dass mindestens 5 Werte in jedem dieser Intervalle vorhanden sind. Zu jedem Intervall Ik wird nun die entsprechende (theoretische) Wahrscheinlichkeit aus der Verteilungsfunktion F(Ik ) ermittelt und mit der Anzahl Daten n multipliziert, wodurch die theoretische Häufigkeit f k berechnet wird. Wenn Sie die theoretischen Häufigkeiten im selben Diagramm darstellen, wie die experimentellen Häufigkeiten (vgl. Abb. 3.20), dann können Sie bereits optisch sehen, ob diese stark voneinander abweichen. Als Maß für diese Abweichung wird beim χ 2 -Test folgende Teststatistik verwendet: χ2 =
m (h k − f k )2 fk
(3.73)
k=1
Diese Teststatistik folgt, wie der Buchstabe bereits andeuten soll, einer χ 2 -Verteilung (vgl. Abschn. 3.2.5). Sie berechnen also zunächst die Teststatistik in Gl. 3.73 und berechnen einen zugehörigen p-Wert mithilfe der Excel-Funktion CHIQU.VERT mit m − 1 − n p Freiheitsgraden. Hierbei sind n p die Anzahl Parameter der theoretischen Verteilung, m wiederum unsere Anzahl Klassen. Bei einer Normalverteilung ist n p = 2, da wir den Mittelwert und die Standardabweichung als Parameter haben. Den p-Wert vergleichen Sie gegenüber einem zuvor festgelegten Signifikanzniveau α. Falls p < α, dann verwerfen Sie die Nullhypothese, dass Ihre Daten der Verteilungsfunktion F(x) folgen, ansonsten nicht. Damit
88
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
Abb. 3.20 Prinzip des χ 2 -Tests auf Verteilungen
18 16 Häufigkeit
14 12 10
fk hk
8 6 4 2 0 4
6
8
10
12
14
16
18
der χ 2 -Test brauchbar funktioniert, braucht jede Klasse mindestens 5 Einträge [13]. Falls das nicht der Fall ist, verringern Sie die Anzahl Klassen, indem Sie bspw. Nachbarklassen vereinigen. Wenn n an sich schon sehr klein ist und dadurch die vorgenannte Daumenregel nicht einzuhalten ist, dann sollten Sie vorsichtig mit dem Ergebnis des χ 2 -Tests umgehen. Sie können den χ 2 -Test sowohl zum Testen für diskrete als auch für stetige Verteilungen verwenden. Kolmogoroff-Smirnov-Test Während man beim χ 2 -Test jeweils mit der Differenz aus der empirischen und der theoretischen Dichtefunktion rechnet, wird beim Kolmogoroff-Smirnov-Test mit der Differenz aus der theoretischen und empirischen Verteilungsfunktion gerechnet (vgl. Abb. 3.21). 1 d
0,8 0,6 F(x)
Abb. 3.21 Prinzip des Kolmogorov-Smirnov-Test. Die bei diesem Test angewandte Teststatistik d entspricht dem maximalen Abstand zwischen der empirischen- (durchgezogene Linie) und theoretischen Verteilungsfunktion (gestrichelte Linie))
0,4 0,2 0 −2,5 −2 −1,5 −1 −0,5 0 x
0,5
1
1,5
2
3.4
Hypothesentests
89
˜ Um nun zu testen, ob die empirische Verteilungsfunktion F(x), der theoretischen Verteilungsfunktion F(x) genügt, gehen Sie wie folgt vor: ˜ 1. Sie berechnen die empirische Verteilungsfunktion F(x) aus den Daten (wie das geht, haben wir in Abschn. 2.2.5 gesehen). ˜ 2. Sie berechnen für Ihre Stichprobe betragsmäßig die maximale Differenz d = max| F(x)− F(x)| zwischen der empirischen und theoretischen Verteilungsfunktion F(x) (vgl. Abb. 3.21). 3. Den so erhaltenen d-Wert vergleichen Sie gegenüber einem kritischen Wert dkrit. , den Sie aus einer entsprechenden Tabelle ablesen können (siehe Abschn. 9.4). 4. Falls d > dkrit. , dann verwerfen Sie die Nullhypothese, dass die empirische Verteilungsfunktion gleich der theoretischen Verteilungsfunktion ist, ansonsten verwerfen Sie sie nicht. Hier sei noch erwähnt, dass Sie den Kolmogorov-Smirnov-Test nur bei stetigen Verteilungen anwenden können. Es hat sich außerdem gezeigt, dass er nicht die statistische Aussagekraft hat wie der im Nachfolgenden beschriebene Shapiro-Wilk-Test. Shapiro-Wilk-Test Der Shapiro-Wilk-Test wird in der Praxis gern verwendet, da die Teststatistik zum einen relativ einfach anhand der Daten zu berechnen ist, zum anderen, weil sich dieser Test als statistisch sehr aussagekräftig erwiesen hat [14]. Er ist außerdem relativ robust gegenüber Abweichungen von der Normalverteilung, und das auch bereits bei kleinerer Stichprobenzahl. Auf der anderen Seite hat er den Nachteil, dass er nur noch begrenzt brauchbar ist, sobald zwei oder mehr Werte gleich oder annähernd gleich sind. Außerdem ist die Theorie hinter dem Test nicht so leicht zu verstehen. Ohne mich zu tief in Details zu verlieren, möchte ich Ihnen dennoch die Grundidee des Tests vermitteln. Shapiro und Wilk haben sich relativ ausführlich mit den Eigenschaften von Wahrscheinlichkeitsdiagrammen wie dem in Abschn. 2.2.5 erwähnten Q-Q-Plot beschäftigt, anhand dessen man bereits gut abschätzen kann, ob Daten normalverteilt sind oder nicht. Kurz zur Erinnerung, normalverteilte Daten sind annähernd linear im Q-Q-Plot. Mit ihrer Teststatistik W haben Shapiro und Wilk einen Wert hergeleitet, mit dem Sie die Information aus dem Q-Q-Plot kondensieren können. Die aus den experimentellen Daten berechnete W -Statistik ergibt sich gemäß folgender Gleichung: n 2 i=1 ai yi W = n (3.74) 2 i=1 (yi − y¯ ) Die Koeffizienten ai in Gl. 3.74 sind Tabellenwerken zu entnehmen (vgl. Abschn. 9.4) und sind so ausgelegt, dass der Zähler proportional zur Varianz ist bei ideal normalverteilten Daten. Der Nenner ist ebenso proportional zur Varianz σ 2 , mit der Anzahl Freiheitsgrade n − 1 als Proportionalitätsfaktor. D. h., Gl. 3.74 beschreibt das Verhältnis zweier Varianzen. Das ist der Grund, warum im Titel der Veröffentlichung von Shapiro und Wilk der
90
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
Name ANOVA vorkommt (vgl. Abschn. 3.4.1.7). Falls die yi normalverteilt sind, wird dieses Verhältnis annähernd 1 sein, ansonsten kleiner als 1. Der W -Wert wird gegenüber einem kritischen w-Wert aus Tabellenwerken verglichen (vgl. Abschn. 9.4). Falls W > w, so sind die Daten normalverteilt und die Nullhypothese wird nicht verworfen. Bevor wir zu den praktischen Berechnungen kommen, möchte ich noch darauf hinweisen, dass allgemein zwei Elemente yi und y(n−i)+1 (bspw. gilt bei insgesamt zehn Elementen y1 , . . . , yn , a2 = a9 ) mit denselben Koeffizienten ai multipliziert werden. Das hat etwas damit zu tun, dass die geordneten Elemente y1 ≤ · · · ≤ yn aus Symmetriegründen dieselbe Wahrscheinlichkeitsverteilung haben wie die Elemente −yn ≤ · · · ≤ −y1 . Dementsprechend werden in den Koeffiziententabellen nur die ersten n/2 Koeffizienten aufgeführt11 . Dann können wir Gl. 3.74 auch wie folgt schreiben:
W =
2
k i=1 ai (y(n−i)+1 − yi ) n 2 i=1 (yi − y¯ )
(3.75)
Sie sehen, dass die Summe im Zähler nun nicht mehr bis n geht, sondern bis k. k ist hierbei gleich n/2, falls n gerade ist bzw. (n − 1)/2, falls n ungerade ist. Gl. 3.75 finden Sie bisweilen häufiger in der Literatur als Gl. 3.74. Sie ist es auch, die wir zur praktischen Berechnung der W -Statistik in folgendem Beispiel verwenden.
Beispiel 3.5 Nehmen wir einmal an, wir hätten die in Tab. 3.6 gezeigten Daten gemessen und wollten untersuchen, ob sie normalverteilt sind, oder nicht. Hierzu führen wir den Shapiro-Wilk-Test durch. Dafür habe ich die Daten bereits aufsteigend sortiert (siehe 3. Spalte). Wir berechnen zunächst den Zähler in Gl. 3.75, bezeichnen ihn jetzt aber mit b2 : b2 = (a1 (12,7 − 5,6) + a2 (10,6 − 7,1) + a3 (9,3 − 7,7) + a4 (8 − 7,8))2 = [0,6052(12,7 − 5,6) + 0,3164(10,6 − 7,1) + 0,1743(9,3 − 7,7) + 0,0561(8 − 7,8)]2 = (5,693)2 = 32,413
(3.76)
Berechnen wir nun noch den Nenner in Gl. 3.75 mithilfe der Excel-Funkion SUMQUADABW, die Sie auf die Daten in der 3. Spalte anwenden. Für den Nenner sollten Sie als Ergebnis 34,275 rausbekommen. Nun können wir die W -Statistik berechnen:
11 Falls n ungerade ist, so ist der Koeffizient a (n−1)/2+1 gleich null.
3.4
Hypothesentests
91
Tab. 3.6 Beispieldaten für den Shapiro-Wilk-Test n
Messedaten
Messdaten sortiert
1
7,1
5,6
2
12,7
7,1
3
9,3
7,7
4
7,7
7,8
5
7,8
8,0
6
5,6
9,3
7
8,0
10,6
8
10,6
12,7
W = n
b2
i=1 (yi
32,413 34,275 = 0,946
− y¯ )2
=
(3.77)
Das W ist mit 0,946 sehr nahe bei 1. Es liegt also die Vermutung nahe, dass die Daten tatsächlich normalverteilt sind. Beim Vergleich dieses W -Wertes mit dem kritischen w-Wert von w = 0,818 bei α = 0,05 aus der Shapiro-Wilk-Tab. 9.4 im Anhang, wird diese Annahme bestätigt. In einem Video zeige ich Ihnen im Detail, wie Sie den Shapiro-Wilk-Test in Excel durchführen. Rufen Sie dieses Video durch Scannen des QR-Codes (unten) auf.
Ein Nachteil bei der Anwendung der klassischen Methode nach Shapiro und Wilk ist die Verwendung und Vorhaltung von zwei relativ großen Tabellen. Eine Tabelle zur Ermittlung der Koeffizienten ai in Gl. 3.75 und die andere zum Vergleich des berechneten W -Wertes mit dem kritischen w-Wert. In der Literatur sind daher abgewandelte Formen des Shapiro-WilkTests beschrieben, bei denen bspw. die Koeffizienten ai durch Näherungswerte oder andere Werte ersetzt werden, die relativ einfach zu berechnen sind und nicht aufwändig in Tabellen
92
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
gesucht werden müssen. Erste Näherungen sind bereits in der Publikation von Shapiro und Wilk beschrieben [14]. Eine schöne Zusammenfassung der möglicher Näherungen findet sich in [15, 16]. Einer dieser Tests ist der sogenannte Filliben-Test. Filliben-Test Filliben bspw. publizierte hierzu die Filliben-Statistik F B [17]: n di yi F B = i=1 n 2 i=1 (yi − y¯ )
(3.78)
die anstelle der W -Statistik beim Shapiro-Wilk-Test verwendet wird. Die Koeffizienten di lassen sich verhältnismäßig leicht berechnen. Hierzu berechnet man zunächst: ⎧ ⎪ ⎪ ⎨1 − Mn f¨ur i = 1 Mi =
i−0,3175
n+0,365 ⎪ ⎪ ⎩n 1 2
f¨ur 1 < i < n
(3.79)
f¨ur i = n
wobei i der Rang (oder Index) eines Datenpunktes yi und n die Gesamtanzahl an Datenpunkten ist. Die p-Werte werden nun in die inverse kumulative Standardnormalverteilungsfunktion eingesetzt di = F −1 (Mi ), womit Sie die Quantile der Standardnormalverteilung berechnen. Das können Sie in Excel mithilfe der Funktion NORM.S.INV machen. Abschließend können Sie die F B-Statistik mithilfe folgender Gleichung berechnen: n i=1 Mi yi (3.80) FB = n n 2 2 Mi (yi − y¯ ) i=1
i=1
Diesen berechneten F B-Wert vergleichen Sie wiederum gegenüber einem tabellierten kritischen f b-Wert und können so die Aussage treffen, ob Ihre Daten normalverteilt sind, oder nicht. Wenn Sie das für die Daten aus Tab. 3.6 machen, dann sollten Sie einen F BWert von 0,967 herausbekommen. Dem berechneten F B-Wert steht für das o. g. Beispiel ein kritischer Wert von f b = 0,905 gegenüber. Da der berechnete F B-Wert größer als der kritische Wert ist, zeigt auch dieser Test an, dass unsere Daten normalverteilt sind. Den experimentellen F B-Wert sollten Sie übrigens auch herausbekommen, wenn Sie die Mi auf der Abszisse und die sortierten Daten yi auf der Ordinate auftragen und anschließend mithilfe des Trendlinien-Tools eine lineare Regression machen und sich den Korrelationskoeffizienten R 2 ausgeben lassen. Denn der f b-Wert selbst ist ein Korrelationskoeffizient, eine Metrik, die Sie vermutlich von der linearen Regression her kennen. Aus diesem Grund ist der Filliben-Test auch deutlich intuitiver als der Shapiro-Wilk-Test und hat dazu auch noch annähernd dieselbe statistische Aussagekraft wie der Shapiro-Wilk-Test. Ich bevorzuge daher den Filliben-Test in der Praxis.
3.4
Hypothesentests
93
Jarque-Bera-Test Es gibt Normalverteilungstests, die sich auf die Schiefe der Daten stützen (vgl. Abschn. 3.2.8). Die Grundidee dahinter ist, dass die Schiefe bei nicht normalverteilten Daten deutlich von null verschieden sein sollte. Es gibt Normalverteilungstests, die sich auf die Kurtosis (vgl. Abschn. 3.2.8) stützen. Hier ist die Grundidee, dass die Kurtosis deutlich von 0 verschieden sein sollte (bzw. von 3, je nachdem, ob die Kurtosis auf die Normalverteilung bezogen wird oder nicht). Bei manchen Tests wird die Information über die Schiefe S und die Kurtosis K zusammen verwertet. Einer dieser Tests ist der Jarque-Bera-Test. Hierbei wird eine Teststatistik J B gemäß folgender Gleichung berechnet [18]: n 1 2 2 (3.81) JB = S + K 6 4 Diese Statistik ist für große n annähernd χ 2 -verteilt mit zwei Freiheitsgraden [19]. Leider muss n bereits sehr groß sein (n > 2000), damit diese Annäherung gut ist. Für n = 2000 ist die Näherung bis auf die zweite Nachkommastelle genau. Für n ≤ 2000 gibt es Tabellen, die mithilfe von Monte-Carlo-Simulationen erzeugt wurden (vgl. Abschn. 9.4). Falls der J B-Wert größer als der kritische Wert ist, dann ist die Nullhypothese, die Daten seien normalverteilt, abzulehnen. D’Agostino-Pearson-Test D’Agostino und Pearson [20, 21] liefern einen weiteren Test, um auf Basis der Schiefe und der Kurtosis der Daten eine Aussage zu treffen, ob diese normalverteilt sind oder nicht. Hierzu berechnet man folgende Teststatistik D P: D P 2 = Z 2 (S) + Z 2 (K )
(3.82)
wobei S und K wiederum die Schiefe bzw. Kurtosis darstellen. Z (S) errechnet sich wie folgt: ⎞ ⎛ !⎛ ⎞2 ! ! ⎜ Y 1 !⎝ Y ⎠ + 1⎟ ⎟ Z (S) = √ + ln ⎜ (3.83) " ⎠ 2 2 ln(W ) ⎝ W 2 −1
mit
W2 =
mit β2 (S) =
W 2 −1
2 (β2 (S) − 1) − 1
(3.84)
3(n 2 + 27n − 70)(n + 1)(n + 3) (n − 2)(n + 5)(n + 7)(n + 9)
(3.85)
94
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
und mit
(n + 1)(n + 3) 6(n − 2)
Y =S
(3.86)
Z (K ) errechnet sich dagegen wie folgt: Z (K ) =
1−
mit 8 A =6+ √ β1 (K ) mit
2 9A
√ − 3 1+x1−2/A 2/(A−4) √ 2/(9A)
2 + √ β1 (K )
6(n 2 − 5n + 2) β1 (K ) = (n + 7)(n + 9)
und mit
(3.87)
4 1+ β1 (K )
(3.88)
6(n + 3)(n + 5) n(n − 2)(n − 3)
(3.89)
K − μK x=√ var (K )
(3.90)
3(n − 1) n+1
(3.91)
Hierbei sind: μK = und var (K ) =
24n(n − 2)(n − 3) (n + 1)2 (n + 3)(n + 5)
(3.92)
Sie sehen, bevor Sie letztlich zur experimentellen Teststatistik D P kommen, müssen Sie einiges berechnen. Dann können Sie Ihren D P-Wert gegenüber einem tabelliertem Wert vergleichen, um den p-Wert zu bestimmen und zu entscheiden, ob Ihre Daten normalverteilt sind, oder nicht. Da K 2 annähernd einer χ 2 -Verteilung mit zwei Freiheitsgraden folgt (die Annäherung ist übrigens deutlich besser als bei dem Jarque-Bera-Test), können Sie auch alternativ den p-Wert über die Excel-Funktion CHIQU.VERT berechnen. 3.8 Übung: Bestimmen Sie mittels Jarque-Bera-Test, ob die Daten in Tab. 3.7 normalverteilt sind oder nicht. Die Geduldigen unter Ihnen können sich zusätzlich an den D’AgostinoPearson-Test wagen.
Tab. 3.7 Beispieldaten für den Jarque-Bera-Test n
1
2
3
4
5
6
7
8
9
10
Signal
0,56
1,16
0,47
5,57
1,09
0,68
2,45
0,18
0,73
2,20
3.4
Hypothesentests
95
3.4.1.6 Testen auf Ausreißer In der wissenschaftlichen Praxis hat man es des Öfteren mit einzelnen Messwerten zu tun, die gegenüber anderen Werten verdächtig hoch oder verdächtig niedrig erscheinen. Manchmal können Sie rückwirkend nachverfolgen, warum dieser eine Messwert so dermaßen aus dem Rahmen fällt. Wenn z. B. bei einem Absorptionsexperiment ein doppeltes Signal auf den versehentlichen Einsatz der doppelten Menge der entsprechenden Probesubstanz zurückzuführen ist, dann ist die Lage klar. In diesem Fall ist das ein Fehler des Experimentators. In diesem einfachen Fall könnte man das Signal ggf. korrigieren. In anderen Fällen, bei denen man die Ursache für den verdächtigen Wert gefunden hat, aber nicht leicht korrigieren kann, sollte man den entsprechenden Messwert verwerfen und ggf. erneut eine Messung machen. In vielen Fällen kann man jedoch keine Ursache für einen deutlich abweichenden Einzelwert finden. In solchen Fällen sollten Sie statistische Tests heranziehen, um entscheiden zu können, ob Sie den verdächtigen Wert verwerfen. Im Folgenden stelle ich zwei Tests vor, die in der Praxis häufig angewendet werden. Vorab sei gesagt, dass die hier vorgestellten Tests eine Normalverteilung der Daten voraussetzen. Ausreißertest nach Grubbs Der Grubbs-Test testet, ob entweder ein verdächtiger Wert außergewöhnlich nach unten bzw. nach oben ausschlägt. Hierzu wird zunächst die Differenz zwischen dem verdächtigen Wert und dem Mittelwert y¯ der Daten berechnet und diese ins Verhältnis zur Standardabweichung s gesetzt. Mit diesen Komponenten wird eine Prüfgröße G berechnet (siehe Gl. 3.93) und einer theoretischen Prüfgröße G(1−α, n) gegenübergestellt. Basierend auf diesem Vergleich wird entschieden, ob der verdächtige Wert verworfen werden kann oder nicht. Im Einzelnen sieht das dann in etwa so aus: 1. Die Messwerte werden nach Größe sortiert y1 , y2 , . . . , yn−1 , yn 2. Die Prüfgröße G wird für einen nach unten hin verdächtigen Wert y1 bzw. für einen nach oben hin verdächtigen Wert yn gemäß folgender Gleichungen berechnet: G=
y¯ − y1 yn − y¯ bzw. G = s s
(3.93)
Sie testen also hier einseitig, indem Sie den berechneten G-Wert mit einem tabellierten kritischen g-Wert vergleichen. Alternativ können Sie G über folgende Gleichung berechnen: maxi | y¯ − yi | (3.94) G= s und diesen anschließend gegenüber einem zweiseitigen g-Wert aus einer Tabelle (vgl. Abschn. 9.4) vergleichen. 3. Ist G > g, dann gilt der entsprechende yi -Wert als Ausreißer.
96
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
Der Grubbs-Test soll ursprünglich einzelne Ausreißer identifizieren [22, 23]. In der Praxis wird der Grubbs-Test z. T. mehrfach (sequentiell) angewendet, indem man den Test zunächst mit allen Daten macht, den ersten identifizierten Ausreißer verwirft und den Grubbs-Test auf diesen „neuen“ Datensatz anwendet. Das kann man so lange machen, bis kein weiterer Ausreißer mehr gefunden wird. Dieses Vorgehen kann ich im Allgemeinen nicht empfehlen. Das Problem kann sein, dass, wenn zwei oder mehr Ausreißer im Datensatz vorhanden sind, die Standardabweichung s sehr groß und entsprechend der G-Wert selbst für den am stärksten ausreißenden Wert ggf. so klein ist, dass selbst dieser nicht mehr als Ausreißer identifiziert wird. Dieses Problem hat man natürlich nicht, wenn man s und y¯ nicht aus dem Datensatz selbst berechnet, sondern bspw. aus historischen Daten nimmt. Dieser Fall tritt bspw. bei der Qualitätsüberwachung von Produktionsprozessen auf, bei dem s und y¯ bereits aus früheren Messreihen vorliegen. Eine Verallgemeinerung des Grubbs-Tests zur Identifizierung multipler Ausreißer ist der sogenannte generalized extreme studentized deviate-Test (GESD-Test). Auch dieser funktioniert erst richtig gut, wenn die Stichprobe groß ist. Im Gegensatz zum normalen Grubbs-Test wird beim GESD-Test eine Obergrenze für die mögliche Anzahl Ausreißer im Datensatz durch den Benutzer festgesetzt. Für weitere Details verweise ich an dieser Stelle auf einschlägige Literatur, bspw. [24, 25]. Ausreißertest nach Dixon Der Ausreißertest nach Dixon sollte gemäß DIN 53804 bei kleinen Stichprobenumfängen (n ≤ 30) angewendet werden, denn im Gegensatz zum Grubbs-Test muss beim Dixon-QTest weder vorab ein Mittelwert, noch eine Standardabweichung berechnet werden. Diese sind nämlich erst bei entsprechend großen Stichprobenzahlen genau genug (um annähernd den wahren Werten zu entsprechen). Beim Dixon-Q-Test wird die Prüfgröße Q direkt aus den Daten selbst errechnet. Hierzu geht man wie folgt vor: 1. Die Messwerte werden nach Größe sortiert y1 , y2 , . . . , yn−1 , yn . 2. Q wird für einen nach unten hin verdächtigen Wert y1 bzw. für einen nach oben hin verdächtigen Wert yn gemäß folgender Gleichungen berechnet: ⎧ y −y yn −yn−1 2 1 f¨ur 3 ≤ n ≤ 7 ⎪ ⎪ yn −y1 bzw. yn −y1 ⎪ ⎪ y −y y −y ⎨ 2 1 bzw. n n−1 f¨ur 8 ≤ n ≤ 10 −y1 yn −y2 Q = yn−1 yn −yn−2 y3 −y1 ⎪ bzw. f¨ur 11 ≤ n ≤ 13 ⎪ yn−1 −y1 yn −y2 ⎪ ⎪ ⎩ y3 −y1 yn −yn−2 f¨ur 14 ≤ n ≤ 30 yn−2 −y1 bzw. yn −y3
(3.95)
3. Wahl des Signifikanzniveaus α und Vergleich des errechneten Q-Wertes mit entsprechenden Tabellenwerten Q(1 − α, n) (siehe hierzu Tab. 9.11). 4. Entscheidung, ob verdächtiger Wert verworfen werden soll oder nicht. Wenn Q ≤ Q(1− α, n), dann sollte der entsprechende Wert nicht verworfen werden. 5. Falls ein Wert als Ausreißer entfernt wurde, so sollte dies entsprechend dokumentiert werden.
3.4
Hypothesentests
97
In der Literatur werden Sie ggf. nur die erste Zeile von Gl. 3.95 für die Berechnung des QWertes finden. Das beruht u. a. darauf, dass Dean und Dixon 1951 die vereinfachte Formel publiziert hatten [26] und Dixon in einer späteren Publikation erst die erweiterten Formeln vorstellte (siehe hierzu im Anhang zu dieser Publikation [27]). Ähnliche Formeln wie in Gl. 3.95 tauchen aber bereits in einer Publikation von Dixon aus dem Jahre 1950 auf [28]. Durch Berechnung des Q-Wertes wird im Grunde genommen überprüft, welchen Anteil der Bereich des verdächtigen Elementes und seines Nachbarelements, zum gesamten Wertebereich ausmacht. Ist dieser Anteil groß (d. h., Q ist groß), dann handelt es sich bei dem verdächtigen Element vermutlich um einen Ausreißer. Die erweiterten Formeln in Gl. 3.95 tragen dem Umstand Rechnung, dass ja ggf. am selben Ende oder am anderen Ende der sortierten Daten weitere Ausreißer vorhanden sein könnten, wodurch entweder der Ausdruck im Zähler von Gl. 3.95 1. Zeile klein wird, bspw. weil y1 und y2 Ausreißer sind, oder der Nenner sehr groß wird und damit der Gesamtausdruck klein, weil der Gesamtbereich den/die Ausreißer enthält (vgl. hierzu [29]). Bitte beachten Sie, dass der Ausreißertest nach Dixon dennoch nur zur Identifizierung von einem Ausreißer gedacht ist.
3.4.1.7 Varianzanalyse – Vergleich mehrerer Mittelwerte In vorangegangenen Abschnitten hatte ich Ihnen gezeigt, wie man zwei Mittelwerte miteinander vergleichen kann. Hierbei haben wir den Student-t-Test verwendet und anhand des entsprechenden p-Wertes entschieden, ob die Mittelwerte signifikant verschieden sind oder nicht. Beim Vergleich von drei oder mehr Mittelwerten verwendet man die sogenannte Varianzanalyse (engl. analysis of variance, abgekürzt ANOVA). Die Grundidee ist relativ simpel. In praktisch allen experimentellen Daten werden Sie eine gewisse Zufallsvariabilität finden. Hinzu kommt dann oft die Variabilität durch einen oder mehrere Faktoren, deren Einfluss Sie untersuchen wollen. So etwas könnte bspw. der Einfluss verschiedener Substanzen (Faktor) auf die Vitalität von Zellen sein. Wenn diese Substanzen einen signifikanten Einfluss auf die Zellen haben, dann muss dies zu Variabilität in den Daten führen, die größer ist als 2 in Ihren die Zufallsvariabilität. Bei der Varianzanalyse zerlegen Sie die Gesamtvarianz sges 2 2 Daten in den Anteil s R , der rein zufälliger Natur ist, und diejenigen Anteile s F1 , s F2 2 , . . . , die nicht mehr rein durch den Zufall erklärbar sind, sondern von den jeweiligen Faktoren herrührt. Hierbei gilt nach dem Gauß’schen Fehlerfortpflanzungsgesetz (vgl. Abschn. 1.4): 2 sges =
nF
s F2 i + s 2R
(3.96)
i
Je nach Anzahl der Faktoren n F , unterscheiden wir die einfaktorielle, zweifaktorielle bis hin zur n-faktoriellen Varianzanalyse. Die beiden Erstgenannten sind die in der Praxis am häufigsten angewandten. Daher werde ich sie in den folgenden Abschnitten etwas näher erläutern.
98
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
Einfaktorielle ANOVA Bei der einfaktoriellen Varianzanalyse wird überprüft, ob die Eingruppierung von m Daten in r Gruppen mit den Gruppenmittelwerten μ1 , . . . , μr gerechtfertigt ist oder nicht. Eine solche Eingruppierung wäre dann nicht gerechtfertigt, wenn sich die Daten der Gruppen nur rein zufällig voneinander unterscheiden und sie eigentlich Teil derselben Grundgesamtheit wären und damit derselben Normalverteilung folgten12 . Anstatt wie beim t-Test nun eine Teststatistik über die Differenzen der Gruppenmittelwerte auszuarbeiten, geht man bei der ANOVA, wie eingangs erwähnt, über die Variabilität innerhalb der Daten. Unter der Annahme, die Nullhypothese μ1 = · · · = μr sei wahr, wird die Gesamtvariabilität, ausgedrückt in Form der Varianz der Daten, zerlegt in die Anteile, die rein zufällig sind und diejenigen, die durch den jeweiligen Faktor herrühren. Falls nun die r verschiedenen Mittelwerte stärker streuen, als es durch Zufall erklärbar wäre, dann können diese auch nicht gleich sein (vgl. Abb. 3.22). Die Streuung der Mittelwerte wird zunächst mithilfe der Fehlerquadratsumme SS F1 berechnet: SS F1 =
r
2 m k x¯k − x¯ ges
(3.97)
k=1
Hierbei sind m k die Anzahl Datenpunkte, die zur Berechnung vom Gruppenmittelwert x¯k herangezogen wurden. x¯ ges entspricht dem Gesamtmittelwert über alle Datenpunkte und ist praktisch der Mittelwert aller Mittelwerte. SS F1 entspricht der Streuung zwischen den Gruppen. Mit insgesamt r Gruppen haben wir d f 1 = r − 1 Freiheitsgrade und können damit die Varianz s F2 1 berechnen: SS F1 s F2 1 = (3.98) d f1 Durch die Normierung mit den Freiheitsgraden wird aus SS F1 erst eine Varianz. Diese wird letztlich der Reststreuung gegenübergestellt, also der Streuung, die übrig bleibt, wenn man die durch das Modell bedingte Streuung (also unser Modell mit r Mittelwerten) von der Gesamtstreuung der Daten abzieht. Diese Gesamtstreuung lässt sich einfach berechnen: SSges =
n
xk − x¯ ges
2
(3.99)
k=1
Gemäß Gl. 3.96 können wir die Reststreuung SS R ausrechnen: SS R = SSges − SS F1
(3.100)
Sie entspricht der Streuung innerhalb der Gruppen. Das sieht man vermutlich besser, wenn man bedenkt, dass man SS R auch wie folgt berechnen könnte: 12 Die ANOVA setzt als Grundannahme normalverteilte Daten voraus und dass die Varianzen der
Gruppen gleich sind (homoskedastisch).
3.4
Hypothesentests
99
Abb. 3.22 Mit der ANOVA wird überprüft, ob die Streuung zwischen den Gruppen(mittelwerten) signifikant größer ist als die rein zufällige Streuung innerhalb der Gruppen
Streuung zwischen den Gruppen
Streuung innerhalb der Gruppen
SS R =
ni
(xi − x¯i )2 +
i=1
=
ni r
nj
x j − x¯ j
j=1
(xik − x¯k )2
2
+ ···
nr
(xr − x¯r )2
r =1
(3.101)
k=1 i=1
Die Zahlen n i , n j , . . . , nr entsprechen hierbei der Anzahl Datenpunkten je Gruppe. Die einzelnen Terme in Gl. 3.101 (oben) sind die Streuungen innerhalb der einzelnen Gruppen, die aufsummiert werden. Zusammengefasst ergibt sich dann die zweite Zeile derselben Gleichung. In Excel lässt sich jeder Term in der oberen Zeile von Gl. 3.101 mithilfe der Funktion SUMQUADABW leicht berechnen. Das Verhältnis der durch das Modell bedingten Streuung zur Reststreuung (jeweils normiert mit ihren Freiheitsgraden, um an die entsprechende Varianz zu kommen) gibt uns ein Maß an die Hand, mit dem wir entscheiden können, ob es Unterschiede innerhalb der r Mittelwerte gibt oder nicht. Gemäß Gl. 3.35 folgt dieses Verhältnis einer F-Verteilung: f =
SS F1 d f1 SSges −SS F1 d f ges −d f 1
(3.102)
Falls f größer ist als das 1 − α-Quantil der F-Verteilung bei derselben Anzahl Freiheitsgrade, dann muss die Nullhypothese, dass die Mittelwerte gleich sind, verworfen werden. Diese f -Metrik ist auch ein Werkzeug beim Modellvergleich (vgl. Abschn. 5.7.2). Tatsächlich kann man sich die ANOVA auch als Fitmodellvergleich vorstellen, denn Sie überprüfen ja im Prinzip, ob Sie Ihre Daten besser mit einem komplexeren Modell mit Fitparametern μ1 , μ2 , . . . , μr beschreiben oder mit einem einfachen Modell mit nur einem Fitparameter μ1 = μ2 = · · · = μr . Die Güte des Fits berechnen Sie, wie üblich, mithilfe der Fehlerqua-
100
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
dratsumme, denn nichts anderes wird in den Gl. 3.97 und 3.101 berechnet. Häufig wird bei einer ANOVA auch das Bestimmtheitsmaß R 2 mit angegeben, das man typischerweise aus der Regressionanalyse kennt (vgl. Abschn. 5.7). Anhand der f -Metrik machen Sie im Prinzip einen Fitmodellvergleich und überprüfen, ob die Hinzunahme weiterer Fitparameter im Falle des komplexeren Modells statistisch gesehen gerechtfertigt ist oder nicht. Mehr dazu erfahren Sie in Kap. 5. Was passiert eigentlich, wenn die Gruppen verschiedene Varianzen haben und somit eine der Grundannahmen für die ANOVA nicht zutrifft? Nun, in gewissen Grenzen ist die ANOVA robust gegen Unterschiede in den Varianzen. Wenn die Unterschiede jedoch nicht zu vernachlässigen sind, dann kann man eine ANOVA nach Welch anwenden, bei der eine ähnliche Korrektur angewendet wird, wie beim Zweistichproben-tTest mit ungleichen Varianzen. Für weitere Details verweise ich jedoch an dieser Stelle auf die Veröffentlichung von Welch [30], da dies hier zu weit führen würde.
Beispiel 3.6 Anhand eines Experiments wollen Sie überprüfen, ob mindestens eins von drei Hormonen einen unterschiedlichen Einfluss auf die Gewichtszunahme bei Kaninchen hat. Hierzu wird einer Tiergruppe das Hormon A, einer anderen das Hormon B, einer weiteren das Hormon C verabreicht. Das Ergebnis der Gewichtszunahmen nach 30 Tagen ist in Tab. 3.8 dargestellt. Da wir uns hier lediglich für den Faktor Behandlung bzw. Hormon interessieren, der hier auf drei verschiedenen Stufen13 A, B, C ausgeprägt ist, handelt es sich hier um eine einfaktorielle ANOVA. Bei diesem Beispiel lassen sich die Berechnungen sehr leicht händisch durchführen. Berechnen wir hierzu zunächst einmal den Gesamtmittelwert x¯ ges und jeweils den Mittelwert für jede Gruppe x¯ A , x¯ B , x¯C . Sie sollten x ges = 90,1 und [x¯ A x¯ B x¯C ] = [114,2 66,3 89,9] herausbekommen. Die Fehlerquadratsumme zwischen den Gruppen berechnen Sie mit diesen Mittelwerten als: SS F = 4
x¯ A − x¯ ges
2
2 2 + x¯ B − x¯ ges + x¯C − x¯ ges
= 4583,9 Dies kann man auch allgemeiner ausdrücken: SS F = r
3
x¯ j − x¯ ges
2
(3.103)
j=1
Hierbei ist r die Anzahl Replikate in der Gruppe. Die Gesamtfehlerquadratsumme der Gruppen berechnen Sie als die Summe der quadrierten Abweichungen der Einzelelemente vom Gesamtmittelwert:
3.4
Hypothesentests
101
Tab. 3.8 Beispieldatensatz zur einfaktoriellen Varianzanalyse. Drei Kaninchengruppen erhalten unterschiedliche Hormone, deren Einfluss auf die Gewichtszunahme untersucht werden soll Hormon A
Hormon B
Hormon C
98,1
67,0
78,0
142,0
46,3
79,6
103,0
79,8
104,6
113,6
72,1
97,5
SSges =
4 3
xi j − x¯ ges
2
i=1 j=1
= 6885,3 Hieraus können Sie mithilfe von Gl. 3.100 die Restfehlerquadratsumme berechnen SS R = 6885,3 − 4583,9 = 2301,4 Diese hätten Sie übrigens auch als die Summe der quadrierten Abweichungen der Einzelelemente von ihrem Gruppenmittelwert berechnen können:
SS R =
4
(xi A − x¯ A )2 +
i=1
4
(xi B − x¯ B )2 +
i=1
4
(xiC − x¯C )2
i=1
= 2301,4 Nun können wir unsere Nullhypothese, ob die Gruppenmittelwerte gleich sind, überprüfen. Dazu berechnen wir mithilfe von Gl. 3.102 den f -Wert: f =
4583,9 2 6885,3−4583,9 11−2
= 8,96
Da dieser Wert größer als der kritische Wert Fcrit = 4,26 ist, ist die Nullhypothese zu verwerfen, und es wurde gezeigt, dass die verschiedenen Hormone zu einer unterschiedlichen Gewichtszunahme bei Kaninchen führen.
13 Ich gebe zu, dass Stufen in diesem Zusammenhang kein schöner Begriff ist, aber im Zusammenhang
mit ANOVA immer wieder auftaucht.
102
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
In einem Video zeige ich Ihnen im Detail, wie Sie eine einfaktorielle Varianzanalyse in Excel durchführen. Rufen Sie dieses Video durch Scannen des QR-Codes (unten) auf.
Ähnlich wie beim abhängigen t-Test gibt es auch bei der ANOVA den Fall, dass die verschiedenen Gruppen aus abhängigen Stichproben bestehen. Das ist in der Praxis v. a. dann der Fall, wenn die Gruppen aus denselben getesteten Individuen bestehen. So etwas kommt in medizinischen Studien sehr häufig vor, wenn bspw. dieselben Versuchspersonen nacheinander verschiedene Medikamente (in gewissen Zeitabständen) verabreicht bekommen. In solchen Fällen werden die Daten mithilfe einer ANOVA mit Messwiederholung (engl. repeated-measures ANOVA) ausgewertet, auf die ich im Folgenden für den einfaktoriellen Fall kurz eingehen möchte14 . Nehmen wir zum besseren Verständnis nochmals die Daten aus Tab. 3.8. In den Zeilen stehen bei der ANOVA mit Messwiederholung nun nicht mehr Replikate, sondern die Individuen. Wir haben es dann mit insgesamt vier Kaninchen zu tun, die jeweils zunächst das Hormon C 30 Tage lang verabreicht bekommen, nach einer Erholungsphase das Hormon B 30 Tage lang und nach einer erneuten Erholungsphase das letzte Hormon A für weitere 30 Tage lang verabreicht bekommen. Die Streuung SS I der Daten für ein gegebenes Kaninchen (Individuum) ist auf die Streuung SS F1 , die durch die Behandlung mit den verschiedenen Hormonen zustande kommt und auf eine rein zufällige Streuung SS R zurückzuführen. SS F1 kennen wir bereits (vgl. Gl. 3.97). SS R müssen wir bei der ANOVA mit Messwiederholung etwas anders berechnen als bei der normalen einfaktoriellen ANOVA, denn wir haben es nun nicht mehr mit unterschiedlichen Individuen in den verschiedenen Gruppen zu tun, sondern mit denselben Individuen. Folgendes gilt nach dem oben Gesagten: SS I = SS F1 + SS R
(3.104)
Um SS R berechnen zu können, müssen wir also SS I kennen. SS I lässt sich relativ leicht berechnen, indem man die Summe der quadrierten Abweichungen für jede Zeile berechnet und anschließend über alle Zeilen aufsummiert: SS I =
ni r
(xki − x¯i )2
(3.105)
k=1 i=1
14 Eine mehrfaktorielle ANOVA mit Messwiederholungen kommt meines Erachtens nach in der Praxis
eher selten vor und soll daher nicht in diesem Buch behandelt werden.
3.4
Hypothesentests
103
Damit kann ich nun die zufällige Streuung SS R berechnen: SS R = SS I − SS F1
(3.106)
Und damit schließlich den f -Wert: f =
SS F1 d f1 SS I −SS F1 d f I −d f 1
(3.107)
Hierbei entspricht d f I = n I (nr −1) der Anzahl Freiheitsgrade, die zu SS I gehören, wobei n I der Anzahl Individuen und nr der Anzahl Gruppen entspricht. d f 1 = nr − 1 entspricht der Anzahl Freiheitsgrade, die zu SS F1 gehören. Der so bestimmte f -Wert wird gegenüber einem theoretischen F-Wert verglichen, um die Nullhypothese, dass die Hormone keinen Effekt haben, zu verwerfen. Mit den Beispieldaten von Tab. 3.8 erhält man die ANOVATab. 3.9. Auf was will man eigentlich bei der einfaktoriellen ANOVA mit Messwiederholung hinaus? Im Grunde genommen überprüft man auch hier die Nullhypothese, ob die Mittelwerte der in die Gruppen eingeteilten Daten gleich sind oder nicht (Alternativhypothese). Warum nimmt man dann nicht einfach wieder eine ANOVA ohne Messwiederholung? Es hat gewisse Vorteile, die verschiedenen Behandlungen sukzessive an denselben Individuen zu testen, denn dadurch reduziert sich die biologische Variabilität zwischen den Gruppen, weil man es ja pro Zeile in Tab. 3.8 bei der einfaktoriellen ANOVA mit Messwiederholung mit denselben Individuen zu tun hat, die zu sich selbst eine möglichst geringe biologische Variabilität haben. Diese biologische Variabilität geht bei der einfaktoriellen ANOVA ohne Messwiederholung jedoch in die Reststreuung SS R mit ein, die entsprechend größer ausfallen wird als bei einer entsprechenden ANOVA mit Messwiederholung [31]. In einem
Tab. 3.9 Ergebnis der einfaktoriellen ANOVA mit Messwiederholung für die Daten aus Beispiel 3.6 Streuungsursache SS
df
f
p
Unterschiede innerhalb der Objekte
6482,1
8
7,25
0,025
Unterschiede zwischen den Gruppen
4583,9
2
Fehler
1898,2
6
403,2
3
6885,3
11
Unterschiede zwischen den Individuen Gesamt
104
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
solchen Fall fällt der f -Wert gemäß Gl. 3.102 kleiner aus (der p-Wert entsprechend größer), wodurch die statistische Aussagekraft der ANOVA ohne Messwiederholung gegenüber der ANOVA mit Messwiederholung steigt. Ein Nachteil der ANOVA mit Messwiederholung ist jedoch, dass man alle Versuche in aller Regel nicht parallel durchführen kann. Je nach Experiment kann es sogar passieren, dass manche der Individuen im Laufe der verschiedenen Experimente aufgrund der diversen Verabreichungen sterben, wodurch Lücken in den Daten entstehen, was wiederum die Datenanalyse erschwert. Dies passiert bei einer ANOVA ohne Messwiederholung in der Regel nicht so schnell. Ich habe hier die einfaktorielle Varianzanalyse vorgestellt, bei der Daten lediglich in Gruppen gemäß einem Faktor eingeteilt wurden. In der Praxis ebenfalls häufig verwendet wird die zweifaktorielle Varianzanalyse, bei der die Daten innerhalb der Gruppen nochmals unterteilt sind. Zweifaktorielle ANOVA Wenn Sie den Einfluss von zwei verschiedenen Einflussfaktoren untersuchen wollen, oder wenn Sie einem zweiten Faktor Rechnung tragen müssen, dann führt man eine zweifaktorielle Varianzanalyse durch. Bei der zweifaktoriellen ANOVA werden drei Nullhypothesen überprüft. Die erste Nullhypothese besagt, dass die Mittelwerte der Messvariablen gleich sind für verschiedene Werte des ersten Faktors. Die zweite Nullhypothese besagt, dass die Mittelwerte der Messvariablen gleich sind für verschiedene Werte des zweiten Faktors, und die dritte Nullhypothese besagt, dass es keine Interaktion zwischen den beiden Faktoren gibt, d. h., es gibt keine Abhängigkeit der Werte des einen Faktors von denen des anderen Faktors. Ein Gegenbeispiel wäre die Untersuchung der Faktoren pH-Wert und Temperatur auf eine Reaktionsausbeute, denn der pH-Wert hängt in relativ starkem Maße von der Temperatur ab, und somit interagieren diese beiden Faktoren. Entsprechend der drei Nullhypothesen werden letztlich auch drei p-Werte erhalten, die einem sagen, ob die jeweilige Nullhypothese entsprechend verworfen werden kann oder nicht. Die gesamte Fehlerquadratsumme SSges ergibt sich entsprechend Gl. 3.108: SSges = SS F1 + SS F2 + SS F1 ,F2 + SS R
(3.108)
Hierbei beschreibt SS Fi die Streuung durch den Faktor Fi , SS F1 ,F2 diejenige, die aufgrund der Wechselwirkung zwischen den Faktoren zustande kommt, und SS R wiederum die Reststreuung. Geht man davon aus, dass es keine Interaktion zwischen den Faktoren gibt oder geben kann, dann kann der dritte Term in Gl. 3.108 weggelassen werden. Der Vollständigkeit halber werde ich diesen hier aber weiterhin berücksichtigen. Anhand eines sogenannten Wechselwirkungsdiagramms (engl. Interaction plot) kann man erkennen, ob eine Wechselwirkung vorliegt oder nicht. Bei dieser Darstellung werden die Mittelwerte für die jeweiligen Stufen des einen Faktors auf der x-Achse, die Messvariable auf der y-Achse und der zweite Faktor jeweils als eigenständiger Graph in diesem Diagramm dargestellt. Abb. 3.23 zeigt ein entsprechendes Beispiel. Der Faktor A wurde in dem zugrunde liegenden Experiment in drei Stufen variiert. Der Faktor B hingegen nur in zwei Stufen. Im ersten
Hypothesentests
Messvariable
a
105
b
Faktor B: Stufe 1 Δ1
Faktor B: Stufe 1
Messvariable
3.4
Δ1
Δ2 Δ1
Faktor B: Stufe 2
Faktor B: Stufe 2
Faktor A
Faktor A
Abb. 3.23 Beispiel für ein Wechselwirkungsdiagramm, bei dem keine Interaktion zu erkennen ist (a) und eine ausgeprägte Interaktion zwischen den Faktoren A und B sichtbar wird (b)
Fall (Abb. 3.23a) liegt keine Wechselwirkung zwischen den Faktoren vor, denn eine Änderung des Faktors B von einer Stufe zur nächsten (Übergang von der gepunkteten Linie zur durchgezogenen Linie) führt zur selben Änderung 1 der Messvariablen, ob nun bei der ersten Stufe des Faktors A gemessen, oder einer der anderen Stufe des Faktors A. Anders im Fall von Abb. 3.23b. Hier führt eine Änderung der Faktorstufe B zu jeweils unterschiedlichen Änderungen 1 bzw. 2 der Messvariablen, abhängig davon, welche Faktorstufe von Faktor A betrachtet wird. Dies ist ein eindeutiger Fall für eine Interaktion zwischen den Faktoren A und B. In einem solchen Fall wäre der f -Wert für die Wechselwirkung größer als der entsprechende kritische F-Wert (vgl. auch Tab. 3.10). Angenommen, wir haben a-Stufen des Faktors A, b-Stufen des Faktors B und insgesamt n-Messungen (inklusive Replikate). Die ANOVA-Tabelle für eine vollständige zweifaktorielle ANOVA sähe dann im Allgemeinen aus wie in Tab. 3.10.
Tab. 3.10 Beispiel für eine ANOVA-Tabelle einer zweifaktoriellen Varianzanalyse inklusive Wechselwirkung Variation
Freiheitsgrade
Quadratsumme
Durchschnittsquadrat
F-Wert
p-Wert
Zwischen den Zeilen
a−1
SS A
SS A /(a − 1)
f1
p1
Zwischen den Spalten
b−1
SS B
SS B /(b − 1)
f2
p2
Wechselwirkung
(a − 1)(b − 1)
SS AB
SS AB / ((a − 1)(b − 1))
f3
p3
Rest
n − ab
SS R
SS R / (n − ab)
Insgesamt
n−1
SSges
M Sges
106
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
Die Bezeichnung zwischen den Zeilen und zwischen den Spalten bezieht sich jeweils auf die Variation aufgrund eines der beiden Faktoren. Aufgrund eines hinzugekommenen Faktors und eines Wechselwirkungsterms, sehen die Gleichungen für die Quadratsummen gegenüber denen der einfaktoriellen ANOVA etwas komplexer aus:
SS A =br
a
x¯ j − x¯ ges
2
(3.109)
j=1
SS B =ar
b
x¯i − x¯ ges
2
(3.110)
i=1
SS AB =r
a b
x¯i j − x¯i − x¯ j + x¯ ges
2
(3.111)
j=1 i=1
SSges =
a b r
xi jk − x¯i j
2
(3.112)
j=1 i=1 k=1
Nun haben wir alles, um mithilfe von Gl. 3.108 die SS R zu berechnen. SS R = SSges − SS AB − SS A − SS B
(3.113)
Schließlich werden die Signifikanzen der beiden Faktoren und deren Wechselwirkung mithilfe des bereits bekannten F-Tests überprüft.
fA = fB = f AB =
SS A a−1 SS R n−ab SS B b−1 SS R n−ab SS AB (a−1)(b−1) SS R n−ab
(3.114) (3.115) (3.116)
Diese f -Werte werden jeweils kritischen F-Werten Fcrit gegenübergestellt. Falls der f Wert eines Faktors größer als der kritische Wert ist, ist der Einfluss des Faktors signifikant. Das Gleiche gilt für die Wechselwirkung zwischen den Faktoren. Zugunsten eines besseren Verständnisses möchte ich Ihnen an einem Beispiel zeigen, wie die zweifache Varianzanalyse in Excel durchgeführt werden kann und wie die Ergebnisse in der sogenannten ANOVATabelle zu interpretieren sind.
3.4
Hypothesentests
107
Beispiel 3.7 Die Wirkung einer Testsubstanz B soll gegenüber einer Referenzsubstanz A in einem Tierversuch getestet werden. Hierzu werden beide Substanzen jeweils in zwei unterschiedlichen Dosen verabreicht, und die Antwort des Immunsystems gemessen (vgl. Tab. 3.11). Wären die beiden Substanzen jeweils nur in einer Konzentration verabreicht worden, so würde es sich hierbei um eine einfache ANOVA handeln. Dann würde Sie lediglich interessieren, ob die beiden Substanzen die gleichen oder unterschiedliche Wirkungen auf die Tiere haben, d. h., ob die Mittelwerte für beide Substanzgruppen gleich oder unterschiedlich sind. Das wäre ein klassischer Hypothesentest, bei dem Sie zwei Mittelwerte miteinander vergleichen. Durch den zweiten Faktor (Dosis) wird das Ganze zu einer zweifachen ANOVA. Nun können Sie auch feststellen, ob die Wirkung der Substanz B die gleiche Dosisabhängigkeit hat wie Substanz A (falls überhaupt eine Dosisabhängigkeit existiert). Um die Daten in Excel zu analysieren, gehen Sie unter Daten → Datenanalyse, und unter den Analyse-Funktionen finden Sie die Anova: Zweifaktorielle Varianzanalyse mit Messwiederholung. Als Eingabebereich übergeben Sie die Tabelle (inklusive Spalten- und Zeilenbeschriftungen). Unter Zeilen je Stichprobe tragen Sie die Anzahl Replikate je Dosis und Substanz ein (hier drei). Das Alpha können Sie mit 0,05 übernehmen, ebenso dass die Ausgabe in ein neues Tabellenblatt geschrieben wird. Nachdem Sie OK geklickt haben, öffnet sich ein neues Tabellenblatt, indem mehrere Ergebnistabellen reingeschrieben wurden (Tab. 3.12). Kurz zur Begriffsklärung. Mit Stichprobe ist hier der Faktor Substanz gemeint. Die Spalten entsprechen dem Faktor Dosis. Versuchen wir mal nachzuvollziehen, was Excel im Hintergrund gerechnet hat. Wenn Sie die Hypothese überprüfen wollten, ob die Wirkung abhängig von dem Faktor Substanz ist, dann können Sie zunächst für jede Substanzgruppe (Zeile) alle sechs Werte mitteln (vgl. Tab. 3.11) und könnten anschließend mithilfe der beiden resultierenden Mittelwerte die Fehlerquadratsumme zum Gesamtmittelwert berechnen und mit 6 multiplizieren. Ebenso können Sie die Abhängigkeit der Wirkung von der Dosis untersuchen, indem Sie zunächst alle sechs Werte (unabhängig von der Substanz) in einer Spalte mitteln und anschließend die Fehlerquadratsumme der beiden resultierenden Mittelwerte zum Gesamtmittelwert berechnen und mit 6 multiplizieren. Wenn Sie die so erhaltenen Fehlerquadratsummen jeweils durch die entsprechenden Freiheitsgrade teilen, so erhalten Sie die entsprechenden Varianzen. Lassen wir die Wechselwirkung zunächst mal außen vor, dann lässt sich die Restfehlerquadratsumme aus der Differenz der Gesamtfehlerquadratsumme und den beiden zuvor erwähnten Fehlerquadratsummen über die Zeilen und Spalten berechnen. Die Gesamtfehlerquadratsumme lässt sich mithilfe der Excel-Funktion SUMQUADABW berechnen. Die Restfehlerquadratsumme geteilt durch die zugehörigen Freiheitsgrade ergibt die entsprechende Varianz. Falls die Wirkung abhängig von
108 Tab. 3.11 Datensatz zur Illustration der zweifachen Varianzanalyse
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
Substanz A
Substanz B
Dosis 1
Dosis 2
115
87
113
84
108
92
109
86
111
82
103
76
der Substanz ist, dann ist das Verhältnis der oben berechneten Varianz für die Substanz zur Restvarianz deutlich größer als eins. Das Gleiche gilt für Abhängigkeit der Wirkung von der Dosis. Falls die Wirkung abhängig von der Dosis ist, dann ist das Verhältnis der oben berechneten Varianz für die Dosis zur Restvarianz ebenso deutlich größer als eins. Ob diese Varianzen statistisch signifikant verschieden sind, sagt Ihnen wiederum ein entsprechender p-Wert (vgl. Tab. 3.12). Falls ein dosisabhängiger Effekt vorhanden ist, kann dieser Effekt derselbe für beide Substanzen sein oder nicht. Im ersten Fall wäre die relative Änderung der Wirkung dieselbe für beide Substanzen, im letzten Fall nicht. Dies haben wir als Wechselwirkung bezeichnet. Abb. 3.24 zeigt das entsprechende Wechselwirkungsdiagramm für dieses Beispiel. Die Wechselwirkung ist hier vernachlässigbar. Das erkennt man zum einen daran, dass die beiden Geraden annähernd dieselbe Steigung haben und somit annähernd parallel sind, zum anderen auch daran, dass der p-Wert für die Wechselwirkung in Tab. 3.12 deutlich größer als α = 0,05 ist. D. h., man verwirft die Nullhypothese, dass der Effekt von unterschiedlichen Dosen für die Substanz A gleich der von Substanz B ist, nicht15 . Der Begriff der Wechselwirkung wird uns bei der Statistischen Versuchsplanung, vgl. Abschn. 7, auch noch einmal begegnen und dort noch einmal etwas näher erläutert. Die Verallgemeinerung der ein- und zweifaktoriellen ANOVA ist die sogenannte n-faktorielle ANOVA. Von der Grundidee ändert sich nichts, aber die Daten werden weitaus komplexer. Die n-faktorielle ANOVA wird v. a. von Ingenieuren zur Auswertung multifaktorieller Versuchspläne (vgl. Abschn. 7) verwendet. Da die ein- und zweifaktorielle ANOVA jedoch in den Naturwissenschaften deutlich häufiger vorkommen als die n-faktorielle ANOVA,
15 Achtung, d. h. aber nicht, dass beide Substanzen dieselbe Wirkung bei den jeweiligen Dosen her-
vorrufen.
3.4
Hypothesentests
109
Tab. 3.12 Ergebnis der zweifaktoriellen ANOVA mit den Daten aus Tab. 3.11 Streuungsursache
Quadratsummen (SS)
Freiheitsgrade (df)
Mittlere Quadrat summe (MS)
Prüfgröße (F)
P-Wert
kritischer F-Wert
Stichprobe
85,3
1
85,3
4,7
0,0611
5,3
Spalten
1925,3
1
1925,3
107
6,6E-06
5,3
Wechselwirkung
3
1
3
0,2
0,6938
5,3
Fehler
144
8
18
Gesamt
2157,7
11
Wirkung
110
100
90
80 Dosis 1
Dosis 2
Abb. 3.24 Diagramm zur Untersuchung der Wechselwirkung zwischen Dosis und Wirkung mittels zweifaktorieller ANOVA. Eine solche Darstellung ist typisch für sogenannte Parallel-line assays [9, 32] zur Untersuchung der biologischen Wirksamkeit von einer Substanz B (Punkte) gegenüber einer Referenzsubstanz A (Rechtecke). Die Parallelität der beiden Geraden weist auf ähnliche Wirkmechanismen der Substanz B hin, jedoch erst für höhere Konzentrationen verglichen mit A
belasse ich es nun bei dem Thema. Wie bereits erwähnt, ist eine16 der Voraussetzung für den t-Test und für die ANOVA, dass die Daten annähernd normalverteilt sein müssen. Was macht man jedoch, wenn diese Voraussetzung nicht erfüllt ist? Dann wendet man einen der im nächsten Abschnitt beschriebenen nicht-parametrischen Tests an.
16 Weitere Voraussetzungen sind die Unabhängigkeit der Stichproben und die Gleichheit der Varianzen
zwischen den verschiedenen Gruppen, was man bspw. mittels Bartlett-Test überprüfen kann (nur dass Sie mal den Begriff gehört haben).
110
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
3.9 Übung: Führen Sie für die Daten in Tab. 3.11 eine zweifaktorielle ANOVA in Excel von Hand durch. Berücksichtigen Sie bei Ihrem Modell diesmal jedoch nicht die (Faktor)Wechselwirkung, sondern nur die Haupteffekte17 .
3.4.2
Nichtparametrische Hypothesentests
3.4.2.1 Mann-Whitney-U-Test Der Mann-Whitney-U -Test [33] steht stellvertretend für eine Reihe von relativ einfachen nicht-parametrischen Tests zum Vergleich von Gruppen, die keine Voraussetzung über die Art der Verteilung der Daten machen. Diese Tests werden letztlich nicht mit den eigentlichen Datenwerten gemacht, sondern mit den Rängen der Daten der verschiedenen Gruppen. Der Mann-Whitney-U -Test ist das nicht-parametrische Pendant zum Zweistichproben-t-Test (siehe Abschn. 3.4.1.2) und vergleicht wie dieser, zwei Gruppen. Da hier jedoch nicht mit den eigentlichen Werten gerechnet wird, sondern ausschließlich mit den sich daraus ergebenden Rängen, die ihrer eigenen Verteilung folgen, wird der Mann-Whitney-U -Test dann eingesetzt, wenn die Ursprungsdaten nicht normalverteilt sind und somit die Voraussetzungen für einen parametrischen Test nicht mehr gegeben sind. Nun könnte man geneigt sein zu sagen „Dann nehme ich doch einfach immer einen nicht-parametrischen Test.“. Pauschal sollten Sie einen Mann-Whitney-U -Test, oder generell einen nicht-parametrischen Test, nicht einem parametrischen Test vorziehen. Zum einen besitzen die nicht-parametrischen Tests nicht eine so große statistische Aussagekraft, falls die Daten doch annähernd normalverteilt sind, zum anderen dürfen die Stichprobengrößen nicht allzu klein sein, damit die nicht-parametrischen Methoden, bei nicht normalverteilten Daten, den parametrischen Methoden überlegen sind [7]. Sie werden weiter unten sehen, dass der p-Wert beim MannWhitney-U -Test bei normalverteilten Daten in der Regel kleiner ist als der p-Wert beim entsprechenden t-Test. Wie funktioniert denn nun dieser Test? Hier kurz zum Ablauf. 1. Listen Sie die Daten Ihrer beiden Gruppen A und B untereinander auf. 2. Ermitteln Sie zu jedem Wert i den zugehörigen Rang Ri . In Excel können Sie das mit der Funktion RANG.MITTELW machen. 3. Nun berechnen Sie für jede Gruppe jeweils den U -Wert gemäß: A n A (n A + 1) UA = n An B + − Ri 2
n
UB = n An B +
n B (n B + 1) − 2
i=1 nB
Ri
i=1
Hierbei sind n A und n B jeweils die Anzahl Daten in Gruppe A bzw. Gruppe B. 17 Mehr zu diesen Begriffen in Abschn. 7.
(3.117) (3.118)
3.4
Hypothesentests
111
4. Vergleichen Sie Umin = min{U A , U B } gegenüber einem kritischen u-Wert, den Sie aus einer entsprechenden Tabelle entnehmen (vgl. Abschn. 9.4). 5. Die beiden Gruppen sind nicht signifikant unterschiedlich, falls Umin > U gilt. In Schritt 2 könnten Sie auch mit der Excel-Funktion RANG arbeiten. Sie haben aber spätestens dann ein Problem damit, wenn in Ihren Daten Dopplungen auftreten, denn dann wird Excel der weiter oben stehenden Dopplung den kleineren Rang geben als der darunter stehenden Dopplung, was einen Bias erzeugt. Wenn Sie stattdessen die Funktion RANG.MITTELW verwenden, bekommen beide den gleichen Rang, nämlich den gemittelten Rang zwischen den beiden Dopplungen. Bitte behalten Sie Folgendes im Hinterkopf. Wenn die Werte der Gruppe A und der Gruppe B, nennen wir sie xiA bzw. y Bj , von derselben Stichprobe stammen würden (Nullhypothese), dann wird man im Mittel genauso oft den Fall xiA > y Bj antreffen, wie den Fall xiA < yiB , das heißt, die Verteilung der Ränge wäre zufällig und die Rangmittelwerte wären annähernd gleich. Bei der Auswertung des Mann-Whitney-U -Test werden diese beiden Fälle getrennt gezählt, was eben genau in den Gl. 3.117 bzw. 3.118 passiert. U A entspricht der Summe der Anzahl Fälle, in denen xiA > y Bj gilt, und U B entspricht der Summe der Anzahl Fälle, in denen xiA < y Bj gilt. U A und U B sind nicht unabhängig voneinander. Wenn U A größer wird, so wird U B entsprechend kleiner und umgekehrt. Falls alle xiA > y Bj , dann haben wir U A = n A n B und U B = 0. n A n B ist die Anzahl aller möglichen (xiA , y Bj ) Paare, wobei n A der Anzahl Werte in Gruppe A und n B der Anzahl Werte in Gruppe B entspricht. Umgekehrt, falls alle xiA < y Bj , dann ist U B = n a n B und U A = 0. Dementsprechend haben wir den folgenden funktionalen Zusammenhang zwischen den beiden U -Werten: UA = n An B − UB (3.119) Falls nun der kleinere von beiden U -Werten nahe am Nullhypothesenmittelwert μU = n A n B /2 liegt (dementsprechend liegt auch der größere von beiden nahe am Nullhypothesenmittelwert), so kann die Nullhypothese nicht verworfen werden. Wie groß dieser Wert mindestens sein muss, sagt Ihnen der kritische u-Wert. Die zugehörige kritische Verteilung, die durch Mann und Whitney hergeleitet wurde, berechnet sich gemäß Gl. 3.120. pn A ,n B (U ) =
nA nB pn −1,n B (U − n B ) + pn ,n −1 (U ) nA + nB A nA + nB A B
(3.120)
wobei pn A ,n B (U ) der Wahrscheinlichkeit für das Auftreten von U Wertepaaren entspricht, bei denen xiA < y Bj gilt. pn A ,0 (U ) und p0,n B (U ) sind 0, falls U < 0. pn A ,0 (U ) und p0,n B (U ) sind 0 für U = 0 und 1 für U = 0. Hierüber lässt sich entsprechend der pWert zu Ihrem U -Wert berechnen. Da dies eine rekursive Formel ist, empfiehlt sich häufig, einfach auf Tabellenwerke zurückzugreifen, sofern die Anzahl Datenpunkte relativ klein ist. Wenn n A ≥ 8 und n B ≥ 8, folgen die U -Werte annähernd einer Normalverteilung. Dann können Sie die kritischen Werte mithilfe der Excel-Funktion NORM.INV und den p-Wert
112
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
mithilfe der Funktion NORM.VERT berechnen. In beiden Fällen müssen Sie jedoch vorab den Mittelwert μU und die Standardabweichung wie folgt berechnen: ⎧ A +n B +1) ⎪ f¨ur Daten ohne Duplikate ⎨ n A n B (n12 d d 2 −d (3.121) σU = n n 3 k n −n k A B ⎪ f¨ u r Daten mit d Duplikaten − ⎩ n(n−1) 12 12 k=1
hierbei entspricht dk der Anzahl Duplikate mit Rangplatz k. Beispiel 3.8 Angenommen, wir hätten den in Tab. 3.13 dargestellten Datensatz für zwei Gruppen A und B. Mithilfe eines Mann-Whitney-U -Tests soll überprüft werden, ob die beiden Gruppen statistisch signifikant verschieden sind oder nicht. Wie oben bereits gesagt, empfehle ich Ihnen, die Daten der beiden Gruppen in Excel einfach untereinander zu kopieren. Neben die daraus resultierende Spalte schreiben Sie anschließend die Gruppenbezeichnungen hin. Danach bestimmen Sie mithilfe der Funktion RANG.MITTELW die Ränge 1 bis 16. Daraufhin berechnen Sie U A und U B mithilfe der Gl. 3.117 und 3.118. Für dieses Beispiel ergibt sich hierbei U A = 48 und U B = 16. Umin ist demnach gleich 16. Der Mittelwert ist gleich μU = n A n B /2 = 32, und die Standardabweichung wird gemäß Gl. 3.121 (erster Fall) zu σU = 9,5 berechnet. Aus μU , σU und Umin lässt sich mithilfe der Funktion NORM.VERT der zweiseitige p-Wert berechnen. Sie können für Ihre Entscheidung auch einfach NORM.INV für α = 0,05 berechnen. Damit erhalten Sie denjenigen U -Wert, unterhalb dem Ihr Umin liegen müsste, um die Nullhypothese verwerfen zu können. Bitte beachten Sie, dass Sie für den zweiseitigen Test das α auf beide Seiten der Normalverteilung aufteilen müssen, d. h., Sie übergeben α/2 als Parameter an die NORM.INV-Funktion. Dabei erhält man in diesem Beispiel 13. Da Umin größer als 13 ist, kann die Nullhypothese nicht verworfen werden. Dieselbe Aussage erhalten Sie anhand von p = 0,05. Wie der p-Wert zeigt, befinden wir uns hier ziemlich an der Grenze bzgl. der Aussagekraft, denn dieser ist genauso groß wie α. Vergleichen wir dazu noch den Ausgang eines Zweistichproben-t-Tests, den wir mithilfe der Funktion T.Test anwenden können. Dieser gibt uns einen p-Wert von p = 0,03, also relativ ähnlich zum p-Wert des Mann-Whitney-U -Test, jedoch ein wenig kleiner. Dass der p-Wert des nicht-parametrischen Tests etwas höher liegt als bei parametrischen Tests (normalverteilte Daten mal vorausgesetzt), werden Sie häufig beobachten, insbesondere bei kleinen Datensätzen. Daher sagt man auch, nichtparametrische Tests hätten weniger statistische Aussagekraft als parametrische Tests. In einem Video zeige ich Ihnen im Detail, wie Sie den Mann-Whitney-U -Test in Excel durchführen. Rufen Sie dieses Video durch Scannen des QR-Codes (unten) auf.
3.4
Hypothesentests
113
Tab. 3.13 Beispieldatensatz für den Mann-Whitney-U -Test Gruppe A
18,5
13,8
18,7
17,5
13,4
14,9
16,8
14,6
Gruppe B
18,4
18,6
17,8
17,8
18,3
18,3
17,2
18,2
An dieser Stelle möchte ich kurz darauf eingehen, dass es eine alternative Form vom MannWhitney-U -Test gibt, der sogenannte Mann-Whitney-Rangsummen-Test (siehe z. B. [31]), der auch Wilcoxon-Rangsummen-Test genannt wird, da Wilcoxon ihn im Jahr 1945 erstmals veröffentlichte [34]. Ich führe ihn hier deshalb nochmals an, weil sein Verständnis den Zugang zum Kruskal-Wallis-Test (kommt im nächsten Abschnitt) erleichtert. Der MannWhitney-U -Test und der Wilcoxon-Rangsummen-Test geben am Ende dieselbe Aussage mit derselben statistischen Aussagekraft. Beim Rangsummen-Test wird anstatt einer U Statistik, eine Statistik T für die Summe der Ränge der kleineren von beiden Gruppen A und B berechnet. Die experimentell berechnete Rangsumme dieser Gruppe wird einem kritischen Wert T gegenübergestellt, der aus der Verteilung aller möglichen Rangsummen für die kleinere Gruppe berechnet wird. Die genannte Verteilung kann dadurch erzeugt werden, dass alle zufällig möglichen Rangsummen (über n A Ränge) berechnet und in einem Histogramm dargestellt werden. Für drei Elemente in der Gruppe A (n A = 3) und fünf Elemente in der Gruppe B (n B = 5) gibt es bspw. 83 = 56 verschiedene Möglichkeiten, die Ränge zu kombinieren. Das Histogramm über alle möglichen Rangsummen ist für diesen Fall in Abb. 3.25 dargestellt. Sie sehen, dass die Ränge 6, 7 und 8 in der Gruppe A sehr unwahrscheinlich sind, sofern sie rein zufällig erzeugt worden wären. Ebenso die Ränge am anderen Ende, also 19, 20 und 21. Quantitativ wird das wiederum in Form der Quantile einer solchen Verteilung ausgedrückt, die typischerweise in Form von Tabellen vorliegen (vgl. Abschn. 9.4). Falls Sie demnach bei einem Experiment mit zwei Gruppen und jeweils drei bzw. fünf Elementen in den Gruppen eine der zuvor genannten Rangkonstellationen haben, dann sollten mal darüber nachdenken, ob die Daten ggf. nicht von derselben Verteilung stammen. Die Verteilung analytisch zu berechnen, ist im Allgemeinen für n A > 3 und n B > 4 nicht mehr praktikabel. Die Quantile der Verteilungen werden dann aus Simulationen berechnet. Ab n A > 8 und n B > 8 kann man die Verteilung des transformierten T -Wertes:
114
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
Abb. 3.25 Histogramm über alle möglichen Rangsummen der kleineren Gruppe A mit n A = 3 und n B = 5
6
Anzahl
5 4 3 2 1 0
zT =
6
8
10
12 14 16 Rangsumme
18
|T − μT | σT
20
22
(3.122)
sehr gut durch eine Standardnormalverteilung annähern, deren Quantile ja bekannt sind. μT ist hierbei der Mittelwert von T und berechnet sich gemäß: μT =
n A (n A + n B ) + 1 2
(3.123)
σT ist die Standardabweichung von T und errechnete sich so wie in Gl. 3.121. 3.10 Übung: Simulieren Sie in Excel eine zufällige Rangverteilung für zwei Gruppen A und B, indem Sie jeweils vier Zufallszahlen für Gruppe A und fünf Zufallszahlen für Gruppe B erzeugen und berechnen Sie für die resultierenden neun Zahlen die zugehörigen Rangplätze 1, . . . , 9. Berechnen Sie anschließend U A und U B gemäß Gl. 3.117 bzw. 3.118 und daraus Umin . Führen Sie dies insgesamt 10.000 mal durch (nutzen Sie hierbei das Auto-Ausfüllen). Zu guter Letzt bestimmen Sie aus den so erhaltenen 10.000 Umin -Werten das 5 %-Quantil.
3.4.2.2 Wilcoxon-Vorzeichen-Rang-Test Übrigens publizierte Wilcoxon in der Veröffentlichung, in der er den Rangsummen-Test beschrieb, auch den nach ihm benannten Wilcoxon-Vorzeichen-Rang-Test [34]. Dieser Test ist das nicht-parametrischen Pendant zum abhängigen t-Test. Ähnlich wie dort werden beim Wilcoxon-Vorzeichen-Rang-Test bspw. zunächst die Änderungen Di eines Körperfunktionsparameters vor und nach der Behandlung eines Individuums i mit einem Medikament und einem Placebo berechnet. Für die Differenzen werden anschließend die Ränge bestimmt, wobei das Vorzeichen der Di außer Acht gelassen wird (die Ränge werden im Prinzip auf Basis der Absolutbeträge gebildet). Anschließend erhalten diejenigen Ränge ein negatives Vorzeichen, deren Differenz jeweils negativ war. Nun sind in der Literatur mehrere
3.4
Hypothesentests
115
Möglichkeiten beschrieben, wie fortgefahren wird. Wilcoxon selbst [34] hat jeweils die negativen und jeweils die positiven Ränge aufsummiert und die resultierende Teststatistik, die kleinere der beiden Rangsummen, einem kritischen Wert gegenübergestellt. In Glantz [31] bspw. hingegen wird die Teststatistik basierend auf der totalen Rangsumme berechnet. Diese kann positiv oder negativ sein, je nachdem, wie die zugrunde liegenden Daten aussehen. Nichtsdestotrotz sind die daraus resultierenden statistischen Aussagen äquivalent. Wenn man sich für einen der Wege entschieden hat, muss man jedoch aufpassen, dass man die richtige Tabelle für die kritischen Werte verwendet. Machen wir an dieser Stelle mal ein kleines Beispiel. Beispiel 3.9 Angenommen, wir hätten 8 Individuen, die an einer physiologischen Sauerstoffunterversorgung litten und deren Sauerstoffsättigung jeweils vor der Behandlung, und nach der Behandlung mit einem Medikament, bestimmt wurde. Tab. 3.14 zeigt die entsprechenden Ergebnisse in den ersten drei Spalten. In den letzten fünf Spalten der Tabelle finden sich die Auswertungen zu den Daten. Zunächst wird die Differenz zwischen den Daten nach der Behandlung und vor der Behandlung gebildet (Spalte 4). Die Rangfolge dieser (absoluten) Differenzen wird mithilfe der Funktion RANG.MITTELW bestimmt (Spalte 5). In der 6. Spalte werden dann jeweils die Vorzeichen der Differenzen mithilfe der Funktion VORZEICHEN extrahiert und schließlich jeweils die Rangsumme für die Ränge mit negativen Vorzeichen und mit positiven Vorzeichen berechnet (Spalte 7 bzw. 8). Hierzu habe ich die Funktion SUMMEWENN verwendet, mit der Sie Zellinhalte aufsummieren können, die ein bestimmtes Kriterium (hier bspw. = −1 bzw. 1). Die kleinere der beiden Rangsummen vergleichen wir anschließend gegenüber einem kritischen Wert für n = 7 und ein Signifikanzniveau von α = 0.05 (vgl. Abschn. 9.4). Bitte beachten Sie, dass Differenzen von null vor der Analyse ausgeschlossen werden. Die Anzahl Datenpunkte, mit der Sie in die Tabelle mit den kritischen Werten gehen, muss entsprechend um die Anzahl der Nulldifferenzen reduziert werden. Im obigen Beispiel betraf das die Messung des achten Individuums. Der kritische Wert für den zweiseitigen Test, mit den o. g. Parametern, ist 2. Da die kleinere von beiden Rangsummen gleich 1 ist und somit kleiner als der kritische Wert, verwerfen wir die Nullhypothese, dass die Behandlung mit dem Medikament zu keiner signifikanten Veränderung der Sauerstoffsättigung führt. Mit dem Mann-Whitney-U -Test, dem Wilcoxon-Rangsummen-Test bzw. dem WilcoxonVorzeichen-Rang-Test wurden zwei Gruppen miteinander verglichen. Was aber, wenn man mehr als zwei Gruppen miteinander vergleichen möchte? Im parametrischen Fall haben wir hierfür die Varianzanalyse kennengelernt. Im nicht-parametrischen Fall gibt es solche Art Tests auch, der sogenannte Kruskal-Wallis-Test bzw. der Test nach Friedman sind Beispiele hierfür. Beide Tests wollen wir uns im Folgenden anschauen.
116
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
Tab. 3.14 Beispieldatensatz zum Wilcoxon-Vorzeichen-Rang-Test Individuum
O2 Sättigung in % vor Behandlung
O2 Differenz Sättigung in % nach Behandlung
Rang
Vorzeichen
Rangsumme (neg. Vorzeichen)
Rangsumme (pos. Vorzeichen)
1
85
90
5
2
1
1
21
2
83
96
12
5
1
3
88
94
6
3
1
4
82
92
10
4
1
5
80
98
18
7
1
6
84
97
13
6
1
7
92
91
−1
1
−1
8
94
94
0
3.4.2.3 Kruskal-Wallis-Test Während der Mann-Whitney-U -Test auf zwei zu vergleichende Gruppen beschränkt ist, kann der Kruskal-Wallis-Test für mehr als zwei Gruppen verwendet werden. Er ist das nicht-parametrische Pendant zur einfaktoriellen Varianzanalyse. Auch der Kruskal-WallisTest analysiert die Rangplätze der Daten statt die eigentlichen Daten selbst, und auch dieser Test ist bei normalverteilten Datensätzen nicht so statistisch aussagekräftig wie eine entsprechende ANOVA. Falls die Daten jedoch nicht normalverteilt sind, ist dieser Test der ANOVA ggf. vorzuziehen. Wie beim Mann-Whitney-U -Test wird überprüft, ob die Rangfolge, die den Daten zugrunde liegt, statistisch signifikant verschieden von einer Rangfolge ist, die rein zufällig erzeugt wurde. Hierzu wird eine Teststatistik H gemäß folgender Gleichung berechnet: 2 g N − 1 n i R¯ i − N 2+1 H= (3.124) N 2 −1 N i=1
12
Hierbei ist R¯ i der Mittelwert der n i Ränge der Gruppe i (von insgesamt g-Gruppen), und g N = i=1 n i ist gleich der Gesamtzahl der Daten. Wie bereits erwähnt, will man mit dem Kruskal-Wallis-Test herausfinden, ob die Rangplätze des Experiments statistisch signifikant von N rein zufällig erzeugten Rangplätzen abweichen. Das ist gleichbedeutend damit, ob die Mittelwerte der Rangplätze R¯ i statistisch signifikant verschieden vom Mittelwert μ N = (N + 1)/2 der Gleichverteilung (der Zahlen 1 . . . N ) ist, oder nicht. Bedenkt man, dass (N 2 − 1)/12 die Varianz σ N2 der Gleichverteilung ist, dann erkennt man, dass Gl. 3.124 dieselbe Struktur hat wie der χ 2 -Test (vgl. Abschn. 3.4.1.5). Das erkennen Sie vermutlich besser, wenn man Gl. 3.124 mal umschreibt:
3.4
Hypothesentests
117
2 g N − 1 n i R¯ i − μ N H= N σ N2 i=1
(3.125)
Da die R¯ i Summen von zufällig verteilten Zahlen sind, folgen diese, für nicht zu kleine n i , annähernd einer Normalverteilung (vgl. Zentraler Grenzwertsatz, Abschn. 3.2.3), und somit kann man die χ 2 -Verteilung heranziehen, um aus dem H -Wert den zugehörigen p-Wert zu berechnen. In der Veröffentlichung von Kruskal und Wallis [35] wird gesagt, die Näherung sei ausreichend, sobald n i ≥ 5 ist. Für kleinere Werte haben sie in besagter Veröffentlichung Tabellen für den Fall von drei Gruppen mit aufgeführt. In einem Video zeige ich Ihnen im Detail, wie Sie einen Kruskal-Wallis-Test in Excel durchführen. Rufen Sie dieses Video durch Scannen des QR-Codes (unten) auf.
Abschließend möchte ich sagen, dass die ANOVA in der Praxis häufiger Anwendung findet als der Kruskal-Wallis-Test. Das liegt u. a. daran, dass experimentelle Daten häufig annähernd normalverteilt sind und die ANOVA außerdem relativ robust gegenüber der Verletzung dieser Voraussetzung ist. Aus diesem Grund wird der Kruskal-Wallis-Test oft nur dann eingesetzt, wenn die Daten sehr stark von der Normalverteilung abweichen. 3.11 Übung: Führen Sie mit den Daten in Tab. 3.8 einen Kruskal-Wallis-Test durch.
3.4.2.4 Der Friedman-Test Der Friedman-Test ist das nicht-parametrische Pendant zur ANOVA mit Messwiederholung (vgl. Abschn. 3.4.1.7). Wie bei dieser werden beim Friedman-Test denselben Objekten bspw. jeweils unterschiedliche Medikamente verabreicht, d. h., auch hier sind die Werte jeweils miteinander korreliert. Im Gegensatz zum Kruskal-Wallis-Test werden die Ränge nun nicht mehr über alle Daten hinweg ermittelt, sondern je Objekt. Bei drei Medikamenten können demnach je Objekt nur die Rangplätze 1, 2 oder 3 auftreten. Wenn nun die Medikamente keinen Einfluss auf die Objekte haben würden (Nullhypothese), dann wären die Summen über die Ränge je Medikament ähnlich. Wenn die Medikamente einen Einfluss haben, dann werden diese Summen deutlich weniger ähnlich sein. Um bei unserem Drei-MedikamenteBeispiel zu bleiben, häufen sich bspw. die kleineren Ränge in der Gruppe für das erste Medikament, während sich die größeren Ränge in der Gruppe des dritten Medikamentes häufen. N entspricht hierbei der Anzahl Objekte in einer Gruppe. Der Friedman-Test vergleicht nun
118
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
die mittleren Ränge R¯ i aller Gruppen i mit dem Mittelwert μ N = (N + 1)/2, der bei zufälliger Verteilung der Rangplätze in den Gruppen erhalten werden würde. Hierzu werden die 2 quadrierten Abweichungen R¯ i − N 2+1 berechnet und anschließend aufsummiert. Ähnlich wie beim Kruskal-Wallis-Test wird diese Summe mit der Varianz σ N2 = (M 2 − 1)/(12N ) normiert. Die Friedman-Teststatistik χr2 sieht dann wie folgt aus: M
χr2 =
M − 1 i=1 M
=
12N M(M + 1)
R¯ i −
σ N2 M i=1
M+1 2 2
M +1 R¯ i − 2
2 (3.126)
M ist hierbei die Anzahl der untersuchten Gruppen. Bitte beachten Sie, dass Sie χr2 in Gl. 3.126 auch als Funktion der Rangsummen Ri der einzelnen Gruppen i schreiben können, N wenn Sie bedenken, dass R¯ i gleich i=1 Ri j /N ist:
χr2 =
M 12N M +1 2 R¯ i − M(M + 1) 2 i=1
=
M 12 N (M + 1) 2 Ri − M(M + 1)N 2
(3.127)
i=1
χr2 folgt annähernd einer χ 2 -Verteilung mit M −1 Freiheitsgraden [36]. Demnach können Sie den zu χr2 gehörenden p-Wert mithilfe der Excel-Funktion CHIQU.VERT berechnen. Die Näherung ist ausreichend gut, wenn bei vier oder mehr Gruppen mindestens sechs Objekte vorhanden sind [36]. Bei nur drei Gruppen sollten mindestens zehn Objekte vorhanden sein, ansonsten sollte man auf Tabellenwerte der exakten Verteilung von χr2 zurückgreifen. In einem Video zeige ich Ihnen im Detail, wie Sie den Friedman-Test in Excel durchführen können. Rufen Sie dieses Video durch Scannen des QR-Codes (unten) auf.
3.4
Hypothesentests
3.4.3
119
Das Problem der multiplen Vergleiche
In Abschn. 3.4.1.7 hatten wir gelernt, dass die Varianzanalyse dazu verwendet wird, um zu überprüfen, ob die Mittelwerte mehrerer Gruppen gleich (Nullhypothese) oder mindestens ein Mittelwert verschieden von den anderen ist (Alternativhypothese). In diesem Zusammenhang spricht man auch häufig von einem sogenannten Omnibus-Test. Solche Tests sagen Ihnen nicht, welche Mittelwerte eigentlich verschieden sind. Falls dies jedoch Teil Ihrer experimentellen Fragestellung ist, dann bieten sich Post-hoc-Mehrfachvergleiche (engl. multiple comparison) an, auf die ich im Folgenden kurz eingehen möchte. Angenommen, Sie hätten drei Gruppen A, B und C, deren Mittelwerte Sie paarweise miteinander vergleichen wollten, also μ A mit μ B , μ A mit μC und μ B mit μC 18 . Wenn Sie nun drei t-Tests durchführen, wobei für jeden t-Test jeweils das Signifikanzniveau α = 0,05 angewendet wird, dann ist die Wahrscheinlichkeit, mindestens ein statistisch signifikantes Ergebnis durch Zufall zu erhalten, größer als α. Bitte beachten Sie die Formulierung ’mindestens ein...’. Die Situation ist ähnlich gelagert wie beim 10-Würfel-Beispiel aus Übung 3.1, wo wir nach der Wahrscheinlichkeit von mindestens einer 6 bei zehn Würfen eines Würfels gefragt hatten. Das Ergebnis dieser Übung können wir auf die jetzige Fragestellung übertragen. Die Wahrscheinlichkeit α F , bei n Vergleichen mindestens ein statistisch signifikantes Ergebnis zu erhalten, wenn die Wahrscheinlichkeit bei einmaligem Ausführen gleich α ist, beträgt (wie beim Würfelbeispiel)19 : α F = 1 − (1 − α)n
(3.128)
Wenn α die Wahrscheinlichkeit dafür ist, einen Fehler 1. Art (vgl. hierzu auch Abschn. 3.4.1.4) bei nur einem Vergleich zu machen, dann ist (1 − α) entsprechend die Wahrscheinlichkeit, keinen Fehler 1. Art bei nur einem Vergleich zu machen. (1 − α)2 ist dann die Wahrscheinlichkeit, keinen Fehler 1. Art beim ersten und beim zweiten Vergleich zu machen, und allgemein ist (1 − α)n die Wahrscheinlichkeit, bei n Vergleichen keinen Fehler 1. Art zu machen. Das zu (1 − α)n komplementäre Ereignis, mindestens einen Fehler bei n-Vergleichen zu machen ist dann entsprechend unser α F aus Gl. 3.128. Bei unserem Eingangsproblem mit den drei Gruppen ist n = 3 und α F = 0,143, d. h., die Wahrscheinlichkeit, bei drei Vergleichen bzw. Hypothesentests rein zufällig mindestens ein signifikantes Ergebnis zu erhalten, liegt bei 14,3 %. α F bezeichnet man in der englischsprachigen Literatur als familywise error rate. Eine entsprechende deutsche Bezeichnung hat sich meines Wissens nach noch nicht durchgesetzt. Das Wort family bezieht sich hierbei auf die Hypothesenfamilie. In unserem Beispiel gehören drei Hypothesen dieser Familie an. Wie Sie sehen, geht α F gegen eins für größer werdende n, d. h., die Wahrscheinlichkeit, mindestens ein falsch positives Ergebnis zu erhalten, steigt mit der Anzahl n der zu vergleichenden Grup18 Bei n-Gruppen gibt es übrigens n(n − 1)/2 mögliche paarweise Vergleiche. 19 Bitte beachten Sie, dass hier die Unabhängigkeit der verschiedenen Vergleiche vorausgesetzt wird,
was in der Praxis ggf. nicht immer der Fall sein wird.
120
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
pen. Bei unseren Gruppen immerhin schon auf 14,3 %. Wenn Sie für die Hypothesenfamilie mit einem Signifikanzniveau α F = 0,05 testen wollen, dann müssen Sie für die einzelnen Vergleiche folgendes α ansetzen: 1
α = 1 − (1 − α F ) n
(3.129)
Gl. 3.129 finden Sie in der Literatur häufig unter dem Namen Šidák-Gleichung. Auf ein ähnliches Ergebnis kommt man übrigens auch, wenn man α durch die Anzahl der Vergleiche teilt: αF α= (3.130) n Gl. 3.130 ist die sogenannte Bonferroni-Korrektur. Das so errechnete α ist immer etwas kleiner als aus der Šidák-Gleichung. Das kann man schnell erkennen, wenn man bedenkt, dass der Ausdruck in Gl. 3.130 dem ersten Term der Taylorreihenentwicklung der ŠidákGleichung ist (vgl. [37]). Dadurch ist die Bonferroni-Korrektur jedoch immer etwas konservativer als die Korrektur nach Šidák. Dennoch sind beide gegenüber anderen Methoden für Mehrfachvergleiche immer noch verhältnismäßig konservativ, v. a. bei zunehmender Anzahl an Vergleichen [37]. Bitte beachten Sie auch, dass Sie durch die Korrektur zwar das 5 %-Signifikanzniveau für die ganze Hypothesenfamilie sicherstellen, sich das jedoch dadurch erkaufen, dass ein bestimmter Vergleich bzw. Test einen p-Wert deutlich kleiner als diese 5 % aufweisen muss, um als signifikant eingestuft zu werden. Anders gesprochen, Sie erhalten zwar die Wahrscheinlichkeit für einen Fehler 1. Art bei 5 %, erhöhen jedoch die Wahrscheinlichkeit, dass ein Vergleich bzw. Test als nicht signifikant eingestuft wird, obwohl er es eigentlich ist. D. h., Sie erhöhen dadurch den Fehler 2. Art. Da ich diesen Abschnitt zu Mehrfachvergleichen als eine Art Anregung sehe, sich mit dem Thema mal auseinanderzusetzen, ohne zu tief ins Detail zu gehen, möchte ich an dieser Stelle nicht auf weitere Korrekturmethoden eingehen. Es sei an dieser Stelle auch erwähnt, dass die Anwendung der o.g. Korrekturen unter Wissenschaftlern nicht unumstritten ist. Manche sprechen sich bspw. dafür aus, überhaupt keine Korrektur zu machen, dafür aber die Art der Tests und v. a. die Anzahl der gemachten Vergleiche bzw. Tests und ihre verschiedenen Interpretationen zu dokumentieren [38]. Das Thema multiple Vergleiche ist relativ komplex, und es gibt einige Fallstricke zu beachten. Doch dieses Fass möchte ich jetzt nicht aufmachen, da sich ganze Bücher nur mit dem Thema multipler Vergleiche beschäftigen. Einen grundlegenden, nicht-mathematischen Überblick über multiple Vergleiche findet sich bspw. bei Motulsky [7].
Literatur 1. Kahneman, D., Schmidt, T.: Schnelles Denken, langsames Denken. Siedler, München (2012) 2. Tversky, A., Kahneman, D.: Judgment under uncertainty: Heuristics and biases. Science 185(4157), 1124 (1974)
3.4
Hypothesentests
121
3. Sivia, D., Skilling, J.: Data Analysis: A Bayesian Tutorial. Oxford science publications & Oxford University Press, New York (2006) 4. Student: The probable error of a mean. Biometrika 6(1), 1–25 (1908) 5. Langford, E.: Quartiles in Elementary Statistics. J. Stat. Educ. 14(3), 1–20 (2006) 6. Amrhein, V., Greenland, S., McShane, B.: Retire statistical significance. Nature 567, 305–307 (2019) 7. Motulsky, H.: Intuitive Biostatistics: A Nonmathematical Guide to Statistical Thinking. Oxford University Press, New York (2017) 8. USP Chapter Design and Development of Biological Assays. USP Pharmacopeial Convention, Rockville (2013) 9. European Pharmacopoeia: European Pharmacopoeia 6th Edition, chapter Statistical Analysis of Results of Biological Assays and Tests, S 571–600. Council of Europe (01/2008) 10. Schuirmann, D.J.: A comparison of the two one-sided tests procedure and the power approach for assessing the equivalence of average bioavailability. J. Pharmacokinet. Biopharm. 15(6), 657–680 (1987) 11. Fieller, E.C.: Some problems in interval estimation. J. Roy. Stat. Soc. B (Methodological) 16(2), 175–185 (1954) 12. Meyners, M.: Equivalence tests – a review. Food Qual. Prefer. 26(2), 231–245 (2012) 13. Kreyszig, E.: Statistische Methoden und ihre Anwendungen. Vandenhoeck & Ruprecht, Göttingen (1979) 14. Shapiro, S.S., Wilk, M.B.: An analysis of variance test for normality (complete samples). Biometrika 52(3/4), 591–611 (1965) 15. Thode, H.C.: Testing For Normality. Statistics, textbooks and monographs. Marcel Dekker, Inc., New York (2002) 16. Hain, J.: Comparison of common tests for normality. Master’s thesis, Julius-MaximiliansUniversität Würzburg (2010) 17. Filliben, J.J.: The probability plot correlation coefficient test for normality. Technometrics 17(1), 111–117 (1975) 18. Carlos, JM., Bera, AK.: Efficient tests for normality, homoscedasticity and serial independence of regression residuals. Econ. Lett. 6(3), 255–259 (1980) 19. Jarque, C.M., Bera, AK.: A test for normality of observations and regression residuals. Int. Stat. Rev./Rev. Int. Stat. 55(2), 163–172 (1987) 20. D’Agostino, R., Pearson, √ E.S.:. Tests for departure from normality. empirical results for the distributions of b2 and b1 . Biometrika 60(3), 613–622 (1973) 21. D’Agostino, R.B., Belanger, A.: A suggestion for using powerful and informative tests of normality. Am. Stat. 44(4), 316–321 (1990) 22. Grubbs, F.E.: Sample criteria for testing outlying observations. Ann. Math. Stat. 21(1), 27–58 (1950) 23. Grubbs, F.E.: Procedures for detecting outlying observations in samples. Technometrics 11(1), 1–21 (1969) 24. Rosner, B.: Percentage points for a generalized esd many-outlier procedure. Technometrics 25(2), 165–172 (1983) 25. Iglewicz, B., Hoaglin, D.: Volume 16: How to Detect and Handle Outliers. The ASQC Basic References in Quality Control: Statistical Techniques, Edward F. Mykytka, Ph.D., Editor 26. Dean, R.B., Dixon, W.J.: Simplified statistics for small numbers of observations. Anal. Chem. 23(4), 636–638 (1951) 27. Dixon, W.J.: Processing data for outliers. Biometrics 9(1), 74–89 (1953) 28. Dixon, W.J.: Analysis of extreme values. Ann. Math. Stat. 21(4), 488–506 (1950)
122
3 Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen
29. Rorabacher, D.B.: Statistical treatment for rejection of deviant values: critical values of dixon’s "q"parameter and related subrange ratios at the 95 confidence level. Anal. Chem. 63(2), 139–146 (1991) 30. Welch, B.L.: On the Comparison of Several Mean Values: An Alternative Approach. Biometrika 38(3/4), 330–336 (1951) 31. Glantz, S.: Primer of Biostatistics, 7. Aufl. McGraw-Hill Education, New York (2011) 32. Finney, D.J.: Statistical method in biological assay. by d. j. finney, m.a., sc.d. [S. xix 661. london: Charles griffin and co. ltd., 1952. 68s.]. J. Inst. Actuaries 80(3), 428–428 (1954) 33. Mann, H.B., Whitney, D.R.: On a test of whether one of two random variables is stochastically larger than the other. Ann. Math. Stat. 18(1), 50–60 (1947) 34. Wilcoxon, F.: Individual comparisons by ranking methods. Biometrics Bull. 1(6), 80–83 (1945) 35. Kruskal, W.H., Wallis, W.A.: Use of ranks in one-criterion variance analysis. J. Am. Stat. Assoc. 47(260), 583–621 (1952) 36. Friedman, M.: The use of ranks to avoid the assumption of normality implicit in the analysis of variance. J. Am. Stat. Assoc. 32(200), 675–701 (1937) 37. Abdi, H.: The bonferonni and šidák corrections for multiple comparisons (2006) 38. Perneger, T.V.: What’s wrong with bonferroni adjustments. BMJ 316(7139), 1236–1238 (1998)
4
Datenvorbehandlung und Signalwertanalyse
4.1
Datenskalierung
In diesem Abschnitt bespreche ich häufig vorkommende Arten der Datenskalierung bzw. Datennormierungen. Verschiedene Datensätze werden zumeist deshalb normiert, um sie vergleichbar zu machen oder um sie unabhängig von ihrer absoluten Skala zu machen. Das schließt auch mit ein, dass die Daten unabhängig von ihren Einheiten gemacht werden. So ist bspw. die Manganionen-Konzentration im Blut von Natur aus um Potenzen kleiner als die Calciumionen-Konzentration. Wenn Sie bspw. mit den absoluten (nicht normierten) Daten eine Klassifizierung von Blutproben aufgrund ausgewählter Ionen im Blut machen, dann sollten die übermäßig größeren Calciumionen-Werte nicht automatisch auch ein überproportionales Gewicht auf das Endergebnis haben. In solchen Fällen sollten Sie Ihre Daten normieren. Im Folgenden gehe ich daher auf gängige Techniken zur Datenskalierung ein.
4.1.1
Zentrierung
Bei der Zentrierung wird von jedem Element yi eines Datensatzes der Mittelwert abgezogen. Zentrierte Daten yi∗ verteilen Sie sich um null herum. Zentrierte Daten erhalten Sie, indem Sie den Mittelwert y¯ von jedem der Messwerte yi abziehen. yi∗ = yi − y¯
(4.1)
Die Zentrierung wird häufig standardmäßig bei der Hauptkomponentenanalyse (vgl. Abschn. 6.2.1), einem Verfahren der multivariaten Datenanalyse, in vielen Softwarepaketen eingesetzt. Allgemein können Sie auch einen konstanten Wert, der nicht unbedingt dem Mittelwert entsprechen muss, von den Daten subtrahieren. Dann ist es zwar keine Zentrierung mehr im eigentlichen Sinne, aber das dient bspw. dazu, einen konstanten Offset von den © Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 M. Schneider, Datenanalyse für Naturwissenschaftler, Mediziner und Ingenieure, https://doi.org/10.1007/978-3-662-61866-0_4
123
124
4 Datenvorbehandlung und Signalwertanalyse
Daten zu entfernen. Die Zentrierung macht Daten vergleichbar, die unterschiedliche absolute Werte haben. Wenn die verschiedenen Datensätze auch noch unterschiedliche Bereiche (und somit Varianzen) haben, dann sollten Sie eine der im Folgenden vorgestellten Methoden in Betracht ziehen.
4.1.2
Bereichsskalierung
Die sogenannte Bereichsskalierung ist dann sinnvoll, wenn Sie bspw. zwei verschiedene Datensätze miteinander vergleichen wollen, die aber beide jeweils einen stark unterschiedlichen Wertebereich haben. Um sie dennoch vergleichen zu können, berechnen Sie die bereichsskalierten Werte anhand der folgenden Gleichung: yi∗ =
yi − min(y) max(y) − min(y)
(4.2)
Durch diese Art der Datenskalierung bilden Sie Ihre Daten auf den Bereich [0, 1] ab. Das hat u. a. den Vorteil, dass Sie bspw. Kurven übereinanderlegen können, die in unterschiedlichen Wertebereichen liegen. Das wird gerne für den Vergleich von mehreren Kurven untereinander verwendet. Abb. 4.1 zeigt ein Beispiel für die zeitliche Entwicklung zweier Signale. Die Frage, die sich hierbei stellt, ist ab wann die Signale merklich über ihr Hintergrundniveau (das den Signalwerten der ersten paar Punkte entspricht) steigen, oder ob beide Signale das sogar zur selben Zeit tun. Die beiden Kurven in Abb. 4.1a sehen zunächst mal relativ verschieden aus. Die zeitliche Abschätzung, ab wann ein Signal über das Hintergrundniveau steigt, muss in dieser Art der Darstellung noch für jedes Signal separat getroffen werden. Nach einer Bereichsnormierung sind die Kurven sehr ähnlich (Abb. 4.1b), und man erkennt sofort,
a 20
b Norm. Signal
Signal
16 12 8
1 0,8 0,6 0,4 0,2
4
0 0
0
30 60 Zeit in Minuten
0
30 60 Zeit in Minuten
Abb. 4.1 Vergleich zweier Signale mit unterschiedlichem Untergrundsignal vor der Bereichsskalierung (a) und nach der Bereichsskalierung (b)
4.1
Datenskalierung
125
Tab. 4.1 Daten zur Bereichsskalierung auf das Intervall [10, 100] x y
−13,8
−13,1
−12,4
−11,7
−11,0
−10,3
−9,7
−9,0
−8,3
−7,6
y1
2,0
2,1
2,4
3,5
5,8
8,3
9,5
9,9
10,0
10,0
y2
3,5
3,6
3,8
4,4
5,7
8,3
11,6
14,2
15,6
16,2
dass die Kurve mit der durchgezogenen Linie mindestens 5 min früher nach oben geht als die Kurve mit der gestrichelten Linie. Auf der normierten Skala gehen die y-Werte, wie zu erwarten, von null bis eins. Mit relativ glatten Kurven, wie im vorliegenden Beispiel, funktioniert das relativ gut, aber sobald diese stärker verrauscht sind, oder sogar Ausreißer enthalten, funktioniert die Bereichsskalierung nicht mehr so gut. Während bei der Bereichsskalierung die Daten üblicherweise auf das Intervall [0, 1] abgebildet werden, können Sie sie auf jedes beliebige Intervall [Imin , Imax ] skalieren. Das können Sie einmal in der folgenden Übung versuchen (keine Sorge, das ist nicht schwer). 4.1 Übung Führen Sie jeweils für die y-Daten in Tab. 4.1 eine Bereichsskalierung durch, sodass diese auf das Intervall [10, 100] skaliert werden. Als kleiner Tipp: Führen Sie zunächst eine Normierung auf das Intervall [0, 1] aus. Von dort aus können Sie die Daten relativ leicht auf das o.g. Intervall skalieren.
4.1.3
Standardisierung/Autoskalierung
Bei der Standardisierung (auch Autoskalierung genannt) zentrieren Sie die Daten yi zunächst um den Mittelwert y¯ und teilen anschließend durch die zugehörige Standardabweichung der Daten: yi − y¯ yi∗ = (4.3) s Dieser Ausdruck sollte Ihnen aus Kap. 3 bekannt vorkommen, dort hatten wir diesen Ausdruck als z-score bezeichnet. Die Standardisierung können Sie in Excel mit der Funktion STANDARDISIERUNG durchführen. Auf die beiden Spektren in Abb. 4.2a angewandt, erhalten Sie nach der Standardisierung die Spektren in Abb. 4.2b. Die Spektren könnten bspw. die Mikro-Raman-Spektren zweier Organismen sein, die mit unterschiedlichen Akquisitionszeiten gemessen wurden. Dadurch sind sowohl die absoluten Skalen (Offset), als auch die Wertebereiche (Varianzen) unterschiedlich. Um die beiden Spektren nun besser miteinander vergleichen zu können, wurden sie standardisiert. Wie Sie anhand von Abb. 4.2b erkennen können, handelt es sich im Prinzip um die gleichen Spektren, denn die Verhältnisse aller Peaks zueinander sind dieselben für das Spektrum mit durchgezogener Linie und das Spektrum mit gestrichelter Linie. Lediglich in ihrem
126
4 Datenvorbehandlung und Signalwertanalyse
a 250
150
y
y
200
100 50 0
b 14 12 10 8 6 4 2 0 -2 20 40 60 80 100 120 140 0 x
0
20 40 60 80 100 120 140 x
Abb. 4.2 Simulierte Raman-Spektren zweier Organismen, die mit unterschiedlichen Akquisitionszeiten aufgenommen wurden. (a) Das gestrichelte Rohspektrum wurde mit einer höheren Akquisitionszeit aufgenommen als das andere Spektrum (durchgezogene Linie). (b) Nach der Standardisierung erkennt man, dass es sich um die gleichen Spektren und demnach vermutlich um dieselben Organismentypen handelt
Rauschen unterscheiden sich die Spektren nach der Standardisierung, was aber sinnvoll erscheint, da ja die Akquisitionszeit für das magentafarbene Spektrum höher war und somit das Rauschen besser raus gemittelt wurde. Da die Spektren im Prinzip gleich sind, wird es sich vermutlich um dieselbe Art von Organismen handeln. Die Standardisierung wird v. a. im Kapitel zur multivariaten Datenanalyse noch eine Rolle spielen. V. a. dann, wenn die jeweilige multivariate Methode sensitiv gegenüber der Varianzen in den Datensätzen ist. Im oben gezeigten Beispiel ist die Varianz des gestrichelten Spektrums alleine dadurch größer, dass dieses Spektrum einen breiteren Signalbereich bzw. Wertebereich hat als das Spektrum mit der durchgezogenen Linie. Würde man diese Daten vorab nicht standardisieren und man verwendet eine auf Varianz abzielende Methode (wie die Hauptkomponentenanalyse, vgl. Abschn. 6.2), dann hätte das magentafarbene Spektrum einen sehr großen Einfluss auf das Klassifizierungsergebnis im Gegensatz zum blauen Spektrum. Durch die Standardisierung bekommen alle Datensätze dieselbe Varianz, und der Signalbereich ist nicht mehr entscheidend.
4.1.4
Vektornormierung
Vielleicht erinnern Sie sich ja noch an Ihre Mathe-Vorlesung über Vektoren und Matrizen (vgl. auch hierzu Kap. 9). Dort haben Sie höchstwahrscheinlich auch die Norm eines Vektors kennengelernt. Einen Vektor y normieren Sie, indem Sie jedes Element yi durch die Norm T des Vektors y y = y12 + y22 + · · · + yn2 teilen. yi sind hierbei die Vektorkomponenten:
4.2
Glätten von Daten
127
yi∗ =
yi yT y
(4.4)
Die Norm des so erhaltenen Vektors y∗ ist natürlich eins. Durch die Vektornormierung bleiben die Vorzeichen der einzelnen Vektorelemente erhalten und somit auch die Richtung des jeweiligen Vektors. Das bedeutet, Sie ändern durch die Vektornormierung von einer absoluten Skala auf eine relative Skala, ohne die Richtung des eigentlichen Vektors zu verändern. Zwei Vektoren, die vor der Normierung zwar in die gleiche Richtung gezeigt habe, aber auf ganz unterschiedlichen absoluten Skalen lagen, bekommen nach der Normierung die gleiche Länge. Je nach Anwendung kann mal die eine Methode zur Datenskalierung mehr Sinn machen, mal die andere. Wie oben bereits erwähnt, wird es z. T. der visuellen Vergleichbarkeit wegen gemacht, zumeist aber, um die weitere Analyse unabhängig vom Wertebereich zu machen. Bei den Methoden zur Mustererkennung kann die Wahl der Datenskalierungsmethode einen entscheidenden Einfluss auf das Klassifizierungsergebnis haben. Hier wird v. a. die Standardisierung eingesetzt. Zugegeben, eine Datenskalierung kommt im Alltag eines Wissenschaftlers nicht unbedingt jeden Tag vor, wenn Sie aber damit mal in Berührung kommen, dann wissen Sie wenigstens wo Sie nachschauen müssen.
4.2
Glätten von Daten
Ihre Messdaten sind in aller Regel bis zu einem gewissen Grad verrauscht. Je nachdem, wie Sie mit den Daten weiter verfahren wollen, könnten Sie das Glätten dieser in Erwägung ziehen. Während das Glätten zu Präsentationszwecken hilfreich sein kann, sollte es bspw. nie vor einer nicht-linearen Regression angewendet werden, weil durch das Glätten die Abstände von den Datenpunkten zur Fitkurve (also die Residuen) nicht mehr normalverteilt wären. Dadurch würden einige Grundvoraussetzungen der nicht-linearen Regression verletzt [1] (siehe hierzu auch Kap. 5). Nichtsdestotrotz kann Glätten hilfreich sein, um bspw. bei Kurvenabschnitten Trends sauberer herauszuarbeiten oder Artefakte zu entfernen. Im Folgenden stelle ich Ihnen ein paar der gängigsten Glättungsmethoden vor.
4.2.1
Gleitender Mittelwert
Die Anwendung des gleitenden Mittelwertes (engl. moving average) ist wohl die gängigste Art, Daten zu glätten. Tatsächlich gibt es bereits eine entsprechende Option unter den Trendlinieneigenschaften eines Excel-Diagramms oder den Datenanalyse-Optionen. Dort bezeichnet man dies als gleitender Durchschnitt. Das Wort gleitend weist bereits darauf hin, dass beim gleitenden Mittelwert ein Fenster gewisser Breite über die Daten geschoben wird und dabei die Daten yi glättet. Sie überlegen sich vorab, über wie viele Datenpunkte M (auch Fensterbreite genannt) Sie mitteln möchten und berechnen über diese dann ent-
128
4 Datenvorbehandlung und Signalwertanalyse
sprechend der Formel für den Mittelwert, den geglätteten Wert y¯i : 1 y¯i = M
i+ M−1 2
yj
(4.5)
j=i− M−1 2
Bitte beachten Sie, dass die Anzahl der zu mittelnden Datenpunkte M ungerade sein muss. Je größer Sie M wählen, desto glatter wird Ihre Kurve, aber auch desto mehr Details gehen evtl. verloren. Sie können erst ab dem Datenpunkt yi mit i > (M −1)/2 anfangen zu glätten. Dadurch bleiben die ersten und die letzten (M −1)/2-Werte zunächst ungeglättet. Man kann diese Eckelemente jedoch mit einer kleineren Fensterbreite glätten. Dann würden bspw. die ersten vier geglätteten Datenpunkte bei einer Fensterbreite von M = 5 wie folgt aussehen: y¯1 = y1 y1 + y2 + y3 y¯2 = 3 y1 + y2 + y3 + y4 + y5 y¯3 = 5 y2 + y3 + y4 + y5 + y6 y¯4 = 5 ...
(4.6) (4.7) (4.8) (4.9) (4.10)
Sie sehen, dass erst ab dem dritten Element das gleitende Fenster vollständig gefüllt ist. Die beiden Elemente vorher werden jeweils mit Fensterbreiten von eins bzw. drei geglättet. Nehmen wir einmal an, Ihre Daten stünden in einer Spalte in den Zellen A1 bis A10, in der Nachbarspalte B wollen Sie die geglätteten Werte mit einer Fensterbreite von 5 berechnen. In B1 geben Sie die Formel =A1 ein. In die Zelle B2 geben Sie =(A1+A2+A3)/3. In die Zelle B3 geben Sie nun noch =(A1+A2+A3+A4+A5)/5 ein. Diese Formel können Sie mit dem Ausfüllkästchen nach unten ziehen / kopieren bis zur Zelle B8. In die Zellen B9 geben Sie =(A8+A9+A10)/3 und in die Zelle B10 schließlich =A10. Ähnlich können Sie auch bei den im Folgenden vorgestellten Methoden vorgehen, mit dem Unterschied, dass die Berechnungen innerhalb des gleitenden Fensters etwas anders aussehen werden.
4.2.2
Medianglättung
Anstelle den Mittelwert in jedem Fenster zu berechnen, macht es in manchen Fällen Sinn, den Median zu nehmen. Gerade bei Daten, die Spikes enthalten (z. B. Mikro-Raman-Spektren), kann die Verwendung des Medians zu deren Elimination führen. In Excel verwenden Sie dazu die MEDIAN-Funktion. Ein Beispiel zeigt Abb. 4.3, bei der die Medianglättung der Mittelwertglättung (gleitender Mittelwert) gegenübergestellt ist.
4.2
Glätten von Daten
129
260 240 220
y
200 180 160 140 120 100 122
123
124
125 x
126
127
128
Abb. 4.3 Die Datenkurve (gestrichelte Linie) enthält zwischen x = 124 und x = 125 einen Spike. Während das Glätten mittels gleitendem Mittelwert (Fensterbreite M = 5) nur dazu führt, dass der Spike nach der Glättung nach einem tatsächlichen Peak aussieht (gepunktete Linie), entfernt der Medianfilter mit derselben Fensterbreite dieses Artefakt vollständig aus den Daten (durchgezogene Linie), und es kann zu keinen Fehlschlüssen kommen
In den Ursprungsdaten (gestrichelte Linie) erkennt man einen aus einem Datenpunkt bestehenden Spike, der einem kleinen Peak aufgesetzt ist, der aus ungefähr 20 Datenpunkten besteht. Durch Glättung mittels gleitendem Mittelwert (gepunktete Linie) der Fensterbreite M = 5 kann der Spike nicht vollends eliminiert werden. Im Gegenteil, nach der Glättung enthält dieser bereits zwei Datenpunkte und könnte ggf. im Anschluss fälschlicherweise als Peak identifiziert werden. Dagegen eliminiert der Medianfilter mit derselben Fensterbreite den Spike komplett (durchgezogene Linie) und erhält den darunterliegenden kleinen (echten) Peak. Die Medianglättung, auch Medianfilter genannt, wird häufig in der Bilddatenanalyse verwendet. Hier kann er bspw. zur Entfernung von toten- oder heißen Pixeln herangezogen werden, also von Pixeln, die permanent dunkel oder permanent hell sind.
4.2.3
Savitzky-Golay-Glättung
Während beim gleitenden Mittelwert alle Datenpunkte innerhalb der Fensterbreite gleichermaßen in die Mittelung mit eingehen, werden sie beim sogenannten Savitzky-Golay-Filter unterschiedlich stark gewichtet. Hierbei gesteht man dem Datenpunkt in der Mitte des Intervalls ein größeres Gewicht zu. Das bedeutet, es handelt sich hierbei im Prinzip um eine gewichtete Mittlung der Daten: i+ M−1 2
y¯i =
j=i− M−1 2
cj yj
(4.11)
130
4 Datenvorbehandlung und Signalwertanalyse
Die Daten werden dabei abschnittsweise bzw. fensterweise gemittelt. In einem Fenster finden sich M Datenpunkte. Bitte beachten Sie, dass die Anzahl der zu mittelnden Datenpunkte M ungerade sein muss. Die c j sind die sogenannten Savitzky-Golay-Koeffizienten. Diese können Sie aufwändig selbst berechnen, oder einfach Tabellenwerken entnehmen. Entsprechende Werte für die Koeffizienten finden Sie in Tab. 9.2 im Anhang. Bitte beachten Sie, dass die Koeffizienten in dieser Tabelle (je Spalte) bereits normiert sind, sodass ihre Summe eins ergibt. Sie können diese Koeffizienten direkt in Gl. 4.11 verwenden. In der Literatur, v. a. in der Originalveröffentlichung von Savitzky und Golay [2], sind die ci nicht normiert, 1 aber dafür der jeweilige Normierungsfaktor N O R M = i+ M−1 mit in der Tabelle 2 j=i− M−1 2
c∗j
aufgeführt. Dann ergibt sich für Gl. 4.11 folgende Gleichung: y¯i =
1 i+ M−1 2
j=i− M−1 2
i+ M−1 2
c∗j y j
(4.12)
M−1 c∗j j=i− 2
Mit c∗j kennzeichne ich hierbei die nicht normierten Koeffizienten. Falls Ihnen in Excel schon eine entsprechende Tabelle vorliegt, dann multiplizieren Sie einfach den transponierten Gewichts- bzw. Koeffizientenvektor cT mit dem Datenvektor y mithilfe der Funktion MMULT (das entspricht der Bildung des Skalarproduktes der beiden Vektoren, also der Bildung der Summe in Gl. 4.11, siehe hierzu auch Kap. 9). Für ein 5-Punkte-Fenster sieht das wie folgt aus: ⎤ ⎡ yi−2 ⎢y ⎥ i−1 ⎥ ⎢ ⎥ ⎢ y¯i = ci−2 ci−1 ci ci+1 ci+2 ⎢ yi ⎥ (4.13) ⎥ ⎢ ⎣ yi+1 ⎦ yi+2 In der Abb. 4.4 sind die nicht geglätteten (Ursprungs-)Daten als graue Punkte dargestellt und die nach dem Savitzky-Golay-Verfahren (mit M = 5) geglätteten Daten als blaue Rechtecke. Die geglätteten Daten werden fensterweise berechnet. Das erste Fenster enthält die ersten fünf Datenpunkte, das zweite Fenster (grau unterlegt) die Datenpunkte 2 bis 6 usw. Für das zweite Fenster habe ich neben den Ursprungsdaten und geglätteten Daten auch eine Parabel dargestellt, die mittels Regression an die fünf Punkte des zweiten Fensters angepasst wurde. Sie sehen, dass der Punkt in der Mitte des Fenster genau auf dieser Parabel liegt. Das Gleiche kann ich auch mit den anderen Fenstern machen (die zweite Parabel rechts gilt für das 9. Fenster). D. h., die Berechnung des in der Mitte des Fensters liegenden Punktes auf Basis der tabellierten Wichtungskoeffizienten c j ist äquivalent der Berechnung dieses Punktes aus einer quadratischen Funktion, die mittels Regression an die Punkte im jeweiligen Fenster angepasst wurde. Deshalb findet man im Zusammenhang mit der Savitzky-Golay-Methode auch oft den Begriff Polynomglättung, weil mit den Savitzky-Golay-Koeffizienten in Tab. 9.2
4.2
Glätten von Daten
131 Ursprungsdaten
Geglättete Daten
5 4 3 y 2 1 2. Fenster
9. Fenster
0 0
2
4
6
x
Abb. 4.4 Veranschaulichung des Savitzky-Golay-Verfahrens zur Glättung von Daten mit zwei Peaks (Punkte). Bei einer Fensterbreite von m = 5 werden die Peaks noch relativ gut reproduziert und nicht allzu stark geglättet (Vierecke). Der Punkt in der Mitte eines Fensters (graue Fläche) liegt auf einer Parabel (orangefarbene Linie), die mittels Regression aus den 5 Datenpunkten bestimmt werden kann
ein Polynom zweiten Grades über den Stützpunkten innerhalb des Fensters definiert ist1 . Die Koeffizienten können im Prinzip mithilfe einer linearen Regression (vgl. hierzu Abschn. 5.1) ermittelt werden. Diese fensterweise Regression war auch die Art, wie Savitzky und Golay ihre Methode konzipiert hatten (vgl. [2]) und wie ich die Koeffizienten in der Tab. 9.2 berechnet habe. Die polynomische Struktur der Koeffizienten können Sie auch dadurch erkennen, dass Sie einen perfekten Fit erhalten würden, wenn Sie ein quadratisches Modell an diese fitten würden, da diese selbst eine Parabel bilden. Im Gegensatz zur Glättung mittels gleitendem Durchschnitt wird bei der Savitzky-Golay-Glättung die Struktur der Kurve stärker berücksichtigt und bietet sich daher v. a. bei Daten mit Peaks an (Spektren o. Ä.).
4.2.4
Glättung mit Gauß’schen Gewichten
Während es sich beim gleitenden Mittelwert um eine ungewichtete Glättungsmethode handelt und bei der Savitzky-Golay-Glättung um eine Glättungsmethode mit parabelförmigen Gewichten, werden die Gewichte beim Glätten mit Gauß’schen Gewichten entsprechend aus einer Gauß’schen Normalverteilung berechnet. In der Literatur finden Sie dies häufig unter dem Namen Gauß-Filter. Ähnlich wie beim Savitzky-Golay-Verfahren gewichten Sie hierbei den Punkt in der Mitte des Fensters am stärksten. Die Gewichte fallen dann zu den Enden hin glockenförmig ab (eben wie bei einer Normalverteilung). Die Gewichte c j für ein gegebenes Fenster der Breite M berechnen Sie wie folgt:
1 In ihrer Publikation veröffentlichten Savitzky und Golay weitere Koeffiziententabellen, mit denen höhere Polynome zum Glätten von Daten angewendet werden können.
132
4 Datenvorbehandlung und Signalwertanalyse
j2 c j = exp − 2 2σ
(4.14)
Für ein Fenster der Breite M = 5 nimmt der Index j jeweils die Werte −2, −1, 0, 1, 2 an, abhängig vom jeweils betrachteten Datenpunkt. Die so erhaltenen Gewichte können Sie wie zuvor, mit Ihren Daten multiplizieren und so Ihre geglätteten Daten erhalten. Für unsere fünf o. g. Datenpunkte erhalten wir für σ = 1 die folgenden (nicht-normierten) Gewichte: c = 0,135 0,607 1 0,135 0,607
(4.15)
bzw. daraus die normierten Gewichte (d. h., die Summe ergibt eins): c = 0,054 0,244 0,403 0,244 0,054
(4.16)
Wenn Sie c einmal grafisch darstellen, dann erkennen Sie die Gauß’sche Normalverteilung. Das Filtern von Daten mit Gauß’schen Gewichten spielt bei der Bildverarbeitung eine große Rolle. In diesem Fall hat man jedoch eine Gewichtsmatrix C anstelle eines Vektors, wie hier für eine 3 × 3-Matrix (für σ = 1) dargestellt: ⎡
⎤ 0,075 0,124 0,075 C = ⎣0,124 0,204 0,124⎦ 0,075 0,124 0,075
(4.17)
In einem Video zeige ich Ihnen im Detail, wie Sie die verschiedenen Glättungsmethoden in Excel anwenden können. Rufen Sie dieses Video durch Scannen des QR-Codes (unten) auf.
4.2 Übung Glätten Sie die Daten eines Peaks (Tab. 4.2) mittels gleitendem Mittelwert, Savitzky-Golay- und Gauß’sche Gewichte-Methode mit σ = 1 und einer Fensterbreite von n = 5. Beginnen Sie das Glätten ab dem dritten Datenpunkt bis zum sechsten Datenpunkt. Die jeweils beiden äußeren Datenpunkte lassen Sie ungeglättet. Welche Methode erhält die Peakform am besten und welche glättet diesen übermäßig stark?
Tab. 4.2 Zur Glättung eines Peaks x
0
0,5
1
1,5
2
2,5
3
3,5
y
0,75
1
2,5
4
3
1,5
1
1
4.3
4.3
Konvolution und Dekonvolution
133
Konvolution und Dekonvolution
Sie haben vermutlich, wenn auch implizit, schon mit Konvolution zu tun gehabt. Konvolution tritt dann auf, wenn sich zwei oder mehr Zufallsprozesse überlagern. Sie kennen bereits alle möglichen Ereignisse des Zwei-Würfel-Beispiels (siehe Tab. 3.1). Die entsprechende Wahrscheinlichkeitsdichte hat dieselbe Form wie die Anordnung der Zahlen in dieser Tabelle (nur umgedreht) und ist demnach eine Dreiecksfunktion. Es ist doch seltsam, dass man beim Würfeln mit nur einem Würfel eine Gleichverteilung bekommt, während man mit zwei Würfeln die genannte Dreiecksfunktion erhält. Das liegt daran, dass sich die beiden Zufallsprozesse (Würfeln des einen Würfels und Würfeln des anderen Würfels) überlagern und sich die Gleichverteilungsdichten ineinanderfalten (konvolutieren). Anschaulich erhalten Sie die gefaltete Funktion dadurch, dass Sie eine der beiden Verteilungen festhalten und die andere von links her über die andere drüberschieben (vgl. Abb. 4.5). Das könnte Ihnen vom Glätten bekannt vorkommen, wo Sie eine Funktion, dort gegeben über die Glättungskoeffizienten, über Ihre Rohdaten geschoben haben (vgl. Abschn. 4.2). Im Grunde genommen ist eine Glättung nämlich nichts anderes als eine Faltung (siehe hierzu auch Übung 4.3). Die Faltung F zweier Funktionen f (t) und g(t), ist mathematisch gleich dem Überlappungsintegral beider Funktionen während des Verschiebens. ∞ F(t) =
f (u)g(t − u)du
(4.18)
−∞
In Abb. 4.5 ist das beispielhaft für eine Gleichverteilung dargestellt. Die aus der Konvolution resultierende Funktion ist im aktuellen Fall eine Dreiecksfunktion (Abb. 4.5d). Solange die g(t − u) (blaue gestrichelte Linie) links von f (t) ist (schwarze Linie), steigt die Dreiecksfunktion an (Abb. 4.5b), bis zu dem Punkt, an dem die beiden Kurven maximal überlappen. Hier ist u = 0. Sobald die verschobene Kurve jedoch rechts von der Originalkurve ist (4.5c), fällt die Dreiecksfunktion entsprechend ab. Anhand von Gl. 4.18 können Sie erkennen, dass Sie g beginnend von links her von (u → −∞) nach rechts bis (u → ∞) verschieben und für jede Verschiebung u jeweils das Produkt f (u)g(t − u) berechnen. Zu jedem t ist die Faltung dann die Summe bzw. das Integral dieser Produkte. Gl. 4.18 gilt für kontinuierliche Funktionen und wird zu einer Summation im Falle von diskreten Funktionen bzw. Daten: F[t] =
∞ u=−∞
Machen wir mal ein anschauliches Beispiel:
f [u]g[t − u]
(4.19)
134
4 Datenvorbehandlung und Signalwertanalyse
a
b
t bzw. u
t bzw. u d
c
t bzw. u
0
u
Abb. 4.5 Die Faltung (Konvolution) einer Gleichverteilung, wie wir sie vom Ein-Würfel-Beispiel kennen, mit einer zweiten Gleichverteilung führt zur Dreiecksfunktion, wie wir sie vom Zwei-WürfelBeispiel kennen
Beispiel 4.1 Angenommen, es sei f = 2 3 4 5 6 und g = 1 1 1 . Wir berechnen nun mithilfe von Gl. 4.19 die Konvolution dieser beiden Vektoren, wobei die Summationsgrenzen hier natürlich endlich sind. Hierzu fangen wir links außen an und schieben den Vektor g sukzessive um ein Element nach rechts. Bei jeder Verschiebung berechnen wir dann das Produkt von untereinanderliegenden Elementen und summie⎡ ⎤ 2 3 456 ⎦⇒ ren anschließend auf. Das sieht dann in etwa wie folgt aus. ⎣1 1 1 → 2 ⎡ ⎤ ⎡ ⎤ 23 4 56 234 5 6 ⎣111→ ⎦ ⇒ ⎣ 1 1 1 → ⎦ ⇒ ··· 25 259
4.3
Konvolution und Dekonvolution
135
⎡
⎤ 234 5 6 1 1 1⎦ ⇒⎣ 2 5 9 12 15 11 6 Gehen wir die Rechnungen doch mal durch. Das erste Element berechnet sich aus der Summation 2 = 2·1+0·1+0·1. Das zweite Element 5 wiederum aus der Summation 5 = 3 · 1 + 2 · 1 + 0 · 1, usw. Das letzte Element berechnet sich entsprechend gemäß 6 = 0 · 1 + 0 · 1 + 6 · 1. Warum ist das Konzept der Konvolution so wichtig für die Datenanalyse? Das liegt daran, dass im Grunde alle Messvariablen einen gewissen Grad Zufälligkeit beinhalten und als Summe mehrerer Zufallsprozesse (z. B. Detektorrauschen) angesehen werden können. Die statistische Verteilung Ihres Messsignals erhält man als Faltung der Verteilungen der einzelnen Zufallsprozesse. Wenn Sie diese zusätzlichen Effekte kennen und separat bestimmen können, dann können Sie sie ggf. aus Ihren Messdaten herausrechnen. Diesen Vorgang nennt man Dekonvolution. In der Mikroskopie spielt sie bspw. eine wichtige Rolle, denn mittels Dekonvolution kann die Auflösung eines Mikroskopbildes nachträglich nochmals merklich verbessert werden. Wenn man mit einem Mikroskop ein ideales punktförmiges Objekt abbilden würde, dann erhielte man ein Bild, das eine verwaschene Version des Objektes darstellt. Das liegt an der sogenannten Übertragungsfunktion (engl. Point Spread Function, abgekürzt P S F), die aufgrund von Unzulänglichkeiten im Gerät (nicht ideale Linsen, Streulicht, etc.) zustande kommt. Das Bild eines Objektes ist letztlich eine Konvolution der Objektfunktion mit der P S F. Wenn die PSF bekannt ist (entweder durch Simulation oder durch eine separate Messung), dann kann die Bildqualität nochmals deutlich durch Dekonvolution verbessert werden. Ein anderes Beispiel, bei dem die Dekonvolution eine große Rolle spielt, ist die Fluoreszenzlebensdauer-Spektroskopie. Eine wässrige Lösung eines synthetischen Fluorophors wie Fluorescein bspw. zeigt eine exponentiell abklingende Fluoreszenz im Nanosekundenbereich, nachdem sie zum Zeitpunkt t0 mit einem Laserpuls angeregt wurde. Mit der entsprechenden Technik wie der zeitaufgelösten Einzelphotonenzählung (engl. time-correlated single photon counting) kann man die entsprechenden Abklingkurven messen (vgl. Abb. 4.6). Da weder die zugrunde liegende Messtechnik, noch der Laser eine unendlich scharfe zeitliche Auflösung haben, weicht die Abklingkurve mehr oder weniger von einer Exponentialfunktion ab. Die messbedingte Unschärfe des Systems (auch Instrumentenantwortfunktion, engl. instrument response function, kurz I R F) faltet sich in die Exponentialfunktion rein (vgl. Abb. 4.6). Da die I R F jedoch separat bestimmt werden kann (mithilfe einer Streulichtprobe), kann diese aus der gemessenen Abklingkurve heraus gefaltet werden. Dadurch kann die Fluoreszenzlebensdauer genau bestimmt werden, die Auskunft über die chemische Umgebung des Fluorophors gibt. Ist der Fluorophor an andere Moleküle (wie Proteine) gekoppelt, so kann man bspw. Aussagen über die MikroUmgebung bestimmter Seitenketten eines Proteins machen.
136
4 Datenvorbehandlung und Signalwertanalyse
104
Anzahl Photonen
Anzahl Photonen
104
0
5
10
15
Zeit in ns
20
25
0
5
10
15
20
25
Zeit in ns
Abb. 4.6 Aufgrund der Faltung der monoexponentiellen Fluoreszenzabklingkurve (schwarze Linie links) mit der Instrumentenantwortfunktion (gestrichelte Linie) wird die Fluoreszenzabklingkurve (durchgezogene Linie rechts) gemessen
4.3 Übung Wie wir in Abschn. 4.6 noch genauer sehen werden, kann man mithilfe der Konvolution auch Daten glätten. Wenn bspw. f = 2 5 7 4 2 die Daten Ihrer Funktion f (t) und g = 1/3 1/3 1/3 die Daten Ihrer Funktion g(t) sind, dann wirkt Letzteres bei der Konvolution wie ein gleitender Mittelwert-Filter der Fensterbreite 3. Berechnen Sie einmal, wie oben gezeigt, die Konvolution der beiden Datensätze.
4.4
Korrelation
Wenn wir überprüfen wollen, ob zwischen zwei Zufallsvariablen eine gewisse Abhängigkeit besteht, bietet es sich an, die Daten aus einer entsprechenden Stichprobe (x1 , y1 ), . . . (xn , yn ) in einem Streudiagramm darzustellen. Hierbei werden die xi -Werte auf der Abszisse und die yi -Werte auf der Ordinate aufgetragen. Wenn die Daten eine Abhängigkeit, auch Korrelation genannt, zeigen, dann erkennen wir einen Trend im Streudiagramm. Im Grenzfall einer perfekten Korrelation liegen die Datenpunkte auf einer Linie. Seien nun x¯ und y¯ die Mittelwerte der x- bzw. y-Werte. Fassen wir jeweils die beiden Datensätze in einem Vektor x bzw. y zusammen und zentrieren diese (zur Zentrierung von Daten siehe Abschn. 4.1.1) x˜ = x − x¯ bzw. y˜ = y − y¯ . Die Korrelation (bzw. Kolinearität) lässt sich nun aus dem Skalarprodukt: x˜ T y˜ = x˜ T x˜ y˜ T y˜ cos(α) (4.20)
4.4
Korrelation
137
der beiden Vektoren x˜ und y˜ berechnen2 : x˜ T y˜ R= x˜ T x˜ y˜ T y˜ n
(xi − x)(y ¯ i − y¯ ) = n n 2 (xi − x) ¯ (yi − y¯ )2 i=1
i=1
(4.21)
i=1
R in Gl. 4.21 kennt man auch unter dem Namen Korrelationskoeffizient bzw. PearsonKorrelationskoeffizient. Der Nenner entspricht der sogenannten Kovarianz der Daten x und y. Die Ausdrücke unter den beiden Wurzeln im Nenner hingegen entsprechen den Varianzen der x- bzw. y-Daten. Wie man schnell erkennt, ist R dimensionslos. Wie man auch schnell mithilfe von Gl. 4.20 erkennt, kann R Werte von −1 bis 1 annehmen (das entspricht dem Wertebereich des Kosinus). R = 1 entspricht einer perfekten positiven Korrelation, also einer Geraden, die im Streudiagramm von unten nach oben verläuft. R = −1 entspricht einer perfekten negativen Korrelation, also einer Geraden, die im Streudiagramm von oben nach unten verläuft. In Excel gibt es mit KORREL und PEARSON Funktionen, mit denen Sie den Korrelationskoeffizienten für zwei Datensätze berechnen können. Offensichtlich ergibt sich bei der Korrelation von Daten mit sich selbst ein Korrelationskoeffizient von R = 1. Wenn ich jedoch die Korrelation von y und einer (nach links) verschobenen Version von y berechnen würde, wie sieht dann mein Korrelationskoeffizient aus? Das hängt davon ab, wie viel Ähnlichkeit die verschobene Version noch mit y hat. Enthält y bspw. periodisch wiederkehrende Signalmuster, dann könnte es bei bestimmten Verschiebungen (die Verschiebung kennzeichnet man typischerweise mit der Variablen τ ) zu relativ großen Werten für R = R(τ ) kommen (vgl. Abb. 4.7). R(τ ) bezeichnet man als Autokorrelationsfunktion oder einfach Autokorrelation. Mathematisch ist sie über folgende Gleichung definiert: n−τ
R(τ ) =
(yi − y¯ )(yi+τ − y¯ )
i=1 n
(4.22) (yi − y¯ )2
i=1
Zu jeder Verschiebung τ wird demnach ein entsprechender Korrelationskoeffizient berechnet. Wie Sie anhand von Abb. 4.7a erkennen können, kann es je nach Verschiebung zur Multiplikation von y-Werten der unverschobenen Version mit sehr kleinen y-Werten der verschobenen Version kommen. Die Summe über diese Produkte wird ebenso entsprechend klein ausfallen. D. h., der Korrelationskoeffizient wird an dieser Stelle auch klein sein. Wenn 2 Zur Erinnerung: Das Skalarprodukt ist ein Maß für die Ähnlichkeit von zwei Vektoren (vgl.
Abschn. 9.1.1).
138 Abb. 4.7 Prinzip der Autokorrelation. Korrelation der Daten einer Kurve mit einer verschobenen Version derselben Daten
4 Datenvorbehandlung und Signalwertanalyse
a
τ1
yi
yi+τ
b
yn-τ1
τ2
yn-τ2
die unverschobene und verschobene Version der Kurve wieder stark überlappen bzw. ähnlich sind (Abb. 4.7b), dann wird auch der zugehörige Korrelationskoeffizient hoch sein. Die Autokorrelation habe ich für bis zu 13 Verschiebungen mal in Abb. 4.8 dargestellt. In der Fluoreszenzspektroskopie gibt es eine Methode, deren Auswertung vollständig auf der Analyse der Autokorrelationsfunktion beruht, die sogenannte Fluoreszenzkorrelationsspektroskopie (FCS). Die Rohsignale sind hierbei Intensitätsspuren, also Intensitäten, die in Abhängigkeit der Zeit aufgenommen werden. Solche Signale sehen denen in Abb. 4.7 gar nicht so unähnlich. Die Peaks werden bei der FCS durch einzelne fluoreszierende Moleküle hervorgerufen, die durch einen Laserfokus diffundieren, dabei angeregt werden und deren emittierte Photonen mittels geeigneter Technik detektiert werden können.
Abb. 4.8 Trägt man den Korrelationskoeffizienten R gegen verschiedene Verschiebungen τ auf, so erhält man die Autokorrelationsfunktion R(τ )
R(τ)
0,6
0 2
-0,6
4
6
8
12
τ 14
4.4
Korrelation
139
Tab. 4.3 Daten zur Berechnung des Korrelationskoeffizienten x
y
f (x)
0,10
1,03
1,05
0,50
1,28
1,26
1,00
1,53
1,52
1,50
1,78
1,79
Die entsprechenden Detektoren haben eine hohe zeitliche Auflösung (oft bis in den Nanosekundenbereich), und dementsprechend können die Intensitätsspuren mit hoher zeitlicher Auflösung aufgenommen werden. Nach der Berechnung der Autokorrelationsfunktion aus den Intensitätsspuren kann mithilfe eines passenden Modells die Korrelationszeit berechnet werden, die wiederum vom Diffusionskoeffizienten des Moleküls abhängt. Solche Korrelationszeiten liegen typischerweise im Mikrosekundenbereich (sofern man keine riesigen Makromoleküle untersucht). Falls die verschobene Version der Kurve nicht aus denselben Daten wie die unverschobene Version hervorgeht, sondern bspw. ein anderes Signal x darstellt, dann spricht man nicht von Autokorrelation, sondern von Kreuzkorrelation (engl. cross-correlation). Sie berechnet sich gemäß folgender Gleichung: n−τ
R x y (τ ) =
xi yi+τ
i=1 n
i=1
xi2
n i=1
(4.23) yi2
Ich habe in Gl. 4.23 für Rx y den Index x y verwendet, um zu kennzeichnen, dass es sich um zwei verschiedene Signale x bzw. y handelt. Für die Anwendung der Kreuzkorrelation kann die FCS wiederum als Beispiel genannt werden. Wenn man bspw. die Bindung von zwei verschiedenen Molekülen untersuchen will, die jeweils mit unterschiedlichen Farbstoffen markiert sind und nach ihrer Bindung gemeinsam durch einen Laserfokus diffundieren, dann kann man die Intensitätsspur des einen Farbstoffs mit der des anderen Farbstoffs kreuzkorrelieren und kann so Aussagen über Bindungseigenschaften der Moleküle machen. 4.4 Übung Berechnen Sie den Korrelationskoeffizienten R der y-Daten und der Funktionswerte f (x) in Tab. 4.3 mithilfe der Vektor-Notation in Gl. 4.21. Berechnen Sie anschließend den Korrelationskoeffizienten mithilfe der Funktion KORREL, welche die zweite Formel in der genannten Gleichung verwendet. Berechnen Sie in beiden Fällen R 2 und vergleichen es mit dem Regressionskoeffizienten R 2 , den Sie mithilfe des Trendlinie-Werkzeugs erhalten, wenn Sie die x,y-Daten zunächst in Form eines X,Y-Diagramms darstellen und anschließend mithilfe des genannten Werkzeugs eine lineare Regression durchführen. Lassen Sie sich dabei den Regressionskoeffizienten im Diagramm darstellen.
140
4.5
4 Datenvorbehandlung und Signalwertanalyse
Interpolationsmethoden
Messdaten sind immer diskreter Natur, d. h., zwischen Ihren Datenpunkten gibt es immer Werte, die Sie nicht gemessen haben (oder nicht messen konnten). In der Praxis kommt es aber gelegentlich vor, dass Sie Werte zwischen zwei Messpunkten brauchen. Für solche Fälle lernen Sie hier die gängigsten Interpolationsarten kennen. Suchen Sie einen Wert außerhalb Ihres gemessenen Bereichs, so handelt es sich um eine Extrapolation. Sie sollten vorsichtig sein beim Extrapolieren. Generell gilt, je weiter Sie von Ihren Daten weggehen, desto unsicherer ist der extrapolierte Wert. Nehmen wir an, Sie hätten Messdaten (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) (vgl. Abb. 4.9). Die Datenpunkte (xk , yk ) nennen wir die Stützstellen. Wollen Sie nun an den Zwischenwerten, also bspw. für xk+0,5 , die zugehörigen y-Werte yk+0,5 berechnen (vgl. auch Abb. 4.9), so stelle ich Ihnen im Folgenden vor, wie Sie das mittels linearer- und kubischer Spline-Interpolation durchführen können.
4.5.1
Lineare Interpolation
Für das Beispiel oben, berechnet sich der Zwischenwert yk+0,5 zu: yk+1 − yk yk+1 − yk xk + xk+0,5 yk+0,5 = yk − xk+1 − xk xk+1 − xk x b1
b2
yk+1 − yk = yk + xk+0,5 − xk xk+1 − xk
(4.24)
Ich habe die Gl. 4.24 bewusst nicht direkt zusammengefasst hingeschrieben wie in der zweiten Zeile, damit Sie die Idee hinter der linearen Interpolation besser verstehen. Das Wort linear impliziert bereits eine lineare Gleichung, und genau das ist Gl. 4.24 auch. b1 entspricht hierbei dem Achsenabschnitt und b2 der Steigung der Geraden, die durch die Punkte (xk , yk ) und (xk+1 , yk+1 ) geht und die y-Achse bei b1 schneidet (vgl. Abb. 4.9). Zusammengefasst ergibt sich dann die zweite Zeile in Gl. 4.24, die Sie meist so in der Literatur antreffen. Eine Verbesserung der Interpolation kann dadurch erreicht werden, dass man mehr (statt nur zwei) Datenpunkte in die Berechnung mit einbezieht. Es gibt verschiedene Interpolationsverfahren, die das tun. Das im Folgenden beschriebene Interpolationsverfahren ist neben dem linearen Verfahren, das in der Praxis am häufigsten eingesetzte Verfahren, die kubische Spline-Interpolation.
4.5.2
Kubische Spline-Interpolation
Wenn Sie in Excel ein X Y -Diagramm darstellen wollen, haben Sie die Möglichkeit, Ihre Daten mit interpolierten Linien darstellen zu lassen. Die Datenpunkte können dann
4.5
Interpolationsmethoden
Abb. 4.9 Veranschaulichung der linearen Interpolation. Der interpolierte Datenpunkt (xk+0,5 , yk+0,5 ) (Kreuz) zwischen den zwei Stützstellen (xk , yk ) und (x k+1 , yk+1 ) wird aus der Gleichung der Geraden berechnet, die durch diese Stützstellen läuft (vgl. Gl. 4.24)
141
yk+1 yk+0,5 b2=tan(α ) yk b1
xk
xk+0,5
xk+1
zusammen mit einer geglätteten Linie dargestellt werden, die die Datenpunkte verbindet. Hierbei verwendet Microsoft eine Art kubische Spline-Interpolation, um diese Linie zu berechnen. Bevor ich Ihnen zeige, wie Sie einen solchen kubischen Spline berechnen können, müssen wir erst einmal klären, was denn ein Spline S ist bzw. was die Eigenschaften eines Splines sind. Diese sind im Folgenden aufgelistet: • S ist k − 1-mal stetig differenzierbar auf dem Intervall [I1 , I2 ]. • S ist auf jedem Intervall von Stützstellen [I1 ≤ x j , x j+1 ≤ I2 ] ein Polynom k-ten Grades. • Der Funktionswert des Splines an den Stützstellen ist gleich dem Funktionswert der Daten an den Stützstellen. Bei insgesamt n Datenpunkten, erhalten Sie demnach n − 1 solcher Polynome. Man kann nun einen kubischen Spline auf dem Intervall [x j , x j+1 ] als Polynom dritter Ordnung wie folgt darstellen: 2 3 S j (x) = a j + b j x − x j + c j x − x j + d j x − x j
(4.25)
a j , b j , c j , d j bezeichnet man hierbei als die Koeffizienten des Splines. Für einen kubischen Spline gilt gemäß dem oben Gesagten: • S j (x j ) = y j und S j (x j+1 ) = y j+1 , d. h., der Spline geht durch die Stützstellen. • S j (x j+1 ) = S j+1 (x j+1 ) und S j (x j+1 ) = S j+1 (x j+1 ); das besagt nichts anderes, als dass aufeinanderfolgende Polynome an ihren gemeinsamen Stützstellen dieselbe Steigung aufweisen und dieselbe Krümmung haben3 . Durch diese Bedingung wird gewährleistet, dass der Spline einen glatten Verlauf aufweist. 3 Zur Erinnerung an Ihre Mathematik-Grundvorlesung: Ist für eine Funktion f die zweite Ableitung
in einem Punkt größer null, so ist sie links gekrümmt. Ist sie kleiner null, so ist sie rechts gekrümmt.
142
4 Datenvorbehandlung und Signalwertanalyse
(b) = 0 (bei den sogenannten natürlichen • Randbedingung; das könnte z. B. S1 (a) = Sn−1 Splines) sein.
Aus den zuvor genannten Bedingungen kann man nun ein Gleichungssystem aufstellen, mit dem Sie die Polynomparameter bestimmen können. Beipielsweise ergibt sich a j = y j für alle j aus der ersten Bedingung. Ohne jetzt auf die Details einzugehen, möchte ich nur kurz anreißen, wie es weitergeht. ⎡
⎤ 0 ⎢ Δy j − Δy j−1 ⎥ ⎢ Δx j j−1 ⎥ ⎢ Δy j+1 ΔxΔy ⎥ j ⎥ ⎢ − ⎢ Δx j+1 Δx j ⎥ • Sie definieren den sogenannten Differenzenvektor y = ⎢ ⎥; hierbei ist .. ⎢ ⎥ . ⎢ ⎥ ⎢ Δyn−1 Δyn−2 ⎥ ⎣ Δx ⎦ − Δx n−1
Δy j = y j+1 − y j und entsprechend Δx j = x j+1 − x j • Außerdem bilden Sie die Differenzenmatrix ⎡ 1 0 0 0 ··· 0 ⎢Δx 2(x − x ) Δx2 0 ··· 0 3 1 ⎢ 1 ⎢ Δx2 2(x4 − x2 ) Δx3 · · · 0 ⎢ 0 D=⎢ .. .. .. ⎢ .. . . . 0 ⎢ . ⎢ ⎣ 0 0 0 0 · · · Δx n−2 2(xn 0 0 0 0 ··· 0 ⎡
c1 c2 .. .
n−2
0
0 0 0
0 0 0
⎤
⎥ ⎥ ⎥ ⎥ ⎥ ⎥ 0 0 ⎥ ⎥ − xn−2 ) Δxn−1 ⎦ 0 1
(4.26)
⎤
⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ein Gleichungssystem der Form: • Diese bilden mit dem Koeffizientenvektor c = ⎢ ⎥ ⎢ ⎥ ⎢ ⎣ cn−1 ⎦ cn y = Dc
(4.27)
Das können Sie nach c auflösen (Bildung der Inversen von D). • Mit diesen Koeffizienten können Sie nun die Einträge b j bzw. d j der Koeffizientenvektoren b und d berechnen. bj =
Δy j 1 − (2c j + c j+1 )Δx j Δx j 3
(4.28)
c j+1 − c j 3Δx j
(4.29)
bzw. dj =
4.5
Interpolationsmethoden
143
Jetzt haben Sie alles, was Sie brauchen, um folgendes Beispiel zur Spline-Interpolation nachverfolgen zu können. Beispiel 4.2 In diesem Beispiel berechnen wir die Spline-Kurve für die Daten in Tab. 4.4 und vergleichen diese am Ende gegenüber der Spline-Kurve, die Excel intern berechnet, wenn Sie sich die Daten in einem X Y -Diagramm mit geglätteter Linie darstellen lassen. Dazu können Sie bspw. die Interpolationskurve auf die zu interpolierenden Werte x = 1 1,2 1,4 . . . 10,6 10,8 11 stützen. In einer Excel-Tabelle habe ich die SplineKoeffizienten nach dem oben gezeigten Schema berechnet und in einem Diagramm Excels Spline gegenübergestellt (vgl. Abb. 4.10). Die Matrix D (siehe Gl. 4.26) sieht für dieses Beispiel relativ schön aus: ⎡ ⎤ 1 0 0 0 0 ··· 0 0 0 ⎢1 4 1 0 0 · · · 0 0 0⎥ ⎢ ⎥ ⎢ ⎥ ⎢0 1 4 1 0 · · · 0 0 0⎥ ⎢ D = ⎢. . . . . . . . .⎥ ⎥ ⎢ .. . . . . . . . . . . .. .. .. ⎥ ⎢ ⎥ ⎣0 0 0 0 0 · · · 1 4 1⎦ 0 0 0 0 0 ··· 0 0 1 Multiplizieren Sie die Inverse von D (MINV(D)) mithilfe der Excel-Funktion MMULT mit dem Vektor y = [0 39 − 39 − 33 39 − 15 − 24 24 0 3 0]T , so erhalten Sie den Koeffizientenvektor c, woraus Sie wiederum die Koeffizientenvektoren b und d berechnen können (vgl. Gl. 4.28 und 4.29). Der Vektor a entspricht den y-Werten aus Tab. 4.4. Bitte beachten Sie, dass ich hier Randbedingungen für natürliche Splines verwende. ⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤ 0, 00 −2, 13 4, 13 15 ⎢ 12, 40 ⎥ ⎢ 10, 27 ⎥ ⎢−7, 67⎥ ⎢17⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢−10, 62⎥ ⎢ 12, 05 ⎥ ⎢ 0, 56 ⎥ ⎢32⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ −8, 93 ⎥ ⎢−7, 49⎥ ⎢ 7, 42 ⎥ ⎢34⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ 13, 33 ⎥ ⎢−3, 08⎥ ⎢−6, 25⎥ ⎢25⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎥ , b = ⎢ 4, 84 ⎥ , d = ⎢−0, 44⎥ , a = ⎢29⎥ c=⎢ −5, 40 ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ −6, 72 ⎥ ⎢−7, 28⎥ ⎢ 5, 00 ⎥ ⎢28⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ 8, 28 ⎥ ⎢−5, 71⎥ ⎢−3, 56⎥ ⎢19⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ −2, 41 ⎥ ⎢ 0, 15 ⎥ ⎢ 1, 25 ⎥ ⎢18⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎣ 1, 35 ⎦ ⎣−0, 90⎦ ⎣−0, 45⎦ ⎣17⎦ 0, 00 0 0 0
144
4 Datenvorbehandlung und Signalwertanalyse
Tab. 4.4 Beispieldatensatz für die Berechnung einer Spline-Funktion in Excel x
1
2
3
4
5
6
7
8
9
10
11
y
15
17
32
34
25
29
28
19
18
17
17
Die Elemente a j , b j , c j und d j der zuvor genannten Koeffizientenvektoren können Sie in Gl. 4.25 einsetzen und somit für die Zwischenwerte x den zugehörigen Wert S(x) berechnen. Bitte beachten Sie, dass der x-Datenvektor mit den Elementen x j im Allgemeinen kleiner ist als der Vektor der neuen (Zwischen-)Werte. Ich empfehle Ihnen daher, Gl. 4.25 auf einem 2D-Gitter zu berechnen, so wie wir das zur Darstellung einer 3D-Funktion bereits kennengelernt hatten. Bei mir sieht das in etwa so aus wie in Tab. 4.5. Hier sind jeweils ausschnittsweise die kubischen Funktionen S j (x) in Abhängigkeit der Zwischenwerte x dargestellt. Die unterstrichenen Werte sind diejenigen, die in eine Spalte geschrieben nachher die Spline-Kurve bilden. Die Spline-Funktion gilt ja auch immer nur für den jeweiligen Abschnitt. Jede Spalte in der Tabelle hat ihren eigenen Parametersatz (a j , b j , c j , d j ) (den wir ja oben berechnet hatten), mit dem S j (x) jeweils berechnet wird. Wie Sie unschwer erkennen können, stimmen der von mir berechnete Spline und der von Excel vorgegebene Spline einigermaßen gut überein. Man erkennt aber auch, dass der hier berechnete Spline zum Unter- bzw. Überschwingen neigt. Das liegt an der Wahl der Randbedingungen. Ich habe offenbar andere Randbedingungen verwendet als der Algorithmus von Microsoft. Vermutlich verwendet dieser eine monotone kubisch hermitesche Spline-Interpolation, bei der diese „Schwinger“ gedämpft werden.
4.5 Übung Tab. 4.6 zeigt bestimmte Quantile der Student-t-Verteilung für 3 bis 5 Freiheitsgrade (siehe mehr dazu in Abschn. 3). Berechnen Sie aus dem 95 %- und 98 %-Quantil das 97,5 %-Quantil durch lineare Interpolation.
4.6
Fouriertransformation
Auf die Fouriertransformation (FT) stößt man in den naturwissenschaftlichen und technischen Anwendungen schnell. Ob zum Filtern von Signalen, zur Lösung von Differentialgleichungen oder bei technischen Anwendungen wie der FTIR-Spektroskopie4 . Die Fou4 Kurzform von Fourier-Transformations-Infrarotspektroskopie.
1
15,0
14,6
14,4
14,6
15,4
17,0
19,6
23,4
28,5
35,3
43,8 .. .
3885,9
4128,6
x
1,0
1,2
1,4
1,6
1,8
2
2,2
2,4
2,6
2,8
3 .. .
10,8
11
322,9 275,3 232,9
−102,0 −71,7 −46,1 −24,7 −7,3
−7,2
32,0 .. . −252,7 −262,7
−4162,0
−4480,5
29,2
25,4
20,8
15,3
8,8
2089,3
1903,4
25,1 .. .
17,3
6,6
376,0
−137,3
−16,8 1,3
435,1
−177,9
−27,4
−862,5
−762,9
134,5 .. .
162,8
195,5
500,3
571,9
650,4
−224,2
−39,1
5
4
3
32,0 .. .
29,2
26,0
22,6
19,5
17,0
15,5
15,4
17,0
20,6
26,8
2
−136,8
211,4
177,7
−370,4 .. .
−22,3 .. . −120,8
−496,0 −430,4
−32,7 −27,4
−567,4
−644,9
−728,7
−819,0
−916,0
−1020,1
−1131,5
−1250,3
7
−38,0
−43,3
−48,7
−54,1
−59,5
−64,9
−70,2
−75,4
6
xj
−19,8
−10,3
700,1 .. .
773,7
852,5
936,5
1026,0
1121,2
1222,1
1329,0
1442,0
1561,3
1687,1
8
18,7
17,8
−340,4 .. .
−374,3
−410,3
−448,3
−488,6
−531,1
−575,9
−623,0
−672,6
−724,6
−779,2
9
Tab. 4.5 Ausschnitt der berechneten Splines S j (x) bei den gegebenen Stützstellen x j und den zu interpolierenden Werten x
17,0
16,9
244,2 .. .
261,8
280,3
299,8
320,2
341,5
363,8
387,1
411,4
436,8
463,2
10
0
0
0 .. .
0
0
0
0
0
0
0
0
0
0
11
4.6 Fouriertransformation 145
146
4 Datenvorbehandlung und Signalwertanalyse
Abb. 4.10 Gegenüberstellung des mit Excel berechneten Splines (durchgezogene Linie) und des manuell berechneten kubischen Splines mit natürlichen Randbedingungen (gestrichelte Linie) für die Daten aus Tab. 4.4
40 35
y
30 25 20 15 10 0
2
4
6 x
8
10
12
Tab. 4.6 Daten zur Interpolation des 97,5 %-Quantils der Student-t-Verteilung für n = 4 Freiheitsgrade aus dem 95 %- und 98 %-Quantil 1-α n
0,95
0,98
0,99
3
3,182
4,541
5,841
4
2,776
3,747
4,604
5
2,571
3,365
4,032
riertransformation gehört definitiv zu den Dingen, von denen Sie zumindest ein Grundverständnis haben sollten. Die Grundlage der FT ist die Fourierreihe, durch die ein periodisches Signal f (x) mit der Periode T = 2π/ω0 in seine Grund- (ω0 ) und Oberschwingungen (nω0 mit n = 2, 3, . . . ) zerlegt wird. ω0 bezeichnet hierbei die Grundfrequenz des Signals. Das Signal lässt sich dann als (Fourier-)Reihe schreiben: ∞
f (x) =
A0 + [An cos(nω0 x) + Bn sin(nω0 x)] 2
(4.30)
n=1
Abb. 4.11 zeigt bspw., wie die Stufenfunktion (schwarze Linie) durch eine Fourierreihe mit n = 1, n = 7 bzw. n = 13 immer mehr angenähert wird. Sie können sich das ähnlich wie die Taylorreihe einer Funktion vorstellen, mit dem Unterschied, dass die Funktion f (x) periodisch ist und nicht auf Basis von Polynomen dargestellt wird, sondern auf der Basis trigonometrischer Funktionen. Die Koeffizienten A j und B j gehen aus f (x) hervor:
4.6
Fouriertransformation
147
Abb. 4.11 Annäherung einer Stufenfunktion (gepunktete Linie) mithilfe verschiedener Fourierreihen (vgl. Gl. 4.30) mit n = 1 (strichgepunktete Linie), n = 7 (gestrichelte Linie) und n = 13 (durchgezogene Linie)
f(x)
1
0
−1 −2
1 An = π Bn =
1 π
−1
0 x
1
2
π f (x) cos(nω0 x)d x
(4.31)
f (x) sin(nω0 x)d x
(4.32)
−π π −π
Sie werden auch Fourierkoeffizienten genannt. Vielleicht kennen Sie noch aus einer Ihrer Mathevorlesungen die folgenden Beziehungen zwischen der Exponentialfunktion und der Sinus- bzw. Kosinusfunktion: exp(inω0 x) + exp(−inω0 x) 2 exp(inω0 x) − exp(−inω0 x) sin(nω0 x) = 2i
cos(nω0 x) =
(4.33) (4.34)
Hierbei ist i die sogenannte komplexe Einheit, und die Ausdrücke in den Klammern der Exponentialfunktionen sind entsprechend komplexe Zahlen. Die Gl. 4.33 und 4.34 kann man nutzen, um letztlich zu der folgenden Darstellung von Gl. 4.30 zu kommen: ∞
f (x) =
cn exp(inω0 x)
(4.35)
n=−∞
mit 1 cn = 2π
π f (x) exp(−inω0 x)d x −π
Schreiben wir das noch für ein allgemeines Intervall [−L, L] hin
(4.36)
148
4 Datenvorbehandlung und Signalwertanalyse ∞
f (x) =
cn exp(inπ ω0 x/L)
(4.37)
f (x) exp(−inπ ω0 x/L)d x
(4.38)
n=−∞
mit 1 cn = 2L
L −L
Ersetzen wir nun in Gl. 4.37 ωn ≡ n πL und beachten, dass ωn − ωn−1 = πL bzw. ist, dann lässt sich die zuvor genannte Gleichung auch wie folgt darstellen: ∞
f (x) =
g(ωn ) exp(i xωn )Δωn
1 2L
=
Δω 2π
(4.39)
n=−∞
mit 1 g(ωn ) = 2π
L f (x) exp(−i xωn )d x
(4.40)
−L
Für L → ∞ (ωn wird kontinuierlich, ω) erhalten wir für f (x) das sogenannte Fourierintegral ∞ f (x) =
g(ω) exp(i xω)dω
(4.41)
−∞
mit der Fouriertransformierten g(ω) von f (x) 1 g(ω) = F T ( f (x)) ≡ 2π
∞ f (x) exp(−i xω)d x
(4.42)
−∞
Die zu Gl. 4.42 inverse Transformation bezeichnet man entsprechend als inverse Fouriertransformation F T −1 (g(ω)). f (x) = F T
−1
∞ (g(ω)) ≡
g(ω) exp(i xω)dω
(4.43)
−∞
Sie sehen, dass Sie Ihre Daten im x-Raum in den ω-Raum abbilden. Was bringt das? Oft können Sie Berechnungen im letztgenannten Raum wesentlich einfacher durchführen als in Ihrem ursprünglichen Datenraum. So erfordert das Ineinanderfalten zweier Funktionen f 1 (t) und f 2 (t) gemäß Gl. 4.18 die Berechnung eines relativ komplexen Integrals ∞ F(t) = f 1 ⊕ f 2 ≡
f 1 (u) f 2 (t − u)du −∞
(4.44)
4.6
Fouriertransformation
149
während die Konvolution (mit dem Operator ⊕ gekennzeichnet), nach Transformation beider Funktionen in den Fourierraum F T ( f 1 ) und F T ( f 2 ), nur noch eine Multiplikation ist. F T ( f 1 ⊕ f 2 ) = F T ( f 1 )F T ( f 2 )
(4.45)
Nach der Anwendung der inversen Fouriertransformation erhalten Sie schließlich die gefaltete Funktion bzw. Ihr gefaltetes Signal F(t) = F T −1 (F T ( f 1 )F T ( f 2 )). Dazu müssen natürlich die Funktionen f 1 und f 2 erst einmal in den Fourierraum transformiert werden. Bei N Messdaten geschieht das mithilfe der sogenannten diskreten Fouriertransformation, bei der die oben gezeigten Integrale durch N entsprechende Summen ersetzt werden. Ist die Anzahl der Stützstellen N eine Zweierpotenz, so wird in der Praxis ein deutlich schnelleres Verfahren angewandt, die schnelle Fouriertransformation (engl. Fast Fouriertransformation, FFT). Auch Excel verwendet dieses Verfahren intern bei der Verwendung seines Fourieranalyse-Tools. Diese finden Sie unter Daten → Datenanalyse → Fourieranalyse. Sie müssen sicherstellen, dass ihr Datensatz eine Länge von 2 N hat, wobei N = 1, 2, . . . Ggf. müssen Sie zusätzliche Nullen anfügen oder voranstellen. Die Faltung eines Signals bzw. einer Funktion mit einem anderen Signal hat in der Praxis viele Anwendungen. Wie in Abschn. 4.3 bereits erwähnt, ergibt sich die Faltung auf natürliche Weise dann, wenn aus zwei Zufallsvariablen x und y eine neue Zufallsvariable z = x + y gebildet wird (vgl. Zwei-Würfel-Beispiel). Die Wahrscheinlichkeitsverteilung von z ergibt sich nämlich aus der Faltung der Verteilungen von x und y. Machen wir hierzu ein kleines Beispiel. Beispiel 4.3 Wir verwenden nun Microsoft Excels Fourieranalyse-Werkzeug, um die Ihnen bereits bekannte Verteilung der Würfelaugen (vgl. hierzu Abb. 4.5) mit sich selbst zu falten. Hierzu tragen Sie in eine Spalte die Zahlen von 0 bis 15 ein. In die Spalte daneben schreiben Sie zunächst 16 Nullen untereinander und überschreiben die 2. bis 7. Zeile mit einer eins (vgl. Abb. 4.12). f (x) ist die diskrete Verteilung der Würfelaugen eines Würfels. In der Spalte daneben berechnen Sie die Fouriertransformierte (hier mit F(x) bezeichnet) dieser Verteilung. Hierzu öffnen Sie unter Daten → Datenanalyse → Fourieranalyse ein Addin, mit dessen Hilfe Sie dies durchführen können. Der Eingabebereich entspricht Ihrer Verteilung, und als Ausgabebereich reicht es, wenn Sie die erste Zeile in der Spalte neben Ihrer Verteilung wählen. Nachdem Sie OK geklickt haben, erhalten Sie Ihre mit komplexen Zahlen ausgefüllte Spalte. Das ist Ihre Fouriertransformierte. Da die Konvolution im Fourierraum zu einer Multiplikation wird, verwenden Sie die Funktion IMPRODUKT() um die Multiplikation der Fouriertransformierten mit sich selbst durchzuführen. Danach müssen Sie wiederum mit dem Fourieranalyse-Werkzeug die Rücktransformation des Produktes berechnen, indem Sie das Häkchen bei Inverse Transformation setzen. Sie erhal-
150
4 Datenvorbehandlung und Signalwertanalyse
Abb. 4.12 Faltung einer Gleichverteilung f (x) mit sich selbst mithilfe des FourieranalyseWerkzeugs in Excel. Die Fouriertransformierte dieser Verteilung habe ich mit F(x) bezeichnet. Die am Ende resultierende Dreiecksfunktion (Spalte F) erhält man als inverse Fouriertransformierte des Produktes F(x) · F(x). „Nutzung mit Genehmigung von Microsoft.“
ten so die resultierende Verteilung für die Augen von zwei Würfeln. Falls Sie die Daten in Spalte F grafisch darstellen wollen, müssen Sie die zugehörigen Zelleinträge noch in eine Zahl umwandeln. Hierzu klicken Sie auf das Hinweiskästchen an der obersten Zelle F3 und wählen In eine Zahl umwandeln. Alternativ markieren Sie einfach die Zellen der Nachbarspalte (F3:F18) und geben in die Bearbeitungsleiste =ZAHLENWERT(F3) ein. Die Eingabe bestätigen Sie anschließend mit strg + und erhalten so Ihre Zahlenwerte.
Mithilfe der Faltung können Signale auch geglättet werden. Hierzu werden sie mit einer passenden Funktion (auch Kernel genannt) gefaltet, wodurch eine geglättete Version des Ursprungssignals erhalten wird. Im Grunde genommen können alle im Abschn. 4.2 beschriebenen Methoden zur Datenglättung mithilfe einer Faltung durchgeführt werden. So wird der gleitende Mittelwert mit einer Fensterbreite von 5 mithilfe des Kernels K = [1/5 1/5 1/5 1/5 1/5] berechnet. In einem Video zeige ich Ihnen im Detail, wie Sie mithilfe der Fouriertransformation ein Signal in Excel glätten. Rufen Sie dieses Video durch Scannen des QR-Codes (unten) auf.
4.6
Fouriertransformation
151
Tab. 4.7 Zur Glättung eines Signals f (t) mittels Kernel K (t) und FFT t
f (t)
K (t)
0,1
5,5E-10
0
0,2
7,2E-09
1/3
0,3
7,9E-08
1/3
0,4
7,4E-07
1/3
0,5 .. .
5,9E-06 .. .
0 .. .
3,2
7,9E-08
0
4.6 Übung Glätten Sie mithilfe des Fourieranalyse-Werkzeugs in Microsoft Excel simulierte Daten, die Sie mithilfe der Funktion =NORM.VERT(t;1,75;0,25;FALSCH)+NORM.INV(ZUFALLSZAHL();0;0,1) erzeugt haben. Hierbei steht t stellvertretend für die Werte in einer Spalte mit 32 Elementen, die äquidistant von 0,1 bis 3,2 gehen (vgl. Tab. 4.7). Verwenden Sie für die Glättung einen ebenso langen Kernel der Form K = [0 1/3 1/3 1/3 0 . . . 0]. Tab. 4.7 zeigt beispielhaft die ersten fünf Zeilen der t-Spalte, der Spalte mit den simulierten Daten f (t) und die Spalte mit dem Kernel K (t), sowie jeweils die Elemente der letzten Zeile. Bilden Sie zunächst die Fouriertransformierte der Funktion und des Kernels, um anschließend mittels IMPRODUKT das Produkt dieser Fouriertransformierten zu berechnen. Schlussendlich berechnen Sie die inverse Fouriertransformation des Produktes (ebenfalls mithilfe des Fourieranalyse-Werkzeugs). Bitte beachten, dass Sie das Resultat noch in eine Zahl umwandeln müssen (siehe auch Beispiel 4.3). Falls Sie nun die Ursprungsfunktion und deren geglättete Version in einem Diagramm darstellen, fällt Ihnen etwas auf? Wenn Sie die vorangehende Übung gemacht haben, sollte Ihnen aufgefallen sein, dass Microsoft Excel die geglätteten Daten gegenüber den Originaldaten verschoben ausgibt. Wollen Sie bspw. die Originaldaten mit den geglätteten Daten in einem Diagramm darstellen, müssen Sie für Letztere eine separate Spalte mit verschobenen t-Werten erzeugen. Hierin wird der ursprüngliche Wert t1 an die Position j gesetzt, an der der Kernel sein Maximum hat. Im Fall von K = [0 1/3 1/3 1/3 0 . . . 0] ist das bspw. die Position j = 3. Es folgen dann
152
4 Datenvorbehandlung und Signalwertanalyse
t2 , t3 , . . . , t N −M auf den Positionen j + 1, j + 2, . . . , j + (N − M − 1). Auf den Positionen 1, . . . , j − 1 in der neuen t-Spalte werden dann die Elemente t N −(M+1) , . . . , t N gesetzt. Eine solche Vertauschung von Zeilenindizes nennt man auch eine zyklische Vertauschung/Verschiebung. Am Beispiel von Tab. 4.8 wird das etwas klarer. Sie sehen, dass die Werte in der neuen t-Spalte durch Runterschieben der alten t-Werte um zwei Positionen erzeugt werden können. Die Werte 0,6 und 0,7, die dabei aus der Tabelle rauszufallen scheinen, tauchen am Anfang der neuen t-Spalte wieder auf. Deshalb nennt man das Ganze auch zyklische Verschiebung. Der gezeigte Kernel ist ein gleitender Mittelwert der Fensterbreite drei. Er ist, neben dem Gauß’schen Kernel, bspw. in der Bilddatenverarbeitung sehr beliebt. Da Bilddaten zweidimensional sind, muss auch der Kernel zweidimensional sein. Der entsprechende 2D-Kernel sieht dabei so aus: ⎤ 0,11 0,11 0,11 K = ⎣0,11 0,11 0,11⎦ 0,11 0,11 0,11 ⎡
Dieser Kernel wird zur Glättung über die Intensitätsdaten des Bildes geschoben. V. a. bei Bilddaten wird die Konvolution in der Praxis immer mittels FFT berechnet, da die händische Berechnung des Konvolutionsintegrals viel länger dauern würde. Eine weitere häufige Anwendung der Fouriertransformation ist bei der Reduktion von Rauschen in analytischen Signalen. Rauschen erscheint im Fourierraum bei höheren Frequenzen gegenüber den eigentlichen Signalen. Wenn nun diese höheren Frequenzen abgeschnitten werden bzw. die Amplituden dieser Frequenzen zu null gesetzt werden und das daraus resultierende Signal zurücktransformiert wird, dann erhält man ein Signal mit deutlich geringerem Rauschanteil. Machen wir hierzu kurz ein Beispiel. Tab. 4.8 Beispiel zur zyklischen Vertauschung der t-Werte für die Glättung mit dem Kernel K (t) t
K (t)
tneu
0
0
0,6
0,1
1/3
0,7
0,2
1/3
0
0,3
1/3
0,1
0,4
0
0,2
0,5
0
0,3
0,6
0
0,4
0,7
0
0,5
4.6
Fouriertransformation
153
Beispiel 4.4 In einer Spalte, sagen wir ab A1, können Sie sich N Zeitwerte t1 , . . . , t N mit festem Abstand erzeugen, wobei N von der Form N = 2k sein muss (mit k als ganzer Zahl). Um den Effekt schön zu verdeutlichen, wählen Sie bspw. k = 7. Nun simulieren Sie sich in der Nachbarspalte ab B1 mithilfe der Funktion NORM.VERT(t;1,75;0,25;FALSCH) zu jedem t-Wert jeweils einen Funktionswert. Addieren Sie zu jedem Funktionswert einen künstlich Rauschanteil mithilfe der Funktion NORM.INV(ZUFALLSZAHL();0;0,1). Am besten erzeugen Sie die Rauschwerte in der benachbarten Spalte C, und in der darauffolgenden Spalte D addieren Sie jeweils beide Teile. Dies entspricht dann Ihren simulierten analytischen Daten f (t). Mithilfe des Fourieranalyse-Werkzeugs berechnen Sie in einer neuen Spalte E die zu f (t) gehörige Fouriertransformierte F F T ( f (t)). Bitte wandeln Sie die ausgegebenen Zellwerte noch in Zahlen um. Berechnen Sie nun in der benachbarten Spalte die Frequenzwerte v gemäß: (ZEILEN(A$1:Aj) − 1)/(N Δt) f¨ur j ≤ N /2 v= (ZEILEN(A$1:Aj) − N − 1)/(N Δt) f¨ur j > N /2 Hierbei ist N = 128 und die Δt die Intervallbreite der t-Werte (bei mir ist dies gleich 0, 1). Wenn Sie nun in zwei weiteren Spalten F und G den Realteil und den Imaginärteil der Fouriertransformierten von f (t) mithilfe der Excel-Funktionen IMREALTEIL bzw. IMAGINÄRTEIL berechnen, dann können Sie anschließend den Realteil gegen die Frequenz in einem Diagramm darstellen. Die hohen Frequenzen repräsentieren hauptsächlich den Rauschanteil, während die niedrigen Frequenzen, mit den hohen Amplituden bzw. Realanteilen das uns interessierende analytische Signal repräsentieren. Sie können nun diejenigen Real- und Imaginärteile zu null setzen, deren zugehörige Frequenz in den höheren Frequenzbereich fällt. Anhand meiner Daten (siehe Abb. 4.13) habe ich einen Grenzwert von |vg | = 0,4 gewählt, d. h., alle Real- und Imaginäramplituden, deren zugehörige Frequenz einen Betrag größer als diese Grenzfrequenz ist, habe ich zu Null gesetzt. Nun kombinieren Sie den so bearbeiteten Realund Imaginäranteil wieder zu einer komplexen Zahl mithilfe der Funktion KOMPLEXE und geben diese wiederum in einer eigenen Spalte H aus. Mit diesen Daten können Sie nun eine inverse Fouriertransformation durchführen und, nachdem Sie die ausgegebenen Zelle in Zahlen umgewandelt haben, erhalten Sie Ihr vom Rauschen befreites analytisches Signal (orangefarbene Kurve in Abb. 4.13). Seien Sie jedoch vorsichtig, welche Frequenzen Sie bei der Rauschunterdrückung verwerfen, denn es kann durchaus sein, dass Ihr analytisches Signal selbst auch Anteile bei hohen Frequenzen hat. Ggf. schneiden Sie relevante Information ab, oder erzeugen Artefakte.
154
4 Datenvorbehandlung und Signalwertanalyse
a
b
2
45
Realteil
f(t)
1,5 1 −1
0,5 0 −0,5
−0,5
0,5 1 Frequenz
t 1
2
3
−45
Abb.4.13 Zur Entfernung von Rauschen aus einem analytischen Signal mittels FFT. Das verrauschte analytische Signal (durchgezogene Linie und Datenpunkte in a) wird in den Fourierraum transformiert (b). Hier werden die hohen Frequenzen (cutoff |vg | = 0,4) rausgefiltert und nach der anschließenden inversen Fouriertransformation erhält man ein annähernd rauschfreies Signal (gestrichelte Linie in a)
Die Fouriertransformation hat relativ viele Anwendungen in der Praxis. Auf weitere Anwendungen einzugehen würde jedoch den Rahmen dieses Kapitels sprengen. Weitere Beispiele finden Sie bspw. in diesem Buch [3]. Diese Beispiele sind ebenfalls in Excel berechnet, dazu wurden jedoch Makros verwendet und nicht das Fourieranalyse-Werkzeug.
Literatur 1. Motulsky, H., Christopoulos, A.: Fitting Models to Biological Data Using Linear and Nonlinear Regression: A Practical Guide to Curve Fitting. Oxford University Press (2004) 2. Savitzky, A., Golay, M. J. E.: Smoothing and differentiation of data by simplified least squares procedures. Anal. Chem., 36(8):1627–1639 (1964) 3. de Levie, R: How to Use Excel ® in Analytical Chemistry: And in General Scientific Data Analysis. Cambridge University Press, Cambridge (2001) 4. El-Hajj, A., Kabalan, K. Y.: The Use of Spreadsheets to Calculate the Convolution Sum of Two Finite Sequences. The International Journal of Engineering Education (2004)
5
Lineare und nicht-lineare Regression
5.1
Lineare Regression
Bei dem Ausdruck lineare Regression denken einige von Ihnen sicherlich an das Anpassen einer Geradenfunktion (Gl. 5.1) an experimentelle Daten. Tatsächlich ist das einer der häufigsten Fälle in der Praxis, z. B. wenn Sie Kalibrationsdaten einer photometrischen Messung fitten wollen. y(x) = b1 + b2 x (5.1) b1 bezeichnet den Achsenabschnitt und b2 die Steigung der Geraden. Die lineare Regression geht aber über diese Modellfunktion hinaus und kann allgemein in der folgenden Form geschrieben werden: y(x) = bi f (xi ) (5.2) i
Diese Gleichung gilt für den eindimensionalen Fall und ergibt verallgemeinert (auf höhere Dimensionen): y(x1 , x2 , . . . , xn ) = bi f (x1 , x2 , . . . , xn ) (5.3) i
Den multidimensionalen Fall lassen wir in diesem Kapitel aus, kommen aber im Kap. 6 darauf zurück. Sie sehen anhand von Gl. 5.2, dass auch eine quadratische Modellfunktion f (xi ) = xi2 in diesem Sinne unter die Kategorie lineare Regression fällt, sofern die Modellparameter bi linear auftreten.
5.1.1
Lineare Regression in analytischer Form
Betrachten wir Abb. 5.1, in der Datenpunkte in einem X Y -Diagramm dargestellt sind. Mit dem Auge ist bereits zu erkennen, dass die X - und Y -Daten eine gewisse Korrelation © Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 M. Schneider, Datenanalyse für Naturwissenschaftler, Mediziner und Ingenieure, https://doi.org/10.1007/978-3-662-61866-0_5
155
156
5 Lineare und nicht-lineare Regression
Abb. 5.1 Anpassung einer Geradenfunktion f (x) = b1 + b2 x an die Datenpunkte (xi , yi ), durch Minimierung der Summe aller vertikalen Abstände SS E = (yi − f (xi ))2 i
y
yi f(xi)
yi − f(xi) {
f(x)=b1+b2x
xi x
aufweisen, d. h., sie sind nicht zufällig gestreut. Mit Ihrem inneren Auge können Sie bereits eine Gerade durch die Datenpunkte legen, und zwar derart, dass diese Gerade möglichst gut den Verlauf dieser Daten widerspiegelt. Die lineare Regression ist nun ein mathematischer Weg, wie sie aus der unendlichen Anzahl möglicher Geraden, eine Gerade finden, die sich sehr gut an Ihre Daten anpasst. Seien nun (xi , yi ) Ihre experimentellen Datenpaare, dann ist ein Maß für die Abweichung zwischen den yi und den aus dem Geradenmodell stammenden y-Werten f (xi ) die sogenannte Fehlerquadratsumme1 (engl. sum-of-squared error, abgekürzt SS E): N SS E = (5.4) (yi − f (xi ))2 i=1
Sie sehen, dass in dem Klammerausdruck die Abweichungen zwischen den experimentellen y-Werten und den modellierten y-Werten, f (x), stehen. Man nennt sie auch Residuen (engl. squared error, S E). Durch das Quadrieren haben große Abweichungen zwischen dem Modellwert der Kurve f (xi ) und dem Datenpunkt yi einen starken Einfluss auf die Fehlerquadratsumme. Bei der Minimierung dieser wird demnach eher eine Kurve mit vielen kleineren Abweichungen „gewinnen“ als eine Kurve, die zwar bei den meisten Punkten eine vernachlässigbare Abweichung hat, dafür aber bei einem Punkt eine riesige Abweichung aufweist. Damit sich die Gerade möglichst gut an die Daten anpasst (engl. fit), müssen also alle Abstände zwischen der Modellfunktion und den Datenpunkten so klein wie möglich sein, d. h., die Fehlerquadratsumme muss minimal werden (vgl. Abb. 5.1). Mathematisch gesehen können Sie das Minimum der SS E-Funktion mithilfe der Ableitung nach den Fitparametern bestimmen. 1 Man nennt die Methode zum Auffinden der sich am besten anpassenden Kurve an die Daten auch die
Methode der kleinsten Quadrate, was im Englischen so viel wie least-square bedeutet. Diese Methode wurde 1807 von Adrien-Marie Legendre veröffentlicht. Carl Friedrich Gauß soll sie allerdings bereits seit 1795 angewandt haben [1].
5.1
Lineare Regression
157
∂ f (xi , b) ∂ SS E = −2 (yi − f i (xi , b)) ∂b1 ∂b1 N
i=1
= −2
N
(yi − f i )
(5.5)
i=1
∂ f (xi , b) ∂ SS E = −2 (yi − f i (xi , b)) ∂b2 ∂b2 N
i=1
= −2
N
(yi − f i (xi , b)) xi
(5.6)
i=1
Hierbei habe ich Gebrauch von der Kettenregel gemacht2 . Im Minimum sind diese Ableitungen null: ∂ SS E = −2 (yi − b1 − b2 xi ) = 0 ∂b1
(5.7)
∂ SS E = −2 (yi − b1 − b2 xi ) xi = 0 ∂b2
(5.8)
N
i=1 N
i=1
Sie suchen also die Nullstellen der partiellen Ableitungen nach den Fitparametern. Letztlich bilden die Gl. 5.11 und 5.12 ein lineares Gleichungssystem, das Sie sogar relativ einfach analytisch lösen können. Die analytischen Lösungen für die beiden Fitparameter sind in den Gl. 5.9 bzw. 5.10 aufgeführt. N b2∗
=
N
xi yi −
i=1
N
N i=1
N
b1∗
=
i=1
N
xi
i=1
xi2
−
yi − b2∗ N
N
N
yi
i=1 2
(5.9)
xi
i=1 N i=1
xi (5.10)
Mithilfe des Sternchens möchte ich die optimierten Fitparameter kennzeichnen, um sie von Variablen zu unterscheiden. b1∗ ist somit der Achsenabschnitt, der nach der Fitprozedur erhalten wird und bei dem die Fehlerquadratsumme minimal ist (vgl. Abb. 5.2). Ich werde diese Notation für die besten Fitparameter auch weiterhin in diesem Kapitel verwenden. Wenn Sie bedenken, dass in Gl. 5.10 nichts anderes steht als b1∗ = y¯ − b2∗ x, ¯ dann sehen Sie, dass Sie b1∗ bei bekanntem b2∗ sehr leicht mithilfe der Mittelwerte von x (x) ¯ und y ( y¯ ) 2 ∂u(v(x)) = ∂u ∂v ∂x ∂v ∂ x
Abb. 5.2 Die Suche nach den besten Fitparametern ist letztlich eine Suche nach dem Minimum auf der Hyperfläche der Fehlerquadratsumme. Am Minimum ist die erste (partielle) Ableitung ∂ SS E/∂b1 null. Das Sternchen in b1∗ soll hierbei die besten Fitparameter kennzeichnen
5 Lineare und nicht-lineare Regression
SSE
158
∂SSE/∂b1 =0 b1*
b1
berechnen können. Wenn es mehr Datenpunkte als Fitparameter gibt, dann ist die Lösung vom Gleichungssystem 5.11 und 5.12 eindeutig, d. h. es gibt nur ein globales Minimum3 auf der SS E-Hyperfläche. Abb. 5.2) zeigt den Schnitt durch eine solche Hyperfläche für den Parameter b1 . Dabei erhält man eine Parabel, deren Minimum beim optimierten Fitparameter liegt. Eine solche Darstellung können Sie dadurch erhalten, dass Sie den Parameter b2 festhalten, b1 variieren und zu jedem b1 die Fehlerquadratsumme SS E auftragen. Wie Sie weiter unten sehen werden, können Sie aus solchen Abbildungen sogar die Konfidenzintervalle für die Fitparameter ablesen. Übrigens verwenden die Excel-Funktionen Steigung und Achsenabschnitt die Formeln aus den Gl. 5.9 und 5.10. Generell bleibt festzuhalten, dass die Fitparameter für das lineare Modell relativ einfach zu berechnen sind, ohne überhaupt den Solver in Excel oder ein ähnliches Optimierungstool zu verwenden. Es kann aber durchaus passieren (wenn auch selten), dass die analytisch errechneten Fitparameter und die aus dem Solver stammenden Parameter ggf. voneinander abweichen. Das kann bspw. dann auftreten, wenn das SS EMinimum relativ breit ist und das Optimierungstool zu früh die Iteration zum Minimum abbricht (wegen eines zu groß gewählten Abbruchkriteriums). Beispiel 5.1 Angenommen, Sie haben haben fünf verschiedene Farbstofflösungen mit ansteigenden Farbstoffkonzentrationen x1 , . . . , x4 . Sie messen für jede Lösung jeweils die Fluoreszenz y1 , . . . , y4 in Abhängigkeit der verschiedenen Konzentrationen in einem Fluorimeter. Dabei wurden die Daten in Tab. 5.1 erhalten. Für kleine Konzentrationen ist die Fluoreszenz einer Lösung linear abhängig von der Konzentration des fluoreszierenden Farbstoffes. Um nun die Fitparameter b1 und b2 zu finden, stellen wir das lineare Gleichungssystem (Gl. 5.11 und 5.12) auf.
3 Vorausgesetzt, die x sind nicht alle gleich, was wohl in der Praxis in aller Regel gegeben sein sollte. i
5.1
Lineare Regression
159
Tab. 5.1 Beispieldaten zur linearen Regression x
0,1
0,3
0,5
0,7
y
1372
2325
2019
3055
d SS E = −2 (1372 − b1 − b2 · 0,1) − 2 (2325 − b1 − b2 · 0,3) db1 = −2 (2019 − b1 − b2 · 0,5) − 2 (3055 − b1 − b2 · 0,7)
(5.11)
=0 d SS E = −2 (1372 − b1 − b2 · 0,1) · 0,1 − 2 (2325 − b1 − b2 · 0,3) · 0,3 db2 = −2 (2019 − b1 − b2 · 0,5) · 0,5 − 2 (3055 − b1 − b2 · 0,7) · 0,7 =0
(5.12)
Wenn Sie die Terme mit Fitparametern b1 , b2 und ohne Fitparameter zusammenfassen, so erhalten Sie ein Gleichungssystem, 4b1 + 1,6b2 = 8771
(5.13)
1,6b1 + 0,84b2 = 3982,9
(5.14)
das gar nicht mehr so furchteinflößend aussieht und sehr einfach zu lösen ist: b1∗ = 1244
(5.15)
b2∗
(5.16)
= 2372
5.1 Übung Es gibt mehrere Möglichkeiten, die Regressionsparameter in Excel zu berechnen. Die vermutlich bekannteste Möglichkeit ist die Trendlinienfunktion, wenn die Daten in einem XY-Diagramm dargestellt wurden. Außerdem können Sie die Excel-Funktionen ACHSENABSCHNITT und STEIGUNG verwenden, um die Parameter b1 und b2 zu bestimmen. Leider geben diese Funktionen keine Hinweise auf die Güte der Regression (bspw. R 2 , vgl. Abschn. 5.7.1). Dafür können Sie die Funktion RGP verwenden. Neben dem R 2 liefert diese auch Standardabweichungen für die Steigung b2 und den Achsenabschnitt b1 (vgl. Abschn. 5.7.1.3). Verwenden Sie die Trendlinienfunktion, die Funktionen ACHSENABSCHNITT und STEIGUNG, sowie die Funktion RGP, um eine lineare Regression für die Daten in Tab. 5.1 durchzuführen.
160
5.1.2
5 Lineare und nicht-lineare Regression
Lineare Regression in Matrixform
Das Rechnen mit Vektoren und Matrizen unter Excel haben wir in Abschn. 1.2 bereits kennengelernt. Hier möchte ich Ihnen zeigen, wie Sie mithilfe relativ einfacher Matrixalgebra (vgl. Abschn. 1.2) das o. g. lineare Regressionsproblem lösen können. Weiter unten verallgemeinern wir dies dann auf den allgemeinen Fall der nicht-linearen Regression, denn für diese gibt es allgemein keine analytische Lösung mehr. Seien (x1 , y1 ), . . . , (x4 , y4 ) Datenpunkte. Gl. 5.1 bildet ein Gleichungssystem der Form: ⎡ ⎤ ⎡ ⎤ y1 1 x1 ⎢ .. ⎥ ⎢ .. .. ⎥ b1 ⎣ . ⎦ = ⎣. . ⎦ b2 y4 1 x4 y
X
(5.17)
b
mit dem 4 × 1-Vektor y, der 4 × 2-Matrix X und dem 2 × 1-Fitparametervektor b. Da X nicht quadratisch ist, können Sie diese Matrix nicht einfach invertieren und damit den Lösungsvektor b erhalten. Um dennoch eine Lösung zu erhalten, bedient man sich der soge −1 nannten generalisierten Inversen oder auch Pseudoinversen XT X . Dazu muss zunächst die Transponierte von X mit X selbst multipliziert werden. In Excel geht das mit den Befehlen MMULT für die Multiplikation und MTRANS für die Transponierung. Dadurch erhalten Sie für das obige Beispiel: 4 1,6 T (5.18) X X= 1,6 0,84 Invertieren können Sie anschließend die resultierende Matrix mit dem Befehl MINV. Die Koeffizienten der Matrix in Gl. 5.18 sollten Ihnen bekannt vorkommen, denn wir haben sie bereits bei den partiellen Ableitungen der Fehlerquadratsumme berechnet (siehe Gl. 5.13 und 5.14). Das ist kein Zufall, sondern basiert auf der Tatsache, dass X nichts anderes ist als die Matrix der partiellen Ableitungen der Fitfunktion nach den Fitparametern für die gegebenen xi (siehe hierzu auch die Gl. 5.5 und 5.6). Sie lässt sich allgemein in der folgenden Form darstellen: ⎡ ∂ f (x1 ,b) ∂(x1 ,b) ⎤ 1 ,b) . . . ∂(x ∂b1 ∂b2 ∂bm ⎢ ∂ f (x2 ,b) ∂ f (x2 ,b) (x2 ,b) ⎥ . . . ∂ f∂b ⎢ ∂b1 ⎥ ∂b2 m ⎢ ⎥ (5.19) X=⎢ .. .. .. .. ⎥ ⎣ ⎦ . . . . ∂ f (x N ,b) ∂(x N ,b) (x N ,b) . . . ∂ f ∂b ∂b1 ∂b2 m Die Ableitung von f (x) nach b1 ergibt 1 für alle xi . Die Ableitung nach b2 ergibt jeweils xi , wodurch sich eben unsere Matrix X in Gl. 5.17 ergibt. Man nennt diese Matrix X auch die Jacobi-Matrix4 . Sie wird im Laufe des Kapitels noch eine wichtige Rolle spielen. Wenn wir nun Gl. 5.17 von links mit der Matrix XT multiplizieren, erhalten wir mit dem zuvor 4 Carl Gustav Jacob Jacobi war ein deutscher Mathematiker.
5.1 Lineare Regression
161
Gesagten: XT y = XT Xb ⎤ 1372 ⎥ 1 1 1 1 ⎢ b1 ⎢2325⎥ = 4 1,6 0,1 0,3 0,5 0,7 ⎣2019⎦ 1,6 0,84 b2 3055 ⎡
(5.20)
(5.21)
Wenn Sie nun XT X invertieren und von links mit Gl. 5.20 multiplizieren, so erhalten Sie den Vektor der Fitparameter als Ergebnis.
−1
X T y = b∗ ⎡ ⎤ 1372 ∗ ⎥ 1,05 −2 1 1 1 1 ⎢ ⎢2325⎥ = b1 b2∗ −2 5 0,1 0,3 0,5 0,7 ⎣2019⎦ 3055 1244 = 2372 XT X
(5.22)
(5.23)
In einem Video zeige ich Ihnen verschiedene Wege, wie Sie in Excel eine lineare Regression durchführen können. Rufen Sie dieses Video durch Scannen des QR-Codes (unten) auf.
5.2 Übung: Bitte versuchen Sie, die Rechnungen in diesem Abschnitt nachzuvollziehen. Berechnen Sie hierzu einmal selbst in Excel den Achsenabschnitt b1 und die Steigung b2 mithilfe der Regression in Matrixform für die Daten in Tab. 5.1. Wie im Text erwähnt, brauchen Sie hierfür die Excel-Funktionen MMULT, MTRANS, MINV.
5.2
Nicht-lineare Regression
Im Abschnitt zuvor haben wir Linearität in zweifacher Hinsicht gehabt. Das Fitmodell war sowohl linear in seiner unabhängigen Variablen x als auch in seinen Fitparametern b. Damit das oben gezeigte Verfahren mithilfe der Pseudoinversen funktioniert, muss das Fitmodell linear in den Fitparametern sein, d. h., das beinhaltet allgemein Modelle der in Gl. 5.24 gezeigten Form.
162
5 Lineare und nicht-lineare Regression
Tab. 5.2 Gängige Funktionen und ihr durch Transformation erhaltenes lineares Pendant Ursprüngliche Funktion
Zugehörige lineare Funktion (durch Transformation)
y = b1 x b2
ln y = ln b1 + b2 ln x
y = b1 exp(b2 x)
ln y = ln b1 + b2 x
y = b1 exp(b2 /x)
ln y = ln b1 + b2 /x
x y = b x+b 1 2 1 y = b x+b 1 2
1 = b + b /x 1 2 y 1 =b x +b 1 2 y
1 y = b +b exp(−x) 1 2
1 = b + b exp(−x) 1 2 y
y=
M
bi f (x)
(5.24)
i=1
Hierbei ist die Funktion f (x) unabhängig von den Koeffizienten bi . Somit lässt sich bspw. die Funktion f (x) = b0 + b1 exp (−x) mit dem Verfahren der linearen Regression fitten, f (x) = b0 + exp (−b1 x) jedoch nicht. Je nachdem können Sie eine nicht-lineare Gleichung in eine lineare Gleichung durch Transformation umwandeln und diese anschließend fitten. So lässt sich bspw. die Funktion y = b1 exp (b2 x) (5.25) durch eine Transformation der Form ln y = ln b1 + b2 x
(5.26)
in eine lineare Gleichung überführen und dann die Fitparameter mit einer linearen Regression bestimmen. Tab. 5.2 zeigt einige gängige Funktionen und die entsprechende Transformation auf Linearität. Für nicht-lineare Funktionen f (x, b) kann das Modell y = f (x, b)
(5.27)
nicht mehr in die Form 5.24 überführt werden. Auch bei der nicht-linearen Regression spielt die Fehlerquadratsumme SS E die entscheidende Rolle5 , da die Fitparameter b wiederum durch Minimierung dieser Funktion gefunden werden:
5 Es gibt durchaus alternative Methoden um Fitparameter zu finden, z. B. die sogenannte Maximum-
Likelihood(ML)-Methode. Tatsächlich ist die Methode der kleinsten Fehlerquadrate nur ein Sonderfall der ML-Methode. Dem interessierten Leser empfehle ich, einen Blick in dieses Buch zu werfen [2].
5.2
Nicht-lineare Regression
SS E =
163 N
(yi − f (xi , b))2 → min b
i=1
(5.28)
Wir können wieder die Ableitungen der Fehlerquadratsumme nach den Fitparametern bilden und zu null setzen, so wie wir es bei der linearen Regression gemacht haben (vgl. Gl. 5.5 und 5.6): ∂ SS E ∂b1 = 0 ∂ SS E ∂b2
.. .
∂ SS E ∂bm
=0 . = .. =0
(5.29)
Es stellt sich jedoch jedoch heraus, dass wir kein lineares Gleichungssystem mehr erhalten, sondern ein nicht-lineares Gleichungssystem, das wir nicht mehr über eine inverse Matrix lösen können, sondern bspw. über iterative Verfahren, bei denen die Fitparameter, ausgehend von Startwerten optimiert werden. Im Folgenden werden Sie mehr über die gängigen Methoden zur Lösung des in Gl. 5.28 dargestellten Optimierungsproblems erfahren, die auch im Solver implementiert sind. In einem Video zeige ich Ihnen im Detail, wie Sie den Solver in Excel verwenden, um eine nicht-lineare Regression durchzuführen. Rufen Sie dieses Video durch Scannen des QR-Codes (unten) auf.
Wir fangen im Folgenden mit den Gradienten-basierten Methoden an. Ich halte mich dabei weitgehend an die Ausführungen von Draper und Smith [3].
5.2.1
Gradienten-basierte Verfahren
Gradienten-basierte Verfahren zur Minimierung der Fehlerquadratsumme sind iterative Ver 0 T vorgegeben und mit jedem fahren, bei dem zunächst Startparameter b0 = b00 b10 . . . bm Iterationsschritt verfeinert werden. Der Ablauf sieht wie folgt aus: 0 und berechnen Sie f (x, b ) 1. Wählen Sie passende Startparameter b0 = b00 b10 , . . . , bm 0 2. Wir nähern das Fitmodell f (x, b) in der Nähe von b0 durch eine Taylorreihe an (Abbruch nach dem zweiten Glied):
164
5 Lineare und nicht-lineare Regression
f (x, b) = f (x, b0 ) +
m ∂ f (x, b) j=1
∂b j
b j − b0j
(5.30)
b=b0
Setzen wir βi0 ≡ bi − bi0 und ⎡ ∂ f (x1 ,b)
∂(x1 ,b) ∂b1 ∂b ⎢ ∂ f (x2 ,b) ∂ f (x22,b) ⎢ ∂b1 ∂b2 ⎢
Z0 = ⎢ ⎣
.. .
.. .
∂ f (x N ,b) ∂(x N ,b) ∂b1 ∂b2
... ... .. . ...
∂(x1 ,b) ⎤ ∂bm ∂ f (x2 ,b) ⎥ ∂bm ⎥ ⎥
.. .
∂ f (x N ,b) ∂bm
⎥ ⎦ b=b0
so erhalten wir eine Matrixgleichung ähnlich wie 5.17 y0 = Z0 β 0
(5.31)
hierbei ist y0 = y − f (x, b0 ). Gl. 5.31 ist nun linear in β 0 . 3. Lösen Sie Gl. 5.31 nach β 0 mithilfe der Pseudoinversen −1 β 0 = Z0T Z0 Z0T y0
(5.32)
und Sie erhalten eine bessere Approximation des Fitparametervektors b1 = b0 + β 0 4. Diesen Prozess iterieren Sie −1 bj+1 = bj + ZTj Z j ZTj yj (5.33) bis sich bj+1 und bj nicht mehr merklich voneinander unterscheiden. Mathematisch gesprochen iteriert man, bis (bj+1 − bj )/bj < δ (z. B. δ = 0.000001) ist. Das δ wird hierbei von Ihnen vorgegeben. Beim Solver gibt es in den Optionen ein entsprechendes Konvergenzkriterium, das vom Anwender eingestellt werden kann. Wir können Gl. 5.34 auch etwas umformen und erhalten: −1 ZTj f (x, bj ) − y (5.34) bj+1 = bj − ZTj Z j Diese Gleichung finden Sie in der Literatur unter mehrdimensionalem Newton-Verfahren, eine Methode, um die Nullstellen einer Funktion zu finden. Ein ähnliches Verfahren zur Lösung nicht-linearer Regressionsprobleme, ist auch im Solver mit der GRG-Methode (GRG: Generalized reduced gradient) implementiert. Gradientenbasierte Methoden haben den Nachteil, dass sie, abhängig von der Wahl der Startparameter, in einem lokalen Minimum stecken bleiben können (siehe Abb. 5.3), da auch dort die partiellen Ableitungen zu null werden.
Nicht-lineare Regression
Abb. 5.3 Bei der nicht-linearen Regression wird iterativ nach den besten Fitparametern gesucht. Hierzu werden Startparameter vorgegeben (gekennzeichnet durch blaue Punkte), die sukzessive, über die Minimierung der Fehlerquadratsumme, verbessert werden. Je nach Wahl der Startparameter kann die Iteration in einem lokalen Minimum enden und so zu nicht optimalen Fitparametern führen
165
SSE
5.2
bj*
bj
Dann haben Sie zwar ggf. einen relativ guten Fit, aber es handelt sich nicht um die globale Lösung. Dem können Sie versuchen entgegenzuwirken, indem Sie manuell verschiedene Startparameter probieren und die Fehlerquadratsumme (SSE) notieren. Dann wählt man diejenige Lösung, für die die SSE minimal war. Ich will nicht verschweigen, dass es beim Solver unter den Optionen für die GRG-Methode auch die Möglichkeit gibt, automatisch Mehrfachstarts zu machen. Das bedeutet, der Solver erzeugt zufällig mehrfache Startparameter, durchläuft mit diesen jeweils eine Fitroutine und gibt diejenigen Parameter zurück, für die die Fehlerquadratsumme minimal war. Ich muss zugeben, dass ich diese Option selten nutze, da ich nicht genau nachvollziehen kann, welche und wie die mehrfachen Startparameter gesetzt werden. Stattdessen teste ich manuell verschiedene Startparameterkombinationen. Um Daten unter Excel mithilfe des Solvers zu fitten, empfehle ich Ihnen folgenden Ablauf: 1. Schreiben Sie die x- und y-Daten jeweils in eine Spalte. 2. Geben Sie in weiteren Zellen Startwerte für die Fitparameter vor. 3. Berechnen Sie in einer weiteren Spalte die Werte des Fitmodells unter Verwendung der x-Werte und der Startparameter. 4. Berechnen Sie die Fehlerquadratsumme (SSE) mithilfe der Excel-Funktion SUMMEXMY2 aus den y-Werten und den Werten des Fitmodells. 5. Rufen Sie den Solver im Register Daten auf (siehe Abb. 1.2): – Unter Ziel festlegen: Markieren Sie die Zelle, in der Sie die SSE berechnet haben. – Die Fitparameter, oder auch Variablenzellen, werden so lange verändert, bis die SSE ein Minimum (Min.) aufweist. – In der Regel sollten Sie den Sie den Haken bei Nicht eingeschränkte Variablen als nicht-negativ festlegen entfernen.
166
5 Lineare und nicht-lineare Regression
– Legen Sie in den Solver-Optionen ggf. das Abbruchkriterium δ fest. – Klicken Sie auf Lösen, um die besten Fitparameter zu finden. Je nach Vorwissen können Sie die Fitparameter auch durch Setzen von Nebenbedingungen im Solver-Fenster einschränken. Wenn Sie bspw. wissen, dass ein Fitparameter nur Werte größer null annehmen kann, so können Sie diese Information in die Optimierung mit einbringen. Den Solver für Regressionsprobleme zu nutzen, ist sehr bequem und v. a. schnell. Es hat jedoch den Nachteil, dass man nur die Fitparameter ausgegeben bekommt und keine weiteren Informationen wie bspw. Konfidenzintervalle oder zumindest die Jacobi-Matrix, aus der man diese dann selbst berechnen könnte. Wie das geht, zeige ich Ihnen im Abschn. 5.7.1.2. 5.3 Übung: Lösen Sie das Regressionsproblem aus Übung 5.2 (siehe Daten Tab. 5.1) mithilfe des Solvers und vergleichen Sie die Ergebnisse mit denen, die Sie unter Verwendung der Matrixform erhalten haben.
5.2.2
Simplex-Optimierung
Während die Gradienten-basierten Methoden in jedem Iterationsschritt einen neuen Fitparametersatz auf Basis des Gradienten der zu minimierenden SS E-Funktion (vgl. hierzu Gl. 5.34) erzeugen, erzeugt der Simplex-Algorithmus mit jedem Iterationsschritt einen neuen Parametersatz basierend auf der Berechnung eines neuen Simplex (vgl. Abb. 5.4). Bei nFitparametern ist der Simplex ein aus n + 1 Ecken bestehendes Hypertetraeder. Für n = 2 ergibt sich bspw. ein Dreieck. In jedem Iterationsschritt werden die Punkte auf Basis der zu optimierenden Funktion beurteilt und nach Ihrem Rang (bester b, zweitbester n und schlechtester w) zugeordnet. Beim darauffolgenden Iterationsschritt wird der schlechteste Punkt in der Mitte der Kante der beiden anderen Punkte reflektiert, und es entsteht ein neuer Simplex, dessen Punkte wiederum beurteilt werden. So arbeitet sich der Simplex sukzessive in Richtung Optimum vor und findet die entsprechenden Parameter θ1∗ und θ2∗ . Ist f (θ1 , θ2 ), wie bei der Regression, die Fehlerquadratsumme, dann ist derjenige Punkt (θ1∗ , θ2∗ ) der beste, dessen f (θ1 , θ2 ) am kleinsten ist. In diesem Fall ist also das Optimum ein Minimum. Natürlich muss es sich bei f (θ1 , θ2 ) nicht um eine zu optimierende Regressionsfunktion handeln, die einen funktionalen Zusammenhang mit den Parameter b1 , b2 beschreibt. Der Simplex-Algorithmus kann auch zur Optimierung experimenteller Bedingungen eingesetzt werden, wobei f bspw. das Signal-Rausch-Verhältnis darstellt. Die zugrunde liegende Optimierungsfläche ist dann nicht durch eine mathematische Funktion beschrieben. Die Experimente (jeweils die Eckpunkte des Simplex) müssen dann sequentiell und gemäß den Vorschlägen des Simplex-Algorithmus durchgeführt werden. Ein neuer Simplex besteht in 2D immer aus zwei Punkten (engl. vertex) des vorherigen Simplex und aus einem neuen Punkt, der durch Reflexion des schlechtesten Punktes w an der Geraden zwischen dem besten b und dem zweitbesten Punkt n des alten Simplex entsteht (vgl.
5.2
Nicht-lineare Regression
167
Abb. 5.4 Prinzip der Simplex-Optimierung. Die verschiedenen Simplexe sind durch unterschiedliche Lininearten gekennzeichnet
Abb. 5.4). Mathematisch lässt sich das relativ leicht verstehen, wenn man sich jeden Punkt durch seinen Ortsvektor definiert vorstellt. Der erste Simplex (Dreieck mit durchgezogener Linie) ist demnach über die Vektoren w, n und b definiert. Der Mittelpunkt p ist entsprechend durch den Vektor p definiert. Die Vektorkoordinaten von p lassen sich relativ leicht aus denen der Vektoren b und n berechnen (mehr Details zum Rechnen mit Vektoren finden Sie im Anhang): 1 p1 b n1 = + 1 (5.35) p2 n2 b2 2 Diese Formel kann man für N -Dimensionen verallgemeinern: N 1 p= vi N
(5.36)
i=1
Wobei die Summe alle Vektoren vi bis auf den schlechtesten enthält. Die Koordinaten des neuen Punktes nach der Reflexion r lassen sich dann wie folgt ermitteln: r =p+p−w
(5.37)
Alles in allem keine komplizierten Rechnungen und sogar relativ leicht in Excel machbar. Eine schnellere Konvergenz des Simplex kann erzielt werden, wenn die Schrittweite bzw. die Länge des reflektierten Vektors anpasst wird, und zwar abhängig davon, wie der Wert der Optimierungsfunktion f (r) an der Stelle r sich gegenüber den Werten b, n und w verhält. Die Anpassung der Schrittweite hat neben der schnelleren Konvergenz auch den Vorteil, dass ein Optimum viel präziser getroffen werden kann, so wie in Abb. 5.4 dargestellt, wo der Simplex ziemlich genau am Optimum endet. Die Anpassung der Schrittweite beim modifizierten Simplex (auch Nelder-Mead-Simplex genannt) geschieht nach folgenden Kriterien (vgl. hierzu auch Abb. 5.5):
168 Abb. 5.5 Prinzip des modifizierten Simplex-Verfahrens
5 Lineare und nicht-lineare Regression
θ2
e r cp
b
p cn
n
w θ1
• Wir berechnen zunächst den reflektierten Punkt r (vgl. Gl. 5.37). • Falls f (n) ≤ f (r) ≤ f (b), dann wird der Simplex nbr verwendet. • Falls f (r) > f (b), dann wird der Vektor p − w gestreckt, und dadurch entsteht ein anderer Vektor e gemäß: e = p + γ (p − w) mit γ > 1 (5.38) Falls nun f (e) ≥ f (b) gilt, dann wird mit dem gestreckten Simplex nbe weitergemacht, ansonsten mit dem nicht gestreckten Simplex nbr. • Falls f (w) ≤ f (r) < f (n), dann wird p − w gestaucht, wodurch cp entsteht: cp = p + γ (p − w) mit 0 < γ < 1/2
(5.39)
• Falls f (r) < f (w), dann wird p − w in negativer Richtung gestaucht, wodurch cn entsteht: cn = p − γ (p − w) mit 0 < γ < 1/2 (5.40) An dieser Stelle machen wir mal ein kleines Beispiel anhand von künstlich erzeugten Daten. Beispiel 5.2 Wir versuchen mithilfe eines modifizierten Simplex-Verfahrens, die (x1 , x2 )-Werte am Maximum der Daten in Abb. 5.6 zu finden. Den Startsimplex habe ich an eine zufällige Position gesetzt. Schauen wir uns die Zielfunktion an den Positionen des Startsimplex (Dreieck oben rechts) an, so können wir eine Rangliste der Positionen mit b, n, w machen (vgl. Tab. 5.3). Nun reflektieren wir den w-Punkt gemäß
5.2
Nicht-lineare Regression
169
r = p + (p − w) 5 = 3,5
(5.41)
wobei p = 1/2(b + n) ist. Die Zielfunktion an diesem Punkt ist gleich 47, also größer als bei b. Dementsprechend wird p − w gestreckt. Hierfür habe ich γ = 1,5 gewählt (vgl. Gl. 5.38). Dadurch erhält man die r-Koordinaten r = [6 3]. Bitte beachten Sie, dass ich hier zur nächstgelegenen x1 - bzw. x2 -Zahl aufrunde. Demnach ergibt sich der zweite Simplex gemäß Tab. 5.4. Wiederum reflektieren wir den w-Punkt und erhalten neue Koordinaten r = [9 3,5] mit einem Funktionswert f (r) = 0,0007. Wir sehen, dass f (w) ≤ f (r) ≤ f (n), daher wird die Reflexion nochmals gestaucht (vgl. Gl. 5.39). Hierfür habe ich γ = 0,49 genommen. Daraus entsteht ein neuer Punkt r = [7 3,5], an dem die Zielfunktion den Wert 47 hat. Der neue Simplex ergibt sich demnach gemäß Tab. 5.5. Die Tab. 5.6 und 5.7 zeigen die letzten beiden Simplizes. Versuchen Sie bitte, die Rechnung für sich noch einmal nachzuvollziehen. Anhand von Abb. 5.6 erkennen Sie, dass man beim fünften Simplex bereits auf dem Maximum von 1000 gelandet ist. Wir hatten ja gesehen, dass immer ausgehend vom schlechtesten Punkt w aus reflektiert wird. In der Praxis kann es bisweilen vorkommen, dass der Wert der Optimierungsfunktion bei dem resultierenden Punkt r wiederum der schlechteste im neuen Simplex ist. Beim nicht modifizierten Simplex würde das bedeuten, er wird wieder zurückreflektiert und wir erhalten wieder den Simplex wie den zuvor. Das geschieht dann immer so weiter, bis die maximale Anzahl Iterationen erreicht ist. Das wird in der Literatur als oszillatorischer Zustand bezeichnet, der Simplex hängt also fest. Wenn das weit weg vom Optimum passiert,
Abb. 5.6 Heat-map der Daten zur Erklärung des NelderMead-Simplex-Algorithmus. Die oben berechneten Simplexe sind hier als blaue Linien dargestellt, angefangen vom Startsimplex (rechts oben) bis zum Endsimplex (kleines Dreieck um die Zelle vom Maximalwert 1E+3)
x2 x1
0E+0 5E-1 1E+0 2E+0 2E+0 3E+0 3E+0 4E+0 4E+0 5E+0 5E+0
1E+0 2E-171E-152E-142E-135E-138E-135E-132E-132E-141E-152E-17 2E+0 7E-123E-10 5E-9 4E-8 1E-7 2E-7 1E-7 4E-8 5E-9 3E-107E-12 3E+0 1E-7 5E-6 9E-5 7E-4 2E-3 4E-3 2E-3 7E-4 9E-5 5E-6 1E-7 4E+0 1E-4 5E-3 9E-2 7E-1 3E+0 4E+0 3E+0 7E-1 9E-2 5E-3 1E-4 5E+0 7E-3 3E-1 6E+0 5E+1 2E+2 2E+2 2E+2 5E+1 6E+0 3E-1 7E-3 6E+0 3E-2 1E+0 2E+1 2E+2 7E+2 1E+3 7E+2 2E+2 2E+1 1E+0 3E-2 7E+0 7E-3 3E-1 6E+0 5E+1 2E+2 2E+2 2E+2 5E+1 6E+0 3E-1 7E-3 8E+0 1E-4 5E-3 9E-2 7E-1 3E+0 4E+0 3E+0 7E-1 9E-2 5E-3 1E-4 9E+0 1E-7 5E-6 9E-5 7E-4 2E-3 4E-3 2E-3 7E-4 9E-5 5E-6 1E-7 1E+1 7E-123E-10 5E-9 4E-8 1E-7 2E-7 1E-7 4E-8 5E-9 3E-107E-12
170
5 Lineare und nicht-lineare Regression
Tab. 5.3 Rangbildung für den Startsimplex x1
x2
Zielfunktion
Rang
2
4
5,3E-09
n
5
4,5
0,31733
b
2
5
6,7E-12
w
Tab. 5.4 Zweiter Simplex nach Reflexion und anschließender Streckung x1
x2
Zielfunktion
Rang
2
4
5,3E-09
w
5
4,5
0,31733
n
6
3
659
b
ist die Sache sehr unglücklich. Eine Lösung des Problems ist, dass in Fällen, in denen bei r wiederum der schlechteste Wert der Optimierungsfunktion vorliegt, im Folgenden nicht r reflektiert wird, sondern n. Oszillationen können auch beim modifizierten Simplex auftreten, sodass sich bspw. ein 2D-Simplex auf eine Linie zusammenzieht (vgl. auch [4]). Auch hier kann die genannte Regel angewandt werden. Eine andere Sache, die Sie womöglich in Ihre Betrachtung mit einbeziehen sollten, ist eine Limitierung des Experimentierraums. Wie soll man bspw. damit umgehen, wenn der Simplex außerhalb vom gegebenen (x1 , x2 )-Raum landet? Falls das Optimum in dem von Ihnen untersuchten Bereich liegt, können Sie entweder mit einem anderen Startsimplex anfangen und hoffen, dass die Simplex-Folge nicht außerhalb der Grenzen landet, oder den Simplex-Punkten, die außerhalb liegen, Phantomwerte zuordnen, die dazu führen, dass die außen liegenden Punkte schlecht dastehen und im darauffolgenden Schritt wieder reflektiert werden. Falls Ihr Simplex immer wieder an den Rändern oder sogar außerhalb davon hängen bleibt, könnte das auch bedeuten, dass Ihr Optimum vielleicht gar nicht in dem von Ihnen untersuchten Bereich liegt. In einem solchen Fall sollten Sie möglichst die Begrenzungen aufweiten. Die Simplex-Methoden haben das Problem, dass sie bei multimodalen Optimierungsfunktionen gerne mal auf lokale Extrema zusteuern und dort hängen bleiben kann. Ähnlich wie bei den Gradienten-basierten Methoden kann man natürlich versuchen, den Simplex an unterschiedlichen Stellen zu starten, aber das bedeutet nicht, dass das globale Optimum gefunden wird. Eine Alternative sind in solchen Fällen globale Optimierungsmethoden, von denen ich im Folgenden den genetischen Algorithmus vorstellen möchte. Nicht zuletzt deshalb, weil er auch im Excel-Solver als Lösungsmethode ausgewählt werden kann.
5.2
Nicht-lineare Regression
171
Tab. 5.5 Dritter Simplex nach Reflexion und anschließender Stauchung x1
x2
Zielfunktion
Rang
7
3,5
47
n
5
4,5
0,31733
w
6
3
659
b
x1
x2
Zielfunktion
Rang
7
3,5
47
w
7
3
164,3
n
6
3
659,2
b
Tab. 5.6 Vierter Simplex
Tab. 5.7 Fünfter Simplex x1
x2
Zielfunktion
Rang
6
2,5
1000
b
7
3
164,4
w
6
3
659,2
n
5.2.3
Genetische Algorithmen
Genetische Algorithmen stehen stellvertretend für eine Klasse von globalen Optimierungsalgorithmen, die sich auf Zufallsprinzipien stützen. Der genetische Algorithmus (GA) bspw. ist angelehnt an die Darwin’sche Evolutionstheorie, die mit dem Kernsatz „Survival of the fittest“ (frei übersetzt: „Überleben des am stärksten Angepassten“) zusammengefasst werden kann. In der Natur haben diejenigen Organismen die höchste Überlebenswahrscheinlichkeit, die am optimalsten an ihre Umgebung angepasst sind. Eine Anpassung geschieht rein zufällig durch Mutation von Genen, die ein Merkmal hervorruft, das dem Organismus einen gewissen Vorteil verschafft und somit seine Überlebenswahrscheinlichkeit erhöht. Ein sehr ähnliches Konzept wurde bei den evolutionären Algorithmen übernommen. Vorab kurz zur Begriffsklärung. Eine mögliche Lösung (ein Lösungsvektor) des Optimierungsproblems nennt man Chromosom. Die einzelnen Vektorelemente nennt man Gene. Wie im echten Leben kann sich die Information von Chromosomen vermischen (engl. crossover), oder aber Gene können (zufällig) mutieren. Gemäß dem Selektionsprinzip wird manche genetische Information verschwinden, manche erhalten bleiben und manche sogar hinzukommen. Wie wir weiter unten noch sehen werden, wird die Auswahl der Gewinner und Verlierer der Selektion probabilistisch getroffen. Die zugrunde liegenden Wahrscheinlichkeiten leiten sich dabei von der sogenannten Fitness ab. Machen wir gemeinsam mal einen Zyklus des GA anhand eines Beispiels durch.
172
5 Lineare und nicht-lineare Regression
Beispiel 5.3 Nehmen wir die Daten in Tab. 5.8, mit deren Hilfe wir die Parameter des linearen Regressionsmodells f (x) = b1 + b2 x (5.42) bestimmen wollen. Starten wir zunächst mit vier Chromosomen, deren zwei Gene jeweils rein zufällig erzeugt werden. Hierzu generieren wir in Excel jeweils vier zweidimensionale Zufallsvektoren. Das können Sie bspw. mit der Funktion ZUFALLSBEREICH machen. Jeder der vier Vektoren stellt einen Parametersatz in der Form [b1 b2 ] dar. Zu jedem dieser Parametersätze berechnen Sie die zugehörigen Modellwerte und vergleichen diese mit den experimentellen y-Werten, indem Sie die Fehlerquadratsumme SS E berechnen. Das ist die zu minimierende Funktion. Aus den Werten der Fehlerquadratsummen SS E i berechnen Sie die sogenannte Fitness Fi gemäß: Fi =
1 SS E i
(5.43)
Sie sehen, dass eine niedrige Fehlerquadratsumme zu einer hohen Fitness führt. Die Fehlerquadratsumme ist dann niedrig, wenn die Parameter bereits nah an den wahren Werten liegen. Wie wir gleich sehen werden, haben die entsprechenden Chromosomen eine höhere Wahrscheinlichkeit, selektiert und weitervererbt zu werden. Aus den Fi Werten werden nämlich Selektionswahrscheinlichkeiten berechnet: Fi Pi = Fi
(5.44)
i
Chromosomen, deren Parametersatz bzw. deren Gene zu einem kleinen SS E und entsprechend einer großen Fitness führen, haben demnach eine höhere Wahrscheinlichkeit, weiterzukommen als solche, die zu einem hohen SS E geführt haben (vgl. Tab. 5.9). Mit einem bestimmten Zufallszahlengenerators, den Sie in Excel unter Datenanalyse → Zufallszahlengenerierung finden, lassen mithilfe einer diskreten Verteilung Zahlen von 1 bis 4 aus den genannten Wahrscheinlichkeiten Pi und den Indizes (1, . . . , 4) der Chromosomen erzeugen. Der Zufallszahlengenerator berechnet dann intern die kumulative Verteilungsfunktion aus den Wahrscheinlichkeiten und gibt der Verteilung entsprechende Zufallszahlen bzw. Indizes in von Ihnen zuvor definierte Zellen aus (vgl. hierzu auch Abschn. 3.3). Es kann sein, dass manche der Indizes mehrfach vorkommen, d. h., Chromosomen können mehrfach ausgewählt werden, um weiterzukommen. Tab. 5.10 zeigt im linken Teil die Chromosomen, die weitergekommen sind.
5.2
Nicht-lineare Regression
173
Tab. 5.8 Beispieldaten zur Veranschaulichung des Genetischen Algorithmus x
0,25
0,50
0,75
y
154,89
192,11
252,81
Tab. 5.9 Erste Population von Chromosomen Chrom. Gen 1
Gen 2
SS E
Fitness
Selektionswahrsch. Selektionsindex
1
77
525
72.066
1,4E-05
0,848
1
2
409
551
720.260
1,4E-06
0,085
1
3
474
966
1.793.663
5,6E-07
0,034
1
4
604
745
1.846.934
5,4E-07
0,033
3
Summe:
4.432.926
Anschließend werden Chromosomen zufällig miteinander gekreuzt (engl. crossingover). Hierzu werden zunächst die Chromosomen bestimmt, die ihre Gene kreuzen (Elternchromosomen). Das geschieht, indem für jedes Chromosom eine Zufallszahl ri zwischen 0 bis 1 erzeugt wird und diejenigen ausgewählt werden, für die ri < ρc ist, wobei ρc der Kreuzungswahrscheinlichkeit entspricht (vgl. Tab. 5.10 rechter Teil). Alle Chromosomen, bei denen das zutrifft, kreuzen zufällig gewählte Gene miteinander, wodurch neue (Kinder-)Chromosomen entstehen. Welche Gene gekreuzt werden, bestimmt auch wiederum eine Zufallszahl. Ähnlich funktioniert das auch mit der Mutation. Für jedes Gen wird wiederum eine Zufallszahl zwischen 0–1 erzeugt. All diejenigen Gene, bei denen diese Zahl kleiner als die Mutationswahrscheinlichkeit ρm (auch Mutationsrate genannt) ist, werden mutiert (vgl. Tab. 5.11) und durch eine Zufallszahl im Bereich der vordefinierten Grenzen für die Parameter ersetzt. Dadurch wurde eine zweite Generation erzeugt, die gegenüber der ersten Generation zu einem kleineren Gesamtwert für die Zielfunktion führt (vgl. Tab. 5.12). Diese Prozedur wird für viele Generationen durchgeführt. Am Ende erhalten Sie dann Ihre optimierten Parameter [b0 b1 ] = [102,01 195,85]. Sie können das gerne mal mit der vorhandenen Excel-Solver-EA-Methode ausprobieren. Bitte beachten Sie, dass der Excel-Solver keinen genetischen Algorithmus im eigentlichen Sinne verwendet, sondern einen evolutionären Algorithmus. Hierbei fehlt es bspw. an der Kreuzung von Genen. Dementsprechend werden Sie einen unter den Solver-Optionen zur EA-Lösungsmethode die Kreuzungswahrscheinlichkeit vermissen. Bitte beachten Sie auch, dass Sie unter Nebenbedingungen obere und untere Grenzen für die Fitparameter einstellen sollten, sonst braucht der Solver ewig zum Auffinden der Lösung.
174
5 Lineare und nicht-lineare Regression
Tab. 5.10 Chromosomen nach der Selektion Chromosom Gen1
Gen2
Elternchromosom?
Zu kreuzendes Gen
1
77
525
Ja
2
2
77
525
Ja
3
77
525
Nein
–
4
474
966
Nein
–
Tab. 5.11 Chromosomen nach der Kreuzung Chromosom
Gen1
Gen2
Mutation Gen 1
Mutation Gen 2?
1
77
525
Nein
Nein
2
77
525
Nein
Nein
3
77
525
Nein
Nein
4
474
966
Nein
Ja
Tab. 5.12 Nach der Kreuzung und Mutation entsteht letztlich eine zweite Generation von Chromosomen Chromosom
Gen 1
Gen 2
SSE
1
77
525
72066,9536
2
77
525
720260,37
3
77
525
1793663,22
4
474
681
1162573,84
Summe:
3748564,39
Genetische Algorithmen suchen also ausgehend von einer gegebenen Population von n Chromosomen (in diesem Zusammenhang auch oft als Individuen bezeichnet) zufällig in allen Richtungen nach der Lösung. Sie wird mit höherer Wahrscheinlichkeit die globale Lösung sein als beim Gradienten- bzw. Simplex-Verfahren. Das erkaufen Sie sich jedoch mit einem erhöhten Rechenaufwand.
5.3
Regression mit Replikaten
In den Anwendungen sollten Sie Daten mehrfach reproduzieren. Das gilt natürlich ebenso für Daten, die gefittet werden sollen. Wenn Sie bspw. die Konzentration einer Farbstoffprobe aus einer linearen Kalibration mithilfe von bekannten Farbstoffkonzentrationen bestimmen wollen, dann sollten Sie dazu Mehrfachbestimmungen durchführen. Idealerweise haben
5.3
Regression mit Replikaten
175
Sie zu jeder Farbstoffkonzentration gleich mehrere voneinander unabhängiger Proben oder Replikate hergestellt6 . Bei der Auswertung der Daten kommt dann schnell die Frage auf, ob nun die Replikate bei den jeweiligen Konzentrationen zunächst gemittelt werden sollen, um anschließend die gemittelte Kurve zu fitten, oder ob die Replikate nicht gemittelt, sondern über alle (global) gefittet werden sollen. Meiner Erfahrung nach wissen viele nicht, wie Letzteres zu bewerkstelligen ist und weichen dann auf die erste Variante aus. Im genannten Beispiel sollte jedoch nicht gemittelt werden, denn durch das Mitteln verlieren Sie die Information über die Streuung zwischen den unabhängigen Replikaten und erhalten dadurch zu kleine Konfidenzintervalle für die Fitparameter. Die Werte der Fitparameter selbst bleiben davon jedoch unbeeinflusst. Ähnlich verhält es sich beim Glätten von Daten vor einer Regression. Das kann ich Ihnen nicht empfehlen. Das Problem beim Mitteln der Daten verschärft sich noch, wenn man bspw. bei einer Konzentration xi nur zwei Replikate bestimmt hat und bei einer anderen Konzentration xk vier. Durch das Mitteln erhalten die resultierenden Datenpunkte gleiches Gewicht bei der Regression, obwohl Letztere mehr Gewicht verdienen würden. Nicht-unabhängige Replikate bzw. Pseudoreplikate hätten Sie im obigen Beispiel dann vorliegen, wenn Sie ein und dieselbe Konzentration mehrfach messen, bspw. wenn Sie die Probe im Gerät stehen lassen und mehrfach hintereinander messen, oder wenn Sie eine Stammlösung auf mehrere Aliquots aufteilen und diese anschließend messen. In solchen Fällen enthalten die Replikate keine unabhängige Information und können getrost gemittelt werden. In Excel kann man relativ einfach global mit unabhängigen Replikaten fitten. Hierzu schreiben Sie die y-Werte der Replikate untereinander und wiederholen ggf. die zugehörigen x-Werte in der benachbarten Spalte. Dann berechnen Sie die Modellfunktion und danach die Fehlerquadratsumme zwischen den Modellwerten und y-Werte über alle Replikate. Die Fehlerquadratsumme wird anschließend mithilfe des Solvers minimiert unter Veränderung der Fitparameter. 5.4 Übung Fitten Sie die Daten mit unabhängigen Replikaten in Tab. 5.13 mit einem Geradenmodell unter Excel.
6 Unabhängige Replikate haben Sie bspw. dann, wenn Sie ein Experiment mehrfach und unabhängig von anderen Experimenten, wiederholen. Die Proben, die durch das Aufteilen einer Stammlösung auf mehrere Wells einer Mikrotiterplatte entstehen, zählen nicht als unabhängige Replikate. Um einen methodenbedingten Bias auszuschließen, sollten Sie sogar Ihre Proben mit einer weiteren Messmethode messen.
176
5 Lineare und nicht-lineare Regression
Tab. 5.13 Testdatensatz zum Fitten mit unabhängigen Replikaten unter Excel x
y1
y2
y3
y4
1,00
2,93
3,42
3,16
3,07
2,29
4,18
4,00
4,21
4,13
3,57
5,51
5,35
4,80
5,24
4,86
5,93
6,10
6,17
6,26
6,14
7,07
7,34
7,04
7,16
7,43
8,17
8,08
8,20
8,12
8,71
8,92
8,76
9,31
8,95
10,00
10,02
10,08
10,02
9,86
Schreiben Sie hierzu alle y-Werte in eine Spalte untereinander und wiederholen Sie die x-Werte jeweils entsprechend. Verwenden Sie bitte den Solver für die Berechnung der Fitparameter.
5.4
Globale Regression mit geteilten Parametern
In einigen Anwendungen kommt es vor, dass sich verschiedene Datensätze gemeinsame Fitparameter teilen und diese entsprechend global gefittet werden. Beispiele hierfür sind das Fitten von bindungskinetischen Kurven oder Dosis-Wirkungs-Kurven. Im letztgenannten Fall werden ein oder mehrere Fitparameter zwischen den Datensätzen einer Referenzsubstanz R und einer Testsubstanz T geteilt. Abb. 5.7 zeigt ein Beispiel für die Untersuchung einer Dosis-Wirkungs-Beziehung zweier Substanzen, deren Daten einen sigmoidalen Verlauf aufweisen. Beide Datensätze werden mit einem 4-Parameter-Modell der folgenden Form gefittet: f (x, bR ) = Bottom + f (x, bT ) = Bottom +
T op − Bottom
1 + 10−H ill Slope x−log EC50 T op − Bottom 1 + 10−H ill Slope
R
T x−log EC50
(5.45)
(5.46)
Hierbei werden zumeist der T op, Bottom und H ill Slope während der Fitprozedur zwischen den Parametern geteilt, und lediglich die log EC50 -Werte werden für jede Kurve separat gefittet. Ähnlich wie beim Fitten mit Replikaten empfehle ich Ihnen, hierzu alle Daten [y1R , . . . , y NR ] und [y1T , . . . , y NT ] untereinander in eine Spalte zu schreiben. Die hochgestellten R und T kennzeichnen hierbei jeweils die Referenz- bzw. die Testdaten. Die Modellfunktion Gl. 5.45 bzw. 5.46 können Sie in der Nachbarspalte berechnen. Sie sieht für y R und y T fast gleich aus. Lediglich die log EC50 -Werte sind unterschiedlich. Das bedeu-
Globale Regression mit geteilten Parametern
Abb. 5.7 Beim globalen Fitten von Dosis-Wirkungs-Kurven werden zwischen mindestens zwei Datensätzen bestimmte Fitparameter geteilt. In diesem Beispiel werden der untere Achsenabschnitt (Bottom), der obere Achsenabschnitt (Top) sowie die Steigung (HillSlope) zwischen den Datensätzen geteilt (siehe auch Gl. 5.45 bzw. 5.46). Lediglich der log EC50 -Wert ist für beide Kurven individuell
177
2,5 2 Wirkung
5.4
1,5 1 0,5 0 −7
−5
−3 log(Dosis)
−1
1
tet, Sie haben am Ende fünf Fitparameter. Nachdem Sie dafür entsprechende Startparameter vorgegeben haben und in einer separaten Zelle die Fehlerquadratsumme mithilfe der ExcelFunktion SUMMEXMY2 berechnet haben, können Sie mithilfe des Solvers die Parameter optimieren. In einem Video zeige ich Ihnen, wie Sie eine globale nicht-lineare Regression in Excel durchführen können. Rufen Sie dieses Video durch Scannen des QR-Codes (unten) auf.
5.5 Übung Fitten Sie die zwei Datensätze A und B in Tab. 5.14 global mit einem Geradenmodell. y A = b1 + b2 x
(5.47)
y B = b3 + b2 x
(5.48)
Teilen Sie hierzu die Steigung b2 zwischen den Datensätzen.
178
5 Lineare und nicht-lineare Regression
Tab. 5.14 Testdatensatz zum globalen Fitten unter Excel x
y1A
y2A
y3A
y4A
y1B
y2B
y3B
y4B
1,00
2,93
3,42
3,16
3,07
5,16
5,29
5,10
5,40
2,29
4,18
4,00
4,21
4,13
6,12
6,49
6,05
6,24
3,57
5,51
5,35
4,80
5,24
6,95
7,07
7,09
7,24
4,86
5,93
6,10
6,17
6,26
8,28
8,19
8,09
8,27
6,14
7,07
7,34
7,04
7,16
9,23
9,13
9,19
9,17
7,43
8,17
8,08
8,20
8,12
9,92
10,19
9,97
9,98
8,71
8,92
8,76
9,31
8,95
11,06
10,99
11,02
11,13
10,00
10,02
10,08
10,02
9,86
12,16
11,97
12,05
11,96
5.5
Gewichtete Regression
Bisher sind wir immer davon ausgegangen, dass jeder Punkt unserer experimentellen Daten gleichberechtigt in der Fitprozedur behandelt wird. In der Praxis ist es jedoch oft so, dass bspw. Messungen in einem bestimmten Bereich präziser sind als in einem anderen Bereich. Wenn Sie dann relativ große Bereiche bei Ihren Messungen abdecken (bspw. großer Konzentrationsbereich), dann werden Sie einige Punkte mit größerer Präzision bestimmen können als andere. Damit die unpräziseren Punkte nicht einen so starken Einfluss auf die Regression bekommen, mindern Sie diesen, indem die entsprechenden Punkte bei der Bildung der Fehlerquadratsumme ein kleineres Gewicht wi erhalten. SS E =
N
wi (yi − f (xi , b))2
(5.49)
i=1
Beim der Regression in Matrixform, wird aus Gl. 5.22 im gewichteten Fall dann entsprechend −1 XT Wy = b∗ XT WX
(5.50)
Hierbei ist W eine Diagonalmatrix mit entsprechenden Gewichten wi ’s auf der Diagonalen. b∗ kennzeichnet wiederum den Vektor der besten Fitparameter. Generell lohnt es sich dann, über eine Gewichtung nachzudenken, wenn bspw. die Residuen des ungewichteten Fits bei kleinen x-Werten weniger streuen als bei großen (vgl. Abb. 5.8b). Um in Excel eine √ gewichtete (nicht-lineare) Regression durchzuführen, multiplizieren Sie jeweils wi mit den yi -Werten und den f (xi , b)-Werten (Fitmodell-Werten). Sie skalieren dadurch sozusagen Ihre Werte mit den Gewichten. Dann berechnen Sie für diese Werte, nennen wir sie yw √ und f w (x, b), die Fehlerquadratsumme (wobei aus dem Faktor w durch die Quadrierung wieder w wird) und lassen den Solver die Parameter b bestimmen. In der Praxis tritt bisweilen der Fall auf, dass die Streuung der Datenpunkte, mit größer werdenden x-Werten,
5.6
Robuste Regression
179
auch größer wird (Abb. 5.8a). Dies führt dazu, dass eine der Grundvoraussetzungen der Regression verletzt wird, nämlich, dass die Streuung einheitlich über den gesamten Datenbereich verteilt sein soll. Nun ist es nicht so, dass Sie solche Daten nicht fitten können. Mittels Simulationen hat sich jedoch gezeigt, dass durch die Wahl der passenden Gewichtung eine bessere Präzision der Fitparameter und entsprechend engere Konfidenzintervalle erreicht werden können [5]. Wenn Sie die passende Gewichtung anwenden, überführen Sie die ursprünglich uneinheitlichen Residuen (siehe Abb. 5.8b) in einheitliche (siehe Abb. 5.8c). Hierfür habe ich im vorliegenden Fall die sogenannte relative Gewichtung verwendet. SS E =
N yi − f (xi , b) 2 f (xi , b)
(5.51)
i=1
Diese sollte dann angewendet werden, wenn zwar die absoluten Abstände der Daten von der Regressionkurve zunehmen, aber die relativen Abstände (yi − f (xi , b)) / f (xi , b) ungefähr gleich bleiben. Eine weitere (gängige) Art der Gewichtung erfolgt über die inverse Varianz wi = 1/σi2 . In der Regel wird hierbei die Varianz aus den Daten von vielen Replikaten gewonnen. Z. T. wird aber auch auf Varianzmodelle zurückgegriffen, die auf historischen Daten basieren. So etwas finden Sie z. T. bei der gewichteten Regression von DosisWirkungs-Kurven [6]. Es gibt natürlich noch weitere Arten, Daten zu gewichten, die aber in der Praxis relativ selten angewandt werden. Sie können auch Gewichte derart wählen, dass bestimmte Punkte so gut wie keinen Einfluss auf die Regression haben. Das spielt bei der robusten Regression eine entscheidende Rolle. 5.6 Übung: Führen Sie mit den Daten aus Tab. 5.15 eine gewichtete Regression durch. Die Messungen bei den verschiedenen Konzentrationen x wurden vierfach wiederholt. Gewichten Sie bei der Regression mit der Inversen der Varianz σ 2 , die sich sich im vorliegenden Fall wie folgt beschreiben lässt: σ 2 = 0,005 · y 2 (5.52) Verwenden Sie zum Fitten ein 4-Parameter-Modell der Form: y = A+
5.6
B−A 1 + 10−C·(x−D)
(5.53)
Robuste Regression
Da stark von der Modellfunktion abweichende Datenpunkte auch übermäßig stark in die Fehlerquadratsumme eingehen, wird sich bei der normalen Regression die Fitkurve stark in Richtung solcher Punkte neigen (vgl. Abb. 5.9). In der Praxis können Sie solchen Fällen bspw. dadurch begegnen, dass Sie, statt wie bei der Fehlerquadratsumme die Abweichungen
180
a 120 100
y
80 60 40 20 0
b Residuen
Abb. 5.8 Exemplarische Daten, bei denen die Streuung von kleinen nach großen x-Werten zunimmt (a). Entsprechend nehmen auch die Abstände der Datenpunkte von der Fitkurve zu (gestrichelte Linie in a), was gleichbedeutend mit einer Zunahme der Streuung der Fitresiduen ist (b). Durch eine passende Gewichtung erhalten sie einheitliche Residuen (c), sowie präzisere Fitparameter und Konfidenzintervalle (s. Text)
5 Lineare und nicht-lineare Regression
0
1
2 x
3
4
0
1
2
3
4
3
4
40 20 0 −20 −40
x
Gew. Residuen
c 0,5
C
0,3 0,1 −0,1 −0,3 −0,5
0
1
2 x
quadrieren, eine andere Potenz wie 1,5 oder 1 verwenden und somit bspw. die absoluten Abweichungen |yi − f (xi )| berechnen. Letztgenanntes ist unter dem Namen least absolute residuals (abgekürzt LAR) bekannt. Durch die entsprechende Wahl der Potenz der Abweichungen können Sie also ausreißerverdächtige Werte wesentlich weniger stark in die Regression mit eingehen lassen. Eine andere, weitverbreitete Methode ist die, dass Sie zunächst Ihre Daten mithilfe einer normalen Regression fitten und anschließend robuste Gewichte aus den Residuen berechnen, wobei diejenigen Punkte ein geringeres Gewicht erhalten, die große Residuenwerte aufweisen. Anschließend wird die Regression mit diesen Gewichten wiederholt und Sie erhalten eine robuste Fitkurve (vgl. Abb. 5.9). Es gibt verschiedene Gewichtsfunktionen, um solche Ausreißer zu bestrafen. Die bisquare-Funktion
5.6
Robuste Regression
181
Tab. 5.15 Dosis-Wirkungs-Daten zur gewichteten nicht-linearen Regression log(x)
y1
y2
y3
y4
−6
2,99
3,14
2,95
3,24
−5,79
3,00
3,00
2,92
3,03
−5,57
2,93
2,83
2,79
3,21
−5,36
2,92
2,96
2,52
3,27
−5,14
3,25
2,91
2,92
2,92
−4,93
3,26
3,11
3,56
3,03
−4,71
4,42
4,21
4,38
4,05
−4,50
6,53
6,80
7,21
6,20
−4,29
8,25
9,10
10,21
8,47
−4,07
10,32
8,54
10,27
7,94
−3,86
8,93
8,81
8,88
9,94
−3,64
11,50
9,15
8,83
9,56
−3,43
9,38
10,55
11,23
9,38
−3,21
10,40
11,39
10,46
10,56
−3,00
10,05
10,45
10,57
9,60
ist eine der am häufigsten verwendeten: 1− wi = 0
ri 2 6m
falls ri < 6 m sonst
(5.54)
hierbei kennzeichnet ri die Fitresiduen und m die mediane absolute Abweichung: m=
N 1 |xi − x| ˜ N
(5.55)
i=1
wobei x˜ den Median der Daten x darstellt. Er ist robuster gegenüber Ausreißern als der Mittelwert und wird deshalb in Gl. 5.55 bzw. 5.54 verwendet. Zur Veranschaulichung der Wirkung einer solchen Gewichtung (Gl. 5.54) sind in Abb. 5.9 zwei Regressiongeraden dargestellt, wobei die gestrichelte schwarze Linie aus einer ungewichteten Regression und die blaue durchgängige Linie aus eine robusten Regression hervorgegangen sind. Es ist klar zu erkennen, wie stark die Regressionsgerade bei Nicht-Gewichtung, also im nicht-robusten Fall, in Richtung des Ausreißers (zweiter Datenpunkt von rechts) verzerrt wird. Seien Sie bitte vorsichtig bei der Verwendung der robusten Regression und wenden Sie sie nicht standardmäßig an. Wenn Sie pro Punkt mehrere Replikate gemessen haben, machen Sie zunächst einen Ausreißer-Test (siehe Abschn. 3.4.1.6). Wenn dieser Punkt dann immer noch stark von der ungewichteten Regressionskurve abweicht, überlegen Sie, warum dieser so stark von
182
5 Lineare und nicht-lineare Regression
Abb. 5.9 Vergleich der robusten Regression mittels bisquare-Gewichtung (durchgezogene Linie) gegenüber der nicht-robusten Regression (gestrichelte schwarze Linie). Im letzten Fall geht der Ausreißer (Quadrat) stark in die Regression ein, wodurch die entsprechende Fitkurve stark in dessen Richtung verschoben wird
7000
y
5000
3000
0,2
0,4
0,6
0,8 x
1
1,2
1,4
Tab. 5.16 Daten zur robusten Regression x
0,1
0,3
0,5
0,7
0,9
1,2
1,5
y
1485
2325
2219
3355
3699
6998
4800
der Kurve abweicht. Wenn Sie dann im Nachhinein feststellen, dass Sie bspw. hier falsch pipettiert haben, dann können Sie diesen Punkt auch guten Gewissens rausnehmen. Falls Sie keine Replikate gemessen haben (aus welchen Gründen auch immer), dann könnte die robuste Regression interessant sein, falls Sie das Gefühl haben, ein oder mehrere Punkte würden stark vom eigentlichen Verlauf abweichen. 5.7 Übung Führen Sie eine robuste lineare Regression mittels least absolute residuals (LAR) durch. Verwenden Sie hierfür die Daten aus Tab. 5.16 und den Solver in Excel. Statt die Fehlerquadratsumme zu minimieren, minimieren Sie hierbei die absoluten Residuen.
5.7
Beurteilung von Regressionsergebnissen/-analysen
5.7.1
Gütemaße der Regression
5.7.1.1 Regressions-Statistiken Residuen Die Residuen E E i = yi − f (xi , b)
(5.56)
5.7
Beurteilung von Regressionsergebnissen/-analysen
183
entsprechen den (vertikalen) Abweichungen zwischen den Werten der Daten yi und der Modellfunktion f (xi , b) (Regressionskurve). Dazu müssen Sie lediglich die Daten der Fitkurve f (xi , b) von den zugehörigen experimentellen Datenpunkten yi abziehen. Bei der visuellen Betrachtung der Residuen sollten Sie v. a. Dingen auf folgende Punkte achten • Die Residuen sollten gleichmäßig um null verteilt sein und keinerlei Trend bzw. Korrelationen zeigen. • Die Residuen sollten normalverteilt sein. • Die Streuung der Residuen sollte homogen sein. Im ersten Fall sollten Sie überprüfen, ob Sie nicht Ausreißer in Ihren Daten haben, oder ob Ihr Fitmodell geeignet ist (vgl. Abb. 5.10a). Auf Normalität der Residuen können Sie mithilfe einer der in Abschn. 3.4.1.5 beschriebenen Methoden überprüfen. Sie können auch einen Hypothesentest verwenden (vgl. Abschn. 3.4). Wenn Ihnen bereits bei den Daten auffällt, dass die Streuung mit zunehmenden x-Werten immer größer wird, dann wird sich das in den Residuen widerspiegeln und Sie haben einen Widerspruch zum dritten Punkt. In diesem Falle sollten Sie über eine passende Gewichtung nachdenken (vgl. Abschn. 5.5). Reststreuung Die Reststreuung (engl. root mean squared error)
Residuen
b Residuen
a
0
x
0
x
Abb. 5.10 Ein systematischer Trend (angedeutet mit blauen Pfeilen) innerhalb der Residuen kann für Ausreißer innerhalb der Daten oder für ein falsches Fitmodell sprechen (a). Bei einer Zunahme der Streuung der Residuen mit zunehmenden x-Werten (durch gestrichelte Pfeile angedeutet) sollten Sie über eine gewichtete Regression (vgl.. Abschn. 5.5) nachdenken (b)
184
5 Lineare und nicht-lineare Regression
N 1 sR = S E i2 m
(5.57)
i=1
entspricht der Wurzel der mittleren Fehlerquadrate. m entspricht hierbei der Anzahl Freiheitsgrade und ist gleich der Anzahl Datenpunkte minus der Anzahl Fitparameter. Die Reststreuung können Sie demnach erst dann berechnen, wenn Sie mindestens einen Datenpunkt mehr haben, als Sie Fitparameter haben. Und auch erst dann können Sie entsprechende Fehlerstatistiken für die Regression berechnen (Konfidenzintervalle, etc.). Bitte beachten Sie, dass die Reststreuung sehr häufig als Standardfehler der Regression bezeichnet wird. Dieser ist neben dem R 2 ein weiterer häufig von Statistik-Programmen ausgegebener Wert zur Güte der Regression. Bestimmtheitsmaß Das Bestimmtheitsmaß
N
R2 = 1 −
( f (xi , b) − yi )2
i=1 N
(5.58) (yi − y¯ )2
i=1
ist das mit Abstand am häufigsten verwendete Gütemaß für die Regression. Je näher die Datenpunkte und die Regressionskurve zusammenliegen, umso kleiner ist der Zähler in Gl. 5.58 und umso näher liegt R 2 bei 1. Umgekehrt, je weiter Regressionskurve und Datenpunkte voneinander entfernt liegen, desto näher liegt R 2 bei 0. Diese Aussage gilt streng genommen nur für lineare Modelle, für die das R 2 den Anteil der Streuung beschreibt, der durch das Modell f (xi , b) erklärt wird. Schauen wir uns die Bestandteile von Gl. 5.58 noch einmal etwas genauer an. Der Nenner entspricht der Fehlerquadratsumme der Daten um den Mittelwert, also der Summe der quadrierten Abstände der Daten von einer gedachten Mittelwertslinie7 y¯ und damit der Gesamtstreuung SST der Daten (vgl. Abb. 5.11). Diese lässt sich, wie bei der ANOVA (vgl. Abschn. 3.4.1.7) zerlegen, und zwar in einen Anteil der Streuung, der durch das Modell f (xi , b) beschrieben wird, oft mit SS Reg bezeichnet, und einen Anteil, der nicht durch das Modell beschrieben wird. Letzteres entspricht der Summe der quadrierten Residuen und wird häufig mit SS Res bezeichnet. Nach dem Gesagten gilt: SST = SS Reg + SS Res
(5.59)
Damit können wir Gl. 5.58 auch noch etwas anders schreiben:
7 Als kleine Nebenbemerkung: Wenn Sie diese Fehlerquadratsumme durch n − 1 teilen, haben Sie
die Varianz Ihrer Daten berechnet.
Beurteilung von Regressionsergebnissen/-analysen
Abb. 5.11 Die Summe der quadrierten Abstände der Datenpunkte von der Mittelwertslinie (strichpunktierte Linie) entspricht der Streuung der Daten SST . Sie ergibt sich als die Summe der quadrierten Abstände SS Reg zwischen der Mittelwertslinie und der Modelllinie (durchgezogene von links nach rechts ansteigende Linie) und der Summe der quadrierten Abstände SS Res zwischen Modelllinie und Datenpunkte (Residuen)
185
6 5,5 5 y
5.7
4,5 4 3,5 3 1
1,5
R2 = 1 −
SS Res SST
=
2
2,5
3 x
3,5
4
SS Reg SST
4,5
5
(5.60)
Anhand der letzten Zeile von Gl. 5.60 erkennt man nun, dass R 2 demjenigen Anteil der Streuung an der Gesamtstreuung entspricht, der durch das Modell beschrieben wird. Es kann sogar vorkommen, dass R 2 negativ wird, weil SS Res in Gl. 5.60 größer wird als die Streuung um die Mittelwertslinie SST . Das kann bspw. dann passieren, wenn man Parameter im Modell auf unsinnigen Werten festhält oder auf einen unsinnigen Bereich einschränkt. Leider ist Gl. 5.58 nur eine von mehreren in der Literatur beschriebenen Formeln zur Berechnung des Bestimmtheitsmaßes [7]. Alle diese Formeln liefern bei einer linearen Regression denselben Wert. Bei einer nicht-linearen Regression jedoch leider nicht [8]. Obwohl R 2 von vielen statistischen Softwarepaketen auch für nicht-lineare Modelle dokumentiert wird, warnen Statistiker davor, Schlüsse aus dem R 2 bei nicht-linearen Modellen zu ziehen [7]. Das Bestimmtheitsmaß lässt sich in Excel übrigens mithilfe der Funktion BESTIMMTHEITSMASS sehr leicht berechnen. Adjustiertes Bestimmtheitsmaß Das adjustierte Bestimmtheitsmaß (auch korrigiertes Bestimmtheitsmaß genannt) 2 Rad j =1−
N −1 1 − R2 m
(5.61)
trägt dem Umstand Rechnung, dass das Bestimmtheitsmaß mit der Komplexität des Fitmodells größer wird (Anzahl Parameter nimmt zu). Ein quadratisches Modell wird bspw. 2 wird die Zunahme in aller Regel ein größeres R 2 liefern als ein lineares Modell. Bei Rad j
186
5 Lineare und nicht-lineare Regression
der Komplexität des Fitmodells mithilfe des Quotienten Nm−1 bestraft, da in diesem Fall die Anzahl Freiheitsgrade m = N − p ( p: Anzahl Fitparameter) kleiner wird, wodurch 2 kleiner als R 2 und sogar wiederum Nm−1 1 − R 2 größer wird. Dies führt dazu, dass Rad j negativ werden kann. Das erscheint zunächst widersprüchlich, denn wie kann eine quadrierte 2 ist lediglich eine Bezeichnung und nicht Variable negativ werden? Nun, kann sie nicht, Rad j wirklich eine quadrierte Zahl. Das Quadrat im Namen soll lediglich die Verbindung zum R 2 herstellen. F-Wert Bei der linearen Regression wird häufig ein F-Wert berechnet, anhand dessen überprüft werden kann, ob die Daten das Fitten mit einem nicht-konstanten linearen Modell zulassen oder nicht, sprich, ob die Steigung null ist oder nicht. Im Prinzip handelt es sich hierbei um einen (Fit-)Modellvergleich, auf den wir in Abschn. 5.7.2 noch genauer eingehen werden. Hier nur so viel, je größer der F-Wert (je weiter er von 1 weg ist), desto eher können Sie das komplexere Fitmodell (also mit Steigung ungleich null) akzeptieren. Aus dem F-Wert und den Freiheitsgraden des komplexeren Modells sowie der Differenz der Freiheitsgrade des einfachen und komplexen Modells können Sie mithilfe der Funktion F.VERT den zugehörigen p-Wert ausrechnen (vgl. hierzu Abschn. 3.4). Hier gilt umgekehrt, je kleiner p ist, desto eher können Sie das komplexere Modell akzeptieren. Ab wann Sie dies akzeptieren, legen Sie vorher durch ein Signifikanzniveau α fest, was häufig gleich 0,05 gesetzt wird.
5.7.1.2 Güte der Fitparameter Die im vorigen Abschnitt besprochenen Regressionsstatistiken können Ihnen zwar etwas über die Güte des Fits aussagen, also wie gut oder schlecht lässt sich das Fitmodell an die Daten anpassen, aber welche Fitparameter dazu den entscheidenden Beitrag geleistet haben, lässt sich damit zunächst nicht sagen. Bisweilen kommt es vor, dass bspw. ein oder mehrere Fitparameter kaum einen Einfluss auf den Fit haben. Solche Fitparameter kann man dann in einem relativ breiten Bereich variieren, ohne dass dadurch der Fit merklich anders aussieht. Wenn Sie bspw. lineare Daten mit einer quadratischen Funktion der Form f (x) = b1 + b2 x + b3 x 2 fitten, dann werden Sie feststellen, dass b3 sehr klein sein wird. Selbst wenn Sie diesen um 200 % ändern (nach oben oder unten ist egal), werden Sie annähernd den gleichen Fit herausbekommen. Solche Fitparameter haben einen großen Standardfehler und sehr breite Konfidenzintervalle8 . Solche Fitparameter sind redundant. Ein anderes (überspitztes) Beispiel für redundante Fitparameter findet sich bspw. in der Modellfunktion F(x) = b1 + (b2 + b3 )x. Wenn Sie versuchen würden, dieses Modell an (lineare) Beispieldaten zu fitten, dann werden Sie zwar Werte für alle Fitparameter erhalten und das R 2 würde ggf. auch sehr gut aussehen, aber der Standardfehler und entsprechend die Konfidenzintervalle der beiden Fitparameter b2 und b3 werden sehr breit sind. Das liegt daran, dass es unendlich viele Kombinationen der beiden Parameter gibt, die zur wahren Steigung, nennen wir sie 8 Auf beides wollen wir im Abschn. 5.7.1.3 näher eingehen.
5.7
Beurteilung von Regressionsergebnissen/-analysen
187
b˜2 , führen würden. Wenn b˜2 bspw. gleich 4 wäre, dann würde die Kombination b2 = 2 und b3 = 2 zur gewünschten Steigung führen, aber auch die Kombination b2 = 1 und b3 = 3. Es gibt also unendlich viele Kombinationen der beiden Fitparameter, die zu einem guten Fit führen. Einen ähnlich gelagerten Fall aus der Praxis gibt es bspw. bei der Regression von Assoziationskinetikkurven, die mit dem Modell f (t) = Y 1 − exp(−(kon c + ko f f )t) gefittet werden. c ist hierbei die Konzentration des Ligands, der an einen Rezeptor bindet. kon und ko f f sind dessen Assoziations- bzw. Dissoziationsrate. Y ist das Plateau, auf das die Kurve asymptotisch zuläuft. Für eine gegebene Konzentration c haben wir das o. g. Problem, und der Pharmakologe kann die interessanten Fitparameter kon und ko f f nicht bestimmen. Will er diese dennoch bestimmen, so muss er die Assoziationskinetikkurven bei verschiedenen Ligandenkonzentrationen aufnehmen und die resultierenden Kurven global fitten, indem kon und ko f f zwischen den Datensätzen geteilt werden. Wenn er das so macht, dann gibt es eben nicht mehr unendlich viele Kombinationen, die zu einem guten Gesamtfit der Daten führen, Sie haben nämlich nun im Prinzip eine dreidimensionale Funktion, die sowohl von t, als auch von c abhängt. An dieser Stelle möchte ich Ihnen eine Möglichkeit aufzeigen, wie Sie die Signifikanz von Fitparametern überprüfen können. Wenn Sie die Standardfehler sbi der Fitparameter bi kennen, dann können Sie deren Signifikanz jeweils mithilfe eines t-Tests überprüfen (vgl. hierzu Abschn. 3.4.1.2). Hierzu berechnen Sie den T -Wert gemäß nachfolgender Gleichung: Ti =
bi sbi
(5.62)
Diesem stellen Sie den kritischen t-Wert gegenüber, einem 1 − α-Quantil der Student-tVerteilung (vgl. Abschn. 3.2.6), das Sie in Excel mithilfe der Funktion T.INV berechnen können. α ist ein vorab festzulegendes Signifikanzniveau (häufig ist α = 0,05). Für ein beliebiges bi ist Ti v. a. dann klein, wenn sbi groß ist. Falls T > t, dann ist der Parameter signifikant. Alternativ können Sie aus dem T -Wert den zugehörigen p-Wert mithilfe der Funktion T.VERT berechnen. Falls nun p < α, so ist der Fitparameter signifikant. Wir werden die Signifikanzüberprüfung der Fitparameter anhand von Beispielen in Kap. 7 noch weiter kennenlernen. 5.8 Übung: Berechnen Sie die in diesem und vorherigem Abschnitt erwähnten Gütemaße der Regression, indem Sie die Daten in Tab. 5.1 mit dem Regressionswerkzeug in Excel fitten. Dieses finden Sie unter Daten → Datenanalyse → Regression.
5.7.1.3 Asymptotische Konfidenzintervalle Zur Berechnung der Fehler- oder Konfidenzintervalle der Fitparameter brauchen Sie zunächst −1 und die Reststreuung s R (vgl. die Jacobi-Matrix J bzw. deren Pseudoinverse JT J Gl. 5.57). Daraus errechnet sich dann die Kovarianzmatrix C zu:
188
5 Lineare und nicht-lineare Regression
−1 C = s 2R JT J
(5.63)
Für lineare Modelle (linear im Sinne von linear in den Fitparametern) haben Sie gesehen, wie Sie die Jacobi-Matrix einfach hinschreiben können. Beim Fitten nicht-linearer Modelle mithilfe des Solvers haben Sie keinen Zugriff auf die Jacobi-Matrix. Sie können diese jedoch im Nachhinein nochmals berechnen. Dazu müssen Sie die partiellen Ableitungen des Fitmodells nach den Fitparametern numerisch berechnen (vgl. Abschn. 1.4), nachdem die Parameter bereits optimiert wurden (mehr dazu in Übung 5.9). Der Standardfehler S E des Fitparameters bi entspricht jeweils der Wurzel des jeweiligen Diagonalelements der Kovarianzmatrix S E(bi ) = Cii (5.64) Der Standardfehler für die Fitparameter ist gleichzusetzen mit deren Standardabweichungen. Aus dem Standardfehler können Sie relativ einfach das Konfidenzintervall berechnen, in dem der Wert des ermittelten Fitparameters mit einer vorgegebenen Wahrscheinlichkeit 1−α liegt (wobei α, wie wir das auch von den Hypothesentests (Abschn. 3.4) kennen, typischerweise zu 0,05 gesetzt wird). [bi − t(1 − α/2, N − m) · S E, bi + t(1 − α/2, N − m) · S E]
(5.65)
hierbei ist N wiederum die Anzahl Datenpunkte, m die Anzahl Fitparameter und t(1 − α/2, N − m) das t-Quantil der Student-t-Verteilung bei einem Signifikanzniveau von α = 0,05 (Näheres hierzu siehe Abschn. 3.2.6). Der Wert lässt sich mithilfe der ExcelFunktion T.INV berechnen9 . Bitte beachten Sie, dass es sich in Gl. 5.65 um den zweiseitigen t-Wert handelt (siehe auch Abschn. 3.4.1.1). Bei der linearen Regression lassen sich die Standardfehler des Achsenabschnittes sb1 und der Steigung sb2 analytisch berechnen: N xi2 i=1 (5.66) sb1 = s R N 2 N ¯ (xi − x) i=1
sb2
= sR N
1
(5.67)
¯ 2 (xi − x)
i=1
daraus berechnen sich gemäß Gl. 5.65 die zugehörigen Vertrauensintervalle C I (engl. confidence interval) zu: 9 Manchmal werden Sie statt t(1 − α/2, N − m) · S E auch √ F(1 − α, 1, N − m) · S E finden, wobei
F(1 − α, 1, N − m) der Wert der F-Verteilung mit 1 und N − M Freiheitsgraden ist und in Excel mithilfe der Funktion F.INV berechnet werden kann. Letztlich führt das zu ein und demselben √ Ergebnis, da F(1 − α, 1, N − m) = t(1 − α/2, N − m) ist (vgl. auch Abschn. 3.2).
5.7
und
Beurteilung von Regressionsergebnissen/-analysen
189
C Ib1 = b1 − t(1 − α/2, N − 2)sb1 , b1 + t(1 − α/2, N − 2)sb1
(5.68)
C Ib2 = b2 − t(1 − α/2, N − 2)sb2 , b2 + t(1 − α/2, N − 2)sb2
(5.69)
Für die lineare Regression können Sie in Excel auch die Funktion RGP verwenden, um Zugang zu den Standardfehlern und weiteren Regressionsstatistiken zu bekommen, oder Sie verwenden direkt die Analyse-Funktion Regression unter Daten → Datenanalyse. Konfidenz- und Prognosebänder Neben den Konfidenzintervallen für die Parameter können Sie sich in vielen Softwarepaketen zur Datenanalyse auch die Konfidenzbänder und Prognosebänder im Diagramm mit den Datenpunkten und der jeweiligen Fitkurve anschauen. Diese beiden Bänder liegen symmetrisch zur Fitkurve, wobei die Konfidenzbänder diese etwas näher umschließen als die Prognosebänder. Das liegt daran, dass sich die Konfidenzbänder rein auf das Fitmodell beziehen. Sie umschließen die Fläche, in der mit bspw. 95 % Wahrscheinlichkeit (je nach gewähltem Signifikanznniveau α) die wahre Fitkurve liegt. Die Prognosebänder hingegen beziehen die Streuung der Daten mit ein und umschließen die Fläche, in der man bspw. 95 % aller Datenpunkte erwarten sollte. Die Konfidenzbänder können Sie mithilfe von Gl. 5.70 berechnen. yKB (x0 ) = ±t(1 − α/2, N − m) x0 Cx0T (5.70) T −1 T 2 = ±t(1 − α/2, N − m) s R x0 J J x0 Die Prognosebänder mit Gl. 5.71 yPB (x0 ) = ±t(1 − α/2, N − m) x0 Cx0T + s 2R −1 T = ±t(1 − α/2, N − m) s 2R 1 + x0 JT J x0
(5.71)
Hierbei ist s 2R die mittlere Fehlerquadratsumme bzw. die quadrierte Reststreuung (siehe auch Gl. 5.57), x0 eine Zeile der Jacobi-Matrix für ein gegebenes x0 und C die zuvor erwähnte Kovarianzmatrix. Sie sehen also, dass die Prognosebänder (Gl. 5.70) mit s 2R die Streuung der Daten um die Fitkurve mit einbeziehen und somit breiter ausfallen als die Konfidenzbänder, die das nicht tun (siehe auch Abb. 5.12). 5.9 Übung: Berechnen Sie die Konfidenzintervalle der Fitparameter b1 , b2 aus Übung 5.2 bzw. Übung 5.3. Berechnen Sie hierzu die Kovarianzmatrix, daraus die Standardfehler der Fitparameter und die zugehörigen Konfidenzintervalle.
190
5 Lineare und nicht-lineare Regression
Abb. 5.12 Konfidenzbänder (gestrichelt) umschließen den Bereich, in dem zu 100∗ (1 − α) -% Wahrscheinlichkeit (z. B. 95 %) die wahre Fitkurve zu finden sein sollte. Die Prognosebänder hingegen (gepunktet) umschließen den Bereich, in dem 100∗ (1 − α)-% der Datenpunkte zu finden sein sollten. Da Prognosebänder zusätzlich die Streuung innerhalb der Daten mit berücksichtigen, sind sie breiter als die Konfidenzbänder
6000 5000
y
4000 3000 2000 1000 0
0
0,4
0,8 x
1,2
1,6
5.7.1.4 Modellbasierte Konfidenzintervalle Die Berechnung asymptotischer Konfidenzintervalle ist die in der Praxis am häufigsten verwendete Methode. Man findet sie standardmäßig in vielen Softwarepaketen zur Datenanalyse. Im Folgenden möchte ich Ihnen eine zweite Methode vorstellen, bei der Sie nicht die Jacobi-Matrix berechnen brauchen, sondern lediglich den Solver verwenden. Die so erhaltenen Konfidenzintervalle, auch modellbasierte Konfidenzintervalle genannt, werden mithilfe eines F-Tests berechnet, weshalb man die Methode z. T. auch F-Test Methode nennt. Zur Erläuterung dieser Methode, greife ich auf die Daten in Tab. 5.17 zurück. Diese Daten können Sie mit einem nicht-linearen Modell fitten: f (x) = b1 + b2 exp(−b3 x)
(5.72)
Hierzu verwenden Sie wiederum den Solver unter Excel. Tragen Sie neben den o. g. Daten in drei weitere Zellen Startwerte für die Fitparameter ein. Anschließend berechnen Sie damit die Modellfunktion f (x) aus Gl. 5.72. Bitte beachten Sie, dass Sie die Startparameter gründlich auswählen. Für alle bi einfach eins einzusetzen wird nicht funktionieren. Stellen Sie die Daten aus Tab. 5.17 und die Werte der Modellfunktion in einem Diagramm grafisch dar, und Sie können direkt den Einfluss der Änderung der Startparameter auf diese beobachten. Die zu minimierende Funktion ist wiederum die Fehlerquadratsumme (SS E), die Sie in Excel sehr einfach mithilfe der Funktion SUMMEXMY2 berechnen können. An diese Funktion werden jeweils die experimentellen y-Werte, wie auch die Werte der Modellfunktion übergeben.
Tab. 5.17 Beispieldaten zur Bestimmung modellbasierter Konfidenzintervalle x
25
50
75
100
125
150
175
200
225
250
275
300
y
643,4 496,0 333,4 256,5 163,9 181,5 109,7 105,1 157,2 115,8 117,8 81,7
5.7
Beurteilung von Regressionsergebnissen/-analysen
191
Mit dem Solver können Sie nun die Fehlerquadratsumme minimieren unter Variation der Fitparameter. Der Solver sollte bei Ihnen die Lösungen b1 = 95,24, b2 = 861,0 und b3 = 0,017 finden und somit ein minimales SS E von 6560,3 erhalten. Wenn Sie nun einen der Fitparameter von seinem optimalen Wert wegbewegen, dann sehen Sie, dass der SS EWert größer wird, selbst wenn sie anschließend die beiden anderen Parameter mittels Solver wieder optimieren. Probieren Sie verschiedene Werte für b1 oberhalb und unterhalb des besten Fit-Wertes aus und optimieren Sie jedes Mal wieder b2 und b3 mit dem Solver. Als Daumenregel kann man die Werte derart ändern, bis der erhaltene SS E mehr als viermal so groß ist wie am Minimum [9]. Notieren Sie dabei den fixierten Fitparameter und den SS E nach der Optimierung. Wenn Sie anschließend beides in einem Diagramm gegeneinander auftragen, erhalten Sie eine Kurve, die ihr Minimum bei b1 = 95,24 hat und relativ steil zu beiden Seiten nach oben geht. Ähnlich sieht das für die beiden anderen Fitparameter b2 und b3 aus (siehe Abb. 5.13). Die Kurve sieht beinahe parabelförmig aus, ist aber im Allgemeinen unsymmetrisch. Je nach Regressionsproblem kann es passieren, dass sie gar kein klares Minimum aufweist. Mithilfe solcher Kurven können Sie nun die Konfidenzintervalle des jeweiligen Parameters abschätzen. Dazu wird ein F-Test, basierend auf den Fehlerquadratsummen des Modells mit drei freien Fitparametern SS E 3P und den Fehlerquadratsummen des Modells mit zwei frei variierenden Fitparametern, SS E 2P , durchgeführt (siehe Abschn. 5.7.2.1 für mehr Details). f =
SS E 2P −SS E 3P d f 2P −d f 3P SS E 3P d f 3P
SS E 2P − SS E 3P N − P = 1 SS E 3P
(5.73)
Hierbei ist N die Anzahl Datenpunkte, P die Anzahl Fitparameter, d f 2P = 1, und d f 3P = N − P sind jeweils die Freiheitsgrade des Fitmodells mit zwei bzw. drei zu verändernden Variablen. f ist eine Variable, die einer F-Verteilung folgt. Dem gegenüber steht die theoretische F-Variable, die Sie mithilfe der Funktion F.INV(0,95;1;9)= F(1 − α, 1, N − P) berechnen. α bezeichnet das Signifikanzniveau, auf dem dieser Test durchgeführt wird. Bei α = 0,05 schließt man 1 − α = 95 % der Werte unterhalb der F-Verteilung ein (mehr dazu finden Sie im Abschn. 3.4 und 5.7.2). Um nun das 95 %-Konfidenzintervall für den Parameter b1 zu bestimmen, suchen Sie diejenige Fehlerquadratsumme SS E 2P in Gl. 5.73, für die f = F ist, also f =
SS E 2P − SS E 3P N − P = F(1 − α, 1, N − P) 1 SS E 3P
Gl. 5.74 nach SS E 2P umgestellt ergibt dann: F(1 − α, 1, N − P) +1 SS E 2P = SS E 3P N−P
(5.74)
(5.75)
192
a
18000
SSE
14000
10000
6000
b1 (min) 20
40
b1 (max) 60
80
100 120 140 160 b1
b 22000 18000 SSE
Abb. 5.13 Zur Bestimmung von Modell-basierten Konfidenzintervallen der Fitparameter b1 (a), b2 (b) und b3 (c). Für jeden Fitparameter wird die Kurve der Fehlerquadratsumme (SSE) in der Nähe des optimalen Wertes (am Minimum) berechnet. Anschließend wird ein Grenzwert bestimmt (hier bei 10.291), mit dessen Hilfe der obere und untere des jeweiligen Konfidenzintervalls bestimmt werden kann. Dazu schlagen Sie jeweils das Lot von der Kurve auf die Achse des jeweiligen Fitparameters und erhalten somit dessen Konfidenzintervall [b j (min), b j (max)]. Die vertikalen orangenen Linien zeigen hier jeweils die 95 %-Konfidenzintervalle
5 Lineare und nicht-lineare Regression
14000 10000 b2 (min) 6000 600
c
b2 (max) 800
b2
1000
1200
22000
SSE
18000 14000 10000 6000 0,005
b3 (min)
b3 (max) 0,015
0,025 b3
Mit diesem Wert gehen Sie bspw. in Ihr SS E versus b j -Diagramm und schlagen bei dem errechneten SS E 2P -Wert das Lot auf die b j -Achse (vgl. Abb. 5.13). Sie erhalten dadurch zwei Werte, die der unteren und oberen Grenze Ihres Konfidenzintervalls [b j (min), b j (max)] entsprechen. Wie Sie anhand von Abb. 5.13 sehen, sind die so errechneten Konfidenzintervalle im Allgemeinen unsymmetrisch, da die SSE-Hyperflächen für nicht-lineare Modelle nicht symmetrisch am Mimimum sind, während das bei der linearen
5.7
Beurteilung von Regressionsergebnissen/-analysen
193
Regression der Fall ist. Hierbei haben Sie außerdem nur ein Minimum, während Sie bei der nicht-linearen Regression in aller Regel weitere (lokale) Minima haben [3].
5.7.1.5 Konfidenzintervalle mittels Monte-Carlo-Simulation Hier werde ich Ihnen zeigen, wie Sie mithilfe von Monte-Carlo-Simulationen Konfidenzintervalle für die Fitparameter in Excel berechnen können. Wie der Name der Methode bereits andeutet, werden hierbei viele neue Datensätze mithilfe der Fitkurve, der Reststreuung und davon abgeleiteter statistischer Schwankungen erzeugt. Der Ablauf sieht wie folgt aus: 1. Führen Sie eine eine nicht-lineare Regression mit Ihren Daten durch. Dazu minimieren Sie, wie oben gezeigt, die Fehlerquadratsumme SS E mit dem Solver und erhalten dadurch die Fitparameter b1 , . . . , bn und Fitkurve y f it . 2. Auf Basis der Fitkurve und der Reststreuung s 2R = SS E/d f , berechnen Sie viele neue Datensätze (z. B. 1000) mit normalverteilten Fehlern. Dazu addieren Sie in Excel zu jedem y-Wert der Fitkurve y f it , eine normalverteilte Zufallszahl NORM.INV (ZUFALLSZAHL();0;WURZEL(SSE/df)) mit Mittelwert null und Standardabweichung WURZEL(SSE/df). 3. Fitten Sie jeden dieser Datensätze mit eigenem Parametersatz. Da der Solver bis zu 200 Variablen unabhängig fitten kann, können Sie die Fehlerquadratsummen von mehreren Datensätzen zusammenrechnen und mehrere Fitparametersätze gleichzeitig optimieren. Bei jeweils drei Fitparametern pro Datensatz können Sie jeweils 66 Datensätze gleichzeitig fitten. 4. Am Ende erhalten Sie viele Fitparametersätze, für die Sie pro Parameter jeweils ein Histogramm erzeugen können. Dadurch bekommen Sie einen ersten Eindruck über die Breite der Parameterverteilung. 5. Um die Konfidenzintervalle für die Fitparameter zu erhalten, berechnen Sie jeweils die 97,5- und 2,5 %-Perzentile (Excel-Funktion QUANTIL.INKL) der Fitparametersätze. Neben der Darstellung der Parameterdatensätze als Histogramm lohnt es sich oft, die verschiedenen Parameterdatensätze als X Y -Diagramm einmal gegeneinander aufzutragen. Dadurch erhalten Sie einen Eindruck über die Abhängigkeit Ihrer Fitparameter. Abhängigkeit zwischen den Fitparametern äußert sich bspw. in einer ellipsenförmigen Verteilung der Datenwolke, deren Hauptachse nach oben geneigt ist (siehe Abb. 5.14). Wir haben hier normalverteilte Residuen vorausgesetzt. Das sollten Sie in der Praxis immer vorab prüfen. Entsprechende Tests habe ich Ihnen im Abschn. 3.4.1.5 vorgestellt. Sollten die Residuen nicht normalverteilt sein, können Sie das sogenannte BootstrappingVerfahren verwenden, das ich Ihnen im Folgenden noch kurz vorstellen werde. Eine ähnliche Anleitung zur Berechnung von Konfidenzintervallen mittels MC-Methode und Bootstrapping-Methode in Excel werden Sie auch in [10] finden.
194
a 1200 1000
b2(max)
800
b2(min)
b2
Abb. 5.14 Zur Bestimmung der Konfidenintervalle für die drei Fitparameter b1 (a), b2 (b) und b3 (c) anhand von 500 Monte-Carlo-Simulationen (Punkte). Die 95 %-Konfidenzintervalle [bi (min), bi (max)] ergeben sich aus dem 2,5 %- und 97,5 %-Perzentil (gestrichelte Linien) der Monte-Carlo-Daten
5 Lineare und nicht-lineare Regression
b1(min)
600 20
60
b1(max) 100
140
b1
b
b3
0,022
b3(max)
0,018 b3(min) 0,014 b2(min)
0,01 650
b2(max)
850
1050 b2
c 0,022
b3(max)
b3
0,018 b3(min) 0,014 b1(max)
b1(min)
0,01 40
80
120 b1
5.7.1.6 Konfidenzintervalle mittels Bootstrapping-Methode Die Bootstrapping-Methode ist der MC-Methode relativ ähnlich, macht jedoch keine Annahme über die Verteilung der Residuen. Bei dieser Methode werden simulierte Daten mithilfe der Fitkurve und zufällig gezogener Residuendaten erzeugt (mit Zurücklegen). Das Vorgehen ist der MC-Methode sehr ähnlich.
5.7
Beurteilung von Regressionsergebnissen/-analysen
195
1. Führen Sie eine nicht-lineare Regression mit Ihren Daten durch. Dazu minimieren Sie, wie oben gezeigt, die Fehlerquadratsumme SS E mit dem Solver und erhalten dadurch die Fitparameter b1 , . . . , bn und Fitkurve y f it . 2. Auf Basis der Fitkurve und der Residuen R berechnen Sie viele neue Datensätze (z. B. 1000). Dazu verwenden Sie in Excel die Formel y f it + INDEX(R;ZUFALLSBEREICH(1;ANZAHL(R))). Die INDEX-Funktion gibt einen Wert aus dem Bereich der Residuen zurück. Die Zeile, aus der der Wert aus R zurückgegeben werden soll, wird mittles ZUFALLSBEREICH zufällig bestimmt. 3. Fitten Sie jeden dieser Datensätze mit eigenem Parametersatz. Da der Solver bis zu 200 Variablen unabhängig fitten kann, können Sie die Fehlerquadratsummen von mehreren Datensätzen zusammenrechnen und mehrere Fitparametersätze gleichzeitig optimieren. Bei jeweils drei Fitparametern pro Datensatz können Sie jeweils 66 Datensätze gleichzeitig fitten. 4. Am Ende erhalten Sie viele Fitparametersätze, für die Sie pro Paraameter jeweils ein Histogramm erzeugen können. Dadurch bekommen Sie einen ersten Eindruck über die Breite der Parameterverteilung. 5. Um die Konfidenzintervalle für die Fitparameter zu erhalten, berechnen Sie jeweils die 97,5- und 2,5 %-Perzentile (Excel-Funktion QUANTIL.INKL) der Fitparametersätze. Sie sehen, dass sich die MC und die Bootstrapping-Methode lediglich in Schritt 2 unterscheiden. Da die Abbildungen für die Bootstrapping-Methode denen der MC-Simulation sehr ähnlich sehen (siehe Abb. 5.14), verzichte ich an dieser Stelle auf deren Abbildung.
5.7.2
Vergleich von Fitmodellen
Oft steht man in der wissenschaftlichen Praxis vor der Entscheidung, ob man seine Daten mit einem Modell M1 oder einem Modell M2 fitten soll. Mit dem adjustierten R 2 haben Sie ein Kriterium zum Vergleich von Fitmodellen bereits kennengelernt. Sie sollten es jedoch möglichst nur zum Vergleich linearer Modelle (M1 (b1 ) versus M2 (b1 , b2 )) verwenden, weil es bei nicht-linearen Modellen nachweislich oft zu falschen Entscheidungen führt [7]. Im Folgenden werde ich Ihnen weitere Kriterien an die Hand geben, mit denen Sie solche Modellvergleiche durchführen können.
5.7.2.1 F-Test zum Vergleich von verschachtelten Fitmodellen Den F-Test zum Vergleich von Fitmodellen haben Sie bereits in Abschn. 5.7.1.4 kennengelernt. Hierbei wurde er verwendet, um ein Fitmodell mit n freien Fitparametern gegenüber demselben Fitmodell mit n −1 freien Fitparametern auf Basis der Fehlerquadratsumme SS E zu vergleichen. Mithilfe des F-Tests vergleichen Sie lediglich verschachtelte Modelle, also solche, die durch Festhalten oder Eliminierung von Fitparametern auseinanderhervorgehen.
196
5 Lineare und nicht-lineare Regression
Sie können bspw. das Modell f 1 (x) = d +
a−d b 1+( xc )
mit f 2 (x) =
a b 1+( xc )
vergleichen, da
f 2 (x) durch Eliminierung des Parameters d aus f 1 (x) hervorgeht. Sie können dieses jedoch nicht mit dem Modell f 3 (x) = mx +d vergleichen, da es nicht aus f 1 (x) durch Eliminierung oder Festhalten von Fitparametern hervorgeht. Nehmen wir einmal an, Modell f 2 (x) sei das einfachere Modell und ginge aus dem Modell f 1 (x) hervor. Beim F-Test vergleichen Sie die Fehlerquadratsummen beider Modelle, SS E 1 bzw. SS E 2 , indem Sie einen experimentellen F-Wert berechnen: F=
SS E 2 −SS E 1 d f 2 −d f 1 SS E 1 d f1
(5.76)
Gl. 5.76 hat die Form von Gl. 3.35 mit d f 1 Freiheitsgraden für das Fitmodell 1 bzw. d f 2 für das Fitmodell 2. Werden die Daten mit dem einfacheren Modell f 2 (x) gefittet, dann sollte die Fehlerquadratsumme SS E 2 gegenüber SS E 1 größer werden, da weniger Fitparameter, also mehr Freiheitsgrade vorhanden sind. Liegt die relative Erhöhung der Fehlerquadratsumme beim Übergang vom komplexen zum einfacheren Fitmodell im Bereich der relativen Erhöhung der Anzahl Freiheitsgrade SS E 2 d f2 ≈ (5.77) SS E 1 d f1 dann können Sie das einfachere Fitmodell akzeptieren. Ist die relative Erhöhung der Fehlerquadratsumme jedoch deutlich größer, dann ist das komplexere Modell besser geeignet. Die genaue Entscheidung, ab wann Sie welches Modell akzeptieren, treffen Sie anhand eines F-Tests, indem mithilfe des in Gl. 5.76 berechneten F-Wertes, ein entsprechender p-Wert berechnet wird. Dazu verwenden Sie in Excel die Funktion F.VERT. Ist p > α, dann akzeptieren Sie das einfachere Modell, andernfalls nicht.
5.7.2.2 Chi2 -Differenzentest zum Vergleich von verschachtelten Fitmodellen Wurden die Fehlerquadrate S E im Rahmen der Fitprozedur mit der inversen Varianz σ 2 gewichtet, dann sollten Sie einen Chi2 -Test statt eines F-Tests durchführen. Hierzu wird der χ 2 -Wert N S E i2 χ2 = (5.78) σi2 i=1 sowohl für das das einfachere χ12 mit d f 1 Freiheitsgraden, als auch für das komplexere Modell χ22 mit d f 2 Freiheitsgraden berechnet. Anschließend wird die Differenz beider Chi2 Werte berechnet: χ 2 = χ12 − χ22 (5.79) Die Gl. 5.78 und 5.79 haben nämlich letztlich die Form von Gl. 3.28 mit d f 1 Freiheitsgraden für das Fitmodell 1, d f 2 für das Fitmodell 2 bzw. mit d f 1 − d f 2 Freiheitsgraden für die Differenz. Ebenso wie beim F-Test gilt auch hier, dass das komplexere Modell in der Regel zu einer kleineren Fehlerquadratsumme führen sollte, da mehr Fitparameter vorhanden sind.
5.7
Beurteilung von Regressionsergebnissen/-analysen
197
Ob die Differenz signifikant größer als null ist, können Sie durch Vergleich mit einem theoretischen χ 2 -Wert ermitteln. Dazu können Sie in Excel den Befehl CHIQU.INV bzw. CHIQU.VERT verwenden. Die erstgenannte Funktion berechnet den kritischen Wert (das Quantil) der linksseitigen χ 2 -Verteilung, und die letztgenannte Funktion berechnet den pWert aus der Prüfgröße χ 2 (Gl. 5.79). Ist diese größer als der kritische Wert, dann ist die o. g. Differenz signifikant verschieden von null und man sollte das komplexere Modell akzeptieren. In diesem Fall ist der p-Wert kleiner als ein zuvor festgelegtes Signifikanzniveau α. Reduziertes Chi2 Häufig sieht man in kommerziellen Softwarepaketen, dass das sogenannte reduzierte Chi2 (χr2 ) mit ausgegeben wird. Für ein gegebenes Modell berechnet es sich durch Normierung von Gl. 5.78 auf die Anzahl Freiheitsgrade d f : χr2
N 1 S E i2 = df σi2 i=1
(5.80)
Ist nun χr2 > 1, so handelt es sich um einen schlechten Fit. Vergleicht man nun zwei Fitmodelle aufgrund des reduzierten Chi2 -Wertes, besagt eine Daumenregel, dass dasjenige Modell akzeptiert werden soll, dessen χr2 näher bei 1 liegt. Bitte beachten Sie, dass das reduzierte Chi2 seine Schwächen zur Anwendung für Modellvergleiche hat, auf die hier aber nicht weiter eingegangen werden soll. Für eine detailliertere Betrachtung empfehle ich folgendes Paper [11]. Stattdessen gehen wir im Folgenden auf gängigere Methoden zum Modellvergleich ein.
5.7.2.3 Bayes’scher Modellvergleich Basierend auf dem Bayes-Theorem (vgl. Abschn. 3.1) lässt sich ein Kriterium ableiten, mit dem Sie zwei Fitmodelle M1 und M2 miteinander vergleichen können. Nehmen wir einmal an, das Modell M1 habe die Fitparameter θ1 und M2 habe die Fitparameter θ2 . Für die Modelle M1 und M2 können Sie gemäß dem Bayes-Theorem folgende Gleichung aufstellen (hier am Beispiel von M1 ): p(M1 |D) =
p(D|M1 ) p(M1 ) p(D)
(5.81)
Ähnlich wie in Abschn. 3.1 bezeichnet man p(M1 |D) als die a posteriori-Wahrscheinlichkeit des Modells M1 , p(M1 ) die a priori-Wahrscheinlichkeit p(M1 ) = 1 − p(M2 )10 . p(D) bezeichnet die evidence der Daten und p(D|M1 ) bezeichnet man als marginal likelihood. Hierbei handelt es sich eigentlich um die evidence der Daten unter dem betrachteten Modell 10 Mithilfe der a priori-Wahrscheinlichkeit können Sie ein gewisses Vorwissen in den Modellvergleich
einfließen lassen, z. B., indem Sie p(D|M1 ) > 0,5 und entsprechend p(D|M2 ) < 0,5 wählen.
198
5 Lineare und nicht-lineare Regression
und errechnet sich als gewichtetes Mittel des Parameter-likelihoods p(D|θ, M) und des Parameter-Priors p(θ|M). p(D|M) =
p(D|θ, M) p(θ|M)dθ
(5.82)
θ
Das Integral in Gl. 5.82 ist in aller Regel nicht mehr analytisch lösbar. Je nach Anzahl der Fitparameter θ kann die Berechnung sehr aufwändig werden. Oft hat der Integrand in Gl. 5.82 einen ausgeprägten Peak, wodurch man das Integral gemäß „Höhe des Peaks mal Breite des Peaks“ annähern kann [2, 12]. Diese Näherung ist besonders dann gut, wenn die Prior-Wahrscheinlichkeitsdichte eine Gleichverteilung darstellt und die LikelihoodWahrscheinlichkeitsdichte bereits annähernd einer Normalverteilung entspricht. Bei großen Stichprobenanzahlen ist das in der Regel gegeben. Die Höhe des Peaks ist diejenige, bei der der Parameter-Likelihood maximal ist (bei den besten Fitparametern θ ∗ ), also p(D|θ ∗ , M). Der Modellvergleich erfolgt letztlich über die Bildung des Verhältnisses der a posterioriWahrscheinlichkeiten der Modelle: p(M1 |D) p(M2 |D) p(D|M1 ) p(M1 ) = p(D|M2 ) p(M2 )
B12 ≡
(5.83)
Dieses Verhältnis bezeichnet man auch als Bayes-Faktor B12 . Der Index 12 deutet an, dass hier ein Modell 1 mit einem anderen Modell 2 verglichen wird. Der Bayes-Faktor gibt an, wie viel besser ein M1 gegenüber einem anderen M2 die Daten beschreibt. Ich gebe zu, der Bayes-Faktor ist in der Praxis oft nicht leicht zu berechnen. Daher kann ein davon abgeleitetes Kriterium, das sogenannte Bayes’sches-Informationskriterum (BIC) verwendet werden um die Modelle zu vergleichen: B I C = −2 ln( p(D|θ ∗ , M)) + k ln(n)
(5.84)
Beim Vergleich von Regressionsmodellen, bei denen man normalverteilte Residuen voraussetzt, ergibt sich das B I C gemäß Gl. 5.85: B I C = n ln(s 2R ) + ln(n)k
(5.85)
Hierbei ist n die Anzahl Datenpunkte, k die Anzahl Fitparameter plus eins und s 2R die bereits bekannte Reststreuung. Ein zum B I C ähnliches, aber aus der Informationstheorie stammendes Kriterium wurde von Akaike entwickelt, das sogenannte Akaike-Informationskriterium (AI C): AI C = n ln(s 2R ) + 2k (5.86) Bitte beachten Sie, dass Sie in der Literatur ggf. etwas andere Gleichungen für das AIC finden. Die Formel in Gl. 5.86 ist bereits von Termen befreit, die für den Vergleich von
Literatur
199
Tab. 5.18 Beispieldaten für den Modellvergleich x
0,1
0,3
0,5
0,7
0,9
y
1372
2325
2019
3055
3125
Modellen unerheblich wären. Für mehr Details zur Herleitung und Vereinfachungen, verweise ich auf die Literatur (bspw. [13]). Wie Sie anhand der Gl. 5.85 bzw. 5.86 erkennen können, bestraft das B I C das Vorhandensein von mehr Fitparametern ab einem n ≥ 8 stärker als das AIC. Demnach bevorzugt das B I C in diesem Fall die einfacheren Modelle. Zum Vergleich zweier nicht verschachtelter und konkurrierender Modelle M1 und M2 müssen Sie jeweils das B I C bzw. AI C für das eine, wie für das andere Modell berechnen. Sie wählen am Ende dasjenige Fitmodell, für das das BIC bzw. AIC kleiner ist. Für wenige Datenpunkte n gibt auch eine korrigierte Form für das AI C: AI Cc = AI C +
2k(k + 1) n−k−1
(5.87)
Sie sehen, dass, wenn n groß wird, der zweite Term in Gl. 5.87 vernachlässigbar wird. Nun werden Sie sich zu Recht fragen, welches Kriterium man denn nun für sein Modellvergleichsproblem nehmen soll. Meine Empfehlung ist folgende: Verwenden Sie beim Vergleich von verschachtelten Modellen den F-Test und beim Vergleich von nicht verschachtelten Modellen entweder das AI C oder das B I C. In der Literatur finden sich sowohl Befürworter des AI Cs, als auch des B I Cs. In der Praxis performen sie in der Regel sehr ähnlich [7]. Manche verwenden sogar beides bei ihren Modellvergleichen. Eine Diskussion darüber findet sich bspw. in folgendem Paper [14] und den darin enthaltenen Referenzen. 5.10 Führen Sie für die Daten in Tab. 5.18 eine lineare Regression durch. Verwenden Sie hierfür die Funktion RGP und lassen Sie sich dadurch neben den Fitparametern weitere Regressionskenngrößen ausgeben (v. a. den F-Wert). Vergleichen Sie das Geradenmodell f (x) = b1 + b2 x gegenüber dem konstanten Modell f (x) = μ, wobei μ der Mittelwert aller y-Werte ist. Berechnen Sie hierzu das korrigierte AI Cc für beide Modelle und vergleichen Sie sie auf dieser Basis. Welches Modell wird demnach bevorzugt? Welches Modell wird auf Basis des F-Tests bevorzugt?
Literatur 1. Mania, H.: Gauß – Eine Biographie. Rowohlt Taschenbuch, Reinbek (2009) 2. Sivia, D., Skilling, J.: Data Analysis: A Bayesian Tutorial. Oxford science publications. Oxford University Press, New York (2006) 3. Draper, N.R., Smith, H.: Applied Regression Analysis. Wiley Series in Probability and Statistics. Wiley, New York (1998)
200
5 Lineare und nicht-lineare Regression
4. Walters, F.H., Parker, L.R., Morgan, S.L., Deming, S.N.: Sequential Simplex Optimization: A Technique for Improving Quality and Productivity in Research, Development, and Manufacturing. CRC Press, Boca Raton (1991) 5. Motulsky, H., Christopoulos, A.: Fitting Models to Biological Data Using Linear and Nonlinear Regression: A Practical Guide to Curve Fitting. Oxford University Press, New York (2004) 6. Gottschalk, P.G., Dunn, J.: Measuring parallelism, linearity, and relative potency in bioassay and immunoassay data. J. Biopharm. Stat. 15, 437–63 (February 2005) 7. Spiess, A.-N., Neumeyer, N.: An evaluation of r2 as an inadequate measure for nonlinear models in pharmacological and biochemical research: a monte carlo approach. BMC pharmacology 10(20529254), 6–6 (June 2010) 8. Kvalseth, T.O.: Note on the r2 measure of goodness of fit for nonlinear models. Bull. Psychon. Soc. 21, 79–80 (1983) 9. Kemmer, G., Keller, S.: Nonlinear least-squares data fitting in excel spreadsheets. Nat. Protoc. 5, 267 (January 2010) 10. Hu, W., Xie, J., Wai Chau, H., Cheng Si, B.: Evaluation of parameter uncertainties in nonlinear regression using microsoft excel spreadsheet. Environ. Syst. Res. 4(1), 4 (Mar 2015) 11. Andrae, R., Schulze-Hartung, T., Melchior, P.: Dos and don’ts of reduced chi-squared. arXiv:1012.3754, 12 (2010) 12. MacKay, D.J.C.: Information Theory, Inference and Learning Algorithms. Cambridge University Press, Cambridge (2003) 13. Hurvich, C.M., Tsai, C.-L.: Regression and time series model selection in small samples. Biometrika 76, 297–307 (1989) 14. Kass, Robert E., Raftery, Adrian E.: Bayes factors. J. Amer. Stat. Assoc. 90(430), 773–795 (1995)
6
Multivariate Datenanalyse
6.1
Multivariate lineare Regression
In Abschn. 5.1 wurde bereits die lineare Regression besprochen, bei der die Modellfunktion f (x) linear abhängig von einer unabhängigen Variable x war: f (x) = b1 + b2 x bzw. in Matrixform:
⎤
⎡
f (x, b) = ⎣ 1 x ⎦
b1 b2
(6.1) (6.2)
Verallgemeinern wir das auf den Fall von n unabhängigen Variablen x1 , . . . , xn , dann erhalten wir folgende Gleichung: ⎡
⎤⎡
⎤
f (x1 , . . . , xn , b1 , . . . , bm ) = ⎣1 x1 · · · xn ⎦ ⎣b1 · · · bm ⎦
X
(6.3)
B
Bei der multivariaten linearen Regression soll ein solches Modell an die Messdatenmatrix Y angepasst werden. Es gilt also Y = XB (6.4) Um die Matrix B zu bestimmen, müssen Sie das System Gl. 6.4 invertieren. Da die Matrix X im Allgemeinen nicht quadratisch ist, muss sie zunächst mit ihrer Transponierten multipliziert und die resultierende Matrix invertiert werden (vgl. Abschn. 5.1). Dann erhält man die Parametermatrix B:
−1 B = XT X XT Y (6.5) © Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 M. Schneider, Datenanalyse für Naturwissenschaftler, Mediziner und Ingenieure, https://doi.org/10.1007/978-3-662-61866-0_6
201
202
6 Multivariate Datenanalyse
Die multivariate lineare Regression spielt eine große Rolle bei der multivariaten Kalibration, die häufig bei UV-VIS-spektroskopischen Methoden zum Einsatz kommt. Angenommen, Sie hätten in Ihrer Probe m bekannte Substanzen unbekannter Konzentration, die bei verschiedenen Wellenlängen unterschiedlich stark absorbieren. Sie wollen nun die Konzentrationen dieser Substanzen mithilfe einer multivariaten Kalibration bestimmen. Nehmen wir weiter an, Ihr Spektrometer würde die Extinktionen bei den Wellenlängen λ1 , . . . , λ p messen. Gemäß dem Lambert-Beer-Gesetz ist die Extinktion E λ bei einer gegebenen Wellenlänge proportional zur Konzentration c der bei dieser Wellenlänge absorbierenden Substanz: E λ = kλ c
(6.6)
hierbei ist kλ ein Proportionalitätsfaktor, den man häufig auch als Sensitivität bezeichnet. Er ist abhängig von der absorbierenden Substanz und der Wellenlänge. Die Schichtdicke ist bereits in kλ enthalten. Da in diesem Beispiel m Substanzen vorhanden sind, die alle einen gewissen Beitrag zur Extinktion beitragen, muss Gl. 6.6 etwas modifiziert werden: E λ = kλ,1 c1 + · · · + kλ,m cm
(6.7)
k hängt demnach von der Art der Substanz (zweites Subskript) und der Wellenlänge der Strahlung ab (erstes Subskript). Nun haben wir ja nicht nur bei einer Wellenlänge gemessen, sondern bei p Wellenlängen. Daher ergibt sich folgendes Gleichungssystem: E λ1 = kλ1 ,1 c1 + · · · + kλ1 ,m cm E λ2 = kλ2 ,1 c1 + · · · + kλ2 ,m cm
(6.8)
.. . E λ p = kλ p ,1 c1 + · · · + kλ p ,m cm Damit man eine Chance hat, das Gleichungssystem 6.8 zu lösen, muss p in diesem Beispiel größer oder gleich m sein, d. h., Sie müssen bei mindestens so vielen Wellenlängen messen, wie Substanzen in Ihrer Probe sind. Gl. 6.8 können wir auch in Vektor-Matrixform schreiben: a = Kc (6.9) Angenommen, die Substanzen in Ihrer Probe würden nicht miteinander oder dem Lösungsmittel interagieren, was ja das Lamber-Beer-Gesetz voraussetzt, dann können Sie die Konzentrationen der drei Substanzen in Ihrer unbekannten Probe S mithilfe einer direkten Kalibration bestimmen. Hierbei messen Sie jeweils Spektren der Reinsubstanzen bekannter Konzentration und können hierfür jeweils die K-Matrix bestimmen. Um die unbekannten Konzentrationen c P Ihrer Probe zu bestimmen, müssen Sie Gl. 6.9 nach c auflösen: K−1 a P f¨ur p = m c P = T −1 T (6.10) K a P f¨ur p > m K K
6.1
Multivariate lineare Regression
203
Gehen wir aber in diesem Beispiel noch einen Schritt weiter und erwägen die Möglichkeit der Interaktion der Substanzen untereinander oder mit dem Lösungsmittel. So könnte bspw. das Vorhandensein einer Komponente zu einer weniger starken Absorption einer anderen Komponente führen. Um diese Interaktionen abzubilden, müssen die Kalibrierlösungen auch Mischungen der m Substanzen sein. In diesem Fall wird die Bedingung p ≥ m nicht mehr ausreichen. Hier müssen Sie schon deutlich mehr Experimente durchführen, und zwar mindestens 2m in diesem Beispiel1 . Diese Form der indirekten Kalibration erlaubt dann Abweichungen von den Bedingungen zum Lambert-Beer-Gesetz. Gl. 6.9 kann dann auch verallgemeinert geschrieben werden: E = CK (6.11) Für die Kalibration müssen die Koeffizienten in der Matrix K bestimmt werden:
−1 K = CT C CT E (6.12) Nun können Sie mithilfe der so ermittelten Koeffizientenmatrix K und dem gemessenen Spektrum a P die Konzentrationen c P der m Substanzen in Ihrer unbekannten Probe P bestimmen:
−1 c P = a P KT KKT (6.13) Machen wir an dieser Stelle mal ein Beispiel: Beispiel 6.1 Angenommen, Sie seien Qualitätsmanager bei einer Firma, die Medikamente herstellt. Ihr Top-Produkt sei ein Medikament, das zwei Wirksubstanzen (A und B) in definierten Konzentrationen c A = 5·10−5 M und c B = 15·10−5 M enthalte. Ihre Aufgabe sei es nun, die Konzentrationen dieser Substanzen in einer Stichprobe aus einer neuen Charge zu bestimmen und zu schauen, ob diese noch mit den Vorgaben übereinstimmen. Dazu führen Sie eine indirekte Kalibration durch, indem Sie vier Lösungen bekannter Konzentrationen ansetzen. Bei zwei Substanzen sollte man mindestens 22 = 4 Proben insgesamt messen. Die beiden Konzentrationslevel der jeweiligen Kalibrationssubstanzen sollten hierbei knapp unterhalb und oberhalb der Konzentrationen der Vorgabe gewählt werden. Nehmen wir an, Sie hätten bei der Messung dieser Mischungen bei drei Wellenlängen die in Tab. 6.1 gezeigten Absorptionen erhalten. Tab. 6.1 enthält sowohl die Konzentrationsmatrix (mittlerer Teil der Tabelle) als auch die Extinktionsmatrix (rechter Teil der Tabelle) aus Gl. 6.12. Entsprechend können Sie die Koeffizientenmatrix K auch berechnen. Als Ergebnis sollte bei Ihnen ungefähr Folgendes rauskommen:
1 Ich werde das im Abschnitt zur Versuchsplanung noch im Detail erklären, auch was es mit den Interaktionen auf sich hat.
204
6 Multivariate Datenanalyse
Tab. 6.1 Konzentrationen der beiden Wirksubstanzen A und B zur indirekten Kalibration Mischung
c A in M
c B in M
E1
E2
E3
1
10−5
10−5
0,093
0,120
0,092
2
10−4
10−5
0,470
0,548
0,194
3
10−5
3 · 10−4
0,514
0,902
1,974
4
10−4
3 · 10−4
0,889
1,309
2,054
4457 5033 1184 K= 1524 2766 6498
(6.14)
Bei der Messung der Absorptionen Ihrer Stichprobe sei Folgendes rausgekommen: a p = [0,31 0,628 1,125]
(6.15)
Dann ergibt sich sich für die Konzentrationen der beiden Substanzen gemäß Gl. 6.13: c p = [2,4 · 10−5 17,3 · 10−5 ] (6.16) Sie sehen, die Konzentrationen liegen relativ nahe bei denen der Vorgabe. Natürlich müsste man mit Replikaten arbeiten und anschließend einen entsprechenden statistischen Test anwenden, um zu überprüfen, ob die Werte von der Vorgabe nun signifikant abweichen oder nicht. Ich wollte die Sache hier jedoch übersichtlich halten und mich auf das Wesentliche beschränken. Die Datensätze bei einer multivariaten linearen Regression sind oft redundant, d. h., es bestehen gewisse Korrelationen innerhalb der Daten. Bei Absorptionsspektren kommt das v. a. dann vor, wenn zwei verschiedene Komponenten stark überlappende Absorptionsspektren aufweisen. In solchen Fällen wird oft zunächst eine Datenreduktion gemacht. Eine der Methoden zur Datenreduktion, die sogenannte Hauptkomponentenanalyse, wird im folgenden Abschnitt noch näher besprochen. In diesem Zusammenhang gehe ich kurz auch auf die sogenannte Hauptkomponentenregression ein.
6.2
Methoden der unüberwachten Klassifikation
Methoden der unüberwachten Klassifikation lassen Muster in z. T. hoch dimensionalen Datensätzen erkennen. Dabei werden die Datensätze aufgrund bestimmter Merkmale in Gruppen eingeordnet. Die Art und Weise, wie man zu dieser Einordnung kommt, hängt von der jeweiligen Methode ab. Während die einen Methoden versuchen, den Datenraum so zu
6.2
Methoden der unüberwachten Klassifikation
205
reduzieren, dass nur noch die Daten mit dem größten Informationsgehalt übrig bleiben und darüber eine entsprechende Klassifikation erhalten wird, versuchen die anderen Methoden, die Daten aufgrund bestimmter Abstandmaße miteinander zu vergleichen und einzuordnen. Letztere sind Methoden, die man unter dem Begriff Clusteranalyse zusammenfasst, und erstgenannte Methoden sind Methoden wie die Hauptkomponentenanalyse.
6.2.1
Hauptkomponentenanalyse
Ausgangspunkt für die Hauptkomponentenanalyse (engl. Principal Component Analysis, kurz PCA) ist die Darstellung der Messdaten in Form einer N × M-Matrix A. Die Daten sind oft miteinander korreliert, enthalten also einen gewissen Grad an Redundanz. Ziel der PCA ist nun die Reduzierung des Datenraums, um redundante Information zu eliminieren. Die Daten der Matrix A werden nun bei der PCA vom ursprünglichen Koordinatensystem der Dimension M auf ein neues Koordinatensystem der Dimension D abgebildet, wobei D kleiner als M ist. Mathematisch würde man sagen, bestimmt man eine andere Basis bzw. andere Basisvektoren, also statt e x = [1, 0, 0], e y = [0, 1, 0], ez = [0, 0, 1], den Basisvektoren des Standardkoordinatensystems, bestimmt man andere orthonormale Basisvektoren. Die Darstellung von A in dem neuen Koordinaten wird über die folgende Matrixgleichung beschrieben: ⎡ ⎤ ⎡ ⎤⎡ ⎤ a11 a12 . . . a1 M l11 l12 . . . l1 M s11 s12 . . . s1D ⎢ .. .. .. .. ⎥ = ⎢ .. .. .. .. ⎥ ⎢ .. .. .. .. ⎥ (6.17) ⎣ . . . . ⎦ ⎣ . . . . ⎦⎣ . . . . ⎦ aN 1 aN 2 . . . aN M sN 1 sN 2 . . . sN D l D1 s D2 . . . l D M
A
S
LT
Hierbei stehen in den Spalten von S die neuen Koordinaten, die man auch Scores nennt. Die Zeilen der Matrix LT nennt man auch Loadings, sie stellen die neuen Basisvektoren dar. Die Daten in Matrix A sind in aller Regel vorbehandelt. Eine Zentrierung der Spalten um den Spaltenmittelwert (die sogenannte Mittenzentrierung) wird bspw. sehr häufig als erster Schritt gemacht (siehe hierzu auch Kap. 4). Ich finde es übrigens sehr hilfreich, die Matrixgleichung 6.17 nach S umzustellen: S = AL
(6.18)
Stellen Sie sich vor, S hätte nur eine Spalte. Dementsprechend hätte auch L nur eine Spalte. Die Form dieser Gleichung sollte Ihnen in diesem Fall bekannt vorkommen, nämlich aus der linearen Regression in Matrixform (vgl. Abschn. 5.1.2), bei der wir die Gleichung y = Xb kennenlernten. Nur werden bei der PCA nicht die vertikalen Abstände entlang der y-Achse optimiert, sondern die senkrechten Abstände (vgl. Abb. 6.1).
206 Abb. 6.1 Prinzip der Hauptkomponentenanalyse. Die (skalierten) Daten im alten Koordinatensystem (Punkte) werden mithilfe neuer Koordinaten si in einem neuen Koordinatensystem (gestrichelte Linie) mit den Basisvektoren li dargestellt. Das neue Koordinatensystem (die Hauptkomponenten) werden dabei so gewählt, dass sie ein Maximum an Varianz der Daten beschreiben
6 Multivariate Datenanalyse
PC2
PC1 l1 l2
si
Die neuen Koordinaten werden so bestimmt, dass sie ein Maximum an Varianz der Daten widerspiegeln und dass das neuen Koordinatensystem orthonormal ist (zum Begriff der Orthonormalität siehe Abschn. 9.1.1). Drücken wir es mal mathematisch aus: 1. Die Matrix S soll ein Maximum an Varianz beschreiben, ohne die in der ursprünglichen Matrix A vorhandenen Redundanzen. D. h., die Kovarianzmatrix ST S = LT AT AL soll diagonal sein, d. h. die Spaltenvektoren maximal unkorreliert. Bei mittenzentrierten Daten entspricht AT A der Kovarianzmatrix, bei standardisierten Daten entspricht AT A der Korrelationsmatrix. 2. Die neuen Basisvektoren (Spalten der L-Matrix) sollen orthonormal sein, d. h., liT l j = 1 nur für j = i, ansonsten 0 (i und j bezeichnen jeweils eine Spalte in der L-Matrix). Es handelt sich um ein klassisches Optimierungsproblem: Maximiere die Varianz unter der Nebenbedingung liT l j = 1, für j = i. Entsprechend lässt es sich mithilfe der Methode nach Lagrange lösen (vgl. Abschn. 9.2). Dazu bezieht man die Nebenbedingung, mit einem noch unbekannten Faktor λ multipliziert, in die Optimierungsfunktion f mit ein:
f i = liT AT Ali − λi liT li (6.19) Das Maximum von f i finden Sie durch Ableiten nach li : df i =0 dli
2 AT Ali − λi li = 0 (X − λi I M ) li = 0
(6.20)
6.2
Methoden der unüberwachten Klassifikation
207
I M bezeichnet hierbei die Einheitsmatrix mit M Zeilen und Spalten. In der letzten Zeile von Gl. 6.20 sieht man, dass man bei der Bestimmung der Hauptkomponenten auf ein Eigenwertproblem (mit Eigenwert λi und Eigenvektor li ) stößt. Ich habe dies hier anhand der i-ten Hauptkomponente gezeigt. Das gilt aber analog auch für die anderen. Die letzte Zeile in Gl. 6.20 bildet auch die Basis zur Bestimmung der Eigenwerte und der zugehörigen Eigenvektoren, zumindest für kleinere Datensätze. Bei größeren Datensätzen werden die Eigenvektoren in der Regel mithilfe des NIPALS-Algorithmus berechnet (weiter unten mehr dazu). Ein Eigenwert λi ist eine reelle Zahl, durch den die Zeilen der Matrix X − λi I M linear abhängig werden. Aus Gl. 6.20 ergibt sich das sogenannte charakteristische Polynom (für Details siehe Kap. 9), mit dem Sie die Eigenwerte λi und anschließend die Eigenvektoren bestimmen können. Der zu einem Eigenwert gehörende Eigenvektor entspricht einem der Loadingvektoren, ist also einer der neuen Basisvektoren. Demnach stehen die Eigenvektoren paarweise senkrecht aufeinander. Da das zugrunde liegende Gleichungssystem in Gl. 6.20 unendlich viele Lösungen hat, kann man zur Bestimmung des Eigenvektors (für einen gege benen Eigenwert) ein Element lk aus li = l1 l2 . . . l M beliebig (z. B. gleich 1) wählen und anschließend die anderen Elemente berechnen. Der resultierende Vektor wird auf die Länge 1 normiert und bildet dann einen der Basisvektoren, die in einer Matrix zusammengefasst der Loadingmatrix entsprechen. Diese mit der (standardisierten) Datenmatrix multipliziert, ergibt eine Matrix mit den neuen Koordinaten. Dies sind unsere Hauptkomponenten. Das Ganze verstehen Sie sicherlich besser anhand eines Beispiels. Beispiel 6.2 Nehmen wir mal an, wir hätten sechs Wasserproben (vgl. Tab. 6.2) untersucht und wollten anhand der drei verschiedenen Variablen pH-Wert, Anteil gelöster Sauerstoff und dem Gehalt an amonischem Stickstoff, mit einer Hauptkomponentenanalyse Ähnlichkeiten zwischen den Gewässern feststellen. Sie sehen, dass die Wertebereiche zwischen den Variablen stark unterschiedlich sind, daher bietet sich eine Standardisierung der Daten mit der Excel-Funktion Standardisierung an. Auf Basis der standardisierten Matrix ⎡ ⎤ 0,57 0,28 0,57 ⎢−1,14 −1,26 −1,27⎥ ⎢ ⎥ ⎢ ⎥ ⎢ 0,26 0,54 0,85 ⎥ A=⎢ ⎥ ⎢−1,30 −1,19 −0,99⎥ ⎢ ⎥ ⎣ 0,42 0,43 1,13 ⎦ 1,20 1,20 −0,28 berechnen Sie die Korrelationsmatrix X = AT A, die in diesem Beispiel wie folgt aussieht:
208
6 Multivariate Datenanalyse
⎤ 1 0,98 0,68 X = ⎣0,98 1 0,71⎦ 0,68 0,71 1 ⎡
Aus der Determinante |X − λI M | (vgl. auch Kap. 9) ergibt sich das charakteristische Polynom P(λ): P(λ) = λ3 − 3λ + 1,066λ − 0,0184 = 0 (6.21) Das können Sie entweder mit einer cardanischen Formel analytisch nach λ auflösen, oder Sie berechnen die Nullstellen numerisch, z. B. mithilfe des Solvers in Excel. Sie sollten hierbei die drei Eigenwerte λ1 = 2,59, λ2 = 0,39, λ3 = 0,018 herausbekommen. Über die Gl. 6.20 kommen Sie nun für jeden der drei Eigenwerte an den zugehörigen Eigenvektor ran. Da das Gleichungssystem unendlich viele Lösungen hat, können Sie ein Element frei wählen und bspw. zu 1 setzen. Alle anderen Elemente können Sie dann über das Lösen des Gleichungssystems bestimmen. Nach der Normierung auf die Länge eins sollten Sie auf die folgenden Eigenvektoren kommen: ⎤ ⎤ ⎤ ⎡ ⎡ 0,60 −0,40 −0,69 l1 = ⎣0,60⎦ , l2 = ⎣−0,34⎦ und l3 = ⎣ 0,72 ⎦ 0,53 0,85 −0,04 ⎡
Diese Eigenvektoren in eine Matrix gepackt ergibt die Loadingmatrix L. Wenn Sie diese nun mit Ihrer standardisierten Datenmatrix A multiplizieren, dann erhalten Sie die Hauptkomponentenmatrix S = AL (bzw. Scores): ⎡ ⎤ 0,81 0,15 −0,22 ⎢−2,12 −0,19 −0,07⎥ ⎢ ⎥ ⎢ ⎥ ⎢ 0,93 0,43 0,17 ⎥ S=⎢ ⎥ ⎢−2,02 0,09 0,08 ⎥ ⎢ ⎥ ⎣ 1,11 0,65 −0,02⎦ 1,29 −1,13 0,04 Wir haben also insgesamt drei Hauptkomponenten. Wie Sie vielleicht schon festgestellt haben, war der dritte Eigenwert mit λ3 = 0,0182 deutlich kleiner als die anderen beiden. Das ist ein Zeichen dafür, dass die dritte Hauptkomponente nicht mehr viel zur Erklärung der Gesamtvarianz der Daten beiträgt (nähere Erläuterungen hierzu folgen weiter unten). Wir stellen die Daten in neuen Koordinaten nur für die erste und zweite Hauptkomponente in einem sogenannten Score-Plot dar (vgl. Abb. 6.2). An diesem Score-Plot erkennen Sie, dass sich manche Daten gruppieren. So scheinen jeweils die Gewässer 1, 3 und 5 sowie die Gewässer 2 und 4 eine Gruppe zu bilden. Das Gewässer 1 ist offenbar sehr verschieden in den untersuchten Variablen als die anderen Gewässer.
Methoden der unüberwachten Klassifikation
209
Abb. 6.2 Score-Plot für die Daten aus der Hauptkomponentenanalyse
4 −2,5
2 −1,5
Hauptkomponente 2
6.2
1,5 1 0,5
−0,5 0 −0,5
3
5
1 0,5 1,5 2,5 Hauptkomponente 1 6
−1 −1,5 Tab. 6.2 Chemische Parameter von sechs Wasserproben Probe
pH-Wert
Gelöster Sauerstoff in %
Amonischer Stickstoff in mg/l
1
8,1
36,0
0,016
2
7,0
5,8
0,003
3
7,9
41,0
0,018
4
6,9
7,3
0,005
5
8,0
39,0
0,020
6
8,5
54,0
0,010
Wenn Sie Beispiel 6.2 im Detail nachverfolgt haben, dann haben Sie gesehen, dass man die Eigenwerte und anschließend die Eigenvektoren aus dem charakteristischen Polynom bestimmen kann. Das ging noch einigermaßen einfach, weil es sich in dem Beispiel um ein kubisches Polynom handelte, das man noch mit relativ geringem Aufwand nach λ auflösen konnte. Bei mehr als drei Variablen lässt sich das nur noch numerisch mit vertretbarem Aufwand lösen. Wenn Sie die Eigenwerte im Beispiel mit dem Solver (numerisch) gefunden haben, dann wissen Sie, dass auch dies oft das mehrmalige Ändern der Startwerte erfordert, um nicht wieder bei einem bereits gefundenen Eigenwert zu landen. D. h., auch dieser kann nur begrenzt bei höherdimensionalen Daten eingesetzt werden. In der Praxis werden daher die Eigenwerte und Eigenvektoren, inkl. Hauptkomponenten, oft iterativ der Reihe nach bestimmt, angefangen mit derjenigen, die den größten Anteil der Varianz trägt (diejenige mit dem größten Eigenwert). Ist diese bestimmt, wird die Information, die in dieser ersten Hauptkomponente steckte, von der Ursprungsmatrix A abgezogen und aus der resultierenden Matrix erneut eine Hauptkomponente bestimmt. Dies wird so lange iteriert, bis man einen gewissen Grad an Varianz innerhalb der Daten erklärt hat. Je nachdem,
210
6 Multivariate Datenanalyse
könnte es bereits ausreichen, einen erheblichen Anteil an Varianz innerhalb Ihrer Daten mit nur zwei Hauptkomponenten zu beschreiben. Das hätte den Vorteil, dass man ggf. Muster in einer 2D-Darstellung der beiden Hauptkomponenten erkennen kann und damit sein hoch dimensionales Mustererkennungsproblem auf ein 2D-Problem reduziert hat. Der sogenannte NIPALS-Algorithmus (NIPALS steht für non-linear iterative partial least-square) wird häufig zum Auffinden der Hauptkomponenten verwendet. Im Folgenden stelle ich Ihnen die entsprechenden Berechnungsschritte für den NIPALS-Algorithmus vor: 1. Ähnlich wie bei der nicht-linearen Regression beginnt man zunächst mit Startwerten bzw. Schätzwerten für die erste Hauptkomponente. Hierzu bietet sich diejenige Spalte der Datenmatrix A an, die die größte Varianz aufweist. Damit hat man eine erste Schätzung für s1 . 2. Mithilfe dieser ersten Schätzung kann anschließend der Loadingvektor l, also der erste neue Basisvektor, berechnet werden: l1 = A T
s1 T s1 s1
(6.22)
Er geht demnach aus einer Projektion der Spalten von A bzw. der Zeilen von AT auf s hervor2 . 3. l wird auf die Länge eins normiert, da es sich um einen Basisvektor handelt: l1 l1 = l1T l1
(6.23)
4. Damit kann nun wiederum ein neuer Scorevektor s2 berechnet werden, indem die Zeilenvektoren von A auf l2 projiziert werden: s2 = X
l1 T l1 l1
(6.24)
5. Dieser Prozess des Auffindens einer Hauptkomponente wird so lange iteriert, bis sich die Projektion der Scorevektoren λ = sTj si , aus zwei aufeinanderfolgenden Iterationen, nicht mehr deutlich ändert (z. B. λ j − λi ≤ 10−6 ). λ ist übrigens ein Eigenwert der Matrix A. 6. Zur Berechnung der zweiten Hauptkomponente muss die Information, die sich in der ersten Hauptkomponente befindet, von der Datenmatrix abgezogen werden, da man ja sonst immer wieder auf dieselbe (erste) Hauptkomponente stoßen würde: ˜ = A − slT A
(6.25)
2 Wenn Sie mehr über Projektionen von Vektoren, Projektionsmatrizen etc. wissen wollen, kann ich Ihnen nur dieses Buch [2] ans Herz legen.
6.2
Methoden der unüberwachten Klassifikation
211
Die Iteration von oben beginnt nun für die zweite Hauptkomponente. In der Praxis wird häufig so lange iteriert, bis ein gewisser Grad an Varianz in den Daten beschrieben ist. Den Grad an Varianz σ 2 bestimmen Sie mithilfe der Eigenwerte λi : D
σ2 =
i=1 M
λi (6.26) λi
i=1
Ein anderes Kriterium ist, dass so lange iteriert wird, wie der Eigenwert größer als eins ist. Obwohl häufig angewendet, ist der NIPALS-Algorithmus verhältnismäßig rechenintensiv. Wenn man es eilig hat, kann man die Hauptkomponenten mithilfe der sogenannten Singulärwertzerlegung bestimmen. Bei dieser wird die Matrix A zunächst in zwei orthogonale Matrizen U und V, sowie eine Diagonalmatrix D zerlegt: X = UDVT
(6.27)
Die drei Matrizen stehen mit denen aus Gl. 6.17 im Zusammenhang: U = TD−1 und VT = L
(6.28)
Es gibt mehrere Algorithmen, um die SVD zu berechnen. An dieser Stelle verweise ich jedoch auf die Fachliteratur (ein sehr empfehlenswertes Buch ist dieses [2]), da das Thema sonst zu weit führen würde. Mit Bordmitteln von Excel können Sie diese Zerlegung ohnehin nicht berechnen. Ähnliches gilt auch für den NIPALS-Algorithmus. Die Eigenwerte müssen Sie entweder mithilfe einer anderen Software, mithilfe eines passenden (externen) ExcelAddins, oder mittels VBA-Programmierung berechnen lassen. Vorbereitende Berechnungen wie die Zentrierung oder die Normierung der Daten können Sie aber bereits in Excel durchführen. Bei der Lösung zur folgenden Übung 6.1 zeige ich Ihnen, wie Sie eine PCA in Excel, unter Zuhilfenahme externer Mittel, selbst machen können. 6.1 Übung Berechnen Sie für die Eigenvektoren l1 , l2 , l3 aus Beispiel 6.2 jeweils paarweise die Skalarprodukte und die Länge der Vektoren in Excel (vgl. hierzu auch Abschn. 9.1.1). Was fällt Ihnen auf?
6.2.1.1 Robuste Hauptkomponentenanalyse Ähnlich wie bei der Regression, wird auch die Hauptkomponentenanalyse z. T. stark von Ausreißern beeinflusst. Mitunter kann das dazu führen, dass die entsprechenden Loadingvektoren sich stark nach dem Ausreißer ausrichten und dadurch die eigentlich in den Daten vorhandenen Muster nicht mehr sichtbar werden. Bei Mehrfachmessungen für ein Objekt bietet es sich immer an, zuvor einen Ausreißertest zu machen und vorhandene Ausreißer
212
6 Multivariate Datenanalyse
Abb. 6.3 Vergleich der ersten Hauptkomponente der normalen PCA (gepunktete Linie) und der robusten PCA (gestrichelte Linie). Es ist deutlich zu erkennen, dass sich die Hauptkomponenten im ersten Fall viel zu stark nach dem Ausreißer (Quadrat) ausrichten und nicht nach den anderen Datenpunkten (Punkte)
x2
10 0
−10
−20
0 x1
20
zu eliminieren und anschließend mit der Standard-PCA-Methode fortzufahren. Wurde ein Merkmal jedoch mit einem systematischen Fehler gemessen, wird Ihnen ein Ausreißertest auch nichts mehr nützen. Dann bleibt Ihnen nur noch, die entsprechenden Datenpunkte manuell zu entfernen oder eine robuste PCA durchzuführen. In der Literatur sind diverse Methoden beschrieben, um die PCA robuster zu machen. Auf keine dieser Methoden möchte ich hier im Detail eingehen. Nur so viel: Das Problem liegt beim Standardansatz darin, dass (bei zentrierter Datenmatrix A) die Kovarianzmatrix XT X stark von Ausreißern beeinflusst wird. Wird dem nicht Rechnung getragen, so richten sich die Hauptkomponenten stark nach dem/den Ausreißer(n) aus (vgl. Abb. 6.3). Um die PCA robuster zu machen, haben Keeling und Kollegen die Zentrierung mittels geometrischem Median vorgeschlagen [3] statt einer normalen Mittenzentrierung (über den Mittelwert). Dabei handelt es sich im Prinzip um den Median für Vektoren. Bspw. ist der geometrische Median für die Vektoren x1 , . . . , xn derjenige Vektor m, bei dem die Summe der Abstände von m zu allen anderen Vektoren xi minimal wird: n (xi − m)T (xi − m) → min i=1
m
(6.29)
Den geometrischen Median muss man im Allgemeinen durch eine Optimierung finden3 . Außerdem handelt es sich um einen Vektor und nicht um eine einzelne Zahl, wie der Mittelwert bei der Mittenzentrierung. Die robuste Form der Kovarianzmatrix erhalten Sie, indem Sie den geometrischen Medianvektor jeweils von den einzelnen Spaltenvektoren der Datenmatrix abziehen und daraus die medianzentrierte Datenmatrix erhalten. Damit wiederum können Sie die robuste Form der Kovarianzmatrix berechnen. Die Eigenwerte und Eigenvektoren werden anschließend aus dieser berechnet, und zur Berechnung der Hauptkomponenten herangezogen. 3 Hierfür können Sie in Excel wieder einmal den Solver zum Einsatz bringen.
6.2
Methoden der unüberwachten Klassifikation
213
6.2 Übung Berechnen Sie für die Daten in Tab. 6.2 den geometrischen Median. Verwenden Sie hierfür den Solver in Excel.
6.2.1.2 Hauptkomponentenregression Ohne dass ich dieses Thema hier breit austreten möchte, will ich kurz auf die Grundidee der Hauptkomponentenregression (engl. Principal Component Regression, kurz PCR) eingehen. Ich beziehe mich hier wieder auf die Daten zur multivariaten Kalibration aus Abschn. 6.1. Mit der Messmatrix A wird eine Hauptkomponentenanalyse durchgeführt. Anschließend wird sie in ihrer reduzierten Form A+ , d. h., mithilfe der signifikantesten Hauptkomponenten dargestellt, also diejenigen, die den größten Anteil an der Gesamtvarianz der Daten ausmachen. Im Sinne der oben besprochenen Singulärwertzerlegung sieht das schematisch wie folgt aus: ⎤ ⎡ ⎤ ⎡ ⎡ ⎤ ⎥ ⎢ ⎥⎢ ⎢ ⎥ ⎥⎢ ⎢ ⎥⎣ ⎦ A+ = ⎢ (6.30) ⎥⎣ ⎦ ⎥ ⎢ ⎦ ⎣ Die Spalten der linken Matrix sind die uns bereits bekannten Scores (jedoch normiert auf die Länge eins), die Diagonale der mittleren Matrix enthält die Wurzeln der Eigenwerte (in absteigender Reihenfolge) und die rechte Matrix ist die Loadingsmatrix. Die Daten können demnach reduziert werden, wenn man nur einen Teil der Score- und der zugehörigen Loadingsmatrix miteinander multipliziert (in Gl. 6.30 in Grau dargestellt). Mithilfe dieser Matrix kann gemäß Gl. 6.12 die Koeffizientenmatrix K berechnet werden:
−1 K = CT C CT A+
(6.31)
Mit ihr wiederum werden anschließend die Konzentrationen unbekannter Proben berechnet.
6.2.2
Clusteranalyse
Bei der Clusteranalyse handelt es sich um eine relativ einfache Methode, Daten so zu klassifizieren, dass Objekte (Ihre verschiedenen Proben bspw.) mit ähnlichen Merkmalen (gemessenen Parametern) in Klassen eingeteilt werden. Die Gruppierung (engl. clustering) der Objekte erfolgt hierbei auf Basis von Abständen, die zwischen den Objekten berechnet wurden. Man unterscheidet hierbei die hierarchischen von den nicht-hierarchischen Verfahren. Wie der Name bereits andeutet, werden bei der hierarchischen Clusteranalyse die Objekte so
214
6 Multivariate Datenanalyse
zusammengefasst, dass sie hierarchisch untereinander angeordnet werden, was beim zuletzt genannten Verfahren nicht der Fall ist.
6.2.2.1 Hierarchische Clusteranalyse Die klassische grafische Ausgabe bei einer hierarchischen Clusteranalyse ist ein Dendrogramm oder (Stamm-)Baumdiagramm, was man typischerweise aus der Taxonomie kennt. Hierbei werden Organismen entsprechend ihrer Verwandtschafts- bzw. Ähnlichkeitsverhältnisse aufgeteilt. Auch bei der hierarchischen Clusteranalyse werden Objekte sukzessive in Clustern zusammengefasst (agglomeriert), die eine große Ähnlichkeit haben. Das wird so lange gemacht, bis nur noch eine Gruppe vorhanden ist. Eine hohe Ähnlichkeit haben Objekte dann, wenn sie (mathematisch gesehen) eine geringe Distanz zueinander haben. Man kennt verschiedene Distanzbegriffe bei der Clusteranalyse. Die bekannteste ist vermutlich die euklidische Distanz zwischen zwei Punkten bzw. Vektoren y1 , y2 : T 2 d12 = y1 − y2 y1 − y2 = (y11 − y21 )2 + (y12 − y22 )2 + · · · + (y1n − y2n )2 =
n
(6.32)
(y1i − y2i )2
i=1 2 berechnet sich also aus der Summe der QuaDas Quadrat der euklidischen Distanz d12 drate der Differenzen der Vektorelemente von y1 und y2 . Das entspricht im Grunde genommen dem Satz des Pythagoras. Die euklidische Distanz ist ein Spezialfall der sogenannten Minkowski-Distanz: n p |y1i − y2i | p (6.33) d12 = i=1
Aus Gl. 6.33 ergibt sich bspw. die sogenannte Manhattan- bzw. cityblock-Distanz indem wir p = 1 setzen: n |y1i − y2i | d12 = (6.34) i=1
Ein häufig auftretendes Problem in der Praxis ist, dass die Dimensionen einzelner Summanden (Differenzen) z. T. stark unterschiedlich sein können. Wenn bspw. die Blutwerte verschiedener (Patienten-)Gruppen miteinander verglichen werden, so werden die Differenzen der Natriumwerte absolut gesehen bei Weitem größer sein als die Differenzen für Selen (ein Spurenelement). In solchen Fällen sollten die Distanzen mithilfe einer Matrix C skaliert werden: T 2 d12 = y1 − y2 C−1 y1 − y2 (6.35)
6.2
Methoden der unüberwachten Klassifikation
215
Falls C die Kovarianzmatrix der Datenmatrix ist, entspricht d12 der sogenannten Mahalanobis-Distanz. Z. T. findet man in der Literatur auch den Begriff standardisierte euklidische Distanz. Aber streng genommen ist das nur der Fall, falls C eine Diagonalmatrix ist. Auch die hierarchische Clusteranalyse ist nicht vor Ausreißern gefeit. Es gilt das Gleiche, was im Abschnitt zur Hauptkomponentenanalyse gesagt wurde. Es gibt noch einige weitere Distanzmaße, die ich der Vollständigkeit halber in Tab. 6.3 zusammengefasst habe. Jetzt wissen wir, wie wir die Ähnlichkeit zwischen zwei Objekten bestimmen können, aber noch nicht, wie man die verschiedenen Objekte zu Clustern zusammenfasst. Bevor ich Ihnen ein Beispiel zeige, beschreibe ich den allgemeinen Ablauf für eine hierarchische Clusteranalyse. Wir setzen hierbei voraus, dass die Daten passend vorbehandelt wurden. 1. Bestimmen Sie für die n Objekte zunächst paarweise die Distanzen zwischen den einzelnen Datenelementen. Daraus erhält man zunächst eine n × n-Distanz oder Abstandsmatrix. Sie hat auf ihrer Diagonalen nur Nullen, weil ein Objekt zu sich selbst den Abstand null hat. 2. Finden Sie das kleinste Element di j ungleich null in der Distanzmatrix. 3. Aggregieren Sie die beiden zugehörigen Elemente i, j. Dies ist das erste Cluster. 4. Berechnen Sie eine aktualisierte (n−1)×(n−1)-Distanzmatrix, indem Sie die Distanzen der n − 2 nicht an der Aggregation beteiligten Elemente übernehmen und die (neuen) Abstände zwischen dem aggregierten Cluster und den übrigen Elementen berechnen. 5. Aggregieren Sie so lange, bis die Distanzmatrix nur noch ein Element ungleich null hat. Die paarweisen Distanzen im ersten Schritt werden mithilfe von einer der o. g. Methoden berechnet. Um den Abstand von einem Cluster A mit n A Objekten A1 , . . . , An A , zu einem anderem Cluster B mit n B Objekten B1 , . . . , Bn B zu berechnen, müssen Sie festlegen, wie Sie den Abstand bestimmen wollen. Sie können bspw. den kleinsten Abstand zwischen den Objekten der beiden Cluster nehmen, also d AB = min d Ai B j , i = 1, . . . , n A , j = 1, . . . , n B
(6.36)
Dies nennt man das Single Linkage-Verfahren. Wenn Sie statt des Minimums, das Maximum heranziehen: d AB = max d Ai B j , i = 1, . . . , n A , j = 1, . . . , n B
(6.37)
dann handelt es sich um das sogenannten Complete Linkage Verfahren. Sie können aber auch die mittlere Distanz zwischen den Objekten des Clusters A und des Clusters B berechnen: nB nA 1 d AB = d Ai B j (6.38) n An B i=1 j=1
216
6 Multivariate Datenanalyse
d. h. Sie berechnen für alle Elementepaare der beiden Cluster A und B jeweils die Abstände (blaue und magentafarbene Striche in Tab. 6.3 Zeile 4) und mitteln schließlich über alle Abstände (schwarze Linie in Tab. 6.3 Zeile 4). Hierbei handelt es sich um das sogenannte Average Linkage-Verfahren. Angenommen, das Cluster A sei ursprünglich aus der Fusion von zwei Clustern P und Q mit jeweils n P bzw. n Q Objekten hervorgegangen. Dann kann man diese Information in die Berechnung der Distanz zwischen A und B einrechnen: d AB =
n P dP B + n Q dQ B nP + nQ
(6.39)
Dies habe ich in der entsprechenden Illustration für dieses Verfahren (Tab. 6.3) versucht darzustellen, indem ich zwei der fünf Quadrate gestrichelt dargestellt habe. Sie entsprechen den Elementen des ursprünglichen Clusters Q und die Rechtecke mit durchgezogener Linie entsprechen den Elementen des ursprünglichen Clusters P. Zusammen bilden die Elemente das Cluster A (Rechtecke). Aufgrund der Gewichtung nennt man dieses Verfahren auch Weighted Average Linkage. Bleiben wir mal dabei, dass das Cluster A durch Aggre-
Tab. 6.3 Häufig verwendete Distanzmaße für die Clusteranalyse. Die Quadrate entsprechen Elementen des Clusters A und die Kreise denen des Clusters B (s. auch Fließtext) Linkage-Methode
Single Linkage
Complete Linkage
Average Linkage
Weighted Average Linkage
Centroid Linkage
Wards Linkage
Illustration
6.2
Methoden der unüberwachten Klassifikation
217
gation aus den Clustern P und Q hervorgegangen sei (das schreiben wir mal als [P Q]). Beim sogenannten Centroid Linkage-Verfahren wird zunächst für jedes Cluster A bzw. B jeweils der Schwerpunkt (Mittelwert) und anschließend der Abstand zwischen den beiden Schwerpunkten berechnet. Mathematisch kann das dann wie folgt berechnet werden: d AB =
n P dP B + n Q dQ B n P n Q dP Q − 2 nP + nQ nP + nQ
(6.40)
Bei der Wards-Methode wird innerhalb eines Clusters zunächst derjenige Punkt bestimmt, bei dem die Summe aller Abstände zu den Elementen minimal wird. Bei zwei Clustern wird anschließend die Distanz dieser zwei Punkte berechnet: d AB =
(n P + n B )d P B + (n Q + n B )d Q B − n B d P Q nP + nQ + nB
(6.41)
Die genannten Abstandsmaße sind in Tab. 6.3 nochmals mit einer Illustration zusammengefasst. Um das Verständnis mehr zu fördern, machen wir an dieser Stelle mal ein Beispiel. Beispiel 6.3 Bei der Kultivierung verschiedener Organismen unter anaeroben Bedingungen soll zu einem bestimmten Zeitpunkt ein metabolisches Profil für jeden Organismus anhand von drei Metabolitkonzentrationen bestimmt werden. Die Organismen sollen anschließend anhand der Ähnlichkeit ihres metabolischen Profils klassifiziert werden. Grundlage für weitere Berechnungen sind die Daten in Tab. 6.4. Wir beginnen mit der Berechnung der Distanzmatrix. Hierbei habe ich die euklidische Distanz als Distanzmaß gewählt. Die Diagonalelemente sind null, da ein Objekt zu sich selbst keinen Abstand hat. Die obere rechte Ecke der Tabelle kann man auch frei lassen, da sie keine neue Information erhält. Sie würde dieselben Elemente wie die gezeigten Elemente enthalten, lediglich an der Diagonalen gespiegelt. Bezeichnen wir die Zeilenvektoren der Datenmatrix (Tab. 6.4) mit y A , . . . , y F , so errechnet sich bspw. der Abstand zwischen A T und B zu y A − y B y A − y B . Genauso können Sie das in Excel auch rechnen. Anhand von Tab. 6.5 können wir nun unser erstes Cluster identifizieren. Die Objekte D und F bilden im Folgenden ein Cluster, weil sie die kleinste Distanz zueinander haben (unterstrichen). Anschließend muss die Distanzmatrix aktualisiert werden. Der Einfachheit halber habe ich im Folgenden das Single Linkage-Verfahren gewählt, um den Abstand der anderen Elemente vom Cluster D F zu bestimmen. Der Abstand von A zu D F entspricht dem minimalen Abstand zwischen A und D und A und F. Wie man aus Tab. 6.5 herauslesen kann, ist dieser gleich 26,5. Entsprechendes gilt auch für die Abstände von D F zu den anderen Elementen B, C, E. An den anderen Distanzen ändert sich natürlich nichts.
218
6 Multivariate Datenanalyse
Tab. 6.4 Beispieldatensatz für die Clusteranalyse Organismus
[Metabolit 1]
[Metabolit 2]
[Metabolit 3]
A
46
14
0,5
B
39
15
2
C
5,5
24
13
D
29
34
4
E
9
19
20
F
27
38
7
In Tab. 6.6 bestimmt man nun wieder die minimale Distanz und aggregiert die zugehörigen Elemente zu einem Cluster. Diesmal bilden A und B ein neues Cluster. Die aktualisierte Distanzmatrix sieht man in Tab. 6.7. Auch hier werden die aktualisierten Abstände, das Cluster AB betreffend, aus dem minimalen Abstand der anderen Elemente zu A bzw. B bestimmt. So ist der Abstand d AB,D F des Clusters D F zum Cluster AB d AB,D F = min d D F,A , d D F,B
(6.42)
Man erkennt in Tab. 6.7, dass die Elemente C und E ein neues Cluster, aufgrund des minimalen Abstandes von 9,3 bilden. Daraus folgt die aktualisierte Abstandsmatrix in Tab. 6.8. Bei der hierarchischen Clusteranalyse werden so lange die Distanzen bestimmt, bis keine weiteren Cluster mehr zu bilden sind. Im vorliegenden Fall muss nur noch der Abstand des Clusters C E vom neuen Cluster AB D F bestimmt werden. Er beträgt 26,3, was dem Minimum von d AB,C E = 35,2 und d D F,C E = 26,3 entspricht (vgl. Tab. 6.9). Mit den Erkenntnissen aus den Tab. 6.5, 6.6, 6.7, 6.8 und 6.9 können wir nun ein Dendrogramm zeichnen. Wenn Sie das Dendrogramm (Abb. 6.4) von unten nach oben lesen, also von den einzelnen Clustern bis hin zu den aggregierten Clustern, dann werden Sie in der Höhe der Zweige, die in den Tab. 6.5, 6.6, 6.7, 6.8 und 6.9 unterstrichenen Werte erkennen. Ein solches Diagramm gibt visuell wieder, wie sich die Elemente zu Clustern zusammenfügen. Zunächst bilden D und F ein gemeinsames Cluster. Dann A und B. Anschließend C und E. Dann aggregieren die Cluster D F und AB. Das daraus resultierende Cluster aggregiert schließlich noch mit C E.
6.2
Methoden der unüberwachten Klassifikation
219
Tab. 6.5 Distanzmatrix zu den Daten in Tab. 6.4 A
B
C
D
E
F
A
0
B
7,2
0
C
43,5
36,4
0
D
26,5
21,6
27,1
0
E
42,1
35,2
9,3
29,7
0
F
31,3
26,4
26,3
5,4
29,2
0
Tab. 6.6 Distanzmatrix zu den Daten in Tab. 6.4 nach Aggregation der Daten für Organismus D und F A A
0
B
7,2
B
C
DF
E
0
C
43,5
36,4
0
DF
26,5
21,6
26,3
0
E
42,1
35,2
9,3
29,7
0
Tab. 6.7 Distanzmatrix zu den Daten in Tab. 6.4 nach Aggregation der Daten für Organismus D und F und A und B AB
C
DF
AB
0
C
36,4
0
DF
21,6
26,3
0
E
35,2
9,3
29,7
E
0
Tab. 6.8 Distanzmatrix zu den Daten in Tab. 6.4 nach Aggregation der Daten für Organismus D und F, A und B und C und E AB
CE
AB
0
CE
35,2
0
DF
21,6
26,3
DF
0
220
Abb. 6.4 Dendrogramm zu den Daten aus Tab. 6.4 zur Analyse der Ähnlichkeit des metabolischen Profils verschiedener Organismen A, . . . , F. Die Cluster wurden mithilfe des Single Linkage-Verfahrens aggregiert
ABDF ABDF
0
CE
26,3
CE 0
30 25 20 Distanz
Tab. 6.9 Distanzmatrix zu den Daten in Tab. 6.4 nach Aggregation der Cluster AB und D F
6 Multivariate Datenanalyse
15 10 5 0
D
F
A
B
C
E
6.3 Übung Führen Sie die Berechnungen aus Beispiel 6.3 erneut durch, verwenden Sie jedoch diesmal das Average Linkage-Verfahren um die Cluster zu agglomerieren.
6.2.2.2 Nicht-hierarchische Clusteranalyse Der hierarchischen Clusteranalyse steht die nicht-hierarchische Clusteranalyse gegenüber. Hierbei wird die Anzahl der Cluster vorgegeben. Angenommen, Sie hätten n Objekte, die Sie in c Cluster eingruppieren wollen. Dann gibt es insgesamt K (n, c)-Kombinationsmöglichkeiten, dies zu tun, mit: c 1 c K (n, c) = (6.43) (−1)c−i i n c! i i=1
Gl. 6.43 ist die sogenannte Stirling-Formel. Es stellt sich die Frage, welche Kombination denn nun die sinnvollste ist? Sie könnten nun hingehen und für alle möglichen Kombinationen jeweils (1.) die Distanzen aller Objekte zum Schwerpunkt ihrer zugehörigen Gruppe berechnen (Distanzmatrix Dw ) und (2.) die Distanzen zwischen den einzelnen Gruppen(Schwerpunkten) berechnen (Distanzmatrix Db ). Gesucht wird nun diejenige Konstellation, bei der die Objekte innerhalb eines Clusters möglichst kleine Streuung (Distanzen) um den Clusterschwerpunkt haben und die Streuungen (Distanzen) zwischen den Clustern möglichst groß sind (gute Separierung der Cluster). Man kann relativ leicht zeigen, dass die
6.2
Methoden der unüberwachten Klassifikation
221
Gesamtstreuung Dt des Datensatzes als Summe der beiden Matrizen Dw und Db geschrieben werden kann4 : Dt = Dw + Db (6.44) Die Gesamtstreuung Dt für einen gegebenen Datensatz ist konstant und unabhängig von der Clusterbildung. Das bedeutet aber, das eine Minimierung der Streuung innerhalb der Cluster Dw automatisch mit einer Maximierung der Streuung zwischen den Clustern Db einhergeht. Es genügt also, einen der Summanden in Gl. 6.44 zu optimieren. Hierfür wird zumeist der erste Summand verwendet. Wenn Sie die Berechnungen für alle möglichen Kombinationen K (n, c) an möglichen Gruppierungen durchrechnen wollen, kommen Sie relativ schnell zu einer nicht mehr handhabbaren Zahl von Kombinationen. Nach Gl. 6.43 gäbe es bei 20 Objekten und acht Clustern ungefähr 1013 mögliche Kombinationen, was einen immensen Rechenaufwand bedeuten würde. In der Praxis wird daher auf ein iteratives Verfahren zurückgegriffen, bei dem folgende Schritte durchgeführt werden: 1. Es werden c Cluster-Schwerpunkte gewählt, was häufig zufällig geschieht. 2. Die Distanzen aller Objekte zu den Schwerpunkten vk (k = 1, . . . , c) werden berechnet: 2 2 2 d( j, k) = (6.45) x j1 − vk1 + x j2 − vk2 + . . . x jn − vkn = ||x j − vk ||2 In der zweiten Zeile habe ich die Notation für die euklidische Norm verwendet. Hier können natürlich auch andere Normen verwendet werden. 3. Die Objekte werden gemäß ihrer Distanz einem Schwerpunkt des jeweiligen Clusters zugeordnet. 4. Für jedes Cluster k (k = 1, . . . , c) wird der Schwerpunkt neu berechnet: nk
vk =
xj
j=1
nk
(6.46)
5. Außerdem werden alle der zuvor genannten Distanzen aufsummiert: Dw =
c n
||x j − vk ||2
(6.47)
k=1 j=1
Hierbei ist ||∗|| wiederum eine entsprechende Norm (z. B. die euklidische Norm). 6. Die Schritte 3 bis 5 werden so lange wiederholt, bis sich die Schwerpunkte bzw. Dw nicht mehr merklich ändern.
4 Gl. 6.44 ist die Huygen’sche Dekompoitionsformel für die Streuung.
222
6 Multivariate Datenanalyse
Abb. 6.5a zeigt ein Beispiel für einen Datensatz, der in drei Cluster eingeteilt werden soll. Die Startcluster habe ich zunächst willkürlich gewählt. Die Pfeile indizieren, in welche Richtung die Schwerpunkte jeweils während der Iterationen wandern. Nach nur sieben Iterationen ist der Algorithmus konvergiert und hat die drei Cluster in Abb. 6.5b gefunden. Tatsächlich können Sie das auch relativ leicht in Excel (von Hand) rechnen. Das zuvor gezeigte Verfahren nennt man k-means-Clustering, die k-means (means, engl. für Mittelwerte) entsprechen hierbei den k Clusterschwerpunkten. Der Erfolg der Partitionierung der Daten hängt v. a. von den Startwerten für die Clusterschwerpunkte ab. Es kann durchaus sein, dass nur ein lokales Minimum des Gesamtschwerpunktes erreicht wird. Ich empfehle Ihnen daher, mit verschiedenen Startwerten zu testen und sich jeweils die Werte der Gesamtschwerpunkte anzuschauen. Diejenige Partitionierung, die den kleinsten Gesamtschwerpunkt ergibt, ist Ihre beste Partitionierung. Es gibt noch weitere Cluster-Algorithmen wie das fuzzy-Clustering, bei dem ein Objekt nur mit einer gewissen Wahrscheinlichkeit einem Cluster angehört, d. h., es könnte bspw. zu 40 % Cluster A und zu 60 % Cluster B angehören. Bezeichnen wir die Wahrscheinlichkeit, mit der ein Objekt xi zum Cluster c j mit Schwerpunkt v j gehört, mit u i j (mit cj=1 u i j = 1), dann wird bei der fuzzy Clusterung häufig die folgende Funktion optimiert (vgl. auch Gl. 6.47): c n u mjk ||x j − vk ||2 (6.48) Dw = k=1 j=1
Hierbei ist m ≥ 1 ein zu wählender Parameter. Die Klassenzuordnungsfunktion u jk berechnet sich gemäß folgender Gl. 6.49:
2
2
1
1
0
0
x2
b 3
x2
a 3
−1
−1
−2
−2
−3
−3
−4 −3 −2 −1
0
x1
1
2
3
−4 4 −3 −2 −1
0
x1
1
2
3
4
Abb. 6.5 Ausgehend von drei Startclustern wird für den Datensatz (Punkte) die beste Aufteilung der Daten gesucht (a). Die Daten im negativen Quadranten werden dem Cluster 1 (Rechtecke) zugeordnet, die Daten im Bereich x1 ≈ 0...1 und x2 ≈ 0...2 dem Cluster 2 (Diamanten) und die anderen Daten (Kreise) dem Cluster 3 (b)
6.3
Methoden der überwachten Klassifikation
223
c ||xi − v j || − m−1 ui j = ||xk − v j || 2
(6.49)
k=1
In die Schwerpunktsberechnung müssen die Klassenzuordnungswahrscheinlichkeiten natürlich mit einfließen: nk u imj xi i=1 (6.50) v j = nk m ui j i=1
Der Algorithmus für das fuzzy-Clustering ist ähnlich zum k-means-Clustering: • Es werden zunächst die Klassenzugehörigkeitswahrscheinlichkeiten in Form einer Matrix U0 initialisiert, wobei die Anzahl Zeilen der Anzahl Datenpunkte und die Anzahl Spalten der Anzahl Cluster entspricht. • Anschließend werden die Schwerpunkte gemäß Gl. 6.50 berechnet. • Die Abstände der einzelnen Datenpunkten zu ihren jeweiligen Schwerpunkten werden berechnet. • Die Klassenzugehörigkeitswahrscheinlichkeiten werden gemäß Gl. 6.49 berechnet. Die Schritte 2 bis 4 werden so lange iteriert, bis sich die Matrix der Klassenzugehörigkeitswahrscheinlichkeiten nicht mehr (signifikant) ändert. Die in diesem Abschnitt behandelten Klassifizierungsmethoden gehörten alle der Kategorie der nicht überwachten Verfahren an, also Verfahren, bei der keine Information über bekannte Klassenzuordnungen verwendet wurde. Im Folgenden lernen Sie Methoden der überwachten Klassifikation kennen, bei denen genau das der Fall ist. Ein entsprechend überwachter Algorithmus wird trainiert mit Daten bekannter Klassenzuordnung, um anschließend Daten (noch) unbekannter Klassenzuordnung zu klassifizieren.
6.3
Methoden der überwachten Klassifikation
Bei der überwachten Klassifikation wird versucht, Muster in Daten unbekannter Klassenzuordnung mithilfe von Daten mit bekannter Klassenzuordnung zu erkennen. Eine Klasse kann hierbei eine Substanzgruppe, eine Organismengruppe usw. sein. Wenn bspw. mittels RamanMikroskop versucht wird, pathogene Bakterien anhand ihres Raman-Spektrums zu identifizieren, dann wird die Analyse zunächst mit Spektren von bekannten Bakterien gefüttert. Sie sind der sogenannte Trainingsdatensatz. Mit seiner Hilfe werden die Regeln aufgestellt, anhand derer bspw. ein unbekannter Erreger aufgrund seines Raman-Spektrums identifiziert werden kann. Den Datensatz der unbekannten Objekte nenne ich im Folgenden Testdatensatz. Wie man sich vorstellen kann, ist die Klassifikation von der Qualität und der Quantität
224
6 Multivariate Datenanalyse
des Trainingsdatensatzes abhängig. Oft werden dafür erhebliche Datenmengen benötigt. Das führt in der Regel dazu, dass die Trainingsphase deutlich mehr Zeit in Anspruch nimmt, als die Klassifikation der unbekannten Probe. Im Idealfall brauchen Sie Ihren Algorithmus nur einmal zu trainieren und können immer wieder neue unbekannte Proben damit klassifizieren. Der Trainingsdatensatz darf natürlich nicht zu enge Klassifikationsregeln setzen (das nennt man das sogenannte overfitting), denn sonst werden unbekannte Daten schnell falsch eingruppiert. Wie man das in den Griff bekommt, wird weiter unten besprochen. Die Methoden zur überwachten Klassifikation, die in diesem Abschnitt besprochen werden, unterscheiden sich darin, auf welcher (mathematischen) Basis die Daten separiert werden. Manche der Methoden setzen gewisse Annahmen voraus (wie die Normalverteilung der Daten), andere nicht. Die k-nächste-Nachbarn Methode setzt dies bspw. nicht voraus. Diese Methode soll uns aufgrund ihrer Einfachheit als Einstieg in die Welt der überwachten Klassifikation dienen.
6.3.1
k-nächste-Nachbarn-Klassifikation
Bei der k-Nächste-Nachbarn-Klassifikation (häufig abgekürzt mit kNN) wird ein unbekanntes Objekt derjenigen Gruppe zugeordnet, deren Elemente den größten Anteil der k-nächsten Nachbarn zum unbekannten Objekt ausmacht. Damit die Gruppenzuordnung eindeutig ist, muss k ungerade sein. Wenn k = 4 wäre und zwei der Nachbarn gehörten zur Gruppe A und die zwei anderen Nachbarn zur Gruppe B, dann könnte das unbekannte Objekt nicht eindeutig einer dieser Gruppen zugeordnet werden. In der Praxis wird häufig k = 3 oder k = 5 gewählt. Die k-nächsten Nachbarn werden hierbei mithilfe eines Distanzmaßes (häufig die euklidische Distanz) bestimmt. Abb. 6.6 zeigt anhand von Beispieldaten, wie das unbekannte Objekt () für k = 3 aufgrund der direkten Nachbarschaft zu zwei Objekten der Gruppe 2 (Kreise) eben dieser zugeordnet wird. Die schwarze Linie zwischen den beiden Trainingsgruppen markiert die Trennlinie bzw. Klassifikationsregel, ab der ein Objekt der einen oder der anderen Gruppe zugeordnet wird. Die Quadrate und die Kreise in Abb. 6.6 entsprechen den Trainingsdaten, anhand derer die Klassifikationsregel aufgestellt wird. Wie Sie auch erkennen können, liegt ein Datenpunkt der Gruppe 2 auf der falschen Seite der Trennlinie. Wie wir weiter unten im Detail noch besprechen werden, handelt es sich um einen Trainingsfehler. Wenn Sie nämlich Ihre Trainingsdaten der Gruppe 2 mit der Klassifikationsregel klassifizieren lassen würden, dann würde der genannte Datenpunkt fälschlicherweise der Gruppe 1 zugeordnet. Weiter unten werde ich noch detaillierter auf Trainingsfehler und Methoden zur Bestimmung der Klassifikationsfehlerrate eingehen. An dieser Stelle möchte ich mit einem Beispiel fortfahren, um Ihnen zu zeigen, wie einfach Sie mithilfe einer kNN-Klassifizierung, ein unbekanntes Bakterium X , einer von zwei Bakterienspezies A, B und C zuordnen können.
Methoden der überwachten Klassifikation
Abb. 6.6 Prinzip der kNN-Methode. Die Zuordnung eines unbekannten Objektes () zu einer der beiden Gruppen (Gruppe 1: blaue Quadrate, Gruppe 2: magentafarbene Kreise) erfolgt anhand der zum Stern gehörenden k = 3 nächsten Nachbarn, die auf Basis der Abstände zum unbekannten Objekt bestimmt werden
225
3 2 1 x2
6.3
0
−1 −2 −3 −3
−2
−1
0 x1
1
2
3
Beispiel 6.4 Für die Klassifikation eines unbekannten Bakteriums X ziehen wir die Rundheit x1 und den Durchmesser x2 heran und klassifizieren dieses Bakterium gegenüber drei bekannten Bakterienspezies (vgl. Tab. 6.10 mittels kNN-Klassifikator (mit k = 3). Hierfür berechnen wir jeweils die euklidische Distanz d(x1 , x2 ) zwischen dem zu klassifizierenden Objekt X und den Trainingsobjekten der Klassen K = A, B, C gemäß: X 2 2 (6.51) x1 − x1K + x2X − x2K d(x1 , x2 ) = Diese Abstände sind in der vierten Spalte von Tab. 6.10 berechnet. Die drei nächsten Nachbarn zum unbekannten Objekt X werden nun anhand der drei kleinsten Distanzen in dieser Spalte bestimmt. Diese Werte sind unterstrichen. Sie sehen, dass die nächsten drei Nachbarn von X , der Bakterienspezies A angehören. Dementsprechend wird das unbekannte Bakterium derselben Gruppe zugeordnet. Zu dem Schluss wären Sie vermutlich auch gekommen, wenn Sie sich die Daten einmal grafisch angeschaut hätten (vgl. Abb. 6.7), denn hier erkennen Sie, dass die Daten des unbekannten Bakterium viel näher bei den Daten der Klasse A liegen, als bei denen der beiden anderen Klassen. Wie auch bei den meisten anderen Klassifikationsmethoden macht es Sinn, bei unterschiedlichen Bereichen der verschiedenen Daten über eine entsprechende Skalierung der Daten nachzudenken. Darauf kommen wir in Übung 6.4 noch zu sprechen. In einem Video zeige ich Ihnen im Detail, wie Sie eine k-nächste-Nachbarn-Klassifikation in Excel durchführen. Rufen Sie dieses Video durch Scannen des QR-Codes (unten) auf.
226
6 Multivariate Datenanalyse
Tab.6.10 Klassifizierung eines unbekannten Bakteriums X mittels kNN-Methode anhand des Durchmessers und der Rundheit der Organismen Durchmesser in µm
Rundheit
Bakterium
Distanz d(x 1 , x2 )
7,6
0,86
A
0,41
7,8
0,85
A
0,25
7,6
0,83
A
0,38
8,4
0,82
A
0,37
8,3
0,90
A
0,34
6,7
0,71
B
1,29
6,1
0,66
B
1,94
7,6
0,69
B
0,43
7,4
0,68
B
0,66
7,2
0,69
B
0,77
9,5
0,98
C
1,51
9,1
0,91
C
1,13
8,9
0,94
C
0,94
9,1
0,97
C
1,12
9,4
0,91
C
1,42
8
0,78
X
0
1,1 1,0 Rundheit
Abb. 6.7 Grafische Darstellung der Daten in Tab. 6.10. Das unbekannte Bakterium X soll einer der Klassen A, B oder C zugeordnet werden
A
AA A
0,9 0,8 B
0,7
B
C
C C C C
A
BB B
0,6 0,5
5
6
7
8
Durchmesser in µm
9
10
6.3
Methoden der überwachten Klassifikation
227
Tab. 6.11 Klassifizierung eines unbekannten Bakterium X mittels kNN-Klassifikation anhand des Durchmessers, der Rundheit und der Geißellänge der Organismen Durchmesser in µm
Rundheit
Geißellänge in µm
Bakterium
7,6
0,86
10,22
A
7,8
0,85
7,14
A
7,6
0,83
7,71
A
8,4
0,82
9,03
A
8,3
0,90
8,65
A
6,7
0,71
28,36
B
6,1
0,66
30,49
B
7,6
0,69
22,40
B
7,4
0,68
18,58
B
7,2
0,69
22,64
B
9,5
0,98
31,96
C
9,1
0,91
27,46
C
8,9
0,94
29,32
C
9,1
0,97
30,55
C
9,4
0,91
35,77
C
8
0,78
28
X
6.4 Übung Angenommen, neben dem Durchmesser und der Rundheit wurde für die Bakterien A bis C zusätzlich noch die Geißellänge bestimmt5 (vgl. Daten in Tab. 6.11). Diese liegt hier im Bereich von 7 bis 35 µm, ist also deutlich größer als die Rundheit. Führen Sie zunächst eine kNN-Klassifizierung ohne Datenskalierung durch und bestimmen Sie die Klasse des unbekannten Bakteriums X . Standardisieren Sie anschließend die Daten und führen Sie die Klassifizierung erneut durch. Kommt es zu unterschiedlichen Ergebnissen?
6.3.2
Bayes’sche Klassifikation
Damit Sie einen einfacheren Zugang zum Inhalt dieses Kapitels haben, empfehle ich Ihnen, sich vorab noch einmal die Abschn. 3.4, 3.1 und 5.7.2.3 anzuschauen, denn die Grundlage für dieses Kapitel ist das Bayes-Theorem: P(ck |x j ) =
p(x j |ck )P(ck ) p(x j )
(6.52)
5 Natürlich hat nicht jede Bakterienart Geißeln, aber nehmen wir mal an, unsere Bakterien hätten welche.
228
6 Multivariate Datenanalyse
Mit seiner Hilfe wird die (Posterior-)Wahrscheinlichkeit dafür berechnet, dass ein Objekt j mit den Eigenschaften x j zur Klasse ck gehört. Sie berechnet sich mithilfe der Wahrscheinlichkeitsdichte p(x j |ck ) für die Klasse ck , einer Prior-Wahrscheinlichkeit P(ck ) und der Wahrscheinlichkeitsdichte über alle Klassen p(x j ). Wie man anhand von Gl. 6.52 erkennt, ist p(x j ) unabhängig von den Klassen und hat damit keinen Einfluss auf die Klassifizierung des Objektes. Daher wird dieser Faktor oft weggelassen. Häufig wird die logarithmierte Form der Posterior-Wahrscheinlichkeit berechnet, um numerischen Unterlauf zu vermeiden6 . Ein unbekanntes Objekt wird nun derjenigen Klassen zugeordnet, für die die Wahrscheinlichkeit P(ck |x j ) am größten ist. Auch bei der Bayes’schen Klassifikation wird wiederum zwischen Trainingsphase und Vorhersagephase unterschieden. Bei der Trainingsphase werden mithilfe der Daten bekannter Klassenzuordnung (Trainingsdaten) die Modellparameter der Wahrscheinlichkeitsdichtefunktionen p(x j |ck ) bestimmt. In der Praxis wird sehr häufig eine (multivariate) Normalverteilung für diese Funktionen angenommen7 . 1 1 −1 T (6.53) exp − (x − µk )Sk (x − µk ) p(x|ck ) = √ √ n 2 2π det Sk In diesem Fall werden die Parameter µk und Sk während der Trainingsphase bestimmt, wobei Sk und µk der Kovarianzmatrix und dem Mittelwert (Mittelpunkt) der k-ten Klasse entsprechen. n ist die Dimension des Datenraums, also der Anzahl der Objekteigenschaften bzw. Elemente im Vektor x. Zur Klassifizierung eines unbekannten Objektes u wird der zugehörige Objekteigenschaftsvektor xu in Gl. 6.53 eingesetzt und zusammen mit dem jeweiligen Prior P(ck ) und p(xu ) die Wahrscheinlichkeit p(ck |xu ) berechnet, dass dieses Objekt der Klasse ck angehört. Dies wird für alle k-Klassen gemacht, wobei das unbekannte Objekt am Ende derjenigen Klasse zugeordnet wird, für die p(ck |xu ) am größten ist. Bitte beachten Sie, dass häufig ein konstanter Prior für alle Klassen verwendet wird, nämlich dann, wenn im Vorhinein keine Information vorliegt, welche Klassen wahrscheinlicher sein könnten. Bei konstantem Prior und aufgrund der Tatsache, dass der Nenner in Gl. 6.52 keinen Einfluss auf die Klassifizierung hat, kann die Klassifizierung auf die Berechnung der Wahrscheinlichkeitsdichtefunktionen p(x j |ck ) reduziert werden. Das möchte ich Ihnen anhand eines kleinen Beispiels verdeutlichen. Beispiel 6.5 Nehmen wir nochmals die Bakteriendaten aus Tab. 6.10 zur Hand und klassifizieren wir das unbekannte Bakterium diesmal mit dem naiven Bayes-Klassifikator. Den Prior setzen wir für alle Klassen gleich P(ck ) = 1/3. Fangen wir an mit der Berechnung der Kovarianzmatrix, indem wir für jede Klasse zunächst die zentrierten
6 Das kann v. a. bei großen Datenmengen passieren. 7 Falls genügend Trainingsdaten für eine Klasse vorhanden sind, kann auch der sogenannte Kernel aus
dem Histogramm der zugrunde liegenden Daten bestimmt werden. Man erhält ihn durch Normierung des Histogramms auf die Fläche eins. Das Histogramm wird oft vorab noch geglättet.
6.3
Methoden der überwachten Klassifikation
229
Daten berechnen. Die zentrierte Datenmatrix X sieht bei mir wie folgt aus: ⎡ ⎤ ⎫ ⎪ −0,332 0,008 ⎪ ⎪ ⎢−0,170 −0,008⎥ ⎪ ⎪ ⎢ ⎥ ⎬ ⎢−0,307 −0,019⎥ X A ⎢ ⎥ ⎪ ⎢ 0,430 −0,032⎥ ⎪ ⎪ ⎢ ⎥ ⎪ ⎭ ⎢ ⎥ ⎪ ⎢ 0,379 0,052 ⎥ ⎫ ⎢ ⎥ ⎢−0,280 0,022 ⎥ ⎪ ⎪ ⎢ ⎥ ⎪ ⎪ ⎢−0,927 −0,026⎥ ⎪ ⎢ ⎥ ⎬ ⎢ ⎥ X = ⎢ 0,595 0,007 ⎥ X B ⎪ ⎢ 0,362 −0,005⎥ ⎪ ⎪ ⎢ ⎥ ⎪ ⎭ ⎢ 0,251 0,003 ⎥ ⎪ ⎢ ⎥ ⎫ ⎢ ⎥ ⎢ 0,283 0,037 ⎥ ⎪ ⎪ ⎢ ⎥ ⎪ ⎪ ⎢−0,089 −0,036⎥ ⎪ ⎢ ⎥ ⎬ ⎢−0,287 0,000 ⎥ XC ⎢ ⎥ ⎪ ⎣−0,108 0,031 ⎦ ⎪ ⎪ ⎪ ⎪ 0,201 −0,033 ⎭ Die ersten fünf Elemente in dieser zentrierten Datenmatrix gehören zur Gruppe A, die folgenden fünf zur Gruppe B und die letzten fünf zur Gruppe C. Die zugehörigen drei Kovarianzmatrizen S A , S B , SC ergeben sich dann über S A = XTA X A , S B = XTB X B und SC = XCT XC . Mit diesen Matrizen, den Mittelwertsvektoren, den Excel-Funktionen MDET, MMULT, MTRANS und MINV und dem Datenvektor x X haben Sie alles, was Sie brauchen, um das Bakterium mithilfe von Gl. 6.53 einer der drei Klassen zuzuordnen. Da wir einen konstanten Prior angenommen hatten und der Nenner in Gl. 6.52 für alle Klassen gleich ist, können wir die Zuordnung des unbekannten Objektes mithilfe der Likelihood-Werte vornehmen, ohne die Posterior-Wahrscheinlichkeit berechnen zu müssen. In Abb. 6.8 habe ich die Daten für die jeweiligen Klassen zusammen mit ihrer jeweiligen Wahrscheinlichkeitsdichtefunktionen bzw. Likelihood-Funktion p(x|ck ) (vgl. Gl. 6.53) in Form von Höhenlinien dargestellt. Je tiefer rot eine Höhenlinie ist, desto größer die zugehörige Wahrscheinlichkeitsdichte, je tiefer blau sie ist, desto kleiner ist die Wahrscheinlichkeitsdichte. Der Datenvektor unseres unbekannten Bakteriums (X ) liegt zwischen der gelben und orangefarbenen Höhenlinie für die Wahrscheinlichkeitsdichte der Gruppe A (durchgezogene Höhenlinien), deren Wert also entsprechend hoch ist. Andererseits wird unser unbekanntes Objekt auch von einer blauen und cyanfarbenen Höhenlinie der Wahrscheinlichkeitsdichte der Gruppe B (gestrichelte Höhenlinien) umschlossen, deren Wahrscheinlichkeitsdichte jedoch entsprechend klein sind. Unser Objekt wird von keiner (sichtbaren) Höhenlinie der Gruppe
230
6 Multivariate Datenanalyse
1,4
Rundheit
1,2 1 0,8 0,6 0,4 0,2 6
7
8 9 Durchmesser in µm
10
Abb.6.8 Prinzip der Bayes-Klassifikation. Die Zuordnung des unbekannten Bakteriums (X ) zu einer der drei Klassen erfolgt anhand der zugehörigen Wahrscheinlichkeiten (vgl. Gl. 6.53). Diese werden hier in Form der Konturen der multivariaten Normalverteilungen der drei Klassen dargestellt. Das unbekannte Objekt wird in diesem Beispiel der Klasse A (Diamantensymbole) zugeordnet, da die Wahrscheinlichkeit hier mit annähernd 1 deutlich größer ist als die für die Klasse B (Quadrate) oder die Klasse C (Kreise)
C (gepunktete Höhenlinien) umschlossen. Dementsprechend ist die Wahrscheinlichkeitsdichte in diesem noch kleiner als im Fall von Gruppe B. Das Bakterium wird derjenigen Klasse zugeordnet, für die die Wahrscheinlichkeitsdichte maximal ist. Im vorliegenden Fall ist diese mit 0,838 für die Klasse A am größten, und das unbekannte Bakterium wird der Gruppe A zugeordnet, was in Übereinstimmung mit der kNN-Klassifizierung ist. In Tab. 6.12 sind die Wahrscheinlichkeitsdichten p(x X |ck ) für die drei Klassen nochmals aufgeführt. Eine kleine Anmerkung an dieser Stelle: Für dieses Beispiel, können Sie relativ leicht auch die Posterior-Wahrscheinlichkeit berechnen, indem Sie jeden Wert in Tab. 6.12 durch die Summe aller Werte teilen. Wie Sie sehen, wird bei der Bayes’schen Klassifikation im Gegensatz zur kNN-Methode vorausgesetzt, dass die Wahrscheinlichkeitsdichte der Daten bekannt ist oder zumindest geschätzt werden kann. Eine gute Schätzung dieser Parameter erhalten Sie aber nur, wenn Sie einen ausreichend großen Trainingsdatensatz haben. Die Bayes’sche Klassifikation besticht durch ihre Einfachheit und ist, wie wir gesehen haben, auch relativ einfach in Excel zu berechnen. Sie sollten jedoch im Hinterkopf behalten, dass sie voraussetzt, dass die einzelnen Objekteigenschaften voneinander unabhängig sind, was sicherlich nicht immer gegeben ist. Die Bayes’sche Klassifikation findet bspw. Anwendung bei der Identifizierung von SpamMails.
6.3
Methoden der überwachten Klassifikation
Tab. 6.12 LikelihoodWerte zur Bestimmung der Klassenzuordnung des unbekannten Bakteriums X zu einer der drei Klassen
6.3.3
231
Wahrscheinlichkeitsdichte
Klasse
0,838
A
7,47E − 06
B
6,30E − 09
C
Support Vector Machine-Klassifizierung
Die Support Vector Machine-Klassifizierung, kurz SVM, zeichnet sich durch lineare Entscheidungsgrenzen aus. Hierbei soll zwischen zwei Klassen, sagen wir ⊕ und , diejenige Gerade gefunden werden, zu der die Objekte an beiden Klassengrenzen (support vectors) einen möglichst großen Abstand (engl. margin) haben (siehe Abb. 6.9). Falls die Objekteigenschaften und somit die Objektvektoren mehr als zwei Dimensionen haben, wird natürlich aus der Geraden eine Hyperebene. Eine solche Hyperebene ist, wie Sie vielleicht noch aus Ihrer Grundvorlesung Mathematik wissen, über ihren (senkrechten) Abstand b vom Koordinatenursprung und über einen auf dieser Ebene senkrecht stehenden Vektor w definiert. Vektoren x in dieser Ebene sind all diejenigen, die folgende Gleichung erfüllen: f (x) = w · x + b = 0
(6.54)
Hierbei ist w·x das Skalarprodukt von w und x. Vektoren, deren Endpunkte unterhalb dieser Ebene liegen, haben ein negatives Vorzeichen, während Vektoren, die oberhalb der Ebene liegen ein positives Vorzeichen haben. Bei der Support Vector Machine-Klassifizierung wird das Problem derart skaliert, dass für die Vektoren der beiden Klassen gilt: f (x) = w · x⊕ + b ≥ +1
(6.55)
f (x) = w · x + b ≤ −1
(6.56)
Alle Vektoren der ⊕-Klasse, die nicht zu den support vectors zählen, führen zu Werten von f (x) > 1. Entsprechend führen alle Vektoren der -Klasse, die nicht zu den support vectors gehören, zu Werten von f (x) < −1. Für die support vectors gilt jeweils das Gleichheitszeichen in Gl. 6.55 bzw. 6.56. Die entsprechenden Hyperebenen wx + 1 und wx − 1 sind ebenfalls in Abb. 6.9 dargestellt. Die Lage der Trennebene zwischen den Klassen wird also implizit durch die Lage der beiden support vector-Ebenen bestimmt. Um die Notationen weiter unten etwas zu vereinfachen und nicht immer die entsprechende Fallunterscheidung für jede Klasse einzeln machen zu müssen, findet man in der Literatur oft die Einführung einer Variablen yi , die wie folgt definiert ist: +1, f¨ur ein ⊕ -Objekt (6.57) yi = −1, f¨ur ein -Objekt
232
6 Multivariate Datenanalyse
Dadurch wird aus Gl. 6.55 bzw. 6.56: f (x) = yi (w · xi + b) ≥ 1
(6.58)
Den Abstand d der support vectors x⊕ und x kann man relativ leicht berechnen, indem man den Differenzvektor dieser Vektoren skalar mit dem Einheitsvektor w/ w multipliziert: w · (x⊕ − x ) (6.59) d=
w
Der Ausdruck kennzeichnet hierbei die Vektornorm. Setzen wir w · x⊕ bzw. w · x aus Gl. 6.55 bzw. 6.56 in Gl. 6.59 ein, so finden wir, dass sich der Abstand d berechnet zu8 : d=
2
w
(6.60)
Um nun die Entscheidungsgrenze zu finden, muss ein Optimierungsproblem mit Nebenbedingungen gelöst werden, und zwar eine Maximierung des Abstands d zwischen den support vectors, unter der Nebenbedingung in Gl. 6.58. Eine Maximierung von d entspricht einer Minimierung von w (vgl. Gl. 6.60) bzw. einer Minimierung von 1/2 · w 2 = 1/2 · w · w. Es hat gewisse Vorteile, diese (quadrierte) Form zu wählen9 . Dadurch erhalten wir die vorläufige Optimierungsfunktion: 1 (6.61) Ψ (w) = w 2 2 Damit kommen wir aber leider nicht weit. Wenn Sie versuchen würden, eine die Klassen trennende Hyperebene durch Minimierung von Gl. 6.61 zu finden, wird Ihnen diese bei der Optimierung „weglaufen“. Die Klassengrenze entfernt sich dabei möglichst weit von allen Datenpunkten. Wir müssen an dieser Stelle die Nebenbedingungen in Gl. 6.58 mit berücksichtigen, damit die Hyperebene nicht „weglaufen“ kann. Die Nebenbedingungen können, unter Verwendung von Lagrange-Multiplikatoren10 αi ≥ 0, in die zu optimierende Funktion 6.61 integriert werden und dadurch folgende Lagrange-Funktion erhalten wird: 1 w·w− αi (yi (w · xi + b) − 1) 2 n
L(w, b, α) =
(6.62)
i=1
8 Sollten Sie an dieser Stelle Probleme haben, mir zu folgen, hoffe ich, dass Ihnen die mathematischen
Grundlagen im Anhang weiterhelfen. Für eine noch detailliertere Behandlung der mathematischen Grundlagen zu diesem Thema kann ich Ihnen wärmstens dieses Buch [4] ans Herz legen. 9 Für zwei Werte x ≤ x gilt immer auch x 2 ≤ x 2 , sofern x , x ≥ 0 gilt, was bei der Vektornorm 1 2 1 2 1 2 gegeben ist. Die Vorteile der quadrierten Form und des Vorfaktors 1/2 werden Sie weiter unten sehen. 10 Bitte hier nochmals beachten, dass die Lagrange-Multiplikatoren hier größer oder gleich null sein müssen. Wenn man bspw. negative αi zulassen würde, dann könnten manche Trainingsvektoren die falsche Klassenzuordnung bekommen. Wie wir später feststellen werden, sind die LagrangeMultilpikatoren nur für die support vectors ungleich null.
6.3
Methoden der überwachten Klassifikation
233
Wenn Sie L(w, b, α) nun jeweils nach w und b partiell ableiten, was Sie gerne mal händisch ausprobieren können, sollten Sie folgende Ergebnisse erhalten: ∂ L(w, b, α) =w− Lw ≡ αi yi xi = 0 ∂w n
Lb ≡
∂ L(w, b, α) =0− ∂b
i=1 n
αi yi = 0
(6.63)
(6.64)
i=1
Sie sehen anhand von Gl. 6.63, dass der Vektor w, der ein entscheidender Faktor in der Entscheidungsregel Gl. 6.58 darstellt, selbst eine Funktion der Trainingsvektoren xi darstellt: w=
n
αi yi xi
(6.65)
i=1
Nun sehen Sie auch, warum wir in Gl. 6.61 den Vorfaktor 1/2 und die quadrierte Form gewählt haben, nämlich damit wir nach der Differentiation (Gl. 6.63) bei w auskommen. Wenn wir Gl. 6.64 umstellen und nochmals nach den beiden Klassen aufteilen: n
αi yi = 0
(6.66)
i=1
Wenn Sie die in den Gl. 6.63 bis 6.64 erhaltenen Lösungen wieder in Gl. 6.62 substituieren, erhalten Sie letztlich die nachfolgende Gleichung für L(w, b, α): L(w, b, α) =
n i=1
mit den Nebenbedingungen:
n
1 yi y j αi α j xiT x j 2 n
αi −
n
i=1 j=1
(6.67)
αi yi = 0 und αi ≥ 0 f¨ur alle i = 1, . . . , n
i=1
L hängt nur noch von den Lagrange-Multiplikatoren αi ab und ist eine Funktion der Skalarprodukte und der Trainingsvektoren. Es taucht kein w und b mehr in Gl. 6.67 auf. Außerdem ist nach dem Einsetzen der Lösungen des Gleichungssystems aus der ursprünglichen Minimierung wiederum eine Maximierung geworden, denn in Gl. 6.67 steht ja nichts n αi − 21 w T w, bei dem der zweite Term unsere vorläufige Optimierungsfunktion anderes als i=1
(Gl. 6.61) mit negativem Vorzeichen darstellt. Die vorläufige Optimierungsfunktion Ψ (w) wollten wir minimieren, d. h., aufgrund des negativen Vorzeichens vor Ψ (w) in Gl. 6.67 wollen wir L(w, b, α) maximieren. Alles bisher Gesagte bezieht sich auf den Fall, dass unsere zwei Klassen nicht miteinander überlappen. Falls dies doch der Fall sein sollte, muss dem Rechnung getragen werden,
234
6 Multivariate Datenanalyse
Abb. 6.9 Prinzip der Support Vector Machine-Klassifizierung
w
b x+
=+
1
w
w
b
x+
b=
0
w
b x+
=-
1
Abb. 6.10 Prinzip der Support Vector Machine-Klassifizierung mit slack-Variablen
indem sogenannte Schlupfvariablen ζi ≥ 0 (engl. slack variables) eingeführt werden (vgl. Abb. 6.10). Sie messen den Abstand des jeweils überlappenden Objektes von der eigentlichen Entscheidungsgrenze. Durch die Einführung dieser Variablen, ändert sich Ψ (w) in Gl. 6.61 wie folgt: " ! n 1 Ψ (w, ζ ) = min w·w+C ζi 2 (6.68) i=1
unter der Bedingung yi (w · xi + b) ≥ 1 − ζi mit ζi ≥ 0
6.3
Methoden der überwachten Klassifikation
235
Hierbei ist C eine durch den Anwender zu wählende Konstante. Wird C sehr groß gewählt, so kann L(w, b) nur dadurch klein bleiben, dass möglichst wenige Objektvektoren auf der „falschen“ Seite sind (ζi ist null für möglichst alle Objektvektoren) oder dass die auf der „falschen“ Seite liegenden Objektvektoren einen möglichst geringen Abstand zu ihrer Entscheidungsgrenze haben (ζi ist klein). Demnach sind mehr „Falschklassifizierungen“ erlaubt, wenn C klein gewählt wird11 . Die Entscheidungsgrenzen sind dadurch nicht so hart (engl. soft margin). Auch hier werden die Nebenbedingungen wiederum in die zu optimierende Funktion mithilfe von Lagrange-Multiplikatoren integriert: 1 w·w− αi (yi (w · xi + b) − (1 − ζi )) + C ζi − βi ζi 2 i=1 i=1 i=1 (6.69) Würden wir jeweils die partiellen Ableitungen L x , L b und nun noch L ζ bilden, dann kommt raus, dass die Optimierungsfunktion dieselbe ist wie in Gl. 6.67. Lediglich die zweite Nebenbedingung ändert sich in: n
n
n
L(w, b, α, ζ, β) =
0 ≤ αi ≤ C f¨ur i = 1, . . . , n
(6.70)
Bis hierin habe ich Ihnen gezeigt, wie man die Parameter der Entscheidungsfunktion (Gl. 6.54) unter Berücksichtigung aller Bedingungen anhand der Trainingsdaten optimiert. Wie klassifiziert man denn nun ein noch unbekanntes Objekt mit dem Eigenschaftsvektor u? Dafür setzen Sie einfach u anstelle von xi in besagte Entscheidungsfunktion ein und erhalten eine Zahl f (u), die angibt, welcher Klasse u zugeordnet werden soll: f (u) = w · xi u + b
(6.71)
Ist diese Zahl kleiner null, dann wird sie der -Klasse zugeordnet und sonst der ⊕Klasse. Ich zeige Ihnen nun anhand eines kleinen Beispiels, wie Sie eine Support Vector Machine-Klassifikation in Excel machen können. Beispiel 6.6 Für unser Beispiel nehmen wir die Trainingsdaten der Klassen A und C aus Tab. 6.10, die in folgender Tab. 6.13 aufgeführt sind. Bitte beachten Sie, dass ich die Daten zuvor standardisiert habe. Bitte beachten Sie auch, dass ich die ursprünglichen Gruppenbezeichnungen von A in 1 und von C in −1 geändert habe. Das hat damit zu tun, dass man darüber direkt das yi in Gl. 6.57 erhält. Das nach der Trainingsphase zu klassifizierende unbekannte Objekt X habe ich wiederum in die letzte Zeile geschrieben. Wenn Sie sich die Trainingsdaten einmal grafisch darstellen (vgl. Abb. 6.7), dann sehen Sie, dass die beiden genannten Gruppen nicht überlappen, d. h., wir können die slack-Variablen und die zugehörigen
11 C wird in der Literatur auch Komplexitätskonstante genannt.
236
6 Multivariate Datenanalyse
Gleichungen außer Acht lassen. Unsere Optimierungsfunktion ist also die in Gl. 6.67. Hierbei wirkt vielleicht die Doppelsumme mit dem paarweisen Skalarprodukt xiT x j auf den ersten Blick Furcht einflößend und nur auf Umwegen in Excel berechenbar. Bedenken Sie aber, dass jedes Skalarprodukt xiT x j selbst eine Summe ist, so gilt: {1} {1}
{2} {2}
xiT x j = xi x j + xi x j
(6.72)
Mit den geschweiften Klammern kennzeichne ich hier das 1. und 2. Element des Vektors xi bzw. x j . Setzen wir das in die Gleichung für die Optimierungsfunktion ein, so erhalten wir für dieses Beispiel: 1 yi y j αi α j xiT x j (6.73) 2 i=1 i=1 j=1 ⎞ ⎛ n n n
1 ⎝ {1} {1} {2} {2} (6.74) αi − yi y j αi α j xi x j + xi x j ⎠ = 2 i=1 i=1 j=1 ⎛ ⎞ n n n n n 1 ⎝ {1} {1} {2} {2} ⎠ = αi − yi y j αi α j xi x j + yi y j αi α j xi x j 2
L(w, b, α) =
n
i=1
n
n
αi −
i=1 j=1
i=1 j=1
(6.75) ⎛ ⎞ n n n n n 1 ⎝ {1} {1} {2} {2} = αi − yi αi xi yjαjx j + yi αi xi yjαjx j ⎠ 2 i=1
i=1
j=1
i=1
⎛! "2 ! n "2 ⎞ n n 1 {1} {2} ⎠ = αi − ⎝ yi αi xi + yi αi xi 2 i=1
i=1
j=1
(6.76) (6.77)
i=1
Sie sehen, die Berechnung der Optimierungsfunktion reduziert sich letztlich auf die Berechnung der drei einfachen Summen in Gl. 6.77. Wenn Sie die Daten in Excel ähnlich wie in Tab. 6.13 vorliegen haben, dann können Sie bspw. die (noch zu opti{1} {2} mierenden) αi in die 4. Spalte schreiben und jeweils die Werte yi αi xi bzw. yi αi xi in der 5. bzw. 6. Spalte berechnen. Sie fügen noch eine 7. Spalte hinzu, in der Sie jeweils αi yi berechnen, deren Summe wir gleich für die Nebenbedingung brauchen. Am Ende summieren Sie jeweils die Elemente der vier genannten Spalten auf und berechnen anschließend in einer separaten Zelle die Optimierungsfunktion (Gl. 6.77). Danach müssen Sie Ihre αi unter den genannten Nebenbedingungen optimieren. Wie so oft, verwenden wir auch hier wieder den Solver. Die Zielzelle ist die, in der Sie L(w, b, α) berechnet haben. Diese wollen Sie maximieren durch Ändern der αi . Als
6.3
Methoden der überwachten Klassifikation
237
n Nebenbedingungen fügen Sie αi ≥ 0 für alle i und i=1 αi yi = 0 hinzu, indem Sie im Solver-Fenster auf Hinzufügen klicken, jeweils die Zellen markieren, die die αi -Werte bzw. die i = 1n αi yi -Werte enthalten und auf OK klicken. Nachdem Sie auf Lösen geklickt haben und die Optimierung erfolgreich war, dann sollten Sie (s) sehen, dass nur zwei der αi = 0 sind. Die zugehörigen Vektoren xi sind die support vectors. Einer der beiden gehört zur Klasse 1, der andere zur Klasse −1. Wir können nun mithilfe von Gl. 6.65 den senkrecht auf der Hyperebene stehenden Vektor w berechnen. Im Grunde genommen haben wir seine Elemente bereits berechnet, und zwar bei der Summierung der Elemente der vier Spalten von oben. Mit w und einem der support vectors können wir außerdem den Bias berechnen. Für den support vector der Klasse 1 gilt nämlich: b = 1 − w · x(s) (6.78) Zum Schluss wollen wir noch unser unbekanntes Objekt klassifizieren. Hierzu wenden wir Gl. 6.71 an und erhalten mit f (u) = 2,26 ≥ 0 die Information, dass das unbekannte Objekt der Klasse 1 angehört. Die entsprechenden Daten inklusive der Hyperebene (durchgezogene Linie) und der margins (gestrichelte Linien) sind in Abb. 6.11 dargestellt. Hier sehen Sie, dass die margins der Klasse 1 von einem und von Klasse −1 von zwei support vectors gestützt werden. Wie Sie die Hyperebene und die margins zeichnen, überlasse ich Ihnen als Übung. In der Praxis sind Daten häufig nicht linear trennbar, d. h., eine Hyperebene würde zu keiner brauchbaren Klassifikation führen. Mit dem sogenannten Kernel-Trick ergibt sich oft dennoch eine Trennung solcher Daten, indem diese in einen anderen Raum transformiert werden, in dem sie mithilfe einer Hyperebene dann separierbar sind. Im ursprünglichen Datenraum
3 2 1
x2
Abb. 6.11 Zur Veranschaulichung der Support Vector Machine-Klassifizierung des unbekannten Objektes X und der beiden Trainingsdatensätze 1 und −1. Die blaue Linie zeigt die Entscheidungsgrenze, die beiden gestrichelten Linien zeigen die margins
−1 1
−1
1
−2 −3
−2
1
−1
−1
−1 −1
1
0
−1
1
0 x1
1
2
238
6 Multivariate Datenanalyse
Tab. 6.13 Beispieldatensatz zur Support Vector Machine-Klassifizierung x1
x2
y
−1,32
−0,66
1
−1,10
−0,93
1
−1,29
−1,13
1
−0,28
−1,35
1
−0,35
0,11
1
1,25
1,45
−1
0,75
0,16
−1
0,48
0,79
−1
0,72
1,34
−1
1,14
0,21
−1
−0,78
−2,07
X
Tab. 6.14 Berechnungsergebnisse der SVM-Klassifizierung der standardisierten Daten in Tab. 6.13 (s)
(s)
x1
x2
y
α
α yx1
α yx2
αy
−1,32 −1,10 −1,29 −0,28 −0,35 1,25 0,75 0,48 0,72 1,14
−0,66 −0,93 −1,13 −1,35 0,11 1,45 0,16 0,79 1,34 0,21
1 1 1 1 1 −1 −1 −1 −1 −1
0,00 0,00 0,00 0,00 1,88 0,00 0,81 1,07 0,00 0,00
0,00 0,00 0,00 0,00 −0,67 0,00 −0,60 −0,51 0,00 0,00
0,00 0,00 0,00 0,00 0,22 0,00 −0,13 −0,85 0,00 0,00
0,00 0,00 0,00 0,00 1,88 −0,35 0,11 0,00 −0,81 0,75 0,16 −1,07 0,48 0,79 0,00 0,00
3,76
−1,78 −0,76 0,00
x1
0,87
x2
1,06
b
w1
w2
−1,78 −0,76
0,46 0,46 0,46
1,37
wäre die entsprechende Entscheidungsgrenze nicht mehr linear. Abb. 6.12 (links) soll dies verdeutlichen. Da der Kernel nur auf diejenigen Ausdrücke in Gl. 6.67 angewandt wird, die die Trainingsvektoren enthalten, erhält man bspw. bei einem quadratischen Kernel (vgl. Abb. 6.12 rechter Teil):
6.3
Methoden der überwachten Klassifikation
239 x22
x2
x1
x12 21/2x2x1
Abb. 6.12 Zum Kernel-Trick bei der SVM
2 K (x, y) = x T y = (x1 y1 + x2 y2 )2 2 = x12 y12 + 2x1 x2 y1 y2 + x22 y22
T √
√ y12 , 2y1 y2 , y22 = x12 , 2x1 x2 , x22
x˜
(6.79)
x˜
= Φ(x)T Φ(y) Φ(x) stellt hierbei die Funktionsvorschrift dar, wie aus dem ursprünglich zweidimensionalen Vektor x ein dreidimensionaler Vektor x˜ berechnet wird. Dies ist somit die Transformationsgleichung. Interessanterweise muss man diese nicht kennen, da die Transformation 2 einfach direkt auf das Skalarprodukt x T y angewandt wird. Sie sehen, dass man mithilfe des Kernel-Tricks ein Problem relativ leicht in eine höhere Dimension transformieren kann und hier in der Regel eine bessere Separierbarkeit der Klassen erreichen sollte. Weitere häufig verwendete Kernel sind im Folgenden aufgeführt: • Polynomischer Kernel: • Gauß’scher Kernel:
• Sigmoider Kernel:
d K (x, y) = x T y + a1
x − y 2 K (x, y) = exp − 2σ 2
(6.80)
K (x, y) = tanh a1 x T y + a2
(6.81)
(6.82)
240
6 Multivariate Datenanalyse
Abschließend möchte ich darauf hinweisen, dass die mathematischen Ableitungen in diesem Abschnitt zu SVM auf den Zwei-Klassen-Fall bezogen waren. In der Praxis hat man natürlich oft mehr als zwei Klassen. Solche Mehr-Klassen-Fälle lassen sich jedoch relativ leicht als multiple binäre Klassifikationen behandeln, d. h., die in diesem Abschnitt gezeigten mathematischen Ableitungen behalten ihre Allgemeingültigkeit. 6.5 Übung In Beispiel 6.6 hatten wir uns über slack-Variablen keine Gedanken gemacht, da die beiden Trainingsklassen genügend weit auseinanderliegen und keine Überlappung aufweisen. Berücksichtigen Sie in dieser Übung dennoch einmal die slack-Variablen bei SVMKlassifizierung dieser Daten in Excel und testen Sie hierbei zwei verschiedene Werte für die Konstante C (vgl. Gl. 6.68). Testen Sie für Letztere einen kleinen Wert (bspw. C = 0,5) und einen großen Wert (bspw. C = 100) und beobachten Sie, wie sich die Entscheidungsgrenze und die margins verändern. Standardisieren Sie bitte die Daten vorher.
6.3.4
Klassifizierung mittels Entscheidungsbäumen
Die Klassifizierung mittels Entscheidungsbäumen ist in meinen Augen ziemlich intuitiv. Angenommen, wir haben einen Datensatz zweier Trainingsklassen (natürlich gilt das Verfahren allgemein auch für mehrere Klassen). Mit diesen Daten soll nun ein Entscheidungsbaum erstellt werden, durch den Daten der Trainingsobjekte möglichst gut auf ihre beiden Klassen aufgeteilt werden. Dazu wird an der Wurzel des Entscheidungsbaumes zunächst mit allen Daten begonnen (siehe Abb. 6.13). Am ersten Knotenpunkt wird eine erste Aufspaltung der Daten anhand eines bestimmten Merkmals vorgenommen, und zwar derart, dass Daten derselben Trainingsklasse nach der Aufspaltung möglichst noch zusammen sind. Ein Merkmal kann bspw. die Länge eines Datenvektors sein. Da der Algorithmus vorab nicht weiß, welches Merkmal zu einer sol-
Abb. 6.13 Zum Prinzip der Entscheidungsbäume. Anhand von Trainingsklassen (hier als Quadrate, Dreiecke, Kreise und Sterne dargestellt) wird ein Entscheidungsbaum basierend auf bestimmten Merkmalen aufgebaut. Ein solcher Baum dient anschließend zur Klassifikation ein- oder mehrerer unbekannter Datensätze
Merkmal 1
Merkmal 2
Merkmal 3
6.3
Methoden der überwachten Klassifikation
241
chen Aufspaltung führen wird, werden entweder alle Merkmale oder eine Teilmenge davon am Knotenpunkt getestet und anhand einer durch den Anwender vordefinierten Metrik die Reinheit der Daten aus den jeweiligen Klassen nach der Aufspaltung bestimmt. Hierzu gibt es diverse Metriken wie die Varianz, die Entropie oder der sogenannte Gini-Index. Gehen bspw. zwei Zweige von einem Knotenpunkt ab, der die Daten in N L Objekte am linken Zweig und N R Objekte am rechten Zweig aufspaltet, dann berechnet sich die Änderung der Reinheit ΔI (N ) zu: ΔI (N ) = I (N ) − a L I (N L ) − (1 − a L )I (N R )
(6.83)
Hierbei entspricht N = N L + N R der Gesamtanzahl der Objekte am Knotenpunkt, I der Reinheitsmetrik und a L = N L /(N L + N R ) entspricht dem Anteil der Elemente aus N , die den linken Zweig entlang zu einem neuen Knoten gelangen. Dementsprechend ist 1−a L derjenige Anteil der Elemente aus N , die den rechten Zweig entlang zu einem neuen Knoten gelangen. Schließlich wird dasjenige Merkmal, aus der Menge aller Merkmale zur Aufspaltung, verwendet, das ΔI (N ) maximiert. Ohne eine entsprechende Kontrolle, würden dadurch z. T. große Entscheidungsbäume erstellt, die sich zwar sehr gut die Trainingsdaten aufspalten, aber für die anschließende Klassifikation von Testdaten ungeeignet wären. Es würde demnach auch hier zunächst zum overfitting kommen. In Abschn. 6.3.6 stelle ich Methoden vor, wie Sie solche Situationen verhindern können. Statt an jedem Knotenpunkt alle Merkmale zur Aufspaltung testen, gibt es Algorithmen, die lediglich mit einer Teilmenge aller Merkmale arbeiten. Bei der Random Forest(RF)-Klassifizierung werden bspw. nur r der n Merkmale zufällig ausgewählt und zur Aufspaltung an den Knoten verwendet. Das hat den positiven Effekt, dass der Aufbau des Entscheidungsbaums deutlich schneller geht als bei Algorithmen, die mit allen Merkmalen arbeiten. Andererseits kann es dann vorkommen, dass diese r Variablen nicht sehr gut geeignet sind, um die Daten gut zu trennen. Daher werden bei der RF-Methode die Objekte nicht nur mit einem Entscheidungsbaum klassifiziert, sondern mit vielen, wobei jeder Baum unterschiedlich aussieht. Wir haben es also mit einem Wald (engl. forest) zu tun, bei dem die Größe der Bäume zufällig (engl. random) ist, also wie im wahren Leben. Bei der Klassifizierung unbekannter Daten werden diese jeweils durch diese vielen Entscheidungsbäume klassifiziert. Am Ende wird das Objekt dann per Mehrheitsentscheid einer Klasse zugeordnet. Objekterkennung mittels Random Forest-Methode findet übrigens eine breite Anwendung. So z. B. bei der Bildanalyse. Bilder von unbekannten Zellen können so mithilfe eines einmal trainierten Random Forest klassifiziert werden [5].
6.3.5
Klassifizierung mittels künstlicher neuronaler Netze
Den Trendbegriff „Deep Learning“ haben Sie vielleicht schon einmal gehört, v. a. Dingen im Zusammenhang mit ihrer unvergleichlichen Performance bei der Erkennung von Objekten auf Bildern. Hierfür werden in aller Regel neuronale Netze eingesetzt, um die es in diesem Abschnitt gehen soll. Schauen wir uns zunächst den prinzipiellen Aufbau eines natürlichen
242
6 Multivariate Datenanalyse
Neurons an und machen anschließend den Vergleich zum künstlichen Neuron. Ein Neuron besteht aus einem Zellkörper, der in Zellfortsätze übergeht. Es gibt zwei Typen von Zellfortsätzen, die Dendriten und das Axon (vgl. Abb. 6.14a). Während es mehrere Dendriten gibt, durch die Neuronen Nervenimpulse von anderen Neuronen empfangen können, gibt es nur eine Nervenleitung, das Axon, über das Nervenimpulse ein Neuron verlassen. Die Axonenden können auch verästelt sein und enthalten die Synapsen, an denen der elektrische Nervenimpuls chemisch (über sogenannte Neurotransmitter) an die Dendriten anderer Zellen (Neuronen, Muskelzellen, etc.) weitergeleitet wird. Das Signal wird demnach in eine Richtung geleitet (engl. feedfworward). Der Zellkörper (auch Soma genannt) verarbeitet die ankommenden Signale. Damit ein Neuron ein Signal weiterleitet, bedarf es entweder des Vorhandenseins von mehreren kurz aufeinanderfolgenden Signalen über eine Synapse, oder dem zeitgleichen Ankommen von Signalen über mehrere Synapsen. Das macht biologisch Sinn, denn ab und an feuern Neuronen blind, d. h., es wird eine Spannung aufgebaut, ohne dass es einen entsprechenden Reiz von außen dazu gab. Würde durch jedes Feuern eine Reizweiterleitung entstehen, dann wäre unser Nervensystem nur noch mit solchen „Blindgängern“ beschäftigt und Sie können sich vorstellen, dass wir in der Evolution vermutlich nicht sehr weit gekommen wären. Damit also ein Ausgangssignal erzeugt wird, müssen die aufsummierten Eingangssignale einen Schwellwert, der oberhalb einer gewissen Basislinie liegt (die werden wir weiter unten als Bias bezeichnen), überschreiten. Kommen wir nun zu den künstlichen Neuronen, denn auch diese wurden anfangs so konzipiert, dass ein Schwellwert erreicht werden musste, damit am anderen Ende (dem künstlichen Pendant zum Axon) ein Ausgangssignal größer null erzeugt wurde. Aber alles der Reihe nach. Angenommen, beim künstlichen Neuron kommen n verschiedene Eingangssignale xi an (vgl. Abb. 6.14b). Diese werden innerhalb des Zellkörpers (Kreis mit -Zeichen) mit den Gewichten wi gewichtet und dann aufsummiert. Die resultierende Summe, auch Präaktivierung genannt, wird anschließend einer nicht-linearen Aktivierungsfunktion (Kasten in Abb. 6.14b) zugeführt. Häufig wird hierfür eine Stufenfunktion der folgenden Form verwendet: ⎧ n ⎪ ⎪ wi xi ≤ T ⎨0 falls i=1 z= (6.84) n ⎪ ⎪ wi xi > T ⎩1 falls i=1
Hierbei ist T ein zuvor definierter Schwellwert. Ich möchte an dieser Stelle eine Notation einführen, wie Sie auch in der Literatur häufig verwendet wird und wie sie uns weiter unten das Leben etwas erleichtert. Hierzu ziehe ich T in Gl. 6.84 auf die linke Seite der Ungleichung und führe zugleich den Bias b ≡ −T ein. Dadurch wird Gl. 6.84 zu: 0 falls w T x + b ≤ 0 (6.85) z= 1 falls w T x + b > 0
6.3
Methoden der überwachten Klassifikation
243
Wie Sie sehen, habe ich in Gl. 6.85 die Vektornotation für das Skalarprodukt in Gl. 6.84 verwendet. Hieran sieht man auch, dass für einen gegebenen Bias das Neuron umso wahrscheinlicher feuern (z = 1) wird, je ähnlicher sich die Vektoren w und x sind, denn dann geht z gegen eins. Übrigens sollte Ihnen ein ähnlicher Ausdruck wie in Gl. 6.85 bekannt vorkommen, nämlich im Zusammenhang mit Support Vector Machines (vgl. Gl. 6.58). Tatsächlich ist Gl. 6.85 nichts anderes als eine Klassifizierungsregel für die zwei Klassen 0 bzw. 1. Leider hat die Form dieser Aktivierungsfunktion den Nachteil, dass sie nicht differenzierbar ist, was aber wichtig ist im Hinblick auf die Optimierung der Gewichte bei der überwachten Klassifikation. Darauf gehe ich weiter unten noch im Detail ein. Alternativ wird in der Praxis daher häufig eine sigmoidale Aktivierungsfunktion der Form: z=
1 1 + exp(−α)
(6.86)
genommen, wobei α ≡ w T x + b ist. Wie Sie schnell sehen können, kann z in einem solchen Fall kontinuierlich Werte zwischen null und eins annehmen. Das Schöne an dieser Funktion ist, dass Sie relativ leicht (sogar) analytisch zu differenzieren ist: dz = (1 − z)z dα
(6.87)
Probieren Sie es aus, entweder Sie verwenden die Quotienten- oder die Substitutionsregel der Differentialrechnung. Wir werden gleich sehen, warum diese Differenzierbarkeit eine so schöne Eigenschaft ist. Wie bereits erwähnt, werden bei der Optimierung (auch Training genannt), die Gewichte an die Klassifikationsaufgabe angepasst, d. h., es werden, wie gehabt, in einer Trainingsphase zunächst Daten x1 , . . . , xn mit bekannter Klassenzugehörigkeit y1 , . . . , yn an das Neuron übergeben. Für einen gegebenen Satz an Gewichten wi wird die Klassenzuordnung z mit der tatsächlichen Klassenzuordnung auf Basis einer Abstandsfunktion verglichen. Eine häufig verwendete Abstandsfunktion (auch Performance-Funktion genannt) ist die euklidische Distanz P (vgl. hierzu auch Abschn. 6.2.2.1): P(w, b) =
n
(yi − zi )2
(6.88)
i=1
Wir stoßen hier auf ein klassisches Optimierungsproblem, bei dem die Gewichte w und die Bias variiert werden, damit P(w, b) möglichst klein wird. Hierzu können Gradientenbasierte Methoden herangezogen werden, die numerisch die partiellen Ableitungen von P(w, b) berechnen (vgl. hierzu auch Abschn. 5.2.1): Δw = η∇ P
(6.89)
Der Vektor ∇ enthält hierbei die partiellen Ableitungen von P, u. a. nach z. Wenn nun z eine nicht differenzierbare Funktion (wie die Stufenfunktion in Gl. 6.85) wäre, dann könnte kein Gradienten-basiertes Verfahren zur Lösung des Optimierungsproblem herangezogen
244
6 Multivariate Datenanalyse
werden, daher werden glatte Funktionen wie in Gl. 6.86 bevorzugt. η ist die sogenannte Lernrate und bestimmt mathematisch gesehen, wie groß bei jeder Iteration des Gradientenverfahrens der Schritt in Richtung Minimum von P(w, b) sein soll. Bei jeder Iteration wird also ein neuer Gewichts- w und Bias-Vektor b basierend auf dem Vorgänger berechnet: ∂P ∂wi ∂P bj = b j − η ∂b j
wi = wi − η
(6.90) (6.91)
Man sagt auch, das neuronale Netz lernt dabei neue Gewichte. Für ein Neuron sind die partiellen Ableitungen in Gl. 6.90 und 6.91 noch relativ leicht zu berechnen. Was aber, wenn sich verschiedene Neuronen zusammenschließen und Sie es mit einem Netz zu tun haben, wo es womöglich auch noch verschiedene Schichten von Neuronen gibt? Über solche neuronalen Netze werde ich im Folgenden noch mehr sagen. Schematisch ist ein solches Netz in Abb. 6.15 dargestellt. Es besteht hier aus drei Schichten (engl. layer), einer Eingabeschicht (links), einer versteckten Schicht (mittig) und einer Ausgabeschicht (rechts). Die englischen Bezeichnungen haben sich auch in der deutschen Literatur durchgesetzt. Die Eingabeschicht heißt input layer, die versteckte Schicht hidden layer und die Ausgabeschicht output layer. Wie Sie beim Vergleich mit Abb. 6.14 erkennen können, habe ich der Übersichtlichkeit halber die Aktivierungsfunktion in den Neuronenkörper hereingezogen. Bitte beachten Sie, dass nicht alle Neuronen dieselbe Form von Aktivierungsfunktion haben müssen. Häufig wird innerhalb einer Schicht dieselbe Form der Aktivierungsfunktion verwendet, doch diese kann zwischen den Schicht durchaus unterschiedlich sein. Häufig werden über die Neuronen innerhalb der ersten Schicht (Eingabeschicht) lediglich die gewichteten Summen berechnet und diese nicht an eine Aktivierungsfunktion übergeben. Die Ausgaben werden dann jeweils die Eingaben an die Neuronen der versteckten Schicht, in denen dann die gewichteten Summen an eine nicht-lineare Aktivierungsfunktion übergeben werden. Die (nicht-lineare) Ausgabe der versteckten Schicht ist dann schlussendlich die Eingabe an die Neuronen der Ausgabeschicht, in denen die Inputs nochmals gewichtet und wieder einer, im Allgemeinen, nicht-linearen Aktivierungsfunktion übergeben werden. Dieses nacheinander erfolgende Ausführen von nicht-linearen Transformationen der gewichteten Eingangsdaten kann auch dazu verwendet werden, um beliebige nicht-lineare Funktionen mithilfe neuronaler Netze zur approximieren. In diesem Buch [6] ist das sehr anschaulich beschrieben. Die Güte der Approximation hängt v. a. von der Anzahl der Neuronen und der Anzahl versteckter Schichten ab12 . Das ist vergleichbar mit Fourierreihen. Was bei diesen die Kosinusfunktion (bzw. Sinusfunktion) ist, ist bei neuronalen Netzen die Aktivierungsfunktion. Tatsächlich kann man eine Fourierreihe selbst durch ein neuronales Netz beliebig gut annähern [7]. Ich möchte an dieser Stelle ein Beispiel für eine binäre Klassifikation mit einem Neuron geben, bei dem anhand von zwei Trainingsdatensätzen die 12 Neuronale Netze mit mehr als einer versteckten Schicht nennt man auch tiefe neuronale Netze
(engl. deep neural networks).
6.3
Methoden der überwachten Klassifikation
Abb. 6.14 Schematische Darstellung eines natürlichen Neurons (a) und eines künstlichen Neurons (b)
245
a
b
Abb. 6.15 Schematische Darstellung eines neuronalen Netzes
Gewichte und der Bias so bestimmt werden, dass die zwei Klassen möglichst gut getrennt werden. Beispiel 6.7 Das Neuron zu diesem Beispiel ist in Abb. 6.16 dargestellt. x1 , x2 und der Bias b werden innerhalb des Neurons gewichtet und summiert. Im vorliegenden Fall ergibt sich dabei die Aktivierung: a ≡ w1 x1 + w2 x2 + b
(6.92)
246
6 Multivariate Datenanalyse
Die rechte Seite von Gl. 6.92 ist übrigens die Koordinatenform einer Geraden13 . Wir nutzen weiter unten diese Information, um später die Entscheidungsgrenze darzustellen. Nach der Aktivierung berechnet sich die Aktivität z mithilfe der Aktivierungsfunktion in Gl. 6.86 zu: z=
1 1 + exp(−(w1 x1 + w2 x2 + b))
(6.93)
z ist der output unseres Neurons und damit unseres Klassifikators. Der entsprechende Wert liegt zwischen 0 und 1. Haben wir unsere beiden Gruppen jeweils mit 0 bzw. 1 bezeichnet, dann können wir schon unsere Performance-Funktion P(w, b) berechnen: n 1 P(w, b) = (6.94) (yi − z i )2 2 i=1
z i ist hierbei der output für einen Vektor i mit der Klassenzuordnung yi . Wir wollen nun den Gradienten der Performance-Funktion nach den Gewichten und dem Bias berechnen, um anschließend unsere neuen Werte für diese Variablen gemäß Gl. 6.90 und 6.91 zu berechnen. Um ∂ P/∂w1 , sowie ∂ P/∂w2 und ∂ P/∂b zu berechnen, wenden wir die Kettenregel der Differentiation an: ∂P ∂ P ∂z i ∂a = ∂w1 ∂z i ∂a ∂w1 ∂P ∂ P ∂z i ∂a = ∂w2 ∂z i ∂a ∂w2 ∂P ∂ P ∂z i ∂a = ∂b ∂z i ∂a ∂b
(6.95) (6.96) (6.97)
In diesem Zusammenhang lesen Sie in der Literatur oft was vom neuronalen Netz mit backpropagation. Letztendlich will man mit diesem Wort darauf hinweisen, dass eine kleine Änderung eines Gewichtes w an einem Neuron bspw. sich durch das Netz weiter ausbreitet bis hin zum output. Während die Daten vom input bis zum output geleitet werden (engl. feedforward), werden die Ableitungen in umgekehrter Reihenfolge gebildet (von links nach rechts gelesen in den Gl. 6.95 bis 6.97). Schauen wir uns die Gl. 6.95 bis 6.97 nochmals etwas genauer an, dann sehen wir, dass die ersten beiden Terme auf der rechten Seite jeweils gleich sind und sich lediglich die letzten Terme unterscheiden. Der jeweils erste Term auf der rechten Seite ist für unsere Performance-Funktion leicht zu berechnen. Sie ist gleich: ∂P = −(yi − z i ) ∂z i
(6.98)
6.3
Methoden der überwachten Klassifikation
247
Die darauffolgende Ableitung haben wir bereits in Gl. 6.87 berechnet. Wir erhalten hier also entsprechend: ∂z i = z i (1 − z i ) (6.99) ∂a Die drei anderen partiellen Ableitungen sind aufgrund der Linearität von a sehr leicht zu berechnen. Es gilt: ∂a = x1 ∂w1 ∂a = x2 ∂w2 ∂a =1 ∂b
(6.100) (6.101) (6.102)
Setzen wir die berechneten partiellen Ableitungen bspw. in 6.95 ein, so erhalten wir: ∂P = −(yi − z i )z i (1 − z i ) x1
∂w1
(6.103)
δ
Sie werden zu Gl. 6.103 häufig den Namen Delta-Regel (engl. delta rule) in der Literatur finden. δ ist hierbei der Gradient, der dafür sorgt, dass der Optimierungspfad in Richtung Minimum von P geht. Gl. 6.90 entsprechend können dann neue Gewichte berechnet werden. Hier wiederum für w1 dargestellt: w1 = w1 − ηδx1
(6.104)
Wie sieht das Ganze bei weit komplexeren neuronalen Netzen aus? Nun, es stellt sich raus, dass die Struktur von Gl. 6.104 auch bei größeren Netzen erhalten bleibt. Dann ist, je nach betrachtetem Neuron, nicht mehr x 1 der Input, sondern bspw. der output eines vorhergehenden Neurons, und auch δ hängt jetzt vom betrachteten Neuron ab, aber dennoch bleibt die Delta-Regel dem Grunde nach erhalten. Füttern wir unser Perceptron einmal mit richtigen Daten. Nehmen wir hierzu wieder unsere Bakteriendaten (vgl. Tab. 6.13) her. Bevor wir jedoch damit arbeiten, sollten diese normiert werden. Ich empfehle hier vorab eine Standardisierung der Daten. Wenn Sie die Daten nicht normieren, werden Sie feststellen, dass bei der Klassifikation nichts Sinnvolles rauskommt. Das liegt daran, dass x2 ungefähr Faktor 10 kleiner ist als x1 . Sie können neben die Spalte von x2 eine Spalte mit lauter Einsen einfügen (vgl. Gl. 6.105, wofür, erfahren Sie gleich). Nun definieren Sie Startwerte für die Gewichte und den Bias. An dieser Stelle erzeugen wir mittels NORM.INV(ZUFALLSZAHL();0;1) einfach standardnormalverteilte Zufallszahlen. Bitte beachten Sie, dass ich im Folgenden den Bias mit in den Vektor der Gewichte einbeziehe, d. h., der Gewichtsvektor
248
6 Multivariate Datenanalyse
ist gleich w = w1 w2 w3 , wobei w3 unserem Bias entspricht. Nun berechnen wir die Aktivierung a als das Produkt der Matrix X = x1 x2 1 und von w T : ⎡
x11 x12 ⎢ x21 x22 ⎢ a≡⎢ . .. ⎣ .. . x10,1 x10,2
⎤ 1 ⎡ ⎤ w1 1⎥ ⎥⎣ ⎦ w ⎥ .. 2 .⎦ w 3 1
(6.105)
Mit dem Vektor a gehen wir nun in die Aktivierungsfunktion: z(a) =
1 1 + exp(−a)
(6.106)
Hierbei wird z jeweils elementweise auf a angewendet. z(a) entspricht auch gleichzeitig dem output unseres Neurons. Die Werte liegen zwischen 0 und 1 und können mit der eigentlichen Klassenzuordnung y (0 für die erste Klasse, 1 für die Zweite) verglichen werden, indem der Fehler e = y − z(a) berechnet wird. Wie wir oben gesehen haben, brauchen wir e und z(a) außerdem zur Berechnung des Gradienten δ (vgl. Gl. 6.103), mit dem wir letztlich, nach der Multiplikation mit der Lernrate η (die Sie vorher auch noch in einer Zelle definieren müssen), den neuen Gewichtsvektor gemäß folgender Gleichung berechnen können: w = w − η T X
(6.107)
Nun haben wir alles, um die Optimierung zu starten. Sie berechnen demnach mit den Startgewichten zunächst a, dann z(a) und anschließend einen neuen Gewichtsvektor. Mit diesem wiederholen Sie die genannten Berechnungen und erhalten erneut einen Gewichtsvektor. Sie führen diese Schritte bspw. 100.000-mal durch. Das geht natürlich nicht mehr händisch. Sie können in Excel gerne mal die ersten zehn Schritte von Hand berechnen, damit Ihnen das Prinzip klarer wird. Die entsprechende Gerade, die durch den Vektor w repräsentiert wird, können Sie nach den zehn Schritten einmal grafisch in einem Diagramm mit den standardisierten Daten darstellen. Diese Gerade entspricht Ihrer Klassengrenze. Dies habe ich in Abb. 6.17 mal gemacht. Bitte beachten Sie, dass Ihre Gerade vermutlich ein wenig anders aussieht, da ich in der genannten Abbildung das Ergebnis nach 106 Iterationen statt den 10 dargestellt habe. Die vielen Durchläufe habe ich hierbei mittels MATLAB (The MathWorks) berechnen lassen. Wenn Sie sich die Funktion P mal anschauen (diese müssten Sie in einer extra Zelle noch berechnen), dann sollte ihr Wert bei den verschiedenen Durchläufen kleiner werden. Das soll er ja auch, denn Sie versuchen, die Funktion P zu minimieren. Um nun unser alt-unbekanntes Objekt X zu klassifizieren, normiere ich die Koordinaten zunächst und lasse diese dann sozusagen durch das Neuron laufen, d. h.,
6.3
Methoden der überwachten Klassifikation
249
Abb. 6.16 Schematische Darstellung des Neurons zu diesem Beispiel
Abb. 6.17 Klassengrenze (gestrichelte Linie) nach dem Training des Perceptrons mit den beiden Trainingsdatensätzen der Grupppe 1 (Kreise) und der Gruppe 2 (Rechtecke). Das unbekannte Objekt X wird der Gruppe 1 zugeordnet
4 3 2 x2
1 0 −1 −2 −3 −1,5
−1
−0,5
0 x1
0,5
1
1,5
ich berechne die Aktivierung und anschließend den output des Neurons mit den Koor dinaten des unbekannten Vektors. Mit dem Gewichtsvektor w = −8,56 −3,47 1,90 und den normierten Koordinaten x = −0,78 −2,07 erhalte ich die Aktivierung a = 15,75 und den output z(a) = 1, d. h., unser unbekanntes Objekt wird der 1. Gruppe zugeordnet. Das entspricht auch dem Ergebnis, das wir für mit den anderen Klassifikationsmethoden gesehen haben.
6.6 Übung Angenommen, Sie hätten nun zwei Neuronen in der versteckten Schicht (vgl. Abb. 6.18). Wie sehen dann die Ableitungen für die backpropagtion aus? 13 Würden Sie Gl. 6.92 zu Null setzen und nach x auflösen, dann hätten Sie die Ihnen vermutlich 2 bekanntere explizite Form einer Geradengleichung.
250
6 Multivariate Datenanalyse
Abb. 6.18 Künstliches neuronales Netz mit zwei input-Neuronen (i 1 , i 2 ), zwei Neuronen in der versteckten Schicht (h 1 und h 2 ) und einem Neuron in der output-Schicht (z)
6.3.6
Klassifikationsfehlerrate
Ohne eine entsprechende Kontrolle besteht bei den überwachten Klassifikationsmethoden die Gefahr, dass die Modellparameter zu stark an die Trainingsdaten anpasst werden, es kommt zum sogenannten overfitting. Auf Abb. 6.19 übertragen bedeutet dies, dass zwar die Entscheidungsgrenzen eine ideale Trennung der Trainingsdaten ermöglicht, diese aber für die anschließende Klassifizierung von Testdaten ungeeignet ist. Im schlimmsten Fall fängt der Algorithmus an, seine Parameter sogar an das Rauschen in den Trainingsdaten anzupassen und nicht nur an die für die Trainingsdaten charakteristischen Eigenschaften. Die Entscheidungsgrenze schmiegt sich dann viel zu stark den Daten der beiden Trainingsgruppen an. In diesem Beispiel würde das unbekannte Objekt der 2. Gruppe (magentafarbene Kreise) zugeordnet, obwohl man es vermutlich intuitiv eher der
3 2 1 x2
Abb. 6.19 Beim sogenannten overfitting werden die Parameter des Klassifikationsalgorithmus zu stark an die Trainingsdaten und deren Eigenheiten (bspw. Rauschen) angepasst, sodass zwar deren Klassen sehr gut getrennt sind, doch eine allgemeine Klassifikation von unbekannten Objekten häufig zur Fehlklassifikation führen kann
0
−1 −2 −3
−3
−2
−1
0 x1
1
2
3
6.3
Methoden der überwachten Klassifikation
251
1. Gruppe (blaue Quadrate) zuordnen würde. Im Folgenden gehe ich auf die gängigsten Methoden ein, um diesem Problem entgegenzuwirken.
6.3.6.1 Kreuzvalidierung Die Kreuzvalidierung (engl. cross-validation) wird in der Praxis häufig zur Bestimmung der Güte von Vorhersagen bzw. Klassifikationen eingesetzt und kann zur Optimierung von Modellparametern und zur Reduktion der Klassifikationsfehlerrate genutzt werden. Hierbei werden die Trainingsdaten in zwei nicht überlappende Mengen (disjunkte Mengen) aufgeteilt, einen Trainingsdatensatz, mit dem das Modell trainiert wird, und einen Validierungsdatensatz, mit dem das Modell anschließend getestet wird. Während der Trainingsfehler mit zunehmendem Training (Anpassung der Modellparameter an die Trainingsdaten) immer kleiner wird, wird der Validierungsfehler auch zunächst kleiner, steigt aber dann wieder an aufgrund einer schlechter werdenden Klassifizierung des Validierungsdatensatzes (vgl. Abb. 6.20). Der Trainingsfehler entspricht hierbei dem Anteil an (Trainings-)Datenpunkten, die auf der falschen Seite der Entscheidungsgrenze liegen. Der Validierungsfehler entsprechend dem Anteil Validierungsdatenpunkte, die nach dem Training falsch klassifiziert wurden. Der optimale Parametersatz entspricht demjenigen, bei dem der Validierungsfehler ein Minimum erreicht. Leave-one-out-Methode In der Praxis wird häufig die Leave-one-out-Methode eingesetzt. Sie ist im Prinzip eine n-fache Kreuzvalidierung, bei der der gesamte Trainingsdatensatz unterteilt wird in n − 1 Datenpunkte, die für die Modellbildung genutzt werden und ein Datenpunkt, der zur Validierung verwendet wird. Dies geschieht reihum, bis alle n Datenpunkte einmal zur Validierung verwendet wurden. Da die Zuordnung des einen Validierungsdatenpunktes zu
Abb. 6.20 Trainings- und Validierungsfehler in Abhängigkeit der Anzahl an Parameteroptimierungen
Fehler
Validierungsfehler
Trainingsfehler Parameteroptimierungen
252
6 Multivariate Datenanalyse
einer Klasse jeweils bekannt ist, wird am Ende ausgezählt, wie oft die Zuordnung jeweils richtig war und wie oft sie falsch war. Im letzten Fall erhalten Sie die Fehlerrate, wenn die Anzahl Fehlklassifikationen ins Verhältnis zur Anzahl der Trainingsdaten gesetzt wird. Die Leave-one-out-Methode liefert eine relativ genaue Schätzung der Klassifikationsfehlerrate, ist aber bei großen Datensätzen rechnerisch sehr aufwändig. Daher wird diese Methode eher auf kleine Datensätze angewandt. Weit weniger aufwändig ist hingegen die sogenannte Hold-out-Methode. Hold-out-Methode Bei dieser Methode werden mehrere Datenpunkte zugleich zur Validierung herangezogen, die nicht mit dem Trainingsdatensatz überlappen (disjunkte Mengen). Nach der Erstellung der Klassifikationsregeln mithilfe des Trainingsdatensatzes wird wiederum die Anzahl der Fehlklassifikationen ins Verhältnis zur Anzahl der Trainingsdaten gesetzt und so eine Schätzung der Klassifikationsfehlerrate erhalten. Sie sehen, hier werden nicht, wie bei der Leaveone-out-Methode, n Durchläufe gemacht, sondern lediglich einer, dafür jedoch mit mehreren Datenpunkten im Validierungsdatensatz. Daher ist diese Methode rechentechnisch weitaus weniger aufwändig und wird in der Praxis gerne bei großen Datensätzen angewendet.
6.3.6.2 Gütemaße für überwachte Klassifikatoren Zur Beurteilung der Güte von überwachten Klassifikatoren werden Maße herangezogen, die wir z. T. in Abschn. 3.4.1.4 kennengelernt haben. Im Allgemeinen sind Klassifikatoren nicht perfekt, sondern machen Fehler. Wenn bspw. ein Klassifikator Daten in die Gruppen A und B einordnet (ein sogenannter binärer Klassifikator) und einen Datenpunkt der Klasse B zuordnet, obwohl er der Klasse A angehört, dann hat dieser Klassifikator einen Fehler gemacht. Hätte er den Datenpunkt richtigerweise der Gruppe A zugeordnet, dann spricht man von einem richtig positiven Ereignis. Im ersten Fall spricht man von einem falsch negativen Ereignis. Falls ein Element, das eigentlich zur Gruppe B gehört, der Gruppe A zugeordnet wird, spricht man von einem falsch positiven Ereignis. Wird dieses Element jedoch richtigerweise der Gruppe B zugeordnet, so spricht man hier wiederum von einem richtig negativen Ereignis. Die Ereignisse kann man sich in der sogenannten Konfusionsmatrix darstellen (vgl. Tab. 6.15).
Tab. 6.15 Konfusionsmatrix für die möglichen Fehler bei der Klassifikation mit zwei Klassen Datenpunkt gehört Klasse A an Datenpunkt gehört Klasse B an Klassifikator hat Datenpunkt der Klasse A zugeordnet
Richtig positiv (r p )
Falsch positiv ( f p )
Klassifikator hat Datenpunkt der Klasse B zugeordnet
Falsch negativ ( f n )
Richtig negativ (rn )
6.3
Methoden der überwachten Klassifikation
253
Die Konfusionsmatrix in Tab. 6.15 hat bei zwei Klassen die Größe 2 × 2. Gibt es mehr als zwei Klassen, sagen wir M, so hat sie entsprechend die Größe M × M. Es gibt Größen, die aus den genannten Ereignissen berechnet werden. Die Richtig-Positiv-Rate bspw. ist die Anzahl richtig positiver Ereignisse im Verhältnis zur Anzahl aller (tatsächlich) positiven Datenpunkte. Bisweilen wird die Richtig-Positiv-Rate auch als Sensitivität bezeichnet. Eine Richtig-Positiv-Rate von 1 bedeutet also, dass der Klassifikator alle Elemente, die tatsächlich der Gruppe A angehören, auch als solche zugeordnet hat. Die sogenannte Falsch-PositivRate entspricht dem Verhältnis der Anzahl Elemente der Gruppe B, die fälschlicherweise der Gruppe A zugeordnet wurden, zur Gesamtzahl der Elemente, die eigentlich der Gruppe B angehören. Bei einem idealen Klassifikator ist die Richtig-Positiv-Rate gleich 1 und die Falsch-Positiv-Rate gleich 0. Ideal ist natürlich kein Klassifikator, zumal die Klassifikationsperformance in aller Regel von den (zu optimierenden) Parametern abhängt. Trägt man die Richtig-Positiv-Rate gegen die Falsch-Positiv-Rate für verschiedene Werte der Parameter gegeneinander auf, so erhält man die sogenannte Receiver Operating Characteristic (kurz ROC). Eine solche Kurve ist beispielhaft in Abb. 6.21 dargestellt. Ein Klassifikator, dessen ROC-Kurve entlang der Diagonalen verläuft (gestrichelte Linie), ist kein brauchbarer Klassifikator. Im Endeffekt bedeutet es nämlich, dass er nicht in der Lage ist, die Klassen brauchbar zu differenzieren. Verschiebt man die Diagonale senkrecht zu ihrer Laufrichtung bis zu dem Punkt, an dem sie wie eine Tangente an der ROC-Kurve liegt, dann hat man den Punkt mit dem besten Parametersatz gefunden, bei dem die Klassen am besten getrennt werden. Die Fläche unter der ROC-Kurve (engl. area under curve, kurz AUC) ist ein interessantes Maß, mit dem die Performance eines Klassifikators zusammengefasst werden kann. Je näher dieser Wert bei 1 liegt, desto besser ist die Gesamtperformance des Klassifikators. Der AUC-Wert und die ROC-Kurven an sich werden demnach häufig zum Vergleich verschiedener Klassifikatoren (bspw. Random forest versus SVM versus kNN-Klassifikator) herangezogen. Ohne ins Detail gehen zu wollen, möchte ich hier erwähnen, dass beim Vorhandensein von mehreren Klassen, nicht nur die
1
Richtig-Positiv-Rate
Abb. 6.21 Mithilfe von ROC-Kurven können Aussagen über die Performance eines Klassifikators gemacht werden
0,8 0,6 0,4 0,2 0
0
0,2
0,4 0,6 Falsch-Positiv-Rate
0,8
1
254
6 Multivariate Datenanalyse
Tab. 6.16 Häufig verwendete Metriken zur Beurteilung von Klassifikatoren Bezeichnung Richtig-Positiv-Rate (Recall) Falsch-Positiv-Rate
Formel rp r p + fn fp rn + f p
Spezifität
f 1 − r +pf n p
Richtigkeit
r p +rn N
Präzision (Precision)
rp rp+ f p
F-Score
PrecisionRecall 2 Precision+Recall
Erklärung s. Text s. Text Wahrscheinlichkeit für die korrekte Zuordnung zur Klasse B Wahrscheinlichkeit für die korrekte Zuordnung zu einer der beiden Klasse A oder B Sie ist ein Maß dafür, wie genau eine Klasse erkannt wird Das geometrische Mittel von Präzision und Recall
Konfusionsmatrix größer als 2 × 2 wird, sondern auch die Dimension der ROC-Kurve. Im Allgemeinen hat man es dann mit einer ROC-Hyperfläche zu tun. Für mehr als drei Klassen sind diese natürlich nicht mehr grafisch darstellbar. Das Volumen unterhalb dieser Hyperflächen kann dennoch berechnet und für den Vergleich von Klassifikatoren herangezogen werden. Es gibt weitere Gütemaße für Klassifikatoren, wovon ich häufig verwendete in Tab. 6.16 der Vollständigkeit halber zusammengefasst habe.
Literatur 1. Pascalis, O., de Schonen, S., Morton, J., Deruelle, C., Fabre-Grenet, M.: Mother’s face recognition by neonates: A replication and an extension. Infant Behav. Dev. 18(1), (1995) 2. Strang, G.: Lineare Algebra. Springer, Berlin (2003) 3. Keeling, S.L., Kunisch, K.: Robust 1 approaches to computing the geometric median and principal and independent components. J. Math Imaging Vis. 56(27471346), 99–124 (2016) 4. Papula, L.: Mathematik für Ingenieure und Naturwissenschaftler. Bd. 1: Ein Lehr- und Arbeitsbuch für das Grundstudium. Friedr. Vieweg & Sohn Verlagsgesellschaft mbH, Braunschweig / Wiesbaden (2001) 5. Sommer, C., Straehle, C., Köthe, U., Hamprecht, F. A.: Ilastik: Interactive learning and segmentation toolkit. 2011 IEEE International Symposium on Biomedical Imaging: From Nano to Macro, S. 230–233, March 2011 6. Michael, A.N.: Neural Networks and Deep Learning. Determination Press (2015) 7. Rojas, R.: Neural Networks: A Systematic Introduction. Springer, Berlin (1996) 8. Kriegeskorte, N., Golan, T.: Neural network models and deep learning – a primer for biologists. Curr. Bio. 29(7) (2019)
7
Statistische Versuchsplanung
7.1
Versuchsplan 1. Ordnung
Um lediglich die Einflüsse bestimmter Faktoren auf eine Zielfunktion (bspw. der Ausbeute) zu untersuchen, werden häufig Versuchspläne 1. Ordnung verwendet. Hierbei wird der Einfluss eines jeden Faktors xi auf zwei Stufen x˜i (min) und x˜i (max) untersucht. In der Praxis werden diese Stufen oft skaliert dargestellt, sodass x˜i (min) den Wert −1 und x˜i (max) den Wert +1 erhält. Hierzu wird eine Art Bereichsskalierung gemacht (s. auch Abschn. 4.1): xi =
x˜i (max)+x˜i (min) 2 x˜i (max)−x˜i (min) 2
x˜i −
(7.1)
Eine Zusammenfassung der transformierten Faktorstufen erfolgt in der sogenannten Versuchsplan-Matrix (als Beispiel hierfür siehe Tab. 7.1). Diese (transformierte) Darstellung ist nicht nur übersichtlicher, sondern hat auch Vorteile bei der Berechnung der Faktorwechselwirkungen, wie wir weiter unten noch sehen werden. Ein einmal erstellter Versuchsplan kann auch auf andere Experimente mit derselben Ordnung und derselben Anzahl an Faktoren angewandt werden. Die Änderung der Zielfunktion oder Zielgröße (in der englischsprachigen Literatur wird hierbei häufig von response gesprochen) in Abhängigkeit der Änderung eines oder mehrerer Faktoren nennt man Effekt bzw. Faktoreffekt. Hierbei unterscheidet man Haupteffekte und Wechselwirkungseffekte. Letztere kommen durch Interaktionen von zwei oder mehr Faktoren zustande. Die Haupteffekte E xi berechnen sich als mittlere Änderung der Zielfunktion bei Änderung eines Faktors xi von der kleinsten zur größten Stufe. Nehmen wir bspw. den einfachen 22 -Versuchsplan in Tab. 7.1. Der eigentlichen Versuchsplan-Matrix habe ich eine Spalte für die Wechselwirkung x1 x2 zwischen den beiden Faktoren x1 und x2 hinzugefügt Berechnen wir zunächst die beiden Haupteffekte E x1 , E x2 nach Gl. 7.2 und 7.3 bzw. den Wechselwirkungseffekt E x1 x2 nach Gl. 7.4. © Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 M. Schneider, Datenanalyse für Naturwissenschaftler, Mediziner und Ingenieure, https://doi.org/10.1007/978-3-662-61866-0_7
255
256
7 Statistische Versuchsplanung
Tab. 7.1 Versuchsplan 1. Ordnung mit zwei Faktoren x1 und x2 Versuch
x1
x2
x1 x2
y
1
−1
−1
1
y1
2
1
−1
−1
y2
3
−1
1
−1
y3
4
1
1
1
y4
(y2 − y1 ) + (y4 − y3 ) 2 (y4 − y2 ) + (y3 − y1 ) = 2 (y1 − y2 ) + (y4 − y3 ) = 2
E x1 =
(7.2)
E x2
(7.3)
E x1 x2
(7.4)
Wenn wir die Spalten in Tab. 7.1 als Vektoren auffassen, dann lassen sich die Effekte auch ganz leicht durch Bildung des Skalarproduktes (vgl. auch Abschn. 9.1.1) der Spaltenvektoren xi mit y berechnen: 1 (7.5) E xi = xiT y 2 Gl. 7.5 gilt auch für die Wechselwirkungseffekte. Für einen N = 2k -Versuchsplan lässt sich das verallgemeinern: 1 T x y (7.6) E xi = N /2 i Häufig werden die Faktoren und Faktorwechselwirkungen gegen die Effekte in einem sogenannten Pareto-Diagramm1 aufgetragen, anhand dessen man bereits einen ersten Eindruck darüber bekommt, welche Faktoren und Wechselwirkungen überhaupt einen großen Einfluss auf die Zielfunktion haben könnten. Abb. 7.1 zeigt ein Beispiel für ein solches Diagramm für insgesamt drei Faktoren mit drei Haupteffekten, drei Zweifaktorwechselwirkungen und einer Dreifaktorwechselwirkung. In diesem Beispiel erklären die Hauptfaktoren bereits 90 % des Gesamteffekts, was anhand der kumulativen Verteilung (gestrichelte Linie) zu erkennen ist. Die Zweifaktorwechselwirkung x 1 x2 trägt noch einen gewissen Anteil bei, aber die anderen Zweifaktorwechselwirkungen und v. a. die Dreifaktorwechselwirkung scheinen vernachlässigbar. Der Begriff der Ordnung bei einem Versuchsplan kommt vom höchsten Grad des Polynoms, mit dem die Beziehung zwischen der Zielfunktion und den unabhängigen Variablen modelliert wird. Für einen Versuchsplan 1. Ordnung ergibt sich bspw. die Modellfunktion: 1 Vilfredo Pareto ist v. a. bei Ökonomen für das Pareto-Prinzip bzw. die 80–20-Regel bekannt, die
bspw. besagt, dass 20 % der Bevölkerung rund 80 % des Gesamtvermögens besitzen. Diese Regel ist auf viele andere Dinge ebenso anwendbar.
7.1 Versuchsplan 1. Ordnung
257
Abb. 7.1 Beispiel für ein Pareto-Diagramm zur Darstellung von Faktoreffekten
150
97% 88%
120
78%
Effekt
68% 58%
90
49% 60
39% 29%
f (x1 , . . . , xn ) = b0 +
n i=1
bi xi +
30
19%
0
10% 0%
n−1 n
x1
x3
bi j xi x j +
i=1 j>i
x2
x1x2 x1x3 x2x3 x1x2x3
n−2 n−1 n
bi jk xi x j xk + . . .
(7.7)
i=1 j>i k> j
Jeder Faktor xi tritt hier höchstens mit dem Grad 1 auf. Der Term mit der einfachen Summe beschreibt die Haupteffekte, die Terme mit der Doppel- und Dreifachsumme beschreiben die Zweifaktor- bzw. Dreifaktorwechselwirkungen. Gl. 7.7 beschreibt eine multivariate Modellfunktion, die mit den Methoden der multivariaten linearen Regression an die experimentellen Daten y angepasst wird, wodurch die Koeffizienten bi j bestimmt werden können. Die Koeffizienten sind halb so groß wie die Effekte und stehen demnach in direkter Beziehung zueinander. Zur Berechnung der Größe der Faktoreffekte bzw. der Koeffizienten in Gl. 7.7 brauchen wir lediglich das Gleichungssystem: y = Xb
(7.8)
nach b aufzulösen durch Bildung der Pseudoinverse XT X Abschn. 6.1): −1 XT y b = XT X
−1
XT (vgl. auch Kap. 5 sowie (7.9)
X entspricht hierbei der Matrix der unabhängigen Variablen. Um zu überprüfen, welche Faktoren einen signifikanten Einfluss auf die abhängige Variable y haben, wird anschließend für jeden Koeffizient ein t-Test durchgeführt. Hierzu berechnen Sie den T -Wert gemäß nachfolgender Gleichung (siehe hierzu auch Abschn. 5.7.1.2): |bi − 0| sbi |bi | = sbi
Tbi =
(7.10)
258
7 Statistische Versuchsplanung
Die Null habe ich bewusst in die erste Zeile der Gleichung noch reingeschrieben, um anzudeuten, dass Sie im Prinzip bei diesem t-Test zeigen, ob die Koeffizienten in b signifikant von null verschieden sind oder nicht. sbi ist hierbei der Standardfehler des Koeffizienten bi . Wie wir aus Abschn. 3.4.1 wissen, können Sie den so berechneten T -Wert dem (1 − α/2)Quantil t der Student-t-Verteilung gegenüberstellen, dessen Wert Sie mit der Excel-Funktion T.INV(1−α/2;d f ) für das Signifikanzniveau α und d f Freiheitsgrade berechnen können. Falls Tbi > t, so ist der entsprechende Koeffizient statistisch signifikant verschieden von null, ansonsten nicht. Bitte beachten Sie, dass die Vorgehensweise zur Bestimmung der Signifikanz der Koeffizienten auch für die anderen Versuchsplantypen gilt und nicht nur auf die Versuchspläne 1. Ordnung beschränkt ist. Mehr dazu erfahren Sie weiter unten. Ich lege Ihnen Beispiel 7.1 ans Herz, bei dem u. a. anhand von Beispieldaten die Signifikanzen der Koeffizienten bestimmt werden. Grundsätzlich unterscheiden wir vollfaktorielle Versuchspläne (engl. full factorial design) von Teilfaktorplänen (engl. fractional factorial design). Mit beiden werden wir uns im Folgenden näher beschäftigen.
7.1.1
Vollfaktorieller Versuchsplan
Beim sogenannten vollfaktoriellen Versuchsplan 1. Ordnung werden bei k Faktoren insgesamt 2k Experimente durchgeführt. D. h., es wird jeder Faktor auf zwei Stufen variiert. Entsprechend ergibt sich bei einem Faktor eine Gerade, bei zwei Faktoren eine Ebene und bei drei Faktoren ein Würfel im Faktorraum (Abb. 7.2). Die Eckpunkte sind die experimentellen Einstellungen, an denen die Zielgröße bestimmt wird. Eine entsprechende Versuchsplan-Matrix für drei Faktoren und zwei Stufen ist in Tab. 7.2 dargestellt. Dieses Zwei-Stufen-drei-Faktoren-Modell entspricht im Prinzip den Ecken des Würfels in Abb. 7.2. Zur Berechnung der Effekte und der Koeffizienten b in Excel erweitere ich Tab. 7.2. Das Ergebnis dieser Erweiterung zeigt Tab. 7.3. y
y
x3 x2
x2
x1
x1
x1
Abb. 7.2 Schematische Darstellung eines einfaktoriellen (links), zweifaktoriellen (Mitte) und dreifaktoriellen (rechts) experimentellen Versuchsplan 1. Ordnung. xi sind die Faktoren und y die Optimierungsfunktion, die im Falle des dreifaktoriellen Versuchsplans nicht mehr darstellbar ist
7.1 Versuchsplan 1. Ordnung
259
Tab. 7.2 Versuchsplan 1.Ordnung mit 3 Faktoren Versuch
x1
x2
x3
y
1
−1
−1
−1
y1
2
1
−1
−1
y2
3
−1
1
−1
y3
4
1
1
−1
y4
5
−1
−1
1
y5
6
1
−1
1
y6
7
−1
1
1
y7
8
1
1
1
y8
Tab. 7.3 Versuchsplan 1.Ordnung mit 3 Faktoren und Koeffizientenmatrix (mittlerer Teil dieser Tabelle) Versuch
x1
x2
x3
1
x1
x2
x1 x2 x3
x1 x3 x2 x3 x1 x2 x3
y
1
−1
−1
−1
1
−1
−1
1
−1
1
1
−1
y1
2
1
−1
−1
1
1
−1
−1
−1
−1
1
1
y2
3
−1
1
−1
1
−1
1
−1
−1
1
−1
1
y3
4
1
1
−1
1
1
1
1
−1
−1
−1
−1
y4
5
−1
−1
1
1
−1
−1
1
1
−1
−1
1
y5
6
1
−1
1
1
1
−1
−1
1
1
−1
−1
y6
7
−1
1
1
1
−1
1
−1
1
−1
1
−1
y7
8
1
1
1
1
1
1
1
1
1
1
1
y8
Im mittleren Teil dieser Tabelle sind sowohl die Hauptfaktorvariablen als auch die Wechselwirkungsvariablen dargestellt. Im Grunde genommen handelt es sich hierbei um eine Koeffizientenmatrix, mit deren Hilfe wir später die Regressionskoeffizienten bestimmen können. Der Vektor 1 entspricht im Prinzip unserem Achsenabschnitt bei der linearen Regression (vgl. auch Abschn. 5.1). Wie Sie leicht nachrechnen können, ergeben sich die Wechselwirkungsvariablen xi x j (hier für i = j) durch Multiplikation der beiden Hauptfaktorwerte xi und x j . D. h., x1 x2 ergibt sich aus der Multiplikation von x1 = −1 und x2 = −1. Zum besseren Verständnis des bis hierhin Gesagten über Versuchspläne machen wir an dieser Stelle mal ein ausführliches Beispiel, bei dem wir den Ablauf einer Versuchsplananalyse anhand eines vollfaktoriellen Versuchsplans 1. Ordnung durchgehen werden.
260
7 Statistische Versuchsplanung
Beispiel 7.1 Angenommen, Sie seien, im Rahmen einer Medikamenten-Studie, am Einfluss der Medikamentenkonzentration x1 , des pH-Wertes x2 und der Temperatur x3 der Lösung auf die Vitalität bestimmter Zellen interessiert. Hierzu entwerfen Sie einen Drei-Faktor-Versuchsplan mit zwei Faktorstufen, wie in Tab. 7.4 dargestellt. Sie sehen, die y-Werte, die hier der Vitalität entsprechen, wurden je Faktorkombination bzw. Versuch dreifach bestimmt. Das ist später wichtig für die ANOVA. Wir wollen aber zunächst mal die Faktoreffekte bestimmen, und hierzu können Sie auch mit den gemittelten yi -Werten rechnen. Wie Sie diese Effekte berechnen, habe ich Ihnen oben gezeigt. Zu Erinnerung: Sie berechnen für jede Spalte im mittleren Teil der Tab. 7.4 das Skalarprodukt mit dem Spaltenvektor y. Die Effekte sind in Abb. 7.3 in Form eines Pareto-Diagramms dargestellt. Wie man sieht, sind die drei Hauptfaktoreffekte am größten und erklären bereits zu 90 % den Gesamteffekt. Die beiden Zweifaktorwechselwirkungen x1 x2 und x2 x3 tragen auch noch einen kleinen Anteil dazu bei. Die Zweifaktorwechselwirkung x1 x3 sowie die Dreifaktorwechselwirkung x1 x2 x3 tragen scheinbar nur noch einen sehr kleinen Anteil bei. Ob Wechselwirkungen stark oder eher vernachlässigbar sind, erkennt man auch relativ schön an den sogenannten Wechselwirkungsdiagrammen. In Abb. 7.4 habe ich für dieses Beispiel die Zweifaktorwechselwirkung x1 x2 in A der Zweifaktorwechselwirkung x1 x3 in B gegenübergestellt. Hierbei sind jeweils die Vitalität auf der y-Achse gegen die beiden Faktorstufen des Faktors x1 auf der xAchse aufgetragen. Im Falle von A wurden die Vitalitätswerte jedoch für verschiedene (gemittelte) Werte des Faktors x2 aufgetragen, während in B dasselbe mit dem Faktor x3 gemacht wurde. Im letzten Fall sind die resultierenden beiden Geraden annähernd parallel, ein Hinweis darauf, dass die Zweifaktorwechselwirkung x1 x3 vernachlässigbar ist. Hingegen sind die Steigungen der Geraden in A sichtbar verschieden, was auf eine signifikante Zweifaktorwechselwirkung für x1 x2 hindeutet. Bitte beachten Sie, dass wir ein ähnliches Diagramm bereits in Abschn. 3.4.1.7 zur ANOVA kennengelernt hatten. Solche Diagramme werden zumeist standardmäßig in Softwarepaketen zur statistischen Versuchsplanung erzeugt. Wie kann man nun statistisch überprüfen, ob die Faktorwechselwirkungen statistisch signifikant sind oder nicht? Dazu bestimmen wir zunächst die Koeffizienten b über eine Regression, denn jeder Koeffizient beschreibt die Größe, mit der ein Faktor (oder eine Wechselwirkung) in die entsprechende Modellfunktion eingeht. Ist ein Koeffizient statistisch nicht signifikant, dann sollte es auch der entsprechende Effekt nicht sein. Für die Regression empfiehlt es sich, ähnlich wie bei der Regression mit Replikaten (siehe hierzu Abschn. 5.3), die y-Werte untereinanderzuschreiben und ebenso die X-Matrix (nach unten hin zu wiederholen). Für den Versuchsplan aus Beispiel 7.1 sieht das dann aus wie in (Tab. 7.5) dargestellt. Nun berechnen Sie b gemäß Gl. 7.9, d. h., Sie lösen letztlich ein Gleichungssystem der folgenden Dimensionen:
7.1 Versuchsplan 1. Ordnung
261
y = X b
(7.11)
24×8 8×1
24×1
Mit den Daten aus Beispiel 7.1 sollten Sie folgende Lösung erhalten: T b = 49,8 −14,5 6,1 10,7 1,7 0,3 1,3 0,2 Wenn Sie nun die Werte im Vektor b mit zwei multiplizieren und mit den Werten für die Effekte im Pareto-Diagramm 7.3 vergleichen (nochmals der Hinweis, im Diagramm sind die absoluten Effektwerte aufgetragen), dann erkennen Sie, dass diese gleich sind, Das bedeutet, die Koeffizienten bi ließen sich auch aus den Effekten berechnen. Bevor wir die Signifikanz der Koeffizienten und somit der Effekte überprüfen, wollen wir überprüfen, ob das Modell signifikant ist. Hierzu wird typischerweise eine ANOVA durchgeführt. Wir berechnen zunächst die Residuenvarianz: SSr =
8 3
yi j − yˆ j
2
(7.12)
j=1 i=1
also die Abweichung der y-Werte von den über das Fitmodell errechneten y-Werten. i kennzeichnet hierbei das Replikat und j die entsprechende Gruppe. yˆ j entspricht dem errechneten y-Wert der j-ten Gruppe. Im vorliegenden Beispiel sollten Sie auf SSr ≈ 20,68 kommen. Nun berechnen wir die Varianz unter der Annahme, dass sich die Daten in die acht Gruppen eingruppieren: 8 2 3 yˆ j − y¯ SS F =
(7.13)
j=1
Die Zahl 3 in Gl. 7.13 entspricht der Anzahl y-Werte je Gruppe (vgl. auch Gl. 3.97). Sie sollten an dieser Stelle auf SS F ≈ 8803 kommen. Auf Basis eines F-Tests (siehe auch Abschn. 3.4.1.2 und 3.4.1.7) können Sie nun überprüfen, ob die Streuung SS F zwischen den verschiedenen Gruppen statistisch signifikant größer als die rein zufälligen Streuung SSr ist, ob also die acht Mittelwerte stärker streuen, als dass es rein durch Zufall erklärbar wäre: f = =
SS F N −1 SSr M−N 8803 8−1 20,68 24−8
= 973,2
(7.14)
262
7 Statistische Versuchsplanung
Da dieser F-Wert deutlich größer als 1 ist, müssen wir die Nullhypothese verwerfen und haben somit gezeigt, dass das Modell signifikant ist. Nun wollen wir noch die Signifikanz der Effekte bzw. der Koeffizienten bestimmen. Signifikanz der Koeffizienten bedeutet hierbei, ob ein gegebener Koeffizient signifikant verschieden von null ist. Das lässt sich relativ einfach mithilfe eines t-Tests überprüfen. Hierzu berechnen Sie zu jedem Koeffizienten bi den zugehörigen T -Wert (vgl. Gl. 3.63): Tbi =
|bi − 0| sbi
(7.15)
Hierbei ist sbi die Standardabweichung des Koeffizienten bi . Diese erhalten Sie, wie in Kap. 5 gezeigt, aus der Kovarianzmatrix C=
SSr T −1 X X df
(7.16)
auf deren Diagonale sich die quadrierten Standardabweichungen befinden. Hier erhalten Sie für alle sbi = 0,23. Den T -Wert (Gl. 7.15) vergleichen Sie mit dem theoretischen t-Wert, der auf dem Signifikanzniveau 1 − α und mit der Anzahl Freiheitsgrade d f (hier ist d f = 24 − 8 = 16) zu t(1 − α, d f ) berechnet wird. Dieser beträgt in diesem Beispiel t = 2,12 für α = 0,05. Vergleicht man hiermit die T -Werte für die einzelnen Koeffizienten, so erkennt man in Tab. 7.6, dass die Koeffizienten b13 und b123 nicht signifikant sind. Dies konnten wir anhand der Berechnung der Effekte und dem entsprechenden Pareto-Diagramm (Abb. 7.3) bereits erahnen, nun haben wir es schwarz auf weiß. Wenn Sie in Zukunft dasselbe System modellieren wollen, dann können Sie getrost auf die Terme mit den nicht signifikanten Koeffizienten verzichten und Ihr System nur mit den signifikanten Koeffizienten modellieren. Oben haben wir den Zusammenhang der Effekte und den Regressionskoeffizienten bereits angesprochen. In einem Video zeige ich Ihnen im Detail, wie Sie einen vollfaktoriellen Versuchsplan 1. Ordnung in Excel analysieren. Rufen Sie dieses Video durch Scannen des QR-Codes (unten) auf.
Im Folgenden möchte ich kurz darauf eingehen, wie Sie aus der Varianz der Koeffizienten die Varianz der Effekte berechnen können. Dann können Sie bspw. Ihre Pareto-Diagramme
7.1 Versuchsplan 1. Ordnung
263
Tab. 7.4 Versuchsplan 1. Ordnung mit drei Faktoren und drei Messwiederholungen je Faktorstufe (rechter Teil dieser Tabelle) Vers. x1
x2
x3
1
x1
x2
x1 · x2
x3
x1 · x3
x2 · x3
x1 · x2 · x3
Vital. [%]
50,8 49,5 51,2
1
−1
−1
−1
1
−1
−1
1
−1
1
1
−1
2
1
−1
−1
1
1
−1
−1
−1
−1
1
1
19,4 16,9 17,6
3
−1
1
−1
1
−1
1
−1
−1
1
−1
1
56,2 57,2 57,8
4
1
1
−1
1
1
1
1
−1
−1
−1
−1
30,9 29,5 31,7
5
−1
−1
1
1
−1
−1
1
1
−1
−1
1
68,6 68,2 70,9
6
1
−1
1
1
1
−1
−1
1
1
−1
−1
37,8 35,1 38,1
7
−1
1
1
1
−1
1
−1
1
−1
1
−1
80,4 80,7 79,6
8
1
1
1
1
1
1
1
1
1
1
1
54,8 56,6 55,2
100% 30 28,97
86% 72%
21,45 Effekt
Abb. 7.3 Pareto-Diagramm zur Darstellung der Faktoreffekte für die Daten in Tab. 7.4. Hier wurden die absoluten Effekte aufgetragen. Der Effekt für x1 ist bspw. eigentlich −28,97
58%
20
43%
12,21
29%
10 3,43 2,53 0
x1
x3
x2
x1x2
14% 0,5 0,35
x1x3 x2x3 x1x2x3
0%
mit Fehlerbalken (vgl. Abschn. 2.2.7) versehen. In einschlägiger Literatur findet man häufig folgende Gleichung für die Varianz der Effekte: var (E i ) = 4 =4
SSr 2k (c−1) 2k c
s 2R 2k c
(7.17)
Hierbei entspricht 2k wiederum der Anzahl an Versuchen und c der Anzahl an Wiederholungsmessungen bzw. Replikaten je Versuch. SSr ist wieder die Fehlerquadratsumme und s R die Reststreuung (vgl. Gl. 5.57). Mit Gl. 7.17 kann man die Varianz der Effekte relativ leicht ausrechnen, ohne vorher die entsprechende Kovarianzmatrix (vgl. Gl. 7.16) berechnen
264
7 Statistische Versuchsplanung
a 80
b 80
x3 = 1
x2 = 1 x2 = −1
60 Vitalität in %
Vitalität in %
60
x2 = 1
40
x2 = −1
20 0
x3 = −1 x3 = 1
40
x3 = −1
20 0
−1
−1
1
x1
1 x1
Abb. 7.4 Wechselwirkungsdiagramme für die Zweifaktorwechselwirkung x1 x2 (a) und die Zweifaktorwechselwirkung x1 x3 (b). Die annähernd parallelen Linien im letzten Fall weisen auf eine vernachlässigbare Wechselwirkung der jeweiligen Faktoren hin Tab. 7.5 Versuchsplan 1. Ordnung mit drei Faktoren Versuch
x1
x2
x3
1
x1
x2 −1
x1 x2 x3 1 −1
x1 x3 x2 x3 x1 x2 x3 1 1 −1
1
−1
−1
−1
1
−1
2
1
−1
−1
1
1
3
−1
1
−1
1
4
1
1
−1
1
5
−1
−1
1
6
1
−1
1
7
−1
1
8
1
1
9 .. .
−1 .. .
24
1
y y1,1
−1
−1
−1
−1
1
1
y2,1
−1
1
−1
−1
1
−1
1
y3,1
1
1
1
−1
−1
−1
−1
y4,1
1
−1
−1
1
1
−1
−1
1
y5,1
1
1
−1
−1
1
1
−1
−1
y6,1
1
1
−1
1
−1
1
−1
1
−1
y7,1
1
1
1
1
1
1
1
1
1
y8,1
−1 .. .
−1 .. .
1 .. .
−1 .. .
−1 .. .
1 .. .
−1 .. .
1 .. .
1 .. .
−1 .. .
y9,1 .. .
1
1
1
1
1
1
1
1
1
1
y24,1
zu müssen. Ich möchte Ihnen kurz erklären, woher diese Gleichung kommt. Sie gilt nämlich nur für transformierte (bereichsskalierte) und orthogonale Versuchspläne2 . Für solche Versuchspläne gilt: −1 1 = k I2 k (7.18) XT X 2 2 Orthogonal bedeutet hier, dass das Skalarprodukt zweier Spalten des Versuchsplans null ist [1].
7.1 Versuchsplan 1. Ordnung
265
Tab. 7.6 Bestimmung der Signifikanz der Koeffizienten bi mithilfe von t-Tests für die Daten aus Beispiel 7.1 Koeffizient
T -Wert
t(0,95, 16)
Signifikant?
b0
214,5
2,12
Ja
b1
62,4
Ja
b2
26,3
Ja
b3
46,2
Ja
b12
7,4
Ja
b13
1,1
Nein
b23
5,4
Ja
b123
0,8
Nein
Hierbei ist I2k die Einheitsmatrix mit jeweils 2k Zeilen und Spalten. Wurden jeweils c Replikate je Versuch gemessen, dann haben wir gesehen, dass die Matrix X länger wird. In dem Fall wird der Ausdruck in Gl. 7.18 zu: −1 1 = k I2k (7.19) XT X 2 c Damit wissen wir schon mal, woher der Nenner, also 2k c in Gl. 7.17, kommt. Der Zähler in dieser Gleichung ist wieder einfach die Fehlerquadratsumme SSr geteilt durch die Anzahl Freiheitsgrade 2k (c − 1), die sich ja aus der Gesamtzahl Messungen, also 2k c minus der Anzahl der Regressionskoeffizienten (2k ) ergibt. Wenn Sie Übung 7.1 machen, dann werden Sie wissen, woher die Zahl 4 vor dem Bruch stammt. Sie sehen, dass die Varianz aller Effekte dieselbe ist. Für manche Effekte ist diese ggf. größer als der Effekt selbst, und wir können diesen als nicht signifikant betrachten. In einem weiteren Video zeige ich Ihnen noch, wie Sie einen vollfaktoriellen Versuchsplan 1. Ordnung in Excel mittels Varianzanalyse auswerten. Rufen Sie dieses Video durch Scannen des QR-Codes (unten) auf.
7.1 Übung Berechnen Sie Standardabweichungen zu den Effekten E i aus Beispiel 7.1, um dem Balkendiagramm in Abb. 7.3 entsprechende Fehlerbalken hinzuzufügen. Bedenken Sie hierzu, dass die Effekte zweimal so groß sind wie die Koeffizienten des Regressionspolynoms (vgl. Gl. 7.6). Wenn Sie die Varianz der Regressionskoeffizienten bi kennen (vgl.
266
7 Statistische Versuchsplanung
Gl. 7.16), dann können Sie auch die Varianzen der Effekte mithilfe der Rechenregeln für Varianzen berechnen (vgl. Gl. 3.49). Wenn es vollfaktorielle Versuchpläne gibt, dann muss es auch teilfaktorielle Versuchspläne geben. Mit diesen wollen wir uns im nächsten Abschnitt beschäftigen.
7.1.2
Teilfaktorielle Versuchspläne
Neben den vollfaktoriellen Versuchsplänen 1. Ordnung gibt es auch teilfaktorielle Versuchspläne 1. Ordnung, bei denen die Anzahl der Experimente gegenüber einem vollfaktoriellen Versuchsplan um 2 p reduziert ist. Eine gängige Schreibweise für solche Pläne ist 2k− p . Teilfaktorielle Versuchspläne sind v. a. dann von Interesse, wenn k bereits sehr groß ist und Sie die Anzahl der Experimente reduzieren wollen oder wenn Sie nicht an bestimmten einzelnen Effekten interessiert sind oder Sie Mischeffekte ausschließen können. Bei k = 5 Faktoren gibt es im Prinzip die Möglichkeit fünf Haupteffekte, zehn Zweifaktorwechselwirkungen, zehn Dreifaktorwechselwirkungen und fünf Vierfachwechselwirkungen zu berücksichtigen oder allgemein: • • • •
k Haupteffekte k Zweifaktorwechselwirkungen k2 3 Dreifaktorwechselwirkungen usw.
Bei vier Faktoren x1 , x2 , x3 , x4 müssten Sie bei einem vollfaktoriellen Versuchsplan 1. Ordnung bereits 16 Experimente machen, Replikate noch nicht mitgezählt. Das ist ein großer experimenteller Aufwand, und zumeist sind die höheren Faktorwechselwirkungen ohnehin nicht signifikant. Dennoch wollen Sie häufig zumindest die Hauptfaktoreffekte untersuchen. Wenn Sie bspw. Ihren ursprünglichen 24 Versuchsplan auf 24−1 reduzieren, dann müssen Sie nur noch die Hälfte der Experimente machen, eine echte Einsparung an Ressourcen. Z. T. kommt es auch in der Praxis vor, dass Sie zwar 4 Faktoren haben, aber nur Ressourcen, um 23 Experimente zu machen. Wie geht man dann vor? In solchen Fällen könnte man dann auf einen teilfaktoriellen Versuchsplan zurückgreifen. Um beim Beispiel zu bleiben, stellen Sie zunächst den 23 vollfaktoriellen Versuchsplan (Tab. 7.4) auf und fügen ihm eine x4 -Spalte auf der linken Seite zu. Im mittleren Teil der Tabelle bleibt die Anzahl Spalten gleich, lediglich deren Beschriftungen müssen sich aufgrund der Vermengungen der Effekte (engl. confounding) ändern. Die Elemente in der Faktorspalte von x4 ergeben sich hier durch Multiplikation der Werte von x1 , x2 , x3 . Das kann man auch im rechten Teil der Tabelle erkennen. Dementsprechend ergibt x1 x2 x3 x4 die Einheitsspalte 1. 1 ist der sogenannte Design-Generator [2]. Mit seiner Hilfe kann man sofort sehen, welche Haupteffekte und Faktorwechselwirkungen miteinander vermengt werden. Nehmen wir bspw. den Effekt für Faktor x2 (mittlerer Teil
7.1 Versuchsplan 1. Ordnung
267
in Tab. 7.7). Er vermengt sich gemäß x2 1 = x2 x1 x2 x3 x4 = x1 x2 x2 x3 x4 = x1 x3 x4 mit der Dreifaktorwechselwirkung x1 x3 x4 . Hierbei habe ich Gebrauch von der Tatsache gemacht, dass auch x2 x2 = 1 ist. Teilfaktorpläne können im Allgemeinen mehrere Generatoren haben. In Tab. 7.7 sind für einen 24−1 teilfaktoriellen Versuchsplan alle Haupteffekte und deren Wechselwirkungen gezeigt und wie diese durch Vermengen dieser entstanden sind. Im Englischen gibt es hierfür den Ausdruck aliases, was im Deutschen ungefähr mit Decknamen gleichzusetzen ist. So ist bspw. x3 alias für x1 x2 x4 . Die in der Tabelle oben stehenden Bezeichnungen sind die aliases für die darunter stehenden. Sie sehen, dass dort, wo ursprünglich x1 x2 x3 stand (vgl. Tab. 7.5), zusätzlich noch x4 stand, da die Dreifaktorwechselwirkung mit der Einfaktorwechselwirkung vermengt wurde. Ähnliches trifft auf x1 , x2 und x3 zu. Auch diese wurden mit Dreifaktorwechselwirkungen miteinander vermengt. Die Zweifaktorwechselwirkungen x1 x2 , sowie x1 x3 und x2 x3 wurden ihrerseits mit weiteren Zweifaktorwechselwirkungen vermengt. Das bedeutet, wenn nachher bei der Analyse herauskommen sollte, dass eine Zweifaktorwechselwirkung statistisch signifikant ist, können Sie nicht mehr sagen, welche von beiden oder ob beide statistisch signifikant sind. Das ist u. a. der Preis, den Sie zahlen, wenn Sie einen Teilfaktorplan aufstellen. Die Vierfaktorwechselwirkung x1 x2 x3 x4 wird mit dem Offset b0 (Basislinie) vermengt und kann nicht mehr eindeutig identifiziert werden3 . Hätten Sie noch mehr Faktoren, aber nicht mehr experimentelle Ressourcen, dann können Sie auch noch die Zweifaktorwechselwirkungen mit den neuen Hauptfaktoreffekten vermengen. Somit könnten Sie in diesem Beispiel maximal bis zu sieben Hauptfaktoreffekte untersuchen. Solche Versuchspläne nennt man auch gesättigte (engl. saturated) Versuchspläne, da sie keinen weiteren Faktor mehr zulassen. Solche Versuchspläne haben jedoch eine schlechte Auflösung (engl. resolution). Die Auflösung wird häufig in römischen Zahlen angegeben und gibt an, in welchem Maße Faktoreffekte bei einem teilfaktoriellen Versuchsplan miteinander vermengt sind. Die römische Zahl ist jeweils um eins höher als die kleinste Faktorwechselwirkung, mit der ein Haupteffekt vermengt wurde. Versuchspläne, bei denen bspw. die Haupteffekte mit Zweifaktorwechselwirkungen vermengt sind, haben eine Auflösung von III. Tab. 7.8 gibt einen Überblick über die am häufigsten auftretenden Auflösungen und deren Bedeutung. Haben Sie keine Einschränkungen, was die Ressourcen angeht, oder haben Sie nur eine geringe Anzahl an Faktoren (die von Interesse sind, oder zuvor mit einem Versuchsplan 1. Ordnung extrahiert wurden) und wollen Ihr System detaillierter modellieren bzw. analysieren, dann können Sie einen Versuchsplan 2. Ordnung in Betracht ziehen, die wir uns im folgenden Abschnitt genauer anschauen werden. 7.2 Übung Stellen Sie einen 23−1 teilfaktoriellen Versuchsplan auf und zeichnen Sie die Versuchspunkte schematisch auf einem Würfel, ähnlich wie in Abb. 7.2.
3 Vierfaktorwechselwirkungen kommen in der Praxis so gut wie nicht vor.
1
−1
1
6
7
8
1
1
−1
1
−1
5
1
1 1
−1
−1
1
−1
1
4
1
−1
1
1
−1
−1
3
1
−1
−1
1
1
2
−1
x4
−1
−1
−1
−1
1
x3
x2
x1
Vers.
Tab. 7.7 24−1 teilfaktorieller Versuchsplan
1
1
1
1
1
1
1
1
1
−1
1
−1
1
−1
1
−1
x1 x2 x3 x4 x2 x3 x4
1
x1
1
1
−1
−1
1
1
−1
−1
x1 x3 x4
x2
1
−1
−1
1
1
−1
−1
1
x3 x4
x1 x2
1
1
1
1
−1
−1
−1
−1
x1 x2 x4
x3
1
−1
1
−1
−1
1
−1
1
x2 x4
x1 x3
1
1
−1
−1
−1
−1
1
1
x1 x4
x2 x3
1
−1
−1
1
−1
1
1
−1
x1 x2 x3
x4
y8
y7
y6
y5
y4
y3
y2
y1
y
268 7 Statistische Versuchsplanung
7.2 Versuchsplan 2. Ordnung
269
Tab. 7.8 Häufig auftretende Auflösungen bei statistischen Versuchsplänen Auflösung
Erklärung
III
Haupteffekte sind mit Zweifaktorwechselwirkungen vermengt
IV
Keine der Haupteffekte sind miteinander oder mit Zweifaktorwechselwirkungen vermengt, dafür sind manche Zweifaktorwechselwirkungen untereinander vermengt
V
Keine der Haupteffekte und Zweifaktorwechselwirkungen sind miteinander oder mit (anderen) Zweifaktorwechselwirkungen vermengt, dafür sind manche Zweifaktorwechselwirkungen mit Dreifaktorwechselwirkungen vermengt
7.2
Versuchsplan 2. Ordnung
Wie Abb. 7.5 verdeutlichen soll, wird bei einem Versuchsplan 2. Ordnung jeder Faktor auf drei Faktorstufen variiert. Deshalb bezeichnet man solche Pläne oft auch als 3k -Designs, wobei k wiederum der Anzahl Faktoren entspricht.
a
b y
y
c x3
x2
x1
x2
x1
x1
Abb. 7.5 Schematische Darstellung eines einfaktoriellen (a), zweifaktoriellen (b) und dreifaktoriellen (c) experimentellen Designs 2. Ordnung. xi sind die Faktoren und y die Optimierungsfunktion, die im Falle des dreifaktoriellen Designs nicht mehr darstellbar ist
270
7 Statistische Versuchsplanung
Tab. 7.9 Beispiel für einen 32 vollfaktoriellen Versuchsplan Versuch
x1
x2
1
x1
x2
x12
x12
x22
1
−1
−1
1
−1
−1
1
1
1
2
1
−1
1
1
−1
−1
1
1
3
−1
1
1
−1
1
−1
1
1
4
1
1
1
1
1
1
1
1
5
−1
0
1
−1
0
0
1
0
6
1
0
1
1
0
0
1
0
7
0
−1
1
0
−1
0
0
1
8
0
1
1
0
1
0
0
1
9
0
0
1
0
0
0
0
0
Der Vorteil eines Versuchsplans 2. Ordnung ist, dass hiermit auch gekrümmte Antwortflächen4 modelliert werden können. Die allgemeine Form der Modellfunktion für solche Versuchspläne ist in Gl. 7.20 dargestellt. f (x1 , . . . , xn ) = b0 +
n i=1
bi xi +
n−1 n i=1 j>i
bi j xi x j +
n
bii xi2 + . . .
(7.20)
i=1
Die Möglichkeit, gekrümmte Antwortflächen zu erhalten, beruht nicht darauf, dass man nun xi2 -Terme in der Modellfunktion stehen hat, sondern dass eine weitere Faktorstufe zwischen minimalem und maximalem Level vorhanden ist. Diese insgesamt drei Faktorstufen werden nun typischerweise mit −1, 0, +1 kodiert, wobei −1 die kleinste, 0 die mittlere und +1 die größte Faktorstufe darstellt. Tab. 7.9 zeigt ein Beispiel für einen 32 -Faktorplan mit diesen drei Stufen. Die Versuche 1 bis 4 entsprechen den Ecken des Quadrats in Abb. 7.5b, die Versuche 5 bis 8 den Kantenmitten und Versuch 9 entspricht dem Mittelpunkt. Die Modellfunktion, die an die Daten angepasst wird, hat nun auch quadratische Terme. Um die Modellparameter bi j zu bestimmen, braucht es jedoch relativ viele Experimente. Bei drei Faktoren immerhin schon 27 (siehe auch Abb. 7.7). Dennoch haben Sie nun prinzipiell die Möglichkeit, Extremwerte zu bestimmen. Ein Chemieingenieur ist bspw. daran interessiert, bei welcher Faktorkombination von pH-Wert, Temperatur und Konzentrationen der Ausgangsstoffe die Reaktionsausbeute maximal wird. Im Sinne der Regression (vgl. Abschn. 5.1) handelt es sich hierbei zwar um ein quadratisches Regressionspolynom (quadratisch im Sinne der Faktoren xi ), aber immer noch um eine lineare Regression (da die Koeffizienten bi j linear in
4 Mit Antwort meine ich hier die Systemantwort y, in Abhängigkeit der Veränderung der unabhängigen Faktoren xi .
7.2 Versuchsplan 2. Ordnung
271
Gl. 7.20 auftreten). Das bedeutet, dass der Koeffizientenvektor b wieder mithilfe von Gl. 7.9 berechnet werden kann. Beispiel 7.2 Eine Chemieingenieurin hat bei einer vorangegangenen Versuchsreihe festgestellt, dass die Ausbeute y ihres Reaktionsansatzes hauptsächlich durch Änderung des pH-Wertes (x1 ) und der Temperatur (x2 ) beeinflusst wird. Sie versucht ihr System mithilfe der Funktion y(x1 , x2 ) = b0 + b1 x1 + b2 x2 + b12 x1 x2 + b11 x12 + b22 x22
(7.21)
zu beschreiben, um festzustellen, ob Extremwerte im Versuchsraum vorliegen. Sie stellt hierfür einen Versuchsplan 2. Ordnung auf, der die Reaktionsausbeuten y in Tab. 7.10 ergab. Der pH-Wert wurde hierbei zwischen 4 bis 9 und die Temperatur zwischen 25 bis 100 ◦ C variiert. Helfen Sie der Ingenieurin, die entsprechenden Regressionskoeffizienten bi j zu bestimmen und stellen Sie die Funktion anschließend grafisch dar, um festzustellen, ob Extremwerte vorliegen. Zur Bestimmung der Regressionkoeffizienten erweitern Sie Tab. 7.10 ähnlich wie in Tab. 7.9. Der rechte Teil in letztgenannter Tabelle entspricht der X-Matrix in nachfolgenden Gleichung: −1 b = XT X XT y
(7.22)
D. h., in Excel brauchen Sie lediglich die entsprechenden Berechnungen (MMULT, MTRANS und MINV) zu beherrschen und sollten so auf folgendes Ergebnis kommen: T b = 102,4 −8, 2 3, 3 −0,8 −16,4 −10,0 Anhand des Graphen (vgl. Abb. 7.6), den Sie mithilfe der so ermittelten Koeffizienten erstellen können, sehen Sie, dass die Reaktionsausbeute bei einer Einstellung von ungefähr [x1 , x2 ] = [−0,25, 0,20] maximal wird. Das entspricht (zurückgerechnet) einem pH-Wert von 5, 9 und einer Temperatur von 70 ◦ C. Die Rückrechnung erfolgt hierbei durch Auflösen von Gl. 7.1 nach der originalen Faktorstufe x˜i gemäß folgender Gleichung: x˜i (max) − x˜i (min) x˜i (max) + x˜i (min) + (7.23) x˜i = xi 2 2 Die Konturen in Abb. 7.6 bei y = 60 habe ich eingefügt, um die Lage des Maximums besser herauszustellen. Neben den Konturen habe ich auch die Datenpunkte eingefügt (Punkte), denn so bekommt man einen Eindruck, wie gut das Modell die experimentellen Daten fittet.
272
7 Statistische Versuchsplanung
Abb. 7.6 Modellierte Antwortfläche für die Reaktionsausbeute y in Abhängigkeit des pH-Wertes x1 und der Temperatur x2 . Die Datenpunkte (blau) entsprechen den verschiedenen Faktorstufen. Die Parameter der Fläche wurden mithilfe einer linearen Regression bestimmt
Für k = 2 Faktoren ist die Anzahl der Versuche eines vollfaktoriellen Versuchsplans 2. Ordnung vielleicht noch handhabbar. Darüber hinaus ist sie jedoch oft bereits nicht mehr praktikabel. In der Praxis werden daher häufig reduzierte Pläne angewendet. 7.3 Übung Schreiben Sie die Regressionsgleichung 7.21 für das Beispiel 7.2 in Form der nicht-transformierter Variablen hin.
Tab. 7.10 Abhängigkeit der Reaktionsausbeute (y) von den (bereits codierten) Variablen pH-Wert (x1 ) und Temperatur (x2 ) Versuch
x1
x2
y1
1 2 3 4 5 6 7 8 9
−1 1 −1 1 −1 1 0 0 0
−1 −1 1 1 0 0 −1 1 0
79,5 65,5 87,0 69,7 96,5 78,2 89,7 97,9 99,8
7.3
Zentral zusammengesetzter Versuchsplan
a
273
b y
x3 x2
x2
x1
x1
Abb. 7.7 Schematische Darstellung zum zentral zusammengesetzten Versuchsplan mit zwei Faktoren (a) und drei Faktoren (b). Die blau markierten Punkte stellen diejenigen dar, die gegenüber den Eckpunkten um α nach außen verschoben sind
7.3
Zentral zusammengesetzter Versuchsplan
Den zentral zusammengesetzten Versuchsplan kann man sich von einem 2k -Plan abgeleitet vorstellen, bei dem zentral an den Kanten (2D) bzw. Flächen (3D und mehr) und im Zentrum des Versuchsraums weitere Punkte hinzugefügt werden. Die an den Kanten bzw. Flächen befindlichen Punkte liegen häufig um einen Wert α weiter außen als die nicht zentralen Punkte. Diese zentralen Punkte (nicht gefüllte Punkte in Abb. 7.7) werden häufig auch Sterndesign genannt. Je nach Art des zentral zusammengesetzten Designs nimmt α verschiedene Werte an. Hierbei ist α = 2k/4 (7.24) eine häufig genutzte Wahl. Hierdurch haben alle Punkte die gleiche Distanz vom Designmittelpunkt (das können Sie ja interessehalber mal für k = 2 ausrechnen). Man sagt, dass hierdurch das System rotierbar wird. Dadurch korrelieren die quadratischen Effekte nur gering miteinander. Obwohl in vielerlei (statistischer) Hinsicht ideal, hat ein solches Design jedoch den Nachteil, dass man je Faktor fünf anstelle von drei Faktorleveln hat. Allgemein müssen N = 2k + 2k + n c (7.25) Experimente durchgeführt werden. Hierbei entspricht n c der Anzahl Experimente im Zentrum (in der Praxis wird zumeist 3 ≤ n c ≤ 5 gewählt5 ). Falls α = ±1 ist, spricht man vom sogenannten face-centered design. Die Punkte liegen (natürlich bis auf den Zentrumspunkt) in der Mitte der Würfelflächen. Hierbei korrelieren jedoch die quadratischen Effekte relativ stark.
5 Es sollten drei oder mehr Experimente durchgeführt werden, um eine Abschätzung des experimentellen Fehlers zu ermöglichen.
274
7 Statistische Versuchsplanung
Tab. 7.11 Beispiel für einen zentral zusammengesetzten Versuchsplan mit α = 23/4 ≈ 1,68 Versuch
x1
x2
x3
y
1
−1
−1
−1
y1
2
1
−1
−1
y2
3
−1
1
−1
y3
4
1
1
−1
y4
5
−1
−1
1
y5
6
1
−1
1
y6
7
−1
1
1
y7
8
1
1
1
y8
9
−1,68
0
0
y9
10
1,68
0
0
y10
11
0
−1,68
0
y11
12
0
1,68
0
y12
13
0
0
−1,68
y13
14
0
0
1,68
y14
15
0
0
0
y15
16
0
0
0
y16
17
0
0
0
y17
Zentral zusammengesetzte Versuchspläne werden in der Praxis relativ gerne verwendet, da man oft zunächst mit dem zugrunde liegenden 2k -Design anfangen kann, um bereits erste Infos über den Datenraum zu erhalten und anschließend durch Aufsetzen des Sterndesigns dann ggf. das Optimum zu finden. Bei k = 2 ist der Aufwand gegenüber dem vollfaktoriellen Versuchsplan 2. Ordnung allerdings gleich. Ab k = 3 sieht das Ganze dann schon anders aus. Hier müssen Sie mit einem zentral zusammengesetzten Versuchsplan mit 17 Experimenten (inkl. Replikate im Zentrum) schon deutlich weniger Aufwand betreiben als im Falle des vollfaktoriellen Versuchsplans (33 = 27). Ein Beispiel für einen zentral zusammengesetzten Versuchsplan findet sich in Tab. 7.11. Wie Sie sehen, wurde α hier gemäß Gl. 7.24 zu 23/4 ≈ 1.68 berechnet.
7.4
Box-Behnken-Versuchsplan
Diese Art der Versuchspläne sind immer dann nützlich, wenn das Optimum (maximale chemische Ausbeute bspw.) annähernd in der Mitte des Faktorraums liegt. Bei diesem Design wird am Zentrumspunkt und an den Mitten der Würfelkanten gemessen (vgl. Abb. 7.8). Im Gegensatz zum zentral zusammengesetzten Design setzt sich dieses Design nicht aus
7.4
Box-Behnken-Versuchsplan
275
a
b
y
x3 x2
x2
x1
x1
Abb. 7.8 Schematische Darstellung zum Box-Behnken-Versuchsplan mit zwei Faktoren (a) und drei Faktoren (b). Der blau markierte Punkt stellt den Zentralpunkt dar
mehreren (Unter-)Designs zusammen. Beim Box-Behnken-Design werden drei Stufen 0, 1, −1 je Faktor getestet. Aufgrund seiner Struktur findet sich bei diesem Design keine Faktoreinstellung, bei dem alle Stufen an ihren Extremwerten sind (also z. B. −1, −1, −1), d. h., an den Kanten des Würfels wird nicht gemessen. Dementsprechend können Sie hier auch keine Aussagen über ihre zu optimierende Funktion machen. Laut Literatur soll man das Box-Behnken-Design möglichst nur für drei bis fünf Faktoren anwenden (siehe zum Beispiel [3]). Anhand eines Beispiels möchte ich Sie näher mit dem Box-Behnken-Design vertraut machen. Beispiel 7.3 Unsere Chemieingenieurin aus Beispiel 7.2 hat nun einen neuen Reaktionsansatz und hat bereits festgestellt, dass neben dem pH-Wert x1 und der Temperatur x2 auch die Konzentration x3 eines Beistoffes einen Einfluss auf ihre Reaktionsausbeute hat. Um den Versuchsaufwand zur Modellierung ihres Systems mit der Funktion y(x1 , x2 , x3 ) = b0 + b1 x1 + b2 x2 + +b3 x3 b12 x1 x2 + b13 x1 x3 + b23 x2 x3 + b11 x12 + b22 x22 + b33 x32
(7.26)
gering zu halten, entscheidet sie sich dafür, ein Box-Behnken-Design (Tab. 7.12) zu erstellen. An dieser Stelle ein praktischer Hinweis: Beim Box-Behnken-Versuchsplan ist die Anzahl der Versuche relativ gering, was ja gewünscht ist. Jedoch ist das Verhältnis der Anzahl Versuche zu Regressionsparametern relativ klein. Dadurch kann es unter Umständen zu rang-defizitären Matrizen kommen und somit eine Berechnung von b (vgl. Gl. 7.22) verhindern. Genau das wäre geschehen, hätte die Ingenieurin auf die Berücksichtigung der Dreifaktorwechselwirkung x1 x2 x3 in ihrem Modell bestanden.
276
7 Statistische Versuchsplanung
Wird die Dreifaktorwechselwirkung vernachlässigt, wie hier geschehen, ergibt sich folgende Lösung für b: b = b0 b1 b2 b3 b12 b13 b23 b11 b22 b33 T = 103,15 −8,56 1,43 −6,35 3,08 3,02 0,02 −14,83 −12,56 −7,17 Die Ingenieurin ist an den Faktoreinstellungen interessiert, an dem ihre Reaktionsausbeute maximal wird. Dazu berechnet sie die zweiten und ersten Ableitungen des Fitmodells nach den Faktoren xi , um herauszufinden, welche Art von Extremwert vorliegt (es könnte ja auch ein Minimum ungünstigerweise entstanden sein) und an welcher Position. Das kann für das Fitmodell Gl. 7.26 relativ einfach von Hand ausgerechnet werden. Bilden wir zunächst die ersten Ableitungen: ∂y = b1 + b12 x2 + b13 x3 + 2b11 x1 = 0 ∂ x1 ∂y = b2 + b12 x1 + b23 x3 + 2b22 x2 = 0 ∂ x2 ∂y = b3 + b13 x1 + b23 x2 + 2b33 x3 = 0 ∂ x3
(7.27) (7.28) (7.29)
Das Gleichungssystem lässt sich relativ leicht lösen (siehe hierzu Abschn. 1.1), da die Koeffizienten bi j bereits bekannt sind. Die Lösung ist hierbei x1 (Extremum) = −0,34
(7.30)
x2 (Extremum) = 0,015
(7.31)
x3 (Extremum) = −0,51
(7.32)
Liegt auch wirklich ein Maximum vor, oder haben wir es hier mit einer anderen Art Extremum zu tun? Das überprüfen wir durch Bildung der zweiten Ableitungen: ∂2 y = 2b11 ∂ x12
(7.33)
∂2 y = 2b22 ∂ x22
(7.34)
∂2 y = 2b33 ∂ x32
(7.35)
Da alle bii < 0 sind, liegt an den oben bestimmten Positionen tatsächlich ein Maximum vor.
7.4
Box-Behnken-Versuchsplan
277
Tab. 7.12 Box-Behnken-Versuchsplan für die drei Faktoren pH-Wert (x1 ), Temperatur (x2 ) und Konzentration (x3 ) Versuch
x1
x2
x3
y1
1
−1
−1
0
85
2
−1
1
0
83
3
1
−1
0
62
4
1
1
0
73
5
−1
0
−1
101
6
−1
0
1
80
7
1
0
−1
77
8
1
0
1
68
9
0
−1
−1
88
10
0
−1
1
77
11
0
1
−1
89
12
0
1
1
79
13
0
0
0
107
14
0
0
0
102
15
0
0
0
101
Im oben gezeigten Beispiel habe ich die Regressionskoeffizienten nicht überprüft, um es nicht noch mehr aufzublähen. Das überlasse ich Ihnen als Übung. Box-BehnkenVersuchspläne bestechen also durch ihre geringe Versuchszahl und werden daher in der Praxis gern genutzt, um die Antwortfläche y zu modellieren. Es gibt natürlich noch weitere Arten von Versuchsplänen, die aber nicht Teil dieses Buches sein sollen. Sie haben in diesem Abschnitt gesehen, dass bei der Auswertung von Versuchsplänen eine ganze Menge von dem zusammenkommt, was wir in den vorangegangenen Kapiteln bereits besprochen hatten. Von Ableitungen über Hypothesentests bis hin zur Regression. Mit ein Grund, warum ich dieses Kapitel ans Ende des Buches gesetzt habe. In einem Video zeige ich Ihnen, wie Sie einen Box-Behnken-Versuchsplan in Excel auswerten. Rufen Sie dieses Video durch Scannen des QR-Codes (unten) auf.
7.4 Übung Bestimmen Sie die Signifikanz der Regressionskoeffizienten und der Effekte aus Beispiel 7.3.
278
7.5
7 Statistische Versuchsplanung
Allgemeine Hinweise zu Versuchsplänen
Ich möchte an dieser Stelle ein paar Worte zur Entscheidung für einen der vorgestellten Versuchspläne geben und in welchem experimentellen Zusammenhang diese Sinn machen. Haben Sie relativ wenig oder gar kein Vorwissen bezüglich Ihres Faktorraums, dann macht es keinen Sinn, die Experimente gemäß eines vollständigen 3k -Versuchsplans mit jeweils fünf Replikaten pro Versuch zu planen, denn die Wahrscheinlichkeit ist hoch, dass bspw. • Sie einen Fehler beim Experimentieren machen. • einer der Faktoren eigentlich gar keine Rolle spielt. • die Bereiche, in dem Sie die Faktoren variieren wollen, nicht experimentell realisierbar sind. Der erste Punkt ist nicht zu unterschätzen. Ich habe die Erfahrung gemacht, dass egal, wie ausführlich und penibel Sie Ihre Experimente planen, es häufig ganz anders kommt. Ob nun das Messgerät nicht so will, wie Sie es wollen oder ob ein Lösungsmittel während des Ansetzens der Proben ausgegangen ist, es kommt meistens irgendwie etwas Ungeplantes dazwischen, was zu Fehlern führen kann. Der zweite Punkt ist eigentlich ärgerlich, denn Sie haben Experimente für einen Faktor eingeplant und gemacht, der entweder in dem von Ihnen untersuchten Bereich keine Rolle spielt, oder generell keinen Einfluss auf Ihre zu optimierende Funktion hat. Sie sollten dann lieber mit einem einfachen Versuchsplan anfangen, und bspw. anhand eines sogenannten Screening Design mit möglichst wenigen Experimenten die Signifikanz der Faktoren bestimmen. Der dritte Punkt bezieht sich darauf, dass Sie bspw. einen der Faktoren gar nicht in dem von Ihnen gewünschten Bereich bekommen (bspw. kann es beim Faktor Temperatur passieren, dass Sie Ihr System nicht auf eine bestimmte Temperatur aufheizen können oder aus sicherheitstechnischen Gründen nicht dürfen). In diesem Zusammenhang finden Sie in der Literatur häufig den Ausdruck optimale designs, auf die ich aber im Rahmen dieses Buches nicht weiter eingehen möchte. Sie sehen, Sie würden bei einem solch hoch aufgelösten Versuchsplan, wie dem 3k -Plan, bei wenig Vorwissen über den Faktorraum eine Menge Ressourcen verschwenden, und das vermutlich ohne Erfolg..
Literatur 1. Wass, J.A.: First steps in experimental design-the screening experiment. J. Valid. Technol. (2010) 2. Dunn, K.: Process Improvement Using Data. https://learnche.org/pid/#. Zugegriffen: 15. Aug. 2019 3. Siebertz, K., van Bebber, D., Hochkirchen, T.: Statistische Versuchsplanung: Design of Experiments (DoE). VDI-Buch. Springer, Berlin (2010) 4. Oehlert, G.W.: A First Course in Design and Analysis of Experiments. Gary W, Oehlert (2010)
8
Lösungen zu den Übungen
8.1
Lösungen zu Kap. 1
1.1 Lösung: Geben Sie zunächst die Zahl 1 in die Zelle A1 ein, bestätigen die Eingabe und markieren diese anschließend nochmals. Rufen Sie das Datenreihe-Werkzeug unter Start → Ausfüllen → Datenreihe... auf und wählen Sie unter Reihe in den Punkt Spalten aus. Wählen Sie als Inkrement 0,1 sowie als Endwert 2. Achten Sie darauf, dass unter Typ der Punkt Linear ausgewählt ist und bestätigen Sie anschließend mit OK. Auf diese Weise lassen sich auf relativ einfache Art und Weise Datenreihen mit vorgegebenen Inkrementen erzeugen. Dies sind unsere x-Werte. Wenn Sie in den Zellen D1 bzw. D2, wie gefordert, die Werte der beiden Parameter b1 bzw. b2 geschrieben haben, dann können Sie die Funktionswerte f (x) = b1 + b2 x in der Spalte B berechnen. Geben Sie hierzu in Zelle B1 die Formel =$D$1+$D$2*A1 ein und bestätigen Sie die Eingabe mit . Bitte achten Sie auf die absoluten Zellbezüge für die beiden Parameter. Wenn Sie anschließend die Zelle B1 nochmals markieren, können Sie auf das Ausfüllkästchen doppelklicken, und die weiter unten liegenden Zellen mit benachbarten x-Werten werden automatisch ausgefüllt.
1.2 Lösung: Das Skalarprodukt v T w der beiden Vektoren ⎡ ⎤ ⎡ ⎤ 0 1 v = ⎣0⎦ und w = ⎣1⎦ 1 0 können Sie in Excel mithilfe der Funktionen MMULT und MTRANS berechnen. Angenommen, die Elemente von v stünden in den Zellen A1:A3 und die des Vektors w stünden in den Zellen B1:B3. Dann können Sie das Skalarprodukt bspw. in Zelle C1 berechnen. Hierzu geben Sie Folgendes ein: =MMULT(MTRANS(A1:A3);B1:B3) und betätigen die Eingabe mit shift + strg +
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 M. Schneider, Datenanalyse für Naturwissenschaftler, Mediziner und Ingenieure, https://doi.org/10.1007/978-3-662-61866-0_8
279
280
8 Lösungen zu den Übungen
Als Ergebnis sollten Sie null erhalten. Das liegt daran, dass die beiden Vektoren senkrecht aufeinanderstehen, wodurch ihr Skalarprodukt null wird (vgl. Abschn. 9.1). 1.3 Lösung: Als Knackpunkt zur Lösung dieser Übung ist festzustellen, dass es bei der Berechnung der Bestimmungsgrenze c B , um das Auffinden einer Nullstelle geht. Dazu wandeln Sie die Gl. 1.12 wie folgt um: SE (c B − c) ¯2 6,92 − cB = 0 (8.1) 1.01 + n b2 (ci − c) ¯2 i=1
In Excel geben Sie für c B einen Startwert (z. B. 0, 1) vor, berechnen Gl. 8.1 mit diesem Startwert und optimieren diesen Wert mithilfe des Solvers. Die Zelle, die die o. g. Funktion enthält, markieren Sie im Solver-Fenster als Zielzelle, und die Zelle, in der Sie den Startwert für c B definiert haben, ist Ihre Variablenzelle. Sie suchen nach demjenigen Wert c B , der Nullstelle der genannten Funktion ist. Daher soll die Zielzelle auf den Wert null optimiert werden. Als Ergebnis sollten Sie c B = 0,031 erhalten haben. Sie können Gl. 8.1 übrigens auch exakt lösen. Wenn Sie es mal probieren wollen, gerne. Sie werden aber schnell merken, dass das recht aufwändig ist. 1.4 Lösung: Zur numerischen Berechnung der partiellen Ableitung f x , f y , f x x , f yy und f x y der Funktion f (x, y) = (x +0, 5)2 +(y −0, 5)2 am Punkt (x0 , y0 ) = (−1/2, 1/2) rufen wir uns zunächst die Gleichungen für die partiellen Ableitungen nochmals ins Gedächtnis. Die Ausdrücke für f x , f y und f x y stehen in den Gl. 1.24, 1.25 und 1.26. f x x und f yy ergeben sich gemäß Gl. 1.21 zu: f (x + 2h x , y) − 2 f (x, y) + f (x − 2h x , y) 4h 2x f (x, y + 2h y ) − 2 f (x, y) + f (x, y − 2h y ) = 4h 2y
fx x = f yy
Zur Berechnungen der Ableitungen am Punkt (x0 , y0 ) wählen wir zunächst (sehr kleine) Werte für die Schrittweiten h x bzw. h y (z. B. 10−6 ) und setzen diese mit den Koordinaten des Punktes in die Gleichungen der partiellen Ableitungen ein. Die einzelnen Terme der Gleichungen für die partiellen Ableitungen fasse ich in Tab. 8.1 zusammen. Wenn Sie diese Terme in die entsprechenden Formeln einsetzen, so sollten Sie f x = f y = 0, f x x = f yy = 2 sowie f x y = 0 erhalten. Demnach gilt f x x f yy − f x2y = 4 > 0. Es liegt also ein Minimum vor. 1.5 Lösung: Zur Berechnung des (Größt-)Fehlers und der Standardabweichung von D X müssen wir die partiellen Ableitungen nach ω und nach τ X bilden.
8.1
Lösungen zu Kap. 1
281
Tab. 8.1 Terme der Gleichungen für die verschiedenen partiellen Ableitungen f (x0 + h x , y0 ) 10−12
f (x0 − h x , y0 ) 10−12
f (x0 + 2h x , y0 ) 4 · 10−12
f (x0 − 2h x , y0 ) 4 · 10−12
f (x0 , y0 + h y ) 10−12
f (x0 , y0 − h y ) 10−12
f (x0 , y0 + 2h y ) 4 · 10−12
f (x0 , y0 − 2h y ) 4 · 10−12
f (x0 , y0 ) 0
f (x0 + h x , y0 + h y ) 2 · 10−12
f (x0 + h x , y0 − h y ) 2 · 10−12
f (x0 − h x , y0 + h y ) 2 · 10−12
f (x0 − h x , y0 − h y ) 2 · 10−12
ω ∂ DX = ∂ω 2τ X ω2 ∂ DX =− 2 ∂τ X 4τ X
(8.2) (8.3)
Berechnen wir den (Größt-)Fehler, so erhalten wir:
∂ DX
sω + ∂ D X sτ D X =
∂ω ∂τ X X =
ω ω2 sω + 2 sτ X 2τ X 4τ X
Die Standardabweichung erhalten Sie wie folgt:
∂ DX 2 2 ∂ DX 2 2 sω + sτ X sDX = ∂ω ∂τ X 2 ω 2 ω2 2 = sω + − 2 sτ2X 2τ X 4τ X Setzen wir nun die Werte ω = 0,26 ± 0,05 µm und τ X = 60 ± 10 µs jeweils in die Gleichungen ein, so erhalten wir: D X = 1,55 · 10−4 bzw. s D X = 0,0069 1.6 Lösung: Wir berechnen zunächst unsere Schrittweite h = b−a n = 0,01165. Anschließend erzeugen wir uns unsere x Werte in eine Spalte, und zwar indem wir zunächst den Wert für b, also −10, in eine Zelle eintragen. In der Zelle darunter addieren wir den Wert von h (auf absoluten Zellbezug achten) zum Wert des Vorgängers und erhalten somit −9,98835. Nun ziehen wir die Berechnung mithilfe des Ausfüllkästchens nach unten, bis 1000 Zellen
282
8 Lösungen zu den Übungen
ausgefüllt sind. Die unterste Zelle in der x-Spalte sollte gleich 1,65 sein. In der Spalte daneben berechnen Sie die zugehörigen Funktionswerte mithilfe der Funktion NORM.S.VERT. x In der Spalte daneben, berechnen wir das Integral −10 . . . numerisch mit der Trapezregel, wobei die x-Werte im Prinzip wie Laufvariablen sind. Für x = −10 müssen wir natürlich 0 in die (oberste) Zelle für das Integral eintragen. ab x = −9,8835 addieren wir zum Vorgänger jeweils ( f (xk ) − f (xk−1 ))h/2 hinzu. Wenn Sie das so machen, dann steht der Wert Ihres bestimmten Integrals in der letzten Zelle der Integralspalte, also bei x = 1,65. Hier ist das Integral gleich 0,951, das entspricht 95,1 % der Fläche unter der Standardnormalverteilung. Auf den gleichen Wert wären Sie übrigens auch gekommen, wenn Sie b = 1,65 an die Funktion NORM.S.VERT übergeben hätten, denn diese berechnet im Prinzip das Integral der Standardnormalverteilung von −∞...b. Da die Funktionswerte der Standardnormalverteilung < −10 sehr klein sind, tragen sie kaum noch etwas zum Integral bei, von daher kann man auch schon ab −10 anfangen zu integrieren und erhält dennoch den richtigen Integralwert. Nehmen wir mal an, Sie hätten die 1000 x-Werte in der Spalte A erzeugt. Nehmen wir außerdem an, der Wert der unteren Integrationsgrenze a stünde in Zelle A2 und der Wert der oberen Integrationsgrenze b entsprechend in Zelle A1001. Alle anderen x-Werte stehen dazwischen. Nehmen wir ferner an, die zugehörigen f (x)-Werte stünden in der Spalte B nebenan. Dann können Sie das Integral auch in nur einer Zelle und mit nur einer Formel berechnen: {=SUMME((A3:A1001-A2:A1000)*0,5*(B2:B1000+B3:B1001))} bzw. für den speziellen Fall von äquidistanten x-Werten: {=SUMME(h*0,5*(B2:B1000+B3:B1001))}.
8.2
Lösungen zu Kap. 2
2.1 Lösung: Leider gibt es in Excel noch keinen Spaltenstreudiagrammtyp. Mit relativ einfachen Mitteln können Sie solche Diagramme jedoch auch selbst aus einem XY-Diagramm erzeugen. Schreiben Sie hierfür zunächst mal die Daten in Tab. 2.2 untereinander in eine Spalte, sagen wir Spalte B. In Spalte A erzeugen Sie jeweils die Gruppenbezeichnungen für die Daten. Diese müssen numerisch sein, damit man sie als x-Werte verwenden kann. Wenn Sie nun die ersten fünf Werte mit der Zahl 1 kennzeichnen und die letzten fünf Werte mit der Zahl 2, dann können Sie bereits eine Spaltenstreudiagramm erzeugen, mit diesen als x-Werten und den Daten in Spalte B als y-Werte. Da es nur zwei Datensätze sind, empfehle ich Ihnen jeweils zwei Datenreihen im Diagramm anzulegen, dann können die Gruppen dort jeweils unterschiedliche Farben haben. Nun liegen die Datenpunkte im Diagramm bei x = 1 und x = 2 jedoch z. T. übereinander. Wir fügen daher noch den jitter hinzu, um das Ganze in x-Richtung zu entzerren, indem wir zu den Zahlen der Gruppenbezeichnungen jeweils noch eine kleine Zufallszahl hinzuaddieren, sagen wir aus dem Bereich [−0, 05 0, 05]. Für die erste Gruppe sieht das dann bspw. so aus: 1+0,05*(-1+2*ZUFALLSZAHL()). Die Zahl 1 vor dem Plus ist unsere ursprüngliche Gruppenbezeichnung, der Ausdruck hinter
8.2
Lösungen zu Kap. 2
283
dem ersten Plus erzeugt die gewünschte Zufallszahl. Das bedeutet, die Werte streuen um 1 für die erste Gruppe. Das geht für die zweite Gruppe analog. Dazu müssen Sie nur die 1 vor dem Plus durch eine 2 ersetzen. Wollen Sie nun noch jeweils die Mittelwerte der beiden Gruppen als horizontalen Strich in dasselbe Diagramm einzeichnen, so berechnen Sie zunächst jeweils den Mittelwert für beide Gruppen. Erzeugen Sie jeweils eine Kopie der Werte, sodass Sie die beiden Gruppenmittelwerte jeweils in doppelter Ausführung vorliegen haben. Anschließend brauchen Sie zugehörige x-Werte, um jeweils die beiden Punkte im Diagramm darstellen zu können. Hierfür können Sie den kleinsten und den größten x-Wert je Gruppe verwenden und jeweils den beiden Kopien zuordnen. Fügen Sie diese Daten jeweils als neue Datenreihen hinzu und verbinden Sie die beiden Datenpunkte (Kopien) jeweils über eine Linie (siehe Diagrammoptionen), und schon haben Sie auch die Mittelwertslinien eingezeichnet. 2.2 Lösung: Leider gibt es in Excel keinen Diagrammtyp, bei dem man sich sofort Asterikse zwischen Gruppen anzeigen lassen kann. Mit wenig Aufwand kann man dies jedoch selbst erstellen, wie wir im Folgenden sehen werden. Berechnen Sie bitte zunächst jeweils den Mittelwert und die Standardabweichung je Gruppe der Daten in Tab. 2.2. Es ist μ1 = 48,96, σ1 = 7,58 und μ2 = 25,93, σ2 = 5,77. Mit Hilfe der Standardabweichungen und der Anzahl Datenpunkte je Gruppe lassen sich gemäß Gl. 2.9 die Standardfehler S E berechnen. Es ist S E 1 = 3,39 und S E 2 = 2,58. Nun markieren Sie die beiden Gruppenmittelwerte und erzeugen ein Balkendiagramm. Unter Diagrammentwurf können Sie ein Diagrammelement hinzufügen. Gehen Sie auf Fehlerindikatoren und anschließend auf Weitere Fehlerindikatoroptionen... Unter Fehlerindikatoren formatieren wählen Sie Benutzerdefiniert und geben sowohl für den positiven Fehlerwert, als auch für den negativen Fehlerwert die Zellen der Standardfehler an. Nun erzeugen wir die Verbindungslinie zwischen den beiden Balken, oberhalb derer die Asterikse anschließend dargestellt werden. Hierzu erzeugen Sie untereinander die vier x-Werte [1 1 2 2] und in der Spalte daneben vier y-Werte [65 70 70 65]. Sie liegen weit genug weg von den „Whiskern“ der Fehlerbalken und bilden die Ecken der Linie zwischen den Balken. Klicken Sie nun mit der rechten Maustaste in das Diagramm und fügen unter Daten auswählen... noch eine weitere Datenreihe hinzu. Sie brauchen dieser neuen Datenreihe keinen Namen geben, da sie nur ein Hilfsmittel darstellt, um die Verbindungslinien zwischen den Balken im Diagramm darzustellen. Wählen Sie als Reihenwert zunächst einen der y-Werte aus (wir ändern die Werte gleich ohnehin nochmals). Bestätigen Sie alles mit OK. Jetzt klicken Sie erneut mit der rechten Maustaste auf das Diagramm und wählen Diagrammtyp ändern... Anschließend wählen Sie unter Alle Diagramme den Typ Kombi und gehen dort auf Benutzerdefinierte Kombination. Für die zweite Datenreihe wählen Sie unter Diagrammtyp Punkte mit geraden Linien und bestätigen mit OK. Schließlich gehen Sie nochmals auf Daten auswählen... und bearbeiten die zweite Datenreihe, indem Sie die x-Werte und zugehörigen y-Werte übergeben. Dadurch haben Sie die gewünschte Verbindungsli-
284
8 Lösungen zu den Übungen
nie erzeugt. Fehlen nur noch die drei Asterikse. Drei deshalb, weil ein zweiseitiger t-Test für die beiden Datensätze ein p = 0,0006 ergeben hat. Das können Sie gerne mit der Funktion T.TEST überprüfen. Zum t-Test kommt aber im Abschn. 3.4 ohnehin noch mehr. Die drei Asterikse können Sie im einfachsten Fall über ein Textfeld an die Position oberhalb der Verbindungslinie einfügen. Mehr dynamisch können Sie diese auch mithilfe der Datenbeschriftungen erzeugen. Abb. 8.1 zeigt das entsprechende Resultat. Wie wir gesehen haben, bedeuten drei Asterikse, dass der p-Wert kleiner als 0,001 ist und deutet somit klar auf einen signifikanten Unterschied zwischen den beiden Gruppenmittelwerten hin. 2.3 Lösung: Nehmen wir einmal an, die y-Werte stünden im Zellbereich C3:J3 (also in einer Zeile) und die x-Werte im Bereich B4:B13 (also in einer Spalte). Dann geben Sie in die Zelle C4 die Formel =EXP(-2*($B4-1)ˆ2-2*(C$3-2)ˆ2) ein und bestätigen die Eingabe. Sie sehen, für die y-Werte habe ich den Zellbezug derart gesetzt, dass die Zeile jeweils gleich bleibt (das Dollarzeichen steht vor der Zeilenzahl) und die Spaltenbezeichnung ist variabel. Für die x-Werte, die ja in einer Spalte stehen, ist es genau umgekehrt. Hier bleibt die entsprechende Spalte fixiert, während die Zeilenzahl variabel ist. Wenn Sie diese Berechnung mithilfe des Ausfüllkästchens durch Ziehen auf die anderen Zellen übertragen, so erhalten Sie eine 10 × 8-Tabelle mit den entsprechenden Funktionswerten f (x, y). Nun können Sie das 3D-Diagramm in Drahtform erzeugen. Markieren Sie zunächst die f (x, y)Daten (ohne die x- und y-Werte). Gehen Sie anschließend auf Einfügen und klicken Sie hier auf Empfohlene Diagramme. Unter Alle Diagramme finden Sie das Oberflächendiagramm. Bitte verwenden Sie das 3D-Drahtmodell-Diagramm. Nachdem Sie OK geklickt haben, wird Ihnen das Diagramm angezeigt. Nun fehlen noch die richtigen Zahlen an den Achsen. Hierzu klicken Sie mit der rechten Maustaste in das Diagramm und klicken auf Daten auswählen.... Wenn Sie nun die Horizontale Achsenbeschriftung für die Datenreihe 1 Bearbeiten und die Zellen der x-Werte zuordnen, ändert sich das auch automatisch für die anderen Datenreihen. Die y-Achse zu beschriften erfordert leider, dass Sie die im Diagramm auf dieser Achse stehenden Datenreihennamen in die entsprechen-
Abb. 8.1 Mit Hilfe von Excel erzeugtes Balkendiagramm mit drei Signifikanzmarkern, die auf einen p-Wert kleiner 0,001 hindeuten und somit auf einen signifikanten Unterschied zwischen den beiden Gruppenmittelwerten
80
***
70 60 50 40 30 20 10 0
1
2
8.3
Lösungen zu Kap. 3
285
den Zahlen ändern. Gehen Sie hierzu unter Legendeneinträge unter Bearbeiten und ordnen Sie dem Datenreihennamen den entsprechenden y-Wert zu. Leider geht das nur händisch und ist auch nur praktikabel für nicht zu viele Datenreihen wie in diesem Beispiel.
8.3
Lösungen zu Kap. 3
3.1 Lösung: Wenn man mal über das Problem der Wahrscheinlichkeit P des Würfelns von mindestens einer 6 bei zehn Würfen nachdenkt, kommen einem Gedanken wie die, dass man die Wahrscheinlichkeit des Einzelereignisses p = 1/6 aufaddieren muss, was aber zu einem P > 1 führen würde und somit falsch sein muss. Dann kommt man evtl. auf die Idee, das Produkt p · p . . . p zu bilden, was aber zu einer verschwindend kleinen Wahrschein 10×
lichkeit bei einer großen Anzahl Würfe führen würde. Demnach würde man so gut wie nie eine 6 in zehn Würfen erhalten. Das widerspricht aber der Erfahrung, dass es sogar relativ wahrscheinlich ist, in zehn Würfen mal wenigstens eine 6 zu werfen. Um dieses Problem auf relativ einfache Art und Weise zu lösen, schauen wir uns mal die Wahrscheinlichkeit Q = 1 − P des Komplementärereignisses an, dass in zehn Würfen keine einzige 6 geworfen wird. Die kann man relativ leicht berechnen: 5 55 ... 66 6 10 5 = 6
1 10 = 1− 6
Q=
5/6 ist die Wahrscheinlichkeit, bei einem Wurf keine 6 zu würfeln. Nun können wir P sehr leicht berechnen:
1 10 P =1− 1− = 0,839 6 Die Wahrscheinlichkeit bei insgesamt zehn Würfen mindestens eine 6 zu werfen, liegt demnach bei 84 %. 3.2 Lösung: Wie wir in Abschn. 3.2.1 gelernt hatten, beschreibt die Binomialverteilung die Wahrscheinlichkeit, dass ein Ereignis, das die Einzelwahrscheinlichkeit p hat, bei insgesamt n Ausführungen genau x-mal eintritt. Hier wollen wir nicht die Wahrscheinlichkeit, dass bei n = 10 Würfen des Würfels genau einmal x = 1 die 6 auftritt, sondern mindestens einmal auftritt. D. h., die Ereignisse eine 6, zwei 6er etc. erfüllen alle dieses Kriterium. Dementsprechend müssen wir für x nacheinander 1, 2, . . . , 10 in die Binomialverteilung (Gl. 3.15) einsetzen und anschließend die erhaltenen Wahrscheinlichkeiten aufaddieren. In Excel schreiben Sie dafür am besten die Zahlen 1 bis 10 untereinander und berechnen in den
286
8 Lösungen zu den Übungen
Nachbarzellen jeweils mit der Funktion BINOM.VERT die entsprechenden Wahrscheinlichkeiten (die x-Werte werden als 1. Parameter an die Funktion übergeben). Am Ende bilden Sie die Summe. Das Ergebnis sollte dasselbe sein wie in Übung 3.1, nämlich: P = 0,839 3.3 Lösung: Beim Vergleich der beiden Histogramme fällt auf, dass dasjenige, bei dem die Mittelwerte jeweils über drei Werte berechnet wurden, deutlich breiter ist als das, bei dem die Mittelwerte jeweils über zehn Werte berechnet wurden. Die beiden Histogramme sind jedoch noch deutlich schmaler als dasjenige, das jeweils aus den 10.000 Datenpunkten aus einer der Spalten berechnet wurde. Die Breite der Histogramme können wir mithilfe der Standardabweichung charakterisieren. Sie beträgt 0,5 im zuletzt genannten Fall, sowie ungefähr 0,16 bzw. 0,29 für den Fall der 10er. bzw. 3er-Mittelwerte. Der Faktor, um den √ Standardabweichungen jeweils kleiner sind als die ursprünglichen 0,5, ist gleich 1/ n, wobei hier n = 3 bzw. n = 10 ist. Nennen wir die ursprüngliche Standardabweichung σ , √ dann bezeichnet man den Ausdruck σ/ n auch als Standardabweichung des Mittelwertes. Bitte beachten Sie, dass dieser noch eine wichtige Rolle in diesem Buch spielen wird. 3.4 Lösung: Stellen wir zunächst einmal fest, dass es sich hierbei um eine diskrete Wahrscheinlichkeitsdichtefunktion f (x) = 1/6 (für alle x = 1, . . . , 6) handelt. Der (wahre) Mittelwert μ liegt genau zwischen den Würfelaugen 3 und 4, ist also gleich 3,5. Die Varianz dieser diskreten Funktion berechnet sich gemäß Gl. 3.45 zu: 1 (xi − μ)2 6 6
σ2 =
i=1
1 (1 − 3,5)2 + · · · + (6 − 3,5)2 = 6 = 2,91667 Geben Sie in Excel mal die Zahlen 1, . . . , 6 untereinander in Zellen ein. Dann berechnen Sie in einer darunterliegenden Zelle die Varianz mithilfe der Funktion VAR.P. Sie sollten dasselbe Ergebnis rausbekommen. Nun berechnen Sie erneut die Varianz, aber diesmal mit der Funktion VAR.S. Sie sollten dann den Wert 3,5 erhalten. Dieser ist um den Faktor 6/5 größer als der zuvor errechnete Wert. Allgemein ist der Wert von VAR.S um den Faktor n/(n − 1) größer als der Wert von VAR.P. Dieser Faktor ist die im Haupttext erwähnte Bessel-Korrektur. 3.5 Lösung: Erzeugen Sie sich zunächst einmal eine Spalte mit x-Werten. Als Bereich schlage ich x = 0 bis x = 10 vor, denn bei x = 10 hat die Verteilungsfunktion, die Sie am besten in der Nachbarspalte ausrechnen, annähernd den Wert 1 erreicht. Sagen wir
8.3
Lösungen zu Kap. 3
287
die x-Werte seien im Bereich $B$6:$B$105. In der Spalte daneben erzeugen Sie 1000 gleichverteilte Zufallszahlen (mit der Excel-Funktion ZUFALLSZAHL()). Nun suchen Sie zu jeder Zufallszahl den nächstgelegenen Wert der Verteilungsfunktion und geben jeweils den dazugehörigen x-Wert aus. Hierzu suchen Sie für jede Zufallszahl z i die nächstgelegene Zahl in der Spalte der Verteilungsfunktion. Sagen wir die Zufallszahlen stünden im Bereich D6:D1005 und die Daten der Verteilungsfunktion im Bereich C6:C105. Die Position des zur Zufallszahl in D6 am nächst gelegenen Werte der Verteilungsfunktion können Sie bspw. mit VERGLEICH(MIN(ABS($C$6:$C$105-$D$6$));ABS($C$6: $C$105-$D$6$);0) finden. Den zugehörigen x-Wert im Bereich $B$6:$B$105 finden Sie anschließend mithilfe der Funktion INDEX, der man als ersten Parameter den Bereich der x-Werte und als zweiten Parameter die zuvor gefundene Position übergibt. Die jeweils ausgegebenen Zahlen folgen einer Exponentialverteilung, wie Sie relativ leicht mithilfe eines Histogramms sehen können. 3.6 Lösung: Es müssen hier folgende Hypothesen überprüft werden: • Nullhypothese H0 : E D50 A = E D50 B • Alternativhypothese H1 : E D50 A = E D50 B Implizit testet man mit diesen Aussagen, ob der Mittelwert E D50 B der Substanz B signifikant zu klein oder zu groß gegenüber dem E D50-Wert der Substanz A ist. Beim Testen solcher Aussagen geht man typisch mathematisch vor: 1. Die Nullhypothese wird zunächst als wahr angenommen, dass also die Differenz zwischen den beiden E D50-Werten rein zufälliger Natur sei. 2. Unter dieser Annahme wird die Wahrscheinlichkeit p für das Auftreten einer solchen Differenz berechnet: texp p =1− f (t)dt (8.4) −texp
texp ist hierbei eine aus den experimentellen Daten berechnete Teststatistik. Sie wird anhand der folgenden Gleichung berechnet: texp =
|E D50 B − E D50 A | √ N s
(8.5)
N ist die Anzahl der Replikate (also N = 10) und s die aus den Daten in Tab. 3.3 errechnete Standardabweichung. f (t) ist die Verteilung der Differenz zwischen den beiden ED50-Werten. Beim sogenannten Student bzw. t-Test handelt es sich bei f (t) um die Student-t-Verteilung. 3. Falls p kleiner als ein von Ihnen festgelegtes Niveau α ist (α = 0,05 ist ein gängiger Wert), wird die Nullhypothese verworfen und die Alternativhypothese akzeptiert.
288
8 Lösungen zu den Übungen
• p ≤ α: Verwerfe die Nullhypothese. • p > α: Verwerfe nicht die Nullhypothese. Den p-Wert berechnen Sie aus dem experimentellen t-Wert mithilfe der Excel-Funktion T.VERT.2 S(texp ;Freiheitgrade). Die Anzahl Freiheitsgrade ist gleich der Anzahl der Messdaten minus 1 (hier also gleich 9). Der experimentelle t-Wert in diesem Beispiel errechnet sich nach Gl. 8.6 wie folgt: texp =
|3,42 − 3,14| √ 10 0,64
(8.6)
Da der errechnete p-Wert hier mit p = 0,20 größer als das zuvor festgelegte Niveau von α = 0,05 ist, wird die Nullhypothese nicht verworfen, und der E D50 B -Wert kann gleich dem E D50 A -Wert angenommen werden. Mit demselben Datenmaterial könnte eine andere Fragestellung lauten, ob die Substanz B eine Mindestwirksamkeit aufweist, die größer als die der Substanz A sein soll. Mit dieser Fragestellung interessiert uns also nicht, ob die Substanz B genau dieselbe Wirkung aufweist wie Substanz A, wie es zuvor der Fall war, sondern ob die Wirksamkeit der Substanz B besser ist als die der Referenzsubstanz A. Im Gegensatz zur vorangegangenen Fragestellung erfordert dies nun ein einseitiges Testen folgender Hypothesen: • Nullhypothese H0 : E D50 B ≥ E D50 A • Alternativhypothese H1 : E D50 B < E D50 A Auch hier nehmen wir zunächst an, die Nullhypothese sei richtig. Nun berechnen wir, unter dieser Annahme und der Annahmen einer t-Verteilung, die Wahrscheinlichkeit für das √ √ B A − 10 E D50 = 1,40. Das entspricht Auftreten einer Differenz in der Höhe von 10 E D50 s s wieder dem experimentellen t-Wert wie in Gl. 8.6, mit dem wir anschließend den p-Wert, also die Wahrscheinlichkeit für das Auftreten eines größeren Wertes von E D50 B gegenüber E D50 A , berechnen: −t exp f (t)dt = 0,1 (8.7) p= −∞
Wiederum erhalten wir den p-Wert in Excel mithilfe der Funktion T.VERT.2 S(texp ;Freiheitsgrade), nur dass diesmal eine 1 als letztes Argument übergeben wird, da es sich nun um einen einseitigen t-Test handelt. Da auch hier wiederum der p-Wert mit p = 0,10 größer als das zuvor festgelegte Niveau von α = 0,05 ist, wird die Nullhypothese nicht verworfen. Demnach erfüllt Substanz B die Anforderung einer Mindestwirksamkeit, vergleichbar mit der von Substanz A. 3.7 Lösung: In dieser Übung vergleichen wir die Mittelwerte zweier Stichproben miteinander, d. h., wir wenden einen Zweistichproben-t-Test an. Um herauszufinden welchen
8.3
Lösungen zu Kap. 3
289
genau, müssen zunächst die Varianzen der beiden Stichproben miteinander verglichen werden. Hierzu führen wir einen F-Test durch. In Excel gibt es hierfür die Funktion F.TEST. Sie berechnet den einen 1 − p-Wert, den Sie gegenüber einem zuvor festgelegten Signifikanzniveau (typischerweise α = 0,05) vergleichen. Falls p < α, so sind die Varianzen unterschiedlich. Im vorliegenden Beispiel ergibt sich p = 0,55 > α, daher kann man nicht behaupten, die Varianzen seien unterschiedlich. Dementsprechend könnten wir die t-Statistik gemäß Gl. 3.65 berechnen. Als kleine Vorarbeit müssen Sie jeweils den Mittelwert und die Varianz des ersten und des zweiten Datensatzes berechnen. μ1 = 3,42 und μ2 = 3,13 sowie σ12 = 0,41 und σ22 = 0,24 sind die entsprechenden Mittelwerte bzw. Varianzen für dieses Beispiel. Damit errechnet sich ein T -Wert von T = 1, 11. Mit Hilfe der Funktion T.VERT.2S(T;18) berechnen wir aus dem T -Wert den entsprechenden p-Wert von p = 0,28, der deutlich größer als das zuvor festgelegte Signifikanzniveau von α = 0,05 ist. Bitte nochmals beachten, der zuletzt genannte p-Wert bezog sich auf den t-Test und der o. g. p-Wert von p = 0,55 bezog sich auf den F-Test. Die beiden Mittelwerte sind statistisch nicht signifikant verschieden. Im Übrigen hat Excel den t-Test bereits mit T.TEST als Funktion implementiert. Die ersten beiden Übergabeparameter sind die Daten der beiden Stichproben. Anschließend geben Sie an, ob Sie einseitig oder zweiseitig testen wollen (wir haben oben zweiseitig genommen, vgl. auch Abschn. 3.4.1.1). Mit dem letzten Parameter sagen Sie der Funktion, welche Art von t-Test durchgeführt werden soll (hier 2). Die Ausgabe ist wiederum ein p-Wert, den Sie gegenüber einem zuvor festgelegten Signifikanzniveau (hier α = 0,05) vergleichen. Es kommt natürlich mit p = 0,28 dasselbe raus wie bei unseren händischen Rechnungen. 3.8 Lösung: Excel bringt mit KURT, sowie SCHIEFE bzw. SCHIEFE.P Funktionen zur Berechnung der Kurtosis bzw. der Schiefe mit. SCHIEFE.P ist die Funktion, die wir für den Jarque-Bera-Test (übrigens auch für den D’Agostino-Pearson-Test) brauchen. KURT führt nicht ganz die Berechnung durch, wie wir sie für die beiden Tests brauchen. Den Wert K˜ , den Sie mit der KURT-Funktion erhalten, müssen Sie noch wie folgt korrigieren (vgl. auch hierzu die Gl. 3.55 und 3.56): K =
K˜ (n−2)(n−3) n−1
−6
n+1
dadurch erhalten Sie die Kurtosis, mit der Sie die J B-Statistik berechnen können (vgl. Gl. 3.81). Berechnen Sie also zunächst die Schiefe S mit der Funktion SCHIEFE.P, anschließend die korrigierte Kurtosis K und schlussendlich die JB-Statistik. Für die (korrigierte) Kurtosis erhalten Sie für die Daten in Tab. 3.7 K = 2,181, für die Schiefe S = 1,772 und entsprechend für die Jarque-Bera-Statistik J B = 7,217. Vergleichen wir diesen Wert gegenüber dem für unser α = 0,05 tabellierten Wert von 2,523, so müssen wir die Nullhypothese, dass die Daten normalverteilt sind, verwerfen. Zu derselben Aussage kommen wir auch mit dem D’Agostino-Pearson-Test, denn der Wert von K 2 = 8,333 ist deutlich größer als der kritischen Wert 6,604 aus der D’Agostino-
290
8 Lösungen zu den Übungen
Pearson-Tabelle (für α = 0,05). Den zugehörigen p-Wert für das K 2 können Sie entweder durch Interpolation innerhalb der Tabelle der kritischen Werte erhalten, oder vereinfacht mithilfe der Funktion 1−CHIQU.VERT mit zwei Freiheitsgraden. Im ersten Fall erhält man p = 0,0340, im zweiten Fall p = 0,0368, also relativ ähnliche Werte. Diese p-Werte geben natürlich dieselbe Aussage über die Nullhypothese wie der kritische Wert, nämlich, dass diese verworfen werden muss. 3.9 Lösung: Zur Lösung des Problems wenden wir zunächst stringent die Formeln in den Gl. 3.109, 3.110 und 3.112 an. Für die ersten beiden Gleichungen brauchen wir zunächst die Mittelwerte der beiden (Dosis-)Spalten bzw. die Mittelwerte der beiden (Substanz-)Zeilen und auch den Gesamtmittelwert, der sich zu x¯ ges = 97,17 ergibt und einfach mithilfe der Funktion Mittelwert über alle Daten berechnet wird. Bitte beachten Sie, dass ich die Werte auf die zweite Nachkommastelle gerundet habe. Falls Sie ein klein wenig andere Werte rausbekommen, kann das am Runden liegen. Ich bezeichne im Folgenden den Mittelwert der ersten Spalte (1. Dosis) mit x¯ S1 und den Mittelwert der zweiten Spalte (2. Dosis) mit x¯ S2 . Den Mittelwert der ersten Zeile (Substanz A) bezeichne ich hier mit x¯ Z 1 bzw. mit x¯ Z 2 für die zweite Zeile (Substanz B). Für die beiden Spaltenmittelwerte erhält man x¯ S1 = 109,83 und x¯ S2 = 84,50 und für die Zeilenmittelwerte x¯ Z 1 = 99,83 bzw. x¯ Z 2 = 94,50. Nun können Sie die Fehlerquadratsumme der Zeilen berechnen. Gemäß Gl. 3.109 gilt: SS Z = 6 · (99,83 − 97,16)2 + (94,50 − 97,16)2 = 85,33 Die Zahl 6 entspricht der Anzahl Replikate, aus denen jeweils die beiden Mittelwerte berechnet wurden. Angenommen, Sie haben den Gesamtmittelwert in Excel in der Zelle G3 stehen und die beiden Zeilenmittelwerte untereinander in den Zellen E5 und E6, dann können Sie die gezeigte Berechnung einfach mithilfe der Formel =6*SUMME((E5:E6-G3)ˆ2) machen. Damit das richtige Ergebnis herauskommt, müssen Sie die Eingabe anschließend mit shift + strg + bestätigen. Ähnlich berechnen Sie die Fehlerquadratsumme der Spalten. Als Ergebnis kommt SSS = 1925,33 heraus. Die Gesamtfehlerquadratsumme kann mithilfe der Funktion SUMQUADABW berechnet werden. Sie liegt uns auch bereits aus Beispiel 3.7 vor: SSges = 2157,67. Abschließend können wir noch die Reststreuung SS R aus den bereits ermittelten Größen berechnen:
SS R = SSges − SSS − SS Z = 147
(8.8)
Sie sehen, dass der Fehler trotz des Weglassens der Interaktion nur marginal größer geworden ist, ein Zeichen dafür, dass diese überhaupt keine Rolle spielt, was wir ja auch bereits anhand des Wechselwirkungsdiagramms (Abb. 3.24) erkennen konnten.
8.3
Lösungen zu Kap. 3
291
3.10 Lösung: Wir beginnen mit der Erzeugung von insgesamt neun Zufallszahlen mit der Funktion Zufallszahl1 . Anschließend berechnen wir die Rangplätze mithilfe der Funktion RANG.MITTELW. Bitte achten Sie hierbei darauf, dass Sie als Bezug für die Funktion den Bereich mit den neun Zahlen wählen. Nun berechnen wir mithilfe der Ränge jeweils U A und U B : 4(4 + 1) A − Ri 2 4
UA = 4 · 5 +
i=1
UB = 4 · 5 +
5(5 + 1) − 2
5
RiB
i=1
Dann können wir mithilfe der MIN-Funktion Umin bestimmen. Wenn Sie die Rechnungen alle jeweils nebeneinander in eine Zeile in Excel durchgeführt haben, dann können Sie die entsprechenden Zellen markieren, rufen anschließend den Gehe zu-Dialog (zur Erinnerung: F5 ) auf und wählen den Bereich so, dass insgesamt 10.000×9 Zeilen markiert werden. Nun gehen Sie im Register Daten, Ausfüllen auf Datenreihe und wählen dann in der Gruppe Typ den Punkt AutoAusfüllen. Nun führt Excel die Formeln für alle darunterliegenden Zellen automatisch weiter. Sie haben schließlich u. a. 10000 Umin -Werte vorliegen, über die Sie mithilfe der Funktion QUANTIL.INKL das 5 % Quantil berechnen können. Bitte beachten Sie, dass Sie von der dadurch erhaltenen Zahl noch 1 abziehen müssen, um konform mit dem Tabellenwert für den Mann-Whitney-U -Test zu sein, der nämlich für das vorliegende Beispiel gleich 1 ist. Ohne jetzt weiter auf die Details eingehen zu wollen, hat die Diskrepanz zwischen dem output der QUANTIL.INKL-Funktion und den in der Literatur tabellierten Werten damit zu tun, dass die Verteilungsfunktion diskret ist. 3.11 Lösung: Im Grunde kommt hier nicht viel Neues hinzu. Sie bestimmen zunächst die 12 Rangplätze, wie gehabt, mit der Funktion RANG.MITTELW und berechnen anschließend je Gruppe den mittleren Rang R¯ A , R¯ B bzw. R¯ C . Mit den Werten R¯ A = 10, B¯ A = 3, R¯ C = 6,5, sowie mit den Werten N = 12, μ N = 6,5, sowie σ N2 = 11,92 gehen Sie in die Formel für die H -Statistik (Gl. 3.125) und sollten so einen Wert von 7,54 für diese herausbekommen. Das entspricht einem p-Wert von 0,023 (aus der Chi2 -Verteilung berechnet), der kleiner ist als unser α = 0,05. Demnach muss die Nullhypothese, die Gruppen entstammen derselben Verteilung, verworfen werden.
1 Mit normalverteilte Zufallszahlen geht das auch, aber der Einfachheit halber bleiben wir bei gleichverteilten Zufallszahlen.
292
8.4
8 Lösungen zu den Übungen
Lösungen zu Kap. 4
4.1 Lösung: Wie wir die Daten in Tab. 4.1 auf das Intervall [0, 1] abbilden können, wissen wir bereits (vgl. Gl. 4.2). Kennzeichnen wir die so skalierten Daten mit einem Sternchen, also bspw. y1∗ bzw. y2∗ . Um nun diese Daten auf das Intervall [10,100] abzubilden, addieren Sie jeweils den Wert der neuen unteren Intervallgrenze, also 10, und multiplizieren y1∗ bzw. y2∗ mit der Differenz der neuen oberen und unteren Intervallgrenze. Für ein allgemeines Intervall [a, b] lässt sich das allgemein so schreiben: y ∗∗ = a + y ∗ (b − a)
(8.9)
wobei y ∗ hier der auf das Intervall [0,1] skalierte Wert y ist. Tab. 8.2 zeigt das Ergebnis für das konkrete Beispiel. Mit Hilfe von Gl. 8.9 können bspw. auch aus Zufallszahlen y ∗ im Intervall [0, 1], neue Zufallszahlen y ∗∗ im Intervall [a, b] erzeugt werden. 4.2 Lösung: Als Grundlage für die Berechnung der geglätteten Werte yi∗ (Randbereiche ausgeschlossen) verwende ich Gl. 4.13. Die Glättungskoeffizienten der verschiedenen Methoden lege ich jeweils in separaten Spalten vor. Die fünf Koeffizienten des gleitenden Mittelwertes sind alle gleich 1/5. Die Savitzky-Golay- und die Gauß’schen Koeffizienten finden sich in Tab. 9.2 bzw. in Gl. 4.16. Der dritte geglättete Wert y3∗ (die ersten beiden werden ja nicht geglättet) ergibt sich aus dem Skalarprodukt des Koeffizientenvektors c und des Vektors der ersten fünf Elemente von y. Demnach gilt:
Tab. 8.2 Ergebnis der Bereichsskalierung der Daten in Tab. 4.1 auf den Bereich [0, 1] (mit einem Asteriks gekennzeichnet) und auf den Bereich [10,100] (mit zwei Asteriksen gekennzeichnet) x
y1
y2
y1∗ [0,1]
y2∗ [0,1]
y1∗∗ [10,100]
y2∗∗ [10,100]
−13,80
2,00
3,50
0,00
0,00
10,00
10,00
−13,10
2,10
3,60
0,01
0,01
11,13
10,71
−12,40
2,40
3,80
0,05
0,02
14,50
12,13
−11,70
3,50
4,40
0,19
0,07
26,88
16,38
−11,00
5,80
5,70
0,48
0,17
52,75
25,59
−10,30
8,30
8,30
0,79
0,38
80,88
44,02
−9,70
9,50
11,60
0,94
0,64
94,38
67,40
−9,00
9,90
14,20
0,99
0,84
98,88
85,83
−8,30
10,00
15,60
1,00
0,95
100,00
95,75
−7,60
10,00
16,20
1,00
1,00
100,00
100,00
8.4
Lösungen zu Kap. 4
293
Tab. 8.3 Vergleich der verschiedenen Glättungsmethoden gleitender Mittelwert (G M), SavitzkyGolay (SG) und Gauß’sche Gewichte (G A) bei der Glättung eines Peaks x
y
∗ yG M
∗ y SG
∗ yG A
0,00
0,75
0,75
0,75
0,75
0,50
1,00
1,00
1,00
1,00
1,00
2,50
2,25
2,61
2,43
1,50
4,00
2,40
3,61
3,09
2,00
3,00
2,40
3,04
2,74
2,50
1,50
2,10
1,67
1,85
3,00
1,00
1,00
1,00
1,00
3,50
1,00
1,00
1,00
1,00
⎡ ⎤ y1 ⎢y ⎥ 2⎥ ⎢ 1 ⎢ ⎥ y3∗ = c1 c2 c3 c4 c5 ⎢ y3 ⎥ 5 ⎢ ⎥ ⎣ y4 ⎦ cj j=1 y5 In Excel verwenden Sie hierzu die Funktionen MMULT und MTRANS. Den geglätteten Wert y4∗ erhalten Sie einfach, indem Sie den y-Bereich um ein Element weiterschieben (y2 , . . . , y6 ), während der c gleich bleibt. Entsprechend glätten Sie auch die Punkte 5 und 6. Die letzten beiden lassen Sie wiederum unangetastet. Tab. 8.3 zeigt die Ergebnisse der Glättung für die verschiedenen Methoden gleitender Mittelwert (GM), Savitzky-Golay (SG) und Gauß’sche Gewichte (GA). Anhand dieser Tabelle, und noch besser, wenn Sie die Daten grafisch darstellen, können Sie erkennen, dass die Gleitende-Mittelwert-Methode den Peak am stärksten glättet und die Savitzky-Golay-Methode die Peak-Form noch am ehesten erhält. Die Methode mit Gauß’schen Gewichten liegt dazwischen, was jedoch stark von der Wahl von σ abhängt. 4.3 Lösung: Sie gehen zur Lösung der Aufgabe so vor, wie am Beispiel 4.1 im Haupttext gezeigt. ⎡
⎤ ⎡ ⎤ ⎡ ⎤ 2 5 742 2 5 7 42 2 5 7 4 2 ⎣1/3 1/3 1/3 → ⎦ ⇒ ⎣ 1/3 1/3 1/3 → ⎦ ⇒ ⎣ 1/3 1/3 1/3 → ⎦ ⇒ ··· 2/3 2/3 7/3 2/3 7/3 14/3
⎡
⎤ 2 1/3 1/3 1/3⎦ ⇒⎣ 2/3 7/3 14/3 16/3 13/3 2 2/3 2
5
7
4
294
8 Lösungen zu den Übungen
˜ 4.4 Lösung: Ich schlage vor, dass Sie zunächst die Vektoren y˜ = y − y¯ und f(x) = ¯ f(x) − f(x) in einer separaten Spalte berechnen. Für y˜ können Sie das mithilfe des Matrixbzw. Array-Operators machen. Angenommen, die y-Werte stünden im Bereich C3:C6. Markieren Sie vier freie untereinanderliegende Zellen und geben Sie C3:C6-MITTELWERT(C$3:C$6) in die Bearbeitungsleiste ein. Bestätigen Sie die Eingabe mit der Tastenkombination shift + strg + . Dasselbe machen Sie zur Berechnung ˜ von f(x). Anschließend berechnen Sie für diese (zentrierten) Vektoren2 die Norm y˜ T y˜ T ˜ ˜ f(x) in einer freien Zelle. Nun haben Sie alles, um den Korrelationskoeffizibzw. f(x) enten gemäß Gl. 4.21 zu berechnen. Als Ergebnis sollten Sie R = 0,998 und entsprechend R 2 = 0,996 rausbekommen. Dasselbe Ergebnis erhalten Sie, wenn Sie die Funktion KORREL für die Berechnung von R verwenden. Dasselbe R 2 erhalten Sie auch, wenn Sie mithilfe des Trendlinien-Werkzeugs (im X,Y-Diagramm) eine lineare Regression durchführen, anschließend auf die Trendlinie klicken und die Trendlinie formatieren... und dort das Bestimmtheitsmaß der Regression anzeigen lassen.
4.5 Lösung: Zur Lösung des Problems wenden wir stringent Gl. 4.24 an: y0,98 − y0,95 x0,975 − x0,95 x0,98 − x0,95 3,747 − 2,776 = 2,776 + (0,975 − 0,95) 0,98 − 0,95 = 3,585
y0,975 = y0,95 +
Vergleichen wir das mit dem wahren Wert von 3,495, den wir mittels T.INV.2 S(0,025; 4) berechnen können, dann sehen wir, dass die lineare Interpolation bereits relativ nah an diesen rankommt.
8.5
Lösungen zu Kap. 5
5.1 Lösung: Wenn Sie die Daten in Tab. 5.1 als XY-Diagramm dargestellt haben, dann klicken Sie mit der rechten Maustaste auf einen der Datenpunkte. Sie erhalten dann ein Kontextmenü, in dem Sie Trendlinie hinzufügen... auswählen. Dabei öffnen sich automatisch (rechts) die Trendlinienoptionen. Dort können Sie sich bspw. die Formel der Regressionsgleichung mit der berechneten Steigung und dem Achsenabschnitt anzeigen lassen. Ebenso können Sie sich das R 2 als Gütemaß für die Regression anzeigen lassen. Wollten Sie nun mit den Regressionsparametern weiterrechnen, müssten sie diese händisch aus der Formel raus kopieren, was sehr umständlich ist. Stattdessen können Sie in der Tabelle selbst die Funktionen Achsenabschnitt und Steigung verwenden, die Ihnen diese Werte 2 Im Grunde haben Sie ja durch Subtraktion des Mittelwertes eine Mittenzentrierung der Daten vorgenommen (vgl. Abschn. 4.1.1).
8.5
Lösungen zu Kap. 5
295
Tab. 8.4 Ergebnis der linearen Regression der Daten in Tab. 5.1 mithilfe der Funktion RGP in Excel Steigung
2371,50
1244,15
Achsenabschnitt
Standardfehler Steigung
921,93
422,481606
Standardfehler Achsenabschnitt
412,29983
Standardfehler des Schätzwertes
Regressionskoeffizient 0,77 R2 F-Wert
6,62
2
Freiheitsgrade
Regressionsquadratsumme
1.124802,45
339982,3
ResidualQuadratsumme
direkt in die aktuelle Zelle schreibt. Falls Sie jedoch noch ein paar statistische Kenngrößen (wie R 2 , die Standardfehler der Regressionsparameter, oder die Fehlerquadratsumme) berechnet haben wollen, sollten Sie die Funktion RGP verwenden. Bitte beachten Sie, dass es sich hierbei um eine Array-Funktion mit 5 × 2-Ausgabewerten handelt, d. h., Sie müssen zunächst 5 × 2-Zellen markieren, die Formel eingeben und die Eingabe am Ende mit shift + bestätigen. Für unsere Beispieldaten erhalten Sie die Ausgabe in Tab. 8.43 strg + Die gezeigten statistischen Kennzahlen sind im Verlauf des Buches erläutert worden.
5.2 Lösung: Wir gehen an dieser Stelle mal davon aus, dass die Matrix X (vgl. Gl. 5.17) im Bereich B2:C5 stünde. Um nicht den Überblick zu verlieren, können Sie die Rechenschritte in Gl. 5.22 aufteilen. Berechnen Sie bspw. zunächst das Produkt XT X. Markieren Sie hierzu 2 × 2 freie Zellen, sagen wir die Zellen im Bereich B7:C8 und geben MMULT(MTRANS(B2:C5);B2:C5) in die Bearbeitungsleiste ein. Bestätigen Sie die Eingabe durch das gleichzeitige Drücken von shift + strg + . Als Ergebnis sollten Sie die folgende (symmetrische) Matrix herausbekommen: 4 1,6 T X X= 1,6 0,84
Markieren Sie anschließend weitere 2 × 2 leere Zellen, sagen wir B10:C11, und berechnen Sie die Inverse dieses Produktes, indem Sie MINV(B7:C8) in die Bearbeitungsleiste eingeben. Die Eingabe wie oben beschrieben bestätigen. Als Ergebnis erhalten Sie die links äußerste Matrix in Gl. 5.23. Nun berechnen Sie das Produkt dieser inversen Matrix mit XT , indem Sie 2 × 4 leere Zellen markieren, sagen wir B13:E14, geben MMULT(B10:C11;MTRANS(B2:C5)) in die Bearbeitungsleiste ein und bestätigen Sie wie oben beschrieben. Als Ergebnis dieser Rechnung sollten Sie die folgende Matrix erhalten haben: 3 Die Beschriftungen in der ersten und letzten Spalte habe ich eingefügt und stammen nicht aus der Funktionsausgabe.
296
8 Lösungen zu den Übungen
XT X
−1
XT =
0,85 0,45 0,05 −0,35 −1,5 −0,5 0,5 1,5
Abschließend multiplizieren Sie diese Matrix mit dem 4 × 1-Vektor der y-Werte, die wir hier als Zahlenarray direkt übergeben. D. h., Sie markieren 2 × 1 freie Zellen und geben MMULT(B13:E14;1372;2325;2019;3055) in die Bearbeitungsleiste ein und bestä tigen die Eingabe wie gehabt. Als Ergebnis sollten Sie den Parametervektor b1 b2 in Gl. 5.23 herausbekommen. 5.3 Lösung: Angenommen, die x-Werte stünden in den Zellen B3:B6 und die y-Werte nebenan in den Zellen C3:C6. Berechnen Sie nun, bspw. in den Nachbarzellen D3:D6, die Funktionswerte f (xi ) = b1 + b2 xi . Dafür müssen Sie zuvor irgendwo in zwei leeren Zellen jeweils Startwerte (bspw. [1,1]) für die Parameter b1 , b2 vorgegeben haben und können dann f (x) berechnen. In einer leeren Zelle berechnen Sie anschließend die Fehlerquadratsumme SUMMEXMY2(C3:C6;D3:D6), die hier gleich 339.982,3 ist. Nun öffnen Sie den Solver unter Daten → Solver. Hier legen Sie die Zelle, in der die Fehlerquadratsumme berechnet wurde, als Zielzelle fest. Diese soll minimiert werden durch Ändern der Zellen, in denen die Startwerte für b1 , b2 geschrieben wurden. Nachdem Sie auf Lösen geklickt haben, kommt dasselbe Ergebnis wie in Übung 5.2 heraus. Im Vergleich zur Lösung in Matrixform bzw. zur analytischen Lösung müssen Sie hier Startwerte für die Fitparameter vorgeben. Hier von ausgehend wird die optimale Lösung iterativ gesucht. 5.4 Lösung: Nachdem Sie die y-Daten der Replikate direkt untereinander in eine Spalte geschrieben haben und die x-Werte entsprechend nach unten wiederholt haben, berechnen Sie in der benachbarten Spalte die Funktionswerte unter Berücksichtigung der jeweils in zwei anderen Zellen definierten Startwerte für die Steigung und den Achsenabschnitt. Sie sehen, der komplette Datensatz wird mit nur einem Parameter für die Steigung und einem für den Achsenabschnitt gefittet und nicht jedes Replikat separat mit seinem eigenen Fitparametersatz. Berechnen Sie mithilfe der Excel-Funktion SUMMEXMY2 die Fehlerquadratsumme in einer freien Zelle und verwenden den Solver, um diese zu minimieren unter Variation der Werte für die beiden Fitparameter. Sie gehen dabei ähnlich vor wie in Übung 5.3. Abb. 8.2 zeigt grafisch das Ergebnis der Regression. Als Achsenabschnitt b1 sollten Sie den Wert 2,43 und als Steigung den Wert 0,76 rausbekommen. 5.5 Lösung: In dieser Übung haben wir es mit zwei verschiedenen Datensätzen A und B zu tun, die ihrerseits auch noch Replikate haben. Sie können auch hier alle y-Daten untereinanderschreiben. Zuerst alle Replikate der Gruppe A, gefolgt von allen Replikaten der Gruppe B. Denken Sie daran, auch hier die x-Werte zu wiederholen (siehe Übung 5.4). Nun berechnen Sie in der Nachbarspalte die Funktionswerte f (x). Geben Sie hierfür Startwerte für die Fitparameter b1 , b2 , b3 vor (bspw. [1, 1, 1]). In den Zeilen der Gruppe A verwenden Sie als Funktionsgleichung f (x) = b1 + b2 x. Denken Sie an den absoluten Zellbezug für
8.5
Lösungen zu Kap. 5
297
12
Abb. 8.2 Ergebnis der globalen Regression mit Replikaten der Daten in Tab. 5.13
10
y
8 6 4 2 0
0
5
10
x
die Fitparameter. In den Zeilen der Gruppe B verwenden Sie jedoch als Funktionsgleichung f (x) = b3 + b2 x. Anschließend berechnen Sie die Fehlerquadratsumme in einer freien Zelle mithilfe der Excel-Funktion SUMMEXMY2. Hierzu geben Sie als erstes Argument den Bereich aller y-Werte (unabhängig von der Gruppe) an, als zweites Argument den Bereich der Funktionswerte. Sie rufen dann den Solver auf und minimieren die Fehlerquadratsumme unter Variation der Werte von b1 , b2 und b3 . Als Ergebnis dieser Minimierung erhalten Sie b1 = 2, 45, b2 = 0, 76 und b3 = 4, 47. Die zugehörigen Geraden sind in Abb. 8.3 zusammen mit den Daten dargestellt. Damit haben Sie eine globale Regression in Excel sehr einfach durchgeführt. Z. T. bieten diese Funktionalität noch nicht mal dedizierte Softwarepakete an. 5.6 Lösung: Zunächst schreiben wir, wie in den Übungen 5.4 und 5.5, die Daten der Replikate untereinander in eine Spalte und wiederholen die x-Werte entsprechend. Anschließend √ berechnen wir in der Nachbarspalte die Wurzeln der Gewichte wi = 1/σ und daneben die mit den Gewichten multiplizierten y-Werte yw . Dann berechnen wir die Funktionswerte f (x, b) gemäß Gl. 5.53, wobei die Startwerte der vier Fitparameter in leeren Zellen vor-
14 12 10 y
Abb. 8.3 Ergebnis der globalen Regression der Daten in Tab. 5.14
8 6 4 2 0
0
2
4
6
x
8
10
12
298
8 Lösungen zu den Übungen
gegeben werden müssen. In der Nachbarspalte von f (x, b) multiplizieren wir diese mit √ den entsprechenden wi -Werten, wodurch wir f w (x, b) erhalten. Aus yw und f w (x, b) berechnen wir die Fehlerquadratsumme mit der Excel-Funktion SUMMEXMY2. Diese wird schließlich mithilfe des Solvers minimiert unter Optimierung der vier Fitparameter. Als Ergebnis der Regression sollten Sie folgende Werte für die Parameter erhalten: A = 2,94 B = 9,77 C = 3,24 D = −4,52 Wenn Sie einmal die ungewichtete Regression demgegenüber durchführen, erkennen Sie, dass die Fitkurve etwas mehr von den stärker streuenden Punkten (bei größeren x-Werten) beeinflusst werden. Dementsprechend liegt die Fitkurve der ungewichteten Regression in diesem Bereich ein klein wenig über derjenigen der gewichteten Regression (vgl. Abb. 8.4). 5.7 Lösung: Die Implementierung der LAR-Methode in Excel ist sehr einfach. Sagen wir, Ihre x- und y-Werte stünden in den Zellen B3:B9 bzw. C3:C9. Geben Sie zunächst die Startwerte für die zwei Fitparameter des Geradenmodells f (x) = b1 + b2 x in zwei freien Zellen vor (sagen wir F3:F4). Damit können Sie nun die Funktionswerte f (x) in den zu den y-Werten benachbarten Zellen D3:D9 berechnen. In Zelle E3 berechnen Sie nun die Summe der absoluten Residuen mithilfe der Formel SUMME(ABS(C3:C9-D3:D9)). Lesen wir dies von innen nach außen, so erkennt man, dass zunächst jeweils elementweise die Differenzen der yi und des zugehörigen f i Wertes berechnet werden. Von diesen Differenzen wird anschließend der Absolutbetrag gebildet und die resultierenden (positiven) Elemente aufsummiert. Wenn Sie die Eingabe mit shift + strg + bestätigen, erhalten Sie als Ergebnis eine Zahl, aber diesmal nicht die Fehlerquadratsumme, sondern die Summe der absoluten Fehler L A R. Diese minimieren Sie mithilfe des Solvers, indem Sie die Werte in
14 12 10 8 6 4 2 0 10−6
y
Abb. 8.4 Vergleich der gewichteten (durchgezogene Linie) und der ungewichteten Regression (gestrichelte Linie) der Daten in Tab. 5.15
10−5
log(x)
10−4
10−3
8.5
Lösungen zu Kap. 5
299
den Zellen der Fitparameter als Variablenzellen definieren. Im Minimum sind L A R = 3898 und die Fitparameter [b1 , b2 ] = [1216, 2759]. Anhand von Abb. 8.5 erkennt man, dass der robuste Fit (magentafarbene durchgezogene Linie) deutlich weniger durch den Ausreißer bei x = 1, 2, y = 7000 beeinflusst wird, als der normale Fit (gepunktete Linie). 5.8 Lösung: Wenn Sie das Regressionswerkzeug geöffnet haben, brauchen Sie im Prinzip nur die Bereiche der x- und y-Daten an den entsprechenden Stellen zu übergeben und OK klicken. Sofern nichts anderes eingestellt wurde, erzeugt Excel ein neues Tabellenblatt zur Ausgabe der Gütemaße in Form von drei Tabellen. In der ersten Tabelle werden Regressionsstatistiken wie bspw. das Bestimmtheitsmaß, der Standardfehler, usw. ausgeben. Die zweite Tabelle ist eine ANOVA-Tabelle, anhand derer Sie überprüfen können, ob ein lineares Modell die Daten besser beschreibt als ein konstantes Modell. Hierzu können Sie, wie erwähnt, den F-Wert bzw. den daraus abgeleiteten p-Wert (hier interessanterweise F krit genannt) heranziehen. In der dritten Tabelle werden Statistiken mit Bezug zu den Fitparametern ausgegeben, z. B. deren Standardfehler, die Konfidenzintervalle sowie die t-Statistik bzw. der zugehörige p-Wert. Die drei Tabellen habe ich für dieses Beispiel in einer zusammengefasst (vgl. Tab. 8.5). 5.9 Lösung: Berechnen wir zunächst die Kovarianzmatrix gemäß Gl. 5.63. Dafür brauchen wir die Jacobi-Matrix J, die sich hier noch sehr einfach analytisch berechnen lässt: ⎡ ∂(b1 +b2 x1 )
∂(b1 +b2 x1 ) ⎤ ∂b1 ∂b2 ⎢ ∂(b1 +b2 x2 ) ∂(b1 +b2 x2 ) ⎥ ⎢ ∂b1 ⎥ 2 ⎢ ∂(b1 +b2 x3 ) ∂(b1∂b +b2 x3 ) ⎥ ⎣ ∂b ⎦ ∂b2 1 ∂(b1 +b2 x4 ) ∂(b1 +b2 x4 ) ∂b1 ∂b2
⎡
1 ⎢1 =⎢ ⎣1 1
⎤ ⎡ ⎤ x1 1 0,1 ⎢ ⎥ x2 ⎥ ⎥ = ⎢1 0,3⎥ ⎦ ⎣ 1 0,5⎦ x3 1 0,7 x4
Abb. 8.5 Vergleich der robusten Regression (LAR-Methode, durchgezogene Linie) der Daten in Tab. 5.16 gegenüber einem ungewichteten Fit (gepunktete Linie)
y
Weiter unten zeige ich Ihnen, wie Sie die Jacobi-Matrix im allgemeinen Fall numerisch berechnen können. Neben der Jacobi-Matrix brauchen Sie noch die Reststreuung s 2R (vgl. Gl. 5.57), wofür Sie wiederum die Fehlerquadratsumme SS E und die Anzahl Freiheitsgrade
8000 7000 6000 5000 4000 3000 2000 1000 0
0
0,5
1 x
1,5
300
8 Lösungen zu den Übungen
Tab. 8.5 Regressionsstatistiken und ANOVA-Tabelle für die lineare Regressionsanalyse der Daten aus Tab. 5.1 mithilfe des Regressionswerkzeugs in Excel Regressions-Statistik Multipler Korrela- 0,877 tionskoeffizient Bestimmtheitsmaß 0,768 Adjustiertes 0,652 Bestimmtheitsmaß Standardfehler 412,014 Beobachtungen 4 df Regression 1 Residue 2 Gesamt 3
Schnittpunkt X Variable 1
SS 1.125.600 339.511,5 1.465.111
MS 1.125.600 169.755,8
F 6,630701
F krit 0,12349
Koeff.
Std.-fehler t
P-Wert
Untere 95 %
Obere 95 %
1243,83 2372,34
422,19 921,29
0,10 0,12
−572,71 −1591,66
3060,36 6336,34
2,95 2,58
d f brauchen. s 2R = SS E/d f = SS E/2 berechnen. Die 2 im Nenner entspricht der Anzahl −1 Freiheitsgrade und ist gleich der Anzahl Datenpunkte minus Anzahl Fitparameter. JT J hatten wir bereits in Übung 5.2 berechnet (Achtung, hier hatte ich den Buchstaben X statt J für die Jacobi-Matrix verwendet). Die Kovarianzmatrix ist nun: 178.490,7 −339.982,3 C= −339.982,3 849.955,8 Gemäß Gl. 5.64 sind dementsprechend die Standardfehler der Fitparameter: S E b1 = 422,5 S E b2 = 921,9 Nachdem wir den t-Wert für ein α von 0,05 sowie zwei Freiheitsgrade mithilfe der ExcelFunktion T.INV.2S zu 4,30 berechnet haben, können wir das Konfidenzintervall für b1 bzw. b2 gemäß Gl. 5.65 berechnen:
1244 − 1817, 1244 + 1817 2371,5 − 3967, 2371,5 + 3967
8.5
Lösungen zu Kap. 5
301
Tab. 8.6 Zur Berechnung der Jacobi-Matrix durch numerische Berechnung der partiellen Ableitungen (hier: h = 0,01) f (x,b1 +h,b2 )− f (x,b1 ,b2 ) h
f (x,b1 ,b2 +h)− f (x,b1 ,b2 ) h
x
f (x, b1 + h, b2 )
f (x, b1 , b2 +h)
0,1
1481,31
1481,301
1,0
0,1
0,3
1955,61
1955,603
1,0
0,3
0,5
2429,91
2429,905
1,0
0,5
0,7
2904,21
2904,207
1,0
0,7
Unschwer ist zu erkennen, dass die Konfidenzintervalle für beide Fitparameter sehr breit sind. Das ist häufig ein Hinweis darauf, dass ggf. das Modell nicht gut ist bzw. das einzelne Fitparameter nicht signifikant sind. Das kann man auch anhand eines t-Tests erkennen, den Sie für beide Fitparameter sehr einfach ausführen können. Hierzu teilen Sie den jeweiligen Fitparameter bi durch seinen Standardfehler S E bi und erhalten so einen T -Wert, den Sie gegenüber dem theoretischen t-Wert von 4,3 vergleichen. Mit T1 = 2,94 für b1 und T2 = 2,57 sehen Sie, dass die beiden Parameter nicht signifikant sind. Die hier mehr oder weniger zu Fuß berechneten Kennzahlen können Sie im Fall einer linearen Regression auch mit Excels Regressionswerkzeug unter Daten → Datenanalyse → Regression berechnen lassen. Kommen wir abschließend zur Berechnung der Jacobi-Matrix auf numerischem Wege. V. a. bei der nicht-linearen Regression können Sie diese eben nur noch numerisch berechnen. Angenommen, Sie hätten die Regression durchgeführt und es liegen Ihnen die optimierten Fitparameter b1 , b2 vor. Definieren Sie nun ein kleines h (bspw. h = 10−2 ) in einer noch freien Zelle. Nun berechnen wir neue Funktionswerte f (x, b1 + h, b2 ) in noch freien Zellen, wobei wir jedoch anstelle von b1 , b1 +h in die Formel einsetzen. An b2 ändern wir zunächst nichts. Wenn Sie die Zellbezüge richtig gesetzt haben, brauchen Sie die Berechnung nur für x1 zu definieren und können diese automatisch für x2 bis x4 ausführen lassen. Danach berechnen wir f (x, b1 , b2 + h), indem wir anstelle von b2 , b2 + h in Formel für f (x, b) einsetzen. Nun können wir numerisch die partiellen Ableitungen der Jacobi-Matrix mithilfe der Vorwärts-Ableitung4 berechnen (vgl. Gl. 1.15). Hierzu brauchen Sie lediglich die Werte der Originalfunktion f (x, b1 , b2 ) von f (x, b1 + h, b2 ) bzw. von f (x, b1 , b2 + h) abziehen und jeweils das Ergebnis durch h teilen. Tab. 8.6 fasst die partiellen numerischen Ableitungen zur Berechnung der Jacobi-Matrix dieses Beispiels zusammen. 5.10 Lösung: Wenn Sie die RGP-Funktion richtig angewendet haben, dann hat Ihnen diese 5 × 2-Regressionskenngrößen ausgegeben. Darunter der F-Wert und die Fehlerquadratsumme. Letztere brauchen Sie, um anhand von Gl. 5.87 das korrigierte AI C für das Geradenmodell zu berechnen. Im vorliegenden Fall ist k = 3 und n = 5 und das AI Cc = 86. Das AI Cc des konstanten Modells berechnen Sie, indem Sie zunächst die Fehlerquadrat4 Ich habe hier nicht die zentrale Ableitung gewählt, um die Übung einfach zu halten.
302
8 Lösungen zu den Übungen
summe hierfür berechnen. Hierzu ziehen Sie den Mittelwert jeweils von den y-Werten ab, quadrieren die Differenzen und summieren anschließend auf. Angenommen, die y-Werte seien im Bereich C3:C7, dann können Sie die Fehlerquadratsumme mithilfe der Funktion SUMME((C3:C7-MITTELWERT(C3:C7))ˆ2) berechnen. Bitte achten Sie darauf, dass Sie dies als Array-Operation abschließen, also mit shift + strg + . Mit der Fehlerquadratsumme können Sie, zusammen mit k = 2 und n = 5, das AI Cc berechnen, das hier mit 74,9 deutlich kleiner ist als für das Geradenmodell. Demnach wäre das Konstantenmodell zu bevorzugen. Dieselbe Aussage erhalten wir mithilfe des F-Wertes von 14,7, den Sie mithilfe der Funktion 1-F.VERT(14,7;1;2;WAHR) in einen p-Wert umrechnen können. Mit p = 0,062 > 0,05 besagt auch der F-Test, dass das konstante Modell zu bevorzugen ist.
8.6
Lösungen zu Kap. 6
6.1 Lösung: Nehmen wir an, die Elemente der Eigenvektoren l1 , l2 und l3 stünden jeweils in den Bereichen B3:B5, C3:C5 und D3:D5. Das Skalarprodukt von l1T l2 berechnen Sie in Excel mithilfe der Formel MMULT(MTRANS(B3:B5);C3:C5). Die Eingabe müssen Sie mit shift + strg + bestätigen, da es sich um Array-Funktionen handelt. Das Ergebnis ist übrigens null bzw. eine sehr kleine Zahl. Dasselbe gilt für das Skalarprodukt l1T l3 sowie l2T l3 . Um die Länge, auch Norm genannt, der drei Vektoren zu berechnen, brauchen Sie nur das Skalarprodukt eines jeden Vektors mit sich selbst zu berechnen und daraus die Wurzel zu ziehen. Alle drei Eigenvektoren haben die Länge eins und bilden daher eine Orthonormalbasis.
6.2 Lösung: Zur Berechnung des geometrischen Medians m für die Daten in Tab. 6.2 geben Sie zunächst sechs Startwerte für die Elemente von m vor. Anschließend ziehen Sie diesen Vektor jeweils von allen drei Spaltenvektoren ab. Für die daraus resultierenden drei Vektoren berechnen Sie jeweils die Vektornorm und summieren die drei Normen am Ende auf (vgl. auch Gl. 6.29). Diese Summe minimieren Sie mit dem Solver unter Variation der Elemente von m. Hier erhält man für m genau den Spaltenvektor mit den pH-Werten in Tab. 6.2. 6.3 Lösung: Wie im Beispiel 6.3 müssen wir zunächst die Distanzmatrix mithilfe der euklidischen Norm für die Differenzen der Zeilenvektoren in Tab. 6.4 berechnen. Die Differenz der Zeile für Organismus A mit sich selbst ist natürlich null. Daher ist auch der entsprechende Eintrag A, A in der Distanzmatrix gleich null. Angenommen, der Wert von [Metabolit 1] für Organismus A stünde in Zelle C3 und der von [Metabolit 3] in Zeile E3. Dann berechnen Sie den entsprechenden Eintrag in der Distanzmatrix mit Hilf der ExcelFunktion WURZEL(MMULT(C$3:E$3-C3:E3;MTRANS(C$3:E$3-C3:E3))). Denken Sie bitte daran, die Eingabe dieser Formel mit shift + strg + zu bestätigen. Die entsprechenden Berechnungen für die anderen Elemente derselben Spalte in der Distanzmatrix kön
8.6
Lösungen zu Kap. 6
303
Tab. 8.7 Distanzmatrix zu den Daten in Tab. 6.4 A
B
C
D
E
A
0
B
7,2
0
C
43,5
36,4
0
D
26,5
21,6
27,1
0
E
42,1
35,2
9,3
29,7
0
F
31,3
26,4
26,3
5,4
29,2
F
0
Tab. 8.8 Distanzmatrix zu den Daten in Tab. 6.4 nach Aggregation der Daten für Organismus D und F A A
0
B
7,2
B
C
DF
E
0
C
43,5
36,4
0
DF
28,9
24,0
26,7
0
E
42,1
35,2
9,3
29,2
0
nen Sie mithilfe des Ausfüllkästchens erhalten. Führen Sie die Berechnungen der Elemente jeweils spaltenweise durch und beginnen Sie direkt unterhalb des jeweiligen Diagonalelements. Die so erhaltene Matrix ist dieselbe wie in Tab. 6.5. Anschließend aggregieren Sie die Daten von Organismus D und F zu einem Cluster, da sie die kleinste Distanz zueinander haben (vgl. Tab. 8.7). Nun müssen Sie die Distanz aller Elemente zu diesem neuen Cluster berechnen. Im Gegensatz zu Beispiel 6.3, wo wir den minimalen Abstand zwischen einem Element und den Elementen D und F genommen haben, berechnen wir nun den mittleren Abstand zwischen dem betreffenden Element und D und F. Die resultierende Distanzmatrix ist in Tab. 8.8 dargestellt. Alle weiteren Schritte spare ich mir an dieser Stelle, bitte Sie aber, diese für sich mal weiterzurechnen. Stattdessen zeige ich Ihnen das resultierende Dendrogramm in Abbildlung 8.6. Solche Dendrogramme können Sie auf einem kleinen Umweg auch in Excel erzeugen. Tatsächlich ist die Clustereinteilung dieselbe wie im Fall vom Single Linkage-Verfahren, aber die Abstände sind z. T. etwas anders. 6.4 Lösung: Zunächst berechnen wir die Distanzen des Datenpunktes von X zu den Trainingsdaten mithilfe der Funktion WURZEL(SUMMEXMY2(...)) in der Spalte neben der Klassenbezeichnung. In der obersten Zelle neben der ersten Klassenbezeichnung A geben Sie die genannte Formel ein und übergeben dabei als erstes Argument den Bereich der drei
304 35 30 25
Distanz
Abb. 8.6 Dendrogramm zu den Daten aus Tab. 6.4 zur Analyse der Ähnlichkeit des metabolischen Profils verschiedener Organismen A, . . . , F. Die Cluster wurden mithilfe des Average Linkage-Verfahrens aggregiert
8 Lösungen zu den Übungen
20 15 10 5 0
D
F
A
B
C
E
Koordinaten von X (mit absolutem Zellbezug) und als zweites Argument die drei Koordinaten des ersten Trainingspunktes. Anschließend können Sie mithilfe des Ausfüllkästchens die Berechnungen nach unten ziehen. Nun suchen Sie mithilfe der Funktion KKLEINSTE die kleinste Distanz, die zweitkleinste und die drittkleinste Distanz. Beziehen Sie hierbei nicht die Distanz von X zu sich selbst ein, die ja trivialerweise null ist. Mit der Funktion INDEX(Bereich d. Klassenbezeichnungen;VERGLEICH(n-kleinste Distanz;Bereich d. Distanzen;0)) finden Sie zu den berechneten drei Distanzen die zugehörigen Klassenzuordnungen für X . Im vorliegenden Fall sollten Sie für die kleinste Distanz 1,25 mit der Klassenzuordnung C, für die zweitkleinste 1,34 mit Klassenzuordnung B und für die drittkleinste Distanz sollten Sie 1,62 mit der Klassenzuordnung C erhalten. Per Mehrheitsentscheid ergibt sich also für das unbekannte Bakterium die Klasse C. Hier grenzt die dritte Koordinate die Daten des unbekannten Objektes ganz deutlich von der Klasse A ab. Ist die Frage, ob diese Koordinate ein so großes Gewicht erhalten soll (v. a. bei der Berechnung der euklidischen Distanz), da es ja in einem deutlich größeren Bereich liegt als die beiden anderen Koordinaten. Im Zweifel führen Sie eine Skalierung bzw. hier eine Standardisierung der Daten durch. Machen Sie dies spaltenweise durch Verwendung der Funktion STANDARDISIERUNG. Klassifizieren Sie anschließend das Objekt erneut mit den standardisierten Daten. Nun sollten Sie für die kleinste Distanz 1,09 mit der Klassenzuordnung B, für die zweitkleinste 1,29 mit Klassenzuordnung B und für die drittkleinste Distanz sollten Sie 1,50 ebenfalls mit der Klassenzuordnung B erhalten. Demnach wäre das unbekannte Objekt der Bakteriengruppe B zuzuordnen, also einer anderen Gruppe als zuvor. Würde es sich bei den Bakterien um Krankheitserreger handeln und bei der unbekannten Probe um die Probe eines infizierten Patienten, dessen Medikamentengabe vom Ausgang der Klassifizierung des unbekannten Krankheitserregers abhinge, dann hätten Sie im ersten Fall vermutlich die falsche Behandlung angeordnet. 6.5 Lösung: Wie im Text erwähnt, ändert sich an der Optimierung der Funktion L gar nicht so viel durch die Einführung der slack-Variablen und der damit verbundenen Komplexitätskonstanten C. In Excel brauchen Sie lediglich in einer freien Zelle einen Wert für C festzulegen und eine weitere Nebenbedingung im Solver-Dialog hinzuzufügen, nämlich, dass alle αi ≤ C sind. Mehr brauchen Sie nicht zu tun. Die slack-Variablen tauchen
8.6
Lösungen zu Kap. 6
305
also nirgendwo explizit auf. Interessant, oder? In Abb. 8.7 habe ich die mithilfe der Funktion STANDARDISIERUNG standardisierten Daten sowie die Entscheidungsgrenze und die margins dargestellt. Abb. 8.7a zeigt dies für C = 0, 5 und Abb. 8.7b für C = 100. Letzteres entspricht Abb. 6.11, bei der wir die slack-Variablen nicht mit berücksichtigt hatten. Allgemein gilt, wenn C → ∞, dann ist es, als würde man die slack-Variablen nicht mit berücksichtigen und mit hard margin klassifizieren. 6.6 Lösung: Im Prinzip wollen wir hier wissen, wie sich die Performance-Funktion (vgl. Gl. 6.95) ändert, wenn wir die Gewichte w1 , . . . , w6 und den Bias b ändern. Dazu müssen wir die partiellen Ableitungen von P nach den zu optimierenden Gewichten und den Bias bilden. Die Kettenregel der Differentiation sollten Sie an dieser Stelle beherrschen. Bevor ich Ihnen die partiellen Ableitungen hinschreibe, würde ich gerne noch die Funktionen für die Präaktivierung a und die Aktivierungsfunktionen z hinschreiben. Fangen wir beim output-Neuron an. Die Aktivierungsfunktion z ist hier: z=
1 1 + exp(−az )
az ist hierbei die Präaktivierung: az = w5 z h 1 + w6 z h 2 + b3 z h 1 bzw. z h 2 sind die Aktivierungsfunktionen (bzw. die Ausgabe) der versteckten Neuronen h 1 bzw. h 2 1 1 + exp(−ah 1 ) 1 = 1 + exp(−ah 2 )
zh1 = zh2
3 2 1
x2
3
b -1 1
0 1 1 1
-1 -2
-1 -1
2
-1
1
-1
x2
a
-1 1
0 1 1 1
-1
1
-2
-1 -1
-1 -1
1
-3
-3 -2
-1
0 x1
1
2
-2
-1
0 x1
1
2
Abb. 8.7 Vergleich der SVM-Klassifizierung unserer Daten aus Beispiel 6.6 mit Berücksichtigung der slack-Variablen für C = 100 (a) und für C = 0,5 (b)
306
8 Lösungen zu den Übungen
ah 1 bzw. ah 2 sind die Präaktivierungen der Neuronen h 1 bzw. h 2 in der versteckten Schicht. ah 1 = w1 i 1 + w2 i 2 + b1 ah 2 = w3 i 1 + w4 i 2 + b2 Nun können wir an die Arbeit und im Folgenden die partiellen Ableitungen berechnen. ∂P ∂w1 ∂P ∂w2 ∂P ∂b1 ∂P ∂w3 ∂P ∂w4 ∂P ∂b2 ∂P ∂w5 ∂P ∂w6 ∂P ∂b3
= = = = = = = = =
∂P ∂z ∂P ∂z ∂P ∂z ∂P ∂z ∂P ∂z ∂P ∂z ∂P ∂z ∂P ∂z ∂P ∂z
∂z ∂az ∂z ∂az ∂z ∂az ∂z ∂az ∂z ∂az ∂z ∂az ∂z ∂az ∂z ∂az ∂z ∂az
∂az ∂z h 1 ∂az ∂z h 1 ∂az ∂z h 1 ∂az ∂z h 2 ∂az ∂z h 2 ∂az ∂z h 2 ∂az ∂w5 ∂az ∂w6 ∂az ∂b3
∂z h 1 ∂ah 1 ∂z h 1 ∂ah 1 ∂z h 1 ∂ah 1 ∂z h 2 ∂ah 2 ∂z h 2 ∂ah 2 ∂z h 2 ∂ah 2
∂ah 1 ∂w1 ∂ah 1 ∂w2 ∂ah 1 ∂b1 ∂ah 2 ∂w3 ∂ah 2 ∂w4 ∂ah 2 ∂b2
Sie sehen, es gibt viele partielle Ableitungen, die mehrfach vorkommen. Außerdem können Sie sehen, dass es ein wiederkehrendes Muster von partiellen Ableitungen des output eines Neurons und des inputs des darauffolgenden Neurons gibt. Es gibt effiziente Algorithmen, die diesen Tatsachen Rechnung tragen.
8.7
Lösungen zu Kap. 7
7.1 Lösung: Zur Berechnung der Varianz der Effekte für Beispiel 7.1, verwenden wir den Zusammenhang zwischen den Regressionskoeffizienten bi und den Effekten E i = 2bi sowie die Rechenregeln für Varianzen, nach denen gilt: var (E i ) = var (2bi ) = 22 var (bi )
(8.10)
8.7
Lösungen zu Kap. 7
307
Die Varianz aller Regressionskoeffizienten beträgt in diesem Beispiel var (bi ) = 0, 054. Nach dem zuvor Gesagten beträgt die Varianz der Effekte var (E i ) = 0, 215. Wenn Sie daraus die Wurzel ziehen, dann können Sie den Balken in Abb. 7.3 zusätzlich Fehlerbalken hinzufügen. 7.2 Lösung: Im Prinzip gibt es zwei Möglichkeiten, einen 23−1 teilfaktoriellen Versuchsplan sinnvoll aufzustellen. Entweder Sie wählen vom 23 -vollfaktoriellen Versuchsplan (vgl. Tab. 7.2) die vier Versuche mit ungerader Versuchsnummer oder die vier Versuche mit gerader Versuchsnummer. Beide Möglichkeiten sind dem Grunde nach gleichberechtigt. In Abb. 8.8 sind die beiden Möglichkeiten visualisiert. In der Praxis stellt man den 23−1 teilfaktoriellen Versuchsplan häufig so auf, dass man zunächst den 22 -vollfaktoriellen Versuchsplan aufstellt (vgl. Tab. 7.1) und die Interaktion (hier x1 x2 ) durch den dritten Hauptfaktor x3 ersetzt. 7.3 Lösung: Um die Regressionsgleichung 7.21 in Form der nicht transformierten Variablen x˜1 und x˜2 hinzuschreiben, verwenden wir die Definitionsgleichung der Transformation (vgl. Gl. 7.1) und die bereits berechneten Regressionsparameter. b = 102,4 −8,2 3,3 −0,8 −16,4 −10,0 Zusammen ergibt sich die folgende Regressionsgleichung:
Abb. 8.8 Zeigt die beiden Möglichkeiten, einen 23−1 teilfaktoriellen Versuchsplan aufzusetzen. Die vier gefüllten Punkte gehören jeweils zu einem Experiment, und die vier nicht gefüllten Punkte gehören jeweils zu einem anderen möglichen Experiment
x3 x2
x1
308
8 Lösungen zu den Übungen
f (x˜1 , x˜2 ) = 102,4 − 8,2
x˜1 (max)+x˜1 (min) 2 x˜1 (max)−x˜1 (min) 2
x˜1 −
+ ...
3,3 8,2 (x˜1 − 6,5) + (x˜2 − 66,5) 2,5 37,5 0,83 16,4 − (x˜1 − 6,5)2 (x˜1 − 6,5) (x˜2 − 62,5) − 2,5 · 37,5 2,52 10 − (x˜2 − 62,5)2 37,52
= 102,4 −
Fassen wir entsprechende Terme zusammen, so erhalten wir abschließend die folgende Gleichung: f (x˜1 , x˜2 ) = −24 + 31,4x˜1 + x˜2 − 0,01x˜1 x˜2 − 2,6x˜12 − 0,01x˜22 Manche der Regressionskoeffizienten sind sehr klein und könnten ggf. nicht signifikant sein. Aufgrund der fehlenden Replikate in dem Beispiel, kann man hier jedoch keine Signifikanzprüfung vornehmen.
9
Anhang
9.1
Ein klein wenig lineare Algebra
Lineare Algebra beschäftigt sich hauptsächlich mit linearen Gleichungssystemen, Vektoren und Matrizen. Sie haben gesehen, dass an vielen Stellen in diesem Buch mit Matrixoperationen gearbeitet wird. An dieser Stelle möchte ich kurz ein paar Grundlagen zum Umgang mit Vektoren oder allgemein Matrizen wiederholen. Wie wir in Abschn. 1.2 bereits gesehen habe, stößt man auf diese, wenn man allgemein versucht, ein lineares Gleichungssystem a11 x1 +a12 x2 a21 x1 +a22 x2 .. . am1 x1 +am2 x2
+... +... .. . +...
+a1n xn +a2n xn .. . +amn xn
= y1 = y2 .. . = ym
(9.1)
zu lösen. Packen wir die Koeffizienten ai j in ein rechteckiges Schema und separat dazu sowohl die unabhängigen Variablen x j , als auch die abhängigen Variablen yi in eigene Schemata der Art: ⎡ ⎤ a11 a12 . . . a1n ⎢ a21 a22 . . . a2n ⎥ ⎢ ⎥ A=⎢ . (9.2) .. .. .. ⎥ ⎣ .. . . . ⎦ am1 am2 . . . amn und
⎡ ⎤ x1 ⎢ x2 ⎥ ⎢ ⎥ x=⎢.⎥ ⎣ .. ⎦ xn
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 M. Schneider, Datenanalyse für Naturwissenschaftler, Mediziner und Ingenieure, https://doi.org/10.1007/978-3-662-61866-0_9
(9.3)
309
310
9 Anhang
bzw.
⎡
⎤ y1 ⎢ y2 ⎥ ⎢ ⎥ y=⎢ . ⎥ ⎣ .. ⎦
(9.4)
ym Dann nennt man A eine Matrix und x bzw. y Vektoren. Die Indizes i und j kennzeichnen die Zeile bzw. Spalte eines Elementes ai j innerhalb der Matrix A. Vektoren sind im Grunde genommen ein Spezialfall von Matrizen. Da die Vektoren aus nur einer Spalte bestehen, wird der Spaltenindex 1 in aller Regel weggelassen. Bitte beachten Sie, dass es auch Zeilenvektoren gibt. Eine Matrix mit m Zeilen und n Spalten wird auch m × n-Matrix genannt. Vertauscht man die Zeilen und die Spalten, dann erhält man die zu A transponierte n × m-Matrix, die meist mit AT gekennzeichnet wird. Wenn die Anzahl der Gleichungen im Gleichungssystem 9.1 gleich der Anzahl der unabhängigen Variablen, dann erhält man eine n × n-Matrix A, also eine quadratische Matrix. Die bekannteste quadratische Matrix ist die sogenannte Einheitsmatrix In . Sie hat entlang ihrer Diagonalen nur Einsen, alle anderen Elemente sind null. Sie ist sozusagen das Matrixäquivalent zur Zahl 1 (wie wir gleich noch sehen werden). Kommen wir nun zu den Rechenarten für Vektoren und Matrizen.
9.1.1
Rechnen mit Vektoren
In vielen Teilen dieses Buches wird mit Vektoren gerechnet. Ein Vektor ist eine Anordnung von Zahlen v1 , v2 , . . . , vn , auch Vektorelemente oder Vektorkomponenten genannt, die entweder in Form einer Spalte oder einer Zeile angeordnet sind. Im ersten Fall spricht man von Spaltenvektoren, im letztgenannten Fall von Zeilenvektoren. Einen Spaltenvektor lässt sich durch Transponieren in seine Zeilenform überführen. Ein Vektor ist durch seine Länge und Richtung vollständig beschrieben (siehe weiter unten). Die Dimensionalität des Vektors ist durch seine Anzahl an Elementen gegeben. Ein Vektor mit drei Elementen ist demnach ein Vektor im dreidimensionalen Raum. Vektorelemente werden typischerweise zwischen zwei großen Klammern untereinandergeschrieben: ⎡ ⎤ v1 ⎢ v2 ⎥ ⎢ ⎥ v=⎢.⎥ ⎣ .. ⎦ vn
(9.5)
In diesem Buch verwende ich zur Kennzeichnung eines Vektors immer einen kleinen fett gedruckten Buchstaben, im Gegensatz zu Zahlen bzw. Skalaren, die nicht fettgedruckt sind. Zwei Vektoren v und w lassen sich miteinander addieren, wenn sie dieselbe Anzahl Elemente haben. Bei der Addition zweier Vektoren werden die Elemente jeweils addiert gemäß Gl. 9.6.
9.1
Ein klein wenig lineare Algebra
311
⎡
⎤ v1 + w1 ⎢v2 + w2 ⎥ ⎢ ⎥ v+w =⎢ ⎥ .. ⎣ ⎦ . vn + wn
(9.6)
Ein Vektor v kann außerdem mit einem Skalar c multipliziert werden. Dies geschieht, indem jedes Element jeweils mit dem Skalar multipliziert wird. ⎡
⎤ cv1 ⎢cv2 ⎥ ⎢ ⎥ cv = ⎢ . ⎥ ⎣ .. ⎦ cvn
(9.7)
Die Kombination von Vektoraddition und Skalarmultiplikation tritt bei der sogenannten Linearkombination von Vektoren auf. Nehmen Sie bspw. an, Sie hätten zwei Substanzen X und Y in Ihrer Probelösung vorliegen und messen ein Absorptionsspektrum bei drei verschiedenen Wellenlängen. Dann wird das gemessene Absorptionssignal a eine Linearkombination der Intensitäten x bzw. y der beiden Substanzen sein. Gemäß dem Lambert-Beer’schen Gesetz gehen wir mal davon aus, dass das jeweilige Signal einer Substanz proportional zu seiner Konzentration sei, dann lässt sich a als Linearkombination von x und y wie folgt darstellen: ⎡ ⎤ ⎡ ⎤ ⎡ ⎤ x1 y1 a1 ⎣a2 ⎦ = c X ⎣x2 ⎦ + cY ⎣ y2 ⎦ (9.8) a3 x3 y3 Eine Linearkombination zweier Vektoren lässt sich allgemein als λv + μw darstellen, wobei λ und μ Skalare sind. Wenn Sie sich vorstellen, dass λ und μ unendlich viele Werte annehmen könnten, dann führt der genannte Ausdruck zu einer Ebene von Vektoren. Es gibt verschiedene Größen, die im Zusammenhang mit Vektoren eine große Rolle spielen. Die vermeintlich wichtigste Größe ist das sogenannte Skalarprodukt. Es berechnet sich für zwei Vektoren v und w zu: ⎡ ⎤ w1 ⎢w2 ⎥ ⎢ ⎥ v T w = v1 v2 . . . vn ⎢ . ⎥ (9.9) ⎣ .. ⎦ wn = v1 w1 + v2 w2 + · · · + vn wn =
n
vi wi
i=1
v T ist der zu v transponierte Vektor. Wenn v ein Spaltenvektor ist, dann ist v T ein Zeilenvektor mit denselben Elementen wie v eben nur als Zeile geschrieben. Bitte beachten
312
9 Anhang
Sie, dass die Multiplikation vw T nicht dasselbe ist wie v T w. Ersteres führt zu einer n × nMatrix und letzteres eben zu einem Skalar. Auf Matrizen gehe ich weiter unten noch ein. Es ist jedoch v T w = w T v, d. h., es ist egal, ob Sie v transponieren und dann mit w skalar multiplizieren, oder ob Sie w transponieren und anschließend skalar mit v multiplizieren, es kommt dasselbe dabei raus. An mancher Stelle im Buch erwähne ich, dass das Skalarprodukt eine Art Maß für die Ähnlichkeit von zwei Vektoren ist. Das möchte ich Ihnen näher erläutern. Nehmen wir bspw. den Vektor v T = 1 0 . Berechnen wir zunächst das Skalarprodukt: v T v = v12 + v22 = 1 Der Ausdruck v12 + v22 könnte Ihnen vom Satz des Pythagoras bekannt vorkommen. Hieraus wissen Sie vermutlich auch, wie man die Länge des Vektors (beim Satz des Pythagoras ist es die Länge der Hypotenuse) berechnet, und zwar indem man die Wurzel des Skalarproduktes zieht: ||v|| = v T v = v12 + v22 (9.10) ||v|| bezeichnet √ man auch als Vektornorm. Im Beispiel beträgt also die Länge von unserem Vektor ||v|| = 1 = 1. Nehmen wir nun denselben Vektor, aber drehen ihn um 45◦ gegen √ √ den Uhrzeigersinn, wodurch wir einen neuen Vektor w T = 1/ 2 1/ 2 erhalten, der √ dieselbe Länge hat wie v. Das Skalarprodukt v T w = 1/ 2 ist kleiner als v T v. Drehen wir v jetzt um 90◦ gegen den Uhrzeigersinn, so erhalten wir einen neuen Vektor x T = 0 1 mit derselben Länge wie v. Das Skalarprodukt ist nun v T x = 0. Fassen wir kurz zusammen, wenn also v senkrecht (also im 90◦ -Winkel) auf sich selbst steht, dann erhalten wir ein Skalarprodukt von 0. Solche Vektoren nennt man orthogonal zueinander. Besitzen jeweils beide Vektoren dann auch noch die Länge eins, dann spricht man von orthonormalen Vektoren. Wenn v um 45◦ verdreht auf sich selbst steht erhalten wir ein Skalarprodukt von √ √ ◦ ◦ 1/ 2. Kennen Sie eine Funktion, die bei 0 gleich 1, bei 45 gleich 1/ 2 und bei 90◦ gleich 0 wird? Die Kosinusfunktion. Tatsächlich hängt das Skalarprodukt vom Kosinus des Winkels α zwischen den beiden Vektoren ab. Es gilt allgemein: v T w = ||v|| · ||w|| cos(α)
(9.11)
Im obigen Beispiel waren die Vektornormen immer eins, von daher war das Skalarprodukt gleich dem Kosinus des Winkels zwischen den jeweiligen Vektoren. Vektoren, deren Länge eins ist, nennt man auch Einheitsvektoren.
9.1.2
Rechnen mit Matrizen
Die Überschrift enthält zwar nur noch den Begriff Matrizen. Da Vektoren jedoch ein Spezialfall von Matrizen sind, gilt für sie dasselbe, was im Folgenden gesagt wird. Zwei Matrizen A und B kann man nur dann addieren (natürlich auch subtrahieren), wenn sie die gleiche
9.1
Ein klein wenig lineare Algebra
313
Größe haben, sprich dieselbe Anzahl Zeilen und Spalten. Ist das der Fall, dann ist ein Element ci j der resultierenden Matrix C = A + B einfach die Summe der beiden Elemente ai j und bi j . Demnach gilt allgemein: C=A+B ⎡ ⎤ ⎡ ⎤ b11 b12 . . . b1n a11 a12 . . . a1n ⎢ a21 a22 . . . a2n ⎥ ⎢ b21 b22 . . . b2n ⎥ ⎢ ⎥ ⎢ ⎥ =⎢ . .. .. .. ⎥ + ⎢ .. .. .. .. ⎥ . ⎣ . . . . ⎦ ⎣ . . . . ⎦ am1 am2 . . . amn bm1 bm2 . . . bmn ⎡ ⎤ a11 + b11 a12 + b12 . . . a1n + b1n ⎢ a21 + b21 a22 + b22 . . . a2n + b2n ⎥ ⎢ ⎥ =⎢ ⎥ .. .. .. .. ⎣ ⎦ . . . . am1 + bm1 am2 + bm2 . . . amn + bmn
(9.12)
Für die Subtraktion müssen Sie lediglich die Pluszeichen durch Minuszeichen ersetzen. Die Addition und Subtraktion von Matrizen ist also relativ einfach. Bei der Multiplikation hingegen müssen wir etwas genauer hinsehen. Fangen wir mit etwas Leichtem an, die Multiplikation einer Matrix A mit einer Konstanten (einem Skalar) γ . Diese multipliziert sich auf jedes einzelne Element in der Matrix. Es gilt demnach: ⎡
γ a11 γ a12 ⎢ γ a21 γ a22 ⎢ γA = ⎢ . .. ⎣ .. . γ am1 γ am2
⎤ . . . γ a1n . . . γ a2n ⎥ ⎥ .. .. ⎥ . . ⎦ . . . γ amn
(9.13)
Die Multiplikation zweier Matrizen A und B ist nur dann möglich, wenn die Anzahl Spalten in A gleich der Anzahl Zeilen in B ist. Demnach kann eine m × n-Matrix A mit einer n × k-Matrix multipliziert werden. Bei der Multiplikation AB wird jede Zeile aus A mit jeder Spalte aus B skalar multipliziert. Warum habe ich hier das Wort skalar verwendet? Damit möchte ich an das Skalarprodukt zweier Vektoren a = [a1 a2 . . . am ] und b = [b1 b2 . . . bm ] erinnern. Das Skalarprodukt wird gebildet, indem die Elemente ai bi multipliziert und anschließend über alle Produkte summiert werden. Das Ergebnis ist also ein Skalar (daher der Name). Genau das wird bei der Matrixmultiplikation auch gemacht, denn jeder Zeilenvektor in A wird skalar mit jedem Spaltenvektor in B multipliziert. Nehmen wir bspw. den i-ten Zeilenvektor aus A und den j-ten Spaltenvektor aus B, dann ist das Element ci j das Skalarprodukt dieser beiden Vektoren. Das ist schematisch im Folgenden dargestellt:
314
9 Anhang
⎡
⎤ a11 a12 . . . a1n ⎢ a a ... a ⎥⎡ 2n ⎥ b11 b12 ⎢ 21 22 ⎢ . .. .. .. ⎥ ⎢ . ⎥⎢ . . . ⎥ ⎢ b21 b22 ⎢ . AB = ⎢ ⎥⎢ ⎢ ai1 ai2 . . . ain ⎥ ⎣ ... ... ⎢ ⎥ .. .. .. ⎥ ⎢ .. ⎣ . . . . ⎦ bn1 bn2 am1 am2 . . . amn ⎤ ⎡ ∗∗∗ ∗ ∗∗ ⎢. . . .. .. ⎥ .. ⎢ .. .. .. . .⎥ . ⎥ ⎢ ⎥ ⎢ n
⎢∗ ∗ ∗ c = aik bk j ∗ ∗ ⎥ =⎢ ⎥ ij ⎥ ⎢ k=1 ⎢. . . .. .. .. ⎥ ⎥ ⎢. . . ⎣. . . . . .⎦ ∗∗∗ ∗ ∗∗
b13 b23 .. . bn3
... ... .. . ...
b1 j b2 j .. . bn j
... ... .. . ...
⎤ b1k b2k ⎥ ⎥ .. ⎥ . ⎦ bnk
(9.14)
Die Reihenfolge der Matrizen A und B bei der Multiplikation ist im Allgemeinen nicht vertauschbar, denn eine m ×n-Matrix können Sie zwar mit einer n ×k-Matrix multiplizieren, aber nicht in umgedrehter Reihenfolge. Es gilt also: AB = BA
(9.15)
Selbst wenn die Matrizen quadratisch sind, gilt dies im Allgemeinen nicht, es sei denn, eine der beiden Matrizen wäre die Einheitsmatrix. Aus dem Gesagten folgt auch, dass man eine Matrix nicht unbedingt mit sich selbst multiplizieren kann, es sei denn, sie ist quadratisch. Auf diese Art kann man quadratische Matrizen potenzieren. Nichtsdestotrotz kann man eine beliebige Matrix A mit ihrer Transponierten AT multiplizieren oder die Transponierte mit ihrer nicht-transponierten Form multiplizieren. Bitte beachten Sie, dass auch hier im Allgemeinen gilt: AAT = AT A (9.16) Es kommt zwar sowohl links als auch rechts eine quadratische Matrix raus, aber diese haben nicht unbedingt dieselbe Form. Kommen wir abschließend noch zu einer wichtigen Matrix, die nur für quadratische Matrizen definiert ist, aber auch hier nicht unbedingt existieren muss. Die Rede ist von der Inversen einer Matrix A, die wir mit A−1 kennzeichnen. Nehmen wir nochmals unser lineares Gleichungssystem 9.1 her und schreiben es in Matrixform: Ax = y (9.17) Wenn wir diese Gleichung nun nach dem Vektor x auflösen möchten, dann multiplizieren wir von links auf beiden Seiten mit A−1 (setzen wir hier mal voraus, sie existiere) und erhalten:
9.1
Ein klein wenig lineare Algebra
315
A−1 Ax = A−1 y ⇔ In x = A−1 y ⇔ x = A−1 y
(9.18)
So wie eine Zahl γ multipliziert mit seiner Inversen γ −1 Element eins ergibt, so ergibt die Multiplikation einer Matrix A mit seiner Inversen A−1 die Einheitsmatrix In . Es gilt allgemein: AA−1 = A−1 A = In (9.19) Glücklicherweise muss die Inverse in Excel nicht von Hand berechnet werden1 , sondern mithilfe der Funktion MINV. Ob eine quadratische Matrix invertierbar ist, können Sie relativ schnell mithilfe der sogenannten Determinante feststellen, eine Zahl, die sehr viel Information über die entsprechende Matrix beinhaltet. Darüber alleine könnte man ein eigenes Kapitel schreiben, aber wir nutzen sie hier lediglich zur Überprüfung der Invertierbarkeit. Die Determinante ist nämlich null, wenn eine Matrix nicht invertierbar ist. Dann nennt man diese Matrix singulär. Bezogen auf das lineare Gleichungssystem heißt singulär, dass mindestens zwei Gleichungen linear voneinander abhängen, d. h., die eine Gleichung kann durch Multiplikation mit einer Konstanten in die andere Gleichung überführt werden. Durch Äquivalenzumformungen lässt sich dann in der entsprechenden Matrix eine Nullzeile erzeugen. Hier kommt der Begriff des Ranges einer Matrix ins Spiel. Angenommen, die Matrix hätte die Größe n ×n, dann ist der Rang r dieser Matrix r = n −1, also gleich der Anzahl unabhängiger Zeilen(-Vektoren) in der Matrix. Falls die Determinante ungleich null ist, dann ist auch die entsprechende Matrix invertierbar und sie hat vollen Rang. Für 2 × 2und 3×3-Matrizen lässt sich die Determinanten vielleicht noch von Hand berechnen, aber für Matrizen mit n > 3 ist die Gefahr, einen Fehler bei der Handrechnung zu machen, zu groß, mal ganz davon abgesehen, dass es zeitaufwändig ist. Glücklicherweise berechnet Excel die Determinante einer Matrix mithilfe der Funktion MDET für Sie. Bleiben wir nochmals bei dem linearen Gleichungssystem 9.1. Falls die Anzahl Gleichungen gleich der Anzahl der Unbekannten ist und die Gleichungen nicht linear abhängig voneinander sind, dann gibt es eine eindeutige Lösung, die mithilfe der inversen Koeffizientenmatrix erhalten werden kann (Gl. 9.18 unten). Falls die Anzahl der Gleichungen kleiner als die Anzahl der Unbekannten ist, dann nennt man das System unterbestimmt. In einem solchen Fall gibt es typischerweise eine unendliche Anzahl an Lösungen. Ist die Anzahl der Gleichungen größer als die Anzahl der Unbekannten, dann nennt man dieses Gleichungssystem überbestimmt. Das ist die typische Situation bei der linearen- und nicht-linearen Regression (vgl. Abschn. 5), denn hier hat man in der Regel mehr Datenpunkte als Fitparameter. In einem solchen Fall gibt es keine exakte Lösung, aber eine Näherungslösung, die mithilfe der sogenannten Pseudoinversen A+ erhalten werden kann:
1 Das könnte man mit dem sogenannten Gauß-Jordan Verfahren machen.
316
9 Anhang
−1 AT A AT Ax = y A+
−1 AT y x = AT A
(9.20)
Das Matrixprodukt AT A ist quadratisch und dementsprechend auch invertierbar. In der Praxis kann es passieren, dass manche der Gleichungen des Gleichungssystems einen ähnlichen Informationsgehalt haben, und das kann dazu führen, dass A beinahe singulär ist. Das wiederum kann zu numerischen Instabilitäten bei den Folgeberechnungen führen, wie bei der Berechnung der Pseudoinversen. Um den entgegenzuwirken, wird die Matrix A häufig vorab zerlegt, bspw. mithilfe der Singulärwertzerlegung (vgl. Abschn. 6.2.1). Excel ist zwar nicht prädestiniert dafür, Matrixberechnungen durchzuführen, dafür gibt es spezialisiertere Programme, aber mit seinen Matrixfunktionen (eigentlich Array-Funktionen genannt, vgl. Tab. 9.1) kommen Sie bereits relativ weit.
9.1.3
Eigenwerte und Eigenvektoren von Matrizen
Im Folgenden nehmen wir an, A sei eine n × n-Matrix. Die Multiplikation dieser Matrix mit einem Vektor v T = v1 v2 . . . vn ergibt wiederum einen Vektor mit derselben Anzahl Elemente wie v. Die Vektorelemente des neuen Vektors berechnen sich jeweils als Skalarprodukte der Zeilenvektoren der Matrix A mit dem Spaltenvektor v. Der neue Vektor zeigt zumeist in eine andere Richtung als v. Bei manchen Vektoren bleibt allerdings die Richtung nach der Multiplikation mit der Matrix erhalten. Der resultierende Vektor ist eine gestreckte oder gestauchte und/oder um 180◦ gedrehte Version von v. Für solche Vektoren, die Eigenvektoren genannt werden, gilt: Av = λv
(9.21)
Tab. 9.1 Matrixfunktionen in Excel 2016 Matrixfunktion
Erklärung
MTRANS(A)
Berechnet die Transponierte einer Matrix A
MMULT(A; B)
Multipliziert zwei Matrizen A und B passender Größe
MINV(A)
Invertiert eine nicht singuläre, quadratische Matrix A
MEINHEIT(n)
Erzeugt eine n × n-Einheitsmatrix
MDET(A)
Berechnet die Determinante einer quadratischen Matrix A
9.1 Ein klein wenig lineare Algebra
317
Der Skalar λ ist der sogenannte Eigenwert. Formen wir Gl. 9.21 etwas um Av − λv = 0 (A − λIn )v = 0
(9.22)
dann sehen wir, dass v derjenige Vektor ist, der das Gleichungssystem in Gl. 9.22 (2. Zeile) erfüllt. Kurz zur Erinnerung, lineare Gleichungssysteme können eine eindeutige Lösung, unendlich viele Lösungen oder gar keine Lösungen haben. Angenommen, die Matrix X = A − λIn sei invertierbar, dann wäre die eindeutige Lösung des Gleichungssystems 9.22 die triviale Lösung v = 0. Die ist aber uninteressant. Wir suchen demnach Lösungen, für die die Matrix X singulär ist. Solche Matrizen haben linear abhängige Zeilen oder Spalten. Wie wir in Abschn. 6 gesehen haben, ist das insbesondere bei Datenmatrizen so, die redundante Informationen tragen, bzw. bei denen die Daten in verschieden Zeilen oder Spalten miteinander korreliert sind. Die Determinante solcher Matrizen ist null2 . Mithilfe der Determinante können die verschiedenen Eigenwerte gefunden werden. Aus der Determinante der Matrix X = A − λIn resultiert das sogenannte charakteristische Polynom: ⎛⎡ a11 − λ x12 ⎜⎢ x21 x22 − λ ⎜⎢ det(X ) = det ⎜⎢ . .. ⎝⎣ .. . xn1 xn2
⎤⎞ . . . x1n ⎟ . . . x2n ⎥ ⎥⎟ .. ⎥⎟ .. . . ⎦⎠ . . . xnn − λ
= (−1)n λn + cn−1 λn−1 + · · · + c1 λ + c0
(9.23)
Die ci sind hierbei die Polynomkoeffizienten. Wie Sie sehen, erhält man für eine n × nMatrix ein Polynom n-ter Ordnung und dementsprechend auch n Eigenwerte und Eigenvektoren. Die Eigenwerte lassen sich aus dem Polynom bestimmen, und danach lassen sich auch die Eigenvektoren über das Gleichungssystem 9.22 berechnen. Als kleine Kontrolle für die Praxis: Das Produkt aller Eigenwerte muss die Determinante der Matrix A ergeben. Die Summe der Eigenwerte hingegen ergibt die Summe der Diagonalelemente, auch Spur genannt, von A.
2 So ist bspw.
⎛⎡ a11 det ⎝⎣a21 1
a12 a22 1
⎡ ⎤ a11 a12 a13 die Determinante der Matrix A = ⎣a21 a22 a23 ⎦ gleich det(A) = 0 · 0 0 0 ⎤⎞ a13 a23 ⎦⎠ = 0. 1
318
9.2
9 Anhang
Lagrange’sches Multiplikationsverfahren – Optimierung mit Nebenbedingungen
Im Abschn. 6 zum Thema Support-Vector Machines sind wir auf die Optimierung einer Funktion mit Nebenbedingungen gestoßen. Im besagten Fall war dies die Maximierung des Abstandes zweier Klassengrenzen unter gewissen Nebenbedingungen. Hierbei haben wir Gebrauch von den Lagrange-Multiplikatoren gemacht. Das zugrunde liegende Verfahren nennt man auch Lagrange’sches Multiplikationsverfahren. Es dient der allgemeinen Lösung von Optimierungs- bzw. Extremwertaufgaben mit Nebenbedingungen. Im Folgenden möchte ich Ihnen einmal kurz das dahinterliegende Konzept erläutern. Hierzu nehmen wir einmal an, wir hätten eine Funktion f (x1 , x2 , . . . , xn ) mit den Variablen x1 , x2 , . . . , xn gegeben. Angenommen, die Variablen sind außerdem durch eine Nebenbedingung g(x1 , x2 , . . . , xn ) = c miteinander verknüpft. Nun wollen Sie denjenigen Punkt (x p1 , x p2 , . . . , x pn ) finden, an dem Ihr Funktionswert f (x p1 , x p2 , . . . , x pn ) optimal wird, aber auch die Nebenbedingung eingehalten wird. Eines vorweg, dieser Punkt wird im Allgemeinen nicht dem globalen Optimum der Funktion f entsprechen. Lagrange hat eine Methode entwickelt, wie Sie dieses Optimierungsproblem relativ einfach lösen können. Hierzu addieren Sie zunächst die Nebenbedingung mit einem (noch unbekannten) Faktor λ zur Funktion f (x1 , x2 , . . . , xn ) und erhalten so die Lagrange-Funktion L: L(x1 , x2 , . . . , xn , λ) = f (x1 , x2 , . . . , xn ) + λ(g(x1 , x2 , . . . , xn ) − c)
(9.24)
Anschließend leiten Sie diese Funktion jeweils nach allen Variablen ab und setzen diese Ableitungen zu null wodurch Sie folgendes Gleichungssystem erhalten: ∂L =0 ∂ x1 ∂L =0 ∂ x2 .. . ∂L =0 ∂ xn ∂L =0 ∂λ
(9.25) (9.26)
(9.27) (9.28)
Das macht durchaus Sinn, denn die Lösung eines Gleichungssystem erfüllt ja gleichzeitig alle ihm zugrunde liegenden Gleichungen. Die ersten n Gleichungen sind die Bedingungen für einen Extremwert, und die untere Gleichung ist wiederum unsere Nebenbedingung, denn ∂ L/∂λ = g(x1 , x2 , . . . , xn ) − c = 0. Wenn wir also eine Lösung des Gleichungssystems finden, dann haben wir diejenige Lösung gefunden, die alle Haupt- und Nebenbedingungen erfüllt. Je nach Form der Funktion g(x1 , x2 , . . . , xn ) können Sie ggf. nach einem der Variablen explizit auflösen und können durch Elimination in den weiter oben liegenden
9.2
Lagrange’sches Multiplikationsverfahren – Optimierung mit Nebenbedingungen
319
Gleichungen zu einer Lösung kommen. Das geht jedoch am besten, wenn die Anzahl Ihrer Variablen klein ist. Beispiel 9.1 Wir suchen mal denjenigen Punkt, bei dem die Funktion f (x1 , x2 ) = −2x 2 − 2y 2 + 3x + y unter der Nebenbedingung g(x, y) = x + y = 3 maximal wird. Schreiben wir zunächst die Lagrange-Funktion hin: L(x, y, λ) = −2x 2 − 2y 2 + 3x + y + λ(x + y − 3) Nun leiten wir diese Funktion jeweils nach x, y und λ ab und stellen das zugehörige Gleichungssystem (Gl. 9.25 bis 9.28) auf. Für dieses Beispiel sieht es wie folgt aus: ∂L = −4x − λ ∂x ∂L = −4y − λ ∂y ∂L =x+y ∂λ
= −3 = −1 =
3
Ich habe hier die konstanten Terme jeweils auf die rechte Seite der Gleichungen geholt. In Matrixform erhalten Sie entsprechend: ⎤⎡ ⎤ ⎡ ⎤ −3 y −4 0 −1 ⎣ 0 −4 −1⎦ ⎣ y ⎦ = ⎣−1⎦ 3 λ 1 1 0 ⎡
Wenn Sie diese Matrixgleichung in Excel mithilfe der Funktionen MINV und MMULT lösen, dann erhalten Sie den Lösungsvektor v = 7/4 5/4 −4 . Interessant sind v. a. Dingen die ersten beiden Elemente dieses Vektors, denn sie markieren denjenigen Punkt, an dem die Nebenbedingung g erfüllt ist und der Funktionswert von f möglichst maximal ist. Grafisch ist dieser Sachverhalt in Abb. 9.1 dargestellt. Stellen Sie sich vor, wir gehen entlang der durch die Nebenbedingung g(x, y) gegebenen Gerade3 und fragen an jedem Punkt (x, y) den Wert f (x, y) ab. Die Funktion f ist hier in Form ihrer Höhenlinien dargestellt. Dort, wo die Gerade eine Höhenlinie in einem Punkt schneidet (die Gerade ist also die Tangente an dieser Höhenlinie), liegt das von uns gesuchte Maximum (schwarzer Punkt). Wie eingangs erwähnt, ist dies nicht das Maximum der Funktion f .
3 g(x, y) können sie nach y auflösen und erhalten y = 3 − x.
320
9 Anhang
5 g(x,y)
y
Abb. 9.1 Mithilfe der Lagrange-Methode findet man den Punkt, an dem die Nebenbedingung g(x, y) erfüllt ist und die Funktion f (x, y) (Höhenlinien) dennoch möglichst optimal ist
0
-5
-5
0 x
5
Es kann durchaus mehrere Nebenbedingungen geben. Im allgemeinen Fall von n Variablen und m Nebenbedingungen wird aus Gl. 9.24 folgende Gleichung:
L(x1 , x2 , . . . , xn , λ) = f (x1 , x2 , . . . , xn ) +
m
λi (gi (x1 , x2 , . . . , xn ) − ci )
(9.29)
i=1
Dementsprechend erhält man auch ein Gleichungssystem mit (n + m) Gleichungen. Bei der Support Vector Machine-Klassifizierung bestehen die Nebenbedingungen sogar aus Gleichungen und Ungleichungen, was die Optimierung etwas verkompliziert. Ich möchte hier nicht weiter ins Detail gehen, da es diesen Abschnitt nur unnötig aufblähen würde. Der grobe Formalismus bleibt derselbe. Wenn Sie sich näher damit befassen wollen, dann suchen Sie bspw. im Internet nach Karush-Kuhn-Tucker-Bedingungen.
9.3
Mehr zur Fehlerfortpflanzung – für mathematisch Versierte
Als Zusatz zu dem, was ich in Abschn. 1.4 bereits zur Fehlerfortpflanzung gesagt hatte, möchte ich in diesem Abschnitt einmal den mathematischen Zusammenhang zwischen dem absoluten Größtfehler und der Standardabweichung einer indirekt bestimmten Messgröße darstellen. Nehmen wir einmal an, f sei eine Messgröße, die Sie indirekt aus den Teilgrößen θ = [a, b, c, . . . ] ermittelt haben. Nehmen wir weiter an, f = f (a, b, c, . . . ) beschreibe den funktionalen Zusammenhang zwischen den Teilgrößen und f . So könnte f bspw. die Fläche eines Rechtecks sein, die aus den Teilgrößen Höhe und Breite berechnet wurde. Die Teilgrößen können grundsätzlich nicht fehlerfrei gemessen werden. Als guter Wissenschaftler haben Sie zu jedem der Teilgrößen m unabhängige Wiederholungsmessungen gemacht.
9.3
Mehr zur Fehlerfortpflanzung – für mathematisch Versierte
321
Wir können nun jedes Ergebnis der Teilgrößenmessungen als Summe des zugehörigen Mittelwerts (z. B. a) ¯ und eines Fehlers schreiben. Für die j-te Messung von a sieht das dann wir folgt aus: a j = a¯ + a j (9.30) a j kann hierbei positiv oder negativ sein. Ähnliche Ausdrücke erhalten wir für b, c, usw. Für jede Teilgröße können Sie nun auch den mittleren Fehler berechnen. Wiederum anhand von a dargestellt, ergibt sich: m 1
2 (9.31) a j − a¯ a = m−1 j=1
Gl. 9.31 kennen Sie vermutlich aus der Statistik und beschreibt die Standardabweichung der Teilgröße a. Sie geben dann letztlich das Messergebnis der Teilgröße a wie folgt an: a = a¯ ± a
(9.32)
Am Ende werden Sie auch f j ≡ f (a j , b j , c j , . . . ) in der Form von Gl. 9.32 angeben: f j = f¯ ± f j
(9.33)
Die f j erhalten Sie hierbei aus einer Taylorreihenentwicklung von f j um den Punkt ¯ c, (a, ¯ b, ¯ . . . ): ¯ c, ¯ c, ¯ c, f j = f¯ + a j f a (a, ¯ b, ¯ . . . ) + b j f b (a, ¯ b, ¯ . . . ) + c j f c (a, ¯ b, ¯ ...) + ... 1 ¯ c, ¯ c, ¯ c, ¯ b, ¯ . . . ) + b2j f bb (a, ¯ b, ¯ . . . ) + c2j f cc (a, ¯ b, ¯ ...) + ... + a 2j f aa (a, 2 ¯ c, ¯ c, + 2a j b j f ab (a, ¯ b, ¯ . . . ) + 2a j c j f ac (a, ¯ b, ¯ ...) + ... ¯ + 2b j c j f bc (a, ¯ b, c, ¯ ...) + ... + ... (9.34) In Gl. 9.34 habe ich die partiellen Ableitungen von f nach den Teilgrößen a, b, c jeweils f a , f b und f c abgekürzt. Ebenso die höheren Ableitungen, also z. B. f ab ≡ ∂ 2 f /∂a∂b. Wenn die Fehler der Teilgrößen klein sind, dann kann man die Taylorreihe guten Gewissens nach den linearen Termen abbrechen (in diesem Fall bleibt die oberste Zeile auf der rechten Seite von Gl. 9.34 übrig) und erhält: ¯ c, ¯ c, ¯ c, f j ≈ f¯ + a j f a (a, ¯ b, ¯ . . . ) + b j f b (a, ¯ b, ¯ . . . ) + c j f c (a, ¯ b, ¯ . . . ) + . . . (9.35)
322
9 Anhang
Aus Gl. 9.35 können Sie direkt Ihr f j ablesen: ¯ c, ¯ c, ¯ c, f j = a j f a (a, ¯ b, ¯ . . . ) + b j f b (a, ¯ b, ¯ . . . ) + c j f c (a, ¯ b, ¯ ...) + ...
(9.36)
Nimmt man den Absolutbetrag der einzelnen Terme in Gl. 9.36, so ist f j im Prinzip der absolute Größtfehler Ihres Messverfahrens. Um nun den mittleren Fehler s F für f zu berechnen, gehen wir analog wie oben für a gezeigt vor (siehe Gl. 9.31). m 1
2 f j − f¯ s f = m−1 j=1 m 1
2 = (9.37) fj m−1 j=1
Setzen wir nun f j aus Gl. 9.36 hier ein und multiplizieren aus, so erhalten wir: sf =
⎧ ⎨
m 2 2 1 ¯ c, ¯ c, a j f a (a, ¯ b, ¯ . . . ) + b j f b (a, ¯ b, ¯ ...) + ⎩m − 1 j=1
2 ¯ c, ¯ b, ¯ ...) + ... + c j f c (a, ¯ c, ¯ c, ¯ c, ¯ c, + 2a j b j f a (a, ¯ b, ¯ . . . ) f b (a, ¯ b, ¯ . . . ) + 2a j c j f a (a, ¯ b, ¯ . . . ) f c (a, ¯ b, ¯ . . . )+ #1/2 ¯ c, ¯ c, + 2b j c j f b ( a, ¯ b, ¯ . . . ) f c (a, ¯ b, ¯ ...) + ... (9.38)
Gehen wir nun davon aus, dass sich Summen mit gemischten Produkten wie a j b j nivellieren4 , so erhalten Sie schlussendlich die folgende Gleichung für s f : m m m 1
1 2 1 2 2 2 2 2 s f = fa a j + f b b j + f c c j + . . . m−1 m−1 m−1 j=1 j=1 j=1 (9.39) = f a2 sa2 + f b2 sb2 + f c2 sc2 + . . .
4 Diese Annahme ist bei größeren Messreihen und bei Unabhängigkeit der Messvariablen gerechtfertigt, da a j und b j gleich oft positiv, wie negativ sind, während bspw. a 2j immer positiv
ist.
9.4
Statistische Tabellen
323
Hierin habe ich jeweils den mittleren Fehler bzw. die Standardabweichungen für die Teilgrößen mit sa , sb und sc abgekürzt. Gl. 9.39 bezeichnet man auch als Gauß’sches Fehlerfortpflanzungsgesetz. Der Fehler, den Sie damit bestimmen, sagt Ihnen leider nichts über die Richtigkeit Ihres Ergebnisses aus, sondern lediglich über die Präzision Ihrer Messergebnisse. Zur Bestimmung der Richtigkeit, also der Abweichung Ihres Mittelwertes vom eigentlichen (wahren) Wert, müssten Sie weitere Referenzmessungen mit anderen Methoden heranziehen. Ich habe Ihnen den Weg zur Berechnung des (zufälligen) Fehlers hier etwas detaillierter aufgezeigt, damit Sie es im Abschn. 5.1 zur Regression etwas leichter haben nachzuvollziehen, wie Sie Konfidenzintervalle berechnen.
9.4
Statistische Tabellen
Im Folgenden finden Sie eine Sammlung von für dieses Buch relevanter statistischer Tabellen. Bitte beachten Sie, dass die Werte jeweils von mir selbst berechnet wurden und nicht durch Kopie von anderen Tabellenwerken entnommen wurden. Die Werte sollten aber bis auf die letzte Nachkommastelle mit denen in anderen gängigen Tabellenwerken übereinstimmen. Viele der unten aufgeführten kritischen Werte (Quantile) habe ich durch N -fache Simulation erhalten, wobei N in aller Regel ≥ 107 gewählt wurde, wodurch eine hohe Genauigkeit der Werte sichergestellt ist. Durch die große Wahl von N kann es sogar sein, dass Werte bisweilen genauer sind als entsprechende Literaturwerte, die ebenfalls durch Simulationen erhalten wurden, jedoch mit deutlich kleinerem N . Ein Beispiel sind die kritischen Werte der für den Shapiro-Wilk-Test (vgl. Tab. 9.4). Häufig werden die von Shapiro und Wilk 1965 veröffentlichten W -Werte herangezogen, die jedoch nur mit (für damalige Zeiten großem) N ≤ 5000 bestimmt wurden [2]. Bitte beachten Sie außerdem, dass die kritischen Werte aus den Verteilungen der Teststatistiken bei nicht-parametrischen Tests (z. B. Kruskal-Wallis-Test) nicht exakt für die hier typischen α-Werte bestimmt werden können. Das liegt schlicht und einfach an ihrer diskreten Natur. In solchen Fällen wurden diejenigen kritischen Werte aufgeführt, die den in den Tabellen aufgeführten α-Werten am Nächsten kommen (Tab. 9.3, 9.4, 9.10, 9.16, 9.17, 9.18, 9.19, 9.20, 9.21, 9.22).
324
9 Anhang
Savitzky-Golay-Koeffizienten
Tab. 9.2 Savitzky-Golay-Koeffizienten c j für verschiedene Fensterbreiten M M cj
25
23
21
c−12
−0,049
c−11
−0,027 −0,052
c−10
−0,006 −0,026 −0,056
19
17
15
13
11
9
7
5
c−9
0,012 −0,002 −0,025 −0,060
c−8
0,028
0,019
0,003 −0,023 −0,065
c−7
0,043
0,037
0,027
0,011 −0, 019 −0,071
c−6
0,055
0,053
0,049
0,039
0,022 −0,012 −0,077
c−5
0,066
0,067
0,067
0,064
0,056
0,038
0,000 −0,084
c−4
0,075
0,078
0,081
0,084
0,084
0,079
0,063
0,021 −0,091
c−3
0,082
0,087
0,093
0,099
0,105
0,110
0,112
0,103
0,061 −0,095
c−2
0,086
0,093
0,101
0,110
0,121
0,133
0,147
0,161
0,169
0,143 −0,086
c−1
0,089
0,097
0,106
0,117
0,130
0,147
0,168
0,196
0,234
0,286
0,343
c0
0,090
0,098
0,108
0,119
0,133
0,151
0,175
0,207
0,255
0,333
0,486
c1
0,089
0,097
0,106
0,117
0,130
0,147
0,168
0,196
0,234
0,286
0,343
c2
0,086
0,093
0,101
0,110
0,121
0,133
0,147
0,161
0,169
0,143 −0,086
c3
0,082
0,087
0,093
0,099
0,105
0,110
0,112
0,103
0,061 −0,095
c4
0,075
0,078
0,081
0,084
0,084
0,079
0,063
0,021 −0,091
c5
0,066
0,067
0,067
0,064
0,056
0,038
0,000 −0,084
c6
0,055
0,053
0,049
0,039
0,022 −0, 012 −0,077
c7
0,043
0,037
0,027
0,011 −0, 019 −0,071
c8
0,028
0,019
0,003 −0, 023 −0,065
c9
0,012 −0, 002 −0, 025 −0,060
c10
−0, 006 −0, 026 −0,056
c11
−0, 027 −0,052
c12
−0,049
9.4
Statistische Tabellen
325
Mann-Whitney-Tabellen
Tab. 9.3 Kritische U -Werte für den Mann-Whitney-U -Test nA α
nB
3
4
5
0,1
3
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
–
0
1
2
2
3
4
4
5
5
6
7
7
8
9
9
10
11
0,05
–
–
0
1
1
2
2
3
3
4
4
5
5
6
6
7
7
8
0,025
–
–
–
0
0
1
1
1
2
2
3
3
3
4
4
5
5
5
0,01
–
–
–
–
–
–
0
0
0
1
1
1
2
2
2
2
3
3
0,001
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
0
1
2
3
4
5
6
7
8
9
10
11
12
14
15
16
17
18
0,05
–
0
1
2
3
4
4
5
6
7
8
9
10
11
11
12
13
14
0,025
–
–
0
1
2
2
3
4
4
5
6
7
7
8
9
9
10
11
0,01
–
–
–
0
0
1
1
2
2
3
3
4
5
5
6
6
7
8
0,001
–
–
–
–
–
–
–
–
–
–
0
0
0
1
1
1
2
2
1
2
4
5
6
8
9
11
12
13
15
16
18
19
20
22
23
25
0,05
0
1
2
3
5
6
7
8
9
11
12
13
14
16
17
18
19
20
0,025
–
0
1
2
3
4
5
6
7
8
9
10
11
13
14
15
16
17
0,01
–
–
0
1
1
2
3
4
5
6
7
7
8
9
10
11
12
13
0,001
–
–
–
–
–
–
0
0
1
1
2
2
3
3
4
4
5
5
2
3
5
7
8
10
12
14
16
17
19
21
23
25
26
28
30
32
0,05
1
2
3
5
6
8
10
11
13
14
16
17
19
21
22
24
25
27
0,025
0
1
2
3
5
6
7
9
10
12
13
14
16
17
19
20
21
23
0,01
–
0
1
2
3
4
5
6
7
9
10
11
12
13
15
16
17
18
–
–
–
–
–
0
1
1
2
3
4
5
5
6
7
8
8
9
2
4
6
8
11
13
15
17
19
21
24
26
28
30
33
35
37
39
0,05
1
3
5
6
8
10
12
14
16
18
20
22
24
26
28
30
32
34
0,025
0
2
3
5
6
8
10
12
13
15
17
19
20
22
24
26
27
29
0,01
–
0
1
3
4
6
7
9
10
12
13
15
16
18
19
21
22
24
0,001
–
–
–
–
0
1
2
3
4
5
6
7
8
9
10
11
13
14
0,1
0,1
0,1
4
5
6
0,001 0,1
7
326
9 Anhang
Tab. 9.3 (Fortsetzung) nA α
nB
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
0,1
8
3
5
8
10
13
15
18
20
23
26
28
31
33
36
39
41
44
47
0,05
2
4
6
8
10
13
15
17
19
22
24
26
29
31
34
36
38
41
0,025
1
2
4
6
8
10
12
14
16
18
21
23
25
27
29
31
33
36
0,01
–
1
2
4
6
7
9
11
13
15
17
18
20
22
24
26
28
30
0,001
–
–
–
0
1
2
4
5
6
7
9
10
11
13
14
15
17
18
0,1
9
20
3
5
8
10
13
15
18
20
23
26
28
31
33
36
39
41
44
47
0,05
2
4
6
8
10
13
15
17
19
22
24
26
29
31
34
36
38
41
0,025
1
2
4
6
8
10
12
14
16
18
21
23
25
27
29
31
33
36
0,01
–
1
2
4
6
7
9
11
13
15
17
18
20
22
24
26
28
30
–
–
–
0
1
2
4
5
6
7
9
10
11
13
14
15
17
18
4
7
11
14
17
20
24
27
31
34
37
41
44
48
51
55
58
62
0,05
3
5
8
11
14
17
20
23
26
29
33
36
39
42
45
48
52
55
0,025
1
4
6
9
12
14
17
20
23
26
28
31
34
37
40
43
46
49
0,01
0
2
4
6
9
11
13
16
18
21
24
26
29
31
34
37
39
42
–
–
0
1
3
5
7
8
10
12
14
16
18
20
22
24
26
28
5
8
12
16
19
23
27
31
34
38
42
46
50
54
57
61
65
69
0,05
3
6
9
13
16
19
23
26
30
33
37
40
44
47
51
55
58
62
0,025
2
4
7
10
13
16
19
23
26
29
32
36
39
42
45
49
52
55
0,01
0
2
5
7
10
13
16
18
21
24
27
30
33
36
39
42
45
48
0,001
–
–
1
2
4
6
8
10
12
14
17
19
21
24
26
28
31
33
5
9
13
17
21
26
30
34
38
42
47
51
55
60
64
68
72
77
0,05
4
7
11
14
18
22
26
29
33
37
41
45
49
53
57
61
65
69
0,025
2
5
8
12
15
18
22
26
29
33
36
40
44
47
51
55
58
62
0,01
1
3
6
9
12
15
18
21
24
27
31
34
37
41
44
47
51
54
–
–
1
3
5
7
10
12
15
17
20
22
25
27
30
33
35
38
6
10
15
19
24
28
33
37
42
47
51
56
61
65
70
75
80
84
0,05
4
8
12
16
20
24
28
33
37
41
45
50
54
59
63
67
72
76
0,025
2
6
9
13
17
21
24
28
32
36
40
44
48
52
57
61
65
69
0,01
1
3
7
10
13
17
20
24
27
31
34
38
42
45
49
53
57
60
0,001
–
0
2
4
6
9
11
14
17
20
22
25
28
31
34
37
40
43
0,001 0,1
10
0,001 0,1
0,1
11
12
0,001 0,1
13
9.4
Statistische Tabellen
327
Tab. 9.3 (Fortsetzung) nA α
nB
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
0,1
14
7
11
16
21
26
31
36
41
46
51
56
61
66
71
76
82
87
92
0,05
5
9
13
17
22
26
31
36
40
45
50
55
59
64
69
74
78
83
0,025
3
7
10
14
19
23
27
31
36
40
44
49
53
58
62
67
71
76
0,01
1
4
7
11
15
18
22
26
30
34
38
42
46
50
54
58
63
67
0,001
–
0
2
5
7
10
13
16
19
22
25
29
32
35
39
42
45
49
0,1
7
12
18
23
28
33
39
44
50
55
61
66
72
77
83
88
94
100
0,05
15
5
10
14
19
24
29
34
39
44
49
54
59
64
70
75
80
85
90
0,025
3
7
11
16
20
25
29
34
39
44
48
53
58
63
68
73
77
82
0,01
2
5
8
12
16
20
24
29
33
37
42
46
51
55
60
64
68
73
–
0
3
5
8
11
15
18
21
25
28
32
35
39
43
47
50
54
8
14
19
25
30
36
42
48
54
60
65
71
77
83
89
95
101 107
0,05
6
11
16
21
26
31
37
42
48
53
59
64
70
75
81
86
92
0,025
4
8
13
17
22
27
32
37
42
47
52
58
63
68
73
79
84
89
0,01
2
5
9
13
18
22
27
31
36
41
45
50
55
60
65
70
74
79
–
1
3
6
9
13
16
20
24
27
31
35
39
43
47
51
55
59
9
15
20
26
33
39
45
51
57
64
70
77
83
89
96
102 109 115
0,05
6
11
17
22
28
34
39
45
51
57
63
69
75
81
87
93
99
105
0,025
4
9
14
19
24
29
35
40
45
51
57
62
68
73
79
85
90
96
0,01
2
6
10
15
19
24
29
34
39
44
49
54
60
65
70
75
80
86
0,001
–
1
4
7
10
14
18
22
26
30
34
38
43
47
52
56
60
65
9
16
22
28
35
41
48
55
61
68
75
82
88
95
102 109 116 123
0,05
7
12
18
24
30
36
42
48
55
61
67
74
80
86
93
99
106 112
0,025
5
9
15
20
26
31
37
43
49
55
61
67
73
79
85
91
97
103
0,01
2
6
11
16
21
26
31
37
42
47
53
58
64
70
75
81
87
92
0,001
–
1
4
8
11
15
20
24
28
33
37
42
47
51
56
61
65
70
10
17
23
30
37
44
51
58
65
72
80
87
94
101 109 116 123 130
0,05
7
13
19
25
32
38
45
52
58
65
72
78
85
92
99
106 113 119
0,025
5
10
16
21
27
33
40
46
52
58
65
71
77
84
90
97
103 110
0,01
3
7
12
17
22
28
33
39
45
51
57
63
69
75
81
87
93
99
–
2
5
9
12
17
21
26
31
35
40
45
50
55
60
65
70
76
11
18
25
32
39
47
54
62
69
77
84
92
100 107 115 123 130 138
0,05
8
14
20
27
34
41
48
55
62
69
76
83
90
98
105 112 119 127
0,025
5
11
17
23
29
36
42
49
55
62
69
76
82
89
96
103 110 117
0,01
3
8
13
18
24
30
36
42
48
54
60
67
73
79
86
92
99
105
0,001
–
2
5
9
14
18
23
28
33
38
43
49
54
59
65
70
76
81
0,001 0,1
16
0,001 0,1
0,1
0,1
17
18
19
0,001 0,1
20
98
328
9 Anhang
Shapiro-Wilk-Test Kritische W -Werte Shapiro-Wilk-Test Shapiro-Wilk-Koeffizienten
Tab. 9.4 Kritische W -Werte für den Shapiro-Wilk Test 0,01
0,025
0,05
0,1
α 0,9
n
0,001
0,95
0,975
0,99
0,999
3
0,7505 0,7545 0,7613 0,7724 0,7939 0,9973 0,9993 0,9998 1,0000 1,0000
4
0,6500 0,6925 0,7269 0,7604 0,7995 0,9834 0,9917 0,9958 0,9983 0,9998
5
0,6235 0,7002 0,7429 0,7772 0,8130 0,9753 0,9844 0,9902 0,9947 0,9988
6
0,6289 0,7194 0,7605 0,7933 0,8275 0,9721 0,9808 0,9864 0,9914 0,9973
7
0,6447 0,7376 0,7778 0,8086 0,8402 0,9709 0,9791 0,9846 0,9894 0,9958
8
0,6651 0,7553 0,7931 0,8222 0,8518 0,9706 0,9784 0,9836 0,9883 0,9946
9
0,6825 0,7709 0,8070 0,8343 0,8618 0,9710 0,9782 0,9831 0,9876 0,9938
10
0,6992 0,7850 0,8191 0,8448 0,8705 0,9716 0,9783 0,9830 0,9873 0,9933
11
0,7152 0,7973 0,8299 0,8541 0,8782 0,9723 0,9786 0,9830 0,9871 0,9929
12
0,7305 0,8087 0,8396 0,8623 0,8850 0,9731 0,9790 0,9832 0,9871 0,9927
13
0,7438 0,8186 0,8478 0,8695 0,8910 0,9739 0,9794 0,9834 0,9872 0,9926
14
0,7561 0,8276 0,8555 0,8761 0,8964 0,9747 0,9799 0,9837 0,9873 0,9925
15
0,7672 0,8359 0,8624 0,8820 0,9014 0,9755 0,9804 0,9841 0,9875 0,9925
16
0,7771 0,8433 0,8686 0,8873 0,9058 0,9762 0,9809 0,9844 0,9877 0,9925
17
0,7860 0,8500 0,8743 0,8921 0,9097 0,9769 0,9814 0,9847 0,9879 0,9925
18
0,7952 0,8564 0,8795 0,8966 0,9134 0,9776 0,9819 0,9851 0,9881 0,9926
19
0,8018 0,8619 0,8842 0,9007 0,9169 0,9782 0,9824 0,9854 0,9883 0,9927
20
0,8092 0,8670 0,8885 0,9043 0,9199 0,9788 0,9828 0,9857 0,9885 0,9927
21
0,8170 0,8719 0,8926 0,9078 0,9228 0,9794 0,9832 0,9860 0,9887 0,9928
22
0,8232 0,8764 0,8963 0,9110 0,9255 0,9800 0,9836 0,9863 0,9889 0,9929
23
0,8294 0,8807 0,9000 0,9141 0,9280 0,9805 0,9840 0,9866 0,9892 0,9930
24
0,8344 0,8845 0,9032 0,9168 0,9302 0,9810 0,9844 0,9869 0,9893 0,9931
25
0,8396 0,8880 0,9062 0,9194 0,9324 0,9814 0,9847 0,9872 0,9896 0,9932
26
0,8447 0,8915 0,9090 0,9219 0,9345 0,9819 0,9851 0,9874 0,9898 0,9933
27
0,8491 0,8945 0,9116 0,9242 0,9363 0,9823 0,9854 0,9877 0,9899 0,9934
28
0,8533 0,8977 0,9142 0,9262 0,9381 0,9827 0,9857 0,9879 0,9901 0,9935
29
0,8576 0,9005 0,9165 0,9283 0,9398 0,9831 0,9860 0,9882 0,9903 0,9936
9.4
Statistische Tabellen
329
Tab. 9.4 (Fortsetzung) 0,01
0,025
0,05
α 0,9
n
0,001
0,1
0,95
0,975
0,99
0,999
30
0,8611 0,9031 0,9188 0,9302 0,9414 0,9834 0,9863 0,9884 0,9905 0,9937
31
0,8651 0,9058 0,9209 0,9320 0,9429 0,9838 0,9866 0,9886 0,9906 0,9938
32
0,8686 0,9081 0,9229 0,9338 0,9443 0,9841 0,9868 0,9888 0,9908 0,9939
33
0,8721 0,9104 0,9248 0,9353 0,9456 0,9845 0,9871 0,9890 0,9909 0,9939
34
0,8749 0,9125 0,9266 0,9369 0,9469 0,9848 0,9873 0,9892 0,9911 0,9940
35
0,8774 0,9146 0,9283 0,9383 0,9482 0,9851 0,9876 0,9894 0,9912 0,9941
36
0,8807 0,9165 0,9299 0,9397 0,9493 0,9853 0,9878 0,9896 0,9914 0,9942
37
0,8832 0,9184 0,9314 0,9410 0,9504 0,9856 0,9880 0,9898 0,9915 0,9943
38
0,8855 0,9203 0,9330 0,9423 0,9515 0,9859 0,9882 0,9899 0,9917 0,9943
39
0,8883 0,9219 0,9344 0,9436 0,9525 0,9861 0,9884 0,9901 0,9918 0,9944
40
0,8905 0,9235 0,9357 0,9447 0,9535 0,9864 0,9886 0,9903 0,9919 0,9945
41
0,8930 0,9252 0,9371 0,9458 0,9544 0,9866 0,9888 0,9904 0,9920 0,9946
42
0,8948 0,9266 0,9383 0,9469 0,9553 0,9868 0,9890 0,9906 0,9921 0,9946
43
0,8973 0,9280 0,9395 0,9479 0,9561 0,9870 0,9892 0,9907 0,9923 0,9947
44
0,8990 0,9294 0,9407 0,9489 0,9569 0,9872 0,9893 0,9908 0,9924 0,9948
45
0,9010 0,9307 0,9417 0,9498 0,9577 0,9874 0,9895 0,9910 0,9925 0,9948
46
0,9030 0,9321 0,9428 0,9507 0,9585 0,9877 0,9896 0,9911 0,9926 0,9949
47
0,9043 0,9332 0,9438 0,9516 0,9592 0,9878 0,9898 0,9912 0,9927 0,9949
48
0,9064 0,9344 0,9448 0,9524 0,9599 0,9880 0,9899 0,9914 0,9928 0,9950
49
0,9080 0,9356 0,9457 0,9532 0,9606 0,9882 0,9901 0,9915 0,9929 0,9951
50
0,9093 0,9367 0,9467 0,9540 0,9612 0,9884 0,9902 0,9916 0,9930 0,9951
Tab. 9.5 Shapiro-Wilk-Koeffizienten ai für n = 2 . . . 10 n i
2
3
4
5
6
7
8
9
10
1
0,7071
0,7071
0,6872
0,6646
0,6431
0,6233
0,6052
0,5888
0,5739
2
–
0
0,1677
0,2413
0,2806
0,3031
0,3164
0,3244
0,3291
3
–
–
–
0
0,0875
0,1401
0,1743
0,1976
0,2141
4
–
–
–
–
–
0
0,0561
0,0947
0,1224
5
–
–
–
–
–
–
–
0
0,0399
330
9 Anhang
Tab. 9.6 Shapiro-Wilk-Koeffizienten ai für n = 11...20 12
13
14
11
1
0,5601 0,5475 0,5359 0,5251 0,515
2
0,3315 0,3325 0,3325 0,3318 0,3306 0,329
3
0,226
4
0,1429 0,1586 0,1707 0,1802 0,1878 0,1939 0,1988 0,2027 0,2059 0,2085
5
0,0695 0,0922 0,1099 0,124
6
0
0,0303 0,0539 0,0727 0,088
7
–
–
0
0,024
0,0433 0,0593 0,0725 0,0837 0,0932 0,1013
8
–
–
–
–
0
0,0196 0,0359 0,0496 0,0612 0,0711
9
–
–
–
–
–
–
0
0,0163 0,0303 0,0422
10
–
–
–
–
–
–
–
–
0
0,014
27
28
29
30
0,2347 0,2412 0,246
15
n 16
i
17
18
19
20
0,5056 0,4968 0,4886 0,4808 0,4734 0,3273 0,3253 0,3232 0,3211
0,2495 0,2521 0,254
0,2553 0,2561 0,2565
0,1353 0,1447 0,1524 0,1587 0,1641 0,1686 0,1005 0,1109 0,1197 0,1271 0,1334
Tab. 9.7 Shapiro-Wilk-Koeffizienten ai für n = 21...30 22
23
24
25
n 26
i
21
1
0,4643 0,459
2
0,3185 0,3156 0,3126 0,3098 0,3069 0,3043 0,3018 0,2992 0,2968 0,2944
3
0,2578 0,2571 0,2563 0,2554 0,2543 0,2533 0,2522 0,251
4
0,2119 0,2131 0,2139 0,2145 0,2148 0,2151 0,2152 0,2151 0,215
5
0,1736 0,1764 0,1787 0,1807 0,1822 0,1836 0,1848 0,1857 0,1864 0,187
6
0,1399 0,1443 0,148
7
0,1092 0,115
8
0,0804 0,0878 0,0941 0,0997 0,1046 0,1089 0,1128 0,1162 0,1192 0,1219
9
0,053
10
0,0263 0,0368 0,0459 0,0539 0,061
11
0
0,0122 0,0228 0,0321 0,0403 0,0476 0,054
12
–
–
0
0,0107 0,02
0,0284 0,0358 0,0424 0,0483 0,0537
13
–
–
–
–
0
0,0094 0,0178 0,0253 0,032
14
–
–
–
–
–
–
0
0,0084 0,0159 0,0227
15
–
–
–
–
–
–
–
–
0,4542 0,4493 0,445
0,4407 0,4366 0,4328 0,4291 0,4254 0,2499 0,2487 0,2148
0,1512 0,1539 0,1563 0,1584 0,1601 0,1616 0,163
0,1201 0,1245 0,1283 0,1316 0,1346 0,1372 0,1395 0,1415
0,0618 0,0696 0,0764 0,0823 0,0876 0,0923 0,0965 0,1002 0,1036 0,0672 0,0728 0,0778 0,0822 0,0862 0,0598 0,065
0
0,0697 0,0381 0,0076
9.4
Statistische Tabellen
331
Tab. 9.8 Shapiro-Wilk-Koeffizienten ai für n = 31...40 33
34
35
n 36
i
31
32
1
0,422
0,4188 0,4156 0,4127 0,4096 0,4068 0,404
2
0,2921 0,2898 0,2876 0,2854 0,2834 0,2813 0,2794 0,2774 0,2755 0,2737
3
0,2475 0,2463 0,2451 0,2439 0,2427 0,2415 0,2403 0,2391 0,238
4
0,2145 0,2141 0,2137 0,2132 0,2127 0,2121 0,2116 0,211
5
0,1874 0,1878 0,188
0,1882 0,1883 0,1883 0,1883 0,1881 0,188
6
0,1641 0,1651 0,166
0,1667 0,1673 0,1678 0,1683 0,1686 0,1689 0,1691
7
0,1433 0,1449 0,1463 0,1475 0,1487 0,1496 0,1505 0,1513 0,152
8
0,1243 0,1265 0,1284 0,1301 0,1317 0,1331 0,1344 0,1356 0,1366 0,1376
9
0,1066 0,1093 0,1118 0,114
10
0,0899 0,0931 0,0961 0,0988 0,1013 0,1036 0,1056 0,1075 0,1092 0,1108
11
0,0739 0,0777 0,0812 0,0844 0,0873 0,09
0,0924 0,0947 0,0967 0,0986
12
0,0585 0,0629 0,0669 0,0706 0,0739 0,077
0,0798 0,0824 0,0848 0,087
13
0,0435 0,0485 0,053
14
0,0289 0,0344 0,0395 0,0441 0,0484 0,0523 0,0559 0,0592 0,0622 0,0651
15
0,0144 0,0206 0,0262 0,0314 0,0361 0,0404 0,0444 0,0481 0,0515 0,0546
16
0
0,0068 0,0131 0,0187 0,0239 0,0287 0,0331 0,0372 0,0409 0,0444
17
–
–
0
0,0062 0,0119 0,0172 0,022
0,0264 0,0305 0,0343
18
–
–
–
–
0
0,0057 0,011
0,0158 0,0203 0,0244
19
–
–
–
–
–
–
0
0,0053 0,0101 0,0146
20
–
–
–
–
–
–
–
–
0,116
0,0572 0,061
37
38
39
40
0,4015 0,3989 0,3964 0,2368
0,2104 0,2098 0,1878 0,1526
0,1179 0,1196 0,1211 0,1225 0,1237
0,0645 0,0677 0,0706 0,0733 0,0759
0
0,0049
332
9 Anhang
Tab. 9.9 Shapiro-Wilk-Koeffizienten ai für n = 41...50 43
44
45
n 46
i
41
42
1
0,394
0,3917 0,3894 0,3872 0,385
2
0,2719 0,2701 0,2684 0,2667 0,2651 0,2635 0,262
3
0,2357 0,2345 0,2334 0,2323 0,2313 0,2302 0,2291 0,2281 0,2271 0,226
4
0,2091 0,2085 0,2078 0,2072 0,2065 0,2058 0,2052 0,2045 0,2038 0,2032
5
0,1876 0,1874 0,1871 0,1868 0,1865 0,1862 0,1859 0,1855 0,1851 0,1847
6
0,1693 0,1694 0,1695 0,1695 0,1695 0,1695 0,1695 0,1693 0,1692 0,1691
7
0,1531 0,1535 0,1539 0,1542 0,1545 0,1548 0,155
0,1551 0,1553 0,1554
8
0,1384 0,1392 0,1398 0,1405 0,141
0,1423 0,1427 0,143
9
0,1249 0,1259 0,1269 0,1278 0,1286 0,1293 0,13
10
0,1123 0,1136 0,1149 0,116
11
0,1004 0,102
12
0,0891 0,0909 0,0927 0,0943 0,0959 0,0972 0,0986 0,0998 0,101
13
0,0782 0,0804 0,0824 0,0842 0,086
14
0,0677 0,0701 0,0724 0,0745 0,0765 0,0783 0,0801 0,0817 0,0832 0,0846
15
0,0575 0,0602 0,0628 0,0651 0,0673 0,0694 0,0713 0,0731 0,0748 0,0764
16
0,0476 0,0506 0,0534 0,056
17
0,0379 0,0411 0,0442 0,0471 0,0497 0,0522 0,0546 0,0568 0,0588 0,0608
18
0,0283 0,0318 0,0352 0,0383 0,0412 0,0439 0,0465 0,0489 0,0511 0,0532
19
0,0188 0,0227 0,0263 0,0296 0,0328 0,0357 0,0385 0,0411 0,0436 0,0459
20
0,0094 0,0136 0,0175 0,0211 0,0245 0,0277 0,0307 0,0335 0,0361 0,0386
21
0
0,0045 0,0087 0,0126 0,0163 0,0197 0,0229 0,0259 0,0288 0,0314
22
–
–
0
0,0042 0,0081 0,0118 0,0153 0,0185 0,0215 0,0244
23
–
–
–
–
0
0,0039 0,0076 0,0111 0,0143 0,0174
24
–
–
–
–
–
–
0
0,0037 0,0071 0,0104
25
–
–
–
–
–
–
–
–
0,117
0,383
47
49
0,3808 0,3789 0,377
0,1415 0,142 0,118
48
50 0,3751
0,2604 0,2589 0,2574
0,1306 0,1312 0,1317
0,1189 0,1197 0,1205 0,1212
0,1035 0,1049 0,1062 0,1073 0,1085 0,1095 0,1105 0,1113 0,102
0,0876 0,0892 0,0906 0,0919 0,0932
0,0584 0,0607 0,0628 0,0648 0,0667 0,0685
0
0,0035
9.4
Statistische Tabellen
333
Filliben-Test
Tab. 9.10 Kritische Werte für den Filliben-Test α n
0,1
0,05
0,025
0,01
0,001
1
0,9986
0,9997
0,9999
1,0000
1,0000
2
0,9917
0,9958
0,9979
0,9992
0,9999
3
0,9875
0,9921
0,9950
0,9973
0,9994
4
0,9863
0,9904
0,9932
0,9957
0,9986
5
0,9861
0,9898
0,9923
0,9947
0,9979
6
0,9862
0,9896
0,9920
0,9942
0,9973
7
0,9865
0,9896
0,9918
0,9939
0,9969
8
0,9870
0,9898
0,9919
0,9938
0,9966
9
0,9874
0,9901
0,9920
0,9938
0,9965
10
0,9879
0,9904
0,9921
0,9938
0,9964
11
0,9883
0,9906
0,9923
0,9939
0,9964
12
0,9887
0,9909
0,9925
0,9940
0,9963
13
0,9891
0,9912
0,9927
0,9941
0,9964
14
0,9895
0,9915
0,9929
0,9943
0,9964
15
0,9898
0,9917
0,9931
0,9944
0,9965
16
0,9901
0,9920
0,9933
0,9945
0,9965
17
0,9904
0,9922
0,9934
0,9947
0,9965
18
0,9907
0,9924
0,9936
0,9948
0,9966
19
0,9910
0,9926
0,9938
0,9949
0,9966
20
0,9912
0,9928
0,9939
0,9950
0,9967
21
0,9915
0,9930
0,9941
0,9951
0,9967
22
0,9917
0,9932
0,9942
0,9952
0,9968
23
0,9919
0,9933
0,9943
0,9953
0,9968
24
0,9921
0,9935
0,9945
0,9954
0,9969
25
0,9923
0,9936
0,9946
0,9955
0,9970
334
9 Anhang
Tab. 9.10 (Fortsetzung) α n
0,1
0,05
0,025
0,01
0,001
26
0,9925
0,9938
0,9947
0,9956
0,9970
27
0,9927
0,9939
0,9948
0,9957
0,9971
28
0,9928
0,9940
0,9949
0,9958
0,9971
29
0,9930
0,9942
0,9950
0,9958
0,9971
30
0,9931
0,9943
0,9951
0,9959
0,9972
31
0,9933
0,9944
0,9952
0,9960
0,9972
32
0,9934
0,9945
0,9953
0,9961
0,9973
33
0,9935
0,9946
0,9954
0,9961
0,9973
34
0,9937
0,9947
0,9955
0,9962
0,9974
35
0,9938
0,9948
0,9955
0,9963
0,9974
36
0,9939
0,9949
0,9956
0,9963
0,9974
37
0,9940
0,9950
0,9957
0,9964
0,9975
38
0,9941
0,9951
0,9958
0,9964
0,9975
39
0,9942
0,9952
0,9958
0,9965
0,9975
40
0,9943
0,9952
0,9959
0,9966
0,9976
41
0,9944
0,9953
0,9960
0,9966
0,9976
42
0,9945
0,9954
0,9960
0,9967
0,9977
43
0,9946
0,9955
0,9961
0,9967
0,9977
44
0,9947
0,9955
0,9961
0,9968
0,9977
45
0,9947
0,9956
0,9962
0,9968
0,9977
46
0,9948
0,9957
0,9963
0,9968
0,9978
47
0,9949
0,9957
0,9963
0,9969
0,9978
48
0,9950
0,9958
0,9964
0,9969
0,9978
49
0,9951
0,9958
0,9964
0,9970
0,9978
50
0,9951
0,9959
0,9965
0,9970
0,9979
51
0,9952
0,9960
0,9965
0,9970
0,9979
52
0,9953
0,9960
0,9966
0,9971
0,9979
53
0,9953
0,9961
0,9966
0,9971
0,9979
9.4
Statistische Tabellen
335
Tab. 9.10 (Fortsetzung) α n
0,1
0,05
0,025
0,01
0,001
54
0,9954
0,9961
0,9966
0,9972
0,9980
55
0,9954
0,9962
0,9967
0,9972
0,9980
56
0,9955
0,9962
0,9967
0,9972
0,9980
57
0,9956
0,9963
0,9968
0,9973
0,9980
58
0,9956
0,9963
0,9968
0,9973
0,9981
59
0,9957
0,9963
0,9968
0,9973
0,9981
60
0,9957
0,9964
0,9969
0,9973
0,9981
61
0,9958
0,9964
0,9969
0,9974
0,9981
62
0,9958
0,9965
0,9969
0,9974
0,9981
63
0,9959
0,9965
0,9970
0,9974
0,9982
64
0,9959
0,9965
0,9970
0,9975
0,9982
65
0,9960
0,9966
0,9970
0,9975
0,9982
66
0,9960
0,9966
0,9971
0,9975
0,9982
67
0,9960
0,9967
0,9971
0,9975
0,9982
68
0,9961
0,9967
0,9971
0,9976
0,9982
69
0,9961
0,9967
0,9972
0,9976
0,9983
70
0,9962
0,9968
0,9972
0,9976
0,9983
71
0,9962
0,9968
0,9972
0,9976
0,9983
72
0,9963
0,9968
0,9973
0,9977
0,9983
73
0,9963
0,9969
0,9973
0,9977
0,9983
74
0,9963
0,9969
0,9973
0,9977
0,9983
75
0,9964
0,9969
0,9973
0,9977
0,9984
76
0,9964
0,9970
0,9974
0,9978
0,9984
77
0,9964
0,9970
0,9974
0,9978
0,9984
78
0,9965
0,9970
0,9974
0,9978
0,9984
79
0,9965
0,9970
0,9974
0,9978
0,9984
80
0,9965
0,9971
0,9974
0,9978
0,9984
336
9 Anhang
Tab. 9.10 (Fortsetzung) α n
0,1
0,05
0,025
0,01
0,001
81
0,9966
0,9971
0,9975
0,9978
0,9984
82
0,9966
0,9971
0,9975
0,9979
0,9984
83
0,9966
0,9971
0,9975
0,9979
0,9985
84
0,9967
0,9972
0,9975
0,9979
0,9985
85
0,9967
0,9972
0,9976
0,9979
0,9985
86
0,9967
0,9972
0,9976
0,9979
0,9985
87
0,9967
0,9972
0,9976
0,9980
0,9985
88
0,9968
0,9973
0,9976
0,9980
0,9985
89
0,9968
0,9973
0,9976
0,9980
0,9985
90
0,9968
0,9973
0,9977
0,9980
0,9985
91
0,9969
0,9973
0,9977
0,9980
0,9986
92
0,9969
0,9974
0,9977
0,9980
0,9986
93
0,9969
0,9974
0,9977
0,9980
0,9986
94
0,9969
0,9974
0,9977
0,9981
0,9986
95
0,9970
0,9974
0,9978
0,9981
0,9986
96
0,9970
0,9974
0,9978
0,9981
0,9986
97
0,9970
0,9975
0,9978
0,9981
0,9986
98
0,9970
0,9975
0,9978
0,9981
0,9986
99
0,9970
0,9975
0,9978
0,9981
0,9986
100
0,9970
0,9975
0,9978
0,9981
0,9986
9.4
Statistische Tabellen
337
Dixon-Q-Test
Tab. 9.11 Kritische Q-Werte für den (einseitigen) Dixon-Q-Test. Bitte beachten Sie, dass die Werte in dieser Tabelle die Fallunterscheidungen in Gl. 3.95 bereits berücksichtigen α n
0,1
0,05
0,025
0,01
0,001
3
0,8855
0,9411
0,9701
0,9880
0,9988
4
0,6786
0,7655
0,8298
0,8893
0,9638
5
0,5581
0,6424
0,7098
0,7810
0,8935
6
0,4840
0,5625
0,6276
0,6985
0,8232
7
0,4341
0,5074
0,5691
0,6375
0,7635
8
0,4794
0,5539
0,6148
0,6808
0,7967
9
0,4402
0,5112
0,5699
0,6344
0,7518
10
0,4101
0,4782
0,5349
0,5973
0,7133
11
0,5173
0,5748
0,6224
0,6745
0,7709
12
0,4898
0,5457
0,5921
0,6432
0,7390
13
0,4667
0,5212
0,5666
0,6167
0,7125
14
0,4907
0,5455
0,5907
0,6406
0,7330
15
0,4703
0,5240
0,5686
0,6178
0,7099
16
0,4527
0,5055
0,5493
0,5977
0,6891
17
0,4373
0,4891
0,5323
0,5799
0,6709
18
0,4238
0,4747
0,5172
0,5645
0,6550
19
0,4115
0,4616
0,5037
0,5505
0,6400
20
0,4007
0,4501
0,4916
0,5377
0,6260
21
0,3909
0,4395
0,4805
0,5263
0,6138
22
0,3820
0,4300
0,4705
0,5155
0,6024
23
0,3737
0,4211
0,4613
0,5061
0,5924
24
0,3664
0,4133
0,4528
0,4975
0,5831
25
0,3594
0,4058
0,4451
0,4893
0,5745
26
0,3531
0,3989
0,4377
0,4815
0,5659
27
0,3471
0,3927
0,4311
0,4743
0,5582
28
0,3416
0,3865
0,4248
0,4679
0,5515
29
0,3364
0,3810
0,4189
0,4617
0,5443
30
0,3316
0,3757
0,4135
0,4558
0,5380
338
9 Anhang
Jarque-Bera-Test
Tab. 9.12 Kritische Werte für den (einseitigen) Jarque-Bera-Test für verschiedene Anzahl Datenpunkte n und verschiedene Signifikanzniveaus α. Für n > 2000 kann die χ 2 -Verteilung mit zwei Freiheitsgraden herangezogen werden α n
0,1
5
0,9443
10
1,6216
15
2,0530
20
2,3490
25 30
0,05
0,025
0,01
0,001
1,2188
1,4347
1,6280
1,8288
2,5233
3,7510
5,7143
10,9627
3,2980
5,0705
8,2417
19,4951
3,7923
5,8810
9,7536
24,9842
2,5691
4,1495
6,4467
10,7248
28,4817
2,7418
4,4010
6,8221
11,3118
30,5412
35
2,8861
4,6077
7,1119
11,7737
31,9743
40
3,0002
4,7475
7,2920
12,0308
32,6162
45
3,0977
4,8716
7,4556
12,2439
33,4052
50
3,1800
4,9666
7,5615
12,3693
33,6011
100
3,6753
5,4425
7,9756
12,5403
31,8159
200
4,0335
5,6839
7,9306
11,883
27,5258
500
4,3317
5,8563
7,6924
10,761
21,863
1000
4,4602
5,928
7,5645
10,083
18,5999
1500
4,5051
5,9496
7,5143
9,8462
17,3176
2000
4,5270
5,9606
7,4810
9,6920
16,5762
9.4
Statistische Tabellen
339
Kolmogorov-Smirnov-Test
Tab. 9.13 Kritische Werte für den Kolmogorov-Smirnov-Test α n
0,1
0,05
0,025
0,01
0,001
1
0,9502
0,9751
0,9875
0,9950
0,9995
2
0,7762
0,8418
0,8880
0,9292
0,9773
3
0,6358
0,7073
0,7679
0,8289
0,9211
4
0,5652
0,6242
0,6738
0,7340
0,8506
5
0,5093
0,5631
0,6124
0,6682
0,7824
6
0,4680
0,5193
0,5640
0,6167
0,7261
7
0,4359
0,4831
0,5252
0,5753
0,6793
8
0,4097
0,4544
0,4943
0,5414
0,6403
9
0,3873
0,4298
0,4678
0,5131
0,6088
10
0,3687
0,4092
0,4454
0,4884
0,5805
11
0,3523
0,3912
0,4259
0,4676
0,5557
12
0,3382
0,3753
0,4090
0,4493
0,5343
13
0,3256
0,3615
0,3937
0,4321
0,5158
14
0,3142
0,3489
0,3802
0,4176
0,4978
15
0,3041
0,3377
0,3682
0,4045
0,4826
16
0,2948
0,3275
0,3569
0,3922
0,4680
17
0,2862
0,3179
0,3466
0,3808
0,4552
18
0,2785
0,3093
0,3374
0,3711
0,4429
19
0,2712
0,3013
0,3285
0,3611
0,4309
20
0,2648
0,2940
0,3205
0,3522
0,4198
21
0,2585
0,2872
0,3133
0,3445
0,4119
22
0,2528
0,2808
0,3061
0,3367
0,4016
23
0,2473
0,2747
0,2997
0,3295
0,3938
24
0,2424
0,2692
0,2935
0,3231
0,3866
25
0,2377
0,2640
0,2878
0,3164
0,3783
26
0,2331
0,2589
0,2824
0,3106
0,3708
27
0,2291
0,2544
0,2775
0,3052
0,3655
28
0,2249
0,2499
0,2726
0,2999
0,3590
29
0,2211
0,2458
0,2681
0,2948
0,3534
30
0,2175
0,2415
0,2635
0,2899
0,3470
340
9 Anhang
Tab. 9.13 (Fortsetzung) α n
0,1
0,05
0,025
0,01
0,001
31
0,2141
0,2378
0,2593
0,2854
0,3413
32
0,2110
0,2343
0,2555
0,2811
0,3359
33
0,2077
0,2308
0,2517
0,2769
0,3318
34
0,2047
0,2274
0,2481
0,2727
0,3260
35
0,2019
0,2242
0,2445
0,2688
0,3215
36
0,1991
0,2212
0,2414
0,2655
0,3179
37
0,1964
0,2182
0,2380
0,2617
0,3134
38
0,1940
0,2155
0,2350
0,2586
0,3092
39
0,1915
0,2127
0,2319
0,2551
0,3046
40
0,1891
0,2102
0,2290
0,2518
0,3015
41
0,1868
0,2075
0,2264
0,2490
0,2979
42
0,1848
0,2053
0,2238
0,2460
0,2947
43
0,1826
0,2028
0,2212
0,2432
0,2909
44
0,1805
0,2006
0,2187
0,2407
0,2886
45
0,1785
0,1984
0,2165
0,2381
0,2851
46
0,1766
0,1963
0,2141
0,2353
0,2819
47
0,1748
0,1941
0,2117
0,2329
0,2787
48
0,1730
0,1923
0,2098
0,2308
0,2765
49
0,1713
0,1902
0,2074
0,2282
0,2735
50
0,1696 √ 1,2239/ n
0,1886
0,2056
0,2261
0,2706
>50
√ 1,3581/ n
√ 1,4909/ n
√ 1,6276/ n
√ 1,9495/ n
9.4
Statistische Tabellen
341
D’Agostino-Pearson-Test
Tab. 9.14 Kritische Wert für den D’Agostino-Pearson-Test α n
0,1
0,05
0,025
0,01
0,001
5
5,1865
7,2645
7,6816
8,0854
8,5606
10
4,3659
6,6044
9,2924
12,9792
21,0961
15
4,4072
6,4260
8,7982
12,2661
20,7192
20
4,4515
6,3874
8,6209
11,9040
20,4578
25
4,4909
6,3873
8,5593
11,7484
20,3240
30
4,5207
6,3891
8,5158
11,6306
20,2495
35
4,5392
6,3819
8,4698
11,5367
20,0705
40
4,5515
6,3803
8,4468
11,4792
19,9884
45
4,5621
6,3678
8,4134
11,4101
19,8478
50
4,5673
6,3581
8,3863
11,3618
19,7853
100
4,5916
6,2654
8,1555
10,9325
19,1411
200
4,5895
6,1557
7,8843
10,418
17,971
500
4,5898
6,0683
7,6283
9,8557
16,4214
1000
4,5969
6,0357
7,5273
9,5808
15,3855
1500
4,5962
6,0219
7,4788
9,4708
14,9852
2000
4,6017
6,0161
7,4599
9,4164
14,6986
342
9 Anhang
Grubbs-Test
Tab. 9.15 Kritische Werte für den (einseitigen) Grubbs-Test α n
0,1
0,05
0,025
0,01
0,001
3
1,1484
1,1531
1,1543
1,1546
1,1547
4
1,4249
1,4624
1,4812
1,4925
1,4992
5
1,6015
1,6712
1,7150
1,7488
1,7802
6
1,7290
1,8223
1,8874
1,9442
2,0106
7
1,8281
1,9383
2,0201
2,0971
2,2003
8
1,9089
2,0317
2,1267
2,2204
2,3584
9
1,9771
2,1095
2,2151
2,3232
2,4922
10
2,0360
2,1761
2,2904
2,4102
2,6066
11
2,0877
2,2333
2,3543
2,4841
2,7028
12
2,1341
2,2850
2,4117
2,5495
2,7905
13
2,1757
2,3306
2,4623
2,6070
2,8667
14
2,2133
2,3719
2,5074
2,6589
2,9359
15
2,2475
2,4086
2,5480
2,7043
2,9957
16
2,2789
2,4428
2,5850
2,7466
3,0515
17
2,3082
2,4740
2,6190
2,7840
3,1027
18
2,3358
2,5043
2,6516
2,8210
3,1474
19
2,3618
2,5318
2,6816
2,8539
3,1912
20
2,3849
2,5569
2,7087
2,8833
3,2283
21
2,4072
2,5803
2,7336
2,9114
3,2680
22
2,4285
2,6029
2,7577
2,9383
3,3032
23
2,4487
2,6244
2,7804
2,9634
3,3311
24
2,4672
2,6438
2,8014
2,9868
3,3626
25
2,4847
2,6619
2,8213
3,0086
3,3908
26
2,5023
2,6810
2,8414
3,0317
3,4174
27
2,5189
2,6973
2,8580
3,0485
3,4370
28
2,5342
2,7136
2,8756
3,0668
3,4639
29
2,5492
2,7295
2,8924
3,0859
3,4870
30
2,5637
2,7447
2,9083
3,1029
3,5073
9.4
Statistische Tabellen
343
Tab. 9.15 (Fortsetzung) α n
0,1
0,05
0,025
0,01
0,001
31
2,5774
2,7595
2,9235
3,1190
3,5263
32
2,5907
2,7726
2,9379
3,1339
3,5464
33
2,6040
2,7867
2,9517
3,1501
3,5669
34
2,6160
2,7991
2,9659
3,1643
3,5869
35
2,6271
2,8109
2,9777
3,1775
3,6009
36
2,6395
2,8240
2,9911
3,1918
3,6164
37
2,6503
2,8349
3,0034
3,2042
3,6315
38
2,6611
2,8459
3,0148
3,2168
3,6468
39
2,6710
2,8563
3,0253
3,2277
3,6590
40
2,6809
2,8668
3,0358
3,2399
3,6728
41
2,6911
2,8766
3,0465
3,2512
3,6872
42
2,7009
2,8866
3,0563
3,2620
3,7003
43
2,7098
2,8960
3,0661
3,2708
3,7106
44
2,7187
2,9059
3,0767
3,2822
3,7226
45
2,7277
2,9147
3,0857
3,2914
3,7371
46
2,7365
2,9236
3,0948
3,3005
3,7489
47
2,7444
2,9318
3,1029
3,3103
3,7557
48
2,7524
2,9394
3,1109
3,3191
3,7707
49
2,7608
2,9478
3,1197
3,3276
3,7792
50
2,7683
2,9560
3,1280
3,3369
3,7896
51
2,7756
2,9630
3,1350
3,3429
3,7981
52
2,7833
2,9712
3,1441
3,3525
3,8070
53
2,7905
2,9781
3,1506
3,3598
3,8191
54
2,7976
2,9853
3,1580
3,3678
3,8248
55
2,8041
2,9922
3,1654
3,3765
3,8345
56
2,8107
2,9990
3,1722
3,3833
3,8407
57
2,8175
3,0061
3,1795
3,3906
3,8495
58
2,8239
3,0125
3,1855
3,3967
3,8572
59
2,8306
3,0194
3,1928
3,4053
3,8650
60
2,8363
3,0251
3,1983
3,4101
3,8734
344
9 Anhang
Tab. 9.15 (Fortsetzung) α n
0,1
0,05
0,025
0,01
0,001
61
2,8430
3,0318
3,2062
3,4183
3,8828
62
2,8488
3,0382
3,2120
3,4236
3,8875
63
2,8542
3,0435
3,2175
3,4298
3,8963
64
2,8600
3,0494
3,2239
3,4370
3,9060
65
2,8657
3,0544
3,2284
3,4416
3,9113
66
2,8717
3,0611
3,2360
3,4501
3,9182
67
2,8772
3,0665
3,2416
3,4545
3,9265
68
2,8822
3,0717
3,2463
3,4597
3,9287
69
2,8876
3,0766
3,2511
3,4652
3,9370
70
2,8926
3,0821
3,2565
3,4699
3,9417
71
2,8980
3,0878
3,2625
3,4760
3,9507
72
2,9023
3,0918
3,2666
3,4800
3,9533
73
2,9076
3,0971
3,2722
3,4865
3,9589
74
2,9128
3,1016
3,2769
3,4922
3,9643
75
2,9168
3,1062
3,2812
3,4971
3,9707
76
2,9218
3,1116
3,2875
3,5034
3,9801
77
2,9268
3,1161
3,2916
3,5061
3,9777
78
2,9312
3,1207
3,2960
3,5109
3,9844
79
2,9361
3,1259
3,3017
3,5167
3,9926
80
2,9404
3,1303
3,3058
3,5213
3,9950
81
2,9448
3,1342
3,3104
3,5265
4,0035
82
2,9489
3,1387
3,3144
3,5295
4,0079
83
2,9532
3,1428
3,3184
3,5327
4,0118
84
2,9573
3,1473
3,3228
3,5377
4,0183
85
2,9611
3,1510
3,3266
3,5429
4,0177
86
2,9647
3,1544
3,3306
3,5467
4,0290
87
2,9697
3,1596
3,3349
3,5501
4,0302
88
2,9733
3,1631
3,3391
3,5555
4,0375
89
2,9775
3,1675
3,3435
3,5598
4,0358
90
2,9808
3,1710
3,3465
3,5617
4,0420
9.4
Statistische Tabellen
345
Tab. 9.15 (Fortsetzung) α n
0,1
0,05
0,025
0,01
0,001
91
2,9847
3,1744
3,3506
3,5662
4,0467
92
2,9887
3,1787
3,3550
3,5715
4,0536
93
2,9923
3,1825
3,3583
3,5740
4,0553
94
2,9963
3,1862
3,3618
3,5784
4,0604
95
2,9995
3,1895
3,3659
3,5818
4,0669
96
3,0034
3,1933
3,3687
3,5855
4,0722
97
3,0069
3,1966
3,3726
3,5886
4,0733
98
3,0103
3,2004
3,3762
3,5924
4,0768
99
3,0138
3,2033
3,3796
3,5962
4,0790
100
3,0173
3,2068
3,3827
3,5994
4,0826
Kruskal-Wallis-Test
Tab. 9.16 Kritische Werte für den (zweiseitigen) Kruskal-Wallis-Test für drei verschiedene Gruppen und variierender Anzahl Gruppenelemente n 1 , n 2 , n 3 0,1
α 0,025
n1
n2
n3
0,05
0,01
0,001
2
2
2
3,7143
4,5714
–
–
–
3
2
1
3,8571
4,2857
–
–
–
3
2
2
4,4643
4,5000
5,3571
–
–
3
3
1
4,0000
4,5714
5,1429
–
–
3
3
2
4,5556
5,1389
5,5556
6,2500
–
3
3
3
4,3556
5,4222
5,6889
6,4889
7,2000
4
2
1
4,0179
4,8214
–
–
–
4
2
2
4,4583
5,1250
5,3333
6,0000
–
4
3
1
3,8889
5,0000
5,3889
5,8333
–
4
3
2
4,4444
5,4000
5,8000
6,3000
7,0000
4
3
3
4,7000
5,7273
6,0182
6,7455
8,0182
4
4
4
4,5000
5,6538
6,5769
7,5385
8,7692
346
9 Anhang
Tab. 9.17 Fortsetzung von vorheriger Seite 0,1
0,05
α 0,025
n1
n2
n3
0,01
0,001
5
2
1
4,0500
4,4500
5,2500
–
–
5
2
2
4,2933
5,0400
5,6933
6,1333
–
5
3
1
3,8400
4,8711
5,7600
6,4000
–
5
3
2
4,4945
5,1055
5,9491
6,8218
7,6364
5
3
3
4,4121
5,5152
6,3030
6,9818
8,2424
5
4
1
3,9600
4,8600
5,7764
6,8400
7,3636
5
4
2
4,5182
5,2682
6,0409
7,1182
8,1136
5
4
3
4,5231
5,6308
6,3949
7,3949
8,6256
5
4
4
4,6187
5,6176
6,5967
7,7440
9,1286
5
5
1
4,0364
4,9091
5,7818
6,8364
8,1818
5
5
2
4,5077
5,2462
6,2308
7,2692
8,6846
5
5
3
4,5363
5,6264
6,4879
7,5429
9,2835
5
5
4
4,5200
5,6429
6,6714
7,7914
9,5057
5
5
5
4,5000
5,6600
6,7200
7,9800
9,7800
6
6
6
4,5380
5,7193
6,8889
8,1871
10,8187
7
7
7
4,5492
5,7662
6,9091
8,3340
11,3098
8
8
8
4,5800
5,7950
6,9800
8,4350
11,7475
9
9
9
4,5750
5,8236
7,0300
8,5538
11,9471
10
10
10
4,5600
5,8529
7,0606
8,5961
12,1265
Tab. 9.18 Kritische Werte (zweiseitig) für den Kruskal-Wallis-Test für vier verschiedene Gruppen und variierender Anzahl Gruppenelemente n 1 , n 2 , n 3 , n 4 n1
n2
n3
n4
0,1
0,05
α 0,025
0,01
0,001
2
2
2
2
5,5000
6,0000
6,1667
–
–
3
3
3
3
5,9744
6,8974
7,6154
8,4359
9,4615
4
4
4
4
6,0662
7,2132
8,1838
9,2647
11,3382
5
5
5
5
6,0857
7,3314
8,4629
9,7657
12,3029
6
6
6
6
6,1133
7,4400
8,6600
10,0800
13,0333
7
7
7
7
6,1414
7,5011
8,7678
10,2963
13,5391
8
8
8
8
6,1506
7,5369
8,8324
10,4148
13,9347
9
9
9
9
6,1752
7,5886
8,9179
10,5636
14,2332
10
10
10
10
6,1683
7,5937
8,9400
10,6127
14,5024
9.4
Statistische Tabellen
347
Wilcoxon-Vorzeichen-Rang-Test
Tab. 9.19 Kritische Werte für den (zweiseitigen) Wilcoxon-Vorzeichen-Rang-Test. Bitte beachten Sie, dass ich für n > 25 die Werte durch Normalapproximation berechnet habe: NORM.INV(α/2;n·(n+1)/4;WURZEL(n·(n+1)·(2 · n+1)/24)) α n
0,1
0,05
0,025
0,01
0,001
5
0
–
–
–
–
6
2
0
–
–
–
7
3
2
0
-
–
8
5
3
2
0
–
9
8
5
3
1
–
10
10
8
5
3
–
11
13
10
8
5
0
12
17
13
10
7
1
13
21
17
13
9
2
14
25
21
17
12
4
15
30
25
20
15
6
16
35
29
25
19
8
17
41
34
29
23
11
18
47
40
34
27
14
19
53
46
39
32
18
20
60
52
45
37
21
21
67
58
51
42
25
22
75
65
57
48
30
23
83
73
64
54
35
24
91
81
72
61
40
25
100
89
79
68
45
26
111
98
87
74
46
27
121
107
96
82
52
28
131
117
105
90
58
29
141
127
114
98
65
30
153
137
124
107
73
348
9 Anhang
Friedman-Test
Tab. 9.20 Kritische Werte für den (einseitigen) Friedman-Test für M = 3 Gruppen und jeweils N Elementen je Gruppe α N
0,1
0,05
0,025
0,01
0,001
2
4,0000
–
–
–
–
3
4,6667
6,0000
–
–
–
4
4,5000
6,5000
8,0000
–
–
5
5,2000
6,4000
7,6000
8,4000
10,0000
6
4,3333
6,3333
7,0000
8,3333
10,3333
7
4,5714
6,0000
7,1429
8,8571
11,1429
8
4,7500
6,2500
7,0000
9,0000
12,0000
9
4,6667
6,2222
6,8889
8,6667
11,5556
Tab. 9.21 Kritische Werte für den (einseitigen) Friedman-Test für M = 4 Gruppen und jeweils N Elementen je Gruppe α N
0,1
0,05
0,025
0,01
0,001
2
5,4000
6,0000
–
–
–
3
5,8000
7,0000
7,4000
8,2000
9,0000
4
6,0000
7,5000
8,4000
9,3000
11,1000
5
6,1200
7,3200
8,2800
9,7200
12,1200
6
6,2000
7,4000
8,6000
10,0000
12,6000
Tab. 9.22 Kritische Werte für den (einseitigen) Friedman-Test für M = 5 Gruppen und jeweils N Elementen je Gruppe α N
0,1
0,05
0,025
0,01
0,001
2
6,8000
7,6000
8,0000
–
–
3
7,2000
8,2667
9,3333
9,8667
11,4667
4
7,6000
8,8000
9,8000
11,0000
13,2000
5
7,5200
8,8000
10,0800
11,5200
14,2400
6
7,6000
8,9333
10,2667
11,7333
15,0667
9.5
9.5
Software
349
Software
Natürlich kann ich Ihnen hier nicht alle Softwarepakete auflisten, die es zur Datenanalyse bzw. Statistik gibt, zumal ich nicht alle kenne, geschweige denn alle verwendet habe. Dennoch möchte ich Ihnen drei verschiedene Kategorien von Software-Tools vorstellen, nämlich Kalkulationstabellen-basierte Software, Programmierumgebungen sowie Black Box Software. Zu jeder Kategorie möchte ich Ihnen jeweils zwei Tools vorstellen, mit denen ich selbst regelmäßig arbeite. Mit der Bezeichnung Black box Software möchte ich ausdrücken, dass Sie keine Chance haben, hinter die eigentlichen Berechnungen in diesen Softwarepaketen zu schauen, geschweige denn hinter den Code. Das sieht bei den anderen beiden Kategorie anders aus. Naturgemäß können Sie bei den Programmierumgebungen am tiefsten in die hinter den Berechnungen liegenden Funktionen schauen. Das kann zu einem tieferen Verständnis beitragen. Kommerziell erhältliche Software ist (verständlicherweise) meist aus der Kategorie Black box Software. Kalkulationstabellen-basierte Software • Microsoft Excel (Microsoft Inc.) Excel gehört zu den Programmen, die praktisch auf jedem Bürorechner installiert ist und mit dem sich viele bereits auskennen. Ich hoffe, ich konnte Ihnen in diesem Buch zeigen, dass man Excel ganz gut für die Datenanalyse einsetzen kann. Manchmal muss man über Umwege gehen, aber mit Excel kann man sogar, ohne VBA (Visual Basic for Applications) zu verwenden, überwachte Klassifikationen durchführen. Mit VBA wird Excel natürlich sehr mächtig. Excel hat den riesigen Vorteil, dass man innerhalb eines Tabellenblattes sowohl die Daten eingeben, verarbeiten/analysieren als auch grafisch darstellen kann. Wenn Sie etwas an den Daten ändern, dann sehen Sie direkt die Änderungen in den berechneten Werten und den Graphen. Dadurch bekommt man direkt Feedback, was zu einem großen Erkenntniszuwachs führt. Das ist einer der Gründe, warum ich in diesem Buch Excel verwendet habe. Es bringt von Hause aus einige statistische Funktionen mit. Auch komplexere Analysen können mithilfe der Datenanalyse-Funktionen gemacht werden. Leider sind diese Funktionen nicht so gut dokumentiert, zumal es von manchen Kritik an der Genauigkeit einiger (v. a. statistischer) Funktionen gegeben hat [1]. Doch hat Microsoft über die Jahre immer wieder nachgearbeitet. Die besagten Ungenauigkeiten traten auch meistens nur bei sehr extremen und für die datenanalytische Praxis nicht relevanten Stellen auf. Die in diesem Buch aufgeführten Beispiele und Übungen habe ich in der Regel parallel in MATLAB oder Prism mitgerechnet und dort gab es keine Unterschiede in den Ergebnissen zu Excel. Wenn es etwas spezieller wird, so sucht man aber auch bei Excel vergeblich nach einer entsprechenden Funktion. So gibt es bspw. keine Funktion, mit der Sie multiple Vergleiche durchführen können. Zu Fuß können
350
9 Anhang
Sie so etwas oft dennoch bewerkstelligen, was die Kalkulationstabellen-basierte Software von der Black box Software unterscheidet. Auf die statistischen Funktionen haben Sie übrigens auch in VBA Zugriff, sodass Sie bspw. häufig wiederkehrende Analysen automatisieren können. • LibreOffice Calc (The Document Foundation) Calc ist eine kostenfreie Alternative zu Excel. Die Handhabung und sogar die Menüs erinnern stark an Excel. Calc hat viele Funktionen mit Excel gemein. Oft ist sogar die Funktionssyntax dieselbe. Calc hat zwar auch einen Solver, doch ist dieser bei Weitem nicht so mächtig wie der von Excel. So können keine nicht-linearen Optimierungen mit dem Calc-Solver durchgeführt werden. Nicht-lineare Regressionen können Sie demnach nicht mit dem Solver machen. Programmierumgebungen • MATLAB (The MathWorks Inc.) bzw. die freie Alternative Octave (John W. Eaton und andere) MATLAB (das steht übrigens für Matrix Laboratory) ist eine kommerziell erhältliche Programmierumgebung, die man in Form eines Basisprogramms kaufen kann, das gewisse Grundfunktionalitäten (v. a. aus der linearen Algebra) mitbringt. Für speziellere Anwendungen, wie der statistischen Datenanalyse, muss man entsprechende Toolboxen dazukaufen. Datenanalyse ohne bspw. die Statistics and Machine Learning Toolbox, sowie die Optimization Toolbox zu betreiben, macht in meinen Augen wenig Sinn. Wer nicht das nötige Kleingeld für MATLAB und die zugehörigen Toolboxen hat, kann es gerne mit der kostenfreien Altenative Octave versuchen. Häufig lässt sich MATLAB Code eins zu eins in Octave ausführen. Die Toolboxen in Octave sind stark an die von MATLAB angelehnt. Beide Programme verwenden jeweils eine proprietäre Skriptsprache, mit der Sie ganze Programme schreiben können. Sie könnten sogar Ihr eigenes Statistikprogramm schreiben und verkaufen. Wenn man nun die o. g. Toolboxen hat, stößt man mit MATLAB bzw. Octave selten an seine Grenzen, außer bei sehr speziellen statistischen Analysen. Die MATLAB-Community ist sehr groß, und MATLAB-Funktionen für speziellere Anwendungen findet man häufig auch im Netz. Die MATLAB-Funktionen sind sehr gut dokumentiert und die Hilfe enthält viele Beispiele. • R (The R Foundation for Statistical Computing) R ist eine von der statistischen Software S abgeleitete und freie Programmierumgebung die vermutlich den meisten Statistikern bekannt ist. Sie hat sich im Laufe der Zeit zum Platzhirsch unter den Statistikprogrammen entwickelt. R (Basispaket) bringt bereits eine Menge Funktionen mit, doch es lebt durch das Hinzufügen von Paketen (packages). Hier wird man häufig fündig, wenn es um z. T. sehr spezielle statistische Auswertungen geht. Ich persönlich verwende RStudio (RStudio Inc.) als Entwicklungsumgebung für R. Die grafische Oberfläche hat ein wenig Ähnlichkeit mit MATLAB. In R können Sie ähnlich
9.5
Software
351
wie in MATLAB bzw. Octave Skripte erstellen und ablaufen lassen. Dadurch können Sie sich ganze Analyse-Pipelines bzw. Programme schreiben. Auch bei R ist die Community sehr groß und man findet zumeist Hilfe im Netz. Programmierumgebungen sind starke Tools, haben jedoch den Nachteil, dass die Lernkurve relativ flach ist, d. h., Sie müssen sich eine gewisse Zeit damit beschäftigen, damit Sie sicherer im Umgang damit werden. Das steht meist im Gegensatz zur Black box Software, die darauf ausgelegt ist, interaktiv zu sein und mit schön designten Nutzeroberflächen diese Interaktion zu vereinfachen. Black box Software • GraphPad Prism (GraphPad Software) Prism ist eine kommerzielle Statistiksoftware, die unter der Führung von Harvey Motulsky entwickelt wurde, dessen Bücher ich z. T. in diesem Buch zitiert habe. Motulksy kommt ursprünglich aus der pharmakologischen Forschung und hat erfahren, dass viele (nichtmathematischen) Studenten und Wissenschaftler mit der Statistik zu kämpfen haben. Prism versucht, den Nutzer daher an die Hand zu nehmen, um ihn durch die Analyseschritte zu führen. Dabei sind die Dialoge oft so aufgebaut, dass der Nutzer, basierend auf den Daten oder auf einer Vorauswahl, Vorschläge für entsprechende Analysen erhält. Bei Veränderung von Daten werden die bereits gemachten Analysen automatisch reanalysiert und Graphen entsprechend upgedatet (ähnlich wie bei Excel, nur eben nicht im selben Tabellenblatt). Eines seiner Alleinstellungsmerkmale ist die nicht-lineare Regression und die große Anzahl bereits vorgefertigter Fitmodelle aus der Biologie, Biochemie, Pharmakologie etc. Sie können Fitparameter einschränken (fix halten, auf ein Intervall einschränken, global oder frei fitten lassen). Leider bringt Prism keine Möglichkeit mit, Versuchspläne zu erstellen und auszuwerten (dafür können Sie bspw. Design-Expert® von Stat-Ease, Inc. verwenden). Prism ist für seine große Zahl einfach zu erstellender und zu manipulierender Grafiken bekannt. Es bringt eine riesige Bibliothek von gut formatierten Graphen mit, die auf Anhieb publikationsreif sind. Die Prism-Hilfe ist sehr umfangreich, einfach geschrieben und v. a. für Nicht-Mathematiker gut zu verstehen. Die Lernkurve ist sehr steil, d. h., man hat sich schnell in das Programm eingearbeitet. Ein Wermutstropfen ist allerdings, dass Prism keine Funktionen hat um statistische Versuchspläne aufzustellen und zu analysieren. • Maple (Maplesoft, eine Tochtergesellschaft der Cybernet Systems Group) Maple ist ein Computeralgebrasystem und als solches v. a. für symbolisches Rechnen geeignet. Wenn Sie bspw. ein Integral symbolisch integrieren (die Maple „Syntax“ hält sich dabei nah an der mathematischen Notation), dann gibt Maple Ihnen als Ergebnis einen symbolischen Ausdruck zurück. Maple war mir deshalb im Grundstudium eine große Hilfe. Natürlich kann man in Maple auch numerisch rechnen und eigene Daten analysieren. Obwohl es keine Statistiksoftware im eigentlichen Sinne ist, hat es doch
352
9 Anhang
einige für die Datenanalyse interessanten Funktionen. Mit Paketen wie das StatisticsPaket, können Sie gängige statistischen Analysen machen und außerdem noch relativ einfach Graphen erzeugen. Ferner können Sie in Maple eigene Prozeduren schreiben und verwenden und somit seine Funktionalitäten erweitern und Programmabläufe automatisieren. Leider ist auch hier die Hilfe nicht so ausgiebig wie bei Prism oder MATLAB.
Literatur 1. Mélard, G.: On the accuracy of statistical procedures in Microsoft Excel 2010. Computational Statistics 29, 1095 (2014) 2. Shapiro, S.S., Wilk, M.B.: An analysis of variance test for normality (complete samples). Biometrika 52(3/4), 591–611 (1965)
Stichwortverzeichnis
A Abhängiger t-Test, 79 Ableitung partielle, 14 zentrale, 13 absolute Spaltenadresse, 3 absolute Zeilenadresse, 3 absoluter Größtfehler, 19 absoluter Zellbezug, 2 Additionsregel, 47 Additionssatz für Varianzen, 84 adjustiertes Bestimmtheitsmaß, 185 AIC (Akaike-Informationskriterium), 198 Akaike-Informationskriterium, 198 Algorithmus genetischer, 170 ANOVA einfaktorielle, 98 mit Messwiederholung, 102 n-faktorielle, 108 zweifaktorielle, 104 ANOVA-Tabelle, 106 Äquivalenztest, 82 Array-Operator, 4 Ausfüllkästchen, 3 Ausreißer, 35 Autokorrelation, 137 Autoskalierung, 125 Average Linkage, 216
B Bayes-Faktor, 198 Bayes’sches Informationskriterium, 198 Bayes-Theorem, 48, 197, 227
Bereichsskalierung, 124 Bessel-Korrektur, 65, 286 Bestimmtheitsmaß, 184 adjustiertes, 185 BIC, 198 binärer Klassifikator, 252 Binomialkoeffizient, 52 Binomialverteilung, 52 Bonferroni-Korrektur, 120 Box-Behnken-Versuchsplan, 274 Box-Whisker-Plot, 35 C Cauchy-Verteilung, 60 Centroid Linkage, 217 charakteristisches Polynom, 317 Chi-Quadrat-Verteilung, 58 Clusteranalyse, 213 nicht-hierarchische, 220 Complete Linkage, 215 D D’Agostino-Pearson-Test, 93 Daten kategorische, 29 stetige, 29 Datenanalyse explorative, 30 Datengruppen homoskedastische, 98 Datenskalierung, 123 Deep Learning, 241 Dekompoitionsformel, 221 Dekonvolution, 135
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 M. Schneider, Datenanalyse für Naturwissenschaftler, Mediziner und Ingenieure, https://doi.org/10.1007/978-3-662-61866-0
353
354 Delta-Regel, 247 Design-Generator, 266 Design-Matrix, 255 Determinante einer Matrix, 315 Differenzentest, 79 Differenzieren numerisches, 11 Differenztest, 79 direkte Kalibration, 202 diskrete Fouriertransformation, 149 Dixon-Test, 96 Dosis-Wirkungs-Kurve, 176 Dreifaktor-Wechselwirkung, 257
E Effekt, 255 Eigenvektoren, 316 Eigenwert, 317 einfakorielle Varianzanalyse, 98 einfaktorielle ANOVA, 98 Einheitsvektor, 312 Einstichproben-t-Test, 75, 79 Elementarereignis, 49 Entscheidungsbaum, 240 eq:ConditionalProbability, 49 Ergebnismenge, 49 euklidische Distanz, 214 standardisierte, 215 euklidische Norm, 221 explorative Datenanalyse, 30 Extremwerte einer Funktion, 15
F Faktoreffekt, 255 Familywise error rate, 119 Fast Fouriertransformation, 149 Fehlerbalken, 41 Fehlerfortpflanzung, 16 Fehlerquadratsumme, 156 Filliben-Test, 92 Fourierintegral, 148 Fouriertransformation, 144, 149 diskrete, 149 inverse, 148 Freiheitsgrade, 65 Friedman-Test, 117 F-Test, 61
Stichwortverzeichnis fuzzy-Clustering, 222 F-Verteilung, 61
G Gammafunktion, 58 Gauß-Jordan-Verfahren, 315 Gauß’sche Normalverteilung, 54 Gauß’sches Fehlerfortpflanzungsgesetz, 17, 323 Gauß’sches Fehlerintegral, 55 genetischer Algorithmus, 170 geometrische Standardabweichung, 65 geometrischer Median, 212 geometrisches Mittel, 63 gewichtete Regression, 178 Gleichungssystem lineare, 5 lineares, überbestimmtes, 315 lineares, unterbestimmtes, 315 gleitender Mittelwert, 127 globale Regression, 176 Grenzwertsatz zentraler, 56 Größtfehler absoluter, 19 Grubbs-Test, 95
H Häufigkeitsverteilung kumulative, 38 Haupteffekt, 257 Hauptkomponentenanalyse, 205 robuste, 211 Hauptkomponentenregression, 213 Heat-map, 30 Hesse-Matrix, 16 Histogramm, 36 homoskedastische Datengruppen, 98 Huygen’sche Dekompoitionsformel, 221 Hypothesenfamilie, 120 Hypothesentest, 73 nichtparametrischer, 110 parametrischer, 74
I indirekte Kalibration, 203
Stichwortverzeichnis Integral uneigentliches, 28 Integration numerische, 19 Interpolation lineare, 140 Interquartilsbereich, 35 inverse Fouriertransformation, 148 inverse Matrix, 6 Inversionsverfahren, 72
J Jacobi-Matrix, 16, 166 Jarque-Bera-Test, 93
K Kalibration direkte, 202 indirekte, 203 multivariate, 202 Karush-Kuhn-Tucker-Bedingungen, 320 kategorische Daten, 29 kategorische Variable, 34 Kernel-Trick, 237 Kettenregel, 246 Klassifikationsfehlerrate, 250 Klassifikator binärer, 252 k-means-Clustering, 222 k-Nächste-Nachbarn-Klassifikation, 224 Koeffizientenmatrix, 5 Kolmogoroff-Smirnov-Test, 88 komplexe Zahlen, 147 Konfusionsmatrix, 252 Konvolution, 54, 133 Korrelation, 136 Korrelationskoeffizient, 137 Kovarianz, 137 Kovarianzmatrix, 187 Kreuzkorrelation, 139 Kreuzvalidierung, 251 n-fache, 251 Kruskal-Wallis-Test, 116 kubische Spline-Interpolation, 140 kumulative Häufigkeitsverteilung, 38 kumulative Wahrscheinlichkeitsverteilung, 38
355 künstliches neuronales Netz, 241 Kurtosis, 67
L Lagrange-Multiplikatoren, 232, 318 Lagrange’sches Multiplikationsverfahren, 318 Lambert-Beer-Gesetz, 202 least absolute residuals, 180 least-square, 156 Leave-one-out, 251 lineare Interpolation, 140 lineare Regression, 155 lineares Gleichungssystem, 5 überbestimmtes, 315 unterbestimmtes, 315 Linearkombination von Vektoren, 311 logarithmische Normalverteilung, 57 Lorentz-Verteilung, 60
M Macht eines Tests, 86 Mahalanobis-Distanz, 215 Mann-Whitney-U -Test, 110 Mann-Whitney-Rangsummen-Test, 113 Matrix Determinante, 315 inverse, 6 quadratische, 310 singuläre, 315 Spur, 317 Transponierte, 7, 310 Maximum-Likelihood-Methode, 162 Median, 35 geometrischer, 212 Medianfilter, 129 Medianglättung, 128 Mehrfachvergleiche, 119 Messunsicherheit relative, 19 Minkowski-Distanz, 214 Mittel geometrisches, 63 Mittelpunktintegration, 22 Mittelwert, 62 gleitender, 127 Standardabweichung, 18, 41, 286
356 Mittenzentrierung, 205 Modulofunktion, 70 Moment, 62 Multiplikationssatz für Mittelwerte, 63 multivariate Kalibration, 202 multivariate lineare Regression, 201
N Nelder-Mead-Simplex, 167 Netz neuronales, künstliches, 241 Neuron, 242 Newton-Verfahren, 164 n-fache Kreuzvalidierung, 251 n-faktorielle ANOVA, 108 nicht-hierarchische Clusteranalyse, 220 nicht-lineare Regression, 161 nichtparametrischer Hypothesentest, 110 NIPALS-Algorithmus, 210 Normierung, 123 numerische Integration, 19 numerisches Differenzieren, 11
O Omnibus-Test, 119 orthogonale Vektoren, 312 orthogonaler Versuchsplan, 264 Orthonormalbasis, 302 orthonormale Vektoren, 312 Overfitting, 224, 250
P Paardifferenztest, 79 parametrischer Hypothesentest, 74 Pareto-Diagramm, 46, 256 partielle Ableitung, 14 Pascal’sches Dreieck, 52 Pearson-Korrelationskoeffizient, 137 Perceptron, 247 Poisson-Verteilung, 53 Polynom charakteristisches, 317 Polynomglättung, 130 Post-hoc-Tests, 119 Präzision, 323 Produktregel, 48
Stichwortverzeichnis Pseudoinverse, 160, 315 Pseudoreplikate, 175
Q quadratische Matrix, 310 Quantil, 68 Quantil-Quantil-Plot, 39 Quartil, 69
R Random Forest-Klassifizierung, 241 Rang, 315 Receiver Operating Characteristic, 253 reduziertes Chi2 , 197 Regression gewichtete, 178 globale, 176 lineare, 155 lineare, multivariate, 201 nicht-lineare, 161 robuste, 179 Standardfehler, 184 relative Messunsicherheit, 19 relativer Zellbezug, 2 Residuen, 156, 182 Reststreuung, 183 Richtigkeit, 323 robuste Hauptkomponentenanalyse, 211 robuste Regression, 179 R-Quadrat, 184 Rückwärtsableitung, 12
S Satz des Pythagoras, 214, 312 Savitzky-Golay-Filter, 129 Schiefe, 66 Screening Design, 278 Sensitivität, 253 Shapiro-Wilk-Test, 89 Šidák-Gleichung, 120 Signifikanzniveau, 74 Simplex-Algorithmus, 166 Simplex-Optimierung, 166 Simpson-Integration, 24 Single Linkage, 215 singuläre Matrix, 315
Stichwortverzeichnis Singulärwertzerlegung, 211 Skalar, 310 Skalarprodukt, 311, 313 Solver, 7 Spaltenadresse absolute, 3 Spline-Interpolation kubische, 140 Spur einer Matrix, 317 Standardabweichung, 64 des Mittelwertes, 18, 41, 286 geometrische, 65 Standardfehler, 18 der Regression, 184 standardisierte euklidische Distanz, 215 Standardisierung, 56, 125 statistische Versuchsplanung, 255 stetige Daten, 29 Stirlingformel, 220 Streudiagramme, 33 Student-t-Verteilung, 59 Summenregel, 48 Support Vector Machine, 231
T t-Test, 74, 78–80 abhängiger, 79 nach Welch, 80 Taylorreihenentwicklung, 321 teilfaktorieller Versuchsplan, 266 TOST, 82 Trainingsdatensatz, 223 Transponierte einer Matrix, 7, 310 Trapezregel, 23 Trennschärfe eines Tests, 86
U Überbestimmtes lineares Gleichungssystem, 315 Uneigentliches Integral, 28 unterbestimmtes lineares Gleichungssystem, 315
V Variable kategorische, 34
357 Varianz, 64 Varianzanalyse einfakorielle, 98 Vektor, 310 Vektoren orthogonale, 312 orthonormale, 312 Vektornorm, 312 Vektornormierung, 126 Versuchsplan 1. Ordnung, 255 2. Ordnung, 269 orthogonaler, 264 vollfaktorieller, 258 zentral zusammengesetzter, 273 Versuchsplanung statistische, 255 Vertauschung zyklische, 152 Violin-Plot, 39 vollfaktorieller Versuchsplan, 258 Vorwärtsableitung, 12
W Wahrscheinlichkeitsdichtefunktion, 50 Wahrscheinlichkeitsverteilung kumulative, 38 Wechselwirkungsdiagramm, 108 Weighted Average Linkage, 216 Wilcoxon-Vorzeichen-Rang-Test, 114
Z Zahlen komplexe, 147 Zeilenadresse absolute, 3 Zeilenvektor, 311 Zellbezug absoluter, 2 relativer, 2 zentral zusammengesetzter Versuchsplan, 273 zentrale Ableitung, 13 zentraler Grenzwertsatz, 56 Zentrierung, 123 z-score, 56 z-Transformation, 56
358 Zufallszahlen, 70 zweifaktorielle ANOVA, 104 Zweifaktor-Wechselwirkung, 257
Stichwortverzeichnis Zweistichproben-t-Test, 80 zyklische Vertauschung, 152