287 22 88MB
German Pages 224 [221]
Statistische Methoden
in der Experimentalphysik Martin Erdmann Thomas Hebbeker
Alexander Schmidt
Bibliografische Information der Deutschen Nationalbibliothek
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet tiber http://dnb.dnb.de abrufbar. Die Informationen in diesem Buch werdenohne Riicksicht auf einen eventuellen Patentschutz veréffentlicht. Warennamen werden ohne Gewahrleistung derfreien Verwendbarkeit benutzt. Bei der Zusammenstellung von Texten und Abbildungen wurde mit gréBter Sorgfalt vorgegangen. Trotzdem kénnen Fehler nicht ausgeschlossen werden. Verlag, Herausgeber und Autoren kénnenfiir fehlerhafte Angaben und deren Folgen wedereine juristische Verantwortung noch irgendeine Haftung iibernehmen. Fir Verbesserungsvorschlage und Hinweise auf Fehler sind Verlag und Autor dankbar. All rights reserved. No part of this book may be reproduced or transmitted in any form or by any means, electronic or mechanical, including photocopying, recording or by any information storage retrieval system, without permission from Pearson Education, Inc. GERMANlanguage edition published by PEARSON DEUTSCHLAND GMBH, Copyright © 2019. Alle Rechte vorbehalten, auch die der fotomechanischen Wiedergabe und der Speicherungin elektronischen Medien. Die gewerbliche Nutzungder in diesem Produkt gezeigten Modelle und Arbeiten ist nicht zulassig. Es konnten nichtalle Rechteinhaber von Abbildungen ermittelt werden. Sollte dem Verlag gegeniiber der Nachweis der Rechtsinhaberschaft gefiihrt werden, wird das brancheniibliche Honorar nachtraglich gezahlt. Fast alle Produktbezeichnungen und weitere Stichworte und sonstige Angaben, die in diesem Buch verwendet werden, sind als eingetragene Marken geschiitzt. Da es nicht méglichist, in allen Fallen zeitnah zu ermittein, ob ein Markenschutz besteht, wird das ®-Symbolin diesem Buch nicht verwendet. Der Umwelt zuliebe verzichten wir auf EinschweiBfolie.
10
9
24
23
8
7
22
6
21
5
43
2
1
20
ISBN 978-3-86894-391-7 (Buch) ISBN 978-3-86326-888-6 (E-Book) © 2020 by Pearson Deutschland GmbH Lilienthalstr. 2, D-85399 Hallbergmoos/Germany Alle Rechte vorbehalten www.pearson.de A part of Pearson plc worldwide Programmleitung: Birger Peil, [email protected] Korrektorat: Micaela Krieger-Hauwede, [email protected] ‘Herstellung: Philipp Burkart, [email protected] Coverabbildung: © Sergey Nivens, Shutterstock Satz: Micaela Krieger-Hauwede, Leipzig Druck und Verarbeitung: Drukkerij Wilco, Amersfoort Printed in the Netherlands
Inhaltsverzeichnis
Motivation
1 Messwert und Messgenauigkeit 1.1 Ergebnisangaben eines Experiments ........... 00000000 0s 1.2
Messwerte einer Messreihe .. 1... . 0. ee
1v3,
Datenanalyse jae sms sae eee eae ee eee ee eG 11
2
Wahrscheinlichkeit
9
19
2.1 Wahrscheinlichkeitsbegriff .. 0.0... ee ee 21 2.2 Kombinatorik. . 2... ee 23 2.3 Kombinationen von Wahrscheinlichkeiten ..............0004 26 2.4 Theorem von Bayes ....... 0 0c ee 28
3 Wahrscheinlichkeitsverteilungen
33
3.1 3.2
Zufallsvariablen, Messdaten 35 Kenngréfen fiir Wahrscheinlichkeitsverteilungen ............. 38
3.3
Gleich-, Binomial-, Poisson-, Gauf-, Exponentialverteilung........
3.4 Zweidimensionale Wahrscheinlichkeitsdichten 4
4.1 4.2 4.3 4.4
Messwerte und Stichproben
44
62 71
Stichproben aus Wahrscheinlichkeitsverteilungen............. Zentraler Grenzwertsatz. si 6 eis ee ee we we ew ee Ee Anwendungen zum Zentralen Grenzwertsatz............000. Gewichteter Mittelwert
73 79 84 88
5 Messfehler und Fehlerfortpflanzung 5.1 Transformation von Wahrscheinlichkeitsdichten.............. 5.2 Fehlerfortpflanzungsgesetz ...... 2... 2.0... eee eee ee ee 5.3 Fehlerfortpflanzung bei zusammengesetzten MessgréBen ......... 5.4 Kombination von Wahrscheinlichkeitsdichten ..............,
93 95 96 100 103
6 Systematische Fehler 6.1 Einordnung........ 6.2 Vorgehen zur Bestimmung ........ 0.0.00. eee eee 6.3 Zusammenfassen von Fehlern .... 2... 0.0.0 eee ee ee
109 111 113 118
7 Parameterschatzung aus Messdaten 121 7.1 Maximum-Likelihood-Methode .......... 0.00. eee eee 123 7.2 Methode der kleinsten Quadrate ... 1... ee ee ee 135
8 8.1 8.2
Statistische Testverfahren Messwert, wahrer Wert t-Test
813) y2fest\ ea eee we ee a ae ade 9
Computersimulation
91 Anwendungsfalle .. 245 seas see ee oe es ee ee oe 9.2 9.3
Likelihood-Quotient Kombinierte statistische, systematische Fehler... ............
10 Klassifizierung 10.1 Fisher-Diskriminanten-Methode .... 2... 0.000 epee eee eee 10.2 Boosted-Decision-Trees .. 1... 10.3 Neuronales Netzwerk .. 0... Anhang: LésungenundTabellen Index Literaturverzeichnis
Motivation Statistische Methoden? Berechnung am Computer? Ich studiere Physik! — héren wir gelegentlich. Richtig: Wir entwickeln physikalische Konzepte zu Naturvorgdéngen und liberpriifen diese theoretischen Vorhersagen anhand von Experimenten. Blob, warum treffen unsere Experimente nicht direkt den richtigen Naturwert? Warum streuen die Messwerte? Wie kénnen wir trotz Streuungen der Messwerte sichere Schaétzungen des korrekten Naturwerts gewinnen? Und wie genauist dann unsere Schatzung? Ist unsere Messungmit einer theoretischen Vorhersage kompatibel? Die Statistik hat die zugehérigen Antworten: Unsere Messwerte fassen wir als Stichprobe aus einer Wahrscheinlichkeitsverteilung auf. [hr liegt der korrekte Naturwert zugrunde. Die Form der Verteilung hangt von den experimentellen Bedingungen und den Unsicherheiten der experimentellen Apparatur ab und kann wegendervielen Einfliisse oft nur mit dem Computer berechnet werden. Zum Experimentieren gehért beides: die Schatzung des korrekten Naturwerts aus den Messungen und die Schatzung der Genauigkeit in der Form von statistischen und systematischen Unsicherheiten, die die Prazision unseres Experiments begrenzen. Dieses Lehrbuch orientiert sich an den Anforderungen des Bachelorstudiums Physik und konkretisiert den Lernstoff fiir Datenanalysen in der Experimentalphysik an den Universitaten. Studierende sollen sich die wesentlichen Datenanalysekonzepte aneignen, relevante statistische Methoden kennenlernen und anwenden sowie Fahigkeiten zur Durchfiihrung von Berechnungen und Simulationen am Computer entwickeln. Als Programmiersprache verwendenwir Python mit den zugehorigen Bibliotheken numpy, scipy und matplotlib [1, 2, 3, 4]. Fiir haufig verwendete Funktionen geben wir den PythonQuellcode an. Fiir markierte Abbildungen steht beim Verlag Quellcode zum Download zur Verfiigung. Damit konnen diese Abbildungen am eigenen Computer nachvollzogen werden. Wir starten bei den elementaren Konzepten derStatistik, zeigen die Grundlagen der Wahrscheinlichkeitsverteilungen und vermitteln schlieBlich auch eine Idee von den modernsten Entwicklungen mit Boosted Decision Trees und neuronalen Netzwerken sowie der Behandlungkorrelierter systematischer Unsicherheiten, die in aktuellen Datenanalysen bei groBen internationalen Experimenten der Teilchenphysik verwendet werden.
Univ.-Prof. Dr. rer. nat. M. Erdmann, Univ.-Prof. Dr. rer. nat. T. Hebbeker, Univ.-Prof. Dr. rer. nat. A. Schmidt
Aachen
EXTR Quellcode
Messwert und Messgenauigkeit Ergebnisangaben eines Experiments ...............0004
Datenanalyse 1.3.1 Mittelwert einer Stichprobe ................0004 1.3.2 Streuung der Einzelmessungen ...........000000% 1.3.3 Reproduzierbarkeit des Experiments ...........000.% 1.3.4 Fehler von Mittelwert und Standardabweichung 1.3.5 Systematische Fehler’. ¢ nea seh see gah em nee Poe we
10
UBERBLICK
Messwerte einer Messreihe 1.2.1 Statistische Interpretation von Messwerten...........-.
MEviesswert und Messgenauigkeit
>
Messwerte eines Experiments unterliegen zufalligen Schwankungen, die zum Beispiel durch naturgegebene physikalische Prozesse oder die begrenzte Genauigkeit
der Messapparatur zustande kommen kénnen. Wir stellen in diesem Kapitel das wichtigste statistische Verfahren vor, um aus Messwerten eine Schatzung des wahren Werts und quantitative Angaben iiber die Unsicherheit der Schaétzung zu extrahieren. Fiir einfache Praktikumsversuche mag die Anwendungsolcher Rezepte ausreichen. Um professionell zu experimentieren und mit Messdaten auch komplexere Fragestellungen beantworten zu kénnen, ist ein Verstandnis fiir die Griinde und Ursachen der Verfahren erforderlich. Wir werden daher in diesem Kapitel den weiteren Verlauf die- « ses Lehrbuchs motivieren.
1.1 Ergebnisangaben eines Experiments
1.1.
Ergebnisangaben eines Experiments
Datenanalysen werden in vielen unterschiedlichen Bereichen wie z.B. Medizin, Psychologie, Wirtschaft, Banken, Wettervorhersage, Geheimdiensten etc. bendtigt. Weltweit
werden offensichtlich immer mehr Daten aufgenommen, man spricht von »Big Data«. Um die Bedeutung der Daten zu verstehen, werdeniiberall Experten gebraucht, die mit statistischen Verfahren korrekt umgehen kénnen. In den experimentellen Naturwissenschaften werden Datenanalyseverfahren eingesetzt, um GesetzmaBigkeiten herauszufinden und um die Reproduzierbarkeit von Experimenten zu quantifizieren. Die beiden wichtigsten Fragestellungen betreffen hier das Messresultat unddie Unsicherheit, mit der das Resultat des Experiments behaftetist. Bei den Messunsicherheiten unterscheidet man zwei Sorten von Messfehlern:
Systematische Fehler: Fehler, die auch bei Wiederholung des Experiments Messwerte in dieselbe Richtung verschieben (z. B. zu kleineren Werten).
Statistische Fehler: Zufallig auftretende Fehler. Sie streuen um den wahren Wert. Als Messergebnis eines Experiments wird tiblicherweise die aus vielen Messwerten extrahierte beste Schatzung des wahren Werts (»Messwert«) inklusive der Unsicherheiten in
folgender Weise notiert: Messwert + Fehler
(14)
Falls sich statistische und systematische Fehler trennen lassen, gibt man sie haufig auch separat an:
Messwert + statistische Fehler + systematische Fehler
(1.2)
Diese Messfehler beziehen sich auf die Genauigkeit des mit dem Experiment ermittelten Messresultats. Nicht gemeint sind mit diesen Fehlern Abweichungen von theoretischen Berechnungen oder von AngabenausderLiteratur. Die Fehlerangabeist eine Wahrscheinlichkeitsaussage. Ublicherweise bedeutet diese Angabe, dass sich der wahre Wert mit 68% Wahrscheinlichkeit innerhalb des Fehlerintervalls [Messwert—Fehler, Messwert-+Fehler] befindet. AuBerdem enthalt die Fehlerangabe ein Maf fiir die Reproduzierbarkeit des Experiments. Bei einer wiederholten Messung wird der neue Messwert mit 68% Wahrscheinlichkeit innerhalb des Fehlerintervalls um den urspriinglichen Messwert liegen.
1.2
Messwerte einer Messreihe
Um unseinen Eindruck voneinerstatistischen Auswertung von Messdaten zu verschaffen, machen wir das folgende Gedankenexperiment:
i Messwert und Messgenauigkeit
Experiment 1.1: Zeitmessungfiir Tennisball Eine Tennisballmaschine (» Abbildung 1.1) schleudert einen Ball unter einem festen Abwurfwinkel mit einer bestimmten Anfangsgeschwindigkeit. Wir messen die Zeit t vom Abschuss bis zum Uberqueren des Netzes insgesamt 8 Mal. Die Messwerte der Messreihesind in der » Tabelle 1.1 aufgefiihrt. 7 hres
Tabelle 1.1
Gk 0
OFS 20
by seed
Fel 8
Die Werte zeigen 8 Zeitmessungen mit der Tennisballmaschine vom Abschussdes Balls bis zum Uberqueren des Netzes in Einheiten von Sekunden.
Tennisballmaschine
Pe)s)ifelvelies)
§=©Tennisballmaschine Eine automatische Schleudersoll Tennisbialle méglichst gleichférmig in das gegnerischeSpielfeld katapultieren. Wir messen wiederholt die Zeit vom Abschussbis zum Uberqueren des Netzes.
Gesuchtist eine Schaétzung der wahren Flugzeit des Tennisballs iiber die Zeitmessungen der Messreihe. Wir gehen in diesem Beispiel davon aus, dass Abwurfwinkel und Abschussgeschwindigkeit sehr genau reproduzierbar sind und nur die Zeitmessung mit einer Stoppuhr messbar schwankt. Wir wollen die Genauigkeit dieser Zeitschaétzung bestimmen und dabei auch eine Aussage iiber die Reproduzierbarkeit des Experiments erhalten. Bevor wir die entsprechenden Antworten geben, entwickeln wir eine Vorstellung davon, wie die Messwerte zustande kommen.
1.2.1
Statistische Interpretation von Messwerten
Jede einzelne Messung wird von naturgegebenen Schwankungen und von apparativen Fehlerquellen beeinflusst, die den Wert zum Zeitpunkt der Messung bestimmen. Einen Messwert erhalten wir demnach mit einer gewissen Wahrscheinlichkeit (Kapitel 2).
Die Messdaten 21, 72,...,2, eines Experiments kénnen wir als Zufallsvariable auffassen, die einer Wahrscheinlichkeitsverteilung f(x) entnommen wurden (Kapitel 3). Gemeinsam bilden diese Messwerte eine sogenannte Stichprobe aus dieser Wahrscheinlichkeitsver-
teilung (Kapitel 4). Die Wahrscheinlichkeitsverteilung ist vom Experiment abhangig.
10
1.3 Datenanalyse
Mit mehreren Messdatenkénnenwirdie zugrunde liegende Wahrscheinlichkeitsverteilung | rekonstruieren und z. B. mit dem wahrscheinlichsten Wert undder Breite der Verteilung charakterisieren (Kapitel 3). Dabei wollen wir den wahren Wert, den wir z. B. als den
Mittelwert der Verteilung f(a) ansehen, mdglichst genau bestimmen. Der Zentrale Grenzwertsatz hilft uns bei den statistischen Fehlern mit der folgenden Wahrscheinlichkeitsinterpretation: Viele Fehlerquellen, die unabhangig voneinander sind und zufallig den Messwert in die eine oder andere Richtung ziehen, folgen gemeinsameiner GauBverteilung f (). Sie ist demnachfiir viele Situationen eine gute Naherungfiir die den Messwerten zugrunde liegende Wahrscheinlichkeitsverteilung (Kapitel4).
1.3
Datenanalyse
In der >» Abbildung 1.2 ist eine Hiéufigkeitsverteilung der Messdaten unseres Tennisballexperiments gezeigt (» Abbildung 1.1). Dabei ist die Anzahl N der Messungen innerhalb von einzelnen Intervallen als Funktion der Zeit t aufgetragen. Die Darstellung einer solchen Verteilung bezeichnet man als Histogramm.
4
Constant Mean Sigma
_
0.8
L
1
2.714 1.19 1.04 + 0.04 0.118 + 0.032
NJ
1.2
1.4
t/s 7\e)syifeltites 74)
Visualisierung der Zeitmessungen (> Tabelle 1.1) mit der Tennisballmaschine
Das Histogramm zeigt den einzigen Messwert im Zeitintervall 0,8s < t < 0,9s, die beiden Messwerte im Zeitintervall 0,9s < t < 1s etc. Offenbar sind die Zeitwerte
um ca. 1s verteilt. Ebenfalls ist eine Gaubkurvegezeigt, die an das Histogramm der Messwerte angepasst wurde. Die Parameter der Gaubkurve mit ihren jeweiligen Fehlern sind in der Abbildungslegendeoben rechts gezeigt: Die Amplitude betragt 2,71 41,19, der Mittelwert ¢ = (1,04 + 0,04) s und die Standardabweichung o =
(0,118 + 0,032)s.
AuBerdem ist die Anpassung einer Gaufiverteilung an die Messdaten gezeigt. Die Anpassung erfolgt tiber ein mathematisches Optimierungsverfahren. Rechts oben im Bild sind die Anpassungswerte undihre Fehler angegeben. Wie die Anpassung einer Funktion an Messdaten durchgefiihrt wird, stellen wir in den Kapiteln 7 und 8 vor. Wie wir die Giite der Anpassung der Funktion an die Messdaten quantitativ beurteilen, erlautern wir in Kapitel8.
BEMvresswert und Messgenauigkeit
Dieses Vorgehenist eine Méglichkeit, die Wahrscheinlichkeitsverteilung zu rekonstruieren und damit eine Schatzung der wahren Flugzeit durch den Mittelwert der Gaubverteilung vorzunehmen. Die tibliche und einfache Vorgehensweise zur Schatzung der wahren Flugzeit verwendet den aus der Summeder Messwerte berechneten Mittelwert ¢. Wir werden im Folgenden dieses Verfahren ausfiihrlich vorstellen und im Kapitel 4 die Vorgehensweise begriinden. AuBerdem werden wir die Breite der Wahrscheinlichkeitsverteilung mithilfe der sogenannten Standardabweichung aus den Messungen abschatzen. Sie reflektiert die Wahrscheinlichkeit fiir die Streuung einzelner Messwerte. SchlieBlich werden wir eine Schatzung des Fehlers des Mittelwerts ¢ durchfiihren. Damit
werden wir das Messergebnis mit seinem statistischen Fehler angeben. Alle zugehérigen Berechnungen kénnen mit im Internet frei zugdénglichen Computerprogrammen durchgefiihrt werden, die Datenanalysen insbesonderefiir physikalische Fragestellungen unterstiitzen und die kontinuierlich weiterentwickelt werden. Wir verwenden vorwiegend die Programmiersprache Python mit den zugehdérigen Bibliotheken numpy, scipy und maitploitlib [1, 2, 3, 4]. Ein umfangreiches Grundpaketfiir
Datenanalysenist auch ROOT[5]. Eine Arbeitsumgebungfiir wissenschaftliche Datenanalysen im Webbrowserbietet VISPA [6].
1.3.1
Mittelwert einer Stichprobe
Als allgemeine Bezeichnungfiir unsere Messwerte benutzen wir an dieser Stelle den haufig verwendeten Buchstaben «x. Den Mittelwert & unserer insgesamt n Messwerte x; berechnen wir durch:
Mit ihm erhalten wir eine Schaétzung des wahren Werts. Beispiel 1.1: Berechnung des Mittelwerts
cH
In unserem Experiment ergibt sich ein Wert von
i
Abbildung 1.2 tiberein.
1.3.3
Reproduzierbarkeit des Experiments
Die Standardabweichung s wurde per Konvention als Fehlerangabe gewahlt. Sie ist ein MaB fiir die Reproduzierbarkeit eines Experiments in dem folgenden Sinn: Bei bisher aufgenommenen n Messungen liegen 68% ~ 2/3 aller Messwerte innerhalb von + 1 Standardabweichung um den Mittelwert Z. Die Zah] 68% ergibt sich durch die Standardabweichung der Gaufiverteilung, wie wir spater sehen werden. Ein neu genommener Messwert.z,+1 sollte dann mit der Wahrscheinlichkeit von ca. 68% im Intervall einer Standardabweichung s um den Mittelwert liegen: C—S3:< aii 0. Wir bezeichnen mit
P(BIA)
(2.22)
die bedingte Wahrscheinlichkeit, dass B dann auftritt, wenn das Resultat des Ereignisses A bereits gegebenist. Im allgemeinen Fall kénnen wir fiir das gemeinsame Auftreten der Ereignisse A und B
schreiben: P(AA B) = P(BIA)- P(A)
(2.23)
Beispiel 2.8: Schachspiel Die klassische Er6ffnung eines Schachspiels durch Bewegen des weiBen Bauerns vor dem Konig habe die Wahrscheinlichkeit P(A). Als Reaktion bringe der Gegenspieler seinen linken schwarzen Springer mit der Wahrscheinlichkeit P(B|A) in Position. Offensichtlich hangt fiir den geiibten Spieler die Wahrscheinlichkeit P(B|A)fiir den ersten Zug von der Entscheidung P(A) des Eréffnungsspielers ab, sodass P(B|A) eine bedingte Wahrscheinlichkeitist. Fiir diese beiden Spielziige zusammen betragt die gesamte Wahrscheinlichkeit P(A A B) = P(B|A)- P(A).
2.3.4
Wahrscheinlichkeit fir unabhangige, zusammenkommende Ereignisse
Man bezeichnet zwei Ereignisse A und B als unabhangig, wenn gilt:
P(BIA) = P(B)
(2.24)
Haufig werden unabhangige Ereignisse A und B miteinander kombiniert. Dann berechnet sich die Gesamtwahrscheinlichkeit fiir das gemeinsame Auftreten der Ereignisse nach Gleichung (2.23) aus dem Produkt der Einzelwahrscheinlichkeiten:
P(AA B) = P(A)- P(B)
(2.25)
27
AEwatrscheintichkeit
Beispiel 2.9: Kanaliiberquerung Nehmenwir an, die Wahrscheinlichkeit beim Durchschwimmendes Armelkanals umzukommen, sei
P(A) =5%. Damit ist die Uberlebenswahrscheinlichkeit
P(A) =1— P(A) =0,95. Wie grof ist die Wahrscheinlichkeit, bei einem Dutzend Schwimmversuchen im
Armelkanal umzukommen? Die Wahrscheinlichkeit, bei zwei unabhaéngigen Durchquerungenzu iiberleben, ist offenbar
P(A B) = P(A)- P(B) = 0,95” = 0,9025. Entsprechend ist die Uberlebenswahrscheinlichkeit bei N = 12 Durchquerungsversuchenleider nicht sehr groB:
P(12.A) = 0,95"? = 0,54
2.4
Theorem von Bayes
Die Wahrscheinlichkeitfiir das gemeinsame Auftreten der Ereignisse A und B ist symmetrisch: P(AA B) = P(BAA)
(2.26)
Nach Gleichung (2.23) gilt dann auch:
P(B|A)- P(A) = P(A|B)- P(B)
(2.27)
Sind die Wahrscheinlichkeiten P(A) und P(B) fiir das Auftreten der Ereignisse A und B bekannt, undist auch eine der bedingten Wahrscheinlichkeiten z. B. P(B|A) bekannt, so lasst sich die andere bedingte Wahrscheinlichkeit P(A|B) sofort berechnen:
P(A|B) = P(B|A)- ne
(2.28)
Diese Gleichung ist das sogenannte Theorem von Bayes. Im allgemeinen Fall von n Ereignisklassen mit den Eigenschaften j = 1,...,n, bei denen jedes Ereignis A; seiner Klasse 7 zugeordnetist, lautet das Theorem von Bayes:
28
P(A;) 3
P(A;|B) = P(B|Ai)-
P(BIAj)- P(Aj)
(2.29)
2.4 Theorem von Bayes
Die Ereignisklassen sollen disjunkt sein, d.h. jedes Ereignis soll genau nur einer Ereignisklasse angehéren. Zusatzlich sollen die n Ereignisklassen gemeinsam alle méglichen Falle erfassen. Die Summe im Nennerentspricht der Wahrscheinlichkeit P(B) fiir das Auftreten des Ereignisses B. Beispiel 2.10: KANU-Suchtest Angenommen, eine Person unter 1000 Personen hat eine neuartige Krankheit namens »KANU«. Die Wahrscheinlichkeit, an KANU erkrankt zu sein, betragtalso: 1
P(kein KANU) = 0,999 Die Verlasslichkeit eines medizinischen Suchtests fiir KANU sei:
P(+|KANU) = 0,98
positives Testergebnis fiir Person mit KANU
P(+|kein KANU) = 0,005
falsch positiver Test auf KANU
Die Wahrscheinlichkeit fiir ein positives Testergebnis betragt somit:
P(+) = P(+|KANU)- P(KANU) + P(+|kein KANU) - P(kein KANU) Darausergibt sich nach (2.29) die Wahrscheinlichkeit, dass eine positiv getestete Person auch wirklich an KANU erkranktist: P(KANU|+) =
P(+|KANU) - P(KANU) P(+) 0,98 - 0,001
~+
= 0,16
Eine positiv getestete Person ist also nur mit 16% Wahrscheinlichkeit tatsaéchlich an KANUerkrankt. Um sicherzustellen, dass ein positives Testergebnis eine KANUErkrankung anzeigt, werden in diesem Fall weitere Tests durchgefiihrt.
Das Theorem von Bayesspielt im spateren Verlauf des Lehrbuchs bei Aussagen tiber den Wert eines Parameters a, den wir aus Messdaten ermitteln, eine wichtige Rolle (Abschnitt 6.3 und Abschnitt 7.1). Mit daten bezeichnen wir hier die Messdaten eines Experi-
ments und mit a den Parameter einer theoretischen Vorhersage, den wir an die Messdaten anpassen. Unsinteressiert dabei, mit welcher Wahrscheinlichkeit
P(a\daten)
(2.30)
sich der theoretische Wert a aus. den Messdaten ergibt. P(a|daten) wird als »A-posteriori«Wahrscheinlichkeit bezeichnet.
29
Wahrscheinlichkeit
Haufig ergibt sich bei statistischen Analyseverfahren nicht direkt (2.30), sondern die Wahrscheinlichkeit P(daten|a)
(2.31)
dafiir, dass wir fiir einen gegebenen Parameterwert a die Daten daten beobachten. Um die A-posteriori-Wahrscheinlichkeit (2.30) aus (2.31) zu erhalten, verwenden wir das
Theorem von Bayes(2.28):
P(a)
P(al\daten) = P(daten|a) - Pdaten)
(2.32)
Dafiir werden auch die beiden Verteilungen P(a) und P(daten) bendtigt. Sie enthalten Informationen, die vor der Anpassung von a an die Daten bekannt sein miissen, und werdenals »A-priori«-Verteilungen bezeichnet. Die Daten sind iiblicherweise vor Beginn des Anpassungsverfahrens schon gemessen worden. Dasheift, P(daten) variiert bei der Anpassung des Parameters a nicht und ist deswegeneine Konstante in (2.32): P(daten) = const.
(2.33)
Fiir P(a) musseine Verteilung als Funktion von a vorgegeben werden.Hierist eine Einschiétzung des Physikers erforderlich, welche Verteilung sinnvollerweise zur Anwendung kommt. Zum Beispiel kénnen alle Werte von a gleichermaBen zugelassen werden: P(a) = const.
(2.34)
In diesesstatistische Verfahren geht also die Vorerfahrung des Physikers und damit seine subjektive Einschatzung mit ein. Ublicherweise wird die vorgegebene Verteilung P(a) variiert. Damit wird der Einfluss der subjektiven Wahl von P(a) auf den resultierenden Parameter a untersucht und in der Fehlerangabefiir a beriicksichtigt.
30
Das Wichtigste zum Mitnehmen
Das Wichtigste zum Mitnehmen @ Eine Eigenschaft A trete bei m Beobachtungen k-mal auf. Die Wahrscheinlichkeit P(A) fiir das Auftreten von A betragt: k
P(A) = —
Vielfach kénnen wir P(A) empirisch (durch Ausprobieren) bestimmen.Fiir bestimmte
Situationen lasst sich P(A) aus Symmetrietiberlegungen (z. B. Wiirfel), der Anzahl mdglicher Kombinationen oder der Konfiguration eines Experiments herleiten.
®@ Die Wahrscheinlichkeit fiir das Auftreten einer Konfiguration mit mehreren Objekten berechnenwir tiber die inverse Anzahl N von Anordnungsméglichkeiten: p= 1
= Diese Anzahl hangt davonab, ob die Objekte unterscheidbar sind und ob die Reihenfolge der Anordnung zu beachtenist. Fiir n unterscheidbare Objekte ist die Anzahl der geordneten Anordnungsméglichkeiten: N=n!
Fiir eine Untermenge von k Objekten aus insgesamt n unterscheidbaren Objekten reduziert sich die Anzahl auf: n!
tach Ist die Reihenfolge der ausgewahlten, unterscheidbaren Objekte unwesentlich, reduziert sich die Anzahl weiter:
~\k) ~ kms)! @ Bei der Kombination von Wahrscheinlichkeiten unterscheiden wir alternatives Auftreten und gleichzeitiges Auftreten von Ereignissen. Fragen wir nach der Gesamtwahrscheinlichkeit, dass entwederEreignis A oder Ereignis B auftritt, summieren wir die Einzelwahrscheinlichkeiten, miissen aber gleichzeitiges Auftreten von A und B beriicksichtigen(falls es das gibt):
P(AV B) = P(A) + P(B) — P(AAB) Wenn das Auftreten von B dem Nicht-Auftreten von A entspricht (B = A), betragt die Gesamtwahrscheinlichkeit:
P(AV A) = P(A) + P(A) =1 Die bedingte Wahrscheinlichkeit fiir das Auftreten von Ereignis B, nachdem Ereignis A eingetretenist, lautet:
P(AA B) = P(BIA)- P(A)
Ein typischer Fall ist, dass A und B auftreten kGnnen und unabhingige Ereignisse sind, dann multiplizieren wir fiir die Gesamtwahrscheinlichkeit die Wahrscheinlichkeiten
fiir das Auftreten der Einzelereignisse:
P(AA B) = P(A)- P(B)
Ft
Wahrscheinlichkeit
@ Das Theorem von Bayes verbindet die bedingten Wahrscheinlichkeiten, bei denen zuerst Ereignis A und dann Ereignis B eintritt, mit dem umgekehrtenFall:
P(B|A)- P(A) = P(A|B)- P(B) In den folgenden Kapiteln des Lehrbuchs werden wir die grofe Bedeutung des Theorems fiir Datenanalysen ausfiihrlich beschreiben. Zum Beispiellasst sich nach der Anpassung P(Daten|a) eines theoretischen Modells mit dem Parameter a an die Daten die Aposteriori Wahrscheinlichkeit P(a|Daten) berechnen,sodass sich der Modellparameter
a aus den Messdatenergibt.
Aufgabe2.1: Lotterie In einer Lotterie sind aus den sechs Zahlen (1, 2,3, 4,5,6) insgesamt 3 verschiedene
Zahlen zu tippen.
Wie groB ist die Anzahl der Méglichkeiten, drei verschiedene Zahlen auszuwahlen? Wie wahrscheinlichist es, die Kombination (2, 4,6) zufallig zu treffen?
32
Wahrscheinlichkeits-
Zufallsvariablen, Messdaten ........... 0.0000 eee eee Verteilung einer diskreten Zufallsvariablen............ 3.1.1 Verteilung einer kontinuierlichen Zufallsvariablen ....... 3.1.2
35 35 36
Kenngr6Ben fiir Wahrscheinlichkeitsverteilungen ............ Lokalisierungsparameter. 24 26 hee ee eee ne 3.2.1 3.2.2 Dispersionsparameter
38 39
Gleich-, Binomial-, Poisson-, GauB-, Exponentialverteilung ....... Gleichverteilung 3.3.1 Binomialverteilung . 0) eee wae eee hee SEES 3.3.2 Poissonvertellung . ..2.0%¢ 5454 © f 8 He eH Ht ew es 3.3.3 Gaubverteilung 2254s 865i 8 oa waa wes He es ES 3.3.4 Exponentialvertetling: . 2. se8 5 bese eee sms eee wes 3.3.5 Zweidimensionale Wahrscheinlichkeitsdichten.............. Wabrscheimlichkeit ss5 22s ¢ap 1.00,
5°75) =
0.50)
0.25)
me
2
Vams
tut
itt Hi
—y
/i
0
th! 1
© FWHM 2
3 v / (km/s)
Nesters
§=©M!axwell-Boltzmann-Verteilung Die Maxwell-Boltzmann-Verteilung (3.27) beschreibt die Wahrscheinlichkeitsdichte, mit der ein Gasmolekiil die Geschwindigkeit v besitzt. Fiir die hier gewahl-
te Temperaturist die wahrscheinlichste Molekiilgeschwindigkeit vmax = 1 km/s. Die Verteilung ist asymmetrisch, sodass Mittelwert (v) und Median vpeq nicht mit dem Maximum vmax zusammenfallen. Die Streuung der Molekiilgeschwindigkeiten kann durch das Root-Mean-Square ugms oder das Full-Width-Half-Maximum
Quellcode
FWHM charakterisiert werden. (Python-Code: Fig_maxwell. py)
3.3.
Gleich-, Binomial-, Poisson-, GauB-, Exponentialverteilung
Im Folgendenstellen wir die wichtigsten Wahrscheinlichkeitsverteilungen vor. Dazu geh6ren bei den diskreten Zufallsverteilungen die Binomialverteilung und die Poissonverteilung, und bei den kontinuierlichen Verteilungen die Gleichverteilung, die GauBverteilung und die Exponentialverteilung.
3.3.1.
Gleichverteilung
Die Gleichverteilung ist eine Wahrscheinlichkeitsdichte mit einem konstanten Funktionswertfiir alle Werte der Zufallsvariablen x im Intervall zwischen xz = a und x = b (> Abbildung3.5).
Die mathematische Definition der Gleichverteilung lautet 1 ie 0
Abbildung 4.5) eingetragen. Im rechten Histogramm ist entsprechend die Uberlagerung von n = 5 Zufallszahlen gezeigt. Vom Trompeterist nichts mehr zu erkennen, die Entwicklung der Verteilung in Richtung einer Gaufiverteilung fiir groBe n kann man erahnen (Bildbearbeitung: Dr. Stefan Fliescher).
4.2 Zentraler Grenzwertsatz
-100/-200}
-300a |
-400f -500
GOOG eter dee de 0
100
200
300
400
500
600
700
xX
PN) Viele @5)
=‘Trompeterverteilung Die zweidimensionale Wahrscheinlichkeitsverteilung in der Form eines Trompeters hat schwarze Punktepaare (, y) mit gleicher Wahrscheinlichkeitsdichte. Punktepaare der weifen Flache ergeben keinen Beitrag und werdennicht beriicksichtigt.
~
OC
>
-100f-
1001
-200/-
-200/-
-300-
-300f-
“400!
400
-500/-
-500/-
Feces Povvitrreatens
0
100
200
300
400
500
600
700
ee Pocono leeds
0
100
200
300
400
Xx
Niles)
500
600
700
Xx
~©6Uberlagerung von zufallig gewahlten Punktepaaren(2;, y;) Bei der Uberlagerung von zufallig gewahlten Punktepaaren(2;, y;) aus der Wahrscheinlichkeitsdichte des Trompeters (® Abbildung 4.4) durch Bildung der Mittelwerte F = $7", aj/n und gy = 7, yi/n sind beiderlinks gezeigten Uberlagerung von n = 2 Punktepaaren Teile des Originalbilds noch zu erkennen.Die rechts gezeigte Uberlagerung von n = 5 Punktepaaren konzentriert sich im mittleren Bereich.
83
ra Messwerte und Stichproben
4.3.
Anwendungen zum Zentralen Grenzwertsatz
Im Folgenden untersuchen wir Stichproben von Messwerten aus der Wahrscheinlich-
keitsdichte der Maxwell-Boltzmann-Verteilung. Wir bestimmen Mittelwert und Standardabweichung der Stichproben und beobachten dabei die Auswirkungen des zentralen Grenzwertsatzes.
4.3.1
Mittelwertberechnung
Wir beginnen diesen Abschnitt mit einem Gedankenexperiment. Experiment 4.3: Atomgeschwindigkeiten In diesem Gedankenexperimentstellen wir uns ein ideales Gas vor, in dem wir stichprobenartig die Geschwindigkeiten v von n = 10 einzelnen Atomen messen. Die zugrunde liegende Wahrscheinlichkeitsdichte ist die Maxwell-Boltzmann-Verteilung (3.27). Um unsere Rechnungeneinfach zu halten, wahlen wir die Einheiten der
Atomgeschwindigkeit v so, dass das Maximum der Maxwell-Boltzmann-Verteilung bei v = 1 liegt, und wir v als dimensionslose Gréfe behandeln kénnen.
3 Vv
PN) A-y)
=©Geschwindigkeitsverteilung der Atome eines Gases Die Geschwindigkeitsverteilung der Atome eines Gases nach Maxwell-Boltzmann (3.27) ist asymmetrisch mit einem Auslaufer zu hohen Geschwindigkeiten. Der
Parameter der Temperatur wurdehier so gewahlt, dass das Maximum der Wahrscheinlichkeitsdichte bei der Geschwindigkeit v = 1 liegt (fiir unsere Diskussion wird v vereinfacht als dimensionslos angenommen). Das Histogramm zeigt die Geschwindigkeiten v von 10.000 Gasatomen, wobeiv fiir jedes Atom anhand der Maxwell-Boltzmann-Verteilung (durchgezogene Kurve) zufallig ausgewahlt wurQuellcode
de. (Python-Code: Fig_maxwell_Zufall1l. py)
Unsererstes Ziel ist, den Mittelwert (v) = 1,128 (3.28) durch Summieren von n = 10
»Messungen« der Atomgeschwindigkeiten aus dieser Wahrscheinlichkeitsdichte f(v) zu verifizieren. Unsere Messungen entsprechen hier der Ziehung von Zufallsvariablen v; aus der Wahrscheinlichkeitsdichte f(v).
84
4.3 Anwendungenzum Zentralen Grenzwertsatz
2 ia.
600
aa i
A
i
400
\
ae ir
P
Lage
200
if
0
4 a
aie
s~
1.0
15 |
0.5
\
\
i a
P\oovifeltitee-f4)
Rekonstruktion des Mittelwerts der Maxwell-Boltzmann-Verteilung Wir rekonstruieren den Mittelwert der Maxwell-Boltzmann-Verteilung nach dem Zentralen Grenzwertsatz, indem wir den Mittelwert mehrerer Messungen bilden.
Jeder Eintrag im Histogramm zeigt den Mittelwert v der Geschwindkeiten von n = 10 Gasatomen, die zufallig anhand der Maxwell-Boltzmann-Verteilung ausgewahlt wurden (» Abbildung 4.6). Bei 10.000 Wiederholungen der Mittelwertbildung ergibt sich eine symmetrische Gaufverteilung mit einem Mittelwert v, der dem Mittelwert der asymmetrischen Maxwell-Boltzmann-Verteilung (v) = 1,13 (3.28)
entspricht. Die Standardabweichung der Gaubverteilung zeigt die Streuung der Mittelwerte 0 bei Verwendung von n = 10 Atomen: sz = 0,15, was der Erwartung
Brine
oz = o/\/n entspricht, wobei o die Standardabweichung (3.29) der Maxwell-
Quellicode
Boltzmann-Verteilung bezeichnet. (Python-Code: Fig_maxwell_Zufall.py)
Um die mittlere Atomgeschwindigkeit (v) zu bestimmen, bilden wir als Schatzung v den Mittelwert der Geschwindigkeiten durch Addition der n = 10 Messwerte und Division durch die Anzahl der Messungen:
sei 2, v ; = 1
4.14 (4.14)
ze Nach dem Zentralen Grenzwertsatz folgt die Summe(4.9)
w= Sou
(4.15)
a= 1
einer Gaubverteilung mit dem Mittelwert (w) und der Standardabweichung o,,. Unser geschatzter Mittelwert @ (4.14) WwW n
folgt daher ebenfalls einer GauBverteilung mit dem Mittelwert
5) = (6) = =a
(4.17)
Wir tiberpriifen dieses Ergebnis, indem wir mit dem Computer 10.000 zufallige Messreihen mit jeweils n = 10 Messwerten erzeugen. In der » Abbildung 4.7 sehen wir, dass die Mittelwerte v der Messreihen um einen Wert streuen und wie erwartet einer GauBverteilung folgen.
85
Messwerte und Stichproben
Als Mittelwert dieser gewiirfelten Messreihen erhalten wir v = 1,13, was gut mit dem Mittelwert (v) = 1,128 der Maxwell-Boltzmann-Verteilung iibereinstimmt. Bei demallgemein tiblichen Verfahren, Mittelwerte durch Aufsummieren mehrerer beob-
achteter Messwerte zu bestimmen und durch die Anzahl der Messungenzu dividieren, erhalt man also Mittelwerte nahe des wahren Mittelwerts.
Die summierten Messgrofen folgen dabei einer Gaufiverteilung und nicht mehrderOriginalverteilung, aus dersie urspriinglich entnommen wurden!
4.3.2
Fehler des Mittelwerts
Unsere Schatzung t des Geschwindigkeitsmittelwerts (4.14) haben wir aus Zufallsvariablen v; berechnet. Daherist v selbst eine Zufallsvariable und hat eine eigene Varianz, wie wir
anhandder Streuung der Mittelwerte in der » Abbildung 4.7 erkennen kénnen. Die Varianz des Mittelwerts berechnen wir unter Beriicksichtigung des Zentralen Grenzwertsatzes. Wir setzen (4.15) in die Berechnungder Varianz ein und erhalten mit (4.12):
V[o] =V
22
=V
h
= 5-vtu] = Aono = 2M -
Die Standardabweichung oz = \/V [| der Verteilung der Mittelwerte « sinkt demnach mit der Wurzel aus der Anzahl n der Messungen. Wir kénnensie aus der Standardabweichung o der originalen Wahrscheinlichkeitsdichte, die die Streuung der Messwerte beschreibt, und der Anzahl n der Messwerte berechnen: oO
05 =
Jn
(4.18)
Wir bezeichnen s; als Fehler des Mittelwerts. In unserem Beispiel berechnen wir den Fehler des Mittelwerts tiber die Standardabweichung o = 0,476 (3.29) der Maxwell-Boltzmann-Verteilung und die Anzahl n = 10 der
Messungen: o 0,476 5 = —= = = — 0,15 Jn Vv 10
4.19
In der Abbildung 4.7 betragt die Standardabweichung s; = 0,15. Dieser Wert stimmtgut mit unserer Berechnungiiberein.
4.3.3
Bestimmung der Standardabweichung
Die Geschwindigkeiten der Atomedes idealen Gases variieren entsprechend der MaxwellBoltzmann-Verteilung. Die Varianz der Atomgeschwindigkeiten k6nnen wir nach der Definitionsgleichung (3.19) berechnen.
Wir wollen nun auch die Varianz V[v;] bzw. die Standardabweichung o = \/V|v;] der Atomgeschwindigkeiten aus den n = 10 Messungen (Zufallsvariablen) abschatzen. Dafiir
86
4.3 Anwendungen zum Zentralen Grenzwertsatz
addieren wirdie quadratische Differenz zwischen den Messwerten v; und dem Mittelwert & (4.14):
(4.20)
4.3.4
Fehler der Standardabweichung
Die Standardabweichung s (4.20) haben wir aus Zufallsvariablen v; berechnet, sodass s selbst auch einer Zufallsvariablen mit einem Fehler entspricht. Die Genauigkeit der Standardabweichung s verbessert sich ebenfalls mit der Wurzel aus der Anzahl der Messungen n[7]: Ss =
(4.21)
\/2 (n—1)
Fiir unser Beispiel der Maxwell-Boltzmann-Verteilung berechnen wir die Genauigkeit der Standardabweichungsbestimmungbei n = 10 Messungen.In der » Abbildung4.8 sind die Standardabweichungen gezeigt, die sich bei den 10.000 Wiederholungen mit n = 10 Werten ergaben. Als mittlere Standardabweichungerhalten wir hier ¢ = 0,44 und als deren Standardabweichungs, = 0,10 in Ubereinstimmung mit dem erwarteten Wert von
3/\/2 (n—1) =0,1. 800; Zz
n=10000 5=0.44 s;=0.10
600:
400 200; 0
0.00
0.25
0.50
0.75
1.00 Ss
PNojeyifoltiavey8:3)
Rekonstruktion der Standardabweichung der Maxwell-Boltzmann-Verteilung Wir rekonstruieren die Standardabweichung der Maxwell-Boltzmann-Verteilung, indem wir die Standardabweichung aus mehreren Messungen bestimmen.Jeder Eintrag im Histogramm zeigt die Standardabweichung s berechnet aus den Geschwindkeiten von n = 10 Gasatomen, die zufallig anhand der MaxwellBoltzmann-Verteilung ausgewahlt wurden (> Abbildung 4.6). Der Mittelwert 5 aller 10.000 Bestimmungen der Standardabweichungstimmt in guter Naherung mit der Standardabweichung der Maxwell-Boltzmann-Verteilung o = 0,476 (3.29)
iiberein. Die Standardabweichungderhier gezeigten Verteilung zeigt die Streuung in der Schaétzung der Standardabweichung der Maxwell-Boltzmann-Verteilung bei Verwendung von n = 10 Atomen: ss = 3/\/2(n — 1) = 0,10. (Python-Code: Fig_maxwell_Zufall.py)
itis Quellcode
87
BT vesswerte und Stichproben
4.4
Gewichteter Mittelwert
Bisher haben wir Messwerte kombiniert, die gleiche Fehler hatten, und damit den Mit-
telwert und die Varianz gebildet. In diesem Abschnitt fiihren wir Kombinationen von Messungen mit bekannten, verschiedenen Fehlern o; durch. Dabei sollen natiirlich prazise Messungen das gemeinsame Messergebnis starker beeinflussen als Messungen mit grofen Messfehlern.
Ale
Wir beriicksichtigen daher die verschiedenen Messgenauigkeiten durch Gewichte, die wir aus den Fehlern bilden: =
(4.22)
Ein Messwert mit kleinerem Fehler wird damit staérker beriicksichtigt. In Abschnitt 7.1 werden wir zeigen, dass die Verwendungder inversen Varianz als Gewichtfiir gauBverteile MessgréBen optimalist, da so der Fehler des gewichteten Mittelwerts minimiert wird. Der gewichtete Mittelwert ergibt sich dann durch die gewichtete Summe:
sted
(4.23)
Die Varianz des Mittelwerts ist gegeben durch [7]: 1
A
Viz] ==— = Wi a
;
(4.24)
aes > o?
Der Fehler des Mittelwerts ist dann: if o= = wo
(4.25)
Als Test setzen wir gleiche o; = o an und erhalten damitdie tiblichen Berechnungenfiir den Mittelwert und seinen Fehler:
88
4.4 Gewichteter Mittelwert
Beispiel 4.6: Gewichteter Mittelwert einer Teilchenlebensdauer Ausgehend von den folgenden beiden unabhangigen Messungender mittleren Lebensdauereines instabilen Teilchenssoll der Mittelwert berechnet werden:
7 = (13,50+0,40)s, 72 = (13,90 +0,20)s Als ungewichteten Mittelwert erhalten wir 7 = (13,70 +:0;22)s:.
Beriicksichtigen wir die unterschiedlichen Messgenauigkeiten der beiden Experi-
mente und bilden den gewichteten Mittelwert, so ergibt sich:
7 = (13,82 + 0,18) s Dieses Ergebnis hat einen kleineren Fehler, da die Informationen besser ausgenutzt werden: Der genaue Messwert wird hier um den Faktor 4 staérker gewichtet als der ungenaue Wert.
89
RE tesswerte und Stichproben
Das Wichtigste zum Mitnehmen ™@ Wir fassen Messwerte als Zufallsvariablen auf, die der Wahrscheinlichkeitsverteilung unseres Experiments entnommen wurden. Die Gesamtheit der Messwerte bezeichnen
wir als Stichprobe und bestimmen den Stichprobenmittelwert
und die Standardabweichung
Die Genauigkeit der Schaétzung des wahren Mittelwerts (x) der Wahrscheinlichkeitsver-
teilung durch den Stichprobenmittelwert verbessert sich mit dem Stichprobenumfang (Gesetz der groBen Zahl). Den Fehler des Mittelwerts erhalten wir durch die aus den
Messwerten geschatzte Standardabweichung s und anschlieBende Division durch die Wurzel aus der Anzahl n der Messwerte. Die Angabe des Messresultats ist dann: 8 2
Vn
Als Freiheitsgrade bezeichnet man die unabhangigen Grdfen eines Systems. Fiir einen Datensatz entspricht zunachst die Anzahl der Freiheitsgrade der Anzahl n der Messwerte. Verwenden wir ein Ergebnis aus den n Messwerten, z. B. den berechneten Mittelwert z, fiir weitere Berechnungen, z. B. der Standardabweichung, so reduziert sich die Anzahl der Freiheitsgrade auf n — 1. Daher dividieren wir bei der Berechnung der Standardabweichungnur durch (n — 1). Der Zentrale Grenzwertsatz beschreibt die Kombination vieler Zufallsvariablen, die einer Wahrscheinlichkeitsverteilung entnommen wurden.Deraus den Zufallsvariablen
gebildete Mittelwert ist eine Schatzung des Mittelwerts der Wahrscheinlichkeitsverteilung. Die aus den Zufallsvariablen gebildete Standardabweichungist eine Schatzung der Standardabweichung der Wahrscheinlichkeitsverteilung. Obwohl die Wahrscheinlichkeitsverteilung selbst keine GauBverteilung sein muss, folgen die geschitzten Werte von Mittelwert und Standardabweichungjeweils einer Gaufverteilung.
(i/o?) 1/o?
tu
90
1
eo) =
.
ll
gl
is
Wenn die Unsicherheiten von Messwertenvariieren, erhalt man eine prazisere Kombinationen durch den gewichteten Mittelwert. Die einzelnen Messwerte x; erhalten dafiir als Gewicht w; = 1/a? die inverse, quadrierte Standardabweichung. Genaue Messwerte gehen hierdurchstarker in die Mittelungein:
1 /o:
/
» Abbildung 5.1 ist im rechten oberen Quadranten die Transformationsvorschrift y = y(2) gezeigt. Im rechten unteren Quadranten ist zusatzlich der Verlauf der Wahrscheinlichkeitsverteilung f(a) skizziert. Die dunkle Flache zeigt die Wahrscheinlichkeit, den Wert der Zufallsvariablen im Intervall Az zu finden.
PNooifeltteneei)
Transformation von Wahrscheinlichkeitsdichten Der funktionale Zusammenhang zwischen den Variablen z und y sei durch y(z) gegeben. Die Wahrscheinlichkeitsdichte f, (x) wird in die Wahrscheinlichkeitsdichte fy(y) so tiberfiihrt, dass die Wahrscheinlichkeitfiir jedes transformierte Intervall Aw — Ay erhalten bleibt (grau schattierte Flachen).
Nach links sind entsprechend die Wahrscheinlichkeitsverteilung f,(y) und die Wahrscheinlichkeit eingezeichnet, dass die Zufallsvariable im Bereich Ay liegt. Die Wahrscheinlichkeit, die Zufallsvariable im Intervall {a, x + dz] zu finden, soll bei der Transformation in das Intervall [y, y + dy] erhalten bleiben. Daher miissen die Flachen unter den beiden Wahrscheinlichkeitsverteilungen gleich groB sein:
fe(x) dx = fy(y) dy
(5.1)
Die Transformationsvorschrift lautet demnach:
fu(y) = f(x)
dx dy
(5.2)
Die Absolutwerte stellen sicher, dass die Wahrscheinlichkeitsverteilungen positiv sind.
95
Messfehler und Fehlerfortpflanzung
5.2
Fehlerfortpflanzungsgesetz
ImFolgenden untersuchen wir gingige Wahrscheinlichkeitsdichten f,(a) und f,(y), die wie in der » Abbildung 5.1 jeweils einen Maximalwert haben und von dort aus Auslaufer zu héheren und niedrigeren Werten besitzen. Die Transformationsvorschrift y(x) soll differenzierbar sein und nursteigen (oder nurfallen).
5.2.1
Fehlerfortpflanzungsgesetz mit einer Variablen
Im Folgenden transformieren wir die wichtigsten KenngréBen, den Mittelwert (x) und die Standardabweichungo., der originalen Wahrscheinlichkeitsdichte f, (). Den transformierten Mittelwert (y) und die transformierte Standardabweichung o, der Wahrscheinlichkeitsdichte f,(y) erhalten wir mithilfe einer Taylorentwicklung der Transformationsvorschrift y(a), die wir nach dem quadratischen Term abbrechen:
(a) © y((c)) + dy
dz 2=(z) :
d’y (e— (e)) + 51 Falay NY?
(6.3)
Mittelwert
Den Mittelwert (y) der neuen Wahrscheinlichkeitsdichte f(y) erhalten wir durch Einsetzen der Taylorentwicklung (5.3) in die Gleichung des Erwartungswerts (3.14):
d*y dy | + Fea) Fil =_ BUC) LES+ 31 dtlen SERN; Der zweite Term der rechten Seite verschwindet wegen (3.16). Der dritte Term entspricht der Varianz (3.19). Der erste Term entspricht wegen (3.7) dem transformierten Mittelwert
y((x)):
/” y((e)) fy dy = y((2)) /” fy dy =yllod) 7
—=——-
Den Mittelwert (y) der Wahrscheinlichkeitsdichte f, berechnen wir also aus dem transformierten Mittelwert y((x)) und einer Korrektur zweiter Ordnung auf die Varianz V [2]:
(y) = Ely]
(5.4)
= y((x)) +
1 dy
Der Korrekturterm wird haufig vernachlassigt, sodass meistens nur der transformierte Mittelwert als neuer Mittelwert verwendet wird:
(y) © y((z))
96
(5.6)
5.2 Fehlerfortpflanzungsgesetz
Standardabweichung Fiir die Varianz (3.19) der Wahrscheinlichkeitsdichte f,(y) erhalten wir aus den ersten beiden Termen der Taylorentwicklung(5.3) und unter Beriicksichtigung der Naherung(5.6):
dy Viyl = Ely - WB (v1 * 2 wey ~ Lv) =y((x))
2 EF
dy
—_(e
(z Abbildung 6.1 zeigt, wie wichtig eine korrekte Analyse systematischer Fehlerist. Wahrend die Messgenauigkeit im Laufe der Jahre immer besser wurde, zeigt der zeitliche Verlauf eine Verschiebung des Mittelwerts, der mit einigen der angenommenen Genauigkeiten kaum vereinbar ist. Vermutlich wurden bei diesen fritheren Experimenten systematische Fehler unterschatzt.
6.1.1
Unterscheidung statistischer und systematischer Fehler
Statistische Fehler entstehen durch Zufallsprozesse. Wir kénnen sie mit exakten mathematischen Methoden berechnen, die wir bereits im ersten Kapitel skizziert und dann in den folgenden Kapiteln vorgestellt und begriindet haben. Systematische Fehler verursachen Verschiebungen in den Messwerten. Wenn man mehrere Messungen im Kontext einer Messreihe durchfiihrt, kGnnen alle zugehGrigen statistischen Fehler unabhangig voneinander sein, wahrend die systematischen Fehler vollstandig korreliert sein kénnen, da dieselbe Messapparatur verwendet wird. Zum Beispiel werden alle Messwerte aufgrund einer fehlerhaften Eichung der Apparatur zu etwas héheren Messwerten als der wahre Wert verschoben. Angabenfiir die systematischen Fehler reflektieren eigentlich die Unkenntnis der Physiker iiber ihre Apparatur. Man kénnte deswegen praziser von Unsicherheiten sprechen anstelle von Fehlern. Denn solche systematischen Fehler haben zunichst nichts mit Fehlern des messenden Physikers zu tun, die natiirlich auch vorkommen kénnen.
111
is Systematische Fehler
Or. 1960 tve)eifeliteteseil)
1980
m 2000
2020
~=©Messungen der Neutronenlebensdauer Die durchgezogeneLinie zeigt den Weltmittelwert 7 = (879,40,6) s von 2018 [11] unddie Ergebnisse, die fiir seine Berechnungberiicksichtigt wurden.Diegestrichelte Linie fiihrt den Weltmittelwert von 2018 zuriick in der Zeit. Die Fehlerbalken visualisieren die Gesamtfehler der Experimente aus statischen und systematischen Fehlern, die bei einigen der friiheren Experimente unterschatzt wurden.
Beispiele fiir solche Physikerfehler ware ein grofer systematischer Fehler aufgrund einer nicht erfolgten Kalibrationen einer Uhr, die man vor der Messunghatte durchfiihren kénnen. Ein anderesBeispiel ist die Verwendung von temperaturempfindlicher Elektronik ohne Protokollierung der Temperatur, sodass die Kenntnis der Experimentierbedingungen unvollstandig bleibt.
6.1.2
Rahmenbedingungen fiir systematische Fehler
Eine physikalische MessgréBe wird immer innerhalb eines theoretischen Rahmens angege-
ben. Dieser Rahmen kann explizit aufgeschrieben sein. Er kann durch eine Konvention der Physiker vereinbart sein. Der Rahmen kann aber auch implizit durch »common sense« (wasals verniinftig angesehen wird) gegebensein. Nur wenn solche Rahmenbedingungen in einem Experimenttatsachlich eingehalten sind, erhalten wir ein sinnvolles Messergebnis. Zum Beispiel werden in einem Experiment mit Magnetfeld die Ablenkungen einfach geladener Teilchen gleicher Geschwindigkeit aber unterschiedlicher Massen im Vergleich zu der Ablenkung von Elektronen gemessen.Ziel ist die Bestimmung der entsprechenden Teilchenmassen. Dabei dient die Elektronenmasse als Referenzwert, deren Wert von (9,1093837015 + 0,0000000028) 10~** kg [12] vorausgesetzt wird. Eine solche mit den Rahmenbedingungen verkniipfte Annahmeist nicht Bestandteil der systematischen Fehler eines Experiments. Seine systematischen Fehlerangaben beziehen sich auf die Unsicherheiten innerhalb des Rahmens.
112
6.2 Vorgehen zur Bestimmung
Die Grenze des Rahmenskannaberin einem Experiment verschoben werden. Wird bei der Ablenkung der Teilchen im Magnetfeld die Elektronenmasse nicht vorausgesetzt, sondern aus einer Kalibrationsmessung gewonnen, so tragt dieser Fehler zum systematischen Gesamtfehler des Experimentsbei.
6.2.
Vorgehen zur Bestimmung
Die Bestimmung von systematischen Fehlern einer Messungist ei Detektivarbeit, bei der man Fehlerquellen aufdecken muss, physikalisch-philosophische Uberlegung, ob die Unkenntnis innerhalb oder auBerhalb des theoretischen Rahmensliegt,
Ei professionelle Datenanalyse, bei der a) die Fehler in ihrer Wichtigkeit priorisiert werden, b) eventuell geeignete Korrekturen eingefiihrt werden, undc) alle Unsicherheiten
in einem gesamten Messfehler zusammenfasst werden. Man kannsich leicht vorstellen, dass verschiedene Wissenschaftler systematische Fehler fiir ein und dieselbe Messung unterschiedlich abschatzen werden. Die unterschiedliche Denkweise bietet die Chance, systematischen Fehlern méglichst vollstandig auf die Spur zu kommen. Wissenschaftliche Diskussionen dariiber sind also im Allgemeinen sehr willkommen. Damit experimentelle Resultate quantitativ miteinander verglichen werden kénnen, versucht man sich zumindest in den verschiedenen wissenschaftlichen Forschungsbereichen auf Konventionen in der Fehlerbestimmungzu einigen.
6.2.1
Identifikation von Fehlerquellen
Die systematischen Unsicherheiten entsprechen Effekten, deren Einfluss auf den Messwert abgeschatzt werden muss. Viele solcher Effekte muss man als Physiker erst aufdecken. Das heift man muss sehrkritisch und sorgfaltig alle Annahmen beim Messprozess hinterfragen. Beispiel 6.2: Suche nach systematischen Fehlerquellen Typische Uberlegungenfiir die Suche nach systematischen Fehlerquellen sind: Kalibration: Unsicherheiten kannes in der Kalibration des Experiments beziehungsweise in einzelnen Komponenten des Experiments geben. Dabei kann es sich um Zeit-, Energie-, Temperaturmessungen undso weiter handeln.
BPEsystematische Fehler
Untergrund: Weitere Méglichkeiten sind Stéreffekte im Versuch, wie zum Beispiel Rauschenbei der Signalaufnahme, Vibrationen in der Apparatur oder der Umgebung und andere Effekte, die oft als Untergrund bezeichnet werden. Veranderliche: Systematische Fehlerquellen sind auch Abhangigkeiten von der Zeit, der Feuchtigkeit, der Temperatur oder von Bewegungen. Modelle: Auch Unsicherheiten in fiir die Messung verwendeten theoretischen Modellen kénnen zu systematischen Unsicherheiten beitragen. Bei der Modellierung tiber Simulationsprogramme kann die dort verwendete begrenzte Ereignisstatistik systematische Unsicherheiten erzeugen. Parameter: Unsicherheiten in einzelnen Parametern, wie z. B. der Ausdehnungskoeffizient eines Materials, erzeugen systematische Fehlerquellen, wie wir im Beispiel weiter unten darlegen werden. Die sorgfaltige Protokollierung der Umgebungsdaten — z. B. Uhrzeit, Temperatur, besondere Vorkommnisse — ist bei der Durchfiihrung eines Experiments fiir die Evaluierung der systematischen Effekte eine Selbstverstandlichkeit. Bei systematischen Fehlerquellen kann es zu Verkettungen von Unsicherheiten kommen, sodass auch hier Berechnungen zur Fehlerfortpflanzung (Kapitel 5) erforderlich sein kénnen. Experiment 6.1: Systematischer Fehler 1: Tischgr6Be Ein Physiker misst die Lange eines Wohnzimmertischs bei Zimmertemperatur von 20 °C mithilfe eines Plastiklineals zu
lo = 2,413m. Um den systematischen Fehler der Messung abzuschatzen, verwendeter drei weitere Lineale aus verschiedenen Materialien fiir die Messung der Tischlaénge undfindet:
1, = 2,410m lp = 2,413m ls = 2,414m Er fasst die systematische Unsicherheit durch das VerwendenverschiedenerLineale mithilfe der Standardabweichung(1.5) zu s,s: = 0,003 m zusammen und prasentiert als Resultat 1 = (2,413 + 0,003) m.
114
(6.1)
6.2 Vorgehen zur Bestimmung
Experiment 6.2: Systematischer Fehler 2: TischgréBe
Nach Diskussion mit Kollegen untersucht der Physiker das Plastiklineal, mit dem er die Lange des Wohnzimmertischs bestimmt hat. Um den systematischen Fehler dieser Messung genauer abzuschatzen warmter das Plastiklineal vor weiteren Messungen in der Sonneauf (40°C) und kiihlt es dann im Kiihlschrank (0 °C) ab: looc = 2,418 m lao °>~c = 2,409m
Als systematische Fehlerangabe wahlt er die Halfte der maximalen Variation iiber den gesamten Bereich o5,;: = 0,005 m undgibt als sein zweites Resultat an:
1 = (2,413 + 0,005) m In einem spateren Beispiel wird der Physiker nach weiteren Uberlegungenfeststellen, dass diese Fehlerabschatzung zum einen zu konservativ ist, zum anderen
die Temperaturunsicherheit gar nicht den Hauptbeitrag zum systematischen Fehler ergibt.
Experiment 6.3: Systematischer Fehler 3: Tischgr6Be Der Physiker tiberlegt noch einmal, wie die Genauigkeitsangabe der Tischlange verbessert werden kann. Aus den Messungen nach AufwarmendesPlastiklineals in der Sonne auf 40°C und Abkiihlung im Kiihlschrank (0°C) berechnet er den
Ausdehnungskoeffizienten a des Lineals (L = L. [1+ a(T —T.)]): 0,009 m
1
o= 9a13m40K ~ 20 x Wenn die Zimmertemperatur von 20°C auf +1 °C bekanntist, dann ware dersystematische Fehler aufgrund der TemperaturausdehnungdesPlastiklineals deutlich Kleiner, als zunachst angenommen:
Csyst = 0,0001m Im Vergleich zu den ersten Messungen mit den drei weiteren Linealen ist der Fehlerbeitrag durch Temperatureffekte vernachlassigbar klein. Der systematische Fehler
des Ausdehnungskoeffizienten spielt demnach hier ebenfalls keine Rolle. Das zuerst prasentierte Resultat (6.1) zeigt bereits einen dominanten Fehlerbeitrag durch die Ungenauigkeit der Langenskala.
115
oa Systematische Fehler
6.2.2
AngabedesFehlerbereichs
Jeder mégliche systematische Effekt wird individuell daraufhin untersucht, wie stark er das Endergebnis der Messung verandern kann. Oft hilft dabei schon eine Abschatzung mithilfe der Herstellerangabe tiber die Eichgenauigkeit verwendeter Gerate. Beispiel 6.3: Eichgenauigkeiten
Lautstarkemesser
Referenzwert
Eichgenauigkeit
1kHz
+3,5 dB
Alternative Méglichkeiten bestehen in der Anwendung physikalischer Konzepte auf die Situation des Experiments zur Berechnungder systematischen Effekte. Beispiel 6.4: Physikalische Konzepte
Gesetz
Temperaturausdehnung
LL = L. (1 + a(T — To))
BenGtigen wir die Luftreibung als Funktion der Geschwindigkeit, konnen wir den zugehérigen systematischen Fehler mithilfe des Stokes’schen Reibungsgesetzes abschatzen. Beispiel 6.5: Reibungskraft Wir wollen die Unsicherheit in der Reibungskraft abschatzen, die eine durch die Luft fliegende Kugel mit Radius r = 5 cm erfahrt. Den Kugelradius kénnen wir auf Ar = 0,1cm genau bestimmen. Die Viskositét 71 = 17uPasec von Luft sei uns mit der Genauigkeit A7) = 2 u.Pasec bekannt. Die Unsicherheit auf die Kugelgeschwindigkeit von v = 100 km/h sei 10%. Die Stokes’sche Reibung Fp =—60 nr v enthalt alle GréBen als Produkt, sodass wir nach(5.28) die relativen Fehler quadratisch addieren miissen: 2 oO
ee FR
oO
2
2
Or
Ov
r
v
@ + (*) + (“) = n
\/0,12? + 0,02? + 0,12 = 0,16
Die Reibungskraft an der Kugel hat hier eine relative systematische Unsicherheit
von 16%.
116 |
6.2 Vorgehen zur Bestimmung
Die individuellen systematischen Fehler werden méglichst so angegeben, dass ihr Fehlerintervall +1 Standardabweichungentspricht, also dem Intervall fiir statistische Fehler. In der Regel ist damit das 68% Wahrscheinlichkeitsintervall gemeint, innerhalb dessen eine unabhangige Messungliegen miisste (3.64). Durch diese Konvention kann man systematische und statistische Fehler sinnvoll miteinander kombinieren. Wenn nur wenig Informationen tiber einen Fehler vorliegen, wird in der Praxis haufig
auch die maximale Schwankungsbreite zwischen zwei extremen Szenarien halbiert und dann als systematischer Fehlerbeitrag verwendet. Systematische Fehlersollen sicher nichtiibertrieben extreme Szenarien abdecken, sondern die Wahrscheinlichkeitsinterpretation soweit méglich beriicksichtigen. Zum Beispielist bei nicht exakt bekannter Zimmertemperatur in unseren Breitengraden typischerweise 18-25 Grad Celsius ein verniinftiger Bereich, ein Bereich von 10—35 Grad waretibertrieben konservativ. Durch die Fehlerangabe in Form der Standardabweichung kénnen die Messungen unterschiedlicher Experimente miteinander verglichen oder sogar zu genaueren Resultaten kombiniert werden. Beispiele fiir solche Kombinationen sind die Bildung von Weltmit-
telwerten fiir fundamentale Parameter wie z. B. die Massen von Teilchen.
6.2.3.
Korrekturen fiir systematische Fehler
Wiebei allen Fehlerquellen, ob statistisch oder systematisch, muss die Reduzierung der dominanten Beitrége zum Gesamtfehler eines Messresultats héchste Prioritat haben. Es macht keinen Sinn, winzige Effekte bearbeiten zu wollen, wenn die entsprechenden Beitraége zum Gesamtfehler ohnehin vernachlassigbar gering sind. Ist eine systematische Fehlerquelle nicht reduzierbar, geht diese Unsicherheit unmittelbar in den systematischen Gesamtfehler ein. Beispiele fiir solche Fehler sind nicht genau bekannte physikalische Effekte wie z. B. Turbulenzeffekte in Luft. Ein anderes Beispiel sind theoretische Rechnungen, bei denen Lésungenfiir fiihrende Terme bekanntsind, Korrekturterme aber derzeit noch nicht berechnet werden kénnen. Kann derEinfluss einer systematischen Unsicherheit verkleinert werden, und lohnt sich der Aufwand im Vergleich zu anderen Messfehlern, wird der Einfluss der Fehlerquelle durch eine geeignete Korrekturprozedur reduziert. Zum Beispiel kann man eine zunachst in Kauf genommene temperaturbedingte Ausdehnung korrigieren, wenn man die Temperatur beim Versuch gemessen hat. Damit kann zwar die systematische Unsicherheit verringert werden, aber es bleibt im Allgemeinen eine Restunsicherheit bestehen, die im systematischen Fehler beriicksichtigt werden muss. Bei der Ausdehnung sind ja weder Temperatur noch der Ausdehnungskoeffizient exakt bekannt, sondern weisen einen Fehler auf, der die Genauigkeit der Korrektur begrenzt. Eventuell wird manfiir die Korrektur systematischer Effekte komplexe Simulationen oder Rechnungen zu Hilfe nehmen, um diese Effekte genauer verstehen zu kénnen. Bei den groBen Experimenten der Teilchenphysik z. B. werden heutzutage solche Simulationen zur Korrektur und Analyse der systematischen Fehlerbeitrage regelmabig verwendet.
117
EMEsystematische Fehler
In bestimmten Situationen erméglicht die Anwendung von Erhaltungssatzen, eine Korrektur fiir eine systematische FehlergréBe abzuschatzen. In der Teilchenphysik nutzt man z. B. die Energieerhaltung beimZerfall des sogenannten Z-Teilchensin ein ElektronPositron-Paar, um gleichmafige Energiemessungen tiber den gesamten instrumentierten Raumwinkelbereich des Detektors zu erreichen und die Genauigkeit der Energiemessungen zu quantifizieren.
6.3.
Zusammenfassen von Fehlern
6.3.1
Unkorrelierte systematische Fehlerquellen
Falls die systematischen Unsicherheiten unabhangig voneinandervariieren, d.h. sie sind nicht korreliert, so k6nnen wir die Einzelbeitrage o; im Rahmen des Fehlerfortpflanzungsgesetzes durch quadratische Addition zusammenfassen (5.24): Oxys =O, +Og+...+0%
(6.2)
Ein Messresultat mit statistischem und systematischem Fehler k6nnen wir dann zum Beispiel folgendermaben angeben: xz = (10,0 + 1,2 (stat.) + 1,0(sys.)) m
Da die statistischen und systematischen Fehler ebenfalls unabhangig voneinandersind, werdensie haufig auch quadratisch zu einem Gesamtfehler addiert:
x = (10,0 1,6) m 6.3.2
Korrelierte systematische Fehlerquellen
Beispiel 6.6: Korrelierte systematische Fehler Wir heizen einen Gaszylinder und messen die lineare Ausdehnung des Gasesentlang einer Stempelachse als Funktion der Temperatur 7’. Natiirlich wird sich mit T nicht nur das im Zylinder enthaltene Gas ausdehnen, sondern auch der Zylinderselbst vergroBert sein Volumen V in alle Raumrichtungen. Die systematische Unsicherheit or der Temperaturmessungist daher mit der systematischen Unsicherheit oy korreliert, die das Zylindervolumen V in der Messung verursacht.
Falls die systematischen Fehler o; miteinander korreliert sind, wird manchmal eine Abschatzung des gesamten systematischen Fehlers durch lineare Addition versucht: Osys = 01 +02+...+0n
118
(6.3)
6.3 Zusammenfassen von Fehlern
Ob diese Vorgehensweise korrekt ist, konnen wir zum Beispiel fiir zwei korrelierte Fehlerquellen x1, 72 untersuchen, die den Messwert f linear verschieben: f=%4+22
(6.4)
Die Kovarianzmatrix der systematischen Fehler lautet (5.20):
V= (7: “)
(6.5)
Die Fehlerfortpflanzung ergibt in diesem Fall (5.21): oF = of +03 +2012 Setzen wir den Korrelationskoeffizienten —1 < p < 1 ein (3.86), so erhalten wir: oF = o; + os + 2pci02
(6.6)
Fiir GroBen, die mit p = 1 korreliert sind oF = ot +o% + 20102 ,
ist die lineare SummederFehler korrekt: of =01 +02
(6.7)
Fir antikorrelierte GréBen ( = —1) ergibt sich: of = |o1 — 02|
(6.8)
Fir unkorrelierte Groen (p = 0) erhalten wir die quadratische Summe(6.2):
of =\/o7 +03
(6.9)
Fiir die korrekte Kombination der systematischen Fehler entsprechend der Wahrscheinlichkeit eines 68%-Bereichs sind also Kenntnisse tiber die Kovarianzmatrix (6.5) erforderlich.
Ist die Kovarianzmatrix unbekannt, so ergibt die lineare Addition der systematischen Fehler (6.7) hier den gro{tméglichen Fehler und damit eine — méglicherweisetibertrieben —
konservative Fehlerabschatzung. Kombinationen von systematischen undstatistischen Fehlern lassen sich auch tiber Maximum-Likelihood-Verfahren (Kapitel 7) am Computer berechnen. Eine Beispielanwendungstellen wir in Kapitel 9.3 vor.
119
BEsystematische Fehler
Das Wichtigste zum Mitnehmen ™@ Systematische Unsicherheiten (systematische Fehler) eines Experiments verursachen Verschiebungen der Messwertez. B. nach zu groBen Werten. Um diese Fehler zu quantifizieren gibt es kein standardisiertes Vorgehen durch ein mathematisches Modell wie fiir statistische Fehler. Anstatt dessen miissen wir unsfiir das jeweilige Experiment Gedanken machen, welche Unsicherheiten den Messprozess beeinflussen kénnten. Zunachst definieren wir einen Rahmenfiir systematische Fehler. Wir klassifizieren die ben6tigten physikalischen Gréfen im Experiment: Welche Gréfen sind DefinitionsgrdBen (z. B. Vakuumlichtgeschwindigkeit), welche GréBen kénnenwir als geniigend genau bekannt voraussetzen(z. B. Elektronenmasse) und welche Gréfen kénnten feh-
lerbehaftet sein und miissen weiter untersucht werden. Typische Uberlegungenfiir die Suche nach systematischen Unsicherheiten sind Kalibrationen des Experiments (z. B. Zeitmessung), Stéreffekte durch Untergrund(z. B.
Rauschen), veranderliche experimentelle Bedingungen (z. B. Temperatur), Modellunsicherheiten beim Vergleich mit den Messwerten, sowie Parameter (z. B. Ausdehnungskoeffizient eines Materials).
Alle infrage kommenden Méglichkeiten werden nach ihrem potentiellen Einfluss auf das Resultat des Experiments geordnet. Wenn der erwartete Einfluss einer Unsicherheit auf das Resultat im Vergleich zu anderen Unsicherheiten vernachlassigbar klein ist, musssie nicht weiter betrachtet werden. Fiir groBe systematische Unsicherheiten kann haufig der Einfluss der Fehlerquelle auf das Resultat des Experiments durch eine geeignete Korrekturprozedur reduziert werden. Wie bei denstatistischen Fehlern geben wirals jeweiligen systematischen Fehlero; den Bereich um das Resultat an, der mit 68% Wahrscheinlichkeit die Unsicherheit i erfasst. Diese einheitliche Definition der statistischen und systematischen Fehler ist fiir die Bewertung von experimentellen Unsicherheiten sehr hilfreich. AuBerdem sind derstatische Fehler o;:2t und der gesamte systematische Fehler o,,, voneinander unabhangig und kénnen mit dem Fehlerfortpflanzungsgesetz zu einem Gesamtfehler kombiniert werden: B53] 25 Oe
Cstat a5 Cee
Fiir die Kombination von k unkorrellierten systematischen Fehlern o; berechnen wir mit dem Fehlerfortpflanzungsgesetz den Gesamtfehler: k
Osys =
S
Oe
a=1
Sind die systematischen Fehler korreliert, bendtigen wir fiir die Kombination die Kovarianzmatrix aller Fehler. Sind dabei z. B. zwei systematische Fehler o; und o2
vollstandig korreliert, so erhéht sich der Fehler auf die lineare Summeosys = 01 + 02. Fiir vollstandig antikorrelierte Fehler dagegen betraégt der Gesamtfehler nur o3,; = |o1 — 02|. In Kapitel 9.3 stellen wir ein Computer-basiertes Verfahren zur Kombination vonstatistischen und systematischen Fehlern vor.
120
Maximum-Likelihood-Methode TAL Likelihood-Funktion 7.1.2 Bedingte Wahrscheinlichkeiten ...............0.0.4 7.1.3 Minimum dernegativen Log-Likelihood-Funktion........ 7.1.4 Standardabweichung 24: 4245. nee eee we ees wee we 7.1.5 Amwendung Histogramm: 4. ssi ok ewe we ew we 7.1.6 Verfahren fiir m Parameter... 1... 0... eee eee eee
126 126 128 130 133
Methodederkleinsten Quadrate 7.2.1 7.2.2 7.2.3
Parameterwerte; . 6. as 8 we es es we ee wo ee
Fehler der Parameter .........00 0. eee eee eens Geradenanpassung «2.2 hut ems Hee Rew A EE
138 139
UBERBLICK
Parameterschatzung aus Messdaten
a Parameterschatzung aus Messdaten
»
Haufig stehen wir vor der Aufgabe, aus Messdatendie beste Schatzungfiir einen oder
mehrere Parameter zu extrahieren. Zum Beispiel wollen wir eine Geradeoder eine andere Funktion an Messdaten anpassen. In diesem Kapitelstellen wir dafiir zwei Verfahren vor, die Likelihood-Methode und die Methodeder kleinsten Fehlerquadrate. Im anschliefenden Kapiteliiber Testverfahren werden wir unsere Uberlegungen auf Messdaten mit gaufverteilten, individuellen Messfehlern erweitern und zusatzlich «
die Chi-Quadrat-Methodefiir Parameterschatzungen kennenlernen.
122
7.1 Maximum-Likelihood-Methode
7.1
Maximum-Likelihood-Methode
Die Maximum-Likelihood-Methode ist ein allgemeines Verfahren zur Schatzung von Parametern. Wir fiihren zunachst die Likelihood-Funktion ein und zeigen dann, wie man einen Parameter und seinen Fehler erhalt. Das Verfahren kann auf den Fall vieler Parameter erweitert werden.
7.1.1
Likelihood-Funktion
Es liegen uns n unabhangige Messungen 1, 72,...,2n vor, die wir als Zufallsvariablen der Wahrscheinlichkeitsdichte f(x) auffassen. Die Wahrscheinlichkeitsdichte f(a) sei durch einen Parameter a charakterisiert, der die Form oderdie Position der Verteilung mafgeblich bestimmt. Wir bezeichnen deswegen die Wahrscheinlichkeitsdichte mit f(z|a), sodass die Dichte f(x;) an der Stelle x; offensichtlich von der Wahl von a abhangt. Unterschiedliche Werte von a fiihren zu verschiedenen Wahrscheinlichkeitenfiir den Messwert «;. Liegen z. B. alle Messwerte im Mittel bei . = 0 und folgen einer GauBverteilung f(x|c) (3.52), so bestimmt a = o die Breite der Verteilung. Die Wahrscheinlichkeitsdichte soll fiir alle Werte von a korrekt normiert sein (3.7), sodass
J. f(ala) dx = gilt. Die Wahrscheinlichkeit, den Messwert x; im Intervall [x;,2; + dz;] zu finden, betragt f (xia) - (wi, x; + dx;] (3.5). Aus den n unabhangigen Messwerten x; kénnen wir nach (2.25) eine Gesamtwahrscheinlichkeit P fiir die Messwerte bilden: P= f(aija) [t1,71 + dri]: ...-f(xnla) [en, tn + dtn]
(7.1)
Dadie Intervalle dz; nicht vom Parameter a abhangen, lasst man sie zur Vereinfachung weg und bildet mit den n Messwerten zunichst die sogenannte Likelihood-Funktion aus dem Produkt der Wahrscheinlichkeitsdichten f(z;|a):
L(a) = f(xi\a)- f(w2la)- ... - f(enla)
= TI festa
ve
Als beste Schaétzung a des Parameters a aus den n Messungen x; kénnen wir den Wert verwenden, der £ maximiert: OL ae 0
(7.3)
123
FETE arameterschitzung aus Messdaten
Beispiel 7.1: Likelihood-Funktion Die Maxwell-Boltzmann-Verteilung ist die Geschwindigkeitsverteilung fiir die Atome eines idealen Gases (3.27). Die Form der Verteilung hangt von der absoluten
Temperatur T ab: y2
f(v|T) « Tan e 2kT Bei der vorliegenden Temperatur 7; bestimmen wir die Likelihood-Funktion als Produkt £; = [[}_, f(vi/T1) der Wahrscheinlichkeitsdichten fiir n = 2 zufallig aus f(v|T1) ausgewahlte Geschwindigkeiten v; (> Abbildung 7.1: Beispielwerte mit durchgezogenen Linien). Nehmen wirfiir dieselben n Geschwindigkeitswerte v; eine andere Wahrscheinlichkeitsdichte f(v|72) mit T2 > T; an und multiplizieren deren Dichtewerte L2 = TLL,
f(vi|T2), so hat die Likelihood-Funktion hier einen kleineren Wert Lo < Li
(> Abbildung 7.1: Beispielwerte mit gestrichelten Linien, die zur besseren Sichtbarkeit leicht versetzt eingezeichnet sind).
Fiir die Rekonstruktion der Temperatur 7 aus den Messdaten kénnen wir demnach ausnutzen, dass die Likelihood-Funktion C fiir die korrekte Wahl von T maximal wird. Die rekonstruierte Genauigkeit von T steigt mit gréferer Anzahl n der Geschwindigkeitswerte.
E 1.00} 7 20.75; 3 = 0,50
Fi°7
I\:
'
0.25
an
0.00%
=
T2 >Ti
.
5
4 v / (km/s)
P\eiteliteival)
Gastemperatur und Geschwindigkeit von Gasatomen Die Form der Maxwell-Boltzmann-Wahrscheinlichkeitsdichte f(v|T) fiir die Geschwindigkeit v von Gasatomen hangt nur von der Temperatur T des Gases ab. Uns liegen Messungen von zwei Atomgeschwindigkeiten va und vy vor. Als kombiniertes WahrscheinlichkeitsmaB, dass die beiden Gasatome der Verteilung mit Temperatur J; entstammen, verwendenwir nach (2.25) das Produkt der Wahrscheinlichkeitsdichten £1 = f(va|T1)- f(vp|T1), die sogenannte Likelihood-Funktion.
ERAS
Fiir eine andere Temperatur T> ergibt sich eine kleinere Likelihood-Funktion
Quellcode
L2 < £1, sodass die Gastemperatur T, wahrscheinlicherist als T>. (Python-Code: Fig_MWLikelihood. py)
124
7.1 Maximum-Likelihood-Methode
Experiment 7.1: Gastemperatur In diesem Gedankenexperiment messen wir die Geschwindigkeiten v; von 25 Gasatomen in einem Gasbehilter (vertikale Linien in der linken Abbildung7.2).
Fiir 100 Maxwell-Boltzmann-Verteilungen mit verschiedenen Temperaturen im Bereich von 140K < T; < 540K (gestrichelte Kurven: Beispielverteilungen) bestimmen
wir jeweils den Wert der Likelihood-Funktion £;(T;). Die Werte £(7;) tragen wir als Funktion von T; auf. Als Schatzwert fiir die wahre Temperatur verwenden wir das Maximum derLikelihood-Verteilung, das von der durchgezogenen Linie bei T = 290K in der rechten Abbildung 7.2 angezeigt wird. Bei einer stark asymmetrischen Verteilung kann man alternativ den Median der Verteilung (gestrichelte Linie) angeben. Die Auslaufer der rechten Verteilung in Abbildung 7.2, in denen jeweils 15,87% der Flache liegen, zeigen den Bereich von +1 Standardabweichungan (3.64). Als
Resultat der Parameterschatzung erhalten wir mit diesem Verfahren:
T = 290730K Der normalerweise ja unbekannte wahre Wert T = 273,15 K, bei dem die Geschwindigkeiten der Gasatome genommen wurden, ist als Pfeil eingezeichnet und liegt nahe am geschatzten Wert.
& a =i. =
15
0.5
:
0.040
10
PLE
1000 2000 3000 400
200
300
v / (km/s) PNs)eifeltivelyev4)
400
500 TI[K]
Gastemperatur aus Maximum-Likelihood-Verfahren Die Geschwindigkeitsmessungen v; von 25 Atomen eines Gases sind links auf der horizontalen Achse eingezeichnet. Die Kurven sind Maxwell-BoltzmannVerteilungen f(v|T;) bei verschiedenen Temperaturen T;. Fiir jede angenommene Temperatur T; kénnen wir die Wahrscheinlichkeitsdichten f(v,;|T;) fiir jede der 25 Geschwindkeitsmessungen v; ablesen (die vertikalen Linien geben ein Beispiel). Rechtsist die Likelihood-Funktion £(T;) = am f(v;|T;) fiir alle Temperaturen T; gezeigt. Das Maximum derLikelihood-Funktion zeigt die wahrscheinliche Temperatur des Gases von T = 290K.Den Fehler der Temperaturbestimmungermitteln wir durch die linken und rechten Auslaufer der Verteilung (15,87%) und erhalten
A EXTRAS
damit den 68%-Bereich 250 < T < 360K. Ebenfalls gezeigt sind der Median der Likelihood-Verteilung (gestrichelt) und der wahre Wert unserer Simulation (Pfeil).
(Python-Codes: Fig_MAXLikelihood1.py und Fig_MAXLikelihood2. py)
LINE —
Quellcode
125
Parameterschatzung aus Messdaten
7.1.2
Bedingte Wahrscheinlichkeiten
Die Likelihood-Funktion £(T) unseres Gedankenexperiments gibt ein Maf fiir die be-
dingte Wahrscheinlichkeit P(daten|T), bei gegebener Wahl von T diese Messwerte zu erhalten (2.31):
P(daten|T) = const. - £(T)
(7.4)
Die eigentlich gewiinschte, sogenannte A-posteriori-Verteilung (2.30)
P(T|daten)
(7.5)
ist die umgekehrte bedingte Wahrscheinlichkeit, den Parameter T bei gegebenen Messdaten zu bekommen. Fiir ihre Berechnung verwenden wir das Theorem von Bayes (2.32):
P(T\daten) = P(daten|T) =, (daten)
(7.6)
Die Wahrscheinlichkeit fiir das Auftreten der Daten P(daten) ist eine konstante GréBe (2.33) — die Daten wurdenja schon aufgenommen — und damit lediglich ein konstanter Faktor in der Parameterschatzung. Fir die A-priori-Verteilung P(T) (2.34) der Temperatur T nehmenwirhier an, dass jede Temperatur T' > 0 gleichwahrscheinlichist: P(T) = const.’
(7.7)
In diesem Fall erhalten wir die A-posteriori-Verteilung direkt tiber die Likelihood-Verteilung:
P(T|\daten) = const.” - £(T)
(7.8)
Die Kenngréfen der A-posteriori-Verteilung, z.B. der wahrscheinlichste Wert und die Standardabweichung, entsprechen den KenngréBen der Likelihood-Verteilung.
7.1.3.
Minimum der negativen Log-Likelihood-Funktion
In der Praxis ist es oft einfacher, mit Summenanstelle von Produkten zu rechnen. Wir
verwenden deswegen den Logarithmus der Likelihood-Funktion: n
In L(a) = In [[ f(aila) i=l
=)(F(2iJa)) i=1
Der Logarithmusist eine monotone Funktion, daher finden wir denselben Wert @ als beste Schétzung bei einer Maximierung von In £(a) anstelle der Likelihood-Funktion LAG) (7.3).
126
7.1 Maximum-Likelihood-Methode
Per Konvention wird auBerdem haufig noch das Vorzeichen geandert und ein Faktor2 eingefiihrt, sodass wir von der negativen Log-Likelihood-Funktion sprechen:
F(a) = —2 InL(a) = —2 dtm (s(ela)
(7.9)
Anstelle des Maximums(7.3) bestimmen wir nun das Minimum der Funktion F(a), was die Vorstellung einer minimierten Abweichung unserer Schatzung @ vom wahren Parameterwert unterstitzt:
OF
eae
=
Oa \la=a
71 2
(
a)
Dereingefiihrte Faktor 2 stellt sich spater als hilfreich heraus, wenn wir das LikelihoodVerfahren mit der .?-Methode vergleichen (Abschnitt8.3).
Beispiel 7.2: Gewichteter Mittelwert Wir verwenden im Folgendendie negative Log-Likelihood-Funktion F'(a) (7.9), um
die Verwendung des gewichteten Mittelwerts (4.23) fiir die Schaétzung des wahren Mittelwerts zu begriinden. Wir gehen hier von n unkorrelierten, GauBverteilten Gr6éBen xz; aus, die jeweils mit einem Fehler o; um den zu bestimmenden wahren Wert a streuen:
i
=
f (xia) a na
7
t
Wir bilden F(a) anhand derDefinition (7.9):
_ 9 yin = EP) JQr x n
on
2
=-2 ym _ »(- we = const. +> 5a) t—1
t—1
(7.11)
%
const. in a
Fiir die beste Schatzung @ ist F(a) minimal, hier verschwindetdie partielle Ableitung von F nacha: OF
m
—2 (a
—a)
=
vi
oS Ya? Lae= i=1 é Damit ergibt sich die beste Schaétzung des Parameters a tiber den schon bekannten
2) 8
(7.12)
Ae
ilhi ° ll e
Ms
al lI
gewichteten Mittelwert (4.23):
127
EAE earameterschatzung aus Messdaten
7.1.4
Standardabweichung
Zusatzlich zu der besten Schatzung a des Parameters a der Wahrscheinlichkeitsdichte
f (x|a) benétigen wir auch die Genauigkeit, mit der wir den Parameter aus den n Messungen bestimmen kénnen. Wir entwickeln die negative Log-Likelihood-Funktion F(a) (7.9) mit einer Taylor-Entwick-
lung um das Minimum 4Gbis zur zweiten Ordnung:
F(a)
= F(a)
+
ye
=0
a)? +
(7.13)
(2)
Derlineare Term verschwindet aufgrund der Minimumsbedingung (7.10). Fiir sehr groBe Anzahlen der Messwerte n — oo nahert sich die Likelihood-Funktion L(a) der Gaubverteilung[7]: L(a) S const.-e
_ (a=a)? 267
(7.14)
Die negative Log-Likelihood-Funktion lasst sich mit dieser Naherung folgendermaBen schreiben: F(a) = —2 InL(a)
(7.15)
= const.’ + : es (aay ——
20
(1)
(7.16)
(2)
Durch Koeffizientenvergleich mit (7.13) identifizieren wir den Term (1), die Konstante,
mit der negativen Log-Likelihood-Funktion an der Stelle des Minimums /’(a@) = const.’ Im Term (2) sehen wir, dass die zweite Ableitung von F’ an derStelle a dem zweifachen
Quadrat der inversen Standardabweichung o entspricht:
dF
da?
2
a
(7.17)
Durch Einsetzen in (7.13) erhalten wir damit néherungsweise als negative Log-LikelihoodFunktion:
F(a) = F(a) + (° - *)
(7.18)
Wir berechnen nun die Anderung der negativen Log-Likelihood-Funktion
AF = F(a) — F(a)
-(
_\2 a-—a@ a
(7.19)
(7.20)
als Funktion des Abstands vom Minimum in Einheiten der GauB’schen Standardabwei-
chung o. An derStelle a = 4+ n-ca betragtsie: AF =
(seein) a ——————] =n oO
128
(7.21)
7.1 Maximum-Likelihood-Methode
Im praktischen Vorgehen bedeutet das: Wennsich die negative Log-Likelihood-Funktion um den Wert n? andert, betragt die Entfernung vom Schitzwert n-o. In der folgenden Tabelle ist die Anderung AF dernegativen Log-Likelihood-Funktion fiir Vielfache der Standardabweichungo gezeigt:
(7:22)
Als Fehler fiir die Schatzung a@ des Parameters geben wir wie tiblich den Bereich von 68% Wahrscheinlichkeit an, d.h. den Bereich von +1 Standardabweichung o (3.64).
F(a) — F(a)
In der Abbildung 7.3 lesen wir den Bereich +1o direkt aus der Kurve durch den Abstand vom Minimum ab, an dem sich die negative Log-Likelihood-Funktion um AF = 1 andert. Den Bereich von zwei Standardabweichungen lesen wir an der Stelle AF = 4 ab.
P\oeifeitteyee
5
§=Schatzwert @ und Standardabweichung o des gesuchten Parameters a Mitder negativen Log-Likelihood-Funktion F(a) bestimmen wir den besten Schatzwert @ des gesuchten Parameters a aus dem Minimum F(a). Den Bereich +1 Standardabweichung erhalten wir durch Ablesen der Parameterschatzungbei der Anderung AF = F(a) — F(@) = 1, den Bereich +2 Standardabweichungenbei AF = 4. (Python-Code: Fig_MAXLikelihood3.py)
reine Quellcode
Manchmalist die Naherung durch eine GauBverteilung nicht exaktgiiltig. Die negative Log-Likelihood-Funktion kann asymmetrisch werden, d.h. die rechts- und linksseitigen Standardabweichungen unterscheidensich. Dann geben wir entsprechend unterschiedliche Fehlerfiir die Variationen zu héheren und niedrigeren Werten an.
| 129
Ps
Parameterschatzung aus Messdaten
Beispiel 7.3: Asymmetrische Log-Likelihood-Funktion Bei einer asymmetrischen negativen Log-Likelihood-Funktion lesen wir die Fehler separat auf dem positiven und dem negativen Zweig ab (» Abbildung7.4): (7.23)
A
F(a) — F(a)
oy, ater
a-20,
a-oO,
@
A@+0Or 2+20p
a PNe\syileltateya-)
EXTR
Asymmetrische negative Log-Likelihood-Funktion F(a) Die negative Log-Likelihood-Funktion F(a) kann auch asymmetrisch verlaufen. Genau wie in » Abbildung7.3 erhalten wir den besten Schatzwert a4 im Minimum F(a) und die Standardabweichungen n- (+c) bei den Anderungen AF = n?. (Python-Code: Fig_MAXLikelihood4. py)
Quellcode
7.1.5
Anwendung Histogramm
Wir wollen eine Wahrscheinlichkeitsdichte f(z|a) an eine Datenverteilung anpassen, die in der Form eines Histogrammsvorliegt. Beispiel 7.4: Maximum-Likelihood-Methode In der > Abbildung 7.5 sind Messdaten in der Form des abgebildeten Histogramms gegeben. Ebenfalls gezeigt ist eine gaufif6rmige Wahrscheinlichkeitsdichte f(zx|a), deren Mittelwert von dem Parameter a abhangt und deren Standardabweichung o konstant ist. Den optimalen Wert fiir den Parameter a k6nnen wir durch das Minimumeiner negativen Log-Likelihood-Funktion bestimmen, die wir im Folgenden konstruieren werden.
Insgesamtgibt es NV Intervalle im Histogramm und n,; Dateneintraége im Intervall j. Die Gesamtzahl aller Messungen betragt N
n= > ny. j=l
130|
(7.24)
7.1 Maximum-Likelihood-Methode
*
er
--- f(xai)
TC
=
ceeeee f(x|a2)
iL
N
.
—:- f(x|a3) Ses f(x|a4)
=
3
M—™l Daten
a4
1
;
2,
a J
0
0
12
ay
a2
a3
x PNeifeltteiyAey)
a4
a
~=Anpassung des Mittelwerts einer Gaufverteilung an ein Histogramm Fiir vier verschiedene Mittelwerte a; der GauBverteilung(links) bestimmen wir die negative Log-Likelihood-Funktion undtragen den Verlauf auf (rechts). Der beste Schatzwert a fiir den Mittelwert liegt etwas oberhalb von ag. (Python-Code:
EXTRAS
“ONLINE
Quellcode
Fig_MAXLikelihood5d. py)
Die Wahrscheinlichkeitsdichte f(a|a) ist auf den Wert [™. f(x|a) dx = 1 normiert (3.7). Die erwartete Anzahl der Eintrage in jedem Intervall j erhalten wir aus dem Produkt der Anzahl n der Messungen und der Wahrscheinlichkeit fiir Eintrage im Intervall 7 mit den Grenzen [xj, xj+41] (3.5):
eto) =n i
541
Fala) de
(7.25)
xj Wir nehmenhieran, dass die Intervallbreite Ax = x;+1 — x; fiir alle Intervalle gleich groB und die Funktion f(z{a) hier naherungsweise linear verlaéuft. Dann kénnen wirdie Integration durch den Wert von f(Z;|a) in der Mitte Z; des Intervalls j und die Intervallbreite Az nahern: bj(a) & nf (z;|a) Ax
(7.26)
Fir die Anzahl n; der Dateneintrage im Intervall 7 erwarten wir nicht exakt den Wert jj, sondern einen zufalligen Wert, der einer Poissonverteilung (3.45) mit Mittelwertju; entnommen wurde: ns J
P(nj\uj) =e
(7.27)
—yy , 3
Nj:
Bilden wir nun aus allen N Intervallen die negative Log-Likelihood-Funktion (7.9), so erhalten wir drei Summanden: N
N
ay
F(a) =-2 S> In P(nj|5) =-—2 Soin (=~ : | j=1
gal
N
N
nj-Inpj +2 S~ In (nj!)
=2 dius 2 j=l
J* N
j
1
j=l unabhangig von a
131
BEE oearameterschatzung aus Messdaten
Da die Anzahlen n,; der Daten vorgegeben sind und nicht von a abhingen, ist derdritte
Term fiir die Suche nach dem Minimum von F(a) irrelevant. In der Praxis berechnen wir also nur die beiden ersten Summanden: N
N
F(a) =2 Soy; — 2 Sonj- np; j=l
(7.28)
j=l
Die beste Schitzung des Parameters a ergibt sich an der Stelle des Minimums, das wir aus dem Verlauf von F’(a) in der » Abbildung 7.5 des obigen Beispiels ablesen kénnen. Ebensoerhalten wir den Fehler o fiir den Parameter @ aus dieser Abbildung an denStellen,
an denen die Differenz F’(a) — F’(@) = 1 ergibt(7.22). Experiment 7.2: Radioaktive Probe Die mittlere Lebensdauer 7 = 500 s einerfrisch hergestellten radioaktiven Substanz
sei bekannt. Um die anfangliche Gesamtzahl K der radioaktiven Kerne zu ermitteln, soll die Anfangsaktivitét A, = A(t = 0) bestimmt werden. Dazu wird sofort nach der Herstellung in N = 10 aufeinanderfolgenden Minuten die Anzahl der Zerfalle n; innerhalb einer Minute gemessen: TTA nj
i
yA
E2249
S)
c
w
hiebeY
Zee:
pases
|)
ae
AG
ta
fn
OG
Or
AO
Die Anfangsaktivitaét A. soll durch Anpassen einer Exponentialfunktion der Form
A(t) = Ao-e*/”
(7.29)
bestimmt werden (® Abbildung7.6).
Innerhalb eines Minutenintervalls At = 60 s nahern wir die erwartete theoretische Rate als y; /At ~ const. (7.26). Das Zeitintervall 7 berechnen wir entsprechend mit (j — 0,5) At und erhalten fiir die erwartete Anzahl:
py = AE ASIO
(7.30)
Fiir jedes Zeitintervall j ist 4; der Mittelwert der Poissonverteilung P(nj;|1;(Ao)) (7.27).
Der negative Logarithmusder Likelihood-Funktion (7.9) in Abhangigkeit des Parameters A. lautet mit den Datenwerten n;: N
F(Ao) = —2 } In [P(nj|u5(Ao))] j=1
132
7.1 Maximum-Likelihood-Methode
Wir minimieren nun die negative Log-Likelihood-Funktion F, indem wir F' fiir
verschiedene Werte von A. berechnen und in » Abbildung 7.6 auftragen. Aus dieser Abbildung lesen wir den Wert des Minimumsab undaus der Bedingung AF’ = 1 den Fehler:
Ao = (19,2 + 1,8) min™*
(7.31)
Die Gesamtzahl Kk der radioaktiven Kerne betragt damit Key
A, e~*/7 dt = A. -T = 9600 + 900 .
0
fo}
We
| 6 Ww
4
2 °5
2
4
6
8
io
°
16
18
20
t/ min Noi tittewaAs)
7.1.6
22 Apo/ (1/min)
Anfangsaktivitat eines radioaktiven Praparats Die gemessene Anzahlder Zerfalle eines radioaktiven Praparats pro Minute nimmt mit der Exponentialfunktion ab (links). Mit der negativen Log-Likelihood-Funktion F(A.) in Abhangigkeit der Anfangsaktivitaét A. (7.29) der Probe ermitteln wir den besten Schatzwert im Minimum A. = 19,2min~! (rechts). Den Fehler der
Meas LINE
Schatzunglesen wir an den Stellen AF = F(Ao)—F(Ao) = lab:o = +1,8min!. (Python-Code: Fig_MAXLikelihood6.py)
Quellcode
Verfahren fiir m Parameter
(7.32)
(7.33)
1
LE Qi, G3, 2525'0m )= [Is (uz|a1; 0350.25 Gm)
hoe
Die Likelihood-Funktion hat fiir m Parameter @ = (a1, a2,...,@m) folgendes Aussehen:
f (xi|@)
Wie in Gleichung (7.9) bildet man die negative Log-Likelihood-Funktion:
F(a) = am] fx;|@)
(7.34)
i=1
133
Parameterschatzung aus Messdaten
Entwickelt man /(@) um das Minimuma bis zur zweiten Ordnung, so ergibt sich analog zu (7.13): |
m
OF
it
m
om
OF
F(a) (a) = F(a F(a)+ 2 aia Da; , (9-4) + 5 aae rn _ (aj — Gj) (ax —Gx)
(7.35)
aj=1 k=1
Dabeiist F(a) der Wertfiir die beste Schatzung der Parameter a. Der zweite Term mit den ersten Ableitungen 0F'/0a; verschwindet im Minimum.Derdritte Term enthilt die Kovarianzen des Vektors @. Im folgenden Beispiel geben wir das Ergebnis einer Minimierung der negativen LogLikelihood-Funktion F'(d@) fiir m = 2 Parameter an. Experiment 7.3: Aktivitat und Lebensdauer Zusiatzlich zur Bestimmung der Anfangsaktivitét A. = A(t = 0) einer radioaktiven Probe, wie im obigen Beispiel gezeigt (> Abbildung 7.6), bestimmen wirhier simultan die mittlere Lebensdauer 7 der Probe. Wir verwendendafiir eine radioaktive Probe mit hdherer Aktivitét und nehmen mehr Messdaten auf. Die Kleinste Ellipse in » Abbildung 7.7 kennzeichnet den Bereich von n = 1 Standardabweichungco, innerhalb der 39%aller Messwerte erwartet werden (vergleiche mit (3.89)). Sie entspricht der Anderung der Log-Likelihood-Funktion um AF = 1.
Um in 2 Dimensionen einen gréferen Wahrscheinlichkeitsbereich einzuschlieBen, berechnet man die Kontur bei folgenden Werten von AF [11]:
134
Bereich
AF
‘i 68%
2,3
-
(7.36)
t/ min
7.2 Methode der kleinsten Quadrate
|
,
|
180
200
220
240
A/ min Noite.)
Halbwertszeit und Anfangsaktivitat einer radioaktiven Probe Die Abbildung zeigt die zweidimensionale negative Log-Likelihood-Funktion F(Ao,7) zur gleichzeitigen Bestimmung der Anfangsaktivitaét A. und der mittleren Lebensdauer 7 der radioaktiven Probe. Der Bereich fiir eine Standardabweichung o umfasst 39% der zweidimensionalen Log-Likelihood-Funktion
AF = F(Ao,T) — F(Ao,7) = 1. Die Angabe des 68%-Bereichs entspricht der Hohenlinie bei AF = 2,3.
7.2
Methode der kleinsten Quadrate
In diesem Abschnitt zeigen wir, wie man an n Messwerte(2;, y:) ein vorgegebenes Modell mit m Parametern a; anpassen kann. Dabeisoll n > m gelten. Wir gehen hier zur Vereinfachung davon aus, dass die Unsicherheiten der Werte x; vernachlassigbar klein im Vergleich zu den Messgenauigkeiten der Werte y; sind. Wir bestimmenbei jedem Messwert-x; die Differenz zwischen dem gemessenen Wert yj; und dem Modellwert yodeu (xi), die als Residuum bezeichnet wird: pi(xi) = ys (ai) — Yeoaen (Zi)
(7.37)
Die beste Anpassung der Parameter a; des Modells erhalten wir, wenn die Summeaus den Quadraten der Residuen minimal wird: h= y pe = minimal
(7.38)
t=1
Dieses Vorgehen wird als die Methode der kleinsten Quadrate bezeichnet. Das Modell sei aus m Funktionen f(x) zusammengesetzt, deren jeweiliger Beitrag durch die Grofe der m Parameter a; variiert werden kann:
YModell = 21 fi(x) + a2 fo(xz) +... + 4m fm(2)
=o 4 fila) j=l
(7.39)
ey)
135
EAE aramcterschatzung aus Messdaten
>
y(x, a) = a, + a2x
Yi
KtRAS
PNololitoltiatewas
LINE
Residuum Das Residuum p; (xi) = yi(@i) — YModel (xi) bezeichnet den senkrechten Abstand zwischen einem Messpunkt(2;, y;) und dem Wert eines Modells yyjogen (i) an derStelle a;. (Python-Code: Fig_KleinsteQuadrate. py)
uellcode
Beispiel 7.5: Elektrischer Widerstand Ein unbekannter elektrischer Widerstand R soll iiber Strommessungen J; bei verschiedenen angelegten Spannungen U; bestimmt werden. Als Modell verwenden wir das Ohm’sche Gesetz U = R I, bzw. der Messreihe entsprechend:
Unser Modellhat die elektrische Leitfahigkeit a; = 1/R als einzigen freien Parameter. Die Variable x entspricht der eingestellten Spannung U. Die Funktionist hier linear:
fi=U
7.2.1
Parameterwerte
Die Summeder quadrierten Residuen lautet mit dieser Modellfunktion: nm
m
h= yoo = x(ys (as) — a1 fa(we) —-..— Om fr(2s))” = >> (wi2 - Soa ie) i=1
i=1
j=l
Als Bedingungfiir das Minimum miissendie partiellen Ableitungen 0h/0a; null werden: mea 2° (wie - >> oie) - fi(zi) =0
j=l
ited) - fin(ws) = 0 Son = 2,2: (ute 4a j=1 136
2
7.2 Methodeder kleinsten Quadrate
Wennwir die Terme mit den Messwerteny; auf die rechte Seite der Gleichungen bringen, erhalten wir sogenannte Normalengleichungen, die wir im Anschluss in eine MatrixVektor-Multiplikation umschreiben werden:
ier Hi fr (zi)
a1 Ee fi(zi) +... + Gm ei fi(xi) f(a)
;
(7.41)
tt ya f(a) fia) +... + om 4 Fale)
=
4 we hela) -
Die Messwerte y; schreiben wir in Vektorform Yi
(7.42)
;
:
y=|
Yn ebenso wie die Parametera;: ay
a=
;
(7.43)
Am Die Funktionen f; schreiben wir in Matrixform:
fi(ti)
fo(ti)
‘
:
fi(tn)
fe(tn)
A=
+++ :
fm(#1) :
+++
(7.44)
fm(an)
Die Normalengleichungen (7.41) erhalten wir dannin verkiirzter Schreibweise, indem wir
zunachst die Matrix A undihre transponierte Matrix A’ miteinander multiplizieren:
fi(ti)
APA=)
ob
+++
fi(tn)
fi(ti)
ob
fm(z1)
+++
det
iar f? (zi)
fm(x1)
bog
fm(%n)
filtn)
ue
=
+++ +++
fm(%n)
a filed fn (ai)
-
;
en fi(ti) fr (wi)
(7.45)
ey Jon)
Anschliefend multiplizieren wir das Ergebnis mit dem Vektor @ der Parameter und erhalten die linke Seite der Normalengleichungen:
Yea Jie)
ses
iat fi (xi) fr (wi)
+:
AY AG =
SO fi(zi) fm (xi)
o a1 wan fi (zi)
ay
“i pare ry +
ute
+
Gin
Gm a fi(xi) Fra (@2)
=
(7.46)
a1 reyfaa) fm(ti) + +) +
Om Dy falas)
137
=
Parameterschatzung aus Messdaten
Die rechte Seite der Normalengleichungenerhalten wir durch Multiplikation der transponierten Matrix A’ der Funktionen und dem Vektor 7 der Messwerte: fi(ti)
+++
:
“x
A’Z=
fil(tn)
a vi fi(@:)
:
=
:
(7.47)
ey Yi Tan (2)
Un
Tin (tn
aise
Tm (21)
Y1
.
Durch Einsetzen von (7.46) und (7.47) in die Normalengleichungen (7.41) vereinfachen
sich diese Gleichungen zu einer Matrix-Vektor-Multiplikation
(a? 4) a= Ay, deren Lésung wir durch Multiplikation vonlinks mit der inversen Matrix (A? A)~! sofort hinschreiben kénnen:
= (A" A)" AT g
(7.48)
—_S =B
Definieren wir die Matrix B aus den Funktionen f;
~ ap a\-l B= (4 A) A’,
(7.49)
Be
so erhalten wir die Parameterwerte a; bei der minimalen Abweichung des Modells von den Messdaten (x;, y:) durch eine einfache lineare Transformation der Messungen:
@=By
7.2.2
(7.50)
Fehler der Parameter
Wir gehen hier von n Messwerten aus, die unkorreliert sind und deren Fehler o; gleich groB sind (o; = o = const.). Die Kovarianzmatrix der n Messwerte V (yj lautet dann: o
0
0
o&
-
6
Vii=|.
.
-»
»
O
0
8
[=eli
-
a:
0
&,
§
=o
(7.51)
1
Dabei bezeichnet 11 die n-dimensionale Einheitsmatrix. Die Fehler auf die Parameter a; erhalten wir wegen derlinearen Transformation (7.50) in
Analogie zu (5.11) tiber das Fehlerfortpflanzungsgesetz (5.17). Wir benGtigen dafiir die Varianz der Messungeny;: -
ns
a
xn
aQel «
Via] = V[B go] = BV) BT = (4 A)
ee eee
A") ot |(4” A)
Ar)
Die Ergebnismatrix des letzten Terms auf der rechten Seite knnen wir vereinfachen:
ia
138 |
n if
{
(a7 4)” ary = (47)" [(a" ay] = 4 (47 A)"
7.2 Methode der kleinsten Quadrate
Imletzten Schritt ist die Symmetrie der Matrix A’A (7.45) der Grund, dass die transponierte Matrix unveriindert ist: A’ A = (A’ A)". Wir setzen dieses Ergebnis ein und fassen die Terme zusammen:
Die Varianzen der Parameter a; ergeben sich also aus den Varianzen o” der Messungen multipliziert mit der Matrix (A7 A)~', die die Funktionswerte f;(a:) des Modells enthilt:
Via] =o? - (A? A)
(7.52)
Falls die Messungenauigkeit o nicht schon bekanntist, konnen wir einen Schatzwertfiir die Standardabweichung 1 n—-m
> (yi — YModen)?
(7.53)
i=1
analog zu (4.20) bestimmen. Dabei verwenden wir die bereits angepassten Modellwerte YModellWie zuvor dividieren wir nicht durch die gesamte Anzahl n der Messungen. Die n Datenwerte werdenja bei der Minimierung dazu verwendet, die m Parameter a; bestimmen. Dadurch betragt die Anzahl der Freiheitsgrade nur noch Nr = n — m(vergleiche mit dem Beispiel zu Freiheitsgraden im Abschnitt 4.3).
7.2.3
Geradenanpassung
Beispiel 7.6: Geradenanpassung Als Anwendung der Methode der kleinsten Quadrate passen wir Messdaten (2, yi) an das Modell einer Geradenan: YModell = @ + ba
(7.54)
Die Messwerte(;, y;) seien unabhéngig voneinander. Die Werte x; seien exakt bekannt, wahrend die Werte y; den Fehler o; = o = const. aufweisen.
Zur Vereinfachung der folgenden Rechnungentransformieren wir die Messwerte x; anhand ihres Mittelwerts 7 = (1/n) 5°", x;. Diese Transformation entspricht lediglich einer Verschiebung des Nullpunkts der a-Achse: G=u—-F
(7.55)
Unser transformiertes Modell lautet dann in der Notation (7.40) mit f; = 1 und fo = ¢:
YModell’ = 21 + a2 ¢
(7.56)
139
arameterschitzung aus Messdaten
Wir tragen die Messwerte y; und die Parameter a; in die entsprechenden Vektoren ein (7.42, 7.43) und bilden die Matrix aus den Funktionen f; (7.44):
yl
f=!
1
:
|,
@= ( “i ) ag
@
A=|:4%:
Yn
1
(7.57)
Cn
Zunichst berechnen wir das Produkt der Matrizen:
1G Gy
""_, ¢; = 0 dem ersten zentralen Moment undergibt keinen Beitrag (3.16). Wir definieren die vereinfachte Schreibweise
x= > G
(7.58)
i=l
und erhalten als diagonale Matrix:
A’wA_{ A= ( 20 x8 )
7.59 (7.59)
Fiir die Bestimmung der Parameter a; ben6tigen wir nach (7.48) die inverse Matrix. Dafiir bestimmen wir zunichst die Determinante: n OQ
O x
Die inverse Matrix lautet damit: Pe
-1
(4” 4) ‘= (4
2 et
x)
7.0)
Die Transformationsmatrix (7.49) ist dann: 5 (ar a\7) ar nt B=(A A) A =( 0
0 ile x) (2 ss
| I ni Cn X= 3G
aes =
no} ) KX a6,
Als Losungfiir die Parameter a; und az erhalten wir nach (7.50):
x
Y1
a=By a
7 =
nt
(og
tee
nt
a eG,
:
z
—
(
n*s = oo Yi ian x . Gm )
( 7.61)
Yn
Der Parameter a; entspricht dem Mittelwert 7 der Messpunkte y;. Aufgrund der Beziehung YModel’ = 41 + a2 (a — @) (7.56) ist er der Stiitzpunkt der Geraden an der Stelle des Mittelwerts x = 7: 1
n
a= * dw =
140
=
7
(7.62)
7.2 Methode der kleinsten Quadrate
DurchEinsetzen der Definitionen (7.55) und (7.58) in (7.61) erhalten wir den Parameter a2:
1
1
can mr. Sie — =P Le‘— 8) ui Nach unserer Modelldefinition yyjogoy/ = @1 + a2 (2 — &) (7.56) entspricht der Parameter a2 der Steigung der Geraden:
» (@i — ©) yi
a2 = =
(7.63)
s. ll
ee 1
Fiir unser urspriingliches Geradenmodell yyode = a + bx (7.54) lauten die Riicktransformationen zu den Parametern a und b wegen (7.55) und(7.56): a=ai —a2°t
(7.64)
b= ag
(7.65)
Um die Fehler der Parameter zu berechnen, benétigen wir zunachst den Fehler o der Messungen. Falls er nicht schon bekanntist, konnen wir einen Schatzwert nach (7.53) berechnen:
a=)
1
=
_
| > 2, [am + a2 (ai — FE) — ysl
5
(7.66)
Die Fehler der Parameter ergeben sich nach (7.52) durch Einsetzen von (7.60) fiir die Varianz:
Wa = 5? (A? A)” _ 92 ( - wa )
(7.67)
Der Fehler des Parameters a; bezieht sich auf die Stelle « = 7 und entspricht dem Fehler des Mittelwerts aller Messungen y; (4.18): s
Sa, = —
Vin
(7.68)
Der Fehler auf die Steigung a2 der Geraden betriagt nach Einsetzen der Definitionen (7.55) und (7.58) in (7.67): s Sao
a
Xe — 2)
(7.69)
Dass die Werte oi2 = 0 der Nebendiagonale in der Kovarianzmatrix (7.67) verschwinden,
haben wir durch die Transformation (7.55) erzielt. Bei der analogen Berechnung ohnedie Transformation ergibt sich o12 ¢ 0 und mussbei der Fehlerbetrachtung beriicksichtigt werden.
141
FF eerametersenatzu ng aus Messdaten
Wollen wir die Genauigkeit der Modellanpassung(7.56) an einer anderen Stelle als ¢ = 0 (d. h. 2 # %) berechnen, miissen wir die Fehler entsprechend Gleichung(5.22) fortpflanzen und dann(7.55), (7.68) und (7.69) einsetzen: 2
_
Sy (Modell’ ) a
2
j=1
a
YModell’
2
8a;
J
2
2 n
_ 4.92
* Sa; =1°Sa,
2)_2 +: ¢
‘Sao
2
- _ mY)?
+ (x — 2)? oer s’. (; + elm
(7.70)
An derStelle des Achsenabschnitts y(a = 0) betragt somit der Fehler der Modellanpassung:
Sy(Modell’) (© = 0) aS.
(7.71)
Fiir das urspriingliche Geradenmodell ymoden = a + ba (7.54) ergeben sich wegen (7.65) und (7.71) die Fehler:
Sa = Sy(Modell’)(€ = 0)
(7.72)
Sb = Say
(7.73)
Experiment 7.4: Gaszylinder Ein Gassei in einem Zylinder eingeschlossen, dessen Volumen in einer Dimension durch einen Stempelvariiert werden kann. Bei Temperaturerh6hung dehnt sich das Gas aus. Die Lange des mit Gasgefiillten Zylinders sei y. T bezeichne die absolute Temperatur. Bei n = 5 Messungenerhalten wir folgende Werte:
2
100.5
ee 4
90,7
Wir passen eine Gerade der Form y(T) = a-T + ban die Daten an. Dafiir verwenden wir die oben hergeleiteten Beziehungen (7.62, 7.63, 7.68, 7.71) und transformieren sie anhandder Gleichungen (7.64, 7.65, 7.72, 7.73):
a = (7,59 + 0,34) mm/K b = (23 + 32)mm Der Parameter b ist mit Null vertraglich. Die Lange des Zylinders und die Temperatur des Gases sind direkt proportional zueinander.
142
Das Wichtigste zum Mitnehmen
Das Wichtigste zum Mitnehmen @ Die Form der Wahrscheinlichkeitsverteilung f(x|a) fiir ein Experiment sei bereits bekannt, aber nicht der Wert des Parameters a der Verteilung. Mit dem LikelihoodVerfahren schatzen wir aus n Messwerten x; den wahren Wert 4d. Fiir einen Testwert
ax des Parameters gehort jeder Messwert x; mit der Wahrscheinlichkeit f(2;,a,) dx zur Wahrscheinlichkeitsverteilung f(z|a,). Die Messwerte x; sind unabhangig voneinander, sodass das Produkt I}_, f (zi, a,) ein WahrscheinlichkeitsmaB dafiir ist, dass der Wert ax korrektist. Die Intervallbreite dz wird hier weggelassen, da sie nicht von a abhangt.
Durch Variieren von a; finden wir den besten Schatzwert a des wahren Parameters4. m Ublicherweise verwendenwir beim Likelihood-Verfahren anstelle des Produkts die Summeder logarithmischen Werte In (f(zi|a)). Den wahrscheinlichsten Wert a des Parameters von f(x|@) bestimmenwir iiber das Minimum der negativen Log-LikelihoodFunktion:
= F(a) = —2 dn (f(2:\a)) :
OF abs) Oa a=a
@ Den Fehler der besten Parameterschatzung a der Wahrscheinlichkeitsverteilung f (x|a) lesen wir links und rechts des Minimums F(a) der negativen Log-Likelihood-Funktion ab: Bei der Differenz |F(am) — F(a)| = m? mit m = 1,2,3... betragt die Entfernung vom Schatzwert m Standardabweichungen co. Folgt F(a) naherungsweise der Form einer Parabel, so lautet das Resultat der Parameteranpassung a@ + o mit o = |a; — |. @ Das Likelihood-Verfahren kénnen wir auchfiir k Parameter a; verwenden.Hierlautet die entsprechenderweiterte negative Log-Likelihood-Funktion: ENGL, G9; ap) — —2In] | f(ailar,a2,... ax) i=1
Fiir die beste Schatzung der Parameter a; wird mit den partiellen Ableitungen OF/0a; nach dem globalen Minimum von F gesucht. @ Ein weiteres, vielfach verwendetes Verfahren zur Anpassung von Parametern a; einer Funktion ymodeu (©, a1, @2,...a@~) ann Messwerte x; nutzt die Residuen y;(xi)—ymoden(Z:)-
Die Anpassungerfolgt tiber die Minimierung der Summeder quadrierten Residuen und wird als Methodeder kleinsten Quadrate bezeichnet:
Sue) — ymoden(xi))? = minimal i=l
Lasst sich die Funktion ymoaen in eine Summeeinzelner Funktionen zerlegen, wiez. B. eine Gerade ymodell = @1 + a2 x, erhalten wir die besten Parameterschatzungen a; durch lineare Transformation aus den Messwerten.
143
BEAerarameterschatzung aus Messdaten
Aufgabe 7.1: Maximum-Likelihood-Methode Eine Messung ergibt die folgenden Werte: Been
ee
In der folgenden Tabelle ist eine Verteilung in Abhéngigkeit eines Parameters a gegeben: x
-3+a
-2+a
-l+a
O+a
Il+a
2+a
3+a4a
Fiihren Sie durch Einsetzen von ganzen Zahlen fiir den Parametera eine Schatzung des optimalen Werts von a durch.
Aufgabe7.2: Elektrischer Widerstand
BestimmenSie die Leitfahigkeit eines elektrischen Widerstands R iiber folgende Strommessungen J; bei verschiedenen angelegten Spannungen U;:
Spannungivi 1 2° 3
4: 5
Beriicksichtigen Sie dabei, dass das Strommessgerat einen Offset J, haben kénnte, sodass der korrekte Stromwert I; = I; — I. betragt. Nutzen Sie die oben ermittelten
Gleichungenfiir die Berechnung der Parameterwerte und ihrer Fehler. Vergleichen Sie Ihre analytischen Ergebnisse mit dem Ergebnis eines Computerprogramms(z.B. [1, 2, 3, 4, 5]).
144
Messwert, wahrer Wert... 2... 8.1.1 TesteinerHypothese ........... 0... ee eee eee
147 147
8.1.2
Konfidenzniveau, Konfidenzgrenze, Konfidenzintervall.....
147
8.1.3
Signifikante Abweichungen ............ 0.000005
151
XO-Verteilung . 6 ee ee we ee et 156 Xe LOStETONG eto reese ene ieareneciastioniciisdeonss eerie heey area 157 x?-Test einer Parameterschitzung.............0004 158
UBERBLICK
Statistische Testverfahren
i Statistische Testverfahren
In diesem Kapitel stellen wir verschiedene Verfahren fiir die Durchfiihrung von »
statistischen Tests vor. Dabei erklaren wir z. B., warum der wahre Wert mit 68% Wahr-
scheinlichkeit innerhalb des Fehlerintervalls um den Messwert liegt. Dazu erlautern wir zunachst Konfidenzgréfen und Beurteilungen vonstatistischen Abweichungen.
Anschliefend lernen wir die wichtige Chi-Quadrat-Verteilung und zugehérige Verfahren kennen: Mit der Chi-Quadrat-Methodefiihren wir Parameterschatzungen mit vielen
Messwerten durch,die individuelle gaubverteilte Messfehler haben. Auferdem kénnen wir mit dem Chi-Quadrat-Test quantitativ beurteilen, ob eine Parameterschatzung
vom statistischen Standpunkt sinnvolle Ergebnisse liefert.
«
8.1 Messwert, wahrer Wert
8.1
Messwert, wahrer Wert
8.1.1
Test einer Hypothese
Wir stellen hier die Hypothese auf, dass eine theoretische Modellvorhersage mit unserem experimentellen Messergebnis statistisch vertraglich sei. Wir werden dafiir zunachst definieren, wo die Schwelle zwischen vertraglich und unvertraglichliegt. Eine solche Grenze wird per Konvention vereinbart. Eine typische Forderungist, dass ein Messergebnis weniger als 2 Standardabweichungen o vom theoretischen Wert entfernt liegt. Bei gauBverteilten Messwerten entspricht dies der Wahrscheinlichkeit von 95%, dass die Werte innerhalb des Bereichs von 2c liegen. Dementsprechend erwartet man mit 5% Wahrscheinlichkeit, dass eine statistische Fluktuation zu einer gréBeren Abweichungals 2o fiihrt. Der Test der Hypothese, dass ein Messergebnis mit einer theoretischen Vorhersage vertraglich ist, ist also eine Wahrscheinlichkeitsaussage unter Beriicksichtigung eines vor dem Test vereinbarten Grenzwerts. Ist die Antwort des Tests auf die Hypothese positiv,
so sind Messung und Vorhersage miteinander kompatibel. DerTest ist aber kein Beweisfiir die Korrektheit des Experiments oder der Theorie!
negativ,
so sind Theorie und Messung inkompatibel. Entwederdie Messungoder die Theorie oderbeide sind verkehrt.
8.1.2
Konfidenzniveau, Konfidenzgrenze, Konfidenzintervall
Unsliegt das Messergebnis z,, -+ o eines Experiments vor, dessen Fehlerangabe o der Standardabweichungeiner Gaubverteilung (3.52) entspricht. In welchem Bereichliegt nun der wahre Wert 2? Ausgehend vom unbekannten wahren Wert x, ergab sich im Rahmender experimentellen Unsicherheit o der Messwert x, mit 68% Wahrscheinlichkeit in dem Bereich x, +o. Da wir nur den Messwert x, haben, kann der wahre Wert x, oberhalb bzw. unterhalb
von x» liegen. Zunachst bearbeiten wir den Fall, dass der Messwert oberhalb des wahren Werts liegt (zw < xm), und evaluieren dann den anderenFall (x. > rm). Beide Falle sind
in » Abbildung8.1 visualisiert. Wir stellen die Hypothese auf, dass der Messwert z,, durch einestatistische Fluktuation zustande kam, die einer von uns vorgegebenen Wahrscheinlichkeit a, entspricht (z. B. Qy = 5%).
Mit dieser Vorgabe bestimmen wir den Mittelwert x, einer Gaubverteilung mit der dem Messfehler entsprechenden Standardabweichungo: Ay =
1
CO
Taal,
(way)? e202 dx
(8.1)
147
f(x
f(x)
PETEstatistiscne Testverfahren
Xy
PNeyitellen-mm
Xin
Xm
on
Konfidenzgrenzen Wirstellen links die Hypothese auf, dass der Messwert x, einer GauBwahrscheinlichkeitsdichte entstammt, deren Standardabweichung dem Messfehler o entspricht und deren Mittelwert x, soweit unterhalb von 2, < xm liegt, dass rm durch eine Fluktuation mit der vorgegebenen Wahrscheinlichkeit a, zustande kam (grau schraffierte Flache), Genauso berechnen wir rechts den Gaufmittelwert
Quellcode
Zo oberhalb von tm < 2p fiir die gegebene Wahrscheinlichkeit a,. (Python-Code: Fig_Hypothesentest1.py)
Ausgehend von dem Wert xz, zeigt die graue Flache in der » Abbildung8.1, links die Wahrscheinlichkeit a,,, den Messwert z,, oder einen gréferen Wert zu erhalten (vergleiche mit (3.8)). Mit dem auf diese Weise bestimmten Wert x, haben wir eine untere Grenze
fiir den wahren Werterhalten, die wir auch als Konfidenzgrenze bezeichnen. Fiir den Fall, dass der wahre Wert x, oberhalb des Messwertsliegt (a, > @m), konnen wir analog eine obere Grenze z, fiir den wahren Wert bestimmen (> Abbildung 8.1,
rechts). Wir geben die Wahrscheinlichkeit a, vor, dass der Messwert x, durch eine statistische Fluktuation zustande kam und unterhalb von xz, bei x, oder einem noch kleineren Wertliegt. Den Wert x, berechnen wir wiederals Mittelwert einer GauBverteilung mit der Standardabweichung o: 1 fr _ (w=20)? d Aa = —— e@ 202 zr °
(8.2) ‘
V2T Odo
Wennwir beide Wahrscheinlichkeiten a, und a,fiir die statistische Fluktuation unseres Messwerts vorgeben, kénnen wir mit (8.1) und (8.2) auch die Wahrscheinlichkeit CL=1—-—au—Qo
(8.3)
berechnen, den wahren Wert innerhalb desIntervalls Bu < lw. < Bo
(8.4)
zu finden. Den Bereich[z,,, 20] bezeichnen wir als Konfidenzintervall. Die Wahrscheinlichkeit CL heibt Konfidenzniveau (englisch: »confidence levels).
148
8.1 Messwert, wahrer Wert
Wahlen wir die Werte ag = Qu = 0,1587, so erhalten wir als Konfidenzniveau CL = 1—ay—d> = 68,27%, was dem Bereich von +1 Standardabweichung o einer Gaubverteilung um ihren Mittelwert entspricht (3.64). Wie wir > Abbildung 8.2 entnehmen, ergibtsich fiir diese vorgegebenen Werte als Konfidenzintervall [t —0,%m +0]. Der wahre Wert xy liegt also mit CL = 68,27% Wahr-
f(x)
scheinlichkeit im Bereich von +1 Standardabweichung o um den Messwert x.
PNeeifeltaren-e74)
Wahrer Mittelwert DerMittelwert z,, der Gaufiwahrscheinlichkeitsdichte, aus der der Messwert xm stammt, liegt mit Wahrscheinlichkeit a, bei z,, oder darunter und mit Wahrscheinlichkeit a, bei 2, oder dariiber. Spezifizieren wir gleiche Wahrscheinlichkeiten Qu = A> = 0,1587, so befinden sich x, und zp, jeweils im Abstand des expe-
rimentellen Fehlers vom Messwert tm: 0 = |o — m| = |Cu — Lm|. Folglich befindet sich aus der Perspektive des Messwerts x, der wahre Mittelwert x, der GauBwahrscheinlichkeitsdichte mit CL = 1 — ay — ao = 0,6827 Wahrschein-
Brune
lichkeit innerhalb des Fehlerintervalls um den Messwert: tm + o. (Python-Code: Fig_Hypothesentest2.py)
Quellicode
Das Konfidenzintervall wird oft als quantitative Information iiber physikalische GréBen verwendet, die nur indirekt oder mit sehr groBem Aufwand messbar sind. Aucheinseitige Konfidenzgrenzen kénnen wichtige Riickschliisse erméglichen. Im Fall von experimentellen Resultaten, bei denen der Messwert X undsein Fehler ox in derselben GréBenordnung liegen, kénnen wir eine obere Konfidenzgrenze X95, dafiir formulieren, dass X mit 95% Wahrscheinlichkeit nicht gréBer als Xo5», ist.
149
ETEseasistiscre Testverfahren
Experiment8.1: 95% Konfidenzgrenzefiir Gastemperatur Wir bestimmenhier eine obere Grenzefiir die Temperatur J in einem Gasbehilter mit einer sehr geringen Dichte von Wasserstoffmolekiilen.
In dem Gedankenexperimentist es uns gelungen, die Geschwindigkeit vg von einem einzigen Molekiil zu messen: vg = 630 m/s. Die erwartete Geschwindigkeitsverteilung ist die Maxwell-Boltzmann-Verteilung f(v, 7) (3.27). Wir variieren die Temperatur in f(v,T), bis das Integral bei der Temperatur T = T55%, va a= /
flv, Tose ) dv = 0,05
0
ergibt. In diesem Beispiel ergibt sich a = 0,05 fiir die Konfidenzgrenze Ty;, = 273K
(» Abbildung 8.3). Wir schlieBen also mit 95% Wahrscheinlichkeit Temperaturen im Gasbehialter oberhalb von T = 273 K aus.
T=273K
0.001000
2000 3000 4000 v/ (m/s)
Toeiteire:e})
Konfidenzgrenzefiir die Temperatur eines Gases Die Konfidenzgrenzefiir die Temperatur eines Gases aus der Geschwindigkeitsmessung vq = 630 m/s eines Wasserstoffmolekiils ist durch die senkrechte Linie gekennzeichnet. Wir stellen die Hypotheseauf, dass vg als eine statistische Fluk-
rane
E
Quellcode
150
tuation mit 5% Wahrscheinlichkeit (grau schraffierte Flache) aus der Maxwell-
Boltzmann-Geschwindigkeitsverteilung f(v, 795%) (3.27) zustande kam. Noch hohere Temperaturen sind unwahrscheinlich, sodass hier Ty;., = 273 K eine obere Konfidenzgrenzefiir die Gastemperatur mit 95% Wahrscheinlichkeitist. (PythonCode: Fig_Hypothesentest3. py)
8.1 Messwert, wahrer Wert
8.1.3
Signifikante Abweichungen
In der Physik verwendet mangerne fiir die Beurteilung einer Hypothese die Anzahl n von Standardabweichungen o der GauBverteilung. Beispiel 8.1: Konfidenzgrenze und Anzahl der Standardabweichungen Ein Messresultat zq = 1490 mit dem Messfehler og = 211 liegt deutlich oberhalb des theoretisch erwarteten Werts x; = 1000. Eine Moglichkeit ist, dass es sich um einestatistische Fluktuation handelt. Eine andere Méglichkeit ist, dass der hohe experimentelle Wert von einem zusitzlichen, bislang unbekannten physikalischen Prozess verursacht wird. Um das Konfidenzniveau zu erhalten, berechnen wir die Wahrscheinlichkeitfiir die
beobachtete Abweichung von der Vorhersage: 1
ry
_ (2-2
ae e V2 Oa [
)2
74
dx=0,01
(8.5)
Das Konfidenzniveau betrigt CL = 1—-a=99%. Wir kénnen den Unterschied zwischen dem experimentellen Resultat und der Vorhersage alternativ in Vielfachen n der Standardabweichungen oq ausdriicken und erhalten: Ld — Xt 7
= 2.33
(8.6)
Od
Die Signifikanz der Abweichungbetragt demnach 2,33 Standardabweichungen. Wie diese Abweichungtypischerweise beurteilt wird, erklaren wir weiter unten in diesem Abschnitt.
Konfidenzniveaus C'L und die entsprechenden Vielfachen n der Standardabweichung o bei gauBverteilten Messgréfen sind in der folgenden Tabelle gezeigt [11]: Konfidenzniveau_
einseitige Grenze
beidseitige Grenze
fa5
Vielfache n vona
Vielfache n vona
68,27%
0,475
1
95%
1,65
1,96
99%
2,33
2,58
(8.7)
Dabei wird unterschieden, ob es sich um einseitig oder beidseitig berechnete Grenzen handelt. Welche Form geeignetist, hangt von der jeweiligen Fragestellung ab. Beispiele fiir solchen Fragestellungen werden wir in den folgenden Abschnitten vorstellen.
151
BEMstatistiscne Testverfahren
Umgekehrt entsprechen Vielfache n der Standardabweichung o folgenden Konfidenzniveaus C'L (vergleiche mit (3.64)): GauBstandardabweichungen, d.h.
Konfidenzniveau
Konfidenzniveau
Vielfache n von o
einseitige Grenze
_beidseitige Grenze
1
Seee
1—0,3173
3
£1-35-10=
t= 970102=
5
12801088
15s 1G"
Beurteilung von Abweichungen Liegen Messwert und theoretischer Wert innerhalb von einer Standardabweichung, so sind beide in guter Ubereinstimmung. Bei 1-2 Standardabweichungen sind die Werte noch kompatibel. Statistische Fluktuationen, die Abweichungen von 2 — 3 Standardabweichungen erzeugen,
sind selten, aber kommen erfahrungsgem4B vor. Ab 3 Standardabweichungen werden die méglichen Ursachenfiir den Unterschied zwischen Theorie und Experimentinteressiert diskutiert und in vielen Bereichen der Physik als »signifikante« Abweichung bezeichnet. Entsprechende Publikationen heifen dann (englisch:) »indication of ...«, »evidence for ...« oder »observation of ...«.
In der Teilchenphysik werden Unterschiede von mehr als 5 Standardabweichungen zwischen Theorie und Experimentals Signalfiir eine signifikante Abweichung beurteilt und dann z.B. als (englisch:) »observation of ...« publiziert.
8.2
t-Test
Um die Kompatibilitat zweier Mittelwerte zu evaluieren, nutzen wir den sogenannten t-Test. Diesem Test liegt die Studentschet-Verteilung zugrunde.Sie ist die korrekte Wahrscheinlichkeitsdichte fiir ein Verfahren, bei dem wir die Genauigkeit des Mittelwerts aus den Messdaten selbst bestimmen.
152
8.2 t-Test
Mathematischer Einschub 8.1: Gamma-Funktion
Die Gamma-Funktion ist fiir positive x € R tiber folgendes Integral definiert: I(x) = [ t? 1 e! dt
(8.9)
Thre Werte sind tiber Internetrechner, Datenanalyseprogramme[3, 6, 5] oder in Tabel-
len [8] verfiigbar. Fiir positive ganze Zahlen n € Z kénnen wir I mit der Fakultat in Verbindungbringen:
T(n+1)=n!
(8.10)
Die Studentschet-Verteilung ist die folgende Wahrscheinlichkeitsdichte:
2
ey
A\ 2
fn(t) = vn (2) (+e
(8.11)
Dabei bezeichnet n die Anzahl der Freiheitsgrade. Die > Abbildung8.4, links zeigt, dass die t-Verteilungfiir kleine Werte von n breitere Auslaufer im Vergleich zur Gaufiverteilung (3.52) hat. Die t-Verteilung wird fiir groBe Werte von n der GauBverteilung ahnlich. R 0.4 =
fF
0.3
\
SS Gace
x 1.00
--- Student-t; n=1
a
EPA oe Student-t; n=5
--- Student-t; n=1
0.50
OL
0:25
0
“SOS x
TAs) eifeltavee:®5)
— Gauss
O75),
0.2
005
== >»Y
[nr Student-t; n=5
0
5 x
Die Studentschet-Verteilung Die Studentschet-Verteilung ist eine Wahrscheinlichkeitsdichte fiir den Vergleich von Mittelwerten: Linksist fn (t) (8.11) fiir die Anzahl der Freiheitsgrade n = 1 und
“ EXTRAS
n = 5 im Vergleich zur GauBwahrscheinlichkeitsdichte gezeigt. Rechts sind die
LINE
Wahrscheinlichkeiten P = {°° f dt gezeigt, den Wert ¢ oder einen noch gréBeren Wert zu finden. (Python-Code: Fig_Hypothesentest4. py)
Quellcode
Gegeben seien die n Messwerte y1, y2,.-., yn. Wir berechnen ihren Mittelwert nach (4.14) 1
nm
p= lM
153
RTstatistiscne Testverfahren
und bestimmen die Standardabweichung wie in Gleichung (4.20):
Als theoretische Vorhersage haben wir den Mittelwert y;. Unser Ziel ist, die Kompatibilitat zwischen y; und dem experimentell ermittelten Wert y zu iiberpriifen. Als Testgréfe verwendenwir die Differenz des experimentellen und theoretischen Werts und dividieren durch den experimentellen Fehler des Mittelwerts:
(8.12)
Diese TestgréBe folgt einer t-Verteilung mit n — 1 Freiheitsgraden. Dabei entspricht n der Anzahl der Messwerte und 1 Freiheitsgrad wird fiir die Berechnung des Mittelwerts aus den n Messwerten abgezogen. Die Wahrscheinlichkeit P fiir die statistische Vertraiglichkeit der beiden Werte, beziehungsweise das Konfidenzniveau CL, lesen wir aus dem Integral iiber die ¢-Verteilung ab (> Abbildung8.4, rechts). Die Integration miissen wir nach unserer jeweiligen Fragestellung einseitig oder beidseitig durchfiihren. Soll bei einer Fragestellung beriicksichtigt werden, dass der experimentelle Wert g der TestgrdBe ¢ in (8.12) oberhalb des theoretischen Werts y; liegt, gehen wir folgendermafen vor: Die Wahrscheinlichkeit P, dieses Messergebnis oder einen noch hdheren experimentellen Wert zu erhalten, betragt:
p= i fa(t) dt
(8.13)
Bei einer anderen Fragestellung soll die Vertraglichkeit der Messergebnisse zweier Experimente verglichen werden. Dafiir verwenden wir als Testgr6Be t die Differenz der Mittelwerte, dividiert durch den kombinierten Mittelwertfehler, den wir tiber das Fehlerfortpflanzungsgesetz erhalten (5.25):
foe
(8.14)
Die Wahrscheinlichkeit, diese Differenz der Messwerte oder eine noch gréBere Differenz zu erhalten, berechnen wir dann mit
p-2f[- f(t) dt. It]
154
(8.15)
8.2 t-Test
Welches der beiden Ergebnisse gréBer ist als das andere, spiele hier keine Rolle. Daher verwendenwirin der unteren Grenze den Betrag|t| und beriicksichtigen beide Méglichkeiten durch den Faktor 2. Wurden die Mittelwerte aus n; Messungen des ersten Experiments und nz Messungen des zweiten Experiments bestimmt, so betragt die Anzahl der Freiheitsgrade n = ni + no — 2. Zwei Freiheitsgrade werdenfiir die beiden Mittelwertbildungen subtrahiert. Beispiel 8.2: Vergleich zwischen Theorievorhersage und Experiment Die Vorhersage einer theoretischen Rechnung ergebe den Wert y; = —1. Das Experiment habe n = 3 Messwerte y;, deren Mittelwert und Fehler des Mittelwerts wir berechnen: Messwerte
Ye —
Mittelwert
2
Freiheitsgrade
n—1=2
Varianz
—— ae +0? +17)=1
Fehler
art cede s=
Die TestgrdBeist hier:
1
g—y 2-(-1)_ 5,2 89
1/v3
Die Wahrscheinlichkeit, als experimentellen Mittelwert y = 2 oder einen noch gréBeren Wert zu erhalten, betragt P= [ fo(t) dt = 0,0175 = 1,75% . t=5,2
Falls die experimentelle Beobachtung durch das theoretische Modell korrekt beschrieben wird, miisste es sich um einestatistische Fluktuation bei den Messdaten handeln. Die Abweichungdes theoretischen Werts entspricht als einseitige Grenze o = 2,1 Gauf’schen Standardabweichungen(8.8).
Python Quellicode: Wahrscheinlichkeitsdichte der ¢-Verteilung from scipy.stats import t
t.pdf(x, n) Berechnet die Wahrscheinlichkeitsdichte der Studentschen ¢-Verteilung mit der Anzahl der Freiheitsgrade n an derStellex.
155
Statistische Testverfahren
8.3
?-Test
Liegen uns Messdaten mit gauBverteilten Messfehlern vor, so erméglicht die y7-Verteilung verschiedene wichtige Anwendungen in der Datenanalyse.
Wirstellen zunichst die y?-Verteilung und das \?-Testverfahren vor. Anschliefend zeigen wir die y?-Methodefiir Parameterschétzungen aus Messdaten und erinnern dabei an die Maximum-Likelihood-Methode und die Methode der kleinsten Quadrate. Mit der x?-Methodelassen sich nicht nur die Parametereiner theoretischen Vorhersage schatzen,
sondern wir kénnendariiber hinaus quantitativ iiberpriifen, ob die Messdaten mit dieser theoretischen Vorhersagestatistisch kompatibel sind.
8.3.1
?-Verteilung
Gegeben seien n unabhiangige Zufallsvariablen 21, z2,..., Zn, die einer Gaufiwahrscheinlichkeitsdichte mit dem Mittelwert j. = 0 und der Standardabweichung o = 1 folgen. Wir nennen die Summeder Quadrate dieser Zufallsvariablen \7: n
= So :
(8.16)
2 bei:
Xinax = 7 — 2
156
(8.20)
8.3 \2-Test
Beispiel 8.3: y°-Verteilung In der > Abbildung 8.5 sind die \-Verteilungenfiir die Werte n = 1,..., 6 gezeigt.
20.57 eens
Ms
a
= 0.4) *
--- n=2
\
—=— n=3
0.3) % ‘
— n=4
on
mccence
0.27/ Ns Lf
:
n=5
--- n=6
see
al
>
Abbildung8.7, links nutzen wir wieder die Exponentialfunktion (7.29) und verwenden die Naherung konstanter Zerfallsraten innerhalb einer Minute fiir die theoretisch erwartete Anzahl 4; = At- A. exp (—(j — 0,5) At/r) (7.30). Wegen der verhaltnismafig groBen Anzahlen von n; und yu; kann man hier die Poissonverteilung durch eine GauBverteilung annadhern und eine y?-Anpassung durchfiihren (8.31): 10
ae
2
2
x?(Ao) = » He)
(8.32)
Wiebeider Likelihood-Anpassung berechnet man den Wert von x” fiir verschiedene Werte von A. undtragt das Resultat graphisch auf (» Abbildung8.7, rechts). Jetzt kann man den Wert unddie Fehler ablesen (Ay? = 1):
A, = (211+ 6)/min
161
££ Statistische Testverfahren
Man beachte, dass die relative Unsicherheit auf A. hier etwa um einen Faktor von
ca. 3,5 kleiner ist als bei der kleineren Probe, fiir die wir die Likelihood-Anpassung durchgefiihrt haben (7.31). Das ist zu erwarten, da hier die Statistik um etwas mehr
als einen Faktor 10 gréBerist. Jetzt testen wir die Giite der Funktionsanpassung: Sind die Messdatentiberhaupt mit einer Exponentialverteilung vertraglich? Der ?-Wert ist 4,5 bei Nr = 9 Freiheitsgraden und damitkleinerals der zugehérige Mittelwert (x7) = 9 beziehungsweise der Median \2,.q = 8,3. Die Wabrscheinlichkeit bei Nr = 9 einen Wert x? = 4,5 oder kleiner zu erhalten, betraégt P = Sage fo(x) dx? = 12%. Dies entsprichteiner Abweichungvonlediglich o = 1,2 Standardabweichungen vom Median 2,,,. Hier passt also das theoretische Modell der Exponentialverteilung zu den Messdaten.
= 200
SP
150
ve
6
100
4
50
2
00
2
4
6
8
10
4%95
t/min PNSei lites,
200
205
210
215
220
225
Ao / (1/min)
Parameterschatzung mit der y?-Methode Die Zerfalle einer radioaktiven Probe mit mittlerer Lebensdauer 7 = 500s messen wir in m = 10 Minuten-Intervallen At (links). Fiir die Exponentialverteilung
EXTRAS
bestimmen wir die anfangliche Aktivitét Ao = No/At. Wir variieren Ao und summieren fiir den y?-Wert die Quadrate der Residueniiber alle Intervalle (8.32). Im Minimumergibt sich der beste Schaétzwert Ao = 211/min bei x? = 4,5. Dieser Wertist im Vergleich zur Anzahlder Freiheitsgrade NF = m — 1 = 9 (minus fiir den Supease Parameter Ao) klein, jedoch sind bei einer .?-Wahrscheinlichkeit
“ONLINE
von P(x? = 4,5, Ne = 9) = 12% die Messungen mit der Exponentialverteilung
Quellcode
vertraglich. Den Fehler o(A.) = 6/ min lesen wir bei Ax? = y? — x2(Ao) = 1 ab (8.30). (Python-Code: Fig_KleinsteQuadrate2.py)
162
Das Wichtigste zum Mitnehmen
Das Wichtigste zum Mitnehmen @ Eine Hypothese itiber die Kompatibilitat zweier experimenteller Ergebnisse oder zwischen einer Theorie und einem experimentellen Resultatlasst sich als Wahrscheinlichkeitsaussage beantworten. Vor der Durchfiihrung des entsprechenden Hypothesentests wird die zugrunde liegende Wahrscheinlichkeitsverteilung und ein Grenzwert vereinbart auf deren Basis die Kompatibilitat quantifiziert wird. @ Das Konfidenzniveau (confidence level CL) ist ein WahrscheinlichkeitsmaB fiir die
Hypothese. Unsere Perspektive ist, das Resultat x, des Experiments als zufallige Fluktuation aus der zugrunde liegende Wahrscheinlichkeitsverteilung aufzufassen(z. B. GauB), die den wahren Wert x,, als Mittelwert hat. Die Standardabweichung o dieser GauBverteilung bestimmen wir aus dem Fehler des gemessenen Resultats x, +o. Eine untere Grenze x, fiir den Mittelwert dieser Gaubverteilung berechnen wir durch Integration so, dass das experimentelle Resultat oder ein héherer Ergebniswert mit der Wahrscheinlichkeit a zustande kam. Genauso berechnen wir eine obere Grenze z,fiir den Mittelwert. Fiir das Konfidenzniveau CL = 1 — 2a = 68% liegt der wahre Wert 2» innerhalb des Konfidenzintervalls x, < ty < Zo.
@ Bei dem Konfidenzniveau CL = 1 — 2a = 68%liegt die untere Grenze x, eine Standardabweichung o unter dem Messwert (x — o) und die obere Grenze x, bei rm +c.
Die Angabe eines gemessenen Resultats x,, + o impliziert daher, dass der wahre Wert Zw mit der Wahrscheinlichkeit 68% im Bereich rm —o < tw < %m +c liegt. @ Fiir die Bewertung der Kompatibilitat zweier Mittelwerte ist die Studentsche t-Verteilung die korrekte Wahrscheinlichkeitsdichte. ® Die \?-Verteilungist eine der wichtigsten Wahrscheinlichkeitsverteilungen fiir Hypothesentests und Parameterschatzungen. Sie beschreibt die quadratische Summe von n
Zufallszahlen z; aus einer Gaufverteilung mit Mittelwert . = 0 und Standardabweichung o = 1:
tayod 2—*
Die Anzahl n entspricht der AnzahlderFreiheitsgrade. Der Mittelwert der x?-Verteilung
ist (x?) = n und die Standardabweichungist o = V2n. M@ Fassen wir n Messwerte(xi, y;) als gaubverteilte Zufallszahlen auf, lasst sich die Kompatibilitat einer Vorhersage f(z|a) mit den Messungen durch das Residuum
_ yi(zi) — f(zila) ae
Oy,i(Zi)
als y?-Test formulieren: Das Integral der y?-Verteilungfiir n Freiheitsgrade oberhalb von
x? =
XO", p? ergibt die y?-Wahrscheinlichkeit fiir die Kompatibilitat der Vorhersage
mit den Messungen. @ Den Parameter a der Vorhersage f(z|a) kénnen wir durch Minimierung von
x? = 0, p? bestimmen. Den Fehler der besten Schatzung @ des Parameters lesen wir links und rechts des Minimums 0x7/0a|a-. = 0 der x?-Summeab: Wie beim Likelihood-Verfahren betragt bei der Differenz |?(am) — x7(@)| = m? mit m = 1,2,3...
163
Iccstccans Testverfahren
die Entfernung vom Schatzwert m Standardabweichungenc. Folgt y?(a) naherungsweise der Form einer Parabel, so lautet das Resultat der Parameteranpassung a + o mit a= jai = al.
Aufgabe8.1: Vergleich zweier experimenteller Mittelwerte Gegeben sind die Messwerte zweier Experimente: Experiment1:
n=3
Werte
«2; =3, 5,7
Experiment 2;
m=4
Werte
y; = —2, 0, 2,4
Sind die beiden experimentellen Resultate statistisch miteinandervertraglich?
Aufgabe8.2: \”-Wahrscheinlichkeit Berechnen Sie mithilfe einer Tabelle oder eines Internetrechners die Wahrschein-
lichkeiten fiir n = 50 Messungen (Freiheitsgrade) folgende Werte zu erhalten: Bl ? =30 BX? =55
Computersimulation 4 U
9.1
Anwendungsfalle ........ 0... 0.
9.2
Likelihood-Quotient
9.3.
Kombinierte statistische, systematische Fehler..............
167
pat [aa] c Lu [aa] a
BEIcoonaitersinutation
Wenn wir erwartete Wahrscheinlichkeitsverteilungen nicht einfach analytisch berechnen kénnen,helfen haufig Computersimulationen, die wir mit Zufallszahlen durchfiihren. Zunachst zeigen wir das Prinzip der Simulationen anhand des Mittelwerts einer Haufigkeitsverteilung. »
Dann stellen wir eine Quotientenmethodevor, bei der wir mithilfe der Likelihood-Methode
testen, ob eine bestimmte Modellhypothese besser mit den Messdaten vertraglich ist als eine andere Modellhypothese. SchlieBlich zeigen wir ein Likelihood-Verfahren, mit
dem wir gleichzeitig statistische und systematische Fehler bei der Schatzung eines Parameters bestimmen.
166
«
9.1 Anwendungsfalle
9.1
Anwendungsfalle
K6nnen wir eine Wahrscheinlichkeitsverteilung nicht ohne weiteres analytisch auswerten, z. B. weil es sich um das Resultat der Faltung mehrerer Wahrscheinlichkeitsverteilungen handelt, ko6nnen wir uns mit Computersimulationen weiterhelfen. Ein typischer Anwendungsfall ist, die Ubereinstimmungeines experimentellen Resultats mit einem bestimmten Modell zu iiberpriifen. Wir simulieren dafiir anhand des Modells Experimente und berechnen damit numerisch das Konfidenzniveau. In der >» Abbildung 9.1 sehen wir links oben eine Datenverteilung mit n ~ 100 Messpunkten, deren Mittelwert Zpaten = 30,4 betraégt und durch den Pfeil gekennzeichnet ist. » Abbildung 9.1 ein. Diese Prozedur
wiederholen wirfiir jedes der 1000 simulierten Experimente. Der gemesseneMittelwert ist im Vergleich zur Modellvorhersage kleiner. Wir untersuchen hier, ob eine statistische Fluktutation zu dem gemessenen Mittelwert Zpaten oder einem
Kleineren Wert fiihrt. Diese Wahrscheinlichkeit P berechnen wirtiber folgendesIntegral: P
Daten
- [.
a:
dN dz
0 3
Nd”
Die Ubereinstimmung des Modells mit dem Datenmittelwert ist mit einem Konfidenzniveau von CL = 1 — P = 70% (8.3) im Rahmenzufalliger Fluktuationen in den Messdaten
gut erklarbar. Beispiel 9.1: Zufallszahlen einer Wahrscheinlichkeitsverteilung Mit einem Zufallsgenerator fiir gleichverteilte Zahlen z zwischen 0 < z < 1 kénnen
wir eine Gleichverteilung erzeugen. Zufallszahlen entsprechend der Gaubverteilung k6Gnnen wir nach dem Zentralen Grenzwertsatz (Abschnitt 4.2) durch die Uberlagerung vieler gleichverteilter Zufallszahlen ($7"_, z:)/n erhalten. Zufallszahlen anderer Wahrscheinlichkeitsverteilungen kénnen wir durch zwei gleichverteilte Zufallszahlen z; und zg generieren. Als Beispiel wollen wir hier eine Poissonverteilung P(r) mit dem Mittelwert j= 3 im Bereich 0 < r < 10 erzeugen (Abbildung9.2). Zunachst vergréBern wir die erste Zufallszahl z; um den Faktor f = 10 und bilden damit den ganzzahligen Wert r = 21f.
168
9.2 Likelihood-Quotient
Mithilfe der zweiten Zufallszahl z2 wahlen wir, ob wir r akzeptieren oder verwerfen. Dafiir vergleichen wir zz mit P(r): za < P(r)
akzeptieren
z2 > P(r)
rneu wiirfeln
Dieses Verfahren ist rechenzeitaufwandig. Computerprogrammefiir die Datenanalyse bieten bereits komfortable L6sungen an (siehe Python-Beispiel).
— 0.25 ee 0.20 0.15 0.10 0.05 0.00
\seyifeitate4)
-
=Zufallszahlen entsprechendder Poissonverteilung
—
Die Symbole (Punkte) markieren eine Poissonverteilung P(r) mit dem Mittelwert jt = 3 im Bereich 0 < r < 10. Das Histogramm zeigt die Verteilung von 10.000 Zufallszahlen, die nach der Poissonverteilung gezogen wurden. (Python-Code:
x RAS LINE Te
Fig_Computersimulation2.py)
Quellcode
Python Quellcode: Poissonzufallszahlen from scipy.stats import poisson
poisson.rvs (mu)
Berechnet eine poissonverteilte Zufallszahl bei einem Mittelwert mu.
9.2
Likelihood-Quotient
Mit dem Verhialtnis zweier Likelihood-Werte kénnen wir quantifizieren, ob ein Datensatz mit einer Modellhypothese ehervertréaglich ist als mit einer anderen Modellhypothese. Zur Anschauung machen wir folgendes Gedankenexperiment. Experiment 9.1: Goldsucher In einer Gegend mit friiheren Goldfundenbietet eine Firma den Kauf von Schiirfrechten an. Wir besitzen eine automatische Goldsuchmaschine, die gleich grofe Wiirfel aus dem Erdreich sticht und tiber die Messung der Wiirfelmasse die Dichte p des
169
BEcomputersimulation
Materials ermittelt. Die Dichteverteilungen von Erdwiirfeln mit (f,()) und ohne Goldanteilen (f.()) sind in der linken Abbildung 9.3 gezeigt. Sie unterscheiden sich nur geringfiigig, seien aber durch viele Messungen bekannt. Der Verkaufer der Schiirfrechte lobt das Gebiet undstellt einen Anteil von a. = 18% Wiirfeln mit Goldanteilen in Aussicht. In einer ersten Grabung vermessen wir N = 100
Erdwiirfel und vergleichen die Messung (Symbole in der rechten Abbildung 9.3) mit der Behauptung des Verkaufers. Dabei interessieren uns die Fragen: Gibt es hier tiberhaupt Gold? K6nnen wir die Aussage des Verkaufers bestitigen?
yo 0.6
.
— kein Gold
:
--- Gold
Fe
— kein Gold
+ 18% Gold
= 40!
a
,o 0.4
Messung
02
0.0
20
0
Abbildung 9.3
EXTR Quellcode
2
4
6
8
=
07
10
0
z
4
6
8
10
BGGEtTeir. Links ist die erwartete Verteilung in der Massendichte p von Erdwiirfeln mit und ohne Goldanteil dargestellt. Rechts ist die gemessene Massendichte von Erdwiirfeln (Symbole) im Vergleich zu zwei Modellannahmen gezeigt. Die gestrichelten Kurve enthalt die Annahme, dass der Erdwiirfelanteil mit Gold bei 18% liegt. Bei der durchgezogenen Kurve wird angenommen, dasses gar kein Goldgibt. (PythonCode: Fig_Computersimulation3. py)
Die Behauptung des Verkaufers k6nnen wir mathematisch in folgendem Modell formulieren. Die vorhergesagte Verteilung f(p,a) setzt sich aus den beiden Dichteverteilungen fo(p) und fo(p) zusammen, die mit dem Anteil a der Erdwiirfel mit Goldanteilen bzw. (1 — a) gewichtet werden. Mit der Anzahl N der genommen Proben lautet das Modell:
f(p,a) = N [a fg(e) + (1 — a) fo(p)]
(9.2)
In jedem Intervall i der Dichte p vergleichen wir die Anzahl n; der Dateneintraége mit den Eintraégen f(p;,a.) des Modells mit der Verkéufervorhersage a. = 0,18. Falls das Modell fiir die gemessenen Daten korrektist, sollten die Dateneintrége im Rahmen der Poissonverteilung (3.45) um die erwarteten Modelleintrage jz; = f (pi, a.) streuen: —1i , b; P;(ni|pi) =e
nj
nj!
(9.3)
Wir berechnen die Poissonwahrscheinlichkeit in allen m Intervallen und bilden den Likelihood-Wert (7.2) fiir den vorhergesagten Anteil a. = 0,18:
L(daten\as) = |] Pi(nil|pi) i=1
170
(9.4)
9.2 Likelihood-Quotient
Anschliefend variieren wir den Anteil a der Erdwiirfel mit Goldanteilen im Modell (9.2) und schatzen mit dem Maximum-Likelihood-Verfahren (7.3) den wahrscheinlichsten Wert fiir die Messungen. In unserem Beispiel ergibt sich a= 011.
(9.5)
Mit dem Likelihood-Wert £(daten|a) fiir den wahrscheinlichsten Wert a bilden wir den Quotienten der beiden Likelihood-Werte [14]:
L(daten|ac) a L(daten|a)
Gas)
Der Quotientliegt im Intervall 0 < \ < 1. Wenn die Aussage des Verkaufers korrektist, sollte der Wert in der Nahe von \ = 1 liegen. Sollte sich allerdings ein \-Wert nahe Null zeigen, so ist seine Aussage mit den von uns genommenen N = 100 Probenstatistisch nicht haltbar. Fiir unsere Berechnungen kénnenwiranstelle des Quotienten \ auch die logarithmische Form entsprechend (7.9) wahlen und damit eine Testgr6Be ¢ bilden:
t = —2 IndA = —2 (In L(daten|a) — In L(daten|a)) = F(a) — F(a)
(9.7)
Wir setzen dafiir alle Werte direkt in die Summandender Gleichung (7.28) ein.
Zunichstzeigen wir in der linken » Abbildung 9.4 den Verlauf der Testgrofe t als Funktion des Goldanteils a mit dem Minimum bei dem gemessenen Goldanteil von a@ = 0,11.
150 4
100
2
50 0
PNejeifeltateace5)
Test der Kompatibilitat zwischen gemessenem Goldanteil und der Vorhersage Linksist die Differenz der negativen Log-Likelihood-Funktionen t = F(a) — F(@) als Funktion des Goldanteils a gezeigt. Unser gemessener Goldanteil @ = 0,11 wird durch das Minimum angezeigt. Als TestgrdBefiir die Hypothese ao = 0,18 verwenden wir die Differenz der negativen Log-Likelihood-Funktionen t = F'(a.)—F(@) = 1,35 (Pfeil links). Rechts sind 500 simulierte Experimente mit wahrem Goldanteil ao = 0,18 gezeigt (Histogramm), wobei die »gemessenen« Goldanteile im Rahmenderstatischen Fluktuationen schwanken (Poissonverteilung). Unser gemessener Goldanteil @ = 0,11 (senkrechte Linie) ist offenbar mit der Hy-
EXTRAS
“ONLINE
pothese eines wahren Goldanteils von ao = 0,18 vertraglich. (Python-Code: Fig_Computersimulation3.py)
Quellicode
171
lo Computersimulation
Fiir unsere Messung und die Vorhersage des Verkaufers ist in der » Abbildung9.4, links die TestgroBe t(a. = 0,18; a = 0,11) als Differenz der beiden negativen Log-Likelihood-Werte visualisiert. In unserem Beispiel ergibt sich:
t(ao,@) = 1,35
(9.8)
Um herauszufinden, ob unser Messwert @ = 0,11 im Rahmen der Verkiéufervorhersage ein wahrscheinlicherWertist, simulieren wir anhand des Modells (9.2) mit dem vorher-
gesagten Anteil a. = 0,18 insgesamt 500 Experimente mit jeweils NV = 100 Wiirfeln aus dem Erdreich. Dafiir verwendenwir in jedem Intervall i der Dichte p die Anzahl der Modelleintrage als Mittelwert j:; einer Poissonverteilung und erzeugen eine Zufallszahl n; fiir die Anzahl der Eintrage des simulierten Experiments in diesem Dichteintervall. AnschlieSend berechnen wir die Testgr6Be t (9.7).
Die normierte Verteilung der simulierten Testgrofen ¢ ist in der » Abbildung 9.4, rechts gezeigt. Zusatzlich ist der Wert t(a., @) (9.8) aus der Messung eingezeichnet. Offenbarist unser Messwert ein wahrscheinlicher Wert. Die Wahrscheinlichkeit P, dass eine statistische Fluktuation zu dem Wert t(a.,@) oder einem gréBeren Wertgefiihrt hat, berechnen wir tiber das Integral zu
FS tles, B= om
f(t) dt =0,21.
(9.9)
(ao ,@)
Die Ubereinstimmung mit der Aussage des Verkaufers ist bei einem Konfidenzniveau von CL =1-—P=79% (8.3) recht gut. Als einseitige Grenze entspricht sie o = 0,8 Gau8’schen Standardabweichungen. Natiirlich wollen wir auchsicherstellen, dass tiberhaupt Gold vorhandenist. Dafiir testen wir die Hypothese, dass der Goldanteil bei a = 0 liegt. Wir berechnen die Testgréfe ¢ fiir diese Uberlegung underhalten fiir unser Beispiel:
t = F(0) — F(a) = 18,7 Fur diese Differenz in der negativen Log-Likelihood-Funktion erwarten wir nach Tabelle (7.22) eine Abweichung von mehrals 4 Standardabweichungen. Um die Wahrscheinlich-
keit fiir eine statistische Fluktuation quantitativ erfassen zu k6nnen, brauchen wir nach Tabelle (8.8) zwischen 1/(3,17-10~°) ~ 30.000 und 1/(2,87-10~*) = 3.000.000 simulierte Experimente. Fiir jedes der simulierten Experimente erzeugen wir anhandder Modellverteilung f,(,) ohne Goldanteile eine Messreihe mit N = 100 Wiirfeln aus dem Erdreich (» Abbildung9.5).
Insgesamt 4 von 1.000.000 simulierten Experimenten zeigen einen groBeren Wertals die Daten. Die Wahrscheinlichkeit, den Wert t = 18,7 (senkrechte Linie) oder einen gréfe-
ren Wert zu finden, betragt somit 4/1.000.000 ~ 4-10~° bzw.als einseitige Grenze 4,5 Standardabweichungen(8.8). Damitist es sehr wahrscheinlich, dass wir durch den Kauf der Schiirfrechte tatsachlich Gold finden!
172
9.3 Kombiniertestatistische, systematische Fehler
=]
105 —)
103 101 |
)
in on
10
20 t
rNejeiifeltietee bey)
©='Test der Kompatibilitat des gemessenen Goldanteils mit der Nullhypothese In diesem Fall wire unsere Messung des Goldanteils von @ = 0,11 nur zufallig durcheinestatistische Fluktuation zustande gekommen. Gezeigt sind 1.000.000 simulierte Experimente ohne Goldanteil (Histogramm), wobei die »gemessenen« Goldanteile im Rahmenderstatischen Fluktuationen schwanken(Poissonvertei-
lung). Als TestgréBe verwendenwirdie Differenz der negativen Log-LikelihoodFunktionen t = F(0) — F(a). Fiir unseren gemessenen Wert t = 18,7 (senkrechte
EXTRAS “ONLINE
Linie) ist es mit 4,50 Standardabweichungen sehr unwahrscheinlich, dass kein
Gold vorhandenist. (Python-Code: Fig_Computersimulation3. py)
Quellcode
Python Quellcode: Gold Die Berechnungen des Kapitels 9.2 sind in der Python-Code Datei Fig_Computersimulation3.py
durchgefiihrt.
9.3.
Kombinierte statistische, systematische Fehler
In diesem Abschnitt stellen wir eine Methode vor, mit der systematische Fehler und
statistische Fehler korreliert zu einem Gesamtfehler eines Messresultats zusammengefasst werden kénnen. Dabei nutzen wir unsere Kenntnisse tiber das Theorem von Bayes (Abschnitt 2.4), die Poissonverteilung (Abschnitt 3.3) und tiber Parameterschatzungen mit der Likelihood-Funktion (Abschnitt 7.1).
Wir betrachten noch einmal das Gedankenexperiment mit der Goldsuchmaschine (Abschnitt 9.2). In einem bislang unerforschten Gebiet méchten wir den Anteil der Erdwiirfel mit Gold bestimmen und den Messfehler inklusive der systematischen Unsicherheiten angeben. Dazu fiihren wir Dichtemessungen mit N = 300 Erdproben durch, die in der Abbildung 9.6 gezeigt sind.
173
FEEcomputersimulation
z
we
°F
—
i
0.2;
ao} It 2ot
+
0.1}
‘yf tt
0
at
4
1
11
6
++
Snckcak:
8
p Neejileltintesekay)
0
8
p
p
Erneute Goldsuche Links ist die Messung der Massendichte p von 300 Erdwiirfeln im Rahmen der Goldsuchedargestellt. Ziel ist die Bestimmung des Goldanteils a anhand der erwarteten Verteilungen in der Massendichte von Erdwiirfeln ohne Goldanteil(Mitte)
und mit Goldanteil (rechts) unter Einbeziehungstatistischer und systematischer Fehler.
Wir verwenden wieder das Modell (9.2) mit den diskreten Wahrscheinlichkeitsdichten
fy fiir Erdwiirfel mit Goldanteil und f, fiir Erdwiirfel ohne Goldanteil und dem Anteilsfaktora:
f(p,a) = N [a fy(p) + (1 — a) fo(0)]
(9.10)
Um den Anteil a der Erdwiirfel mit Gold aus den Messungen zu bestimmen, verwenden wir die Maximum-Likelihood-Methode zusammen mit dem Theorem von Bayes. Zunéchst ermitteln wir den optimalen Wert @ und seinenstatistischen Fehler. Im dann folgenden Teil erweitern wir das Verfahren und zeigen, wie man systematische Effekte im Messergebnis berticksichtigt.
Parameterschatzung mit statistischem Fehler In jedem Intervall j unserer oben gezeigten Dichteverteilungen betrachten wir den Modellwert f(p;,a) fiir einen gegebenen Goldanteil a als den Mittelwert j.; einer Poissonverteilung (3.45). Die Anzahl der Messwerte n; in diesem Intervall j variiere mit der
Poissonwahrscheinlichkeit um diesen Mittelwert ju;:
Kz?
Pi(nj|yj) =e Nj:
(9.11)
Ausallen m Intervallen des Histogrammsbilden wir die Likelihood-Funktion
L(a) = [J Pi(nj|n5) j=l
174
(9.12)
9.3 Kombinierte statistische, systematische Fehler
und erhalten durch das MaximumderLikelihood-Funktion den optimalen Anteil @ anhand der Daten(7.3):
OL
Dalama © Wir haben mit dieser Likelihood-Anpassung ein MaBfiir die bedingte Wahrscheinlichkeit p(daten|a) (2.31) ermittelt, dass wir bei gegebenem Goldanteil a die beobachtete Datenverteilung erhalten:
p(daten|a) = const.’ - £L(a)
(9.13)
Unsereigentliches Ziel ist die umgekehrte bedingte Wahrscheinlichkeit, dass sich bei den gegebenen Daten der Goldanteil a ergibt: p(al|daten)
(9.14)
Wie wir im Abschnitt 7.1 erlaéutert haben, erhalten wir diese A-posteriori Wahrscheinlichkeitsverteilung (2.30) tiber das Theorem von Bayes(2.32):
p(a) p(a|daten) = p(daten|a) p(daten)
(9.15)
Die Wahrscheinlichkeit p(daten) fiir die bereits genommenen Daten ist konstant und braucht bei der Anpassung des Goldanteils a nicht beriicksichtigt zu werden. Wir bendtigen nun nocheine A-priori-Verteilung p(a) (2.34) fiir den Anteil a der Erdwiirfel
mit Gold. Dann entspricht wegen (9.13) das Produkt aus der Likelihood-Verteilung L(a) und der A-priori-Verteilung p(a) bis auf eine Normierungskonstante c der A-posteriori Wahrscheinlichkeitsverteilung: p(a|daten) = c- L(a)- p(a)
(9.16)
Wir nehmenhieran, dass jeder mégliche Goldanteil zwischen 0 < a < 1 gleichwahrschein-
lich ist, sodass wir als A-priori-Verteilung wahlen:
p(a)=1
(9.17)
In diesem Fall ergeben sich die KenngréBen der A-posteriori-Verteilung direkt tiber die Likelihood-Verteilung (vergleiche mit (7.8)):
p(a\daten) = const. - £L(a)
(9.18)
Aus der A-posteriori-Verteilung in » Abbildung 9.7 kénnen wir direkt den wahrscheinlichsten Wert des Goldanteils a ablesen. Den statistischen Fehler von a erhalten wir aus dem Intervall um den wahrscheinlichsten Wert, in dem 68,27% der Flachen unter der
Kurve liegt (Durchfiihrung der Datenanalyse: Robert Fischer) a=0,34+0,04.
(9.19)
175
| Computersimulation
S 0.15 oO
a
= 0.1 oO
0.05 0
0 0.1 02 03 04 05 a
PNosifeltemeea)
§=©6Schatzung des Goldanteils a undsein statistischer Fehler Die Abbildung zeigt die A-posteriori-Verteilung p(a|daten) des Goldanteils a, die sich nach dem Theorem von Bayesausder Likelihood-Anpassung £(a) des Modells (9.10) an die Messwerte (» Abbildung 9.6) und durch Multiplikation mit
der A-priori-Verteilung p(a) = 1 fiir den Goldanteil ergibt. Bester Schatzwertist der wahrscheinlichste Wert @ = 0,34 (hier der Median). Den statistischen Fehler o(a) = 0,04 erhalten wir durch Ausschluss der Auslaufer, die links und rechts jeweils 15,87% der Flache einnehmen, sodass wir das +1c-Intervall (68,27%) um G@ erhalten.
Parameterschatzung mit systematischen Fehlern Fiir ein vollstaéndiges Messresultat wollen wir nun auch systematische Fehler in die Datenauswertung einbeziehen. Das Resultat unserer Dichtemessung wird offensichtlich von der Luftfeuchtigkeit H beeinflusst, die zur Zeit der Probenentnahmeherrschte. Die Luftfeuchtigkeit betrage H = 60% bei einer Messgenauigkeit von oy = 2%. Wir behandeln diesen Effekt als systematischen Fehler entsprechend der in » Abbildung9.8, links dargestellten GauBverteilung S(H) mit der Standardabweichung oy = 2%. Die systematische Unsicherheit in der Luftfeuchtemessung verandert unsere Modellfunktion f(p,a) (9.10). Wir erweitern daher f um eine weitere Dimension, sodass wir sowohl den Goldanteil a, als auch die Luftfeuchtigkeit H variieren koénnen: f(p, H,a). In der » Abbildung9.8, rechts zeigen wirfiir einen vorgegebenen Goldanteil a die Modellverteilung f(p, H,a) zur besseren Ubersicht nur an den Stellen Ho, Ho +o und H. —on. Fur die weiteren Berechnungen miissen natiirlich auch alle anderen Werte von f gefiillt werden. Die Likelihood-Funktion £ (9.12) muss nun ebenfalls sowohl den Goldanteil a, als auch die Luftfeuchtigkeit H beriicksichtigen k6nnen. Mit der erweiterten Modellfunktion f(p, H,a) erhalten wir fiir vorgegebene Wertepaare (H,a) in jedem Dichteintervall p; den Mittelwert j.; der Poissonverteilung P;(n,|j.;), sodass sich als modifizierte LikelihoodFunktion ergibt:
L'(a,H) = [J Pi(nslus)
176
(9.20)
9.3 Kombinierte statistische, systematische Fehler
n
0.15 0.1 0.05 55
60
65
H PNojoiteltietemeR-3)
Einfluss der Luftfeuchtigkeit Die Luftfeuchtigkeit H = 60% wahrend der Messung des Goldanteils a ist nicht exakt bekannt, sondern mit einer Unsicherheit von 2%behaftet. Wir modellieren H durch eine Gaubverteilung S(#) (links) und iibertragen diesen systematischen Fehler auf die Bestimmung des Goldanteils a: Das rechts gezeigt Modell f(p,a, H) fiir die Massendichte p der Erdwiirfel verandert sich sowohl durch den Goldanteil a (fiir diese Visualisierung ist a = const.) als auch durch die Luftfeuchtigkeit H.
Bei der Likelihood-Anpassung an die Messungen werden a und H gleichzeitig variiert, wobei beriicksichtigt wird, dass als wahre Luftfeuchtigkeit H = 60% wahrscheinlicher als H = 55%ist (links).
Um die Ungenauigkeit oy in der Luftfeuchtigkeitsmessung bei der Bestimmung der Aposteriori-Verteilung p(a|daten) zu beriicksichtigen, modifizieren wir (9.16) mit L’(a, H) und einer A-priori-Verteilung $(/) fiir die Luftfeuchtigkeit: p(aldaten) = c- [ee H)-p(a)-S(H) dH
(9.21)
Wir integrieren tiber den Einfluss der Luftfeuchtigkeit, da uns als Messergebnis lediglich die Angabe des Goldanteils a und sein Fehler interessieren. Bevor wir den Einfluss der Luftfeuchtigkeit auf p(a|daten) erlaéutern, erklaren wir die einzelnen Terme der Gleichung. In (9.21) ist c ein Normierungsfaktorfiir p(a|daten) analog zu (9.16). Der Goldanteil a soll wiederfrei zwischen[0, 1] variieren, sodass wir fiir die A-priori-Verteilung wieder p(a) = 1 verwenden(9.17).
Als A-priori-Verteilungfiir die Luftfeuchtigkeit H verwendenwir die oben abgebilidete Verteilung S(H). Wir gehen davon aus, dass die systematische Unsicherheit von H klein ist, weswegen groBe Variationen in H durch die Gaufverteilung gedimpft werdensollen. Um den Einfluss der Luftfeuchtigkeit auf das Ergebnis von (9.21) zu verstehen, machen
wir folgende Uberlegung. Das erweiterte Modell f(p, H,a) passe bei einem gegebenem Goldanteil, z.B. a = 0,3, an der Stelle H = H. + 0,20 insgesamt besser an die Daten, als bei dem nominellen Wert a(H.) = 0,34 (9.19). Dadurch wird der Likelihood-Term £’(a, H. + 0,207) bei der Integration in (9.21) ei-
nen grofen Beitrag liefern, der durch die Multiplikation mit der A-priori-Verteilung S(H. + 0,207) noch etwas gedampft wird. Die A-posteriori-Verteilung p(a|daten) kann
177
Computersimulation
dadurch im Vergleich zur oben gezeigten, rein statistischen Auswertung etwasbreiter werdenund leicht verschobensein. In der » Abbildung 9.9, links ist die resultierende A-posteriori-Verteilung p(a|daten) gezeigt. Unser Messergebnis mit seinem gemeinsamenstatistischen und systematischen Fehler lesen wir direkt aus dieser Verteilung ab. Die gestrichelten Linien zeigen den Bereich, in dem 68%der Werte liegen:
a= cee
(9.22)
Der Gesamtfehler ist etwas gréBerals der statistische Fehler (9.19).
=
z
s5 0.15-
3 o
Ss
[
60)i
01;
40-
0.05 -
20+
000.4 02 03 04 05
0 .
PNojeifelvesB:))
p
Schatzung des Goldanteils a mit komb. statistischen und systematischen Fehler Linksist die Verteilung unter Beriicksichtigung derstatistischen Fehler und des systematischen Fehlers der Luftfeuchtigkeitsmessung H dargestellt. Im Vergleich zur rein statistischen Auswertung (® Abbildung9.7) ist der beste Schatzwertleicht
verschoben, gleichzeitig ist der Fehler groBer: a = G26"Ripe: Rechts sind die Messungen der Massendichte p der Erdwiirfel im Vergleich zum angepassten Modell mit allen Anteilen (durchgezogenes Histogramm) und separat dem Goldanteil (gestricheltes Histogramm) gezeigt. Die schraffierte Fache zeigt die Unsicherheit durch den Fehler o in der Bestimmung des Goldanteilsa.
In der >» Abbildung 9.9, rechts ist das Modell mit dem angepassten Goldanteil a im Vergleich zu den Daten gezeigt. Das Fehlerband des Modells zeigt, wie sich die Modellverteilung unter Variation entsprechend des Messfehlers von a verandert. Das gestrichelte Histogramm zeigt die Goldverteilung N a f,(p). Der Goldanteil in dem bislang unerforschten Gebietist also auch bei Beriicksichtigung des durch die Luftfeuchtigkeit verursachten systematischen Fehlers vergleichsweise groB. In aktuellen Datenauswertungsprogrammen zur Bestimmung systematischer Fehlerist die Einfiihrung von m systematischen Unsicherheiten entsprechend moglich [5, 16].
178
9.3 Kombinierte statistische, systematische Fehler
Wir bezeichnenmit $;(h;) die Wahrscheinlichkeitsdichten der einzelnen systematischen Fehler, die als A-priori-Verteilungen der Fehler genommen werden. Die LikelihoodFunktion (9.20) erweitern wir entsprechend auf £’(a,h). Analog zu (9.21) ergibt das Integral p(a|daten) = c- [ee h) »Si(hi)+...+Sm(hm)+p(a) dhi...dhm
(9.23)
die A-posteriori-Verteilung. Sie enthalt sowohl den Einfluss aller betrachteten systematischer Fehler, als auch — wegen der Likelihood-Anpassung — denstatistischen Fehler der Daten. Die Verteilungen S;(;) werden unabhingig voneinander angegeben. Durch die LikelihoodAnpassung an die Daten sind diese Unsicherheiten miteinander korreliert. Wenn z. B. das Modell f(p, h, a) bereits gut mit den Daten zusammenpasst, wird die Variation eines systematischen Einflusses h; im Allgemeinen die Variation eines anderen h; erfordern, damit das Modell weiterhin gut zu den Daten passt. Die Automatisierung der Programme zur Kombinationderstatistischen und systematischen Fehler ist beeindruckendweit fortgeschritten. Trotzdem mussnatiirlich bei jeder Datenanalyse sehr sorgfaltig verifiziert werden, dass unter Variationen der Annahmen tiber das Modell f, iiber die systematischen Fehler und die A-priori-Verteilungen die Messergebnisse unverandert bleiben.
179
oa Computersimulation
Das Wichtigste zum Mitnehmen ™@ Lasst sich eine Wahrscheinlichkeitsverteilung f(x) nicht durch eine der bekannten Verteilungen beschreiben, k6nnen wir numerische Verfahren verwenden.Fiir die Simu-
lation von Haufigkeitsverteilungen variieren wir die Anzahl der Messwerte, die sich in jedem Intervall {x;, 2; + dz] ergeben, anhand der Poissonverteilung. Als Poissonmittelwert verwenden wir den erwarteten Wert unseres theoretischen Modells f(x;) an der Stelle z; und simulieren die Fluktuationen mithilfe eines Zufallsgenerators fiir die Poissonverteilung. Dariiber erhalten wir viele simulierte experimentelle Resultate am Computer, die wir mit den Messungen vergleichen kénnen. Auseiner Messung erhalten wir mit dem Likelihood-Verfahren den besten Parameterschatzwert @ eines theoretischen Modells f(x|a). Mit dem Likelihood-Quotienten testen wir die Vertraglichkeit mit einem alternativen Parameterwert b 4 a im Modell f(a|b). Dafiir verwenden wir die Differenz der negativen Log-Likelihood-Funktionen als TestgrdBe: t = —2 In £(daten|a) — 2 In L(daten|b) = F(a) — F(b) Mit f(z|b) simulieren wir viele Experimente am Computer, berechnen F'(b) und erzeugen damit eine Wahrscheinlichkeitsdichtefiir die TestgréBe t = F(a) — F(b). Das Integralfiir
t oberhalb des gemessenen Werts t ergibt das Konfidenzniveau, mit der die Hypothese f(z|b) bewertet werden kann. Mit dem Likelihood-Verfahren erhalten wir durch Anpassungdes theoretischen Modells f(z|a) an eine Messung die Likelihood-Verteilung £(a) « p(daten|a) als Funktion des Parameters a. Haben wir eine Verteilung der wahrscheinlichen Werte vona, die A-prioriVerteilung p(a), iibertragen wir mit dem Theorem von Bayesdie Likelihood-Verteilung in eine A-posteriori-Verteilung: p(a|daten) = const. L(a) p(a)
Der wahrscheinlichster Wert a der A-posteriori-Verteilung und das 68%-Intervall um a ergeben das Resultat des Experiments mit seinem statistischen Fehler: a +c. Systematische Fehlerberiicksichtigen wir bei der Berechnung der A-posteriori-Verteilung durch eine erweiterte Likelihood-Funktion, die zusatzlich die Stérung H beriicksichtigt. Die A-priori-Verteilung S(H) gibt die wahrscheinlichen Werte der Stérung H. Wir integrieren tiber alle méglichen Werte von H underhalten so die A-posteriori-Verteilung:
p(a|daten) = const. [ee H)p(a) S(H) dH Ihr wahrscheinlichster Wert @ und das 68%-Intervall um @ ergeben das Resultat des Experiments mit kombinierten statistischen und systematischen Fehlern: a +c.
180
Klassifizierung 10.1.1 Allgemeines Verfahren... 2... 2... ee ee 10.1.2 Amwendung........... cee eee eee ee eee ens
185 186
Boosted-Deécision-Trées «ss sie ce ee ee we we ee ee
187
Neuronales Netzwerk... 2... 1. 10.3.1 Lineare und nichtlineare Abbildungen ......... Serene: 10.3.2 Netzwerk-Training) . 06. 6 et ee we we 10.3.3 Vorhersagen des Netzwerks ........... 0000 sees 10.3.4 Klassifizierung durch neuronale Netzwerke ...........
191 191 193 196 196
UBERBLICK
10.1 Fisher-Diskriminanten-Methode ................-.5000% 183
110 Klassifizierung
In der experimentellen Physik méchten wir haufig eine bestimmte Sorte von Ob»
jekten oder Ereignissen untersuchen, die wir aber nicht als reinen Datensatz erhal-
ten, sondern nur mit einer Beimischung von Untergrundereignissen. Das Ziel von Klassifizierungsmethodenist, interessante Ereignisse aufgrund ihrer Eigenschaften von Untergrundereignissen abzutrennen. In diesem Kapitel stellen wir Methoden zur Klassifizierung von Objekten oder Ereignissen vor. Zuniachst zeigen wir die Fisher’sche Diskriminanten-Methode und die »Boosted-
Decision-Trees«-Methode. Weiterhin geben wir eine kurze Einfiihrung in die Funktionsweise neuronaler Netzwerke, die seit wenigen Jahren im Rahmen des sogenannten »Deep Learnings« in Wissenschaft, Wirtschaft, Medizin etc. wachsende Bedeu« tung haben.
182|
10.1 Fisher-Diskriminanten-Methode
10.1
Fisher-Diskriminanten-Methode
Die Zielsetzung der Fischer’schen Diskriminanten-Methode wollen wir anhanddesfolgendenBeispiels motivieren. Beispiel 10.1: Fisher-Diskriminante Wir moéchten Apfel und Birnen mit der Fisher-Diskriminante voneinanderunterscheiden (» Abbildung 10.1). Diese Friichte, Apfel = A und Birnen = B, werden durch zwei Parameter charakterisiert:
™@ Die Farbe F, das ist die Wellenlaénge gemessen in Mikrometer, bei der das im Sonnenlicht reflektierte Wellenlangenspektrum maximal ist. Zur Erinnerung: F =~ 0,55 um ist griin, F + 0,65 um ist rot, dazwischenliegt gelb. M@ Dierelative Lange L, das ist die gré{te Langenausdehnung/ der Frucht dividiert
durch ihre gréBte Dicke b, wobei / > b ist, also L = 1/b. Die folgende Tabelle zeigt die Messwertefiir jeweils 10 Apfel und 10 Birnen. Birnen B:
F/\m
0,55
1,01
0,49
1,10
0,66
1,03
0,57
1,07
Wie man aus den beiden » Abbildungen 10.2, oben erkennt,ist eine vollsténdige Trennung der beiden Verteilungen mit einem einfachen Schnitt nicht méglich. Schauen wir uns die beiden Eigenschaften Farbe undrelative Lange in einem 2-dimensionalen Histogramm an (> Abbildung 10.2, unten), erkennen wir eine Korrelation, die wir fiir die Trennung der Apfel und Birnen ausnutzen kénnen.
183
BEciassifizierung
WNeriteliepa
§=Apfeln und Birnen Charakterisierung von Apfeln und Birnen anhandihrer Farbe F (maximalreflektierte Wellenlange im Sonnenlicht) und aufgrundihrerrelativen Lange L = 1/b, d.h. des GréBenverhiltnisses von Linge / dividiert durch Breite b.
2
C=) Birnen LoAepfel
Zz
3
r t
t I
2
2
1
I !
aie1
1 1 1 1
oa
C4 Birnen tx= Aepfel
: ‘
0
0.7
I 1
1
0.8 Farbe F
1
1.000
1.05
1.10
1.15
1.20 Laenge L
|
VTI1
2
°
a
e
Aepfel
a
a
Birnen 7]
0.60
0.65 0.70 Farbe F
oO
© =
0.45
PNYyieliefiiies,
EXTRAS “ON LINE Quellcode
184
0.50
0.55
Farbe F und relative Lange L von Apfeln und Birnen In den jeweils1-dimensionalen Verteilungen der Farbe F undderrelativen Lange L lassen sich Apfel und Birnen nicht einfach trennen (obere Verteilungen). Tragen wir hingegen die Farben F und Liangen L als 2-dimensionale Verteilung auf, sind Apfel und Birnen anhandeiner Geraden voneinandertrennbar (untere Abbildung). Ziel der Fisher-Diskriminanten-Methodeist, diese Gerade zu berechnen. (PythonCode: Fig_Klassifizierung. py)
10.1 Fisher-Diskriminanten-Methode
10.1.1 Allgemeines Verfahren Wir werdenjetzt zunachst das allgemeine Verfahren zur Bestimmungeiner solchen Trenngeraden vonFisher einfiihren und dann auf die N Messdaten anwenden. Dabei bezeichnen wir nun allgemein die Eigenschaften mit x;. In unserem Beispiel bedeuten: m= F
Farbe
z2=L
Lange
Das Verfahren zum Auffinden der besten Trennunglauft in zwei Schritten:
Ee Zuniachst kombinieren wir die Messungen, A um sie anschlieBend zu trennen.
Die Mittelwerte und die Kovarianzenfiir die beiden Eigenschaften x1, 72 der Klasse A (Apfel) sehen folgendermafen aus: N
(a) = wt 1
(10.1)
N
(10.2)
(x3) = Wot 1
N
km=1,2
(10.3)
2 & ll e
Von mae > (xis — (xt)) (ted - (wm)) ,
Entsprechend berechnen wir die Mittelwerte (x?), (a3) und Kovarianzen V,“,, fiir die Klasse B (Birnen). Im Fisher-Verfahren werden nun die mittleren Kovarianzen
1 (Vi,m) = 3 (Vit + View)
(10.4)
unddie inverse Kovarianzmatrix mit den Matrixelementen ((V)~"), | berechnet. Als Testgr6fe t verwendenwirhier:
2
t= > (WV) ), (eA) a (m)) Lk
(10.5)
kym=1
Falls die Kovarianzmatrix naherungsweise diagonalist, ist auch die inverse Kovarianzmatrix ungefahr diagonal (vergleiche mit Gleichungen(7.59) und (7.60)): 2
Vx « 2)
(10.6)
2
n Viw ( 1/o? i
=O a)
(10.7)
185
ETI kiassifizierung
Dannbesteht die TestgréBe aus einer gewichteten Summe:
t=
;
(zi!) — (x?) a or Se
r+
ae
(3!) — («2') a5 —
=91
(10.8)
=92
=91'%1 + 92:22
(10.9)
Manerhilt also gréfere Gewichte bei groBen Differenzen der Mittelwerte bzw. kleinen Varianzen. Geben wir nun einen Schwellenwert t = ¢. = const. vor, so erhalten wir eine Gerade im 2-dimensionalen Histogramm 1
te
g2
g2
r2 = yp, 3
(10.10)
deren Steigung durch die beiden Gewichte festgelegt ist und deren Achsenabschnitt von der Wahlvon t. abhaéngt. Diese Gerade nutzen wir zur optimalen Trennung der beiden Ereignisklassen A und B.
10.1.2 Anwendung Fiir unsere Apfel- und Birnenmessungenberechnenwir nach den obigen Formeln die
Mittelwerte der Farben und Langen (F“), (L“), (F”), (L”) und die folgenden Kovarianzmatrizen:
v= (or OLF
or)
(10.11)
OLL
Wir multiplizieren dabei mit dem Faktor 1000, um die kleinen Zahlenwerte einfacher aufschreiben zu konnen: A7 Va
é
1000
=
1,46 ? ne
1,05 Ve - 1000 = ey
0,45 ’ 0.6 )
—0,16 0,63 )
(10.12)
(10.13)
Die invertierte mittlere Kovarianzmatrixist: +1 [
817
—194
an (Au vars)
ane
Da die Nicht-Diagonalelemente nicht klein sind, kénnensie nicht vernachlassigt werden. Entsprechend der Berechnungsvorschrift (10.5) erhalten wir damitfiir die Testgr6Be t: t= 63,4-F—114,4-L
(10.15)
Die » Abbildung 10.3 zeigt die Verteilung der t-Werte separatfiir die Apfel- und Birnenmessungen. Mit einem Schnitt bei t. = —86 kann man die beiden Obstsorten vollstandig voneinandertrennen. Die sich mit diesem Wert t = t. ergebende Geradeist in der » Abbildung 10.2 bereits eingezeichnet. Auch hier sahen wirsofort, dass ein Schnitt entlang dieser Linie besser funktioniert als ein Schnitt parallel zur F’- oder L-Achse.
186
10.2 Boosted-Decision-Trees
= 3
| | 1 ; | |
2
Tht
7
Lihit
[—] Birnen cxz Aepfel
rity
ct 1 1
0 -100
-90
—80
-70
—60 t
PNeei felon tte)
isher-Diskriminante Die Testgréfe t der Fisher-Diskriminante wird fiir jeden Apfel und jede Birne aus einer gewichteten Summeder Farbe F und relativen Lange L berechnet: t; = gr Fi + gz, L;. Das Gewichtgp fiir die Farbe F enthalt die Differenz der Mittelwerte (F'4) — (Fg) der Farben von Apfeln und Birnen dividiert durch ihre mittlere Varianz o7. Das Gewichtfiir die relative Linge L wird entsprechend berechnet. Fiir t = —86 lassen sich Apfel und Birnen trennen (» Abbildung 10.2). (Python-Code: Fig_Klassifizierung. py)
Mite Quellcode
Python Quellcode: Fisher-Diskriminante Die Berechnungen zurKlassifizierung von Apfeln und Birnen sind in der Python CodeDatei Fig_Klassifizierung.py
durchgefiihrt.
10.2
Boosted-Decision-Trees
Bei der Methodeder »Boosted-Decision-Trees«ist das Ziel, Objekte oder Ereignisse entweder der Klasse S oder der Klasse U zuzuweisen. Das Verfahren wird inzwischen haufig in der Teilchenphysik verwendet, um Signalereignisse S von Untergrundereignissen U zu trennen [15]. In allen Ereignissen seien m Eigenschaften x; bekannt, mit denen die Ereignisse charakterisiert werden. Zum Beispiel nehmen wir100fiktive Personen an, bei denen die Eigenschaften Alter, GroBe und Einkommen bekannt sind, und von denen 55 Personen in ihrem Leben mindestens einen Unfall hatten. Ein Versicherungsmathematiker méchte mit diesen Informationen Risikoabschatzungen durchfiihren. Er ordnet die 55 Personen mit Unfall der Gruppe S$
zu, die anderen bislang unfallfreien 45 Personen der Gruppe U. Das Verfahren beruht auf sequentiell ablaufenden Entscheidungsschritten, die in einem Baum (englisch: decision tree) von oben nach unten verlaufen (» Abbildung 10.4).
187
10 Klassifizierung
An jedem Entscheidungsknoten wird eine einzelne Eigenschaft x; des Ereignisses dazu verwendet, um das Ereignis entwederlinks oder rechts weiter zu untersuchen. Gibt es keine weitere Entscheidung zu fallen, steht das Ergebnis fest: Das Ereignis ist in einem vorwiegendsignalartigen oder in einem untergrundartigen Korb gelandet und wird dementsprechend als »Signal« oder »Untergrund«klassifiziert.
< 30.000
U 10/31
>=50 S 32/5 30.000, A < 50 und G > 185 werden 14 Personen der Gruppe S zugeordnet, was in 12 Fallen stimmt (86%) und nur in zwei Fallen falsch ist (14%).
Das Verfahren verlauft zweistufig. Im ersten Schritt wird die Sequenz der Entscheidungen festgelegt. Dazu bendtigen wir einen Datensatz, bei dem wir wissen, welches Ereignis zum Signal S gehért und welches zum Untergrund U. Im zweiten Schritt durchlaufen Ereignisse die Entscheidungssequenzen des Baums und werden entwederder Klasse 9 oder U zugeordnet. Zur Vereinfachung nehmen wir Ns = 2 Signalereignisse und Ny = 1 Untergrundereignis. Die Verteilung der ersten Eigenschaft «; dieser Ereignisse ist in der » Abbildung 10.5, links gezeigt. Wir miissen nun entscheiden, wo wir den Entscheidungsschnitt in x; optimal setzen. Dazu minimieren wir ein sogenanntes Gini-Kriterium:
G=(Ns+Nv) p (1—p)
188
(10.16)
10.2 Boosted-Decision-Trees
€oene>
— Ne)eifeitemtteey)
§=Optimalen Trennung von Signal- und Untergrundereignissen Zwei Signalereignisse S und ein Untergrundereignis U seien in der Variablen x so verteilt wie links gezeigt. Ein Schnitt bei « = 0,35 fiihrt offenbar zur optimalen Trennungder Signal- und Untergrundereignisse im Entscheidungsbaum (rechts). Wiirde der Schnitt bei z = 0,6 liegen, ware die Trennung nicht optimal. Beim automatisierten Aufbau des Entscheidungsbaumswird ein sogenanntes Gini-Kriterium (10.16) minimiert, um anhand eines Datensatzes mit bekannter
Klassifizierung fiir jede Variable x den Schnitt zur optimalen Trennungvon Signalund Untergrundereignissen zu finden.
Dabeiist p die Signalreinheit:
Ns
2 = ——_ =
( 10.17 )
Setzen wir den Schnitt optimal links zwischen das Signal- und das Untergrundereignis, so erhalten wir fiir den Wegnachlinks: 0 Glinks a (0 + 1) I
0 (1 a :) =0
Fiir den Wegnachrechts ergibt sich 2 Greehts = (2 +0) 5
2 (1-3) =0,
also insgesamt Glinks + Grechts =0.
(10.18)
Wiirden wir den Schnitt ungiinstig rechts zwischen die beiden Signalereignisse setzen, so erhalten wir fiir den Weg nachlinks 1
Gtinks = (1+ 1) 5
1
1
(1-3) =3
und den Weg nach rechts Grecht rechts
1
=
(1+ 0) Sr7 (1 1
il
:) er
0
;
also insgesamt i Giinks + Grechts — 5 :
(10.19)
Mit diesem Algorithmus werdenalle Eigenschaften x; vom Computer automatisiert untersucht und der Entscheidungsbaum anhand der minimalen Werte von Ghinks + Grechts
gebaut. Damit kénnten also bereits neue, unbekannte Ereignisse klassifiziert werden.
| 189
oe
Klassifizierung
Da solche einfachen Entscheidungsbaume zu haufig falsche Entscheidungen treffen, wird eine wesentliche Verbesserung dadurcherzielt, dass man viele — mehrere hundert — Entscheidungsbaume konstruiert. Mit diesen Baumenberechnenwir ein Mehrheitsvotum dariiber, ob ein einzelnes Ereignis eher »Signal« oder »Untergrund«ist. Dieses Verfahren wird auf Englisch »Boost« genannt und hat dem Verfahren den Namen BoostedDecision-Trees eingebracht.
%,
Die Signalreinheit p und das Gini-Kriterium G wird dafiir durch Gewichte w; fiir die Ereignisse modifiziert. Anstelle der Ereignisanzahlen stehen jetzt die Summen tiber die Gewichtefiir Signal- und Untergrundereignisse: Ns
Ws =) us,
(10.20)
i=1 Ny
Wo = > wu,i
(10.21)
i=1
Dementsprechendlautenjetzt die Signalreinheit und das Gini-Kriterium:
eigeae
ar Ws + Wu G = (Ws + Wu) p (1—p)
(10.22)
, (10.23)
Anfangs habenalle Ereignisse das Gewicht w; = 1, sodass Ws = Ns und Wy = Nvgilt. Nach Konstruktion des ersten Entscheidungsbaums wird nachgeschaut, welche Signalereignissen versehentlich in einem untergrundartigen Korb gelandet sind. Diese Ereignisse bekommenein anderes Gewicht w; > 1, bevor der nachstfolgende Entscheidungsbaum konstruiert wird. Auf diese Weise sieht jeder Entscheidungsbaum anders aus. Am Endedurchlauft jedes Ereignis i also viele Entscheidungsbéume, von denen jeder Baum k ein eindeutiges Votum abgibt: Ty(t) =
1:
Ty(i) = —1:
»Signal« »Untergrund«
(10.24)
Alle Informationen iiber das Ereignis i werden dann in einer Entscheidungsvariablen D(i) kondensiert, die eine gewichtete Summeausallen Entscheidungsbaéumenist: 1
1) = Nemes D(i)
NBaume
y a
(4 AkTh(2)
5 (10.25)
Dabeiist a; ein Baumgewicht, das auf der Basis der oben genannten Fehlentscheidungen des Entscheidungsbaums &: berechnet wird und ein Giitekriterium darstellt.
190 |
10.3 Neuronales Netzwerk
10.3
Neuronales Netzwerk
Bereits anfang der 1940er gab es erste Ideen fiir neuronale Netzwerke [17], die heute weitreichende Anwendungenin Wissenschaft, Wirtschaft, Gesellschaft finden [18]. Ein
Netzwerk kann man als mathematische Abbildung f(z) auffassen. Die n Eingabewerte < € R” werden im Netzwerk zusammengefasst, verarbeitet und fiihren zu mindestens einem Ausgabewert z € R™ mit m > 1 (» Abbildung 10.6).
Eingabewerte
Versteckte Ebene
Ausgabewert
mit zwei Knoten
Y,= 911 Xy +Q4)X,+b,
PNoetiteltaremitas)
Z= Cc, O(y;) +c, 0(y,)+d
Neuronales Netzwerk Die beiden Eingabewerte x; und x2 werden am oberen Knoten der versteckten Ebene durcheine lineare Abbildung y; = a11 1 + a12 x2 + b; zusammengefasst
und durcheine nicht-lineare Funktion o(yi) weiter verarbeitet. Die Ergebnisse aller Knoten werden im Ausgabewert z = ci o(y1)+ci o(y2)+d zusammengefasst. Die Parameter a;;,6;,c,,d der linearen Abbildungen werden entsprechend der Aufgabe des Netzwerkseingestellt.
10.3.1 Lineare und nichtlineare Abbildungen In der einfachsten Netzwerkarchitektur werden an jedem Knoten (node) einer versteckten
Ebene (hidden layer) simtliche Eingabewerte durch eine lineare Abbildung miteinander verbunden:
()-(2 ed) y2
a21
a22
x2
be
Den Ausgabewert z des Netzwerkserhalten wir durch Zusammenfiihren der Zwischenergebnisse aus der versteckten Ebene:
z=(a a)(% )+d y2
(10.27)
Die Gewichtsfaktoren a;;,b;,cx,d der linearen Abbildungen sind freie Parameter und
mtissen passend zur Aufgabenstellung gewahlt werden. Ein Verfahren zur Optimierung der Parameterstellen wir weiter unten vor.
191
"ET Klassifizierung
Dieses einfache Netzwerk produziert lineare Abbildungen z = f (3) und eignet sich daher nur zur Beschreibung linearer Zusammenhingez. B. von Messdaten, die einer Gerade folgen. Die Beschraénkungauf lineare Zusammenhinge andert sich nicht, wenn man das Netzwerk mit weiteren versteckten Ebenen ausriistet: Eine Verkettung mehrerer linearer Abbildungenergibt wiedereine lineare Abbildung. Um auchdie vielen Beobachtungen von Messdaten mit nichtlinearen Zusammenhangen beschreiben zu kénnen, modifiziert man die resultierenden Werte an jedem Knoten durch eine nichtlineare Funktion o:
( y ) = ( o(y1) ) Yy2
S| = 4.5-
o(y2)
(10.28)
S“
[
10.55 [
-0.5
0:
Neel feliitem tts
§=©Aktivierungsfunktion o Die Anwendungeinernicht-linearen Funktion o an jedem Knoten des neuronalen
Netzwerks erméglicht die insgesamt nicht-lineare Abbildung des Netzwerks. Verschiedene Funktionen stehen zur Auswahl, beispielhaft sind links die ReLUFunktion und rechts die hyperbolische Tangensfunktion tanh gezeigt.
Die Funktion o(y) besitzt tiblicherweise keine freien Parameter und kann so einfach aussehen wie die sogenannte Rectifier Linear Unit (ReLU), die in » Abbildung 10.7 links gezeigt ist. Positive Resultate y > 0 bleiben erhalten und werden in die nachste Netzwerkebene weitergegeben, negative Resultate y < 0 werden ignoriert:
_JSyr>dry a(u) = y Abbildung 10.11): NX
( : ) 7 ( — ) ( sti) )+( - )
(10.36)
Die Ergebnisse dieser letzten Ebene werden zunachst mit der Exponentialfunktion verstarkt und so normiert
(#)- (2), -
1
2
22
e71 + E72
e*
tan
dass 2; + Z2 = 1 ergibt (sogenannte Softmaz-Funktion, » Abbildung 10.11). Damit lassen sich die Ergebnisse als Wahrscheinlichkeit interpretieren. Wollen wir Bilder von 1) Hunden und 2) Pferden unterscheiden, so klassifiziert das Netzwerk Bilder mit 2; > Z2 als Hunde
und Bilder mit 4 < 22 als Pferde. Voraussetzungfiir das Training dieses Netzwerksist ein Datensatz, in dem zusatzlich fiir jedes Bild mit Eingabeinformation z; aller Bildpixel eindeutige Information dariiber vorliegt, ob es sich entweder um einen Hundoderein Pferd handelt. Diese Information zum wahrenBildinhalt kodieren wir fiir jedes Bild in dem Vektor (sogenanntes one-hotencoding):
matt 0): Hund —
(0
1):
Pferd
(10.38)
Beim Netzwerk-Training verwendenwirals Zielfunktion die sogenannte Kreuz-Entropie (cross entropy)fiir eine ausreichend groBe Anzahl mvon Beispielbildern:
__
I
z2 und ein Pferd fiir z2 > 21. Das Training des Netzwerks wird mit 4.500 Bildern von Hunden und 4.500 Bildern von Pferden durchgefiihrt, wobei dem Netzwerk jeweils die korrekte Klassifizierung iibergeben wird. Die Validierung des Trainings wird mit 1.000 Hundebildern und 1.000 Pferdebildern durchgefiihrt. Die Evaluierung des Netzwerks geschieht mit dem Testdatensatz von weiteren 2.000 Bildern, die nicht beim Training verwendet wurden. In der » Abbildung 10.12 sind zwei Beispielbilder gezeigt. Beide Bilder wurden richtig erkannt (Durchfiihrung der Analyse Niklas Langner).
Trotzdem ist die Vorhersage des Netzwerks nicht immerkorrekt. Die folgende Tabelle zeigt die relative Anzahl der korrekten Klassifizierungen und die Fehler in den Vorhersagen des Netzwerks: Netzwerk: Hund
Netzwerk: Pferd
wahrer Hund
0,76
0,14
wahresPferd
0,24
0,86
Mithilfe moderner Netzwerkarchitekturen, z. B. »convolutional« Netzwerke, gelingen heutzutage fast perfekte Klassifizierungen von Bildern, selbst bei sehr vielen Bildkategorien und komplexen Darstellungen [23, 24].
199
BORE kiassifizierung
PETA Tealecertw aN mV) @ Fisher-Diskriminantenmethode: Es liegen 2 Variablen x und y zur Trennung von 2 Klassen vor. Anhand von Trainingsdaten wird analytisch eine Gerade (x) konstruiert, die beide Klassen in optimaler Weise trennt. @ Boosted-Decision-Trees: Bei diesem maschinellen Lernverfahren werden n Variablen x; verwendet, um anhand von Trainingsdaten einen sequentiellen Entscheidungsbaum zu konstruieren. An jedem Knoten wird automatisch diejenige Variable x, herausgesucht,
die 2 Klassen bei dem Wert x, = xx. optimal voneinandertrennt. Durch den Aufbau von m verschiedenen Entscheidungsbaumen und Mittelung ihrer Ergebnisse wird die Qualitat der Klassifizierung verbessert. @ Neuronales Netzwerk: Bei diesem maschinellen Lernverfahren wird eine multi-dimensionale Abbildung von n Eingangsvariablen auf m Ausgangsvariablen anhand von Trainingsdaten optimiert. Das Netzwerk besteht aus k Ebenen mit / Knoten. An jedem Knoten einer Ebene werden Informationen aus der vorigen Ebene durch lineare Abbil-
dung zusammengefasst und anschlieBend einer nicht-linearen Funktion unterworfen. Eine Anwendungsolcher Netzwerkeist die Klassifizierung. Durch die groBe Anzahl einstellbarer Parameter eines Netzwerksergibt sich eine hohe Flexibilitat und damit ein sehr leistungsfahiges Instrumentfiir hoch-dimensionale Abbildungen.
200
Anhang: Losungen und Tabellen Losungen zu den Textaufgaben Lésung zu Aufgabe1.1: Mittelwert, Standardabweichung Bitte wiederholen Sie die Zusammenfassung des ersten Kapitels.
Lésung zu Aufgabe2.1: Lotterie Wir wahlen k = 3 Zahlen aus insgesamt n = 6 Zahlen aus. Die Anzahl der Méglichkeiten fiir 3 verschiedene Zahlen betragt: 6! She Soe ee 313!
3-2-1
6
Die Wahrscheinlichkeit, eine bestimmte Kombination von Zahlen zu tippenist
P(2,4,6) = 5 = 0,05 =5% . Es handelt sich um eine Lotterie mit relativ guten Gewinnchancen.
Lésung zu Aufgabe 3.1: Mensch-argere-Dich-nicht Die Wahrscheinlichkeit beim Spiel Mensch-iargere-Dich-nicht in zehn Runden kein einziges Mal die Augenzahl 6 zu wiirfeln betragt mit p = 1/6,n = 10 undr = 0:
ro=(0)-(3) -(9 0
10! = 10! 0! 1-
10
5\° (5)
Diese Wahrscheinlichkeit ist verbliiffend groB.
= 16%
HH Anhang: Lésungen und Tabellen
Lésung zu Aufgabe3.2: Binomialtheorem mit n = 3 Die kubische Anwendungdes Binomialtheoremslautet folgendermafen: 3 (a+ b)3 ~ > (*) 5 a’
-b°
-r
0 3
(;)
0
33,
~oa?
b
43
3
jee
+ ({)e
~~!
>».
3
+ ()-«
8
4
2
b
91
3
+ ())-
3.70
b
31g
311! t pore? + age o + are
=b* + 3ab? + 3a7b + a?
Lésung zu Aufgabe3.3: Exponentialverteilung Eine Autopanneergibt sich im Mittel alle 10.000 km, d.h. der Mittelwert der Expo-
nentialverteilung i
f(x) (x) = — i e7*/# betragt yp = 10.000. Setzen wir eine Fahrdistanz von 3.000 km ein, d.h. 2 = 3.000, ergibt sich die geringe Wahrscheinlichkeit von 7,4-10~° fiir eine Panne. Die Exponentialverteilung ist gedachtnislos. Das bedeutet, von jeder Distanz an gerechnet ergibt sich wieder dieselbe Wahrscheinlichkeitfiir eine Autopanne nach 3.000 km. S
202
Lésungen zu den Textaufgaben
Lésung zu Aufgabe 4.1: Fehler des Mittelwerts Bei n = 100 Zufallszahlen x;, die der Wahrscheinlichkeitsdichte f(2;) mit dem Mittelwert (x) und der Standardabweichung o entnommen wurden, schatzen wir den Mittelwert durch 1
n
(x) = — >. Gia,
n
sh
DerFehler des Mittelwerts betragt
O(2) =
Teilen wir die n Zufallszahlen in j = 1,...,m Gruppen mit jeweils k Werten ein, dann erhalten wir m Mittelwerte
Nach dem Zentralen Grenzwertsatz folgen sie einer Gaufiverteilung mit
_ o@ Wir bilden jetzt den Mittelwert dieser Mittelwerte
(2y' =
m
(2);
i=1
Der Fehler dieses Mittelwerts betragt wegen n = k-m: A(x)! =
O(x);
o
vm VkVvm Vn
Demnachgibt es keinen Unterschied in der Genauigkeit der beiden Mittelwerte.
203
Anhang: Lésungen und Tabellen
Lésung zu Aufgabe 5.1: Division unkorrelierter MessgroBen Fur die zusammengesetzte MessgréBe Ti Ce x2
ergibt sich nach dem Fehlerfortpflanzungsgesetz (5.22): 2
Oy
oe g ve
ost Ns
2
“05
dx.