198 22 55MB
German Pages 286 [288] Year 1998
Statistik mit Excel 5 oder 7 Lehr- und Übungsbuch mit zahlreichen Excel-Beispieltabellen und mit Diskette
Von
Prof. Dr. Wilhelm Erben
Vierte, unwesentlich veränderte Auflage
R. Oldenbourg Verlag München Wien
Für die Diskette benötigen Sie: • PC 386 oder höher • Windows 3.1 (oder höher) oder Windows 95 • Excel 5 bzw. Excel 7 Hinweis Die Excel-Dateien auf der Begleitdiskette wurden vom Verfasser mit Sorgfalt erstellt. Fehler sind dennoch nicht auszuschließen. Eine Haftung für etwaige Folgen kann nicht übernommen werden. Microsoft Excel, Visual Basic, Windows, Windows 95 sind (eingetragene) Warenzeichen der Microsoft Corporation. Die Deutsche Bibliothek - CIP-Einheitsaufnahme Statistik mit Excel 5 o d e r 7 : Lehr- und Übungsbuch mit zahlreichen Excel-Beispieltabellen / von Wilhelm Erben. München ; Wien : Oldenbourg. Bis 2., durchges. Aufl. u.d.T.: Statistik mit Excel 5 ISBN 3-486-24820-0 NE: Erben, Wilhelm Buch. - 4 . , unwes. veränd. Aufl. - 1998 Statistik mit Excel 5 o d e r 7 : Lehr- und Übungsbuch mit zahlreichen Excel-Beispieltabellen / von Wilhelm Erben. München ; Wien : Oldenbourg Bis 2., durchges. Aufl. u.d.T.: Statistik mit Excel 5 ISBN 3-486-24820-0 NE: Erben, Wilhelm Diskette. - 4., unwes. veränd. Aufl. - 1998
© 1998 R. Oldenbourg Verlag Rosenheimer Straße 145, D-81671 München Telefon: (089) 45051-0, Internet: http://www.oldenbourg.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Gedruckt auf säure- und chlorfreiem Papier Gesamtherstellung: R. Oldenbourg Graphische Betriebe GmbH, München ISBN 3-486-24820-0
Vorwort Ziel dieses Buches ist es, eine allgemeinverständliche Einführung in die G r u n d l a g e n der Wahrscheinlichkeitsrechnung und der darauf basierenden Methoden der Schließenden Statistik zu geben. A u s seiner Lehrerfahrung heraus ist dem Verfasser bekannt, daß es oft erheblicher Anstrengungen bedarf, Studierenden mit geringem mathematischen Interesse d a s Fach Statistik nahezubringen. Im Bestreben, auch Nichtmathematikern den Z u g a n g zu ermöglichen, wurde folgende Grundidee geboren: Gib den Lernenden ein Werkzeug an die Hand, welches ihnen erlaubt, Verfahren der Statistik selbst zu programmieren und graphische Ausgaben nach eigenem Geschmack zu gestalten. Laß sie mathematische Formeln oder Methoden in selbstgewählter Form in kleine R e c h n e r p r o g r a m m e umsetzen und auf diese Weise ein tiefgehendes Verständnis für deren W i r k u n g und Funktionsweise entwickeln. Die Verwirklichung dieser Idee ist möglich durch die Verwendung eines Tabellenkalkulationsprogramms wie Microsoft Excel 5 (unter W i n d o w s 3.1 oder höher) oder Microsoft Excel 7 (unter W i n d o w s 95): Dessen Grundfunktionen sind - auch ohne jegliche Rechnererfahrung schnell erlernbar, und dank der Funktionsfülle des Systems sind die Möglichkeiten, ein m a thematisches Verfahren abzubilden und zu veranschaulichen, nahezu unübersehbar. Die dem Buch beigefügte Diskette enthält zahlreiche Excel-Tabellen, auf die im Lehrtext Bezug g e n o m m e n wird und die von Beginn an bei der Vermittlung und Veranschaulichung des Stoffes assistieren. Dem/r Leser(in) wird empfohlen, die Tabellen nach Anleitung zu vervollständigen oder zu erweitern, um anschließend das erstellte Produkt zur Simulation eines Zufallsverfahrens, zur statistischen Auswertung von Datenmaterial oder zur Berechnung von Kenngrößen zu verwenden. Auf diese Weise, und unter bewußtem Verzicht auf den Einsatz manch vorgefertigter ExcelFunktion, wird vermieden, daß „black boxes" entstehen, in denen sozusagen auf K n o p f d r u c k Resultate erzeugt werden, die einem undurchsichtigen Berechnungsverfahren entstammen. Vielmehr wird der/die Lernende befähigt zu verstehen, warum und in welcher Form sich Ergebnisse ändern, sobald gewisse Parameter oder empirische Daten modifiziert werden. Das Buch richtet sich an Studierende und Praktiker der verschiedensten Fachrichtungen. Es kann sowohl vorlesungsbegleitend als auch im Selbststudium verwendet werden. Eine einfache, an Anwendungsbeispielen orientierte Darstellung wird der abstrakten und allgemeingültigen F o r m vorgezogen. Dennoch wird nicht auf klare mathematische Notation und exakte Deduktionen verzichtet. M a n c h e m Kollegen mögen durch die Übungsbeispiele auf der Begleitdiskette A n r e g u n g e n für die Lehrpraxis geliefert werden. Die Gestaltung der Excel-Tabellen ist als Vorschlag zu verstehen; auch bei der Wahl des S t o f f u m f a n g s kann man unterschiedliche Präferenzen setzen. An dieser Stelle möchte ich mich bei meiner Frau, Dr. Ay?e Erben, für die kritische Durchsicht des Manuskripts und für zahlreiche wertvolle Hinweise bedanken. Ich danke a u c h Herrn Martin Weigert, Cheflektor im Oldenbourg-Verlag, für die a n g e n e h m e Z u s a m m e n a r b e i t .
Wilhelm Erben
Inhaltsverzeichnis Gliederung des Buches Überblick und Arbeitshinweise
1
0. Kurzeinführung in Excel 5 und 7 0.1 Vorbereitungen 0.2 Bildschirmaufbau 0.3 Tabellen(blätter) 0.4 Bearbeiten einer Arbeitsmappe 0.5 Online-Hilfe 0 . 6 . R i c h t l i n i e n und Empfehlungen
7 7 8 9 11 12 13
1. 1.1 1.2 1.3
Zufall und Wahrscheinlichkeit Zufallsexperimente und zufällige Ereignisse Relative Häufigkeiten und Wahrscheinlichkeiten Axiomatischer Aufbau der Wahrscheinlichkeitstheorie
15 15 20 31
2. 2.1 2.2 2.3
Mehrstufige Zufallsexperimente (Geordnete) Zufallsauswahlen Unabhängige Wiederholungen eines Zufallsexperiments Geordnete Auswahlen, Permutationen und Teilmengen
35 35 39 44
3. 3.1 3.2 3.3
Diskrete Zufallsvariable Verteilung einer diskreten Zufallsvariablen Erwartungswert und Varianz Unabhängige (diskrete) Zufallsvariable
49 49 55 62
4. 4.1 4.2 4.3 4.4
Die Die Die Die Die
67 67 68 76 80
5. 5.1 5.2
Schätzung einer Wahrscheinlichkeit p Bernoulli-Stichproben Das Bernoullische Gesetz der großen Zahlen
6. 6.1 6.2
Testen von Hypothesen über eine Wahrscheinlichkeit p Ein einfacher Signifikanztest Ein-und zweiseitige Tests
93 93 101
7. 7.1 7.2 7.3
Stetige Zufallsvariable Verteilung einer stetigen Zufallsvariablen Erwartungswert und Varianz Unabhängige (stetige) Zufallsvariable
107 107 114 119
Binomialverteilung und ihre Verwandten Null-Eins-Verteilung Binomialverteilung Hypergeometrische Verteilung Poisson-Verteilung
85 85 89
VIII
Inhaltsverzeichnis
8. 8.1 8.2 8.3 8.4
Die Die Die Die Die
9. 9.1
Schätzwerte für die Parameter eines normalverteilten Merkmals Stichproben zu einem normalverteilten Merkmal
143 143
9.2
Die Stichprobenfunktion X n
148
9.3
Die Stichprobenfunktion SJ;
150
10.
Statistische Schlußfolgerungen über die Parameter eines normalverteilten Merkmals Testen von Hypothesen über den Erwartungswert |a Konfidenzintervalle für den Erwartungswert Signifikanztests und Konfidenzintervalle für die Varianz -> —>
der Zufallsvariablen
0 1 2 X besteht
hier
also
aus
3
Elementen:
3.1.2 Definition Es sei X: fi IR eine Abbildung, die jedem elementaren Versuchsausgang co des Zufallsexperiments eine reelle Zahl zuordnet. Der Wertebereich W(X) dieser Abbildung sei dabei diskret, d.h. eine höchstens abzählbar unendliche Menge. X ist eine (diskrete) Zufallsvariable, Menge
wenn für jeden möglichen Funktionswert keW(X) die
[X=k] := { P [ X = k] Die Folge der kumulierten k
furkeW(X).
Wahrscheinlichkeiten
P [ X < k]
wird durch die Zuordnung
für keW(X)
definiert. Beide Funktionen beschreiben die (Wahrscheinlichkeitsverteilung
Microsoft Excel - D I S K R Datei
Bearbeiten
Ansicht
Einfügen
Format
der Zufallsvariablen X.
ZV.XLS Extras
Daten
Fenster
=WIEDERHQLEN("* ", 100 * D 14)
Beispiele diskreter Verteilungen
Wertebereich
Walusclieiiilirlikeitsfuiiktion P[X=kl Balkendiagramm
0,02778
0,02778
0,08333
0,11111
0,13889
0,25000
0,19444
0,44444
0,25000
0,69444
0,30556
1,00000
[~HtV Verteilung / Erwartung und Vari«« / L t » r t » / "
3.1.6
kumulierte Werte P|X|J
Beispiele
Die Wahrscheinlichkeitsfunktion einer diskreten Zufallsvariablen läßt sich am besten in Form eines Balkendiagramms darstellen. Wir betrachten nochmals die Beispiele 3.1.3. a) In Abb. 3.3 ist das Balkendiagramm für das Beispiel 3.1.3, a) zu sehen. Außerdem werden im Blatt VERTEILUNG der Arbeitsmappe DISKR_ZV.XLS, welches hier gezeigt wird, die kumulierten Wahrscheinlichkeiten errechnet: P[X< P[X < P[X < P[X
[O, sonst.
(i=l,2,...,n). Hier handelt es sich um eine Bernoulli-Stichprobe, und die Zufallsvariablen X„X 2 , ,Xn sind unabhängig.
5.1.6 Übungen und Ergänzungen a) Eine Stichprobe (x,,x 2 ,
,xn) mit X|e{0,l}
geht aus einer Zufallsauswahl (e b e 2 ,...e n ) dadurch hervor, daß dem Element mit der Identifikationsnummer e| der zugehörige Merkmalswert x,6 {0,1} zugeordnet wird.
r
Abb. 5.1
Der Zufallsauswahl (5,7,3,10,1) aus der in nebenstehender Abbildung dargestellten Grundgesamtheit T (vgl. auch Beispiel 3.1.4, a)) entspricht also die zweiwertige Stichprobe (0,1,1,0,1); dies gilt jedenfalls dann, wenn man dem Merkmalswert „weiblich" die 1 zuordnet. Welche Bernoulli-Stichprobe gehört zur (offensichtlich durch Ziehen mit Zurücklegen durchgeführten) Zufallsauswahl (10,5,1,5,1,9,6,1)?
b) Die Notation durch (mit Großbuchstaben bezeichnete) Zufallsvariablen benötigen wir immer dann, wenn die Stichprobe noch nicht erhoben wurde, das zufallige Ergebnis also noch nicht bekannt ist. Zu diesem Zeitpunkt können höchstens Aussagen über Wahrscheinlichkeiten getroffen werden (z.B.: P[X, = 1,X 2 = 1, ,X„ = 1] = p" ). Bezeichnungen durch Kleinbuchstaben wie Xi weisen dagegen stets darauf hin, daß das Zufallsexperiment bereits abgeschlossen ist. Meist werden wir im folgenden das Wort Stichprobe mit dem Ergebnis (x,,x 2) ,xn) der Erhebung gleichsetzen. c) Im Tabellenblatt S T I C H P R O B E der Arbeitsmappe B E R N O U L L . X L S wird die Erhebung einer Bernoulli-Stichprobe simuliert (vgl. Abb. 5.2). Neben dem Umfang n der Stichprobe muß die „wahre" Erfolgswahrscheinlichkeit p (von der wir in diesem Abschnitt eigentlich annehmen, sie sei unbekannt) eingegeben werden. Das Ergebnis ist eine zufallige Folge von Nullen und Einsen in der Spalte G der Tabelle. „Erheben" Sie mehrere Stichproben zu verschiedenen Eingabewerten. Beobachten Sie dabei auch jeweils die absolute und relative Erfolgshäufigkeit v bzw. x = ^ . d) Der mehrmalige Münzwurf ist ein Spezialfall einer Bernoulli-Stichprobe: In der Arbeitsmappe M O N Z W U R F . X L S war implizit p=0,5 gesetzt worden. (Auch der Stichprobenumfang war konstant: n=1000.)
88
5. Schätzung einer Wahrscheinlichkeit p
e) Von der relativen Erfolgshäufigkeit x = ^ , die wir bereits als Schätzwert flir p bezeichnet haben, ist zu erwarten, daß sie „auf lange Sicht" ungefähr mit der vorgegebenen Wahrscheinlichkeit p übereinstimmt (vgl. Abschnitt 1.2). In der Tat: Man wird zwar feststellen, daß der für eine einzelne Stichprobe berechnete Wert x im allgemeinen von p abweicht. Läßt man aber mit Hilfe der Taste F 9 mehrmals neue Stichproben bei unverändertem Wert p erzeugen, sieht man, daß die jeweils errechneten Schätzwerte x um die Zahl p herum „schwanken". (Im folgenden Abschnitt werden derartige Aussagen etwas präziser gefaßt werden.) f) Werfen Sie einen Blick in die Realisierung der Simulation im Tabellenblatt STICHPROBE: Die Transformation der durch den Zufallsgenerator erzeugten Zufallszahlen z aus dem Intervall [0,1) in Zufallsziffern aus der Menge {0,1} erfolgt wie beim MÜNZWURF. Anstatt aber das Intervall generell zu halbieren, muß es jetzt im Verhältnis p : l - p aufgeteilt werden. Bildet man eine Zufallszahl z in eine 1 ab, falls sie kleiner als p ist, und in eine 0 sonst, so ist dies gewährleistet. Microsott Excel Datei
Bearbeiten
Ansicht
Zufallszahl
Einfügen
BERNOULL.XLS
Format
Extras
Daten
Fenster
?
Stichprobenwert (absolute) Anzahl der Erfolge
0,1939494
relativer E r f o l g s u t e i l
0,9883153 0,4555307 0,9779141 0,3058377 0,8431799 0,1368478 0£809861 Slii hpnit.-
k] dafür, daß meine Stichprobe mehr als k Erfolge aufweisen wird?" beantworten. Leider können wir aber lediglich eine von der unbekannten Wahrscheinlichkeit p abhängige VerteilungsWasse, der V angehören muß, angeben: a) Ziehen wir n Artikel aus der endlichen, N-elementigen Grundgesamtheit durch Ziehen ohne Zurücklegen, so ist die Zufallsvariable V nach Satz 4.3.3 hypergeometrisch verteilt. Der Parameter K dieser Verteilung, die (absolute) Anzahl von Ausschußelementen in der Grundgesamtheit, ist dabei unbekannt (sonst wäre ja p = jq- bekannt). b) Beim mehrmaligen Würfelwurf handelt es sich um eine unabhängige Stichprobe. Die Zufallsvariable V ist deswegen binomialverteilt mit dem Stichprobenumfang n und der unbekannten Erfolgswahrscheinlichkeit p als Parametern (vgl. Satz 4.2.4): P[V = k] = ( g ) p
k
• (1 - p ) n " k = b n ; p ( k ) ,
k=0,l,2,...,n.
Da die Grundgesamtheit im Beispiel a) sehr groß ist (N= 100.000), kann die Hypergeometrische Verteilung nach Satz 4.3.6 durch die Binomialverteilung angenähert werden. Die Stichprobe verhält sich also nahezu wie eine Bernoulli-Stichprobe. Diese Aussage nehmen wir zum Anlaß für folgende Grundannahme: In Zukunft seien alle betrachteten Stichproben (zumindest approximativ) unabhängig. Weitere Schlußfolgerungen gestalten sich dann wesentlich einfacher. 5.1.8 S a t z In einer Bernoulli-Stichprobe ist die Stichprobenfunktion V = X! + X 2 +.... .+X„, die absolut,)e Erfolgshäufigkeit, B(n;p)-verteilt. Daher gilt: W(V) = {0,1,2,
,n},
P[V = k] = b n ; p ( k ) = ( j j ) p k E(V)=n-p
5.2
und
(l-p)n-k,
k=0,l,2,...,n,
Var(V) = n p ( l - p ) .
Das Bernoullische Gesetz der großen Zahlen
5.2.1 Beispiel Wir nehmen wieder den Spielwürfel in die Hand, werfen ihn n=10 Mal und notieren jedesmal, ob eine „Sechs" gewürfelt wurde oder nicht. Das Ergebnis dieser Bernoulli-Stichprobe möge beispielsweise lauten: (x,,x 2 , ,x 10 ) = (0,1,0,0,0,1,1,0,0,0). Es gibt v=3 Erfolge, und die relative Erfolgshäufigkeit beträgt _ x
y x,+x2+ +X10 3 -10~ 10 -10-
Diese Zahl ist Ergebnis eines Zufallsversuchs: x kann als Realisierung der Zufallsvariablen
90
5. Schätzung einer Wahrscheinlichkeit p
_
V 10
—
10
X,+X2+ —
+x 10
10
aufgefaßt werden. X 10 ist (neben V) eine weitere
Stichprobenfunktion.
Wir nehmen an, die Stichprobe sei noch nicht erhoben worden und wir seien an der Wahr—
scheinlichkeit P[X 10 =
o
dafür, daß eine Erfolgsquote von genau 30% zu verbuchen sein -i
—
wird, interessiert. Da die Zufallsvariable X 10 den Wert genau dann annimmt, wenn die absolute Erfolgsanzahl 3 ist, und da die Stichprobenfunktion V binomialverteilt ist, gilt: P[X, 0 =
= P[V = 3] = ( 1 3°) p 3 • (1 -
P)7
Diese Wahrscheinlichkeit können wir nicht berechnen, weil p unbekannt ist (und gerade die Zahl p wollen wir ja schätzen!). Wir können sie höchstens (und das wird in der Statistik sehr häufig so gemacht) unter einer hypothetischen Annahme über p, z.B. unter der Annahme p= bestimmen: In diesem Falle wäre PlX^Äl^CiXiy-(^=0.1550. Analog: Wenn p = -g richtig wäre, wäre die Wahrscheinlichkeit fiir maximal 30% Erfolgsanteil P[X 10
c | p < 0 , l ] = l - P [ V < c | p < 0 , l ] = l-B20;p(c) 0 , 9 9 = 1 - a 0 , dann ist auch die Bedingung a < a 0 erfüllt. Für c=6 ist dies in unserem Zahlenbeispiel der Fall.
6. Testen von Hypothesen über eine Wahrscheinlichkeit p
102
Am Verfahren hat sich gegenüber Beispiel 6.1.3 also nichts geändert; die (nicht exakt angebbare) Fehlerwahrscheinlichkeit a kann jetzt allerdings wegen der verwendeten (groben) Abschätzung sehr viel kleiner als die Signifikanzzahl a 0 sein: a < 1 - B 20;0 , (6) = 0,00239 < 0,01 = a 0 . 4
Wieder wird die Nullhypothese abgelehnt, wenn die Prüfgröße v = n x den kritischen Wert c übersteigt. Andernfalls verwenden wir die Floskel „H 0 kann nicht abgelehnt werden.". Eine „Entscheidung für H 0 " ist nicht möglich, da die zugehörige Irrtumswahrscheinlichkeit ß sich gar nicht berechnen läßt. Sie läßt sich allenfalls (ähnlich wie a ) nach oben abschätzen: ß = P[X 2 0 < ^ | p > 0,2] = P[ V < 6| p > 0,2] = B 20;p (6) < B20;0,2 (6) = 0,91331 Aber diese Abschätzung ist nicht sehr hilfreich.
6.2.2 Übungen und Ergänzungen a) Ändern Sie im Blatt TESTVERFAHREN der Arbeitsmappe WAHRTEST.XLS das Gleichheitszeichen in Zelle F10 in '=' in Zelle F10 erlaubt. (Um die Vielzahl der Möglichkeiten, Hypothesen mit den Vergleichsoperatoren zu formulieren, auf die wichtigsten Fälle zu reduzieren, beschränken wir uns auf die in Abb. 6.11 aufgeführten Kombinationen.) Die wesentlichen Formeln für Tests von Hypothesenpaaren des Typs 1 und solchen vom Typ - 1 sind in Abb. 6.12 einander gegenübergestellt. •
Zelle L28: Falls der Hypothesentyp - 1 lautet, muß die Wahrscheinlichkeit x, zu der ein Quantil berechnet wird, a 0 (statt l - a 0 ) lauten. Verwenden Sie die Excel-Tabellenfunktion WENN, um die beiden Fälle zu unterscheiden.
•
In ähnlicher Weise sind die Formeln in den Zellen 112, 113 zu erweitern. Beachten Sie auch die vorgefertigte Formel in Zelle H21.
•
Zelle 130: Das letzte Argument der benutzerdefinierten Funktion B I N Q U A N T I L gibt an, ob das obere oder das untere Quantil zu bestimmen ist.
6.2.4 Beispiel Als Synthese von einseitigen Tests vom Typ 1 und - 1 erhält man einen zweiseitigen zugehörige Hypothesenpaar ist dann vom Typ 0:
Test. Das
1 Für einen Spielwürfel soll getestet werden, ob die „Augenzahl 6" mit der Wahrscheinlichkeit j auftritt. Wir testen die folgenden Hypothesen zum Signifikanzniveau a 0 =0,01:
105
6. Testen von Hypothesen Uber eine Wahrscheinlichkeit p
H0: P = i 2
und
Der Stichprobenumfang betrage n=100. Sinnvollerweise sollte es bei diesem zweiseitigen Test zwei Annahmegrenzen geben, die den Wert p 0 = ^ umrahmen: 0
c
c
100
„ H 0 kann nicht
Ablehnung von H 0
Ablehnung von H 0
abgelehnt werden"
Abb. 6.9 0
c
P0 _ 6
A.u
Die untere Annahmegrenze habe die Form c A
3
u
C a '°
=
Wenn H 0 richtig ist, ist die Teststatistik V B( 100;
für die obere gelte c A
0
=
.
verteilt. Die kritischen Grenzen cu und c0
müssen daher die Ungleichung a = P[X, 0 0 < cA;u|p = = P[V < c j p = = B
+ P[X 1 0 0 > c A;o |p = l ]
+ P [ V > c0|p =
| (c ) + 1 - B , (c ) < 0,01 = a 0 u 0 u 100;] 100;] T> D
erfüllen. Das ist der Fall, wenn man cu und c0 (beispielsweise) so bestimmt, daß B
, ( cuj < 0 , 0 0 5 = ^1 f 100;] D
und
B , ( c 0 ) > 0,995= 1 - 1^ . 100;iB IR durch X(o) = V x T + y T
für ü>= (x,y) e Q .
Der Wertebereich der Abbildung X wird durch das Intervall [0,1] gebildet. X nimmt den Wert 0 genau dann an, wenn das Zentrum (0,0) getroffen wird. Das andere Extrem, der Fall [X=l], tritt ein, wenn der Pfeil irgendwo auf die Randlinie der Zielscheibe trifft. W(X)=[0,1] ist eine überabzählbare Menge, die Zufallsvariable X daher nicht diskret (vgl. 3.1.2).
Abb. 7.1
Wir betrachten das Ereignis A = [X < j ] = {co e q X ( c o )
0 durch he~Xx f(x) = { 0
für x>0, sonst
eine Dichte erklärt ist. Wir sprechen hier von der Exponentialverteilung ter X. Im Beispiel 7.1.6 haben wir den Spezialfall >.= 1 betrachtet.
mit dem Parame-
e) Es sei [a,b) ein beliebiges Intervall. Eine Zufallsvariable mit der Dichte
heißt im Intervall [a,b) gleichmäßig verteilt. Zeigen Sie: Für die Verteilungsfunktion F gilt im Intervall [a,b] F(x) = f 5 f . f) Eine Dichte f muß nicht stetig sein, sondern nur integrierbar. Die Verteilungsfunktion F einer stetigen Zufallsvariablen ist dagegen immer stetig. Verifizieren Sie diese Aussagen in den Beispielen 7.1.4 und 7.1.6. g) Ist die Dichte f im Punkt x0 stetig, so ist die Verteilungsfunktion F dort sogar differenzierbar, und es gilt: F'(x 0 ) = f ( x 0 ) . Machen Sie sich auch diese Aussage anhand der vorangegangenen Beispiele klar. h) Beachten Sie: Die Funktionswerte f(x) einer Dichte stellen keine Wahrscheinlichkeiten dar! Vielmehr werden Wahrscheinlichkeiten durch Flächen, die von der Dichte und der xAchse eingeschossen werden, repräsentiert. i) Wie groß ist im Beispiel 7.1.6 die Wahrscheinlichkeit P[X=1] dafür, daß ein Telefongespräch exakt 1 Minute dauert? Warum gilt für jede stetige Zufallsvariable X P[a < X < b] = P[a < X < b] = P[a < X < b] = P[a < X < b] und F(x) = P[X < x] = P[X < x] ?
7.1.8 Beispiel Im Beispiel 7.1.6 haben wir berechnet, daß (vorausgesetzt, unser mit der Exponentialverteilung gebildetes Modell beschreibt den Sachverhalt richtig) ca. 63% aller Telefongespräche
113
7. Stetige Zufallsvariable
maximal 1 Minute dauern. Wir können die Fragestellung auch umkehren: „Nach welcher Zeit sind z.B. 70% aller Telefongespräche beendet?". Wir suchen also nach der Zahl c [Minuten] mit der Eigenschaft P[X < c] = 0,70 (vgl. Abb. 7.5). Die Lösung c dieser Gleichung heißt 70%-Quantil der Exponentialverteilung mit dem Parameter 1. Bestimmen können wir sie mit der Verteilungsfunktion F so: P[X < c] = F(c) = 1 - e~ c = 0,70
c = - l n ( l - 0,70) = -ln(0,30) * 1,20.
Auch die Frage „Welche Gesprächsdauer wird in 10% aller Fälle überschritten?" fuhrt auf die Berechnung eines Quantiis: P[X > c'] = 0,10
1 - P [ X < c ' ] = 0,10
P[X < c'] = 0,90.
Dieses 90%-Quantil lautet: c' = - ln(l - 0,90) = - ln(0,10) « 2,30 [Minuten], Datei
Bearbeiten
Ansicht Einfügen Format =EXPONVERT(C4;l ,1)
Extras
Daten
Fenster
?
STETIGZV.XLS:1
70%
T 0,63 0,9 0,95
-bi(l-r) 1,2039728041 0,994252273 2302585093 2995732274
m*M
EXP QNVEKT(x; 1 ;0 ) 0.7l 0,63* 0,9 0,95 I
Abb. 7.5
7.1.9 Definition Es sei X eine stetige Zufallsvariable mit der Verteilungsfunktion F. Ferner sei x eine Wahrscheinlichkeit mit 0=0; 1 -TVERT(x;m; 1 );TVERT(-x;m; 1)) dasselbe wie die benutzerdefinierte Funktion t V E R T E I L U N G . Wenn Sie keine Visual Basic-Module verwenden wollen oder können oder Probleme mit der Laufzeit auftreten, ist dies die Ersatzlösung. b) In Abb. 8.13 sind einige wesentliche Quantile der t-Verteilung zusammengestellt. Testen Sie die benutzerdefinierte Funktion t QUANTIL oder die entsprechende ExcelTabellenformel (vgl. Teil a)) anhand dieser Tafel.
Quantile der t-Verteilung T
0,9
0,95
0,975
0,99
0,995
0,999
m 1
3,07768
6,31375
12,70615
31,82096
63,65590
318,2888031
2
1,88562
2,91999
4,30266
6,96455
9,92499
22,32846
3
1,63775
2,35336
3,18245
4,54071
5,84085
10,21428
4
1,53321
2,13185
2,77645
3,74694
4,60408
7,17293
5
1,47588
2,01505
2,57058
3,36493
4,03212
5,89353
6
1,43976
1,94318
2,44691
3,14267
3,70743
5,20755
7
1,41492
1,89458
2,36462
2,99795
3,49948
4,78525
8
1,39682
1,85955
2,30601
2,89647
3,35538
4,50076
9
1,38303
1,83311
2,26216
2,82143
3,24984
4,29689
10
1,37218
1,81246
2,22814
2,76377
3,16926
4,14366
11
1,36343
1,79588
2,20099
2,71808
3,10582
4,02477
12
1,35622
1,78229
2,17881
2,68099
3,05454
3,92960
13
1,35017
1,77093
2,16037
2,65030
3,01228
3,85204
14
1,34503
1,76131
2,14479
2,62449
2,97685
3,78743
15
1,34061
1,75305
2,13145
2,60248
2,94673
3,73286
19
1,32773
1,72913
2,09302
2,53948
2,86094
3,57933
29
1,31143
1,69913
2,04523
2,46202
2,75639
3,39627
39
1,30364
1,68488
2,02269
2,42584
2,70791
3,31274
49
1,29907
1,67655
2,00957
2,40489
2,67995
3,26509
59
1,29607
1,67109
2,00100
2,39123
2,66176
3,23416
69
1,29394
1,66724
1,99494
2,38161
2,64898
3,21263
79
1,29236
1,66437
1,99045
2,37448
2,63950
3,19662
89
1,29114
1,66216
1,98698
2,36898
2,63220
3,18432
99
1,29016
1,66039
1,98422
2,36460
2,62640
3,17465
00
1,28155
1,64485
1,95996
2,32634
2,57583
3,09024
Abb. 8.13
8. Die Normaiverteilung und ihre Verwandten
137
8.3 Die x 2 -Verteilung 8.3.1 Definition Es sei m eine beliebige natürliche Zahl. Eine (stetige) Zufallsvariable X heißt %-verteilt (lies: chi-quadrat-verteilt) mit m Freiheitsgraden (kurz: % ^-verteilt), wenn X die Dichte f(x) = K m x
m-7. 2
e
_X 2
, x > 0,
mit f(x) = 0 für x < 0 besitzt. Dabei ist Km eine Normierungskonstante. Die zugehörige Verteilungsfunktion sei mit xin( x ) : = P[X< x] bezeichnet (x e IR).
Microsoft Excel
Datei
Bearbeiten
Ansicht
TESTVEFtT.XLS
Einfügen Format
Extras Daten
Fenster ?
M M i ^ M f f l ^ M i P l f ^ I Time» New Roman [j3jj 10 [ • i l F I - * - ) a l f e
ara
j %i G00| *jî
-l/2- , lm/2i/'EI i CF!."GAMMALN(m.' f 2)j
Freiheitsgrade 0,1« -r
0,14 •
0.12 0,1 0,08 0,0« 0,04 0,02
0 E(X) = 5 Var(X) = 10
0
Abb. 8.14
8.3.2 Übungen und Ergänzungen a) Auch d i e x 2 -Verteilung ist eine Testverteilung.
Sie wird in statistischen Verfahren, die in
den Kapiteln 9, 10 und 13 beschrieben werden, benötigt. b) Die Normierungskonstante in Definition 8.3.1 lautet
1
138
8. Die Normalverteilung und ihre Verwandten
c) Manche der „schönen" Eigenschaften, die die Standardnormal- und die t-Verteilung besitzen, werden vermißt: Die Dichte einer Verteilung ist nicht symmetrisch (vgl. Abb. 8.14). Erwartungswert wie Varianz wachsen mit ansteigendem Parameter m (Satz 8.3.3). d) Ebenso wie die t-Verteilung erlaubt die ^-Verteilung keine sehr anschauliche Interpretation. Man kann zeigen, daß eine Zufallsvariable der Form Q = Y,2 +Y 2 2 +
+Y 2
-//-verteilt ist, wenn Y h Y 2 , ,Ym unabhängige standardnormalverteilte Zufallsvariable sind. Wiederum spricht man hier von m Freiheitsgraden, die durch die m unabhängigen Summanden zur Verfugung stehen. e) Im Tabellenblatt CHI-QUADRAT der Arbeitsmappe TESTVERT.XLS können Sie sich den typischen Verlauf der Dichten der x 2 -Verteilung zeigen lassen (vgl. Abb. 8.14 und 8.15). Mit wachsender Anzahl der Freiheitsgrade wandert der Hochpunkt dieser Funktionen nach rechts. Erstaunlicherweise ähneln die Dichten, obwohl sie unsymmetrisch sind, für großen Parameterwert m doch immer mehr einer Gauß'schen Glockenkurve (vgl. Satz 8.3.4)!
8.3.3 Satz Für eine ¿ - v e r t e i l t e Zufallsvariable X gilt E(X) = m
und
Var(X) = 2m.
Microsoft Excel Datei
Bearbeiten
Times Nevi Roman
Ansicht
Einfügen
Si^SQHs]
E(X) = 25 Var(X) = 50 V
o
TESTVERT.XLS
Format
io
a = 74)710678 K„= 1,262t 12 t-Vateäung \ Chi Uuadial / F-Veilalung /
Extras
Daten
Fenster
?
8. Die Normalverteilung und ihre Verwandten
139
8.3.4 Satz Für große Anzahl m von Freiheitsgraden läßt sich die Verteilungsfunktion der y?- Verteilung durch die der N(m;2m)-Verteilung approximieren:
8.3.5 Übungen und Ergänzungen a) Untersuchen Sie die Tabellenfunktionen CHIVERT und CHIINV, analog zu 8.2.6. b) Zeigen Sie insbesondere, daß die Formel =CHIINV(l-x;m) das x-Quantil der y Verteilung mit m Freiheitsgraden liefert. Verifizieren Sie einige der in Abb. 8.16 tabellarisch aufgeführten Werte. c) CHIINV ist die Umkehrfunktion von CHIVERT ist. Bestimmt man ein t-Quantil c mit Hilfe der Funktion CHIINV und wendet darauf die Verteilungsfunktion Xm(c) = 1 - CHIVERT(c;m) an, muß diese den Wert x zurückliefern. Testen Sie dies anhand einiger Beispiele (vgl. Abb. 8.18). d) Es ist zu empfehlen, die „Bibliothek" im Arbeitsblatt finierte Funktion CHI QUANTIL zu erweitern.
MY_FUNCS.XLS
um eine benutzerde-
Quantile der x 2 -Verteilung T
0,005
0,01
0,025
0,05
0,95
0,975
0,99
0,995
0,000 0,010 0,072 0,207
0,000 0,020 0,115 0,297 0,554 0,872 1,239 1,647 2,088 2,558 3,053 3,571 4,107
0,001 0,051 0,216 0,484
0,004 0,103 0,352 0,711
3,841 5,991 7,815 9,488
6,635 9,210 11,345 13,277
7,879 10,597
0,831 1,237
1,145 1,635 2,167 2,733 3,325 3,940 4,575 5,226 5,892 6,571
11,070 12,592 14,067 15,507 16,919 18,307 19,675 21,026 22,362
5,024 7,378 9,348 11,143 12,832 14,449 16,013 17,535 19,023 20,483 21,920 23,337
m 1 2 3 4 5 6 7 8 9 10 11 12 13 14
0,412 0,676 0,989 1,344 1,735 2,156 2,603 3,074 3,565 4,075
15 19 29 39 49 59 69 79 89 99
4,601 6,844 13,121 19,996 27,249 34,770 42,493 50,376 58,389 66,510
5,229 7,633 14,256 21,426 28,941 36,698 44,639 52,725 60,928
1,690 2,180 2,700 3,247 3,816 4,404 5,009 5,629 6,262 8,907 16,047 23,654 31,555 39,662 47,924 56,309 64,793
69,230
73,361
4,660
7,261 10,117 17,708 25,695 33,930 42,339 50,879 59,522 68,249 77,046
23,685 24,996 30,144 42,557 54,572 66,339 77,930 89,391 100,749 112,022 123,225
24,736 26,119 27,488 32,852 45,722 58,120 70,222 82,117 93,856 105,473 116,989 128,422
15,086 16,812 18,475 20,090 21,666 23,209 24,725 26,217 27,688 29,141 30,578 36,191 49,588 62,428 74,919 87,166 99,227 111,144 122,942 134,641
12,838 14,860 16,750 18,548 20,278 21,955 23,589 25,188 26,757 28,300 29,819 31,319 32,801 38,582 52,335 65,475 78,231 90,715 102,996 115,116 127,106 138,987
Abb. 8.16
140
8. Die Normalverteilung u n d ihre Verwandten
8.4 Die F-Verteilung 8.4.1 Definition Es seien m, und m2 zwei beliebige natürliche Zahlen. Eine (stetige) Zufallsvariable X heißt F-verteilt mit m, und m2 Freiheitsgraden (kurz: Fmi m2-verteilt), wenn X die Dichte m]—2
mi+mj
f(x) = Kmi,m2
+
x > 0,
mit f(x) = 0 für x < 0 besitzt. Dabei ist Kmi m2 eine Normierungskonstante. Die zugehörige Verteilungsfunktion sei mit Fm| m2 (x):= P[X < x] bezeichnet (x e IR).
Microsoft Excel - TESTVERT.XLS »| D a t e i
Bearbeiten
Ansicht
Einfügen
Format
Extras
Daten
Fenster
2
Times New Romart
=EXP(GAMMALN((m_l+m_2)/2)-GAMMALH(m_l/2)-GAMMALN(m_2/2))*(m_l/ m. ff'Ym1/7) ~ Freiheitsgrade Freiheitsgrade
»I H f \ l-Vetteàmg /
Ch-QuaAal \ F - V e H e i l u n g /
Bereit A b b . 8.17
8.4.2 Übungen und Ergänzungen a) Die Fisher'sche 1 F-Verteilung ist eine weitere Testverteilung.
Sie spielt eine Rolle bei ver-
schiedenen Prüfverfahren, die im Abschnitt 11.2 und im Kapitel 14 besprochen werden.
b) Es ist
1
Kmi.m2 =
R.A. Fisher, 1890-1962
2
1
2
\~2 > ' 1 V 2 >
•
141
8. Die Normalverteilung und ihre Verwandten
c) Die Dichte einer F-Verteilung ist offensichtlich nicht symmetrisch und hat eine ähnliche Gestalt wie die einer Verteilung (vgl. Abb. 8.17). Der Erwartungswert strebt mit wachsendem Parameter m 2 gegen 1 (Satz 8.4.3). d) Man kann zeigen, daß eine Zufallsvariable der Form
v=
m
i Qi
m2Q2
F-verteilt ist. wenn Qi,Q 2 unabhängige Xmr Begriff der Freiheitsgrade
bzw
- Xm- -verteilte Zufallsvariable sind. Der
pflanzt sich auf die F-Verteilung fort.
e) Lassen Sie sich im Tabellenblatt F - V E R T E I L U N G der Arbeitsmappe TESTVERT.XLS Dichten zu verschiedenen Eingaben für die Parameter m, und m 2 zeigen (vgl. Abb. 8.17). Auch für die F-Verteilung gibt es Konvergenzaussagen für wachsende Parameter; auf diese soll hier jedoch nicht eingegangen werden.
8.4.3 Satz Für eine F mi
m2
-verteilte Zufallsvariable X mit m 2 > 2 gilt E(X) =
^
.
M i c r o s o t t Excel =» Datei
Bearbeiten
Ansicht
WBiMgamiiiLüjmtujiiiüUiifiiiiH^^^
.piagna
——
m
I Times New Roman
F10
IE
m
i
Einfügen
—
[ T j (Tü
Mappe2
Format
Extras
Daten
Fenster
?
.-«.HIUIHIIP
" B i a s
.
[ j | [ F 1>T| g ] =l-CHIVERT(E10,m)
6
7
X 2 -Verteilung
8
r-Quantil c
V
r - 0,95 m= 5
10 11 12 13 14 lì i» 17 18 19
0,950001
11,07048[_
F-Verteilung
T = 0,975 «ii= 5 m a = 10
r-Quantil c
FBI,„2(C)
4,23609
0,97500
20 21 22
Tabellel/1^2/fA«|»3/ j Bereit.
S
I
if
!
r
LtE Abb. 8.18
142
8. D i e N o r m a l v e r t e i l u n g und ihre V e r w a n d t e n
8.4.4 Übungen und Ergänzungen a) A u c h zur F - V e r t e i l u n g e x i s t i e r e n zwei E x c e l - T a b e l l e n f u n k t i o n e n , d i e f o l g e r i c h t i g F V E R T u n d F I N V h e i ß e n . S c h a u e n S i e sich d i e E r l ä u t e r u n g e n d e r O n l i n e - H i l f e a n . Z e i g e n Sie i n s b e s o n d e r e , d a ß die F o r m e l = F I N V ( l - x ; m i ; m 2 ) d a s t - Q u a n t i l d e r F - V e r t e i l u n g liefert. F ü h r e n S i e e i n i g e P r o b e a u f r u f e für x = 0 , 9 9 d u r c h u n d v e r g l e i c h e n Sie die E r g e b n i s s e m i t d e n W e r t e n in A b b . 8.19. b) F I N V ist d i e U m k e h r f u n k t i o n v o n F V E R T ist. B e s t i m m t m a n ein x - Q u a n t i l c m i t H i l f e d e r F u n k t i o n F I N V u n d w e n d e t d a r a u f die V e r t e i l u n g s f u n k t i o n F m
m2an,
muß diese den Wert
x z u r ü c k l i e f e r n . T e s t e n S i e d i e s anhand e i n i g e r B e i s p i e l e ( v g l . A b b . 8.18). c)
W e n n Sie e i n e v o l l s t ä n d i g e S a m m l u n g d e r T e s t f u n k t i o n e n i m A r b e i t s b l a t t M Y
FUNCS.XLS
h a b e n w o l l e n , m ü s s e n S i e n o c h eine b e n u t z e r d e f i n i e r t e F u n k t i o n F Q U A N T I L erstellen.
t-Quantile der F-Verteilung T=99% T=9J% m, m
1
2
3
4
5
6
1
8
10,044 4,965 9,646 4,844 9,330 4,747 9,074 4,667 8,862 4,600 8,683 4,543 8,531 4,494 8,400 4,451 8,285 4,414 8,185 4,381 8,096 4,351 8,017 4,325 7,945 4,301 7,881 4,279 7,823 4,260 7,770 4,242
7,559 4,103 7,206 3,982 6,927 3,885 6,701 3,806 6,515 3,739 6,359 3,682 6,226 3,634 6,112 3,592 6,013 3,555 5,926 3,522 5,849 3,493 5,780 3,467 5,719 3,443 5,664 3,422 5,614 3,403 5,568 3,385
6,552 3,708 6,217 3,587 5,953 3,490 5,739 3,411 5,564 3,344 5,417 3,287 5,292 3,239 5,185 3,197 5,092 3,160 5,010 3,127 4,938 3,098 4,874 3,072 4,817 3,049 4,765 3,028 4,718 3,009 4,675 2,991
5,994 3,478 5,668 3,357 5,412 3,259 5,205 3,179 5,035 3,112 4,893 3,056 4,773 3,007 4,669 2,965 4,579 2,928 4,500 2,895 4,431 2,866 4,369 2,840 4,313 2,817 4,264 2,796 4,218 2,776 4,177 2,759
5,636 3,326 5,316 3,204 5,064 3,106 4,862 3,025 4,695 2,958 4,556 2,901 4,437 2,852 4,336 2,810 4,248 2,773 4,171 2,740 4,103 2,711 4,042 2,685 3,988 2,661 3,939 2,640 3,895 2,621 3,855 2,603
5,386 3,217 5,069 3,095 4,821 2,996 4,620 2,915 4,456 2,848 4,318 2,790 4,202 2,741 4,101 2,699 4,015 2,661 3,939 2,628 3,871 2,599 3,812 2,573 3,758 2,549 3,710 2,528 3,667 2,508 3,627 2,490
5,200 3,135 4,886 3,012 4,640 2,913 4,441 2,832 4,278 2,764 4,142 2,707 4,026 2,657 3,927 2,614 3,841 2,577 3,765 2,544 3,699 2,514 3,640 2,488 3,587 2,464 3,539 2,442 3,496 2,423 3,457 2,405
5,057 3,072 4,744 2,948 4,499 2,849 4,302 2,767 4,140 2,699 4,004 2,641 3,890 2,591 3,791 2,548 3,705 2,510 3,631 2,477 3,564 2,447 3,506 2,420 3,453 2,397 3,406 2,375 3,363 2,355 3,324 2,337
2
10 U 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Abb. 8.19
143
9. Schätzwerte für die Parameter eines normalverteilten Merkmals 9.1 Stichproben zu einem normalverteilten Merkmal 9.1.1 Beispiel Ein Mediziner will Untersuchungen über das Gewicht von Neugeborenen durchfuhren. Bei der Festlegung der Grundgesamtheit beschränkt er sich (weil es wohl einen „kleinen Unterschied" geben mag) auf die Menge aller weiblichen Säuglinge. Wir nehmen Ein, das Merkmal X, das Geburtsgewicht eines neugeborenen Mädchens, sei normalverteilt. (Man spricht in so einem Falle oft auch kurz und unpräzise von einer normalverteilten Grundgesamtheit. Normalverteilt kann aber eigentlich nur eine Zufallsvariable, ein Merkmal sein.) Von Interesse ist der Erwartungswert jj., das mittlere Geburtsgewicht eines Mädchens. Auch die Streuung a 2 benötigt man. wenn man wahrscheinlichkeitstheoretische Aussagen über die Zufallsvariable X machen möchte. Es mag Fälle geben, in denen mindestens eine dieser beiden Kenngrößen als bekannt gelten kann. Im vorliegenden Beispiel nehmen wir aber an, daß beide Parameter der Grundgesamtheit unbekannt seien. Eine Totalerhebung ist bei der fiktiven Grundgesamtheit nicht möglich; daher muß man sich auf eine Stichprobe (x,,x 2 ,...,x n ) von n Meßwerten beschränken: Man fuhrt eine Zufallsauswahl (e 1 ,e 2 ,...,e n ) von n weiblichen Neugeborenen durch (Definition 2.1.2) und bestimmt für jeden Säugling c, dessen Gewicht x r Weil die Grundgesamtheit sehr groß ist, kann man davon ausgehen, daß die Zufallsauswahl und damit die Stichprobe (approximativ) unabhängig sind (vgl. die Beispiele 5.1.7).
9.1.2 Definition Es sei X ein Merkmal. Von den Zufallsvariablen X b X 2 , ,X„ werde vorausgesetzt, daß sie unabhängig seien und alle die gleiche Verteilung wie X besitzen. Wenn die Zahlen X| Realisierungen der Zufallsvariablen X, sind (i=l,2...,n), dann stellt der Vektor ( x l' x 2 5
>xn)
eine (unabhängige) Stichprobe vom Umfang n zum Merkmal X dar. Ist das Merkmal X im besonderen normalverteilt, so sprechen wir auch von einer aus einer normalverteilten Grundgesamtheit.
Stichprobe
9.1.3 Beispiel Es liegt nahe, als Schätzwert für den Mittelwert n Stichprobenwerte Xj zu verwenden: -
x-
1
X|+x2+
n
+xn
1
der Grundgesamtheit den Mittelwert x der
y
- ii ' Z_ixi • i=i
Es sei daran erinnert, daß die Begriffe Merkmal und Zufallsvariable
synonym verwendet werden.
144
9. Schätzwerte filr die Parameter eines normalverteilten Merkmals
Wir sprechen hier auch vom empirischen Mittelwert. In Abb. 9.1 ist eine Stichprobe vom Umfang n=10 für das Merkmal „Geburtsgewicht eines weiblichen Neugeborenen" beispielhaft aufgeführt: Das arithmetische Mittel der 10 Zahlen lautet x=3335 [Gramm]. Ob dieser Wert wohl in der Nähe des „wahren" mittleren Geburtsgewichts |i liegt? (Statistische Aussagen über die „Güte" dieses Schätzwertes folgen erst im nächsten Abschnitt.) Nicht ganz so einfach ist die Wahl eines geeigneten Schätzwertes für die unbekannte Varianz G2 • Gesucht ist hierfür eine aus den Stichprobenwerten Xi gebildete reelle Zahl s 2 , die als Maß für die Streuung dieser Werte um den eben errechneten empirischen Mittelwert x verwendet werden kann. Wir denken an die Definition der Varianz als „mittlere quadratische Abweichung vom Mittelwert" und definieren:
i=i
Wir bilden also so etwas Ähnliches wie das arithmetische Mittel der Einzelabweichungen ( x , - x ) 2 , (x 2 -x) 2 , , (x n -x) 2 ; nur wird erstaunlicherweise zur Durchschnittsbildung durch den Faktor n - 1 statt durch n dividiert. Plausibilitätserklärungen dazu folgen in 9.1.5, e) und in den Ergänzungen 9.3.2.
i
Hl
1
2940
2
3210
3
3450
4
3160
5
3650
6
3280
7
3760
8
3380
9
3420
10
3100 A b b . 9.1
s 2 ist die empirische Varianz oder empirische Streuung. Diese Zahl ist stets nichtnegativ. Sie würde nur dann 0 werden, wenn alle Stichprobenwerte Xj übereinstimmen würden; diesen Extremfall kann man meist ausschließen. Die positive Wurzel aus s 2 heißt empirische Standardabweichung und wird mit dem Buchstaben s bezeichnet. Sie dient als Schätzwert für die Standardabweichung a der Grundgesamtheit. Für unser Zahlenbeispiel erhalten wir laut Abb. 9.2 S 2 Ä62500. S2 trägt die Dimension [Gramm 2 ]. Für die Standardabweichung der Stichprobe gilt dann SÄ250 [Gramm].
9.1.4 Definition Es sei (x b x 2 ,
,x„) eine Stichprobe. Die reelle Zahl v
x —
X|+x2+
n
+xn
1
n '
y
i=l
heißt Mittelwert der Stichprobe (oder: empirischer Mittelwert). Die positive Zahl
i=i ist die Varianz und deren positive Wurzel s die Standardabweichung empirische Varianz bzw. empirische Standardabweichung).
der Stichprobe
(oder:
9.1.5 Übungen und Ergänzungen a) Die Stichprobenwerte x,,x 2 , ,xn sind Zufallswerte, die wir erst nach Erhebung der Stichprobe konkret vor Augen haben. Wenn wir vor Durchführung dieses Zufallsexperiments (wahrscheinlichkeitstheoretische) Aussagen über den Ausgang machen wollen, müssen wir von den Zufallsvariablen X,,X 2 , ,Xn sprechen. Diese besitzen, entsprechend unserer
145
9. Schätzwerte f ü r die P a r a m e t e r eines normalverteilten M e r k m a l s
Grundannahme,
alle
die
gleiche
Verteilung:
Sie
sind
normalverteilt
mit
dem
( u n b e k a n n t e n ) E r w a r t u n g s w e r t |x und der ( u n b e k a n n t e n ) V a r i a n z es2. b) Der e m p i r i s c h e Mittelwert x und die e m p i r i s c h e V a r i a n z s 2 sind d a n n e b e n f a l l s Z u f a l l s werte. Wir fassen diese als Realisierungen d e r Z u f a l l s v a r i a b l e n X „ = | Z x i—1
bzw.
i
auf. Z u f a l l s v a r i a b l e , die - wie X n und S 2 - von X , , X 2 , g e m e i n auch als Stichprobenc) G e b e n
Sie
die
10
2
S ^ ^ y - S i X i - X J i=l
oder SchätTfunktionen
Stichprobenwerte
aus
X n a b h ä n g i g sind, w e r d e n all-
bezeichnet.
Beispiel
9.1.1
in
einem
(leeren)
Excel-
Tabellenblatt ein und b e r e c h n e n Sie die K e n n g r ö ß e n x und s 2 der S t i c h p r o b e ( v g l . A b b . 9.2).
Dabei
bietet
es
sich
an,
die
Excel-Tabellenfunktionen
MITTELWERT
bzw.
V A R I A N Z aus der Kategorie Statistik zu v e r w e n d e n . Zur (direkten) B e r e c h n u n g der e m pirischen S t a n d a r d a b w e i c h u n g s gibt es d i e T a b e l l e n f u n k t i o n S T A B W . V e r s u c h e n S i e m i t t e l s der O n l i n e - H i l f e h e r a u s z u f i n d e n , w e l c h e W e r t e durch die n a h e z u g l e i c h l a u t e n d e n F u n k t i o n e n V A R I A N Z E N und S T A B W N b e r e c h n e t werden.
Microsoft E x c e l - A B B 9 - 2 . X L S q | Datei
Bearbeiten
Ansicht
Einfügen
Format
Extras
Daten
Fenster
?
ipraiilRL^i^^m^fM^ij^H^ Times N e w R o m a n
ffl
I
F15
W
^
I
E
M
% 1 «»I
X|
1
2940
156025
3210
15625
3
3450
13225
8 9 10 Jl
4
3160
30625
5
3650
99225
6
3280
3025
7
3760
180625
Jl
8
3380
2025
=VARIANZEN(D5:D14)
9
3420
7225
=5TABWN(D5:D14)
10
3100
55225
JA 15 16
f l ^
" S)2
2
M
ß j j
=SUMME(F 5 :F 14)/9
i
S_
R W Ü 1 W
am.
X -
3335
sa=| s=
Wert
Formel =MITTELWERT(D5 :D 14)
3335
=VARIANZ(D5:D14)
62539
=STABW(D5:D14)
250 56285 237
625391 250
Jl
18
t n p n r ü ä
Tabelle!/Tib^
Bereit
/TataMV
IMX
-
r
-
j
f
Abb. 9.2 d ) Es l o h n t sich, auf die e b e n g e n a n n t e n T a b e l l e n f u n k t i o n e n zu verzichten u n d d i e Schätzw e r t e „von H a n d " zu b e r e c h n e n (vgl. A b b . 9.2): x ist d i e S u m m e der S t i c h p r o b e n w e r t e , die d u r c h n = 1 0 zu dividieren ist; zur B e s t i m m u n g der e m p i r i s c h e n V a r i a n z s 2 ist d i e S u m m e der A b s t a n d s q u a d r a t e ( x — x ) 2 zu bilden u n d diese a n s c h l i e ß e n d durch n - l = 9 zu dividieren.
146
9. Schätzwerte für die Parameter eines normalverteilten M e r k m a l s
e) Die 10 Stichprobenweite x, sind zufällig und unabhängig zustandegekommen. Ändern Sie einen dieser Werte, z.B. x h beliebig und beobachten Sie, was sich in Ihrer Excel-Tabelle bewegt: Die unabhängigen Eingabewerte x 2 , ,x I0 ändern sich natürlich nicht; dagegen nehmen alle Abstandsquadrate ( x , - x ) 2 , ( x 2 - x ) 2 , , ( x , 0 - x ) 2 und folglich deren Summe und die empirische Varianz neue Werte an. Das liegt daran, daß sich auch der Mittelwert x geändert hat, und dieser tritt ja in jedem der 10 quadratischen Terme auf. Die Abstandsquadrate sind also nicht unabhängig voneinander; die Verknüpfung durch das empirische Mittel x raubt ihnen einen Freiheitsgrad. Dies ist ein Grund dafür, daß bei der Bildung der empirischen Varianz s 2 nicht durch die Anzahl n=10 der Summanden dividiert, sondern als Divisor die Anzahl n - l = 9 „frei beweglicher" Terme genommen wird. (Der in der Statistik wichtige Begriff Freiheilsgrad, den wir aus Kapitel 8 bereits kennen, wird uns noch öfter begegnen.)
Datei i
o
ì G16
A|B|
Bearbeiten ^
a
Ansicht
^
m
Einfügen
Format
Extras
Daten
Fenster
~
^
S
M
=NORMIN VÇE16,mü, sigma)
m
G
JK n — 10
Umfang der Stichprobe
Ii = 3 4 5 0
Mittelwert
O = 230
Staitdardabweichiuig
Nr.
Zufallszahl
1
0,3697071
13373,495
2
0,5975099
3506,789
3
0,1046919
3161,29
Stichprobemvert X — 3395,112
4
0,3901415
3385,841
5
0,791244
3636,471
6 7
Ofl185666
2970,614
0,5539075
3481,174
8
0,1373248
3198,744
9
0,8782614
3718,258
10
0,6169826
3518,44
Stichpiobe / KonsBtoiz/
empirischer Mittelwert empirische
S = 228,9472
JLLL
Stajtdardabweichung
M
Abb. 9.3
9.1.6 Übungen und Ergänzungen a) Das Tabellenblatt S T I C H P R O B E der Arbeitsmappe N O R M S I M . X L S dient der Simulation der Stichprobenerhebung zu einem normalverteilten Merkmal X (vgl. Abb. 9.3). Neben dem U m f a n g n der Stichprobe müssen die „wahren" Parameter |i und CT2 (die wir schätzen wollen und von denen wir eigentlich annehmen, sie seien unbekannt) eingegeben werden. Da die Excel-Tabellenfunktion Z U F A L L S Z A H L nur Zahlen liefert, die sich gleichmäßig über das Intervall [0,1) verteilen, müssen wir für eine Transformation in normalverteilte Zufallszahlen sorgen. Das geschieht mit Hilfe der Tabellenfunktion N O R M I N V (siehe Teil b)).
147
9. Schätzwerte für die Parameter eines normalverteilten Merkmals
Erzeugen Sie mit der Taste F9 mehrere simulierte Stichproben und beobachten Sie, wie der errechnete empirische Mittelwert x um den Wert (j. und die empirische Standardabweichung s um den WertCTschwanken. b) Es sei F(x) die Verteilungsfunktion einer N(|i;a 2 )-verteilten Zufallsvariablen X. Deren Inverse F~'(x) liefert zu vorgegebenem x e [ 0 , l ) das x-Quantil. In Excel heißt diese Umkehrfunktion NORMINV. An die Stelle der Wahrscheinlichkeit x setzen wir eine ZUFALLSZAHL y o e [ 0 , l ) als Argument der Umkehrfunktion ein. x 0 :=F 1 (y 0 ) ist dann eine Realisierung des normalverteilten Merkmals X (vgl. Abb. 9.4): Betrachtet man nämlich die in [0,1) gleichmäßig verteilte Zufallsvariable Y, für die ja P[Y < y] = y gilt (vgl. 7.1.7, e)), und setzt X=F~'(Y), so ist P[X < x] = P[F
1
(Y) < x] = P[Y < F(x)] = F(x).
X besitzt also die Verteilungsfunktion F und ist daher N(|i;a 2 )-verteilt.
Datei
Bearbeiten
Microsoft Excel N O R M CO.XLS Ansicht Einfügen Format Extras Daten
pi^isiwiiiw^iffliiBm
Fenster
?
Mittelwert
Verteilungsfunktion F(x)
BinomiatappioK
Gaifl-Glocke~\ Noimalveiteitunq / Abb. 9.4
148
9. Schätzwerte für die Parameter eines normalverteilten Merkmals
9.2 Die Stichprobenfunktion X n 9.2.1 Übungen und Ergänzungen a) N a c h Satz 8.1.17 ist die Summe unabhängiger normalverteilter Zufallsvariablen X, ebenfalls normalverteilt. Auch die Stichprobenfunktion X n ist daher normalverteilt, und es gilt: E(Xn) = - i - Z E ( X i ) = f i=1 Var(Xn) = • n
£ V a r i X , ) = - V na2 = £ . i=i
b) Die Stichprobenfunktion X n ist erwartungstreu, weil ihr Erwartungswert mit der zu schätzenden Zahl (i übereinstimmt. „Auf lange Sicht", wenn man genügend viele Stichproben bilden würde, würde man im Mittel den gesuchten Parameter erhalten. Das ist zwar eine wünschenswerte Eigenschaft, nützt aber wenig, wenn man nur eine einzige Stichprobe erhebt: Die Realisierung x kann durchaus weit von |.i entfernt sein. c) Mit wachsendem Stichprobenumfang n strebt aber die Varianz von X n gegen 0. Je größer also die Stichprobe ist, desto größer ist die Wahrscheinlichkeit dafür, daß ein Schätzwert x beobachtet wird, der „in der Nähe" des zu schätzenden Mittelwertes |_i liegt. Rechnen Sie nach: Für j e d e beliebig kleine Zahl 5>0 gilt S
fur n—>oo.
P[|X n - n | < ô ] = 2 - 0 ( - ^ ) 7Jn Microsoft Excel Datei
Bearbeiten
Ansicht
Einfügen
NORMSIM.XLS
Format
U 12
Extras
Daten
Fenster
?
jwirtiuigswert E(X n ) = 3450 0,025
Varianz V a r ( X „ ) = j S 2 9 ~
13 14 15
.
16 17
18 19
20
M /t+s P[|X n -|!| c A genau dann, wenn V > c . Aus nebenstehender Abbildung wird deutlich, wie sich die beiden Meßskalen zueinander verhalten. Den kritischen Wert c bestimmen wir mit Hilfe der standardnormalverteilten Teststatistik V, und zwar so, daß
P[V > c|(x = 5,5]= 1 - 5,8] < P[X I 6 < 5 , 6 6 % = 5,8] = cP( 5 ' 6 6 oJ 5 ' 8 ) = q x | n = M = P [ V > % = n0] = l-cP(v). d) Was ändert sich mit wachsendem Stichprobenumfang n? In welcher Hinsicht wird der Test immer „besser"? e) Was ändert sich im Testverfahren, wenn das Hypothesenpaar H 0 : |a < 5,5, H,: (i > 5,8 durch H 0 : |i = 5,5, H,: n = 5,8 ersetzt wird? f) Die Nullhypothese laute wieder H 0 : j i < 5 , 5 . Die Alternative habe die Form H,: jj. > fj.,. Setzen Sie f ü r verschiedene Werte ein und beobachten Sie die obere Schranke für die Fehlerwahrscheinlichkeit ß. Lassen Sie insbesondere (i, gegen p.0 =5,5 streben. Das Hypothesenpaar lautet dann H0: | i < 5 , 5
und
H,:n>5,5.
Wie groß kann ß in diesem einseitigen
Test maximal werden?
g) Wenn die Alternative ^ in dem einseitigen Test richtig ist, wissen wir lediglich, daß ^ > 5,5 gilt. O b das „wahre" (j. weit von der Zahl 5,5 entfernt liegt oder nicht, ist nicht bekannt. Daher ist auch ß=ß(|i) nicht bekannt. In nebenstehender Abbildung sind mehrere Werte der Operationscharakteristik ß=ß(n) aufgeführt (n=16, a 0 =O,O5). Verifizieren Sie diese Werte in der Excel-Tabelle.
n
ß(M)
5,5 5,6 5,7 5,8 5,9 6,0 6,1
0,95000 0,74049 0,36124 0,08769 0,00926 0,00040 0,00001 Abb. 10.4
h) Kehren Sie d i e Ausrichtung der beiden Hypothesen um (vgl. Abb. 10.5): H 0 : | i > 5,5
und
H,:n c A J n = n„] = p [™S7
/-v/n
/ Vn
IH = Ho]+P[—07
/Vn
/ Vn
ln = n 0 ]
= P [ V < - c | l i = n 0 ] + P [ V > c | n = n 0 ]. Weil die Teststatistik V standardnormalverteilt ist, falls (J.=Ho richtig ist, gilt weiter: a = n , ] = P [ X I 6 < 5,675| n > 5,8] < P[X 1 6 < 5,675| ji = 5,8] = t „ C ^ ^ ) = 1 1 5 (-1,25) » 0 , 1 1 6 = 1 1 , 6 % . In Zukunft werden wir meist auf die explizite Berechnung oder Abschätzung v o n ß verzichten und die Aussage „H 0 kann nicht abgelehnt werden." verwenden.
Erwtest.xls t-TEST Fertigen Sie eine Kopie des Blattes GAUßTEST an und geben Sie dieser den N a m e n t-TEST. Um das Verfahren des Studentschen t-Tests zu implementieren, sind im wesentlichen alle Aufrufe der Excel-Tabellenfunktionen S T A N D N O R M V E R T und S T A N D N O R M I N V durch Aufrufe der benutzerdefinierten Funktionen t V E R T E I L U N G bzw. t QUANTIL zu ersetzen (vgl. in Abb. 10.9 die Fälle A und B). Wenn Sie die direkte Verwendung der Tabellenfunktionen T V E R T und TINV bevorzugen, beachten Sie 8.2.6!
160
10. Statistische Schlußfolgerungen über die Parameter eines normalverteilten Merkmals
•
Die t-Verteilung benötigt den zusätzlichen Parameter m (in Zelle L27).
•
An die Stelle der einzugebenden Standardabweichung a der Grundgesamtheit tritt die empirische Standardabweichung s; diese Substitution ist in allen Formeln vorzunehmen: Denken Sie auch an die Berechnung des kritischen Niveaus in Zelle 122!
•
Die Bezüge in den Diagrammen müssen an den neuen Blattnamen angepaßt werden.
Datei
Bearbeiten
n
Ansicht
IM
Einfügen
Format
Extras
Daten
Fenster
?
| =Oaußtest!G16 ERWTEST.XLS:2
ERWTEST.XLS:!
Fall
Fall 0
Die Standard
Hypothesentyp
Die StumUri
Hypothesentyp
n i l geschät
sei bekannt:
p = 5,5 n * 5,5
a=
= 0,01
*0
0,01000
=
0,99000
> ß
0,4
*
s = 0,4
5,5 0,01
0,01000
=
a
P(FeW
0,99000
> ß
P(Feh]
2,679953
= c
I fiuig n =js5~
x = 5,65
ivert x = 5 , 6 5
= 2,65165
>
x 4 [ 5,354289
.
2,575835
|v|
= c
5,645711 J
f CA« 5,3
Gaußtest ^
•
5,5 • j.i.
< ,
5c
-1
0 möglichst klein ist. Wir wollen derartige Intervalle konstruieren. Allerdings müssen wir uns vor Augen halten, daß der empirische Mittelwert x aus einem Zufallsexperiment hervorgeht. Das bedeutet, daß wir niemals sicher sein können, daß \i in dem zufallig erzeugten Intervall liegt. Vielmehr können wir nur mit Aussagen der Form „Mit der Wahrscheinlichkeit y wird das Ergebnis der Stichprobenerhebung ein Intervall sein, welches den unbekannten Mittelwert |i enthält." umgehen. Als Wahrscheinlichkeit y, als sogenannte Konfidenzzahl, Zahl, die nahe bei 1 liegt. Setzen wir z.B. y=0,95. 2
wählt man sinnvollerweise eine
Eine (unabhängige) Stichprobe vom Umfang n=16 möge als mittleren Benzinverbrauch x=5,67 [Liter pro 100 km] liefern. Auch die empirische Standardabweichung s rechnen wir aus (jedenfalls dann, wenn die „wahre" Standardabweichung a nicht bekannt ist; wie im Abschnitt 10.1 sprechen wir dabei vom Fall B): es sei s=0,4 [Liter pro 100 km],
1 X -n D Beim Testverfahren des Abschnitts 10.1 spielt die Zufallsvariable V = s n ,— eine tra-
Xrn gende Rolle. V ist t-verteilt mit m = n - l = 1 5 Freiheitsgraden. Wir nutzen diese Kenntnis aus und bestimmen eine Zahl c so, daß P [ - c < V < c] = t n _, (c) -1„_, ( - c ) = 2 • t „_, (c) - 1 = y
o
t „ - . ( c ) = i f = 0,975. Die benutzerdefinierte Funktion t QUANTIL liefert den Wert c=2,131. 4
Der Trick liegt jetzt nur in einer geeigneten Umformung und Interpretation der Ungleichungen: -c < V < c
«•
X
n
- c - ^ < M X
s Dabei ist I y = [ X n - c •
n +
c . ^
«•
H6l
r
s , Xn + c •
ein Zufallsintervall,
dessen Grenzen Zufalls-
variable sind, die hoffentlich nach Erhebung der Stichprobe so ausfallen, daß der unbekannte Mittelwert
überdeckt wird. Die Wahrscheinlichkeit dafür, daß dies passiert, ist
10. Statistische Schlußfolgerungen über die Parameter eines normalverteilten Merkmals
163
P [ n e I T ] = P [ - c < V < c ] = y = 0,95. Die Realisierung des Zufallsintervalls Iy ist das gesuchte (empirische) intervall
y-Konfidenz-
konkret: i0 95 = [5,67-2,13-0,1,5,67+2,13 0,1] = [5,457 ,5,883], Die „Konfidenz", das „Vertrauen", welches wir in dieses Intervall setzen, wird durch die Konfidenzzahl y=95% quantifiziert. M i c r o s o f t Excel Datei
Bearbeiten
Ansicht
Einfügen
ERWTEST.XLS
Format
Extras
Daten
Fenster
2
Times New Roman •[NORMSIM XLS]Stichprobei$I$17
FallB: Die Studardabwekkiuig muß geschätzt werden: s =10,422934946
|
Stichprobenumfang n = 1 0 0 0 empirischer Mittelwert x = 5 , 6 6 4 0 7 3
[
5,63783
,
5,69032
]
0,05249
[ïïFF
Konfidenzintervalle
10.2.2 Übungen und Ergänzungen a) Im Tabellenblatt KONFIDENZINTERVALLE der Arbeitsmappe ERWTEST.XLS können Sie die Zahlen des Beispiels 10.2.1 eingeben: y=0,95, s=0,4, n=16 und x=5,67. Setzen Sie den „Intervalltyp" auf 0 und ignorieren Sie zunächst das Eingabefeld n 0 (vgl. Abb. 10.10). Überprüfen Sie die Excel-Formeln und bestätigen Sie die oben angegebenen Resultate. Zusätzlich wird noch die Länge des Konfidenzintervalls berechnet. b) Es ist in dieser Excel-Tabelle nur die Realisierung des „Falles B" (CT ist unbekannt) vorgenommen worden. Wie bei den Hypothesentests unterscheidet sich dieser vom „Fall A" i.w. dadurch, daß bei der Bestimmung des Quantiis c die t-Verteilung anstelle der Standardnormalverteilung zugrundegelegt wird. c) Vergrößern Sie - bei ansonsten unveränderten Eingabewerten - die Konfidenzzahl y von
164
10. S t a t i s t i s c h e S c h l u ß f o l g e r u n g e n ü b e r d i e P a r a m e t e r e i n e s n o r m a l v e r t e i l t e n M e r k m a l s
0,95 auf 0,975, 0,99, 0,995, ... Je mehr wir darauf vertrauen wollen, daß das jeweilige Konfidenzintervall den unbekannten Mittelwert n enthält, desto weiter rücken die Intervallgrenzen auseinander. Umgekehrt können Sie sehr kleine Konfidenzintervalle erzeugen, in die aber kaum noch Vertrauen gesetzt werden kann. Was ergibt sich im Extremfall y=0? d) Eine erste Stichprobe besitze den Umfang n=16 und liefere die Werte x=5,67 und s=0,4. Das 95%-Konfidenzintervall hat dann, wie man im Tabellenblatt K O N F I D E N Z I N T E R V A L L E abliest, eine Länge von ca. 0,43 [Liter pro 100 km]. Wird nun eine neue Stichprobe gleichen Umfangs erhoben, so wird man i.a. einen anderen empirischen Mittelwert x erhalten: Lautet dieser jetzt z.B. x=5,45, so ist das neue Konfidenzintervall gegenüber dem ersten um 0,22 Einheiten nach links verschoben. Da auch die Streuung in der Stichprobe sich zufällig ergibt, wird sich die Länge des Intervalls i.a. ebenfalls ändern: für s=0,5 vergrößert sie sich beispielsweise auf ca. 0,53. e) Eine Neuerhebung mit größerem Stichprobenumfang n muß daher nicht notwendigerweise zu einem kleineren Konfidenzintervall fuhren: Vergleichen Sie den Fall n=16, x=5,67, s=0,4 mit n=25, x=5,67, s=0,6. Hier steigt, wegen der größeren Stichprobenstreuung, die Länge des 95%-Intervalls von 0,43 auf über 0,49 an. Trotz dieses (konstruierten) Zahlenbeispiels: Die Wahrscheinlichkeit dafür, daß die Länge des Konfidenzintervalls „klein" ist, wird mit wachsendem Stichprobenumfang n immer größer. F)
Verknüpfen Sie das Tabellenblatt K O N F I D E N Z I N T E R V A L L E mit dem Blatt S T I C H P R O B E der Arbeitsmappe N O R M S I M . X L S : Geben Sie zunächst im Blatt S T I C H P R O B E fiktive Parameter der Grundgesamtheit, z.B. (i=5,7 und CT=0,4, vor. Der Umfang n der S T I C H P R O B E soll vom Blatt K O N F I D E N Z I N T E R V A L L E übernommen werden; schreiben Sie deshalb in die Zelle E8 die Formel =[ERWTEST.XLS]Konfidenzintervalle!$I$12. Übernehmen Sie umgekehrt die Zufallswerte x und s aus der S T I C H P R O B E in die Zellen 113 bzw. L10 des Blattes K O N F I D E N Z I N T E R V A L L E (vgl. Abb. 10.10).
g) Bleiben Sie im Blatt K O N F I D E N Z I N T E R V A L L E . Simulieren Sie bei festem Stichprobenumfang n durch Drücken der Taste F9 mehrere Stichprobenerhebungen. Beobachten Sie, wie sich die zugehörigen Konfidenzintervalle sowohl in der Lage als auch in der Länge, abhängig vom Zufallswert x bzw. s, unterscheiden. Wenn Sie anschließend den Stichprobenumfang n sukzessive erhöhen, werden die Intervalle meist (aber nicht immer) kleiner, weil sich die Folge der Schätzwerte s immer mehr stabilisiert.
-3
-2
-C
-1
0
C
2
3 Abb. 10.11
10. Statistische Schlußfolgerungen Uber die Parameter eines normalverteilten Merkmals
165
10.2.3 Beispiel 1 Die Grenzen des im Beispiel 10.2.1 konstruierten Konfidenzintervalls liegen symmetrisch zum Stichprobenwert x. Intervalle mit dieser Eigenschaft sind vom Typ 0. Manchmal sind auch einseitige (-5,457 und |i0. Erhebe eine unabhängige Stichprobe aus der normalverteilten Grundgesamtheit X. Der Umfang sei nx. Bestimme den Mittelwert x und die Varianz s x dieser Stichprobe. Ermittle ebenso die Werte n y , y und s y , die zu einer unabhängigen Stichprobe aus der normalverteilten Grundgesamtheit Y gehören. Berechne dann, als Schätzwert für die den beiden Grundgesamtheiten gemeinsame StandardabweichungCT,die Zahl s
3 4
g ~~ y
(nx~l)'sx~Hny~0'sy nx+ny-2
Ermittle den kritischen Wert c als Lösung der in Abb. 11.2 angegebenen Gleichung. Berechne die Prüfgröße v =
• -J n*+ny.
Lehne H 0 ab, falls die in der Abbildung angegebene Bedingung erfüllt ist.
11.2 Vergleich der Varianzen zweier Grundgesamtheiten 11.2.1 Beispiel 1 Die im Beispiel 11.1.1 vorausgesetzte Gleichheit der Streuungen in den beiden Grundgesamtheiten soll nun angezweifelt werden. Die zu testenden Hypothesen lauten: H0:GX=(TY
und
H^O^^CY-
„Arbeitet" die Natur also bei der „Produktion" von Jungen genauso exakt wie bei der von Mädchen? Derartige Fragestellungen treten auch auf, wenn die Genauigkeit von zwei Meßinstrumenten oder Maschinen in einem Produktionsprozeß verglichen werden soll. Wir nehmen weiterhin an, daß die Merkmale X und Y normalverteilt und voneinander unabhängig sind. Der Test soll zum Signifikanzniveau a 0 =0,05 durchgeführt werden. 2
Wir übernehmen die Ergebnisse der Stichprobenerhebung aus Beispiel 11.1.1: Die nx=25
11. Vergleich der Parameter zweier unabhängiger normalverteilter M e r k m a l e
177
zufällig ausgewählten neugeborenen Mädchen weisen eine empirische Varianz von s 2 =62500 [Gramm 2 ] auf. Für die Stichprobe aus der Grundgesamtheit der neugeborenen Jungen gilt ny =30 und s y =25600 [Gramm 2 ]. Die zu testenden Hypothesen könnten auch so formuliert werden: H0:^ =l Oy
und
Oy s2
Dann liegt es nahe, den Quotienten v = -y zum Maßstab der Testentscheidung zu machen: sy
Wenn die Prüfgröße v wesentlich größer oder kleiner als 1 ist, ist die Nullhypothese abzulehnen. Microsott Excel Datei
Bearbeiten
Ansicht
Einfügen
i ä B S Q ^ i r j n ^ B i
TESTVERT.XLS
Format
Extras
Plj^jölis
Daten
Fenster
?
; sSsRäfiooi
Times New Roman
Siiiällifllsfcw 1 ^ F-Verteilung J j
In diesen Ansatz fügt sich glücklich, daß über die zugehörige Zufallsvariable V eine Verteilungsaussage bekannt ist:
s2
Wenn H 0 richtig ist, ist V = -§• F-verteilt mit n x - l und n y - l Freiheitsgraden (ohne Bew.). Sy Daher wählen wir V als Teststatistik und bestimmen (wegen der Nichtsymmetrie der FVerteilung; vgl. Abschnitt 8.4) zwei kritische Werte c u und c 0 aus folgenden Gleichungen: et = P[V < c j < £ = 4 ] + P[V > c 0 | 4 = 4 ] =
Fnx-l,ny-l(cu)
+
l~Fnx-l,ny-l(co)
=
a
0'
178
11. Vergleich der Parameter zweier unabhängiger normalverteilter Merkmale
Diese sind z.B. dann erfüllt, wenn F„ x -i,n y -,(c u ) = F 24 , 29 (c u ) = ^
= 0,025
C
und
F„ x -l.n y -l( o) = F24.29 (Co)= 1 - ^ = 0,975
gesetzt wird. Die Excel-Tabellenfunktion FINV(0,975;24;29) liefert das 2,5%-Quantil c u =0,45; mit dem Aufruf FINV(0,025;24;25) erhält man das 97,5%-Quantil c 0 =2,15. 4
Die Prüfgröße v liegt mit dem Wert 2,44 nicht im Intervall [cu,c0] und führt deswegen zur Ablehnung von H 0 . Die Annahme, daß beide Grundgesamtheiten die gleiche Streuung aufweisen, ist in dem F-Test, den wir gerade durchgeführt haben, also widerlegt worden.
Microsoft Excel Datei
Bearbeiten
M e
Ansicht
Einfügen
VARVERGL.XLS
Format
I =alpha_0Q 1 J A
unabhängige Merkmale X,Y
]
Extras
fcjj-
:
Daten
?
B i * 1, Nullhypothese Ho: Oy2 ~ (Jy2 Alternativ« Hi: Oy2 * Oy2 Signifikanz niveau a 0 = 0,05 Iii
Stichprobenumfang n x = 2 5 enqiirische Vaiianj
Fenster
= 62500 Stichprobenumfang n y = empirische Varianz s y =
2,441406 t
30 25600
2,15401 [ 0,450971 , Ablehnung von HO M
iSS •Mil Ü JQI jjg^PriifvetlahjienJI
Ii:;:;!;:;::;!:;;!;;;
[CujCQ]
Freiheitsgrade mj = 24 Freiheitsgrade m2 = 29 F„i,„2(C) = r u =|0,025 Fmi,„2(c) = r 0 = 0,975 X
Li
M Abb. 11.4
11.2.2 Übungen und Ergänzungen a) Jetzt ist auch geklärt, wozu die F-Verteilung „erfunden" wurde: R.A.Fisher hat die Dichte der Teststatistik V, dem Quotienten aus der Schätzfunktion für die Varianz a2x und der Schätzfunktion für die VarianzCTy>berechnet. Nach Satz 9.3.1 sind die Zufallsvariablen und
Q
2
= ^
verteilt mit n x - l bzw. n y - l Freiheitsgraden. Wenn die Nullhypothese a ^ = 12.
Das Signifikanzniveau a 0 betrage 0,05. 2
In der über mehrere Tage hinweg durchgeführten, insgesamt 5-stündigen Verkehrszählung werden 3756 Fahrzeuge beobachtet. Der Stichprobenumfang beträgt also n=300 (Minuten), und daraus wird der empirische Mittelwert x = ^ ¡ ^ = 12,52 errechnet. Es handele sich um eine unabhängige Stichprobe.
3
Wegen des großen Stichprobenumfangs kann man wieder davon ausgehen, daß die Stichprobenfunktion X n näherungsweise
-verteilt ist (Satz 12.1.4).
Diesmal muß die unbekannte Standardabweichung CT aber nicht durch den Stichprobenwert s geschätzt werden: Die oben zugrundegelegte Verteilungsannahme hat doch zur Folge, daß a 2 =|i=X. gilt, und der Parameter )•- ist somit die einzige Unbekannte. Also: X n ist näherungsweise N(/_; - 1 )-verteilt. Die (approximativ standardnormalverteilte) Teststatistik lautet jetzt
und den kritischen Wert c bestimmt man angenähert aus der Gleichung c wird die Nullhypothese abgelehnt: Die Einrichtung einer Fußgängerampel ist gerechtfertigt.
Microsott Excel - ERWTEST.XLS
Dû Standardahweichrnig sei bekannt:
9 10
Nullhypothese Ho: pi
g =|3,464101615
I
12 0,05
13
f-0
14 15
12
16
12,2
12,4
Stichprobenumfang n = 3 0 0
17
empirischer Mittehvert x = 12,52
18 19 20
21 22
-
lllilil
2,6
>
1232
>
1,644853
Ablehnung von HO kritisches Niveau:
=
1232897 = 0,00466
c
H I-
|
23
i tonMmantavak /
IM
(' A b b . 12.6
12.3.2 Beispiel 1 Bei Wartungs- und Reparaturarbeiten an einer Maschine ist manchmal nur eine Dichtung auszuwechseln; oft muß aber der gesamte Apparat auseinandergenommen werden. Von der Reparaturdauer X, gemessen in Minuten, nehmen wir an, daß sie exponentialverteilt sei mit einem unbekannten Parameter X (vgl. 12.1.2, c)). Getestet werden sollen die folgenden Hypothesen über die mittlere Reperaturdauer H 0 : | i < 60
und
H,: ja > 60.
Weil bei exponentialverteilten Zufallsvariablen H = x gilt, können wir auch schreiben: H0:X>^
und
Wir führen den Test zum Signifikanzniveau a 0 =0,01 durch. 2
In einer (unabhängigen) Stichprobe von n=225 Reparaturen wurde eine mittlere Dauer von x=90 Minuten festgestellt.
190
12. Der Erwartungswert eines nicht-normalverteilten M e r k m a l s
Wie im vorangegangenen Beispiel hängt die Standardabweichung er (nur) vom unbekannten Parameter X ab und ist somit eng an den Mittelwert |i gekoppelt: CJ= ^ . Wir nutzen auch hier diesen Umstand aus und folgern: Die Stichprobenfunktion X n ist näherungsweise
; ^f^)-verteilt.
Durch Normierung erhalten wir dieTeststatistik X _I
_
ÄVn Der kritischen Wert c muß angenähert die Gleichung ®(c)= l - a 0 =0,99 erfüllen. Das 99%-Quantil der Standardnormalverteilung beträgt c=2,326.
4 Als Prüfgröße erhalten wir mit X := -gQ: 0
v = (X0-x - 1) • Vn =
- 9 0 - 1) • 15= 7,5.
v ist weit größer als c; die Nullhypothese muß daher abgelehnt werden.
12.3.3 Übungen und Ergänzungen a) Im Tabellenblatt GAÜBTEST der Arbeitsmappe ERWTEST.XLS kann man auch Tests der in den beiden vorangegangenen Beispielen beschriebenen Form durchfuhren. Bezogen auf Beispiel 12.3.1 ist das Wesentliche in Abb. 12.6 gezeigt: Im Eingabefeld für das „bekannte" a muß a = = V l 2 gesetzt werden. b) Führen Sie in analoger Weise das Beispiel 1 2 . 3 . 2 im Tabellenblatt GAUBTEST durch, und „spielen" Sie anschließend mit den verschiedenen Testparametern. Wie lautet insbesondere das formal ermittelte Testergebnis, wenn Sie den Stichprobenumfang n auf 25 verkleinern? c) Wir bleiben beim Beispiel 12.3.2. Für die kleine Stichprobe vom Umfang n=25 ist der Zentrale Grenzwertsatz nicht anwendbar. Daher ist das durch den GAUBTEST ermittelte Ergebnis ungültig! Wir können aber für diesen Fall ein neues Testverfahren entwickeln. Kluge Statistiker haben nämlich für den Fall eines exponentialverteilten Merkmals X bewiesen: Die Zufallsvariable V: = 2Xn • X n ist exakt % -verteilt, und zwar mit 2n Freiheitsgraden. Diese Aussage gilt auch bei kleinem Stichprobenumfang n. Verwendet man die neue Teststatistik V, so wird man daher (für n=25) auf die Bestimmungsgleichung X?0(c)=l-a0=0,99 für den kritischen Wert c gefuhrt. Zeigen Sie, daß dann die zugehörige Prüfgröße v kleiner als c ist, die Nullhypothese also nicht abgelehnt werden kann. d) Auch für andere Grundannahmen der Form „X ist K-verteilt" kann man versuchen, Testverfahren für unbekannte Parameter der Verteilungsklasse K, die auch bei kleinem Stichprobenumfang anwendbar sind, zu entwickeln. Dabei muß jeweils, abhängig von der Ver-
12. Der Erwartungswert eines nicht-normalverteilten Merkmals
191
teilungsklasse, eine geeignete Teststatistik V mit bekannter Verteilung gefunden werden. Ein weiteres, uns bereits vertrautes Beispiel ist die Klasse der Null-Eins-verteilten Merkmale mit dem Parameter p. Die „geeignete Teststatistik" ist die binomialverteilte Zufallsvariable V = n x , die die Anzahl der Erfolge in der Stichprobe mißt. Derartige Tests haben wir im Kapitel 6 durchgeführt. Jetzt wollen wir umgekehrt untersuchen, wie sich die Prüfverfahren für eine Wahrscheinlichkeit p bei großem Stichprobenumfang vereinfachen lassen. Außerdem sollen approximative Konfidenzintervalle für p berechnet werden.
12.3.4 Beispiel 1 Werden mehr oder weniger als die Hälfte der Wahlberechtigten bei der Wahl zum Oberbürgermeister für den Kandidaten F. stimmen? Es sollen also die Hypothesen H 0 : p > 0,5
und
H,:pc.
.
14. Einführung in die Varianzanalyse
217
14.2 Zweifache Varianzanalyse ohne Wiederholung 14.2.1 Beispiel 1 Der Ertrag bei der Getreideernte hängt möglicherweise nicht nur von der Art der Düngung, sondern auch von anderen Faktoren ab: Die verwendete Getreidesorte, das örtliche Klima oder die Beschaffenheit des Bodens, auf dem angebaut wird, mögen eine Rolle spielen. Bleiben wir bei der letztgenannten potentiellen Einflußgröße und führen wir die folgende zweifaktorielle Varianzanalyse durch: Wir betrachten Getreidefelder an Orten unterschiedlicher Bodenqualität, die jeweils verschiedenartig (oder gar nicht) gedüngt werden. Für den Faktor A, die Art der Düngung, soll es wieder C,A=5 Möglichkeiten geben; der Faktor B, die Bodenbeschaffenheit, weise C,B=4 verschiedene Ausprägungen auf. Wenn wir alle Kombinationen in Betracht ziehen, haben wir es also mit c B .
und
und
mR=(i;A-l)-(i;B-l).
v B = ^iS.® m^^K
222
14. Einfuhrung in die Varianzanalyse
14.3 Zweifache Varianzanalyse mit Wiederholung 14.3.1 Beispiel 1
Was ändert sich im Beispiel 14.2.1, wenn aus jeder Grundgesamtheit nicht nur 1 Stichprobenwert vorliegt, sondern jeweils mehrere Wiederholungsmessungen durchgeführt werden? Wir sind dann in der Lage zu untersuchen, ob es eine Wechselwirkung zwischen den Faktoren „Düngung" und „Bodenbeschaffenheit" gibt; bislang haben wir es versäumt, danach zu fragen. Beispielsweise ist es doch möglich, daß ein Düngemittel „normalerweise" eine Ertragssteigerung mit sich zieht, in Kombination mit einer speziellen Bodensorte aber vielleicht sogar das Gegenteil bewirkt. Derartige Interaktionen sind uns auch von Warnhinweisen zu „Wechselwirkungen mit anderen Mitteln" aus der Packungsbeilage eines Medikaments vertraut. Zu überprüfen ist neben Ha0: Hbo:
Der Faktor A („Düngung") hat keinen Einfluß auf den Erntertrag, Der Faktor B („Bodensorte") hat keinen Einfluß auf den Erntertrag.
noch eine dritte Nullhypothese: H a b o : Zwischen den Faktoren A und B besteht keine Wechselwirkung. Wir legen dem Test das Signifikanzniveau a 0 =0,01 zugrunde.
Datei H12
m
Qearbeiten
Iii jä
Ansicht
pjs
Microsoft Excel - AN0VA3.XLS Einfügen Forma] Eitras Daten
Fenster
H
?
=M1TTELWERT(C1D:F12)
i,
. p
Faktor E
f~ i. . f Faktor A
j.., ^ .
!
3
42
50
48
49
44
47
46
41
46
53
47
45
45
41
39
43
55
43
42
40
50
42
45
43
45
49
43
47
M
45
51
49
45
»
42
47
46
43
46
47
45
44
Wj M 12
16
m 21
mmmmmirn
JÜL 44
46
Anzahl der A-Gruppen f A ~ 4 Anzahl der B- Gruppen
22
— 3
Anzahl der Mefhverte je Unterklasse v = 3 Gesamtanzahl der Meßwerte n = 36
H 25
i
ÉSBllilSs ü
Veisuchsplan M
Gesamtmittel 5
45,5
a*®»
¡
Ü
Abb. 14.7
223
14. E i n f ü h r u n g in die V a r i a n z a n a l y s e
Microsott Excel Datei
q_B A.
« »
Bearbeiten
Ansicht
Einfügen
Daten
Fenster
li H H
v A B " 4,636364 > 3,666713 - c A B Es besteht eine Wechselwirkung zwischen A und B FreiheitsQuadrats unirne n grade Streuungiursachel
B m
m
Uittenchiede zwischen dea A-Gnçpen
45
3
15
"42l
2
21
204
6
34
Reit (ZufoUiiclnraBlrajigeii)
176
24
7,333333
Total
467
35
iwiichei! &2iB- Gruppen Wechselwirkung •™i*chen A- und B- Gruppen
2
Extras
-nü*zeta_A*SUMQUADABW(Versuchsplan!H12:H18) • l —»—I: v A = 2,045455 < 4,718061 = c Ä Ein Finflnß des Faktors A ist nicht nachzuweisen v B = 2,803636 < 5,613629 = c B Ein Einfluß des Faktors B ist nicht nachzuweisen
IS a
I
AN0VA3.XLS
Format
VßJ
Vaiianzanalyse
• g Abb. 14.8
Damit die folgende Darstellung besser zu überschauen ist, reduzieren wir die Anzahl der Gruppen gegenüber Beispiel 14.2.1: Der Faktor A habe nur noch 4, der Faktor B nur noch 3 Ausprägungen; es sollen also lediglich t, A =4 verschiedene Düngungsmethoden und C B =3 Bodensorten unterschieden werden. In Abb. 14.7 sieht man, daß in jeder der 12 Grundgesamtheiten genau v=3 Meßwerte beobachtet wurden. Insgesamt haben wir also n=CA• Cn• v=4• 3 • 3=36 Stichprobenwerte vor uns. Man kann sich vorstellen, daß die für das vorliegende Prüfverfahren notwendigen Berechnungen einigermaßen komplex werden. Anstatt weitere Größen und Indizes einzuführen, soll manches mit Hilfe der Excel-Formeln, die für das in den Abbildungen 14.7 und 14.8 Gezeigte verantwortlich sind, erklärt werden. Zunächst gibt es wieder die Spalten- und Zeilenmittelwerte Xi. bzw. x.j sowie das Gesamtmittel x , die sich bequem mit Hilfe der Tabellenfunktion M I T T E L W E R T berechnen lassen. Anschließend bestimmen wir die Totalsumme q x ; diese erhält man, wenn man die Funktion S U M Q U A D A B W auf den Matrixbereich C I 0 : F 1 8 im VERSUCHSPLAN, also auf alle 36 Meßwerte ansetzt. q T wird diesmal in 4 Komponenten aufgespaltet: yi)>(x2,y2),
>(xn.y„))
heißt (unabhängige) zweidimensionale Stichprobe vom Umfang n zum Merkmal (X, Y), wenn die Stichprobenpunkte (Xj.yj) Realisierungen von n (unabhängigen) Zufallsvektoren (X^Yj) sind, die alle die gleiche Verteilung wie das Merkmal (X, Y) haben. Die Zahlen x,, x 2 , x „ sind die Stichprobenabszissen; y,, y 2 ,..., yn die Stichprobenordinaten.
1
Wir beschränken uns auf den zweidimensionalen Fall; die Verallgemeinerung auf mehr als 2 Merkmale ist naheliegend und leicht durchführbar.
228
15. Zweidimensionale Merkmale
15.1.3 Übungen und Ergänzungen a) Zwei- oder mehrdimensionale Zufallsvariable (Merkmale) haben wir bereits in den Kapiteln 3 und 7 betrachtet, ohne diesen Begriff dort verwendet zu haben. Es handelt sich einfach um die simultane Betrachtung mehrerer Zufallsvariablen, die auf einer Ergebnismenge Q definiert sind. In den Abschnitten 3.2 und 7.2 wurden Eigenschaften eines zweidimensionalen Merkmals (X,Y) untersucht, bei dem die Zufallsvariablen über eine Gleichung der Form Y=aX+b miteinander verknüpft und damit (in extremer Weise) voneinander abhängig waren. In 3.3 und 7.3 haben wir uns auf Paare unabhängiger Zufallsvariablen konzentriert. b) Beachten Sie: Wir setzen nicht voraus, daß die Zufallsvariablen X und Y in Definition 15.1.2 unabhängig sind. Dagegen werden wir im vorliegenden und den folgenden Kapiteln stets annehmen, daß die Stichprobe unabhängig ist. Die n Stichprobenpunkte werden also dadurch gebildet, daß n Objekte aus der Grundgesamtheit durch zufalliges Ziehen mit Zurücklegen ausgewählt und jeweils hinsichtlich der Merkmale X und Y untersucht werden. Überlegen Sie sich, wie wohl die formale Definition der Unabhängigkeit von n zweidimensionalen Zufallsvariablen (Xi,Y 1; ), (X2,Y2>), , (X n ,Y n ) in Anlehnung an die Definitionen in den Abschnitten 3.3 und 7.3 auszusehen hat. c) Eine zweidimensionale Stichprobe kann man als sogenannte Punktwolke in der reellen Zahlenebene darstellen. Ein Beispiel für ein derartiges Diagramm ist in Abb. 15.3 zu sehen. Wenn Sie dieses nachvollziehen wollen, sollten Sie den Diagrammtyp Punkt (XY) wählen. d) In einer zweidimensionalen Stichprobe ( ( x 1 , y I ) , ( x 2 , y 2 ) , , ( x n , y n j ) bezeichnen wir mit x bzw. y den empirischen Mittelwert der Stichprobenabszissen bzw. -ordinaten: n
n
x = j • Ex;
und
y = ^ • Zyj.
i=l
i=]
Die empirischen Streuungen werden, wie schon früher, durch entsprechende Indizes unterschieden: n
Sx=!^rZ(Xi-x)2 i=i
n
und
s^
i=i
-y)2-
Eine Maßzahl für den Zusammenhang zwischen den x- und y-Werten in der Stichprobe ist die sogenannte Kovarianz'. n
Sxy:=ü=rZ(x,-xXyi-y)¡=i Im Kapitel 17 werden wir sehen, wie die Werte der Kovarianz im zweidimensionalen Stichprobenraum zu interpretieren sind. Im Testverfahren, das im nachfolgenden Abschnitt 15.2 beschrieben wird, spielt diese Kenngröße bereits eine Rolle.
15.1.4 Beispiele a) Ein Würfel werde zweimal geworfen. Die Zufallsvariable X gebe die kleinere, die Zufallsvariable Y die größere der beiden Augenzahlen an (vgl. Beispiel 3.3.3, b)). In Abb. 15.1 ist die Verteilung des zweidimensionalen Merkmals (X,Y) zu sehen: Die Wahrscheinlichkeiten
229
15. Zweidimensionale Merkmale
P[X = i,Y = j
(i=l,2,...,6; j=l,2,...,6)
sind (in der Einheit j g ) aufgeführt und in Form eines Säulendiagramms dargestellt.
Datei
Bearbeiten
Ansicht
Einfügen
Format
Extras
Daten
Fenster
?
• Times New Roman
^Zwej^Wüitel
b) Die Zufallsvariablen X und Y seien normalverteilt mit den Kenngrößen | i x , a \ bzw. |i Y , Oy. Ihre Dichten lauten also _J.(xzMxi2
_I.tx.TtiY)2
Eine gemeinsame Dichte von X und Y, d.h. eine zweidimensonale Dichte von (X,Y), ist eine nichtnegative Funktion f(x,y), die folgende Integraldarstellung erlaubt (vgl. 7.3.3 und 7.3.4): F ( x , y ) : = P [ X < x , Y < y ] = J i f ( t , u ) d u d t fiir alle x,y e IR. -^O —00
Wenn X und Y unabhängig wären, so könnte man einfach das Produkt der eindimensionalen Dichten bilden: 1
f(x,y) = f x ( x ) - f Y ( y ) = 2 ^ - e ^
|(X-UY)2
(y-nv) 2 ^
.
Im allgemeineren Fall verwendet man, wenn X und Y voneinander abhängige Meßgrößen sind, häufig das Modell der zweidimensionalen Normalverteilung:
230
15. Zweidimensionale Merkmale
!
((x-|ix)2_2
( x -Mxj(y-MY) + (y.-_MYl 2 ]
2jtaxöY - / l - p 2
'
Dabei ist p eine Zahl, die den Grad der Abhängigkeit der beiden Merkmale zum Ausdruck bringt; im Kapitel 17 werden wir solche sogenannten Korrelationskoeffizienten genauer betrachten. Abb. 15.2 zeigt die Dichte eines zweidimensional normalverteilten Merkmals (X,Y).
Microsoft Excel Datei
Bearbeiten
Ansicht
Einfügen
ZWEIDIM.XLS
Format
Extras
Daten
Fenster
?
llOOX =1 /(7*PI0 * WURZEL(1 -rhoA2))*EXP(-1/2*7/(1 -rhoA2) *($A 10A2-2 *tho *$A 10 *D$5+
D$j"2))
0,0018 0,003 0,0048 0,0071 0,0097 0,0124 0,0147 0,0164 0,0169 0,0164 0,0147 0,0124 0,0097 0,0071 0,0048 0,003 0,0018
0,003 0,0048 0,0052 0,0081 0,0081 0,0128
0.0119j 0,0188 0,0164* 0,0258 0,0209 0,0329 0,0249 0,0392 0,0277 0,0436 0,0286 0,0451 0,0277 0,0436 0,0249 0,0392 0,0209 0,0329 0,0164 0,0258 0,0119 0,0188 0,0081 0,0128 0,0052 0,0081 0,003 0,0048 k Zweidim Notmalveiteilung
„ ... Abb. 15.2
15.1.5 Übungen und Ergänzungen a) Verifizieren Sie die in Abb. 15.1 (als Vielfache des Faktors j g ) gezeigten Wahrscheinlichkeiten. (Leere Felder in der X-Y-Matrix stehen für die Wahrscheinlichkeit 0.) b) Der Diagrammtyp 3D-Säulen in Excel eignet sich besonders gut für die Darstellung zweidimensionaler Wahrscheinlichkeitsfunktionen diskreter Merkmale (vgl. Abb. 15.1). Wählen Sie den Diagrammtyp 3D-Oberflächen, wenn Sie ein Digramm einer stetigen zweidimensionalen Dichte erstellen wollen (vgl. Abb. 15.2). Die den Diagrammen zugrundeliegenden Daten müssen in Form einer x-y-Matrix angegeben werden. Achten Sie dabei darauf, daß die x- und y-Werte jeweils gleiche Abstände voneinander haben. c) Welche Symmetrieeigenschaften weist die Dichte f(x,y) der zweidimensionalen Normalverteilung auf? Wie hängt sie vom Parameter p ab? Beachten Sie, daß p im Intervall (-1,1) liegen muß. Welchen Spezialfall erhält man für p=0?
15. Z w e i d i m e n s i o n a l e M e r k m a l e
231
15.2 Vergleich zweier abhängiger meßbarer Merkmale 15.2.1 Beispiel 1 Um den Erfolg einer Abmagerungskur zu testen, soll das Körpergewicht X [kg] einer Person vor Durchführung der Kur mit ihrem Körpergewicht Y [kg] danach verglichen werden. und seien die (unbekannten) Mittelwerte der beiden Merkmale. Wir wollen die Hypothesen H 0 : HX — My H,: n x > | i Y . testen. Das im folgenden beschriebene Verfahren wird mitunter Differenzentest genannt, weil die Grundidee darin besteht, die Zufallsvariable Z:=X-Y zu betrachten und die Hypothesen in der Form H 0 : Hz = H x - H Y H,: H Z > 0 . zu notieren. Auf diese Weise kann das Prüfverfahren auf das Testen einer Hypothese über den Erwartungswert | i z einer eindimensionalen Zufallsvariablen Z reduziert werden. Wir setzen voraus, daß X und Y normalverteilte Merkmale sind. Dann ist auch die Zufallsvariable Z normalverteilt, und wir haben lediglich einen t-Test (vgl. Abschnitt 10.1) durchzuführen. Das Signifikanzniveau sei a 0 =0,01. 2
In Abb. 15.3 sieht man, daß eine zweidimensionale Stichprobe vom Umfang n=15 erhoben wurde. Jedem Meßwert x, ist ein Meßwert y n der zu ein und derselben zufallig ausgewählten Person gehört, zugeordnet, und somit besteht eine Abhängigkeit zwischen den beiden Datenreihen. Häufig wird in diesem Zusammenhang auch von zwei verbundenen Stichproben gesprochen. Wir bilden nun die zum Merkmal Z gehörenden Stichprobenwerte z^Xj-y,. Mit den Schätzwerten
für Mittelwert \xv bzw. Standardabweichung a z kann die Prüfgröße z-Hz,0
z_
gebildet werden. Wenn diese einen gewissen kritischen Wert c überschreitet, spricht dies für die Alternative H, und für den Erfolg der Abmagerungskur. 3
Die Prüfgröße v ist die Realisierung einer t,,.,-verteilten Teststatistik V. Der kritische Wert c ergibt sich somit aus der (für Hypothesenpaare vom Typ 1 zu verwendenden) Gleichung t n _,(c) = l - a 0 = O , 9 9 . Für n - l = 1 4 findet man den Wert c=2,624.
232 4
15. Zweidimensionale Merkmale
Aus der gegebenen Stichprobe errechnet man (vgl. Abb. 15.3) z = l , 7 3 3 und s z =2,890. Der Wert der Prüfgröße v ergibt sich daraus zu v _
1,733 2,890/
7m
Die Nullhypothese kann also nicht abgelehnt werden.
=>| Datei
Bearbeiten
Ansicht
Einfügen
Format
Extras
Daten
Fenster
?
=STABW(F16:F30)
mm
wmmn
msmmm
J X . j l
Stichprobenumfang n - 15 Mittelwerte
Standardabweichungcn
x = 80,46667
»„« 10,762811
y = 78,73333
- 10,491266
I = 1,733333
s = =|2^90048ti~|
100 85
83
76
78
92
88
87
87
79
77
65
66
91
94
102
96
74
74
63
62
70
65
81
82 86
90
äL
•
• •• • •+ •
80 X
69
75 Alt
>
95 90 85 80 75 70 65 60 55 50
JA
Stichprobe
A b b . 15.3
15.2.2 Übungen und Ergänzungen a) Warum kann das in Abschnitt 11.1 beschriebene Testverfahren im vorangegangen Beispiel nicht verwendet werden? Warum ist die Summe s^+s 2 hier kein geeigneter Schätzwert für die Varianz der Differenz Z (vgl. 11.1.2, f»? b) Rechnen Sie nach: Z(z, - z) 2 = J j . ¿ ( ( X i - y i M x - y ) ) 2 1=1 ¡=1 n
= üir •
- x ) - (y, - y ) ) 2 = SX + Sy -
2s
xy •
Dabei ist sxy die oben erwähnte Kovarianz der Stichprobe (siehe 15.1.3, d)). Je größer s xy dem Betrage nach ist, desto mehr unterscheidet sich s 2 von sjj+sy, von der Varianz, die wir für unabhängige Meßreihen erhalten würden.
233
15. Zweidimensionale Merkmale
Statistisches Verfahren XIII Vergleich der Mittelwerte zweier normalverteilter Merkmale X und Y
abhängige Merkmale X,Y zweidimensionale (verbundene) Stichprobe Bestimme den Typ des Hypothesenpaares (Abb. 15.4). Wähle eine Signifikanzzahl a,)>0. Erhebe eine unabhängige zweidimensionale Stichprobe vom Umfang n: ((x,,y,X(x2)y2),
,(x n ,y n )).
Bestimme daraus den Vektor (z^zj, Berechne .
z =i
n
,z„) der Differenzen Zj=xryj. f
Zzi
und
i=l
n
sz = J - ^ t j - I ( Z j - z ) 2 . V i=l
Ermittle den kritischen Wert c als Lösung der in Abb. 15.4 angegebenen Gleichung. Berechne die Prüfgröße v =
. AfS Lehne H0 ab, falls die in der Abbildung angegebene Bedingung erfüllt ist.
Typ
H«
1
Mx^Y
II,
-1
Abb. 15.4
0
X
= H
Y
Ablehnung
für c
v o n II,,
t
HX
c
v < - c
| v | > c
15.3 Ein Unabhängigkeitstest für zwei nichtmeßbare Merkmale 15.3.1
Beispiel
1 Kann man durch tägliche Einnahme von Aspirin dem Herzinfarkt vorbeugen? Wir betrachten in der Grundgesamtheit aller herzkranken Patienten die folgenden Merkmale: X gibt an, ob ein Patient „Aspirin-Schlucker" ist oder auf die (tägliche) Einnahme des Medikaments verzichtet; Y zeigt an, ob ein Herzinfarkt eintritt oder nicht. Beide Zufallsvariable (wir können sie als Null-Eins-verteilt auffassen) stellen nichtmeßbare Merkmale dar.
234
15. Zweidimensionale Merkmale Datei 635
Bearbeiten
Ansicht
w
Einfügen
Format
Extras
Daten
Fenster
?
=5 erfüllt ist.
Ermittle dann den kritischen Wert c näherungsweise als Lösung der Gleichung XiUc) = l - a 0
mit m = ( i x - l ) - ( ; v - l ) .
tC —x < i^v cvh14 ij _
Berechne die Prüfgröße v = X s , ttU Lehne H 0 ab, falls v>c.
hi ;h
'n * V / r—r . itisL II ;
237
16. Einführung in die Regressionsanalyse 16.1 Die empirische Regressionsgerade 16.1.1 Beispiel In Abb. 16.1 wird eine zweidimensionale Stichprobe gezeigt: Von n=15 erwachsenen Personen wurden jeweils die Körpergröße X [cm] und das Körpergewicht Y [kg] gemessen. Die Gestalt der Punktwolke läßt einen Trend erkennen: Große Werte x¡ gehen, wie zu erwarten war, meist mit großen Werten y¡ einher. Wir vermuten sogar einen linearen Zusammenhang: Die Punkte (x¡,y¡) liegen doch dem Augenschein nach „fast" auf einer Geraden.
Datei
Bearbeiten
Microsoft Excel - R E G R E S S . X L S Ansicht Einfügen Format Extras Daten
Fenster
?
Abb. 16.1 Es soll jetzt eine solche Regressionsgerade, die sich den Stichprobenpunkten in gewissem Sinne optimal anpaßt, ermittelt werden. Dies geschieht nach der später noch zu beschreibenden Methode der kleinsten Quadrate von C.F. Gauß. Eine Gerade im x-y-Koordinatensystem hat die analytische Form y = y(x) = dx + k. Der Koeffizient d stellt die STEIGUNG der Geraden dar, und k=y(0) ist der ACHSENABSCHNITT. Damit haben wir gleichzeitig die Namen zweier Tabellenfunktionen in Excel genannt, die uns die Koeffizienten der Regressionsgeraden bequem liefern (vgl. Abb. 16.2): Im ersten Argument der Funktionen muß jeweils der Bereich, in dem sich die y-Werte
238
16. Einführung in die Regressionsanalyse
der Stichprobe befinden, angegeben werden (in der gezeigten Excel-Tabelle ist dies der Bereich E18:E32); das zweite Argument bezieht sich auf die x-Werte. Die Lösung lautet: y(x) = 0,8228 • x - 74,5754 [kg]. Nachdem die Regressionsgerade bekannt ist, kann man für jeden Stichprobenpunkt (x^y,) dessen y-Koordinate mit dem Funktionswert y(X|) auf der Geraden vergleichen: ei := Yi - y(Xj) = y, - (0,8228x; - 74,5754) [kg]. Ein positives (negatives) Residuum e; zeigt an, daß sich der Stichprobenpunkt oberhalb (unterhalb) der Regressionsgeraden befindet; ganz selten wird ein Punkt genau auf der Geraden liegen und das Residuum 0 besitzen. In Abb. 16.3 findet man die Residuen in Form von Strecken eingezeichnet.
Datei
Bearbeiten
Microsoft E x c e l - R E G R E S S . X L S Ansicht Einfügen Format E x t r a s Daten
Fenster
?
=STEIGUMG(E18:H32;C18:C32)
empirische Regressionsgerade Steigung d
y = 0 3228x - 74 ,575
xhsenaJb schnitt k =
0,822804 | -74,5754
Residuen
y(xj)=dxi+k 61,18717 75,99763 72,70642 77,64324 71,06081 61,18717
.vi-.vUi) 1,1871668 2,9976308 0,7064166 0*432379 -30608095 1,8128332
Abb. 16.2
16.1.2 Satz Für die nach der Methode der kleinsten Quadrate ermittelten Koeffizienten der Regressionsgeraden y=dx+k gilt: •B Sxjyj-nxy d = -E~—
und
k = y-dx.
empirischen
16. Einführung in die Regressionsanalyse
239
16.1.3 Übungen und Ergänzungen a) Die Gerade fügt sich in die Punktwolke um so besser ein, je kleiner die Beträge (oder Quadrate) der Residuen ausfallen. Die Steigung d und der Achsenabschnitt k werden nach der Methode von Gauß deshalb so bestimmt, daß die Summe n
ji
q(d,k): = £ ( y i - y( X i )) 2 = £ ( y i - (dxj + k)) 2 i=i ¡=i der Abstandsquadrate minimal wird. Hierzu sind die beiden partiellen Ableitungen der Funktion q zu bilden und mit 0 gleichzusetzen: ^q(d,k) = -2.Xxi(yi-dxi-k) i=l
L o,
£q(d,k) = - 2 - i ( y i - d x i - k ) i=l
=0.
Zeigen Sie. daß man durch Umformung auf das Gleichungssystem n
I
n
d'Sx? i=l
+ k-nx
= Zxj;,
d-x
+ k
i = y.
i=l
für die beiden Unbekannten d und k gefuhrt wird. Verifizieren Sie auch die im Satz 16.1.2 angegebene (eindeutige) Lösung. Hat man damit wirklich ein Minimum der Funktion q(d,k) gefunden?
Residuen y r y(x:)
Abb. 16.3 b) Erstellen Sie im Tabellenblatt REGRESSIONSGERADE der Arbeitsmappe REGRESS.XLS ein Diagramm der Punktwolke, wie in Abb. 16.2 zu sehen. Die Regressionsgerade läßt sich sehr einfach einzeichnen: Aktivieren Sie das Diagramm, markieren Sie durch einen Mausklick die Datenpunkte und wählen Sie Einfügen-Trendlinie. Geben Sie als Typ der Reg r e s s i o n Linear a n ; w e n n S i e z u s ä t z l i c h d i e Option-Formel im Diagramm darstellen w ä h -
len, wird die analytische Darstellung der Regressionsgeraden automatisch eingeblendet. c) Da die Regressionsgerade aus recht wenigen zufällig ermittelten Stichprobenwerten berechnet wurde, ist es zweifelhaft, ob sie den „wahren" Zusammenhang zwischen Körper-
240
16. Einführung in die Regressionsanalyse
großen und -gewichten widerspiegelt. Nehmen wir aber für den Moment an, die Stichprobe sei ungleich größer; dann wird das Durchschnittsgewicht erwachsener Personen der Körpergröße x ungefähr mit dem Funktionswert y(x) der Geraden übereinstimmen. Man kann also beispielsweise „hochrechnen", wieviel eine 2m große Person idealerweise wiegt: y(200) = 0,8228 • 200-75,5754 « 89,985 [kg]. Verwenden Sie die Excel-Tabellenfunktion SCHÄTZER(x-Wert;El 8:E32;C18:C32), um auch für andere Werte von x derartige Prognosen zu stellen. Die Bereichsangaben im zweiten und dritten Argument beziehen sich natürlich wieder auf die Abb. 16.1. d) Warum liefert SCHÄTZER zum Eingabewert x den Vorhersagewert y ? Besser gefragt: Warum liegt der Punkt ( x , y ) bei beliebiger Stichprobe stets auf der Regressionsgeraden? e) Man kann die Methode der kleinsten Quadrate auch auf Datenreihen der in Abb. 16.4 gezeigten Art anwenden: Die Werte von Xj sind aufeinanderfolgende Zeitpunkte, also keine Zufallswerte. Wir können uns das Beispiel so vorstellen, daß hier die Umsätze eines Betriebes [10.000 DM] pro Quartal aufgeführt werden; die Quartale wurden von 1 bis 15 durchnumeriert. Zu jedem Wert x, gibt es in einer solchen Zeitreihe genau einen (Funktions-)Wert y,. Daher kann man im Diagramm der „Punktwolke" je zwei aufeinanderfolgende Stichprobenpunkte durch eine Linie verbinden und erhält so eine vor allem bei der Aufbereitung von Wirtschaftsdaten übliche Darstellung. In diesem Zusammenhang spricht man auch meist von einem Trend anstatt von einer Regressionsgeraden. Offensichtlich sind die Umsätze des Betriebes saisonalen Schwankungen unterworfen: Im Winter (Quartale 1,5,9,...) liegen die Tiefpunkte; am besten floriert das Geschäft im Sommer (Quartale 3,7,11,...). Die Trendgerade „glättet" das Zeitreihenpolygon in radikaler Weise.
Datei
Bearbeiten
Ansicht Einfügen Format Extras I {=TRENDÇE18:E32,C18:C32;C18:C33)} Umsatz .Vi
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 L
25 49 125 48 26 75 148 53 24 78 153 101 28 65 198
Regressionsgeiade yarque^2/i;n-l)/vM_x)
M = 0,767407 i 2,160368 = k„ e [ -117,998 , -31,1528 1 = HO kann nicht abgelehnt werden
r r r r
Stichprobenumfang n = 15 empirischer Ajchsenahschnitt k = -74,5754 Varianz der x-Werte s, 2 = 48,2381 Standardabweichiuig von der Regressionsgeraden S = 2,993953 Staadard&Mer der Schätzung st = |20,0996~ Ach.e,.-b«chni» j wmmmmmmmmsk ^ ^ ^ t s m :
16.2.3 Beispiel 1 Ein Test für den Achsenabschnitt K der Regressionsgeraden verläuft ganz ähnlich wie der für die Steigung im Beispiel 16.2.1. Wir betrachten das Hypothesenpaar H 0 : K = - 9 0 [kg]
und
H,: K * - 9 0 [kg].
Auch hier müssen wir voraussetzen: Die Zufallsvariablen Y(x), x e IR, sind normalverteilt und besitzen alle die gleiche (unbekannte) Varianz a ^ . Die Mittelwerte hingegen hängen in linearer Weise von x ab: HY(X> = 6x + K; die Parameter S und K sind hierbei unbekannt. Der Test soll ebenfalls zum Signifikanzniveau a 0 =0,05 durchgeführt werden. 2
An die Stelle von s d tritt jetzt der Standardfehler sk zur Normierung der Prüfgröße v:
16. Einführung in die Regressionsanalyse
245
W i e man den Schätzwert s k ableitet, brauchen wir auch hier nicht zu w i s s e n ; wichtig ist nur die B e r e c h n u n g s v o r s c h r i f t : I , x Sl = S „re„ • , h r + 6 V" (n-l)s?D i e Standardabweichung s r c g haben wir schon kennengelernt. In A b b . 1 6 . 6 sieht m a n , d a ß für s k ein W e r t von ca. 2 0 , 1 [kg] berechnet wurde. Auch hier ist die Prüfgröße v die Realisierung einer Zufallsvariablen, die t n . 2 -verteilt ist,
3
falls die Nullhypothese richtig ist. D e r kritische W e r t c wird also wieder aus der G l e i c h u n g t n . 2 ( c ) = 1 - ^ = 0,975 b e s t i m m t und lautet c = 2 , 1 6 0 .
4
Für F i die Prüfgröße erhalten wir k-Kp
V=
=
-74,5754+90 . _ 20J = °'767'
D i e Nullhypothese kann nicht abgelehnt werden. D a s Konfidenzintervall für k zur Konfidenzzahl y = l - a 0 = 0 , 9 5 lautet (in kg): i0
= [ k - c - s k ,k + c s k ] ~ [ - 1 1 8 , - 3 1 ] .
95
D e r in der Nullhypothese vorgeschlagene W e r t k 0 = - 9 0 liegt in diesem Intervall, w e i t v o n dessen G r e n z e n entfernt.
Datei
Bearbeiten
Microsoft Excel - REGRESS.XLS Ansicht Einfügen Format Extras Daten
Fenster
?
ftllSMl ^psiraraïifitii ^Jjiooz
Funktions Assistent
Schritt 2 von 2
RGP
Weit: KO.B22803553800S02
Liefert die Parameter einesfrwsrenTrends.
C
Statt (optional; ist ein Wahrheitswert, der angibt, ob weitete Regressionskermgrößen ausgegeben weiden solen. Y_Wwte[gjRegre«ionjgerade!y X_Werte(Jj j R egr etsionsgerade! x Konstantef3l Stats[£|f7 j j Ï K
| [Âbbtechanl [ x und y, > y gilt, und das ist bei dieser Stichprobe der Fall: Teilt man die Ebene, wie in der Abbildung zu sehen, durch die Geraden x=x und y=y in vier Teile ein, so befindet sich die große Mehrzahl der Datenpunkte in den Quadranten I („links unten") und III („rechts oben"). Offenbar hängt das auch damit zusammen, daß die Regressionsgerade eine positive Steigung hat und durch die genannten Quadranten verläuft.
oder
x, < x und y t < y
•
IV
•
*w
• •
•
•
•
•
III • •
• • •
I 160
.
II 170
m
180
Abb. 17.2
Einem Korrelationskoeffizienten von nahezu 0 im Falle a) steht ein solcher mit einem Wert von ca. 0,9 gegenüber. Die „konfuse" Punktwolke, in der die Stichprobenpunkte über alle 4 Quadranten verteilt sind (vgl. Abb. 17.1), steht im Gegensatz zu der, die sich ganz gut durch eine steigende (Regressions-)Gerade repräsentieren läßt. Der nachfolgende Satz bestätigt den „Verdacht", den wir nun hegen.
1
K. Pearson, 1 8 5 7 - 1 9 3 6
257
17. Einführung in die Korrelationsanalyse
17.1.2 Definition Bs sei ((x l s y,),(x 2 ,y 2 ),
,(x n ,y n )) eine zweidimensionale Stichprobe. Die reelle Zahl n
s„v
-x)(y, - y )
ms&mf
i=i
heißt empirische Kovarianz. r
xy
=
sSxy xsy
ist der empirische Korrelationskoeffizient.
17.1.3 Satz Für den empirischen Korrelationskoeffizienten rxy gilt:
Es ist r xy =± 1 genau dann, wenn alle Stichprobenpunkte (Xj.yj) auf einer Geraden liegen. Für die Steigung der empirischen Regressionsgeraden gilt in jedem Falle:
17.1.4 Übungen und Ergänzungen a) Die empirische Kovarianz sxy kann beliebige Werte annehmen. Die Divison durch sx-sy bewirkt eine Normierung auf das Intervall [-1,1], und das war die Idee bei der Definition des Korrelationskoeffizienten rxy. (Der Beweis für die ersten beiden Aussagen des Satzes 17.1.3 ist nicht schwierig; wir lassen ihn dennoch beiseite.) b) Rechnen Sie nach: n
n
n
n
(n - 1) • s 2 = X ( x i - x ) 2 = X x ? - 2 x - X x i + nx 2 = i=l i=l i=l ¡=1
-nx2.
Analog erhält man durch Ausmultiplizieren: n
(n-l)-sxy =Xx|yi -nxy. ¡=i Folgern Sie daraus und mit Satz 16.1.2 die Aussage über die Beziehung zwischen der Regressionssteigung d und dem Korrelationskoeffizienten rxy. c) Die Regressionsgerade ist also genau dann steigend, wenn der Korrelationskoeffizient rxy größer als Null, und fallend, wenn rxy negativ ist. Je näher rxy bei 1 oder -1 liegt, desto näher liegen die Stichprobenpunkte zur Regressionsgeraden. Der empirische Korrelationskoeffizient ist somit ein Indikator für den linearen Zusammenhang zwischen den x- und yWerten der Datenpunkte. Wenn die Stichprobe groß ist, wird rxy wohl auch den Grad, in dem das Merkmal Y vom Merkmal X linear abhängt, einigermaßen exakt widerspiegeln.
258
17. Einführung in die Korrelationsanalyse
d) Es haben sich folgende Sprechweisen eingebürgert: Liegt rxy nahe bei 0, sagt man, die Stichprobenwerte seien (nahezu) unkorreliert. Das bedeutet: Es liegt keine erkennbare lineare Abhängigkeit vor. (Vielleicht gibt es aber einen anders gearteten funktionalen Zusammenhang?) Eine starke (positive bzw. negative) Korrelation liegt vor, wenn r xy «l bzw. r x y « - l . Daneben sind nicht fest abgrenzbare Begriffe wie schwach korreliert oder mittlere Korrelation üblich. e) In der Korrelationsanalyse werden die beiden Merkmale X und Y gleichberechtigt behandelt. Dies drückt sich beispielsweise darin aus, daß r xy eine bezüglich x und y symmetrische Größe ist. Im Gegensatz dazu haben wir in der Regressionsanalyse das Merkmal X als unabhängige Einflußgröße betrachtet, von der Y in funktionaler Weise abhängt. f) Konstruieren Sie im Blatt K O R R E L A T I O N S K O E F F I Z I E N T der Arbeitsmappe K O R R E L A T . X L S Beispiele für stark negativ korrelierte Stichproben und für solche mittlerer Korrelation. Lassen Sie sich jeweils die zugehörige Regressionsgerade berechnen und skizzieren. g) Excel stellt folgende Standardfunktionen im Zusammenhang mit dem Korrelationskoeffizienten zur Verfügung: KOVAR, KORREL und PEARSON. Leider hat man nicht beachtet, daß die Summe, durch die die empirische Kovarianz definiert wird, nur n-1 Freiheitsgrade hat: Für kleine Stichprobenumfänge muß man deswegen bei Verwendung der Funktion KOVAR eine Korrektur mit dem Faktor ^ y vornehmen. Gibt es einen Unterschied zwischen den Funktionen KORREL und PEARSON? Nehmen Sie die Texte der Online-Hilfe zu allen drei Funktionen kritisch unter die Lupe. Beachten Sie dabei, auch im Lichte der nachfolgenden Definition, daß wir stets Kenngrößen einer Stichprobe von solchen der Grundgesamtheit zu unterscheiden haben.
17.1.5 Definition Es seien X und Y zwei Merkmale mit den Erwartungswerten n x bzw. abweichungen o x bzw. Oy. Die reelle Zahl Oxy = E ( ( X - h x X Y - H v ) > heißt Kovarianz der Zufallsvariablen X und Y. P
~ 0 t e s t e n ?
| Datei v
Bearbeiten M
Ansicht Einfügen Format Extras | 'WURZELCn-^^r^/WURZEm-^xy^Z)
Daten
fenster
?
Nullhjpothese Ho: p - 0 Alternative Hi: p * 0 Signifikanzniveaii a 0 = 0,01 Stichprobeniuaiajig n = 15 empir. & m M m b » I M n t r >y = -0,00202 |v| = 0,007285 < 3,012283 = c Unabhängigkeit kann nicht ausgeschlossen werden
0,007285
kritischer Wert c = 3,012283 B H k Unabhangigkeitrtett
SO,
262
17. Einführung in die Korrelationsanalyse
Statistisches Verfahren XVII Test auf Unabhängigkeit zweier meßbarer Merkmale
Merkmal (X,Y) zweidimensional normalverteilt
Getestet werden die Hypothesen Ho: p = 0
und
H,:p^0.
Wähle eine Signifikanzzahl a 0 .
2
3
Erhebe eine unabhängige zweidimensionale Stichprobe vom Umfang n. Bestimme den empirischen Korrelationskoeffizienten r xy . Ermittle den kritischen Wert c als Lösung der Gleichung t„_ 2 (c) = l - f .
4
Berechne die Prüfgröße v =
rA
Lehne Ho ab, falls |v|>c.
17.3 Prüfverfahren für den Korrelationskoeffizienten 17.3.1 Beispiel 1 Wendet man den Test des vorangegangenen Abschnitts auf das Beispiel 16.1.1 an, fragt man also nach der Unabhängigkeit der Körpergröße X und des Körpergewichts Y, so wird die Hypothese p = 0 auf sehr kleinem Signifikanzniveau abgelehnt werden. Sicherlich wird man angesichts des vorliegenden Datenmaterials viel eher eine mittlere bis starke positive Korrelation der Merkmale vermuten. Wir testen die Hypothesen H 0 : p = 0,8
und
H,: p*0,8.
Auch für diesen Test benötigen wir als Voraussetzung, daß das Merkmalspaar (X,Y) eine zweidimensionale Normalverteilung besitzt. Das Signifikanzniveau des Tests sei a 0 =0,05. Wir wollen gleichzeitig auch ein Konfidenzintervall für p bestimmen; die Konfidenzzahl sei y=l-a 0 =0,95. 2
Die Stichprobe aus Abb. 16.1 können wir nicht verwenden: Ihr Umfang ist zu klein. Das durchzuführende Verfahren basiert nämlich auf einer Verteilungsaussage, die nur für großes n Gültigkeit hat.
17. Einführung in die Korrelationsanalyse
263
Wir nehmen an, der Stichprobenumfang betrage n=100, und es sei die empirische Korrelation rxy=0,85 festgestellt worden. Von R.A. Fisher stammt das folgende weitere Vorgehen (vgl. Abb. 17.5): Auf rxy wird die trigonometrische Funktion ARCTANHYP angewendet 1 : z(r xy ):= arctanh(r xy ) = 1,2562. Dieser Vorgang ist auch als Fishersche Z-Transformation bekannt. Von ARCTANHYP müssen wir nur wissen, daß es sich dabei um die Umkehrabbildung der sogenannten Hyperbelfunktion TANHYP („Tangens hyperbolicus") handelt. Auch die Zahl p0=0,8, und das ist etwas Neues, unterwerfen wir der Z-Transformation: z(p 0 ) = arctanh(0,8) = 1,0986. Die Prüfgröße v lautet v=
z(rxy)~z(Po) 1/
•Tn^i
und wir werden H 0 ablehnen, wenn sich herausstellen sollte, daß |v| zu groß ist. 3 R.A. Fisher hat gezeigt: Wenn die Nullhypothese richtig ist, so ist die Teststatistik V für großes n näherungsweise standardnormalverteilt. Das bedeutet, daß der kritische Wert c sich approximativ als Lösung der Gleichung