194 94 7MB
German Pages 154 [152] Year 1995
Grundlagen statistischer Methoden Von
Dr. Bernd Leiner Professor für Statistik an der Universität Heidelberg
R. Oldenbourg Verlag München Wien
Die Deutsche Bibliothek - CIP-Einheitsaufnahme Leiner, Bernd: Grundlagen statistischer Methoden / von Bernd Leiner. München ; Wien : Oldenbourg, 1995 ISBN 3-486-23190-1
© 1995 R. Oldenbourg Verlag GmbH, München Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitimg in elektronischen Systemen. Gesamtherstellung: Grafik + Druck, München
ISBN 3-486-23190-1
Inhaltsverzeichnis Seite Vorwort
VII
§1. Diskrete Verteilungen 1.1. Die Null-Eins-Verteilung 1.2. Die Binomialverteilung 1.3. Die Poissonverteilung 1.4. Die geometrische Verteilung 1.5. Die hypergeometrische Verteilung 1.6. Die Polyaverteilung 1.7. Die negative Binomialverteilung 1.8. Die Polynomialverteilung 1.9. Die polyhypergeometrische Verteilung 1.10. Die diskrete Gleichverteilung
1 1 3 5 8 9 13 15 17 20 21
§2. Wahrscheinlichkeitserzeugende Funktionen 2.1. Erzeugende Funktionen 2.2. Wahrscheinlichkeitserzeugende Funktionen 2.2.1. Allgemeines 2.2.2. Bestimmung des Erwartungswerts 2.2.3. Bestimmung der Varianz 2.2.4. WEF für Summen unabhängiger Zufallsvariablen 2.2.5. WEF einzelner Verteilungen 2.2.5.1. Die WEF der Null-Eins-Verteilung 2.2.5.2. Die WEF der Binomialverteilung.. 2.2.5.3. Die WEF der Poissonverteilung... 2.2.5.4. Die WEF der geometrischen Verteilung 2.2.5.5. Die WEF der negativen Binomialverteilung
24 24 27 27 28 28 29 31 31 31 32 33 35
§3. Stetige Verteilungen 3.1. Die stetige Gleichverteilung 3.2. Die Normalverteilung 3.3. Die Gammaverteilung 3.4. Die Chi-Quadrat-Verteilung 3.4.1. Quadrierte Zufallsvariablen 3.4.2. Zur Bestimmung der Chi-Quadrat-Verteilung 3.5. Die Betaverteilung 3.6. Die F-Verteilung 3.6.1. Verhältnis zweier Zufallsvariablen 3.6.2. Herleitung der Dichtefunktion der F-Verteilung 3.7. Die t-Verteilung
36 36 39 42 44 44 46 48 49 49
§4. Markoff-Ketten 4.1. Allgemeines 4.2. Klassifikation von Markoff-Ketten 4.3. Markoff-Prognosen
56 56 67 70
50 53
VI
Inhaltsverzeichnis
§5. Multivariate Verteilungen 5.1. Bivariate Verteilungen 5.1.1. Verteilungen zweier diskreter Zufallsvariablen 5.1.2. Verteilungen zweier stetiger Zufallsvariablen 5.1.3. Eigenschaften der bivariaten Verteilungsfunktion 5.2. Der n-dimensionale Fall 5.2.1. Eigenschaften der multivariaten Verteilungsfunktion 5.2.2. Transformationen von Zufallsvariablen.... 5.2.3. Die Varianz-Kovarianz-Matrix 5.2.4. Die n-dimensionale Normalverteilung
72 72 72 75 77 78 78 79 81 83
§6. Konvergenzbegriffe 6.1. Sichere Konvergenz 6.2. Stochastische Konvergenz 6.3. Konvergenz im quadratischen Mittel 6.4. Konvergenz in Verteilung
90 90 90 91 92
§7. Betrachtungen zur statistischen Inferenz 7.1. Das Gesetz der großen Zahlen 7.2. Der zentrale Grenzwertsatz
93 93 94
§8. Schätztheorie 8.1. Einführung 8.2. Die Methode der kleinsten Quadrate 8.3. Die Maximum Likelihood-Methode 8.4. Die homogen lineare Regression 8.5. Die lineare Einfachregression 8.6. Die lineare Mehrfachregression 8.7. Schätzkriterien 8.7.1. Erwartungstreue 8.7.2. Effizienz 8.7.3. Konsistenz 8.7.4. Suffizienz 8.8. Konfidenzintervalle
98 98 99 101 102 105 108 113 113 114 115 115 116
§9. Testtheorie 9.1. Allgemeines 9.2. Die Gütefunktion 9.3. Beispiele von Hypothesentests 9.3.1. Der Durbin-Watson-Test 9.3.2. Prüfung der Parameter der linearen Einfachregression 9.3.2.1. Prüfung des Regressionsparameters b 9.3.2.2. Prüfung des absoluten Gliedes a 9.3.3. Prüfung eines Korrelationskoeffizienten..
119 119 120 122 122
§10. Zusammenfassung
128
Lösung der Übungsaufgaben
13 0
Literaturverzeichnis
141
Sachverzeichnis
14 3
125 125 12 6 127
Vorwort Für viele statistische Anwendungen ist ein Hintergrundwissen unentbehrlich, das eine zuverlässige Beurteilung der durchgeführten Berechnungen gestattet. In diesem Buch sind grundlegende Zusammenhänge dieser Art herausgearbeitet worden. Das Buch basiert auf den Erfahrungen, die der Autor mit entsprechenden Lehrveranstaltungen für Fortgeschrittene an der Universität Heidelberg seit dem Sommersemester 1976 machen konnte. Vorausgesetzt wird lediglich das Anfänger-Wissen in Statistik aus dem Grundstudium, das in der Einführung in die Statistik des Autors im gleichen Verlag wiedergegeben ist. Wenn der Autor im Grundstudium von den Heidelberger Studentinnen und Studenten so gut bewertet wurde, daß er in einer bundesweiten Beurteilung von 161 Professoren der Wirtschaftswissenschaften auf Rang 7 kam (und das als Statistiker), so ist es verständlich, daß dieses Buch ihnen gewidmet ist. Es soll diejenigen, die den Weg zur Statistik im Grundstudium gefunden haben, auch im Hauptstudium begleiten und ihnen als Repetitorium die Examensvorbereitung erleichtern. Wer mehr über dieses Buch erfahren möchte, sei verwiesen auf die subjektive Wertung des Buches durch den Autor in der Zusammenfassung (S. 128-129). Auch an anderen deutschen Universitäten sind derartige Grundlagenveranstaltungen der Statistik üblich, die den Übergang zu den statistischen Spezialgebieten erleichtern sollen. So ist zu hoffen, daß dieses Buch so angenommen wird wie die bereits existierenden Lehrbücher des Autors im R. Oldenbourg Verlag.
Bernd Leiner
§1. Diskrete Verteilungen
Zunächst werden wir diskrete Verteilungen betrachten, d.h. Verteilungen von diskreten Zufallsvariablen. Der Begriff der Zufallsvariablen wird als bekannt vorausgesetzt. Wer sich mit diesen grundlegenden Begriffen noch einmal intensiver beschäftigen möchte, findet entsprechende Ausführungen in meiner im gleichen Verlag mittlerweile in der 6. Auflage erschienenen Einführung in die Statistik. Es ist das Anliegen des vorliegenden Buches, fortgeschrittene Zusammenhänge straffer zu präsentieren. Die diskreten Zufallsvariablen eignen sich besonders für das Verständnis ökonomischer Zusammenhänge, da bekanntlich in den Wirtschaftswissenschaften Daten nur in diskreter Form anfallen. Eine kontinuierliche Beobachtung ökonomischer Phänomene (vergleichbar mit der ständigen Beobachtung naturwissenschaftlicher Experimente) scheitert an den mit derartigen Beobachtungen verbundenen enormen Kosten. So sind etwa die Kosten einer alle 10 Jahre durchzuführenden Volkszählung in der Bundesrepublik Deutschland mit rd. einer Milliarde DM zu veranschlagen. Selbst die jährlich durchgeführte Stichprobenerhebung im Rahmen des Mikrozensus verursacht Kosten in Höhe von mehreren Millionen DM. Auch die meisten makroökonomischen Daten werden aus Kostengründen nur jährlich erhoben. Geht man davon aus, daß viele dieser ökonomischen Erscheinungen sich zumindest partiell auf Zufallsvorgänge zurückführen lassen, so lohnt sich eine intensivere Betrachtung von Verteilungsmodellen.
1.1. Die Null-Eins-Verteilung
Die Null-Eins-Verteilung ist die einfachste diskrete Verteilung. Sie basiert auf einer bimodalen Zufallsvariablen X, d.h. auf einer Zufallsvariablen, die nur zwei Modalitäten annehmen kann. Die beiden Modalitäten wollen wir nun mit erfolg bezeichnen. Tritt in einem Versuch nimmt unsere Indikatorvariable X den Wert Endet der Versuch mit einem Mißerfolg, so variable X den Wert 0 an, d.h. X=0.
Erfolg und Mißein Erfolg ein, so 1 an, d.h. X=l. nimmt die Indikator-
In dieser Null-Eins-Verteilung wollen wir die Wahrscheinlichkeit, daß sich ein Erfolg realisiert, mit p bezeichnen. Somit gilt für die Wahrscheinlichkeit W, daß unsere Zufallsvariable X den Wert 1 annimmt: (1.1.1)
W(X=1) = p.
p bezeichnet man auch als Bernoul1iparameter zu Ehren von Jakob Bernoulli(1654 - 1705), der sich in seinem Buch Ars conjectandi (posthum 1713 erschienen) bereits mit dieser Verteilungssituation befaßt hatte. Ein Mißerfolg realisiert sich demnach mit der komplementären
2
§1. Diskrete Verteilungen
Wahrscheinlichkeit, die wir mit q bezeichnen wollen, d.h. (1.1.2)
W(X=0) = 1-p = q.
Damit ist die Verteilungssituation hinreichend beschrieben. Für den Erwartungswert unserer Zufallsvariablen X führt die Gewichtung der beiden Modalitäten mit ihren Wahrscheinlichkeiten zu folgendem Resultat (1.1.3)
E (X) = l
p+O
q = p.
Der Erwartungswert einer null-eins-verteilten Zufallsvariablen X ist also der Bernoulliparameter p. Was bedeutet das? Unsere Indikatorvariable X ist gewissermaßen auf Erfolg getrimmt, denn den Erfolg bewertet sie mit der Eins, während sie dem Mißerfolg nur die Null zuordnet. Es ist daher bei der Berechnung des Erwartungswerts egal, wie groß die Mißerfolgswahrscheinlichkeit q ist. Umgekehrt führt eine hohe Erfolgswahrscheinlichkeit zu einem höheren Erwartungswert als eine niedrige Erfolgswahrscheinlichkeit. Wegen 0 s p ^ 1 erhalten wir also auch für den Erwartungswert 0 s E(X)
= (ot + ß)n .
2.2. Wahrscheinlichkeitserzeugende Funktionen 2.2.1. Allgemeines Eine erzeugende Funktion heißt wahrscheinlichkeitserzeuqende Funktion, wenn die Elemente der Folge aj (j=0, 1, 2, ...) Wahrscheinlichkeiten sind. In Wahrscheinlichkeitserzeugenden Funktionen bezeichnen wir die Elemente der Folgen dann mit pj (j=0, 1, 2, ...) und bemerken, daß dann für die Elemente der Folge gilt,daß 00
(2.2.1)
0 £ Pj £ 1
und
z Pj = 1. j=0
Definition; Für die Folge der Wahrscheinlichkeiten Po » PI » P2 , ... einer Wahrscheinlichkeitsverteilung ist 00
(2.2.2)
W(t) =
I j=0
Pj • t D
die wahrscheinlichkeitserzeuqende Funktion (WEF). An der Stelle t=l ist die Konvergenz gesichert, da man durch Einsetzen wegen (2.2.1) erhält W(l) = 1.
28
§2- Wahrscheinlichkeitserzeugende
Funktionen
Gleichung (2.2.2) bedeutet, daß W(t) = Eft 3 ) = E(t X ), denn für unsere ganzzahlige Zufallsvariable gilt X=j mit j=0, 1,
2.2.2. Bestimmung des Erwartungswerts Wie anfangs angemerkt wurde, kann man mit der WEF einer ganzzahligen Zufallsvariablen die Momente der Verteilung dieser Zufallsvariablen bestimmen. Wir beginnen mit der Bestimmung des Erwartungswerts der ganzzahligen Zufallsvariablen X. Den Erwartungswert E(X) erhalten wir durch die 1. Ableitung der WEF W(t) der Zufallsvariablen X an der Stelle t=l, d.h. (2.2.3)
E(X) = W ( l ) (1) .
So ergibt die 1. Ableitung (2.2.4)
(t) =
d
fc
der WEF (2.2.2) bezüglich t
=
I
pj • j • t 3
X
.
Damit erhalten wir an der Stelle t=l der WEF W ( , ) (1) =
Z Pj • j j=0
= E (X) ,
denn für die ganzzahlige Zufallsvariable X mit xj = j ist genau so der Erwartungswert definiert (für j=0 ist der Summand wegen dieses Faktors gleich Null).
2.2.3. Bestimmung der Varianz Die 2. Ableitung von W(t) bezüglich t ergibt (2.2.5)
W ( , ) (t) =
Z pj • j • (j-1) • t j ~ 2 , j=2
denn für j=0 und j=l sind die Summanden gleich Null, da Null als Faktor vorkommt. An der Stelle t=l gilt dann für die WEF W (2> (1) = so daß
Z Pj • j • (j-1) , j=0
§2. Wahrscheinlichkeitserzeugende Funktionen
W ( j ) (1)
2
Z j=0
Pj • (j
.Z j=0
pj • j 2
29
- j)
Z j=o
Pj • j
u n d wir damit erhalten
(2.2.6)
(1)
E(X 2 )
E(X) .
Demnach liefert die zweite Ableitung der W E F a n der Stelle t=l die Differenz zwischen dem 2. und dem 1. gewöhnlichen Moment. Lösen w i r nach dem 2. gewöhnlichen M o m e n t auf, so erhalten wir (2.2.7)
E(X 2 ) =
W ( 2 ) (1)
W(,)(l)
+
w e g e n (2.2.3) . M i t der Zerlegungsregel der Varianz (2.2.8)
V(X) = E(X 2 ) - [E(X)]2
können w i r die Varianz einer ganzzahligen bestimmen m i t der Formel (2.2.9)
Zufallsvariablen
V(X) = W ^ (1) + W* 1 ' (1) - [ W ^ ( l ) ] 2 ,
wobei (2.2.7) u n d (2.2.3) verwendet wurden.
2.2.4. W E F für Summen unabhängiger
Zufallsvariablen
Satz 2.1; Für die W E F der Summe zweier unabhängiger g a n z zahliger Zufallsvariablen Xi und X2 gilt, da a u c h die Summe Y = X! + X2 eine Zufallsvariable ist, daß (2.2.10)
W ( Y ) (t) = W ( X P (t) • W
(
V (t)
30
§2. Wahrscheinlichkeitserzeugende
Funktionen
Beweis: W ( Y ) ( t ) = E ( t Y ) = E(t X l
+
*2)
= E(t X l • t*2)
(Potenzregel)
E(t X l) • E f A ) (t) • W ( X 2*(t),
=
wobei die Abkürzung u.a. steht für den Fall der Unabhängigkeit, in dem der Erwartungswert des Produkts zweier Zufallsvariablen gleich dem Produkt der Erwartungswerte dieser Zufallsvariablen ist. Die verwendeten Funktionen von Zufallsvariablen sind ebenfalls Zufallsvariablen. •
Allgemein gilt dann im n-variaten Fall: Satz 2.2: Für die WEF der Summe Y von n unabhängigen ganzzahligen Zufallsvariablen Xi , X2 , .. . , X n gilt (2.2.11) W ( Y ) ( t )
=
n i=l
W(Xi*(t).
Das bedeutet also, daß die WEF einer Summe von n unabhängig verteilten Zufallsvariablen gleich dem Produkt der wahrscheinlichkeitserzeugenden Funktionen dieser Zufallsvariablen ist. Beweis: Analog zum Beweis von Satz 2.1.
Satz 2.3: Für die WEF der Summe Y von n unabhängig und identisch verteilten Zufallsvariablen Xi(i=l, ..., n) gilt (2.2.12)
W(Y)(t) =
[ W(Xi}(t) ] n .
Das bedeutet dann, daß die WEF einer Summe von n unabhängig und identisch verteilten Zufallsvariablen (engl, i.i.d. random variables) gleich der n-ten Potenz der WEF einer dieser Zufallsvariablen ist.
Beweis: Man mache sich im Beweis von Satz 2.1 klar, daß für n=2 die WEF von Y gleich dem Quadrat der WEF von X, ist, im allgemeinen Fall also die n-te Potenz der WEF von Xi ist. •
§2. Wahrscheinlichkeitserzeugende Funktionen
2.2.5. WEF einzelner
31
Verteilungen
Im f o l g e n d e n s o l l e n b e i s p i e l h a f t d i e w a h r s c h e i n l i c h k e i t s e r zeugenden Funktionen einiger Verteilungen betrachtet werden 2.2.5.1. Die WEF der
Null-Eins-Verteiluno
Die ganzzahlige Zufallsvariable X nimmt als Indikatorvaria b l e im F a l l e d e r N u l l - E i n s - V e r t e i l u n g d e n W e r t j=0 (Mißerfolg) m i t d e r W a h r s c h e i n l i c h k e i t po = q a n u n d d e n W e r t j = l (Erfolg) m i t d e r W a h r s c h e i n l i c h k e i t Pi = p. N a c h F o r m e l (2.2.2) e r h a l t e n w i r d a n n a l s W E F d e r N u l l - E i n s - V e r t e i l u n q ; (2.2.13) W(t) = q • t ° + p • t 1 = q + p •t .
Wegen
(2.2.3) e r h a l t e n w i r
(2.2.14)
E(X) = p,
d e n n d i e 1. A b l e i t u n g d e r W E F
ergibt
W ( , ) (t) = p, was natürlich auch an der Stelle p=l gilt. Da W ^ (t) = 0, e r h a l t e n w i r m i t liche Moment E(X2)
(2.2.15)
(2.2.7)
f ü r d a s 2.
= 0 + p = p
und daraus die Varianz m i t der Zerlegungsregel V(X) = E ( X 2 )
(2.2.16)
=
P - P
als
- [E(X)]2 2
= P • (1-P) = p •q .
2.2.5.2. Die WEF der
Binomialverteilunq
F ü r d i e B(n, p ) - v e r t e i l t e Z u f a l l s v a r i a b l e X g i l t X =
n I i=l
Xi ,
gewöhn-
32
§2. Wahrscheinlichkeitserzeugende
Funktionen
wobei die n Zufallsvariablen Xi identisch u n d unabhängig null-eins-verteilt sind. Wenden wir Satz 2.3 an, so erhalten w i r m i t (2.2.13) die W E F der Binomialverteilunq; (2.2.17)
W ( X ) ( t ) = (q + p t ) n .
Deren 1. Ableitung nach t W ( , ) (t) = n • p • (q + p t ) n _ 1 ergibt an der Stelle t=l wegen p + q = 1 nach (2.2.18)
(2.2.3)
E(X) = n • p .
Die 2. Ableitung v o n (2.2.17) nach t ergibt W ( 2 ) ( t ) = n • (n-1) • p 2 • ( q + p t ) n ~ 2 an der Stelle t=l W ( 2 ) (1) = n • (n-1) • p 2 , so daß wegen (2.2.7) für das 2. gewöhnliche Moment gilt (2.2.19)
E ( X 2 ) = n • (n-1) • p 2
+ n • p.
M i t der Zerlegungsregel der Varianz bestimmen wir daraus (2.2.20)
V(X) = n • (n-1) • p 2 + n • p - n 2 • p 2 = n • [ np 2 - p 2 + p - np 2 ] = n • p • (1-p) = n •p •q .
2.2.5.3 Die W E F d e r Poissonverteilunq Die Zufallsvariable X der Poissonverteilung nimmt die Werte j= 0, 1, 2, ... a n m i t Wahrscheinlichkeit
W ( k ; X)
j
= — •e j!
-X
Dies können w i r in Gleichung (2.2.2) einsetzen u n d erhalten die W E F der Poissonverteilung:
§2. Wahrscheinlichkeitserzeugende Funktionen
(2.2.21)
W(t) =
t3-
Z j=0 -X
= e
00
-X j!
•e
(Xt)3
• Z j=0
j!
x-t
-X = e
33
•e X(t-l)
= e
denn die letzte Summe stellt die Potenzreihenentwicklung der e-Funktion mit dem Exponenten Xt dar.
2.2.5.4. Die WEF der geometrischen Verteilung Wir verwenden in (1.4.1) die Sustitution n=j und beachten, daß die Wahrscheinlichkeit für n=j=0 Null ist. Dann erhalten wir die WEF der geometrischen Verteilung mit (2.2.22) W(t) =
00 Z j=l
. t 3 • p • qD
P oo - • I q j=l P q
(tq):
[tq + (tq)' + . . .)
= - • t-q q
•Z j=0
Pt (1 - tq) P 1 t
q
(tq)-
34
§2. Wahrscheinlichkeitserzeugende
Funktionen
D i e 1. A b l e i t u n g d e r W E F n a c h t e r g i b t w(i) ( t )
P
=
t2
• (
q)2
t
P (1-qt)2 so d a ß w i r a n d e r S t e l l e t=l w e g e n
1-q = p und
(2.2.3)
1 (2.2.23)
E(X) = P
erhalten. D i e 2. A b l e i t u n g d e r W E F e r g i b t 2pq (t) =
(1-qt)3
so d a ß a n d e r S t e l l e t=l g i l t 1
t
2 q
(1)
2
.
P Mit
(2.2.9)
(2.2.24)
erhalten wir direkt die Varianz
durch
2q 1 1 V(X) = — ++ - 2 — 2 P P P 2q + p - 1 P =
q +
2
(q+p) - 1 ^
q ~2
•
D a m i t s i n d d i e B e w e i s e für d i e F o r m e l n nachgeliefert worden.
(1.4.2) u n d
(1.4.3)
§2. Wahrscheinlichkeitserzeugende Funktionen
35
2.2.5.5. Die WEF der negativen Binomialverteilunq Für die negativ-binomialverteilte Zufallsvariable Y gilt V =
k Z i=l
Yi ,
wobei die k Zufallsvariablen Yi identisch und unabhängig geometrisch verteilt sind. Wenden wir Satz 2.3 an, so erhalten wir mit (2.2.22) die WEF der negativen Binomialverteilunq: (2.2.23)
W(t) = (
p
k )K .
1 t
q
ÜBUNGSAUFGABEN Aufgabe 8:
Bestimmen Sie die erzeugende Funktion der Folge 1, 2, 3, 4, ... .
Aufgabe 9s
Bestimmen Sie die erzeugende Funktion der Folge 0/ 1/ 2 ^ 3; «•• •
Aufgabe 10: Wie bestimmt man den Erwartungswert einer ganzzahligen Zufallsvariablen aus deren wahrscheinlichkeitserzeugenden Funktion? Aufgabe 11: Wie bestimmt man die Varianz einer ganzzahligen Zufallsvariablen aus deren Wahrscheinlichkeitserzeugenden Funktion? Aufgabe 12: Bestimmen Sie den Erwartungswert und die Varianz der Poissonverteilung aus deren Wahrscheinlichkeitserzeugenden Funktion (2.2.21). Aufgabe 13: Bestimmen Sie für die geometrische Verteilung deren Wahrscheinlichkeitserzeugende Funktion.
§3. Stetige Verteilungen
Damit wollen wir vorläufig die Betrachtung der Konzepte der diskreten Zufallsvariablen beenden und wenden uns den steti gen Wahrscheinlichkeitsmodellen zu. Für diskrete Zufallsvariablen waren nur an bestimmten Punkten der reellen Zahlenachse Realisationen möglich. Wir konnten direkt die Wahrscheinlichkeiten des Eintreffens dieser Realisationen mit den Wahrscheinlichkeitsverteilungen bestimmen. Dies ändert sich, wenn wir uns den stetigen Verteilungen zu wenden, d.h. den Verteilungsmodellen von stetigen Zufallsvariablen. Dies sind Zufallsvariablen, deren Realisationen reellwertig sind. Für eine stetige Verteilungen ist auf der gesamten reellen Achse eine Dichtefunktion definiert. Mit ihrer Hilfe lassen sich indirekt die Wahrscheinlichkeiten bestimmen, mit denen eine stetige Zufallsvariable auf der reellen Achse Werte annimmt.
3.1. Die stetige Gleichverteilung
Dies ist das einfachste Verteilungsmodell einer stetigen Zu fallsvariablen. Für die Dichtefunktion einer Zufallsvariablen X, die einer stetigen Gleichverteilung gehorcht, gelte 1 -— b-a 0
(3.1.1) f(x)
für a s x £ b sonst
Das bedeutet, daß für die Zufallsvariable X im Intervall [a, b] die Dichtefunktion f(x) positive Werte und außerhalb des Intervalls den Wert Null annimmt. Damit ist die erste Bedingung erfüllt, die für jede Dichtefunktion f(x) einer Zufallsvariablen X gelten muß, nämlich (3.1.2)
f(x) ä 0
für alle x e 9t.
Die zweite Bedingung, die für jede Dichtefunktion f(x) gelten muß, nämlich 00
(3.1.3)
I
f(X)dx = 1 ,
§3. Stetige
Verteilungen
37
ist für die stetige Gleichverteilung (3.1.3) offenkundig erfüllt, denn die mit diesem Integral zu berechnende Fläche unterhalb der Dichtefunktion ist b
1 ~b-a" d x
J
= [
x x=b b-a 1 x=a =
b-a b-a
= 1.
Die Dichtefunktion weist also über dem Intervall [a, b] einen konstanten Verlauf in Höhe von 1/(b-a) auf und das hierdurch über der x-Achse gebildete Rechteck mit den Begrenzungslinien x=a und x=b hat in der Tat nach der Rechtecksformel mit den Seiten b-a und l/(b-a) die Fläche 1. Beispiel: In meiner Einführung in die Statistik ((1992, S. 100) findet man das Beispiel einer 100 m langen Drachenschnur, die gespannt werden soll, bis sie reißt. Die Zufallsvariable X mißt an der Rißstelle die Realisation x. Die Dichtefunktion nimmt im Intervall 0 s x £ 100 den Wert 1/100 an und Null sonst. Das Beispiel steht also für a=0 und b=100. Durch Integration bezüglich x erhält man aus der Dichtefunktion f(x) die Verteilungsfunktion F(x), die angibt, wie groß die Wahrscheinlichkeit W ist, daß die Zufallsvariable X Werte annimmt, die x nicht übertreffen: (3.1.4) F(x) = W(X S x) =
J f(s) ds ,
wobei die Substitution x=s verwendet wurde, um eine Verwechslung der Integrationsvariablen mit der Obergrenze zu vermeiden. Aus der Dichtefunktion (3.1.1) der stetigen Gleichverteilung erhalten wir die Verteilungsfunktion
(3.1.5)
0 x-a b-a 1
F(x) =
für x < a für a £ x £ b für x > b,
denn im Intervall [a, b] erhält man durch Integration x
F(x) =
a
J
1 b-a
ds =
[
s s b-a
]
s=x s=x
x-a
s=a
b-a
Die Verteilungsfunktion F(x) steigt also linear an zwischen a und b mit Steigung 1/(b-a), denn als 1. Ableitung der Verteilungsfunktion F(x) ist die Dichtefunktion f(x) interpretierbar als Steigung der Verteilungsfunktion:
38
i-J. Stetige Verteilungen
(3.1.6)
f(x) =
d F (x) dx
Für den Erwartunaswert E(X) = n einer stetigen Zufallsvariablen X gilt: (3.1.7)
E(X) =
i x • f(x) dx ,
was im betrachteten Fall einer stetig-gleichverteilten Zufallsvariablen X bedeutet, daß (3.1.8)
E(X) =
a
b x x=b x2 I— dx = 1[ YTh^äT J1 b-a 2(b-a) x = a
b2
-
a2
2(b-a)
a+b 2
Für das 2. gewöhnliche Moment einer stetigen Zufallsvariablen X gilt (3.1.9)
9 E(X ) =
00
5 i yC • f(x) dx ,
was im Fall einer stetig-gleichverteilten Zufallsvariablen X bedeutet, daß *> x2 x=b b3 - a3 x3 (3.1.10) E(X 2 ) = I - r — dx = L[ T 7 T — r J] " = b-a 3(b-a) x=a 3(b-a) a b2 + ab + a
2
was man durch polynomiale Division bestätigen kann. Mit der Zerlegungsregel der Varianz erhalten wir dann die Varianz der stetig-gleichverteilten Zufallsvariablen X: (3.1.11)
V(X) = E(X 2 ) - [E(X)]2 b2 + ab + a2 3 b2 - 2 ab + a 2 12 =
(b-a)2 12
(a+b)2
39
§3. Stetige Verteilungen
A l l g e m e i n z e i g t es sich, daß für d a s k - t e g e w ö h n l i c h e einer stetigen Zufallsvariablen X (3.1.12)
00
v nk = E(X ) =
i
v x f(x) dx
gilt, w e n n d i e s e s t e t i g - g l e i c h v e r t e i l t (3.1.13)
mc =
bk+1 -
Moment
ist:
a*+l
(k+l).(b-a)
A u f g r u n d d e r S y m m e t r i e der s t e t i g e n G l e i c h v e r t e i l u n g u m d e n E r w a r t u n g s w e r t n g i l t für d i e z e n t r a l e n M o m e n t e : (3.1.14)
m k = EKX-n)*] = 0, w e n n k u n g e r a d e .
3.2. D i e N o r m a l v e r t e i l u n g Die N o r m a l v e r t e i l u n g ist v o n g r o ß e r p r a k t i s c h e r B e d e u t u n g , da v i e l e V e r t e i l u n g e n a s y m p t o t i s c h in d i e s e V e r t e i l u n g ü b e r gehen. So läßt s i c h z.B. die B i n o m i a l v e r t e i l u n g m i t ü b e r a l le G r e n z e n w a c h s e n d e m S t i c h p r o b e n u m f a n g n in die N o r m a l v e r t e i l u n g ü b e r f ü h r e n (Grenzübergang n a c h D e M o i v r e - L a p l a c e ) . Definition: E i n e Z u f a l l s v a r i a b l e X ist n o r m a l v e r t e i l t m i t E r w a r t u n g s w e r t m- u n d V a r i a n z CT3, w e n n für ihre D i c h t e f u n k t i o n gilt: (x-n) 2 1 ~ (3.2.1) f(x) = •e 2CT für X e W . o V 211
H i e r b e i s t e h t e für die B a s i s d e r n a t ü r l i c h e n L o g a r i t h m e n . CT s t e h t für d i e S t a n d a r d a b w e i c h u n g , d.h. für die p o s i t i v e Quadratwurzel aus der Varianz, o und die Quadratwurzel aus d e m U m f a n g 2n d e s E i n h e i t s k r e i s e s s i n d n o t w e n d i g e N o r m i e r u n gen, u m s i c h e r z u s t e l l e n , daß d i e zweite B e d i n g u n g (3.1.3) e i n e r D i c h t e f u n k t i o n e r f ü l l t ist. Die D i c h t e f u n k t i o n n i m m t im g e s a m t e n D e f i n i t i o n s b e r e i c h d e r R e a l i s a t i o n e n p o s i t i v e W e r t e an, so d a ß a u c h die e r s t e B e d i n g u n g (3.1.2) e i n e r D i c h t e f u n k t i o n e r f ü l l t ist. W i r k ö n n e n h i e r f ü r in K u r z f o r m s c h r e i b e n , d a ß d i e v a r i a b l e X N(n, CT2)-verteilt ist.
Zufalls-
40
ii. Stetige
Verteilungen
Der Graph dieser Dichtefunktion ist die bekannte Glockenkurve, die als Gaußsches Fehlergesetz auf dem 10 DM-Schein zu erkennen ist. Aus diesem Graphen bzw. aus einer algebraischen dieser Funktion erkennt man die folgenden
Betrachtung
Eigenschaften der Dichtefunktion der Normalverteiluno: 1. Die Dichtefunktion f(x) ist symmetrisch um die Symmetrieachse x=n. 2. Die Dichtefunktion f(x) hat ihr Maximum an der Stelle x=n. 3. Die Dichtefunktion f(x) hat Wendepunkte an den Stellen x=h+ct und x=n~a. 4. Ausgehend vom Maximum nähert sich die Dichtefunktion f(x) mit betragsmäßig zunehmendem x monoton fallend der x-Achse.
Für das Arbeiten mit der Normalverteilung erweist es sich als vorteilhaft, wenn man die Zufallsvariable X standardisiert. Dies erreicht man dadurch, daß man von der Zufallsvariablen X deren Erwartungswert n subtrahiert und anschließend durch die Standardabweichung a dividiert. Die so entstandene standardisierte Zufallsvariable (3.2.2)
Y =
X-n
CT
hat den Erwartungswert E(Y) = 0 und die Varianz V(Y) = 1. Damit erhalten wir die vereinfachte Dichtefunktion der Standardnormalverteiluna. Definition: Eine Zufallsvariable Y ist standardnormalverteilt. wenn für ihre Dichtefunktion gilt y
1
(3.2.3)
f(y) =
•e
"
2
T
Da (3.2.4)
dy = V 2 ic ,
für yeiR.
§3. Stetige Verteilungen
41
folgt, daß auch für die Dichtefunktion f(y) die zweite Bedingung (3.1.3) einer Dichtefunktion erfüllt ist, so daß (3.2.5)
j f(y) dy = 1 .
Aus (3.2.3) ist leichter erkennbar, daß auch die erste Bedingung (3.1.2) einer Dichtefunktion erfüllt ist, d.h. hier gilt sogar (3.2.6)
f(y) > 0
für alle yeiR.
je Für die gewöhnlichen Momente nk = E(X ) der Standardnormalverteilung gilt folgende Rekursionsformel: (3.2.7)
n k = (k-1) • nk_2 .
Da für das 1. gewöhnliche Moment der Standardnormalverteilung gilt, daß m = H = 0, bedeutet dies, daß auch alle nachfolgenden ungeraden gewöhnlichen Momente gleich Null sind. Da die zentralen Momente k-ter Ordnung m^ = E [ (X~n) ^ wegen n=0 mit den gewöhnlichen Momenten gleicher Ordnung übereinstimmen, können wir folgern, daß alle zentralen Momente ungerader Ordnung der Standardnormalverteilung gleich Null sind. Zum gleichen Ergebnis kommen wir, wenn wir die Symmetrie der Standardnormalverteilung um ihren Erwartungswert berücksichtigen . Aus (3.2.7) folgt, daß wegen n-2 = ®2 (3.2.8)
=
= 1
gelten muß
n4 = 3.
Damit gilt dann auch für das zentrale Moment 4. Ordnung der Standardnormalverteilung 1114 = 3.
Für den allgemeinen Typus der Normalverteilung lautet die Rekursionsformel für die zentralen Momente k-ter Ordnung (vgl. Stange (1970), S. 214) (3.2.9)
m k = (k-1) • o2 • mjc-2 ,
so daß für die ersten vier zentralen Momente einer N(h, a2)verteilten Zufallsvariablen X gilt: mi = 0, 1112 = o2, m3 = 0 und 1114 = 3 CT4.
42
§3. Stetige Verteilungen
3.3. Die Gammaverteilung
Diese Verteilung beruht auf der Eulerschen Gammafunktion. die definiert ist als 00
(3.3.1)
r(p) =
_
I xp 0
• e
x
dx
für x> 0,
wobei p>0. Diese Funktion ist stetig bis auf die Stellen 0, -1, -2, ..., an denen sie Pole erster Ordnung hat. Der Parameter p der Gammafunktion ist nicht als Wahrscheinlichkeit zu interpretieren und darf nicht mit dem Bernoulliparameter p verwechselt werden. Offenkundig gilt dann, wenn wir p durch p+1 substituieren, (3.3.2)
T(p+1) =
i 0
00
x p • e~ X dx .
Wir verwenden die Regeln der partiellen Integration, wonach für u = u(x) und v = v(x) gilt (3.3.3)
b i f(x) dx = a
b i u dv a
x=b [ uv ) x=a
=
und erhalten aus (3.3.2) mit u=xp und dv = e du = px
p 1
dx und v = -e
x
[ x p • (-e -X ) ] 0
T(p+1) =
x
b J v du a
dx , weswegen
, nunmehr 00
(3.3.4)
-
00
-
i (-e" x )px p_1 dx . 0
Da der Ausdruck in der eckigen Klammer wegen der Eigenschaften der e-Funktion gegen Null strebt, gewinnen wir, wenn wir die Konstante p vor das Integral ziehen, die bekannte Rekursionsbeziehung (3.3.5)
r(p+l) = p • r(p) .
Für p=n, wobei n eine natürliche Zahl ist, gilt dann wegen 00
(3.3.6)
T(l) =
f 0
e~X dx = - [ e~X ]
00
0
nunmehr durch rekursives Einsetzen (3.3.7)
T(n+1) = n-(n-1)• . . . • 1 = n! .
= 1
§3. Stetige
Verteilungen
43
Eine weitere interessante Eigenschaft der Gammafunktion ist 1 (3.3.8) r(j) = v * , was man mittels komplexer Zahlen beweisen kann (vgl. van der Waerden (1971), S. 55). Mit der Substitution x=a-y mit a>0 erhält man wegen und dx = a dy aus (3.3.1) nunmehr (3.3.9)
r(p) =
dx —r— = a y
ao J a p _ 1 • y p - 1 • e~ ay a dy , 0
so daß nach Vorziehen der multiplikativen Konstanten vor das Integral gilt CO
(3.3.10)
r(p) = a p • f 0
yp
• e~ ay dy .
Indem man Bedingung (3.2.5) für Dichtefunktionen ausnutzt, kann man aus der Gammafunktion die Gammaverteilung gewinnen. Definition: Eine Zufallsvariable Y gehorcht der Gammaverteilunq. wenn für ihre Dichtefunktion gilt aP (3.3.11)
y p _ 1 e~ ay
für y^O
T(P)
f(y) =
0
für y Zs
—
Eine weitere Möglichkeit, die Spielsituation darzustellen, bietet der Überqanqsbaum:
Ende der 5. Spielrunde
Ende der 4. Spielrunde
Ende der 3. Spielrunde Ende der 2. Spielrunde Ende der 1. Spielrunde
Start
j
§4. Markoff-Ketten
67
4.2. Klassifikation von Harkoff-Ketten
Angesichts unterschiedlicher Bezeichnungen in der Literatur empfiehlt es sich in diesem Abschnitt, stärker formal vorzugehen (vgl. hierzu Takacs (1960), S. llff, Bartlett (1966), S. 9 ff, Heller-Lindenberg-Nuske-Schriever (1978), S. 45ff). Eine Reihe von Definitionen und Bemerkungen soll helfen, Übersichtlichkeit herzustellen. Definition: Eine Klasse (zu verstehen als Menge) K von Zuständen Zi , ..., z m einer Markoff-Kette mit n Zuständen (n > m) heißt finale Klasse, wenn, sobald einer der Zustände von K erreicht ist, keine Zustände außerhalb dieser Klasse mehr erreicht werden können. Definition: Eine nicht-finale Klasse heißt transiente Klasse. Bemerkung: Eine absorbierende Schranke ist eine einelementige finale Klasse. Eine besonders nützliche Definition bei der Ermittlung der Wahrscheinlichkeit zusammengesetzter Vorgänge ist die sogenannte Tabu-Wahrscheinlichkeit (vgl. hierzu Heller-LindenbergNuske-Schriever (1978), S. 42): isl Definition: Die Wahrscheinlichkeit f ü , daß ein Zustand zi (i = 1, ..., n) einer Markoff-Kette in s-1 Schritten vermieden und erst im s-ten Schritt wieder erreicht wird, bezeichnet man als Erstwiederkehrwahrscheinlichkeit des i-ten Zustands; die zugehörige Schrittzahl s heißt Wiederkehrzeit. Bemerkung: Das Tabu, daß der Zustand nicht vor dem s-ten Schritt erreicht werden darf, hilft bei der Verweidung von Mehrfachzählungen. Da in einem Übergangsbaum einer MarkoffKette erkennbar ist, daß in einer Markoff-Kette verschiedene Wege wieder zum gleichen Zustand zj^ führen können, existieren oft verschiedene Wiederkehrzeiten s mit zugehörigen verschiedenen Erstwiederkehrwahrscheinlichkeiten des i-ten Zustands. Definition: Sei S die Menge der Wiederkehrzeiten des i-ten Zustands zi (i = 1, ..., n). Dann bezeichnet man die Zeit, für die die Wiederkehr am schnellsten eintritt, als minimale Wiederkehrzeit des i-ten Zustands. s m i n , so daß (4.2.1)
s m i n = min s . seS
Definition: Die Wahrscheinlichkeit (4.2.2)
fi =
I s=l
fii (s)
; i = 1, ..., n
bezeichnet man als Wiederkehrwahrscheinlichkeit des i-ten Zustands.
68
§4.
Markoff-Ketten
Bemerkung; Es werden mit fi alle Erstwiederkehrwahrscheinlichkeiten des i-ten Zustands aufsummiert, d.h. alle Schritte erfaßt, mit denen ein Zustand z± erstmals wieder erreicht werden kann. Da die fj.i ' Wahrscheinlichkeiten disjunkter Ereignisse sind, ergibt ihre Summe eine Wahrscheinlichkeit fi , wobei gilt 0 $ fi £ 1. Definition: Ein Zustand z± , für den gilt (4.2.3)
fi = 1,
heißt sicher rekurrent. Bemerkung: Ein sicher rekurrenter Zustand wird mit Sicherheit irgendwann noch einmal erreicht. Defnition: Ein Zustand zi , für den gilt (4.2.4)
fi < 1,
heißt transient. Bemerkung: Für einen transienten Zustand läßt sich nicht mit Sicherheit vorhersagen, ob er nochmal erreicht wird, wenn er einmal verlassen wurde. Definition: Wir bezeichnen
(4.2.5)
m
=
Z s=l
s • fü(s)
als mittlere Wiederkehrzeit (mittlere Rekurrenzzeit) des i-ten Zustands. Definition: Ein sicher rekurrenter Zustand mit endlicher mittlerer Wiederkehrzeit ni heißt positiv-rekurrent. Definition: Ein sicher rekurrenter Zustand zi mit unendlicher mittlerer Wiederkehrzeit ni heißt null-rekurrent. Definition: Ein Zustand zi , der genau alle P Perioden (mit P > 1) wieder erstmals erreicht wird, heißt periodisch mit Periode P. Es gilt also (4.2.6)
s = k • P,
wobei k eine natürliche Zahl ist. (s)
Definition: Die Wahrscheinlichkeit fij v ' , daß in einer Markoff-Kette, ausgehend vom Zustand zi , ein Zustand zj in s—1 Schritten vermieden und erst im s-ten Schritt erreicht
§4. Markoff-Ketten
69
wird, bezeichnet man als Erstpassagewahrscheinlichkeit vom iten in den j-ten Zustand, s bezeichnet man als Passagezeit. Bemerkung: Ist der Zustand zi Element der finalen Klasse K und der Zustand zj nicht Element dieser finalen Klasse, so ist (4.2.7)
fij^ = 0
für alle s.
Haben alle Zustände einer Markoff-Kette eine bestimmte Eigenschaft, so läßt sich diese Eigenschaft für die Markoff-Kette als Gesamtheit von Zuständen formulieren. Definition: Eine Markoff-Kette heißt sicher-rekurrent. wenn alle ihre Zustände sicher rekurrent sind. Definition: Eine sicher-rekurrente Markoff-Kette heißt irreduzibel. wenn jeder Zustand von jedem anderen Zustand aus erreichbar ist. Bemerkung: Ist eine Markoff-Kette irreduzibel, so enthält sie keine finalen Klassen. Definition: Eine homogene Markof f-Kette heißt reduzibel. wenn ihre Übergangsmatrix P der Ordnung n wie folgt partitioniert werden kann: A
0
.B
C
wobei die Teilmatrix A quadratisch von der Ordnung m (m < n) ist, 0 für eine rechteckige Nullmatrix der Ordnung m x (n-m) steht, B eine rechteckige Matrix der Ordnung (n-m) x m ist und C eine quadratische Matrix der Ordnung (n-m) darstellt. Die Ordnung n x m einer Matrix gibt die Anzahl n der Zeilen und die Anzahl m der Spalten dieser Matrix an. Da eine quadratische Matrix mit n Zeilen auch n Spalten besitzt, genügt es, wenn n die Ordnung dieser Matrix bezeichnet. Bemerkung: Damit enthält die Teilmatrix A eine finale Klasse, für die ein Übergang in die Klasse der Teilmatrix C nicht möglich ist. Diese Übergangswahrscheinlichkeiten sind alle gleich Null und stehen in der Nullmatrix 0. Definition: Eine irreduzible Markof f-Kette heißt regulär, wenn für die minimale Wiederkehrzeit aller Zustände gilt, daß (4.2.9)
s m in = 1.
Bemerkung: Die Übergangsmatrix P einer regulären Markoff-Kette enthält keine Nullen.
70
§4.
Markoff-Ketten
Bemerkung: Nicht in jeder Markoff-Kette ohne finale Klassen muß für die minimale Wiederkehrzeit die Bedingung (4.2.9) gelten. Die Irreduzibilität erfordert nur, daß jeder Zustand von einem anderen aus erreichbar ist, ohne die dafür erforderliche Zeit zu fixieren. 4.3. Harkoff-Prognosen Für homogene Markoff-Ketten läßt sich aus der Kenntnis der Matrix P der Übergangswahrscheinlichkeiten für einen gegenwärtigen Zustand zi ( i = l , ..., n) die Wahrscheinlichkeit berechnen, mit der dieser Zustand in s Perioden in einen Zustand zj (j = 1, ..., n) übergeht. Formal ist ein Einheitsvektor, der an i-ter Position die Eins und sonst nur Nullen aufweist, als Startvektor p0 zu nehmen und gemäß Beziehung (4.1.19) mit der s-ten Potenz der übergangsmatrix P zu multiplizieren, um die Wahrscheinlichkeitsverteilung p s der n Zustände xj nach s Perioden zu erhalten. Die Multiplikation mit diesem Eiheitsvektor bewirkt, daß p s als i-te Zeile der s-ten Potenz der Übergangsmatrix abgelesen werden kann. Da die Zeithomogenität der Matrix P in empirischen Situationen bei verantwortungsvollem Einsatz dieser Methode nicht für eine größere Anzahl von Perioden aufrechterhalten werden kann, ist die prognostische Einsatzmöglichkeit dieser mathematischen Methode beschränkt.
ÜBUNGSAUFGABEN Aufgabe 18: Eine Marktanalyse des Waschmittels Neptun unter dem Aspekt Kaufverhalten in diesem Monat und Kaufabsichten für den nächsten Monat wurde durchgeführt. Das Kaufverhalten ließ sich klassifizieren in die Zustände Zi = nicht kaufen z2 = regelmäßig kaufen z3 = gelegentlich kaufen. 1) Von den Kunden, die das Waschmittel nicht gekauft hatten, werden es im nächsten Monat 70% auch nicht, 10% regelmäßig und der Rest gelegentlich kaufen. 2) Von den Kunden, die das Waschmittel regelmäßig gekauft hatten, werden es im nächsten Monat die Hälfte auch weiterhin regelmäßig, jeder Fünfte nicht mehr und der Rest gelegentlich kaufen. 3) Von den Kunden, die das Waschmittel gelegentlich gekauft hatten, werden 40% bei diesem Verhalten bleiben, 50% nicht mehr und der Rest gelegentlich kaufen. Man bestimme die Übergangsmatrix.
§4.
Markoff-Ketten
71
Aufgabe 19 s Für eine homogene Markoff-Kette mit einer Anfangsverteilung Po =
(0
1/4
1/2
1/4)
der 4 Zustände und folgender Übergangsmatrix 0
0,5
0
0,5
0,5 0
0 0,5
0,5 0
0 0,5
0,5
0
0,5
0
bestimme man die Verteilung der 4 Zustände am Ende der 2. Periode. Aufgabe 20: Ein Student geht mittags in ein Restaurant (z,) oder er kocht sich ein Fertiggericht (z2) oder er geht in die Mensa (z3) . 1) Hat er am Vortag in der Mensa gegessen, so wird er sich am nächsten Tag zufällig für eine der beiden anderen Möglichkeiten entscheiden. 2) Hat er am Vortag im Restaurant gegessen, so entscheidet er sich am nächsten Tag zufällig für eine der drei Möglichkeiten. 3) Hat er am Vortag ein Fertiggericht gekocht, so ist die Wahrscheinlichkeit, daß er am nächsten Tag wieder ein Fertiggericht kocht, doppelt so groß wie die des Mensabesuchs, aber nur halb so groß wie die des Restaurantbesuchs. Wie lautet die Grenzwahrscheinlichkeitsverteilung dieser stationären Markoff-Kette? Aufgabe 21: Man klassifiziere die Markoff-Kette mit folgender Matrix der Übergangswahrscheinlichkeiten: 0,5 0,25 0,125
0,25 0,5 0,5
0,25 0,25 0,375J.
§ 5 . Multivariate Verteilungen
In diesem Kapitel wollen wir uns mit der Verteilung mehrerer Zufallsvariablen beschäftigen. Wir beginnen mit der Betrachtung des Verteilungsmodells zweier Zufallsvariablen. 5.1. Bivariate Verteilungen
Wieder müssen wir den diskreten Fall von dem stetigen Fall unterscheiden. Wir beginnen mit dem Fall zweier diskreter Zufallsvariablen (vgl. hierzu die mehr einführenden Betrachtungen in Leiner (1992), S. 81ff). 5.1.1. Verteilungen zweier diskreter Zufallsvariablen Wir betrachten zwei diskrete Zufallsvariablen X und Y. Die Zufallsvariable X habe r Modalitäten, die Zufallsvariable Y habe s Modalitäten. Wir vereinbaren folgende Notation: Xi = i-te Modalität der Zufallsvariablen X (i = 1, ..., r) yj = j-te Modalität der Zufallsvariablen Y (j = 1, ..., s). Definition: Wir bezeichnen die gemeinsame Wahrscheinlichkeit für das Auftreten der i-ten Modalität des Merkmals X und der j-ten Modalität des Merkmals Y mit pij, so daß gilt: (5.1.1) pij = W(X = xi , Y = yj)
für i=l,...,r und j=l,...,s.
Bemerkung: Die Summe über alle Merkmalskombinationen der beiden Merkmale ergibt den Wert 1, d.h. mit Sicherheit wird eine der r-s Merkmalskombinationen angenommen: (5.1.2)
r s I 2 i=l j=l
pij = 1.
Definition: Wir bezeichnen die marginale Wahrscheinlichkeit für das Auftreten der i-ten Modalität des Merkmals X mit p.i d.h. es gilt (5.1.3)
pi. = W(X = Xi) .
Bemerkung: Man erhält aus der gemeinsamen Wahrscheinlichkeit der beiden Merkmale die marginale- oder Randwahrscheinlichkeit eines Merkmals, indem man die Summe über die Modalitäten des anderen Merkmals durchführt. So erhalten wir (5.1.3), indem wir alle Modalitäten des Merkmals Y herausssummieren: (5.1.4)
pi. =
s I j=l
pij .
Der Punkt deutet an, welches Merkmal heraussummiert wurde.
§5. Multivariate
Verteilungen
73
Wird über alle Modalitäten des Merkmals X summiert, so ergibt sich (5.1.5)
r Z i=l
Pi. = 1,
was (5.1.2) bestätigt, wenn man (5.1.4) einsetzt. Definition: Wir bezeichnen die marginale Wahrscheinlichkeit für das Auftreten der j-ten Modalität des Merkmals Y als p.j , d.h. es gilt (5.1.6)
p.j = W(Y = yj) .
Bemerkung: Diesmal summieren wir über die Modalitäten des Merkmals X, um aus der gemeinsamen Wahrscheinlichkeit die marginale Wahrscheinlichkeit (5.1.6) zu gewinnen: (5.1.7)
r p.j = Z i=l
Pij .
Wird über alle Modalitäten des Merkmals Y summiert, so ergibt sich auch hier (5.1.8)
s I j=l
p.j = 1,
was (5.1.2) bestätigt, wenn man (5.1.7) einsetzt. Bemerkung: Aus der gemeinsamen Wahrscheinlichkeitsverteilung läßt sich die gemeinsame Verteilungsfunktion F(x,y) der beiden Zufallsvariablen X und Y herleiten mit
(5.1.9)
F(x,y) =
k Z i=l xk^x
1 S Pij , j=l yi £ y
d.h. es werden die gemeinsamen Wahrscheinlichkeiten summiert bis zu den Kombinationen der Realisationen, die die vorgegebenen (reellwertigen) Realisationsschranken x bzw. y noch nicht überschreiten. Definition: Bei Unabhängigkeit der Zufallsvariablen X und Y gilt, daß (5.1.10)
pij = pi. • p.j
für 1=1,...,r und j=l,...,s,
d.h. die gemeinsame Wahrscheinlichkeit ergibt sich als Produkt der marginalen Wahrscheinlichkeiten und dies gilt für alle Merkmalskombinationen.
74
§5. Multivariate
Verteilungen
Weiterhin gilt bei Unabhängigkeit der beiden diskreten fallsvariablen X und Y, daß (5.1.11)
F(x,y) = F(x) • F(y)
Zu-
für alle x und y,
d.h. daß die gemeinsame Verteilungsfunktion gleich dem Produkt der marginalen Verteilungsfunktionen ist. Auch dies gilt für alle reellwertigen Kombinationen der Realisationen x und y. Bemerkung: Im übrigen gilt stets für die marginalen Verteilungsfunktionen (wie im univariaten Fall) separat (5.1.12)
F(x) =
und (5.1.13)
F(y) =
k £ i=l XJc^X
Pi.
1 X p.j . j=l yi^y
Definition: Die bedingte Wahrscheinlichkeit pjjj für das Auftreten der i-ten Modalität von Merkmal X unter der Bedingung, daß sich zuvor die j-te Modalität des Merkmals Y realisiert hat, erhält man durch (5.1.14)
püj =
Pij
,
P.j d.h. durch das Verhältnis von gemeinsamer Wahrscheinlichkeit zu marginaler Wahrscheinlichkeit der Bedingung. Bemerkung; Wie man erkennt, wenn man den Nenner von durch (5.1.7) ersetzt, gilt (5.1.15)
2 i=l
(5.1.14)
p ü j = 1,
denn der Nenner von (5.1.14) ist bei der Summation bezüglich i als Konstante anzusehen, die vor die Summe i gezogen werden kann, so daß dann in Zähler und Nenner der gleiche Ausdruck zu stehen kommt. Umgekehrt gilt auch
(5.1.16)
Pj Ii =
Pij Pi.
,
§5. Multivariate Verteilungen
75
wenn diesmal das Auftreten der i-ten Modalität des Merkmals X die Bedingung für das Auftreten der j-ten Modalität des Merkmals Y ist. Anolog erkennt man, daß dann gelten muß (5.1.17)
s I j=l
pjü = 1.
Die Axiomatik der Wahrscheinlichkeit von Kolmogoroff kann übrigens auch auf bedingte Wahrscheinlichkeiten angewendet werden.
5.1.2. Verteilung zweier stetiger Zufallsvariablen Definition: Für zwei stetige Zufallsvariablen X und Y mit reellwertigen Realisationen x und y bezeichnet f(x,y) die gemeinsame Dichtefunktion. Bemerkung: Für die gemeinsame Dichtefunktion f(x,y) gilt 00
(5.1.18)
00
J i f(x,y) dx dy = 1, —00 —00
d.h. die Fläche unter der gemeinsamen Dichtefunktion ist gleich 1. Diese Normierung ist entscheidend für die Bestimmung von Wahrscheinlichkeiten. Definition: f(x) bzw. f(y) sind die marginalen Dichtefunktionen der Zufallsvariablen X bzw. Y. Bemerkung: Indem man die jeweils andere Variable aus der gemeinsamen Dichtefunktion herausintegriert, erhält man die marginale Dichtefunktion einer Variablen. So gilt: 00
(5.1.19)
f(x) =
J f(x,y) dy
und 00
(5.1.20)
f(y) =
i —oo
f(x,y) dx .
Für die beiden marginalen Dichtefunktionen erhält man ebenfalls den Wert 1, wenn man über den gesamten Bereich integriert, also (5.1.21) und
i
f(x) dx = 1
76
i-5- Multivariate Verteilungen
(5.1.22)
i
f(y) dy = 1,
d.h. auch hier sind die Flächen unterhalb jeder Dichtefunktion auf 1 normiert. Definition; Für die marginalen Verteilungsfunktionen der beiden Zufallsvariablen X und Y gilt x (5.1.23) F(x) = J f(s) ds , —00 wobei die Integrationsvariable x durch s substituiert wurde und (5.1.24)
F(y) =
y I f(t) dt , —00
wobei die Integrationsvariable y durch t substituiert wurde. Definition: Für die gemeinsame Verteilungsfunktion gilt (5.1.25)
F(x,y) =
x y J J f(s,t) ds dt . —00 —00
Bemerkung: Aus der gemeinsamen Verteilungsfunktion F(x,y) gewinnt man die gemeinsame Dichtefunktion f(x,y) durch (5.1.26)
f(x,y) =
3 F(x,y) dx dy
.
Definition: Für zwei stetige Zufallsvariablen X und Y gilt bei Unabhängigkeit, daß (5.1.27)
f(x,y) = f(x) • f(y)
für alle x und y,
d.h. daß ihre gemeinsame Dichtefunktion gleich dem Produkt der marginalen Dichtefunktionen ist. Weiterhin gilt bei Unabhängigkeit der Zufallsvariablen X und Y auch im stetigen Fall, daß (5.1.28)
F(x,y) = F(x) • F(y)
für alle x und y,
d.h. daß die gemeinsame Verteilungsfunktion gleich dem Produkt der marginalen Verteilungsfunktionen ist.
§5. Multivariate Verteilungen
Definition: Für die bedingte Dichtefunktion der ablen X unter der Bedingung Y gilt (5.1.29)
f(xly) =
f(x,y)
77
Zufallsvari-
.
f(y) B e m e r k u n g : W i e m a n e r k e n n t , w e n n m a n d e n N e n n e r v o n (5.1.29) d u r c h (5.1.20) e r s e t z t , muß für d i e s e b e d i n g t e D i c h t e f u n k t i o n gelten, daß 00 (5.1.30) J f(x|y) dx = 1, denn bei der Integration bezüglich x ist der N e n n e r v o n (5.1.29) a l s K o n s t a n t e a n z u s e h e n , d i e v o r d a s I n t e g r a l g e z o g e n w e r d e n k a n n , so daß in d i e s e m B r u c h d a n n Z ä h l e r u n d N e n n e r i d e n t i s c h sind. U m g e k e h r t g i l t für d i e b e d i n g t e D i c h t e f u n k t i o n d e r r i a b l e n Y u n t e r d e r B e d i n g u n g X. d a ß (5.1.31)
f(yIx) =
Analog gilt (5.1.32)
f(x,y) f(x)
Zufallsva-
.
dann J
f(ylx)
dy = 1.
5.1.3. Eigenschaften der bivariaten
Verteilungsfunktion
D i e g e m e i n s a m e V e r t e i l u n g s f u n k t i o n F(x,y) i s t e i n O b e r b e g r i f f , d e r s o w o h l f ü r d i s k r e t e w i e für s t e t i g e Z u f a l l s v a r i a b l e n X u n d Y gilt. Für die gemeinsame Verteilungsfunktion F(x,y) gilt die Wahrscheinlichkeitsaussage (5.1.33)
F(x,y) = W ( X s x , Y £ y),
d.h. sie bestimmt die Wahrscheinlichkeit, daß sowohl die Zufallsvariable X als auch die Zufallsvariable Y ihre R e a l i s a tionsschranke x bzw. y nicht überschreiten. Analog zu den Eigenschaften univariater Verteilungsfunktionen können wir folgende allgemeine Eigenschaften bivariater V e r teilungsfunktionen festhalten:
78
§5- Multivariate Verteilungen
1.
0 £ F(x,y) s 1, d.h. daß für F(x,y) die üblichen Begrenzungen für Wahrscheinlichkeiten gelten.
2.
lim F(x,y) X—°o
0
und
lim y-y-ao
F(x,y) = 0
d.h. daß die gemeinsame Verteilungsfunktion ihren kleinsten Wert Null annimmt, wenn eines ihrer Argumente gegen -a> strebt. 3.
lim x->-ooAy-»~oo
F(x,y) = 1,
d.h. daß die gemeinsame Verteilungsfunktion ihren größten Wert Eins annimmt, wenn beide Argumente gegen •» streben. 4. F(x,y) ist monoton nicht-fallend in beiden Argumenten, d.h. daß der Wert der gemeinsamen Verteilungsfunktion nicht kleiner werden kann, wenn eines der Argumente zunimmt. 5. F(x,y) ist rechtsseitig stetig in beiden Argumenten, d.h. daß die Verteilungsfunktion entweder durchgehend stetig ist oder im diskreten Fall - wenn man sich einer Sprungstelle von rechts nähert (sei es in Richtung der xAchse oder in Richtung der y-Achse), der obere Wert des Wahrscheinlichkeitsgebirges (anschaulich einer treppenartigen Konstruktion, vergleichbar der Ecke einer Stufenpyramide) an dieser Stelle der Funktionswert ist. Bemerkung; Linksseitige Stetigkeit ist dann zu fordern, wenn in der Wahrscheinlichkeitsaussage (5.1.33) nur mit dem Zeichen < gearbeitet wird (die Realisationsschranke also zum Supremum wird), wie dies einige osteuropäische Autoren tun.
5.2. Der n-dimensionale Fall
Einige der bisherigen Betrachtungen sollen nun auf den multivariaten Fall ausgedehnt werden. 5.2.1. Eigenschaften der multivariaten Verteilungsfunktion Wir betrachten die multivariate Verteilungsfunktion für n Zufallsvariablen Xi , ..., X n , für die als Wahrscheinlichkeitsaussage gilt: (5.2.1)
F(x, , ..., x n ) = W(X, S x, , ..., x n
ä x
n)»
d.h. daß keine der n Zufallsvariablen ihre Realisationsschranken Xi , ..., x n überschreitet.
§5. Multivariate
Verteilungen
79
Die multivariate Verteilungsfunktion weist folgende allgemeine Eigenschaften auf: 1. 2.
0 «s F(x, , ..., x n ) £ 1. lim F(x, ,..., x n ) = 0 , XiV. . . vxn—>-ao d.h. daß die gemeinsame Verteilungsfunktion ihren kleinsten Wert Null annimmt, wenn die Realisationsschranke Xi oder die Realisationsschranke x2 usw. oder die Realisationsschranke x n gegen streben.
3.
lim F(Xi , ... ,xn) = 1, X|A • . .AXn-X» d.h. daß die gemeinsame Verteilungsfunktion ihren größten Wert Eins annimmt, wenn alle Realisationsschranken gegen °° streben.
4. F(Xi ,..., x n ) ist monoton nicht-fallend in allen Argumenten. 5. F(x, ,..., x n ) ist rechtsseitig stetig in allen Argumenten. Eine weitere Behandlung marginaler und bedingter Dichtefunktionen findet man in Dhrymes (1970), S. 5ff. 5.2.2. Transformationen von
Zufallsvariablen
Wir wollen an dieser Stelle für den Fall stetiger Zufallsvariablen die Konseguenzen von Transformationen dieser Zufallsvariablen betrachten. Für n stetige Zufallsvariablen X, , ..., X n bezeichne f(x) = f(Xi , ..., x n ) die gemeinsame Dichtefunktion des Vektors der Zufallsvariablen
(5.2.2)
X =
Nun sei der Vektor von Zufallsvariablen Y," (5.2.3)
Y =
80
§5. Multivariate Verteilungen
von X funktional abhängig, d.h. (5.2.4)
Y = h(X),
wobei die inverse Transformation X = h -1 (Y)
(5.2.5)
existieren soll. Dann lautet für einen analog zu bildenden Spaltenvektor y der Realisationen y, , ..., y n die gemeinsame Dichtefunktion f(y) von * (5.2.6)
f(y, , ..., yn) = f(x, , ..., x n ) • |j|,
so daß wir mit einem Spaltenvektor x der Residuen der Zufallsvariablen des Vektors X dafür schreiben können (5.2.7)
f(y)
= f(x)
• |J| ,
wobei J für die Jacobische Determinante der Funktionaltransformation stehen soll. Die Determinante J ist definiert durch
(5.2.8)
öXi
dXi
Öy,
3yn
J = 3xn
5xn
3y,
9yn
Man beachte, daß in (5.2.6) und (5.2.7) der Absolutwert dieser Determinante verwendet wird, so daß ein Transponieren der zugrundeliegenden Matrix keine Folgen hat für das Vorzeichen der Determinante. Im einfachsten Falle einer identischen Transformation, d.h. wenn in (5.2.4) gilt (5.2.9)
Y = X ,
hat in (5.2.8) die Determinante J als Determinante einer Einheitsmatrix I den Wert 1, so daß aus (5.2.7) dann folgt (5.2.10)
f(y)
= f(x).
§5. Multivariate Verteilungen
81
Bevor wir uns mit dem Fall einer linearen Transformation beschäftigen, soll zunächst der Begriff der Varianz-KovarianzMatrix, den wir dazu benötigen, erläutert werden. 5.2.3. Die Varianz-Kovarianz-Matrix Für unsere n Zufallsvariablen X, , ..., X n , die wir wie in (5.2.2) zu einem Spaltenvektor X zusammenfassen, bezeichnen wir die Erwartungswerte mit (5.2.11)
E(Xi) = ni
für i = 1, ..., n
und fassen auch die Erwartungswerte zu einem Spaltenvekor zusammen: Hl (5.2.12)
E(X) = n = Hn
Die Varianzen der n Zufallsvariablen X^ bezeichnen wir mit (5.2.13)
V(Xi) = (2)(0) + ...
21
X2
= 4,(0) +
X2
4>(l) (0) + —
• 4>(2) (0) + E(X) • x2 ,
wobei der letzte Summand ein Restglied sein soll. Das bedeutet für die charakteristische Funktion unserer Translation, daß
(7.2.10)
*X .!*(*•) = 1 + X • 0 - -r— •CT2+ e (X) • X2 , J ^
so daß
a2 • X2
(7.2.11) te a* (X) = 1
+ e(X)
X2 .
Wir betrachten nun die aus der Translation gebildete Summenvariable (7.2.12)
X =
Z
Xj* ,
j=l für deren Momente gilt (7.2.13)
E(X) = 0
und
V(X) = n • c2 .
96
§7. Betrachtungen
zur statistischen
Inferenz
Daraus bilden wir die standardisierte Zufallsvariable
(7.2.14)
X
Y =
CT •
- f n
Aufgrund des Satzes, daß die charakteristische Funktion einer Summe von identisch und unabhängig verteilten Zufallsvariablen gleich der n-ten Potenz der charakteristische Funktion eines der Summanden ist (vgl. Leiner (1992), S. 173), erhalten wir aus (7.2.11) nun die charakteristische Funktion der Summenvariablen X mit (7.2.15)
*X(X) = [1
CT2 • X2 j - + e(X> - ^ ] n •
Mit dem Satz, da0 bei einer linearen Transformation Y = ß-X für die charakteristische Funktionen gilt (vgl. Leiner (1992), S. 172) (7.2.16)
+Y(X) = X(ßX) ,
erhalten wir dann für die standardisierte Zufallsvariable die charakteristische Funktion
(7.2.17)
4»Y(X) = [1
CT2 • X2 + e( 2a2 • n
X 2
) -
CT o V~n
X2
]n .
•n
Mit der Substitution
(7.2.18)
w
X2
X
+ e(
) •
X2
schreiben wir dann für den logarithmus naturalis der charakteristischen Funktion (7.2.17)
(7.2.19)
In y(X) = w • [
n w
• ln(l +
w n
)].
§ 7. Betrachtungen
zur statistischen
Inferenz
97
Nun gilt aber für über alle Grenzen wachsendes n, daß
(7.2.20)
lim w = n-Ko
X2 2
und für den restlichen Faktor in eckigen Klammern von (7.2.19) kann man mit der l'Hospitalschen Regel zeigen, daß dieser gegen 1 strebt, so daß X2 (7.2.21)
lim In n-*x>
=
, 2
und daher
(7.2.22)
lim n-x»
y (X)
Dies ist aber nichts anderes als die charakteristische tion der Standardnormalverteilung (siehe Leiner(1992),
FunkS.171).
Damit wurde gezeigt, daß eine standardisierte Summenvariable von n identisch und unabhängig verteilten Summanden eine Verteilung hat, die gegen die Standardnormalverteilung strebt, wenn n, die Anzahl der Summanden, über alle Grenzen wächst. Wenn für große n die Zufallsvariable Y nun N(0, 1)-verteilt ist, so ist aufgrund der linearen Transformationen unter diesen Voraussetzungen wegen (7.2.14) 1) X - n • n nun N(0, n-a2)-verteilt, n 2) X = I Xj* ist dann N(0, no 2 )-verteilt, j=l n 3) S Xj ist N(n-|i, no 2 )-verteilt und j=l 3) X =
- Z Xj ist schließlich N(n, n i=l
n
)-verteilt.
Wir sind damit zum Ergebnis gelangt, daß das Stichprobenmittel in der Praxis für große Stichproben (n > 30 besagt eine Faustregel) auch dann als normalverteilt angenommen werden kann, wenn die Ausgangsverteilung der Beobachtungen unbekannt
98
§8. Schätztheorie
ist. Betont werden muß in diesem Zusammenhang aufgrund der obigen Voraussetzungen, daß alle Beobachtungen derselben Grundgesamtheit entnommen sein müssen und daß bei der Stichprobenziehung streng auf eine zufällige Entnahme zu achten ist. Nur unter diesen eigentlich sehr gemäßigten Voraussetzungen kann die Aussage des zentralen Grenzwertsatzes in der Praxis genutzt werden. Denjenigen Lesern, die diesen Beweis verfolgt haben, sollte auch klar geworden sein, daß die asymptotische Normalität nur für das Stichprobenmittel gilt, nicht jedoch auf die Einheiten übertragen werden kann, die nach wie vor der unbekannten Ausgangsverteilung gehorchen. Zu den Methoden der statistischen Inferenz zählen die Schätzund die Testtheorie.
§8. Schätztheorie 8.1. Einführung
Rein mathematisch gesehen, bauen Schätzmethoden auf Schätzfunktionen auf. In der Schätztheorie ist eine Schätzfunktion S eine Funktion, die den Stichprobenraum X in den Parameterraum Q abbildet, d.h. (8.1.1)
S:
X -> n.
Im einfachsten Fall liegen mehrere Beobachtungen Xi , . . . , Xj} e X vor, mit denen ein unbekannten Parameter 9 (mit 9 E IL) geschätzt werden soll. Die Schätzung dieses Parameters im Parameterraum ist dann eine Funktion S der Beobachtungen, d.h. (8.1.2)
6 = S(x, , ..., x n ) .
Beispiel: Aufgrund einer Stichprobe, bestehend aus den n Teilnehmern einer Veranstaltung liegen n Angaben über die Körpergröße der Teilnehmer vor. Eigentlich möchte man jedoch eine Aussage treffen über die durchschnittliche Körpergröße p. der Studierenden des Studienortes, n ist also der unbekannte Parameter, den es zu schätzen gilt. Dazu kann man etwa das Stichprobenmittel aus diesen n Beobachtungen verwenden
(8.1.3)
_ 1 n ß = x = - Z
xi ,
§8. Schätztheorie
99
Dieses einfache Beispiel läßt sich beliebig erweitern, wenn wir etwa mehrere Parameter mit unseren Beobachtungen schätzen wollen, also einen Vektor 9 = (8, , . . . , 8^) von Parametern schätzen. So interessiert man sich neben dem Mittelwert oft auch für die Streuung und andere Parameter in einer Grundgesamtheit, die ebenfalls aus den Stichprobenwerten geschätzt werden. An unserem einfachen Beispiel lassen sich die beiden wichtigsten Schätzverfahren demonstrieren. Es sind dies die Methode der kleinsten Quadrate und die Maximum Likelihood-Methode. 8.2. Die Methode der kleinsten Quadrate
Die gewöhnliche Methode der kleinsten Quadrate(engl.: ordinary least squares method, abgekürzt OLS-Methode) wurde im Jahre 1795 von Carl Friedrich Gauß (1777-1855) entwickelt, um ein astronomisches Problem zu lösen. Der noch unerfahrene Gauß (er war tatsächlich erst 18 Jahre alt) sandte sein Originalmanuskript an den französischen Mathematiker Legendre, der es zehn Jahre behielt und dem einige das Verdienst zurechnen, die Methode entdeckt zu haben. Wir interessieren uns jetzt für diejenige Schätzung n des unbekannten Erwartungswerts n, für die die Summe der Quadrate der Abweichungen der individuellen Beobachtungen Xi ,..., x n vom Schätzwert minimal ist. Gauß erkannte, daß die Forderung nach einem Minimum der absolut gemessenen Abweichungen nicht eindeutig sein kann. So kann man für zwei Beobachtungen zeigen, daß jeder Punkt auf der Verbindungsstrecke der beiden Punkte letztere Forderung erfüllt, während nur der in der Mitte dieser Strecke gelegene Punkt eine OLS-Schätzung darstellt. Im übrigen erkennt derjenige, der einmal Berechnungen und Beweise mit Absolutgrößen durchgeführt hat, recht schnell, daß die dabei erforderlichen Fallunterscheidungen sehr aufwendig sind (bei drei Dimensionen hätte Gauß für sein astronomisches Problem, für einen Planetoiden die Umlaufbahn zu bestimmen, acht Fallunterscheidungen durchführen müssen). Da also bei der Messung von Strecken das Vorzeichen ausgeschaltet werden muß (eine positive Abweichung ist nicht besser als eine negative Abweichung gleicher Größenordnung), entschied sich Gauß für die Quadrate, deren funktionale Einfachheit er betonte und entwickelte sein Prinzip der kleinsten Quadratsumme. Quadrate verzerren naturgemäß die Dimension, was man dadurch korrigieren kann, daß man abschließend die Quadratwurzel zieht, wie dies bei der Standardabweichung geschieht. Ein klassisches Ergebnis der deskriptiven Statistik zeigt, daß die Standardabweichung prinzipiell größer ausfällt (außer im Fall der Beobachtung einer Konstanten) als die durchschnittliche Abweichung, die mit absoluten Werten arbeitet und dann zu plausibleren Werten führt (vgl. Leiner (1992), S. 31-34). Geht es aber nur um die Lace eines Minimums, also den Abszissenwert, nicht um den Ordinatenwert, so sind derartige Überlegungen bis zu einem gewissen Grade entbehrlich. Stärker ins Gewicht fällt dann, daß durch das Arbeiten mit Quadraten Ex-
100
§S. Schätztheorie
legungen bis zu einem gewissen Grade entbehrlich. Stärker ins Gewicht fällt dann, daß durch das Arbeiten mit Quadraten Extremwerte (Ausreißer nennt man sie auch in der statistischen Praxis) stärker die Parameterschätzungen beeinflussen als Normalwerte und damit den Funktionsverlauf bestimmen aufgrund der überproportionalen Zunahme quadratischer Abweichungen. So ist bereits in den 30er Jahren unseres Jahrhunderts der Planet Pluto lediglich aufgrund derartiger Unregelmäßigkeiten in den mathematischen Gleichungssystemen entdeckt worden und dasselbe gilt für den im letzten Jahr bislang letzten entdeckten Planeten unserer Sonne. Um zu zeigen, daß in unserem einfachen Problem das arithmetische Mittel in der Tat eine OLS-Schätzung ist, wollen wir für einen beliebigen Mittelwert m die Abweichungen ei der Einzelwerte xi von diesem Mittelwert bilden, d.h. (8.2.1)
ei = xi - m
für i = 1, ..., n
und die Summe der Abweichungsquadrate (8.2.2)
n Z ei2 = i=l
n Z (xi - m)2 i=l
minimieren. Den Minimalwert von m wollen wir n nennen und dann gilt im Mimimum als notwendige Bedingung, daß die erste Ableitung nach diesem Wert gleich Null sein muß, woraus folgt, daß
(8.2.3)
Z i=l
(Xi - H): Z (Xi i=l
d ji
- H)
=
0
,
wobei zu beachten ist, daß die Ableitung einer Summe gleich der Summe der Ableitungen der Summanden ist und wir den typischen Summanden nach der Kettenregel ableiten und dann den konstanten Faktor -2 vor die Summe ziehen dürfen. Wenn wir beide Seiten der letzten Gleichung durch diesen Faktor dividieren, verschwindet er. Lösen wir noch die Klammer auf, so bedeutet dies, daß die Parameterschätzung als Konstante n-mal summiert wird. Division mit n liefert schließlich (8.2.4)
i n h= — Z
xi
= x ,
d.h. als Ergebnis der Minimierung erhält man das Stichprobenmittel. Anzumerken ist, daß für ein Minimum die hinreichende Bedingung lautet, daß die zweite Ableitung einen positiven Wert ergibt. Aus (8.2.3) erhält man durch nochmaliges Ableiten
§8. Schätztheorie
101
den Wert 2n, so daß dies in der Tat ein Minimum ist. 8.3. Die Maximum Likelihood-Methode
Die Maximum Likelihood-Methode (abgekürzt ML-Methode) wurde im Jahre 1912 von R.A. Fisher entwickelt. Unser einfaches Beispiel soll auch bei dieser Methode Verwendung finden. Das Vorgehen der Methode kann durch 3 Schritte beschrieben werden: 1. Schritt (vor der Beobachtung); Für unsere n Beobachtungen Xi , ..., x n existiere eine gemeinsame Beobachtungsdichte, wobei angenommen werden soll, daß die Beobachtungen x¿ (i=l, ... , n) unabhängig N(n, a2)-verteilt seien. Aufgrund der angenommenen Unabhängigkeit gilt (8.3.1) f(x, ,..., x n ) = f(Xi) • ... • f(xn), d.h. die gemeinsame Dichtefunktion ist das Produkt der marginalen Dichtefunktionen und da für die marginalen Dichtefunktionen f(xi) mit i=l,...,n unter der Annahme der Normalverteilung die Gleichung (3.2.1) zu verwenden ist, erhalten wir als gemeinsame Beobachtungsdichte n - — 2 (8.3.2) f(x, , . . . , x n ) = (2n • a )
•e
I n • Z (xi - n)2 2a2 i=l
Bemerkung: Vor der Beobachtung lassen sich mit der gemeinsamen Beobachtungsdichte Aussagen treffen über mögliche zukünftige Beobachtungswerte, wenn die Parameter (hier n und er2) bekannt sind. 2. Schritt (nach der Beobachtung): Aus der gemeinsamen Beobachtungsdichte entsteht die Likelihoodfunktion . Hierbei wird die Funktionalgestalt übernommen von der gemeinsamen Beobachtungsdichte, jedoch die Interpretation geändert. Die Likelihoodfunktion n n 1 - — I (xi - n)2 •e 2a2 i=l (8.3.3) L(n, C^lx,, . . . ,Xn) = (251-CT2) geht nun von den eingetroffenen Beobachtungen aus und gestattet Aussagen zur Plausibilität der unbekannten Parameter (hier H und o2) der Art, wie glaubwürdig etwa ein bestimmter Parameterwert im Lichte der erfolgten Beobachtungen ist. 3. Schritt (Maximierung): Die Likelihoodfunktion (8.3.3) wird bezüglich der Parameter maximiert. Die Maximierung vereinfacht sich im vorliegenden Fall, wenn anstelle der Likelihoodfunktion deren natürlicher Logarithmus maximiert wird. Es verändern sich durch diese Transformation zwar die Ordinatenwerte, ein Maximum ist im Vergleich zu seinen Nachbarwerten gleichwohl auch nach der Transformation erkennbar, da der Logarithmus eine monotone Transformation ist. Der Abszissenwert, der für die Lage des Maximums von Bedeutung ist, ändert sich durch die Transformation nicht.
102
§8. Schätztheorie
Da in (8.3.4) In L =
—
n
in(2* • o2)
2
I n 2
2c
Z i=l
(xi - n)3
nur der letzte Ausdruck n enthält, liefert die partielle Ableitung nach n (8.3.5)
3 In L d
n
=
1 — cj2
n Z (Xi - n) , i=l
was im Maximum Null gleichgesetzt werden kann (notwendige Bedingung) , so daß für den Maximalwert gilt (8.3.6)
n =
i n — z i=l
Xi = x .
Man kann zeigen, daß die 2. Ableitung nach n den Wert -n/a2 ergibt, also negativ ist, womit die hinreichende Bedingung für ein Maximum erfüllt ist. Die ML-Schätzung für den unbekannten Parameter a2, die man durch die partielle Ableitung der Likelihoodfunktion bezüglich o2 erhält, lautet
(8.3.7)
a2 = —
i n
Z ( Xi - n )2 .
Trotz der Übereinstimmung der Schätzergebnisse können wir schon an unserem einfachen Beispiel Unterschiede zwischen der OLS-Methode und der ML-Methode erkennen. Die OLS-Methode ist robuster, weil sie ohne die Normalverteilungsannahme auskommt, so daß ihre Ergebnisse auch Bestand haben, wenn diese Verteilungsannahme nicht zutrifft. Andererseits fehlen bei der OLS-Methode Annahmen über die Parameter im Parameterraum, so daß die ML-Methode intellektuell als anspruchsvoller anzusehen ist.
8.4. Die homogen lineare Regression Dies ist der einfachste Fall einer linearen Regression. Während der Begriff Regression besagt, daß eine Abhängigkeit einer Variablen (Y) von einer anderen Variablen (X) besteht, bedeutet der Begriff lineare Regression, daß Y linear von X abhängt. Man bezeichnet dann Y als endogene Variable (zu erklärende Variable) und X als exogene Variable (erklärende Vari-
§8. Schätztheorie
103
able). Wir gehen aus von zwei Zeitreihen, die uns Beobachtungspaare für T Perioden liefern. Anstatt bivariater Betrachtungen der Zeitreihenanalyse lassen sich die gleichen Betrachtungen anstellen für zwei Merkmale einer Stichprobenuntersuchung. Für die Beobachtungen yt (t = 1, ..., T) der Variablen Y gelte folgende Abhängigkeit von den Beobachtungen xt der Variablen X der gleichen Periode: (8.4.1)
yt = b • x t + e t
für t = 1, ..., T,
wobei b die Schätzung des unbekannten Steigungsparameters p sei und die et die Abweichungen (Residuen) der Schätzungen (8.4.2)
yt =
b • xt
von den Beobachtungen yt seien, so daß (8.4.3)
et = yt
_
Yt •
Die Beziehung (8.4.1) steht für eine homogen lineare Regression, d.h. eine lineare Funktion durch den Ursprung (d.h. der Ordinatenabschnitt ist Null), die durch die Störterme et additiv überlagert wird. Wenn wir die Beziehung (8.4.1) nach et auflösen, erhalten wir auch (8.4.4)
et = yt - b •
•
Somit gilt für die Summe der Quadrate der Residuen nach der OLS-Methode
(8.4.5)
T Z et2 t=l
=
T Z t=l
( y t - b • xt)2 .
Die Minimierung der Quadratsumme bezüglich b ergibt im Minimum d (8.4.6)
T Z et2 t=l d b
= -2
T Z (Yt " b • x t ) • x t = 0 , t=l
wobei Gebrauch gemacht wurde von dem Satz, daß die Ableitung einer Summe gleich der Summe der Ableitungen der Summanden ist, mithin das Summenzeichen vorgezogen werden kann. Nach der Kettenregel gilt für einen der Summanden, daß
104
§8. Schätz theorie
d et 2 (8.4.7)
d et 2 =
d b
d et •
d et
d b
2 e t • (-xt) ,
=
w o b e i auf (8.4.4) h i n g e w i e s e n w i r d . Der k o n s t a n t e F a k t o r - 2 w u r d e in (8.4.6) v o r d a s S u m m e n z e i c h e n g e z o g e n . W e n n w i r b e i d e S e i t e n d e r l e t z t e n G l e i c h u n g v o n (8.4.6) d u r c h - 2 d i v i d i e r e n , erhalten wir, wenn w i r die Klammer auflösen und die multiplikative Konstante b vor die Summe ziehen
(8.4.8)
T T Z xt • yt = b • £ t=l t=l
xt2 ,
w o r a u s folgt, d a ß m a n a l s O L S - S c h ä t z u n g
(8.4.9)
T £ x t • yt t=i
b =
T Z t=l
xt
erhält
.
2
W e n n für d i e z e i t l i c h e n M i t t e l z u s ä t z l i c h g i l t ,
(8.4.10)
1 T
* =
T Z t=l 1
X t
=
daß
0
und (8.4.11)
1 y = = 1
T Z t=l
Y t = 0,
so k a n n m a n f ü r d i e O L S - S c h ä t z u n g (8.4.12)
b =
(8.4.9) a u c h
c o v ( x , y) 5 Sx
mit (8.4.13)
c o v ( x , y) = = 1
T Z (xt - x)• (yt - y) t=l
schreiben
§8. Schätztheorie
105
und (8.4.14)
Sx^
1
t=l
(*t " x) 2
8.5. Die lineare Einfachregression Wieder gehen wir aus von zwei Zeitreihen, die uns Beobachtungspaare für T Perioden liefern. Für die Beobachtungen yt (t = 1, . . ., T) gelte nun folgende Abhängigkeit von den Beobachtungen xt der gleichen Periode (vgl. auch Leiner (1992), S. 208ff): (8.5.1)
yt = a + b • xt + et
für t = 1, ..., T,
wobei a die Schätzung des unbekannten Ordinatenabschnitts a und b die Schätzung des unbekannten Steigungsparameters p einer Geraden durch die aus den T Beobachtungspaaren gebildete Punktewolke sind, die sich in ein Streudiagramm einzeichnen läßt. Im üblichen Streudiagramm werden die T Punkte dieser Punktewolke so eingezeichnet, daß der xt-Wert auf der Abszisse und der yt-Wert auf der Ordinaten abgetragen werden. Wie man durch Vergleich von (8.5.1) mit (8.4.1) sieht, ist die linear homogene Regression ein Spezialfall der linearen Einfachregression für a=0. Mit (8.5.2)
yt = a + b • xt
werde die OLS-Schätzung von yt bezeichnet, so daß auch hier (8.5.3)
e t = yt - yt
für die Abweichungen der Schätzungen von den Beobachtungen yt steht. Auflösen von (8.5.1) nach et liefert diesmal (8.5.4)
et = Yt " a - b • xt ,
so daß nun die Summe der Quadrate der Residuen nach der OLSMethode
(8.5.5)
T E t=l
etJ
=
T Z t=l
(yt - a - b • x t ) 2
106
§8. Schätztheorie
zu minimieren ist, wobei die partiellen Ableitungen nach a u n d b zu bilden sind. Die partielle Ableitung nach a liefert im T Z t=l (8.5.6)
=
a a
T Z t=l
-2
Minimum
(yt - a - b • xt)
=0
die partielle Ableitung nach b liefert im Minimum a (8.5.7)
T Z t=l
et2
a b
= -2
T Z t=i
(yt - a - b • x t ) • xt = 0 .
Der Faktor - 2 verschwindet, wenn m a n durch ihn dividiert. W e n n m a n dann in (8.5.6) beide Seiten der letzten Gleichung noch durch T dividiert, erhält man (8.5.8)
y = a + bx
u n d daraus als Bestimmungsgleichung für a (8.5.9)
a = y - bx .
A u s (8.5.7) erhält m a n die Normalgleichung
(8.5.10)
T Z * t yt = a t=l
Einsetzen v o n (8.5.9)
(8.5.11)
T Z t=l
T Z xt + b t=l
T Z xt t=l
liefert
_ _ x t y t = (y - bx)
T Z xt + b t=l
T Z xt2 t=l
Dividieren w i r beide Seiten durch T u n d vereinigen die Terme m i t b, so erhalten wir
107
§8. Schätztheorie
(8.5.12)
1 b ( =
T Z xt t=l
1
- x x)
=
1 m 1
T Z x t=l
t
y t - x y
Wenn wir beide Seiten durch den in Klammern angegebenen Faktor v o n b dividieren, gewinnen w i r die Bestimmungsgleichung für b:
(8.5.13)
b =
I T m Z xt yt - x y 1 t=l 1
= 1
T
Z t=l
xt
2
" " - x x
Für (8.5.13) können w i r auch schreiben
(8.5.14)
b =
cov(x, y) sx 2
denn aus (8.4.13) erhalten wir durch Auflösen der Klammern
(8.5.15)
1 _ 1 _ 1 cov(x, y) = = Z x t y t - y m Z x t - x = Z y t + 1 1 1 t t t
xy
= m Z x t yt - x y , 1 t da v o n den letzten drei Termen, die v o n der A r t x y sind, zwei negativ u n d einer positiv sind. Für x=y erhält m a n aus (8.5.15), da cov(x, y) dann als Spezialfall die Varianz (8.4.14) enthält, nun
(8.5.16)
sx2 = ^ Z xt2 1 t
- x x ,
§8. Schätztheorie
108
so daß damit die Übereinstimmung von (8.5.14) mit (8.5.13) bewiesen ist. Für praktische Probleme berechnet man zuerst mit der Bestimmungsgleichung (8.5.14) b, setzt dieses dann in die Bestimmungsgleichung (8.5.9) für a ein und verwendet dann die beiden Parameterschätzungen a und b zu Bestimmung der Schätzung (8.5.2) des Wertes von yt für einen vorgegebenen Wert von xt • Wegen eines Rechenbeispiels kann auf Leiner (1992), S. 54-55 verwiesen werden, wo man auch ein Streudiagramm für dieses Beispiel findet. Im folgenden Abschnitt werden die bisherigen Betrachtungen verallgemeinert auf den Fall mehrerer Regressoren. Dabei ist es notwendig, auf fortgeschrittene Ergebnisse der Matrizenrechnung zurückzugreifen. Leser, die sich für Mehrgleichungsprobleme ökonometrischer Schätzungen interessieren, seien in diesem Zusammenhang auf meine Dissertation mit dem Titel Ökonometrische Schätzverfahren (Saarbrücken 1965) und die dort angeführte Literatur verwiesen.
8.6. Die lineare Mehrfachregression
Aufgrund von T Beobachtungstupeln der endogenen Variablen Y und der k+1 exogenen Variablen Xo , Xi , ..., Xfc , wobei Xo eine Scheinvariable (engl, dummy variable) für den Ordinatenabschnitt ist, liegt unter den üblichen Annahmen (siehe hierzu Leiner (1992), S. 208-210) folgendes Gleichungssystem vor: Y1 = *01 ßo + *ll ßl + ••• + x kl ßk +
(8.6.1)
! y T = xqt ßo + X 1T ßl + ••• + x kT ßk +
.
Dies ist ein Gleichungssystem, das aus T Gleichungen für die T Beobachtungsperioden besteht, mit den k+1 unbekannten Parametern ßj (j = 0, 1, ..., k) . Für die Werte der Scheinvariablen gilt (8.6.2)
x0t = 1
für t = 1, ..., T.
Die u-t (t = 1, ..., T) sind die latenten Variablen der T Perioden, die als Störgrößen interpretiert werden können. Mit der Notation
yi
*01 X 11
Xkl
y =
und u =
ß = yT
XQT X 1T
x
kT
Ul
Pol
ßk
ut
§8. Schätz theorie
109
lautet unser Gleichungssystem in Matrizenschreibweise
(8.6.3)
y = X ß + u .
Die einfachsten Annahmen, die man treffen kann, sind
(8.6.4)
E(U) = OTxl ,
d.h. der Erwartungswert aller latenten Variablen sei Null, mithin der Erwartungswert des Vektors u ein Null-Spaltenvektor mit T Elementen, (8.6.5)
Zu =
E(UU')
= a2 I T ,
d.h. die Varianz-Kovarianz-Matrix sei eine Skalarmatrix (Homoskedastizität und Abwesenheit von Autokorrelation, siehe Gleichung (5.2.20)) und (8.6.6)
X enthalte nur feste Größen, d.h. rg(X) = k+1 < T,
wobei rg(X) der Rang der Matrix X sei (d.h. die Maximalzahl der voneinander linear unabhängigen Zeilen bzw. Spalten eben dieser Matrix).
Seien A
yi
A
(8.6.7)
bo und
y yT
bk
die Vektoren der Schätzungen der endogenen Variablen bzw. der Schätzungen der Parameter, so gilt in Matrizenschreibweise
(8.6.8)
A
y = X b .
110
§8- Schätztheorie
Weiter sei
(8.6.9) ®T der Vektor der Residuen, so daß (8.6.10)
A
a = y - y .
Dann läßt sich nach OLS die Summe der Quadrate der Abweichungen bilden mit dem Skalarprodukt (8.6.11) e'e = [ei ... cp]
=
ei
T Z et t=l
eTj Aus dem Skalarprodukt erhalten wir durch Einsetzen von (6.8.10)
(8.6.12)
A
A
e'e = (y - y)'(y - y) .
Dies können wir wegen (8.6.8) weiterentwickeln zu (8.6.13)
e'e = (y - Xb)'(y - Xb) = y'y - y'Xb - b x y + b x x b
= yy - 2 b'X'y + b'X'Xb .
Wenn wir nun nach OLS die Summe der Quadrate der Abweichungen bezüglich der Parameterschätzungen minimieren, so bedeutet dies, daß wir dieses Skalarprodukt bezüglich der Elemente des Vektors b partiell differenzieren müssen. Dabei sind nur die beiden letzten Ausdrücke von (8.6.13) relevant, da nur sie b enthalten. Eine intensivere Beschäftigung mit partiellen Ableitungen in Matrizennotation zeigt, daß in unserem Problem im Minimum gilt (notwendige Bedingung des Minimums ist, daß alle 1. Ableitungen nach den k+1 Parameterschätzugen Null sind), daß
§8. Schätztheorie
111
e'e
d
(8.6.14)
= d
- 2 X'y + 2 X'Xb = 0 (k+1) »1 •
b
wobei plausibel ist, daß, wenn man einen Skalar (und das Skalarprodukt ergibt stets einen Skalaren, also eine einzelne Zahl) nach einem Spaltenvektor differenziert, ein Spaltenvektor gleicher Ordnung resultieren muß. Wie man in (8.6.14) an der angefügten Ordnung des Nullvektors erkennt, enthält der Null-Spaltenvektor genau k+1 Nullen. Die 2. Ableitung ergibt
(8.6.15)
& e'e 8
b'b
= 2 X'X ,
also eine positiv definite Matrix, womit die hinreichende Bedingung für ein Minimum erfüllt ist. Aus der Matrizengleichung (8.6.14) erhalten wir nach Division mit -2 nunmehr (8.6.16)
X'y = X'Xb .
Da nach Annahme (8.6.6) die Matrix X den Rang k+1 hat, hat die Matrix X'X den vollen Rang (also k+1), ihre Inverse existiert demnach und wir erhalten als Lösung der Gleichung (8.6.16) die OLS-Schätzung (8.6.17)
b = (X'X)_1X'y .
Beispiel: Wir wollen uns anschauen, inwieweit die lineare Mehrfachregression in der Matrizenschreibweise die lineare Einfachregression als Spezialfall enthält und setzen k=l. In diesem Fall enthält die Matrix der Beobachtungen der exogenen Variablen (unter Einschluß der Scheinvariablen ist sie von der Ordnung Tx2) folgende Werte: XI X2 X
=
xT
112
§8. Schätztheorie
so daß das Produkt der Transponierten X' (diese ist von der Ordnung 2xT) mit X in dieser Reihenfolge eine guadratische Matrix der Ordnung 2 ergibt(im folgenden laufen alle Summen von t=l bis t=T):
X'X = j~l 1 ... l~l |xi x 2 ... xTJ
T
H
xi
1
X2
1
xt
Z xt t I xt t
Z xt2 t
Entsprechend erhalten wir, da y für beliebiges k stets von der Ordnung Txi ist als Produkt der Matrix X' mit y in dieser Reihenfolge einen Vektor der Ordnung 2x1, d.h. einen Spaltenvektor mit 2 Elementen:
X'y = n [xi
i ... i ! yi x 2 ... X T J Y2
YT
2 Yt t Z x t yt t Die Inverse des Matrizenprodukts X'X ist eine Matrix der Ordnung 2, im Nenner erkennt man die Determinante der Matrix X'X, die Adjunkte erhält man durch Vertauschen der Hauptdiagonalelemente und indem man das Vorzeichen der restlichen Elemente wechselt:
§8. Schätztheorie
Z xt t
-1
(X'X)
T Ext t
Zx t Zx t t t
113
-Z xt t
-Z xt t
Führt man nun (8.6.17) aus, so gewinnt man die beiden Parameterschätzungen
(8.6.18)
b0 =
Z yt Z xt2 t t
Z xt Z xt yt t t
T Z xt t
-
Z xt Z xt t t
t Z xt yt t
-
Z xt Z yt t t
T Z xt t
-
Z xt Z xt t t
und (8.6.19)
bi =
Daß Gleichung (8.6.19) mit Gleichung.(8.5.13) übereinstimmt, erkennt man, wenn man (8.6.19) mit T kürzt. Die Übereinstimmung von Gleichung (8.6.18) mit der Gleichung (8.5.9) kann man zeigen, wenn man entsprechend (8.5.13) in (8.5.9) einsetzt.
8.7. Schätzkriterien
Um die Güte von Schätzungen beurteilen zu können, stehen einige Schätzkriterien zur Verfügung. Wir gehen aus von einem unbekannten Parameter 9, der geschätzt werden soll. 8.7.1. Erwartunastreue A
Definition; Eine Schätzung 6 heißt erwartunqstreu (engl, unbiased) für den zu schätzenden Parameter 0, wenn (8.7.1)
A
E(9) = 9 .
Bemerkung: Andere Bezeichnungen für die Erwartungstreue als Eigenschaft guter Schätzungen sind Unverzerrtheit bzw. Unverfälschtheit.
114
§8. Schätztheorie
A
Definition: Ist E(9) * 9, so bezeichnet man A
(8.7.2)
A
b (9) = E (6) - 9 A
als Verzerrung
(engl, bias) der Schätzung 9 .
Bemerkung; Die Erwartungstreue ist eine Eigenschaft, die über das Konvergenzverhalten der Schätzung bei zunehmendem Stichprobenumfang keine Aussage trifft. Bei genauerer Betrachtung ist jede Schätzung davon abhängig, wie groß der Umfang n der Stichprobe ist, die die Datenbasis der Schätzung darstellt. A
Definition: Eine Schätzung 0(n) heißt asymptotisch erwartungstreu für den zu schätzenden Parameter 9, wenn für über alle Grenzen wachsenden Stichprobenumfang gilt, daß A
(8.7.3)
lim
E(9(n)) = 9 .
Bemerkung: In der Stichprobenpraxis gibt es Situationen, in denen die Schätzungen einen bias aufweisen, dieser jedoch mit zunehmendem Stichprobenumfang gegen Null tendiert. Auch in der Zeitreihenanalyse kann ein bias verschwinden, wenn sich die Anzahl der vorliegenden Beobachtungen im Zeitverlauf erhöht. Liegen etwa in der Stichprobensituation mehr als 300 Beobachtungen vor oder werden in der Zeitreihenanalyse Monatsdaten für mehr als 20 Jahre betrachtet, so ist ein Schätzverfahren, das asymptotische Schätzungen liefert, praktisch aus dieser Sicht vergleichbar mit einem Schätzverfahren, das erwartungstreue Schätzungen erzielt. 8.7.2. Effizienz Definition: Eine erwartungstreue Schätzung 9 heißt effizient bezüglich einer Klasse Kg erwartungstreuer Schätzungen, wenn für alle Schätzungen dieser Klasse gilt A
(8.7.4)
-
V(9) ^ V(9)
—
für
9 e KE .
Bemerkung: Effizient können also nur erwartungstreue Schätzungen sein. Für den Vergleich der Variation nicht erwartungstreuer Schätzungen empfiehlt sich die Betrachtung des Gesamtfehlers (engl, mean Square error, abgekürzt MSE), der der Quadratwurzel aus der Summe von Varianz und dem Quadrat des bias entspricht (vgl. hierzu Leiner (1994), S. 11-13). Auch das Schätzkriterium Effizienz trifft keine Aussage über das Konvergenzverhalten der Schätzung bei zunehmendem Stichprobenumfang .
§8. Schätztheorie
115
8.7.3 Konsistenz Es lassen sich verschiedene Formen der Konsistenz unterscheiden. Da eine Schätzung als Wert einer Schätzfunktion, die auf Zufallsvariablen basiert, selbst eine Zufallsvariable ist, entspricht der zumeist verwendete Begriff der Konsistenz formal dem Begriff der stochastischen Konvergenz von Zufallsvariablen (vgl. § 6). A
Definition: Eine Schätzung 9(n) ist konsistent (genauer; konsistent in Wahrscheinlichkeit) bezüglich des zu schätzenden Parameters 8, wenn A
(8.7.5)
lim P(| G(n) - e I £ E) = 0
für E > 0 ,
wofür wir mit dem Wahrscheinlichkeitslimes schreiben können (8.7.6)
A
plim 8(n) = 8. n-> °o
Stärker ist die folgende Definition der Konvergenz, die in der Literatur verwendet wird, wenn davon die Rede ist, daß Konvergenz asymptotische Erwartungstreue impliziert. Dann kann im Sinne der obigen Bemerkung zur Effizienz nur eine Konvergenzbetrachtung des mean Square errors zugrundeliegen. A
Definition: Eine Schätzung 8(nj ist konsistent (im quadratischen Mittel) bezüglich des zu schätzenden Parameters 8, wenn A
(8.7.7)
lim E[( 8(n) - 8 )2 ] = 0 . n-*»
Bemerkung: Auch hier läßt sich mit der Tschebyscheffschen Ungleichung beweisen, daß diese Form der Konsistenz die zuvor definierte Form der Konsistenz impliziert in Form einer einseitigen Implikation. 8.7.4. Suffizienz Dieses Schätzkriterium wurde von R.A. Fisher entwickelt. Bezeichnenderweise zeichnet dieses Kriterium die von ihm entwickelte ML-Methode im Vergleich zur OLS-Methode aus. A
Definition: Eine Schätzung 8 heißt bezüglich des zu schätzenden Parameters 8 suffizient. wenn sie alle relevante Information aus der Stichprobe enthält.
116
§8. Schätztheorie
Bemerkung: Demnach ist eine Schätzung als insuffizient zu bezeichnen, wenn sie Stichprobeninformationen vorenthält. So ist etwa der aus den Wertungen von Schiedsrichtern beim internationalen Eislauf gebildete Mittelwert eine insuffiziente Maßzahl, wenn in diesen die beiden extremen Wertungen (kleinste und größte gegebene Punktezahl) nicht eingehen, weil man z.B. verhindern will, daß ein amerikanischer Schiedsrichter den amerikanischen Eisläuferinnen stets die besten Punkte zukommen läßt. Zur Überprüfung der Suffizienz ist das folgende Kriterium von Jerzy Neyman geeignet. Faktorisierunq nach Nevman: A Läßt sich mit Hilfe der Schätzung 6 des unbekannten Parameters 0 aus den Stichprobenwerten Xi , . . . , x n die gemeinsame Beobachtungsdichte f(Xi , ..., xn|6) in Faktoren zerlegen, wobei A
A
(8.7.8) f(x, , ..., x n l 6 ) = g(6, 9) • h(x, , ..., x n l 0) , A
so ist 6 eine suffiziente Schätzung für 6. A
Bernerkuna; Dies bedeutet, daß die auf 6 gestützte Beobachtungsdichte h von 6 unabhängig ist, so daß mit ihr und der Kenntnis der Distanzfunktion g die Beobachtungsdichte f bestimmt werden kann. Für insuffiziente Maßzahlen ist eine derartige Faktorisierung nicht möglich bzw. ist h dann eine Funktion nicht A
nur von 6 sondern auch zusätzlich von 6. In Menges (1968), S. 301 findet man ein einfaches Beispiel, das zeigt, daß das Stichprobenmittel eine suffiziente Maßzahl ist.
8.8. Konfidenzintervalle
Die bisher betrachteten Schätzverfahren basierten auf Punktschätzungen. Die Wahrscheinlichkeit, daß eine beliebige Punktschätzung einen unbekannten, als konstant vorstellbaren Parameterwert trifft, ist praktisch gleich Null, da die Wahrscheinlichkeit eines Punktes auf der reellen Zahlenachse gleich Null ist. Es gibt daher verschiedene Ansätze, wie man in Schätzproblemen mit Intervallen arbeiten kann, die einen Punkt auf der reellen Zahlenachse mit berechenbarer Wahrscheinlichkeit überdecken können. Das prominenteste dieser Intervallschätzverfahren ist die von Jerzey Neyman und Egon Sharpe Pearson (dem Sohn von Karl Pearson) entwickelte Konfidenzmethode. Als Ausgangspunkt verwendet die Technik der Konfidenzintervalle eine Punktschätzung, um die ein Intervall gebildet wird, das den unbekannten Parameter mit vorgegebener Wahrscheinlichkeit überdeckt.
§8. Schätztheorie
117
Die Technik soll anhand einer Konfidenzschätzung für den unbekannten Erwartungswert einer normalverteilten Grundgesamtheit vorgeführt werden. Die N Einzelwerte xi (i= 1, N) sind unabhängig verteilt mit identischem Erwartungswert n und identischer VarianzCT2.Dann gilt für das Stichprobenmittel (8.8.1)
E(x) = h
und (8.8.2)
V(x) =
o2 n
,
so daß die standardisierte Zufallsvariable
(8.8.3)
z =
(x - \i)TH c
standardnormalverteilt ist. Damit gilt (8.8.4)
P(-k £ z i k) = 1 — a ,
wenn k ein Sigma-Äquivalent der Standardnormalverteilung ist. Durch Einsetzen von (8.8.3) in (8.8.4) erhalten wir (8.8.5)
P(-ka S (X - n)V n
£ ka) = 1 - a,
wenn wir anschließend alle Seiten der Ungleichung mit der Standardabweichung a multiplizieren. Da die Standardabweichung definiert ist als die positive Quadratwurzel aus der Varianz, bleibt durch diese Multiplikation die Richtung der Ungleichungen bestehen. Da die Operation nur im Argument der Wahrscheinlichkeit vorgenommen wurde, bleibt diese unverändert. Division aller Seiten der Ungleichungen von (8.8.5) durch die Quadratwurzel und anschließende Subtraktion von x liefert (8.8.6)
P(-x
£ - ji ^ -x + k
r*
) = 1
Werden nun die Ungleichungen mit -1 multipliziert, so ändert sich die Richtung der Ungleichungen und wir erhalten
118
(8.8.7)
§8. Schätztheorie
£ H £ X + k
P(x - k
) = 1 •f~n
Gleichung (8.8.7) enthält das Konfidenzintervall für den unbekannten Erwartunaswert u , das symmetrisch um den Stichprobenmittelwert gebildet wird, indem das k-fache der Standardabweichung des Stichprobenmittels addiert bzw. subtrahiert wird. In der folgenden Tabelle findet man prominente Sigma-Äquivalente der Standardnormalverteilung für symmetrische Intervalle der Art (8.8.8)
P(-kSySk)
= 1 - a .
1 - a bezeichnet man als Konfidenzzahl.
k 1 1,96 2 2,58 3 3,3
1 - a 0,6827 0,95 0,9545 0,99 0,9973 0,999
Tabelle 8.1: Sigma-Äquivalente der Standardnormalverteilung
Die Technik der Konfidenzintervalle läßt sich mit zahlreichen Verteilungen und für verschiedene Parameter anwenden. ÜBUNGSAUFGABEN Aufgabe 29: Wie lautet die Bestimmungsgleichung für den Regressionsparameter einer homogen linearen Regression? Aufgabe 30: Hie lauten die Bestimmungsgleichungen für die beiden Parameter der linearen Einfachregression? Aufgabe 31: Eine Befragung von 100 Personen nach ihrem Körpergewicht ergab ein Stichprobenmittel von 75 kg. Bestimmen Sie das Konfidenzintervall für das durchschnittliche Körpergewicht der Grundgesamtheit mit Varianz o2 = 225 [kg] , wenn die Konfidenzzahl 0,99 beträgt.
§9. Testtheorie 9.1. Allgemeines
Ausgangspunkt von Testsituationen ist eine Behauptung, die aufgestellt wird und deren Aussagegehalt angezweifelt wird. Aufgrund empirischer Evidenz soll sodann eine Entscheidung getroffen werden, ob man diese Behauptung als widerlegt ansieht oder nicht. In der Statistik wird eine derartige Arbeitshypothese als Nullhvpothese Ho bezeichnet. Diese Namensgebung ist darauf zurückzuführen, daß öfters Situationen betrachtet werden, in denen behauptet wird, daß für einen unbekannten Parameter 9 die Behauptung aufgestellt wird, daß (9.1.1)
H0:
9=0.
Die Nullhypothese kann jedoch auch einen beliebigen,von Null verschiedenen Wert 9o annehmen: (9.1.2)
H0:
6 = ö0 .
Eine Gegenhypothese nennt man in der Statistik Alternativhvpothese HA • Eine einfache AlteiTncitivhypothese zu (9* 1*1) wäre (9.1.3)
HA:
9* 0 .
Eine zusammengesetzte Alternativhypothese zu (9.1.1) wäre etwa (9.1.4)
HAI:
9 < 0
und
H&2•
6 > 0 .
Aufgrund von Beobachtungen xi , ... , x n aus einer Stichprobe soll nun entschieden werden, ob die Nullhypothese durch diese Informationen widerlegt wird oder nicht. Dies geschieht etwa dadurch, daß mit den Stichprobenwerten eine Punktschätzung des unbekannten Parameters durchgeführt wird. Ausgehend von dieser Punktschätzung wird dann ein kritischer Bereich (Ablehnungsbereich) gebildet für die Nullhypothese. Überdeckt dieser kritische Bereich den Wert der Nullhypothese, so wird diese automatisch abgelehnt. Überdeckt der kritische Bereich den Wert der Nullhypothese nicht, gilt die Nullhypothese durch die empirische Evidenz als nicht widerlegt. Beispiel: Es werde die Nullhypothese aufgestellt, das Durchschnittsgewicht eines Bundesbürgers beliefe sich auf 75 kg. Nicht jeder wird eine derartige Nullhypothese akzeptieren wollen. Einige werden behaupten, die Bundesbürger seien schwerer, andere stehen mit ihrer Meinung dafür, die Bundesbürger seien leichter. Nun würde eine Stichprobe durchgeführt und das Gewicht von 900 Bundesbürgern ermittelt, woraus sich ein Stichprobenmittelwert von rd. 78 kg ergäbe. Während einige die Abweichung von rd. 3 kg als Bestätigung ihrer Behauptung ansehen, daß die Bundesbürger schwerer als 75 kg seien, werden andere dies nicht akzeptieren und die Abweichung nur als zufällig entstanden ansehen.
120
S9. Testtheorie
Im Beispiel trägt das Testproblem stark subjektive soll entscheiden, wo die kritische Region anfängt, weichungen zwischen dem Wert der Nullhypothese und proberanittel als zu groß angesehen werden, um noch der Nullhypothese als vereinbar gelten zu können?
Züge. Wer ab der Abdem Stichmit dem Wert
Diese Entscheidung läßt sich formalisieren, wenn davon ausgegangen werden kann, daß die Beobachtungen einer bestimmten Verteilung gehorchen, so daß die kritische Region mit dieser Verteilung bestimmt werden kann. In diesem Stadium sollte schon klar sein, daß eine Nullhypothese durch eine Stichprobe nicht als wahr bestätigt werden kann, da schon die nächste Stichprobe ganz anders ausfallen kann. Ein behaupteter Parameterwert könnte letztlich nur durch eine Auswertung der Grundgesamtheit und nicht der Stichprobe als einer Teilmenge dieser Grundgesamtheit überprüft werden. Mit der Entscheidung aufgrund einer Stichprobe existieren daher prinzipiell zwei Möglichkeiten zu Fehlentscheidungen, mit denen wir uns nun beschäftigen wollen. 9.2. Die Gütefunktion Definition: Ein Fehler 1. Art liegt vor, wenn eine wahre Nullhypothese abgelehnt wird. Definition: Ein Fehler 2. Art liegt vor, wenn eine falsche Nullhypothese nicht abgelehnt wird. Wir können uns diese Situationen in folgendem Diagramm anschauen:
H0
ablehnen
H0
nicht ablehnen
HO ist wahr
Hq ist falsch
Fehler 1. Art
richtige Entscheidung
richtige Entscheidung
Fehler 2. Art
Bemerkung: Die Wahrscheinlichkeit, einen Fehler 1. Art zu begehen, beträgt a . Es ist dies die Wahrscheinlichkeit, daß der Wert von Ho in den kritischen Bereich fällt. Definition: Mit ß wird die Wahrscheinlichkeit bezeichnet, einen Fehler 2. Art zu begehen. Die in dem Diagramm aufgezeichneten vier Entscheidungssituation lassen sich mit Wahrscheinlichkeiten verbinden. Im Prinzip handelt es sich um bedingte Wahrscheinlichkeiten, wobei jede
§9. Testtheorie
121
der zwei Bedingungen zwei mögliche Handlungen nach sich ziehen kann. Wird eine Bedingung fixiert, sind die beiden bedingten Wahrscheinlichkeiten komplementär, d.h. ihre Werte ergänzen sich zu Eins, da nur diese beiden Aktionen zur Verfügung stehen. Damit ergibt sich folgende Konstellation: (9.2.1)
P(Ho ablehnen | Ho ist wahr) = a .
Dies ist die Wahrscheinlichkeit für den Fehler 1. Art. (9.2.2)
P(Ho nicht ablehnen I Ho ist wahr) = 1 - a .
Dies ist die komplementäre Wahrscheinlichkeit für eine richtige Entscheidung (wenn die Nullhypothese wahr ist). (9.2.3)
P(Ho nicht ablehnen I Ho ist falsch) = ß .
Dies ist die Wahrscheinlichkeit für den Fehler 2. Art. (9.2.4)
P(Ho ablehnen I H 0 ist falsch) = 1 - ß .
Dies ist die komplementäre Wahrscheinlichkeit für eine richtige Entscheidung (wenn die Nullhypothese falsch ist). Beispiel: Sie haben gestern eine Dose Fisch geöffnet, von dem heute noch ein wenig in Ihrem Kühlschrank liegt. Ihre Nullhypothese lautet, daß der Fisch noch genießbar sei. Ihre Stichprobe bestehe darin, daß Sie an dem Fisch riechen. Nun treffen Sie Ihre Aktion. Werfen Sie den Fisch in den Abfall, obwohl er eigentlich noch gut ist, so begehen Sie einen Fehler 1. Art. War er schlecht, so war dies eine richtige Entscheidung. Essen Sie den Fisch, obwohl er Salmonellen aufweist, so begehen Sie einen Fehler 2. Art. Essen Sie den verdorbenen Fisch nicht, so war auch dies eine richtige Entscheidung. Wie das Beispiel zeigt, sind die Kosten, die mit einem Fehler 2. Art verbunden sind (z.B. Intensivstation) meist höher als die Kosten, die mit einem Fehler 1. Art verbunden sind (gute Fische im Abfall). Da sich nicht zugleich der Fehler 1. Art und der Fehler 2. Art reduzieren lassen, führt dies dazu, daß man dem Fehler 2. Art größere Beachtung schenkt. Definition: Den Graphen der Wahrscheinlichkeit 1 - ß (als Ordinate) , die man für verschiedene Werte 9 (als Abszisse) der Alternativhypothese abträgt, nennt man Gütefunktion. Bemerkung: Die Gütefunktion läßt daher erkennen, mit welcher Wahrscheinlichkeit ein Fehler 2. Art vermieden wird bei einem bestimmten Wert der Alternativhypothese in Abweichung vom Wert der Nullhypothese. Stimmen die beiden Werte überein, so nimmt die Gütefunktion den Wert a an. Dies ist der niedrigste Wert der Gütefunktion. Ausgehend von diesem Minimalwert nähert sich die Gütefunktion mit (betragsmäßig) zunehmendem Wert 6 der Alternativhypothese asymptotisch dem Maximalwert Eins. Werden Gütefunktionen zweier Tests miteinander verglichen, so ist ein starker Anstieg einer Gütefunktion als positiv zu beurteilen, da die Asymptotik hierdurch beschleunigt wird.
122
§9. Testtheorie
Liegen alle Werte der Gütefunktion eines Tests A nicht unter den Werten der Gütefunktion des Tests B, so gilt Test A als dominant (gleichmäßig besser) gegenüber Test B. Für eine Normalverteilung ist in Leiner (1992) in Figur 15.1 eine derartige Gütefunktion für einen beidseitigen Test eingezeichnet, wobei der betrachtete Parameter der Erwartungswert )i dieser Normalverteilung ist. Definition; Als Operations-Charakteristik (OC-Kurve) bezeichnet man den Graphen von ß (Ordinate), das man für verschiedene Werte 9 (Abszisse) der Alternativhypothese abträgt. Bemerkung: Die Operations-Charakteristik gestattet somit eine Beurteilung der Wahrscheinlichkeit, mit der ein Fehler 2. Art begangen wird bei einem bestimmten Wert der Alternativhypothese (in Abweichung von dem Wert der Nullhypothese).
9.3. Beispiele von Hypothesentests
Elementare Testsituationen wurden bereits in meiner Einführung in die Statistik im 15. Kapitel beschrieben. Wir wollen uns hier mit einigen fortgeschrittenen Hypothesentests befassen. 9.3.1. Der Durbin-Watson-Teat
J. Durbin und G.S. Watson (1950),(1951) haben einen Test auf Autokorrelation der Residuen in Regressionsproblemen entwikkelt. In der statistischen Praxis läßt Autokorrelation der Residuen vermuten, daß die Regression fehlspezifiziert wurde, d.h. daß ein falscher Funktionstyp verwendet wurde. Da eine direkte Beobachtung der latenten Variablen ut (t = 1, ..., T) nicht möglich ist, wird die Autokorrelation im DurbinWatson-Test mit Hilfe der Residuen et gemessen. Für die Testgröße
(9.3.1)
d
T I t=2
(et - et-i)2 T z t=l
2 et
errechnet sich als Erwartungswert (9.3.2)
T-l E(d) = 2 • — •
(1 " P)
§9. Testtheorie
1 23
wenn p der Autokorrelationskoeffizient 1. Ordnung ist, d.h. unter den üblichen Annahmen, daß (9.3.3)
E(ut) = 0
V t ,
d.h. daß alle latenten Variablen den Erwartungswert Null haben und (9.3.4)
V(ut) = a u 2
V t ,
d.h. daß alle latenten Variablen die gleiche Varianz aufweisen (Homoskedastizität). Unter diesen Bedingungen gilt, daß E(ut • u t -i) (9.3.5)
p =
.
au Wir bemerken, daß Autokorrelationskoeffizienten analog zu Korrelationkoeffizienten gebildet werden, d.h. daß die Kovarianz der beteiligten Zufallsvariablen (hier die latente Variable ut und ihr Vorgänger ut-i für die Autokovarianz 1. Ordnung) dividiert wird durch das Produkt der Standardabweichungen der beiden beteiligten Zufallsvaiablen, die hier gemäß Annahme (9.3.4) identisch gleich CTu sind. Bei der Berechnung des Erwartungswerts ist weiter von Bedeutung, daß die Autoren von einer ganz speziellen Form der Autokorrelation ausgehen. Der Test gilt eigentlich nur für Situationen, in denen eine Autokorrelation 1. Ordnung vorliegt, d.h. für die latenten Variablen gilt (9.3.6)
u
t
=
P • uT-I
+
ET
,
d.h. diese einer Autoregression 1. Ordnung gehorchen mit einer zusätzlichen Störvariablen Et , für die folgende Annahmen getroffen werden: (9.3.7)
E(et) = 0
V t ,
(9.3.8)
V(et) =
V t ,
(9.3.9)
E(es • et) = 0
für S * t
und (9.3.10)
E(us • et) = 0
für t > s.
Da aufgrund der vorgenommenen Normierung auch für den Autokorrelationskoeffizienten 1. Ordnung gilt, daß (9.3.11)
0 s p 0) , so wird mit (9.3.2) d nahe bei Null zu liegen kommen oder bei exakter linearer Abhängigkeit diesen Wert annehmen. Liegt in (9.3.6) eine starke negative Abhängigkeit vor (negative Autokorrelation mit p < 0), so wird mit (9.3.2) d nahe unter dem Wert 4 zu liegen kommen. Liegt keine Abhängigkeit vor, d.h. liegt p in der näheren Umgebung von Null, so wird mit (9.3.2) d in der Nähe von 2 zu liegen kommen bei diesem Test. A priori ist das Vorliegen positiver Autokorrelation bei Daten zu vermuten, die hoch aggregiert sind, d.h. aus einer Fülle von Ginzeldaten per Addition gewonnen werden, wie dies gerade für viele ökonomische Daten zutrifft. Dagegen wird man a priori dann negative Autokorrelation erwarten können, wenn die Daten zusätzlich Transformationsprozesse durchlaufen, etwa Differenzen gebildet werden aufgrund der Vorgaben der Modelle der Wirtschaftstheorie oder aufgrund statistischer Eingriffe, um etwa einen Trend zu bereinigen. Wie schon in Leiner (1973) gezeigt wurde, liefert der DurbinWatson-Test irreführende Diagnosen, wenn seine Voraussetzung, daß eine Autokorrelation 1. Ordnung vorliegt, überhaupt nicht zutrifft und eine Autokorrelation höherer Ordnung vorliegt. Das bedeutet, daß der Test nicht zuverlässig arbeitet, wenn etwa saisonale Abhängigkeiten bei Honatsdaten in der Art bestehen, daß gleiche Monate aufeinanderfolgender Jahre statistisch verbunden sind (z.B. Saisontiefs im Februar). Die praktische Arbeit mit dem Durbin-Watson-Test wird zudem dadurch erschwert, daß für einen Indifferenzbereich zwischen einer tabellierten Obergrenze do und einer tabellierten Untergrenze du keine Aussage getroffen werden kann. In den in der Originalpublikation angefügten Tabellen muß also der errechnete Wert d mit diesen beiden Größen verglichen werden. Sind die Modellvoraussetzungen zutreffend, so gilt: Ist d < du , so kann unter den Gegebenheiten der Daten die Nullhypothese positiver Autokorrelation 1. Ordnung nicht verworfen werden. Die Anwesenheit positiver Autokorrelation wird also von einem Benutzer eines Computerprogramms, das diese Testgröße berechnet, vermutet. Ist d > do , so kann die Nullhypothese positiver Autokorrelation unter den Gegebenheiten der Daten durch den Test nicht bestätigt werden. Derselbe Benutzer des Computerprogramms wird nun davon ausgehen, daß seine Daten keine positive Autokorrelation enthalten.
§9. Testtheorie
125
Will man auf negative Autokorrelation testen, so muß man nach den Angaben der Autoren die Testgröße 4-d mit ihren tabellierten Schranken du und do vergleichen. Falsch ist es demnach, die Testgröße d mit 4 - du und 4 - do zu vergleichen, da das Problem nicht symmetrisch ist. Ist 4 - d < du , so wird unser Benutzer des Computerprogramms die Anwesenheit negativer Autokorrelation vermuten. Ist 4 - d > do , so wird der Benutzer eines derartigen Computerprogramms davon ausgehen, daß seine Daten keine negative Autokorrelation aufweisen. Besitzt man keine a priori-Kenntnis, ob entweder die Hypothese positiver oder die negativer Autokorrelation aufzustellen ist, so muß man zweiseitig testen, d.h. die Irrtumswahrscheinlichkeiten der Tabelle sind zu verdoppeln. 9.3.2. Prüfung der Parameter der linearen Einfachregression
9.3.2.1. Prüfung des Rearessionsparameters b Für den Regressionsparameter b der linearen Einfachregression (8.5.1) lautet die Varianz (9.3.13)
s2
V(b) = T
£
t=l
(xt
-
" 2
wobei s als Schätzung der unbekannten Varianz a2 der latenten Variablen ut erwartungstreu geschätzt wird mit 2
(9-3.14)
1 s2 = — 1 *
T
£ et2 , t=l
da bei der Regression die Anzahl der Beobachtungen um 2 zu vermindern ist, da zuerst die beiden Parameter zu schätzen sind, bevor die Varianz berechnet werden kann. Die Anzahl der Freiheitsgrade ist also hier um 2 kleiner als die Anzahl der Beobachtungen . Testet man daher die Nullhypothese (9.3.15)
H0: b = 0 ,
daß der Regressionsparameter (Steigung der Regression) verschwindet, d.h. daß die Variable X keinen Einfluß auf die Variable Y habe, so verwendet man als Prüfgroße die standardisierte Größe
(9.3.16)
t =
b
T • ;V •I •(xt - x) t=l
126
§9.
Testtheorie
und vergleicht diesen Wert mit dem tabellierten Wert ttab der t-Verteilung mit T-2 Freiheitsgraden. Gilt für den berechneten Wert t, daß t > ttab i s o ist die Schätzung b des Regressionskoeffizienten signifikant von Null verschieden. Im anderen Fall kann bei vorgegebener Irrtumswahrscheinlichkeit a davon ausgegangen werden, daß die Regession mit X nichts zur Erklärung von Y beiträgt. 9.3.2.2. Prüfung des absoluten Glieds a Für das absolute Glied der linearen Einfachregression lautet die Varianz 1
2
(9.3.17)
T
- 1Y
s V(a) =
2
I xt t=l
.
T
2 (xt - -x 2 ^ t=l Bemerkung: Für — x = 0 ergibt sich daraus V(a) = s 2 /T. Siehe hierzu Linder (1964), S. 393. Testet man daher die Nullhypothese (9.3.18)
Ho: a = 0 ,
daß der absolute Wert nur zufällig von Null verschieden ist, so verwendet man als Prüfgröße die standardisierte Größe
(9.3.19)
t =
Z (xt - x)2 t=l 1
T
2
I xt t=l
und vergleicht diesen Wert mit dem tabellierten Wert ttab der t-Verteilung mit T-2 Freiheitsgraden. Gilt für den berechneten Wert t, daß t > ttab > s o i-st die Schätzung a des absoluten Gliedes signifikant von Null verschieden. Im anderen Fall kann bei vorgegebener Irrtumswahrscheinlichkeit a davon ausgegangen werden, daß die Regression keinen Ordninatenabschnitt aufweist. Ist dann der Regressionskoeffizient b signifikant von Null verschieden, handelt es sich um eine homogen lineare Regression. Bemerkung: Für die lineare Mehrfachregression lassen sich im Fall k=l diese Varianzen der Varianz-Kovarianz-Matrix
§9. Testtheorie
(9.3.20)
127
Zb = ^(X'X)"1
als Hauptdiagonalelemente entnehmen. Vgl. hierzu Schönfeld (1969), S. 60.
9.3.3. Prüfung eines Korrelationskoeffizienten
Ein empirischer Korrelationskoeffizient r der linearen Einfachregression besitzt die Varianz
(9.3.21)
V(r) =
1 - r T-2
Man kann daher als Prüfgröße die standardisierte Größe (vgl. Cramer (1946), S. 400) (9.3.22)
t =
r • V T-2 V 1 - r2
verwenden und diese mit dem tabellierten Wert ttab teilung mit T-2 Freiheitsgraden vergleichen.
der
t-Ver-
Ist t > ttab / s o ist der Korrelationskoeffizient mit vorgegebener Irrtumswahrscheinlichkeit a signifikant von Null verschieden, im anderen Fall war die scheinbare Abweichung von Null nur zufällig. Ein Beispiel für einen derartigen Test findet man etwa in Menges (1961), S. 203. Für die Praxis ist eine Vielzahl statistischer Tests entwickelt worden. Aus der umfangreichen Literatur zu diesem Themenbereich seien besonders erwähnt Linder (1964), Sachs (1974), Tiede-Voß (1979), Heller-Lindenberg-Nuske-Schriever (1980), Bamberg-Baur (1985), Lienert (1973) und (1978) sowie das klassische Werk von Lehmann (1964).
ÜBUNGSAUFGABEN
Aufgabe 32: Was versteht man unter einem Fehler 1. Art und einem Fehler 2. Art? Aufgabe 33: Was versteht man unter der Gütefunktion eines Tests?
§10. Zusammenfassung Das vorliegende Buch hat sich als weiterführendes Werk mit fortgeschrittenen Inhalten der Statistik beschäftigt. Vielleicht wird der Leser, wenn er an dieser Stelle angekommen ist, sich fragen, wie jemand dazu kommt, ein solches Buch zu schreiben. Der Autor fragt sich eher, warum er es noch nicht viel früher geschrieben hat, denn es hat unerwarteten Spaß gemacht, das zusammenzutragen, was nach seiner Ansicht für heutige Studenten als statistisches Hintergrundwissen erforderlich ist. Nur seine beschränkten Möglichkeiten (Kollegen, die ebenfalls C2-Professoren ohne Sekretärin und Assistenten sind, vielleicht sogar unter dem Druck eines Zeitvertrages stehen, können da mitfühlen) haben über ein Jahrzehnt ein derartiges Vorhaben vereiteln können, während die Vorlesungen ihren gewohnten Verlauf nahmen. Natürlich hat das Buch davon profitiert, daß der Stoff immer wieder neu überdacht wurde und der Autor sicherlich didaktisch einiges in seiner Lehrpraxis dazugelernt hat, denn bekanntlich zählen didaktische Methoden nicht gerade zur Ausbildung eines deutschen Hochschullehrers (learning by doing ist scheinbar die Devise). Ein besonderes Anliegen des Autors war, den Anwendern die Fülle von Verteilungen zu vermitteln, die ihnen zur Beurteilung ihrer Probleme zur Verfügung stehen. Im univariaten Fall wurden 10 diskrete Verteilungen (§1) und 7 stetige Verteilungen (§3) vorgestellt. Entgegen einer in früheren Jahren gehegten Absicht des Autors ließ sich an seinem Studienort die Betrachtung wahrscheinlichkeitserzeugender Funktionen (§2) nicht in das Grundstudium integrieren, so daß die Präsentation für Fortgeschrittene nun in diesem Buch Eingang findet. Die hier vorgeführte Betrachtung von Markoff-Ketten (§4) kann nur als Einführung gewertet werden. Mit ihr soll bei potentiellen Anwendern Interesse für diese Methode geweckt werden. Die multivariaten Verteilungen (§5) sind schon recht anspruchsvoll, so daß Interessenten sich Spezialpublikationen zuwenden sollten, wobei Anderson (1958) und Kendall (1980) als Standardwerke gelten. Gleichwohl ist ein breites Verständnis der fundamentalen Zusammenhänge für statistische Normalverbraucher wünschenswert, was im Vorfeld zumeist daran scheitert, daß die Grundlagen der Matrizenrechnung nicht von jedem beherrscht werden. Hier gilt wie so oft in der Statistik, daß ein Modell nur realitätsnäher werden kann, wenn der betriebene mathematische Aufwand signifikant zunimmt. Konvergenzbegriffe (§6) werden heute in der statistischen Literatur so häufig verwendet, daß auch auszubildende Ökonomen mit diesen Begriffen etwas anfangen können. Auch hier haben die Ausbildungsstandards angezogen, wenn man bedenkt, daß früher z.B. ein amerikanische Mathematiker in seinem Buch darüber klagte, daß seine Studenten sich mit diesen Begriffen ziemlich schwer taten.
§ 10. Zusammenfassung
129
In den Betrachtungen zur statistischen Inferenz (§7) wurde der zentrale Grenzwertsatz intensiver behandelt, zu dessen Beweis das Verständnis charakteristischer Funktionen unverzichtbar ist. Letztere gelten unter Ökonomen schon als anspruchsvoll, da man komplexe Zahlen betrachten muß. Die Schätztheorie (§8) ist ein Spezialgebiet des Autors seit seiner Promotion. In diesem Buch wurde nur der Versuch unternommen, für dieses Gebiet mehr Interesse zu wecken, da es von erheblicher praktischer Bedeutung ist. Die Einblicke in die Testtheorie (§9) haben lediglich einführenden Charakter, doch sind bereits einige der bekannteren Tests in der Einführung in die Statistik enthalten. Insgesamt lag in diesem Buch die Betonung auf einer vielseitigen Betrachtung statistischer Hintergründe im Sinne einer Überblicks. Mittlerweile sind die Spezialpublikationen zur Statistik unübersehbar geworden, der Zusammenhang geht oft verloren. Der Reiz bei der Gestaltung des Buches lag darin, vor einer weiteren Spezialisierung, die der nachwachsenden Generation zu empfehlen ist, noch einmal ein Gefühl für die Breite des Faches Statistik zu vermitteln. Der zeitliche Druck, dem der Autor hierbei unterlag, sorgte dafür, daß keine langatmigen Passagen entstehen konnten. Um das Interesse des Lesers zu erhalten, wurden gelegentlich historische Details eingestreut, denen der Autor eine gewisse Aufmerksamkeit entgegenbringt, denn eigentlich hatte er als Student eher eine Neigung zur Wirtschaftsgeschichte, bis er dann näheren Kontakt zu seinem Lehrer Günter Menges fand.
Lösung der Übungsaufgaben
Lösung zu Aufgabe 1 Mit der Wahrscheinlichkeitsverteilung der Binomialverteilung W(k) = (£) p k q n_lc und p = q = 1/2 erhalten wir für n=8 wegen O (1/2)
= 1/256 die gesuchte Wahrscheinlichkeit als
W(6) + W(7) + W(8) = (28 + 8 + l)/256 = 37/256. Lösung zu Aufgabe 2 Mit der Wahrscheinlichkeitsverteilung der Poissonverteilung W(k) =
k!
• e~l und n = 2000, p = 1/2000 und daher X = 1
berechnen wir die gesuchte Wahrscheinlichkeit W(X > 2) = 1 - W(0) - W(l) - W(2) = 1 - (1
+
1
+
1/2) e - 1
« 0,08 (wegen e « 2,718281828).
Lösung zu Aufgabe 3 Aus dem Erwartungswert der geometrischen Verteilung 1 folgt für p = 1/37, daß man auf die Dauer und im E(X) = P im Durchschnitt beim 37. Male mit einer Null rechnen kann.
Lösung zu Aufgabe 4 Mit der hypergeometrischen Verteilung berechnen wir (*> • (433> W(3) =
» 0,018 .
Lösung der Übungsaufgaben
131
Lösung zu Aufgabe 5 Für die Varianzen der betrachteten Verteilungen gilt: Binomialverteilung:
V B (X) = n-p-q
K N-K N-n Hypergeometrische Verteilung: Vh(X) = n • -57- • —R:— • „ .
Vp(X) = X .
Poissonverteilung:
Da man für den Erwartungswert n-p durch X ersetzen kann und q £ 1, gilt VB(X)
S
VP(X).
Strebt q gegen 1, so nähern sich asymptotisch die beiden Varianzen. Da man vor der 1. Ziehung K/N durch p ersetzen kann (so daß (N-K)/N = q) und da für den Korrekturfaktor gilt ,daß N-n
folgt daraus, daß V H (X) S V B (X). Für n=l ist der Korrekturfaktor 1 und die beiden Varianzen sind identisch(In der einelementigen Stichprobe entfällt der Unterschied der Ziehungsschemata). Insgesamt gilt also die Größenbeziehung für die Varianzen: V H (X) s V B (X) s V P (X).
Lösung zu Aufgabe 6 Erwartungswert
Varianz
Binomialverteilung
n •p
n p q
Polyaverteilung
K n • — N
K n • — N
N-K • N
N+n-v • N+v
Da man vor der 1. Ziehung K/N durch p ersetzen kann, stimmen die Erwartungswerte überein.
132
Lösung der
Übungsaufgaben
Für die Varianzen gilt dann: 1. Ist v = 0, so stimmen sie überein, da der Korrekturfaktor gleich 1 ist. r
2. Ist v = -1, so gilt Vp(X) s V3(X) , die Polyaverteilung ist dann eine hypergeometrische Verteilung. 3. Ist v > 0, so gilt Vp(X) > Vß(X), denn der Korrekturfaktor ist nun größer als 1. Lösung zu Aufgabe 7 Mit der negativen Binomialverteilung erhalten wir für n = 6 und k = 3 1 2 W(n=3) = (jM^-) 3 • (3-)3 = 80/729.
Lösung zu Aufgabe 8 1
A(t) =
. Siehe Gleichung (2.1.3).
(i-tr Lösung zu Aufgabe 9 A(t) =
t
j . Siehe Gleichung (2.1.9). a-tr
Lösung zu Aufgabe 10 E(X) = W ^ (1) . Der Erwartungswert ist also gleich der 1. Ableitung der Wahrscheinlichkeitserzeugenden Funktion an der Stelle t=l.Siehe Abschnitt 2.2.1. Lösung zu Aufgabe 11 V(X) =
(1) + W ( , ) ( 1 ) -[W(,)(l)]2.
Siehe Abschnitt 2.2.2.
Lösung zu Aufgabe 12 Aus (2.2.21)
W(t) = e
X(t-l)
Lösung der Übungsaufgaben
133
gewinnen wir die 1. Ableitung nach t X(t-l) W°'(t) = X e und daher an der Stelle t=l W°>(1) = X = E(X) . Aus (2.2.21) gewinnen wir als 2. Ableitung nach t X(t-l) W®(t) = X2 e und daher an der Stelle t=l W®(1)
=
X2
,
so daß (siehe Aufgabe 11) V(X) = X2 + X - X1 = X .
Lösung zu Aufgabe 13 P
w(t) =
l q
t
Siehe Abschnitt 2.2.4.4.
Lösung zu Aufgabe 14 Im Intervall 0 £ x £ 100 gilt für die Dichtefunktion f(x) = 1/100. Daher erhalten wir als Erwartungswert 100
E(X) =
J
0
x2
1 100
• x dx = [
200
100 ]
0
= 50.
Lösung zu Aufgabe 15 Die vier wichtigsten Eigenschaften der Dichtefunktion der Normalverteilung findet man auf Seite 40. Für die ersten vier zentralen Momente gilt: mi = 0, m2 = ®3 = 0 u n d m 4 = 3ct4-
1 34
Lösung der Übungsaufgaben
Lösung zu Aufgabe 16 Für die Zufallsvariable F der F-Verteilung gilt F =
Xi • m 2
,
X 2 • mi wobei die Zufallsvariable Xi chi-quadrat-verteilt ist mit mi Freiheitsgraden und die Zufallsvariable X 2 chi-quadrat-verteilt ist mit m 2 Freiheitsgraden.
Lösung zu Aufgabe 17 Die Zufallsvariable der t-Verteilung X
t =
rr n
geht aus F (siehe Aufgabe 16) hervor durch t = J~F mit X = Xj , Y = X 2 , mi = 1 und m 2 = n.
Lösung zu Aufgabe 18
P
=
7/10
1/10
2/10
2/10
5/10
3/10
5/10
1/10
4/10
Lösung zu Aufgabe 19 Es ergibt sich mit p^ = p0 • P • P = (1/4 1/4 1/4 1/4), d.h. eine Gleichverteilung, wenn diese Matrizenmultiplikation vorgenommen wird. 2
Natürlich kann man auch zuerst P berechnen und dies von rechts mit dem Vektor der Startverteilung multiplizieren, um die Verteilung nach 2 Perioden zu erhalten.
Lösung der Übungsaufgaben
135
Lösung zu Aufgabe 20
Aus der Übergangsmatrix
P
0
1/2
1/2
1/3
1/3
1/3
1/7
4/7
2/7
=
erhalten wir für die Grenzwahrscheinlichkeitsverteilung pg Pg = [PI P2 P3l = Pg P , so daß Pg(P " 13) = [0 0 0] ergibt: [PI P2 P3l
-1
1/2
1/2
1/3
-2/3
1/3
1/7
4/7
-5/7
= [0 0
0] ,
was einem homogenen Gleichungssystem mit 3 Gleichungen und 3 Unbekannten entspricht: (1)
1 1 -px + 3 P2 + 7 P3 = 0
(2) 5 PI ~ 3 P2 + 7 P3 = 0 1 1 5 (3) 2 p l + 3 p 2 " 7 P3 =
0
•
Aus Gleichung (1) erhalten wir PI = 3 P2 + 7 P3 was wir in Gleichung (2) einsetzen: 1 1 1 2 4 2 ( 3 P2 + 7 P3) " 2 P2 + 7 P3 = 0 , woraus folgt 1 9 - 2 P2 + 14 P3 =
0
'
1 36
Lösung der
Übungsaufgaben
so daß 9 P2 = 7 P3 • Daraus folgt für pi , daß 1 9 1 12 PI = 3 • — P3 + — P3 = "äT P3 , so daB 4 PI = 7 P3-
Da für die drei Wahrscheinlichkeiten stets gilt, daß PI + P2 + P3 = 1 / erhalten wir 4 9 7 P3 + 7 P3 + P3 = 1 f also 20 - P3 = 1 so daß schließlich 7 p 3 = 20 ' Damit gewinnen wir durch Einsetzen die restlichen Wahrscheinlichkeiten, so daß p g = [4/20
9/20
7/20] .
Lösung zu Aufgabe 21 Die Markoff-Kette ist irreduzibel (da jeder Zustand von jedem anderen Zustand aus erreichbar ist), sie enthält keine finalen Klassen, sie ist sicher rekurrent und regulär (minimale Wiederkehrzeit eines jeden Zustands beträgt eine Periode) .
Lösung zu Aufgabe 22 In Abschnitt 5.1.3. findet man die 5 Eigenschaften einer gemeinsamen Verteilungsfunktion zweier Zufallsvariablen.
Lösung der Übungsaufgaben
137
Lösung zu Aufgabe 23 a) X sei das 1. Merkmal, Y sei das 2. Merkmal. yi
Y2
Y3
XI
1/4
1/4
1/4
PI. = 3/4
X2
1/8
1/8
0
P2. = 1/4
P.l
P.2
P. 3
=
-
=
3/8
1/4
Pij
p.j
3/8
b) P(Yilxi) = (1/4)/(3/4) = 1/3,
Pi.
1
P(y2lxi) = (1/4) /(3/4) = 1/3,
P(Y3lxi) = (1/4)/ (3/4) = 1/3, P(yil*2)
=
(l/8)/(l/4)
= 1/2,
P(Y2IX2) = (1/8)/(1/4) = 1/2,
P(Y3Ix2) = 0/(1/4) = 0, P(xilyi) = (1/4)/(3/8) = 2/3,
P(X2lyi) =
(1/8) / (3/8) = 1/3,
= (1/4)/(3/8) = 2/3,
P(X2ly2) =
(1/8)/ (3/8) = 1/3,
P(Xlly
2
)
P(xily3) = (1/4)/(1/4) = 1,
P ( x 2 l y 3 ) = 0/(1/4) = 0.
Lösung zu Aufgabe 24 Für die marginale Dichtefunktion der Zufallsvariablen X gilt f(x) =
j
oo
1 i (x/4 + y/2) dy
f(x, y) dy =
-00
=
0
[ xy/4 + y 2 /4 ] y=0
so daß f(x) = x/4 + 1/4
für 0 £ x < 2
(und 0 sonst).
Für die marginale Dichtefunktion der Zufallsvariablen Y gilt 00 f f(x, y) dx =
f(y) = -00
2 J 0
(x/4 + y/2) dx
138
Lösung der
Übungsaufgaben
Somit erhalten wir f(y) = [
2
X=2
x ' / B
+ xy/2 ] x=o
so daß f(y) = 1/2
+ y
für 0 £ y < 1
(und 0 sonst).
Lösung zu Aufgabe 25
a) Siehe Gleichung (5.2.63). b) Siehe Gleichung (5.2.62).
Lösung zu Aufgabe 26
Die Folge von Zufallsvariablen Xt (t=l, 2, ...) konvergiert stochastisch gegen die Zufallsvariable X, wenn lim P(|xt - XI) 2 e) = 0 t-XO
für
E > 0.
Lösung zu Aufgabe 27
Die Folge von Zufallsvariablen Xt (t = 1, 2, ...) konvergiert im quadratischen Mittel gegen die Zufallsvariable X, wenn lim E [ (Xt - X)2 ] = 0. t—>00
Lösung zu Aufgabe 28
Die Folge von Zufallsvariablen Xt (t = 1, 2, ...) konvergiert in Verteilung gegen die Zufallsvariable X, wenn lim FXfc(x) = Fx(x). t-x»
Lösung der Übungsaufgaben
139
Lösung zu Aufgabe 29
Für die homogen lineare Regression yt = b • xt + et
mit t = 1, .. ., T
ist der Regressionsparameter zu schätzen mit
b =
T £ t=i
x t • yt
T I t=l
xt2
.
Lösung zu Aufgabe 30
Für die lineare Einfachregression yt = a + b • xt + et sind a und b zu schätzen mit a = y - b x , wobei man zunächst b berechnet mit cov(x, y)
Dabei sind ihrerseits zu berechnen die Kovarianz nach Formel (8.4.13) und die Varianz nach Formel (8.4.14).
Lösung zu Aufgabe 31
Mit den Angaben erhalten wir 15kg P(75kg - 2,58 • —jö
i |i S 75 kg + 2,58
15kg 10
) = 0,99
und daraus P(75 kg - 3,87 kg £ n ^ 75 kg + 3,87 kg) = 0,99 , so daß man das Konfidenzintervall [ 71,13 kg; 78,87 kg ] erhält.
140
Lösung der
Übungsaufgaben
Lösung zu Aufgabe 32 Lehnt man die Nullhypothese ab, obwohl sie wahr ist, so liegt ein Fehler 1. Art vor. Wird die Nullhypothese nicht verworfen, obwohl sie falsch ist, so liegt ein Fehler 2. Art vor.
Lösung zu Aufgabe 33 Aufgrund eines Fehlers 2. Art und der Wahrscheinlichkeit ß seines Eintretens gilt P(Ho ablehnen
I Ho ist falsch) = 1 - ß,
d.h. eine falsche Nullhypothese wird bei einer richtigen Entscheidung mit Wahrscheinlichkeit 1 - ß abgelehnt. Diese Entscheidung ist eine Funktion von 6, dem Parameterwert der Alternativhypothese. Betrifft der Test etwa den Erwartungswert einer Verteilung, so ist 9 = n , d.h. die Gütefunktion 1 - ß ist eine Funktion alternativer Werte von n. Stimmen dann Nullhypothese und Alternativhypothese überein, so ist 1 - ß = a. Dies ist der kleinste Wert einer Gütefunktion. Je weiter die Verteilung der Alternativhypothese von der Verteilung der Nullhypothese zu liegen kommt (etwa im Vergleich von NormalVerteilungen mit gleicher Varianz und u n terschiedlichen Erwartungswerten), desto höher ist die W a h r scheinlichkeit, daß ein Wert, der im kritischen Bereich liegt, auf die Alternativhypothese zurückzuführen ist. Das bedeutet, daß die Wahrscheinlichkeit 1 - ß für eine richtige Entscheidung um so größer wird, je weiter sich der Wert n der Alternativhypothese von dem Wert der Nullhypothese entfernt. Für einen einseitigen Test hat die Gütefunktion im 1. Quadranten daher einen steigenden Verlauf in Abhängigkeit von n und nähert sich asymptotisch dem Maximalwert 1 der Wahrscheinlichkeit einer richtigen Entscheidung. Gütefunktionen mit einem steilen A n stieg sind daher flacheren Gütefunktionen vorzuziehen.
Literaturverzeichnis
Anderson, T.W.: Introduction to Multivariate A n a l y s i s . N e w Y o r k 1958. B a m b e r g , G. u n d F. Baur: S t a t i s t i k . 1985.
4. A u f l . ,
Statistical München-Wien
B a r t l e t t , M . S . : S t o c h a s t i c P r o c e s s e s . 2. A u f l . , C a m b r i d g e
1966.
B r o n s t e i n , I.N. u n d K . A . S e m e n d j a j e w : T a s c h e n b u c h d e r M a t h e m a t i k . Z ü r i c h - F r a n k f u r t 1970. / C r a m e r , H . : M a t h e m a t i c a l M e t h o d s of S t a t i s t i c s .
Princeton
Dhrymes, P.J.: Econometrics. N e w York-Evanston-London
1946.
1970.
D o o b , J . L . : S t o c h a s t i c P r o c e s s e s . N e w Y o r k - L o n d o n - S y d n e y 1953. D u r b i n , J . u n d G . S . W a t s o n : T e s t i n g for S e r i a l C o r r e l a t i o n i n L e a s t S q u a r e s R e g r e s s i o n . I: B i o m e t r i k a , 3 7 ( 1 9 5 0 ) , S. 4 0 9 - 4 2 8 ; II: B i o m e t r i k a , 3 8 ( 1 9 5 1 ) , S. 1 5 9 - 1 7 8 . Fisz, M.: Wahrscheinlichkeitsrechnung und mathematische s t i k . B e r l i n 1973.
Stati-
H e l l e r , W . D . , L i n d e n b e r g , H., N u s k e , M. u n d K . - H . S c h r i e v e r : Schließende Statistik. Basel-Boston-Stuttgart 1980. H e l l e r , W . D . , L i n d e n b e r g , H, N u s k e , M . u n d K . - H . S t o c h a s t i s c h e S y s t e m e . B e r l i n - N e w Y o r k 1978. K e n d a l l , M . G . : M u l t i v a r i a t e A n a l y s i s . 2. A u f l . , W y c o m b e 1980.
Schriever: London-High
Lehmann, E.L.: Testing Statistical Hypotheses. New S y d n e y 1959.
York-London-
L e i n e r , B.: E i n f ü h r u n g in d i e S t a t i s t i k . W i e n 1992.
München-
6. A u f l . ,
L e i n e r , B.: E i n i g e B e m e r k u n g e n zum D u r b i n - W a t s o n - T e s t . s t i s c h e H e f t e , 1 4 ( 1 9 7 3 ) , S. 2 7 1 - 2 7 3 .
Stati-
Leiner, B.: Statistik-Programme
in B A S I C . M ü n c h e n - W i e n
1988.
L e i n e r , B.: S t i c h p r o b e n t h e o r i e .
3. A u f l . , M ü n c h e n - W i e n
1994.
L i e n e r t , G . A . : V e r t e i l u n g s f r e i e M e t h o d e n in d e r B a n d I, 2. A u f l . , M e i s e n h e i m a m G l a n 1973.
Biostatistik.
L i e n e r t , G . A . : V e r t e i l u n g s f r e i e M e t h o d e n in d e r B a n d II, 2. A u f l . , M e i s e n h e i m a m G l a n 1978.
Biostatistik.
142
Literaturverzeichnis
L i n d e r , A . : S t a t i s t i s c h e M e t h o d e n . 4. A u f l . , 1964.
Basel-Stuttgart
Markoff, A.A.: Erweiterung des Gesetzes der großen Zahlen auf a b h ä n g i g e E r e i g n i s s e (Russisch). B u l l . Soc. P h y s . M a t h . , U n i v . K a z a n 1906, S e r i e 2, B a n d 15, S. 1 3 5 - 1 5 6 . M e n g e s , G . : G r u n d r i ß d e r S t a t i s t i k . T e i l 1: T h e o r i e . l a d e n 1968. Menges, G.: Ökonometrie. Wiesbaden
Köln-Op-
1961.
R u t s c h , M . : W a h r s c h e i n l i c h k e i t I. M a n n h e i m - W i e n - Z ü r i c h S a c h s , L.: A n g e w a n d t e S t a t i s t i k . 4. A u f l . , New York 1974.
Berlin-Heidelberg-
S c h ö n f e l d , P.: M e t h o d e n d e r Ö k o n o m e t r i e . B a n d I. f u r t 1969. S t a n g e , K . : A n g e w a n d t e S t a t i s t i k . 1. T e i l : P r o b l e m e . B e r l i n - H e i d e l b e r g - N e w Y o r k 1970. Takacs, L.: Stochastic Processes. London
1974.
Berlin-Frank-
Eindimensionale
1960.
T i e d e , M. u n d W . V o ß : I n d u k t i v e S t a t i s t i k . T e i l 2. K ö l n van der Waerden, B.L.: Mathematische Statistik. B e r l i n - H e i d e l b e r g - N e w Y o r k 1971.
1979.
3. A u f l . ,
Vogel, F.: Beschreibende und schließende Statistik. W i e n 1979.
München-
Sachverzeichnis
Alternativhypothese 119 asymptotische Erwartungstreue 114
lineare Einfachregression 105-108 lineare Mehrfachregression 108-113
bedingte Dichtefunktion 77 bedingte Wahrscheinlichkeit 74 Bernoulliparameter 1 Betaverteilung 48 bias 114 Binomialverteilung 3-5 bivariate Verteilungen 72ff bivariate Verteilungsfunktion: Eigenschaften 77-78
marginale Dichtefunktionen 75 marginale Verteilungsfunktion 76 marginale Wahrscheinlichkeit 72 Markoff-Ketten 56ff Markoff-Prognosen 70 Markoffsche Annahme 58 Maximum Likelihood-Methode lOlf Methode der kleinsten Quadrate 99 f mean square error 114 minimale Wiederkehrzeit 67 mittlere Rekurrenzzeit 68 mittlere Wiederkehrzeit 68 multivariate Verteilungen 72ff multivariate Verteilungsfunktion: Eigenschaften 78f
Chapman-Kolmogoroff-Gleichung 63 Chi-Quadrat-Verteilung 44-47 diskrete Gleichverteilung 21-23 diskrete Verteilungen lff Effizienz 114 ergodische Markoff-Kette 66 Erstpassagewahrscheinlichkeit 69 Erstwiederkehrwahrscheinlichkeit 67 Erwartungstreue 113 erzeugende Funktion 24-27 Fehler 1. Art Fehler 2. Art finale Klasse F-Verteilung
120 120 67 49-53
Gammaverteilung 42-44 gemeinsame Verteilungsfunktion 73, 76 gemeinsame Wahrscheinlichkeit 72 geometrische Verteilung 8f Gesetz der großen Zahlen 93f Gütefunktion 120 homogene Markoff-Kette 60 hypergeometrische Vert. 9-12 irreduzible Markoff-Kette 69 Konsistenz 115 Konvergenzbegriffe 90-92 Konvergenz in Verteilung 92 kritischer Bereich 119
n-dimensionale Normalverteilung 83 ff negative Binomialverteilung 15ff Normalverteilung 39-41 Null-Eins-Verteilung 1 Nullhypothese 119 null-rekurrenter Zustand 68 Passagezeit 69 Periode 68 Poissonparameter 6 Poissonverteilung 5-7 Polyaverteilung 13 polyhypergeometrische Verteilung 2 0 Polynomialverteilung 17-19 positiv-rekurrenter Zustand 68 Prüfung auf Autokorrelation 122 des absoluten Glieds 126 des Regressionsparameters 125 des Korrelationskoeff. 127 quadratische Konvergenz
91
Regression 102ff reguläre Markoff-Kette 69 Schätzkriterien 113-115 Schätztheorie 98ff sichere Konvergenz 90 sicher-rekurrente MarkoffKette 69 sicher-rekurrenter Zustand 68 stationäre Markoff-Kette 66
144
Sachverzeichnis
statistische Inferenz 93ff stetige Gleichverteilung 3 6-39 stetige Verteilungen 36ff stochastische Konvergenz 90 stochastische Matrix 60 Suffizienz 115 Tabu-Wahrscheinlichkeit 67 Testtheorie 119ff Transformation v o n Zufallsvariablen 79f f transiente Klasse 67 transienter Zustand 68 Tschebyscheffsche U n gleichung 91 t-Verteilung 53ff Übergangsbaum 66 Übergangsgraph 66 Übergangsmatrix 60 Unabhängigkeit 73f, 76
Varianz-Kovarianz-Matrix 81f Verteilung zweier stetiger Zufallsvariablen 75 Verzerrung 114 Wahrscheinlichkeitserzeugende Funktion (WEF) 27-35 Wahrscheinlichkeitslimes 90 Wahrscheinlichkeitsverteilung: Binomialverteilung 4 hypergeometr. Verteilung 11 negative Binomialverteil. 15 Poissonverteilung 6 Polyaverteilung 13 polyhypergeom. Vert. 20 Polynomialverteilung 18 Wiederkehrwahrscheinlichkeit 67 Wiederkehrzeit 67 zentraler Grenzwertsatz 94-98 Ziehen mit Zurücklegen 9 Ziehen ohne Zurücklegen 9