167 85 16MB
German Pages 286 [288] Year 1991
Einführung in die Statistik für Wirtschaftswissenschaftler Von Universitätsprofessor
Dr. Götz Uebe und
Dr. Martin Schäfer
R. Oldenbourg Verlag München Wien
Die Deutsche Bibliothek - CIP-Einheitsaufnahme Uebe, Götz: E i n f ü h r u n g in die Statistik für Wirtschaftswissenschaftler / von G ö t z Uebe und Martin S c h ä f e r . - München ; Wien : O l d e n b o u r g , 1991 ISBN 3 - 4 8 6 - 2 1 7 5 9 - 3 N E : S c h ä f e r , Martin:
©
1991 R. O l d e n b o u r g Verlag G m b H , München
Das Werk außerhalb lässig und filmungen
einschließlich aller Abbildungen ist urheberrechtlich geschützt. J e d e V e r w e r t u n g der G r e n z e n des Urheberrechtsgesetzes ist o h n e Z u s t i m m u n g des Verlages u n z u s t r a f b a r . Das gilt insbesondere für Vervielfältigungen, Ü b e r s e t z u n g e n , Mikroverund die E i n s p e i c h e r u n g und Bearbeitung in elektronischen S y s t e m e n .
G e s a m t h e r s t e l l u n g : R. O l d e n b o u r g Graphische Betriebe G m b H , München
ISBN 3-486-21759-3
Vorwort
Das
n-te
Statistikbuch
Z u m E r s c h e i n e n e i n e s w e i t e r e n L e h r b u c h s d e r S t a t i s t i k m ü s s e n sich die A u t o r e n s e l b s t v e r s t ä n d l i c h f r a g e n l a s s e n , w e s h a l b n u n n o c h ein s o l c h e s W e r k g e s c h r i e b e n w o r d e n ist. S e l b s t in d e r B e s c h r ä n k u n g auf d i e V e r ö f f e n t l i c h u n g e n d e r l e t z t e n J a h r z e h n t e s t r e b t ihre Z a h l (in A n l e h n u n g an die Ges e t z e d e r g r o ß e n Z a h l ) Ober alle ü b e r s c h a u b a r e n G r ö ß e n . D a ß d i e s im exponentiellen Wachstum des statistischen Wissenstoffs seine Rechtfertigung f i n d e t , ist k a u m zu b e h a u p t e n , d e n n die m e i s t e n W e r k e s i n d w i e d i e s e Einf ü h r u n g a u c h und n e h m e n an d e r W i s s e n s e x p l o s i o n nur s e h r g e d ä m p f t teil. H a u p t g r u n d ist w o h l d i e S c h w i e r i g k e i t d e r Ü b e r m i t t l u n g d e s s t a t i s t i s c h e n W i s s e n s s t o f f e s , d e n d e r a m e r i k a n i s c h e M a t h e m a t i k e r J . A . P a u l o s (Intern a t i o n a l H e r a l d T r i b ü n e , ' Y o u d o l t s a r e w r o n g a b o u t m a t h ' , 2 5 . 4 . 1 9 9 1 , 7) in s c h ö n e r Anschaulichkeit wie folgt charakterisiert: "Most s t u d e n t s (and most a d u l t s ) c a n n o t i n t e r p r e t g r a p h s , d o not u n d e r s t a n d Statistical n o t i o n s , are u n a b l e to m o d e l s i t u a t i o n s m a t h e m a t i c a l l y , s e l d o m e s t i m a t o or c o m p a r e m a g n i t u d e s , a r e i m m u n e to m a t h e m a t i c a l b e a u t y a n d , m o s t d i s t r e s s i n g of all in a d e m o c r a c y , h a r d l y e v e r d e v e l o p a c r i t i c a l , s k e p t i c a l a t t i t u d e t o w a r d n u m e r i c a l , s p a t i a l a n d q u a n t i t a t i v e d a t a or c o n c l u s i o n s . " A u f g r u n d d i e s e r E r k e n n t n i s ist d a s H a u p t a n l i e g e n ein p ä d a g o g i s c h e s : Z u g e s c h n i t t e n auf d e n S t u d i e n g a n g d e s W i r t s c h a f t s w i s s e n s c h a f t l e r s an d e r Univ e r s i t ä t d e r B u n d e s w e h r H a m b u r g , sei es für e i n e n V o l k s w i r t , B e t r i e b s w i r t o d e r W i r t s c h a f t s i n g e n i e u r , w i r d S t a t i s t i k in e i n e r z w e i t r i m e s t r i g e n Vorl e s u n g a n g e b o t e n , n ä m l i c h als ( 1 ) e i n e E i n f ü h r u n g in d i e f o r m a l e U n t e r s u c h u n g v o n M a s s e n e r s c h e i n u n g e n , f ü r d i e es k e i n e a u s r e i c h e n d e s u b s t a n z w i s s e n s c h a f t l i c h e E r k l ä r u n g gibt, ( 2 ) e i n Z w e i g d e r M a t h e m a t i k , und v o r allem ( 3 ) e i n S y s t e m v o n V e r f a h r e n , T e c h n i k e n , V e r e i n b a r u n g e n , E r f a h r u n g e n und Beispielen.
Statistik,
Wissen
und
Wahrheit
G r u n d l e g e n d d a b e i ist d i e Ü b e r z e u g u n g , d a ß es ein I r r g l a u b e ist, d a ß D a t e n , Z a h l e n o d e r b l o ß e T a t s a c h e n für s i c h s e l b s t s p r e c h e n . Im R e g e l f a l l ist d a s n i c h t d e r Fall, w i e z . B . d i e b e k a n n t e A u s s a g e : " d a s G l a s ist h a l b leer" oder " d a s G l a s ist halb v o l l " illustriert. F a k t e n m ü s s e n a u f b e r e i t e t u n d a n a l y s i e r t w e r d e n . D a z u k o m m t , d a ß über Statistik, W i s s e n u n d W a h r h e i t viel S c h w a c h s i n n p a l a v e r t w i r d , z . B . "es g i b t d i e e i n f a c h e L ü g e u n d es g i b t die statistis c h e L ü g e " . S o l c h e flotten S p r ü c h e m a c h e n d a s Fach n o c h s c h w i e r i g e r , als es d e m Studenten ohnehin erscheint. Der S t a n d p u n k t in d i e s e r V o r l e s u n g ist der w i e in d e r C h i r u r g i e : so w i e m a n mit d e m M e s s e r h e i l e n k a n n , so k a n n m a n a u c h d a m i t t ö t e n . In allen A n w e n d u n g e n , bei d e n e n e s u m m a t e r i e l l e I n t e r e s s e n g e h t , ist e s s e l b s t v e r s t ä n d lich, d a ß a u c h d i e s e W i s s e n s c h a f t a l s Streithilfe h e r a n g e z o g e n w i r d . So w i e in d e r K a r i k a t u r v o n Dr. T o m a s c h o f f s o l l t e u n s e r F a c h z u m i n d e s t
VI
Vorwort
nicht gesehen
werden:
späteren L e b e n Statistik nicht hauptberuflich tragen. Sollte der L e s e r das nicht glauben, unsere Überzeugung kundtun:
nutzt, einigen G e w i n n davonso wollen wir ihm zumindest
Für Statistiker gilt zumindest, was für Astrologen gilt " W e are not" s a y s Florida astrologer J a n Walsek, "(wo)men who hang onto superstitions and watch soap o p e r a s all day. W e are professionals with a body of knowledge that enables us to render advice." (Newsweek 22.1.1990). Dieses zu lernen, soll dieses Buch eine Hilfe sein.
Dank Bei der E r s t e l l u n g d e s Buchmanuskripts s i n d wir u n s e r e n Mitarbeitern T h o m a s Bradtke, Anke Frier, Günter Kopp, Uta Lieberum, Christian Schnack, Silke V o ß und Y a n q i n g Xia zu Dank verpflichtet. Rainer Dyckerhoff verdanken wir d a s P r o g r a m m für die t-Verteilungstafel. Herrn M. Weigert vom Verlag O l d e n b o u r g danken wir für die gute und freundliche Zusammenarbeit in der Erstellung d e s Buches. Alle Fehler g e h e n selbstverständlich zu unseren
Lasten.
Inhaltsverzeichnis
Deskriptive 1 1.1 1.2 1.3 2 2.1 2.2 2.3 2.4 3 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 4 4.1 4.2 4.3
Statistik
Grundbegriffe
der deskriptiven
1 Statistik
Einführende Begriffe Klassifikation von Merkmalen Aufgaben Häufigkeitsverteilungen
1 1 2 4 5
Diskrete Merkmale Stetige Merkmale Quantile Aufgaben
5 9 1 1 12
Verdichtung der Daten
14
Lageparameter Streuungsparameter Die Streuungszerlegung Konzentrationsmaße Indexzahlen Eigenschaften einer Preisindexfunktion Weitere graphische Darstellungen Aufgaben Zweidimensionale
Daten
Häufigkeitsverteilungen Bedingte Häufigkeiten Aufgaben
14 15 15 17 19 22 22 25 26 26 29 31
Wahrscheinlichkeitstheorie
32
5
32
5.1 5.2 5.3
Mengen und Ereignisse Mengen Ereignisse Aufgaben
32 38 40
VIII 6
Inhaltsverzeichnis Kombinatorik
6.1 6.2 6.3 6.4
Fakultät u n d Binomialkoeffizient Ziehen mit Zurücklegen und mit Berücksichtigung der Reihenfolge Ziehen ohne Zurücklegen und mit Berücksichtigung der Reihenfolge Ziehen ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge; Der Binomialkoeffizient Ziehen mit Zurücklegen und ohne Berücksichtigung der Reihenfolge Aufgaben
6.5 6.6
7
Wahrscheinlichkeiten
7.1 7.2 7.3
8
Zufallsvariable
und Verteilungen
Zufallsvariable Verteilung Aufgaben
Einzelne
9.1 9.2 9.3 9.4 9.5 9.6 9.7 9.8
parametrische
42 45 46 47 49 52
53
Die A x i o m e der Wahrscheinlichkeit Bedingte Wahrscheinlichkeiten Aufgaben
8.1 8.2 8.3
9
41
53 54 59
60 60 61 67
Verteilungen
Diskrete Gleichverteilung Die B e r n o u l l i - V e r t e i l u n g Die B i n o m i a l - V e r t e i l u n g Die g e o m e t r i s c h e Verteilung Pascal-Verteilung H y p e r g e o m e t r i s c h e Verteilung Die P o i s s o n - V e r t e i l u n g Aufgaben
68 68 68 69 71 72 72 75 76
10 Stetige
Verteilungen
77
10.1 10.2 10.3 10.4 10.5 10.6 10.7 10.8
stetige Gleichverteilung Dreiecksverteilung Pareto-Verteilung Exponentialverteilung Erlang-Verteilung Weibull-Verteilung Hyper-Exponentialverteilung b e i d s e i t i g e Exponentialverteilung
77 77 78 79 80 81 81 82
Die Die Die Die Die Die Die Die
Inhaltsverzeichnis
10.9 10.10 10.11 10.12 10.13 10.14 10.15
Die Die Die Die Die Die Die
Normalverteilung (Gauß-Verteilung) lognormale Verteilung Cauchy Verteilung t-Verteilung (Students t-Verteilung) Beta-Verteilung Fishersche F-Verteilung Gamma-Verteilung
10.16
x2
(Chi-Quadrat)-Verteilung
10.17 10.19 10.20
Die W e i b u l l - G a m m a - V e r t e i l u n g Ü b e r s i c h t ü b e r d e n Z u s a m m e n h a n g der s t e t i g e n V e r t e i l u n g e n Aufgaben
1 1 Erwartungswert 11.1 11.2 11.3 11.4 11.5
und
^Zweidimensionale 12.1 12.2 12.3 12.4
88 89 90 91
9 2
Erwartungswerte
und Varianzen
Zufallsvariable
Diskrete Zufallsvariable Zweidimensionale stetige Bedingte Verteilungen Aufgaben
Induktive
83 84 85 86 87 87 88
Varianz
Der Erwartungswert Die Varianz Allgemeine Momente Übersicht über einige Aufgaben
IX
Zufallsvariablen
92 95 97 105 107
109
(X,Y)
Statistik
109 116 119 120
122
13 Stichprobenverteilungen
122
13.1 13.2 13.3 13.4 13.5 13.6
123 127 130 134 136 139
S u m m e n von Zufallsvariablen Gewichtete Summen von Zufallsvariablen Chebyshevsche Ungleichung Grenzwertsätze Approximationen diskreter Zufallsvariablen Aufgaben
X
Inhaltsverzeichnis
14 Punktschätzverfahren
140
14.1 14.2 14.3
140 149 152
Das Maximumlikelihood-Prinzip von R.A.Fisher Das Momenten-Verfahren Aufgaben
1 5 Eigenschaften von Schätzern
155
15.1 15.2 15.3 15.4 15.5
155 156 157 158 163
Erwartungstreue Effizienz Mittlerer q u a d r a t i s c h e r Konsistenz Aufgaben
Fehler
16 Konfidenzbereiche
164
16.1 16.2 16.3
164 177 177
Die Grundidee des Konfidenzintervalls Konfidenzbereiche für mehr als einen Parameter Aufgaben
17 Parametrische 17.1 17.2 17.3 17.4 17.5 17.6 17.7 17.8
Tests
Einige Überlegungen zur Begründung der Testtheorie E i n s t i c h p r o b e n t e s t s für E r w a r t u n g s w e r t e Ein Z w e i s t i c h p r o b e n t e s t zum Vergleich zweier Mittelwerte Einstichprobentests für die Varianz Tests auf Grundlage des Zentralen Grenzwertsatzes Tests für mehr als einen Parameter Aufgaben Einige Testgrößen in der Übersicht
1 8 Nichtparametrische
Tests
178
178 181 189 192 196 196 196 198
200
18.1
Einführung
200
18.2
3C2-An p a s s u n g s t e s t s
200
18.3 18.4 18.5
2
X -Unabhängigkeitstest Beispiel (Simpsons Paradox) Aufgaben
207 211 212
I n h a l t s v e r z e i c h n i s
19 Lineare Regression 19.1
XI
213
19.2 19.3 19.4 19.5 19.6
Die Formulierung des Modells für den klassischen Fall der Normalregression Der Kleinstquadrat-Schätzansatz Der Momenten-Schätzansatz Eigenschaften der Schätzwerte Die Verteilung der Schätzwerte und Teststatistiken Symmetrische Konfidenzintervalle zum Konfidenzniveau 1-e
213 218 220 222 226 227
19.7
Tests für a, ß, o 2
228
19.8
Aufgaben
230
Literatur
232
Anhang
233
Tafel Tafel Tafel Tafel Tafel Tafel
1: 2: 3: 4: 5: 6:
Binomialverteilung Poissonverteilung Normalverteilung Umkehrfunktion der Normalverteilung Umkehrfunktion von Students t-Verteilung Umkehrfunktion der x 2 - V e r t e i l u n g
Namens- und Sachverzeichnis
233 249 262 264 265 267 269
Deskriptive
1 1.1
Statistik
Grundbegriffe Einführende
der
deskriptiven
Statistik
Begriffe
G e g e n s t a n d jeder s t a t i s t i s c h e n U n t e r s u c h u n g ist eine G e s a m t h e i t von stat i s t i s c h e n E l e m e n t e n , die G r u n d g e s a m t h e i t oder P o p u l a t i o n . B e t r a c h t e t man in einer statistischen Erhebung die g a n z e Population, d a n n spricht man von einer G e s a m t e r h e b u n g . Ein Beispiel hierfür sind V o l k s z ä h l u n g e n , z.B. die für die B u n d e s r e p u b l i k v o m Mai 1987. Im Regelfall s i n d s o l c h e G e s a m t e r h e b u n g e n aber aus K o s t e n g r ü n d e n zu a u f w e n d i g . Damit ist im allgemeinen der G e g e n s t a n d einer s t a t i s t i s c h e n U n t e r s u c h u n g nur eine T e i l e r h e b u n g oder S t i c h p r o b e . Dabei ist b e s o n d e r s zu b e a c h t e n , wie d i e S t i c h p r o b e g e z o g e n wird, d.h. wie die zu untersuchenden (auszuwählenden) Elemente der S t i c h p r o b e a u s d e r G r u n d g e s a m t h e i t a u s g e w ä h l t w e r d e n . W e r d e n d i e zu b e t r a c h t e n d e n E l e m e n t e z u f ä l l i g b e s t i m m t , so s p r i c h t m a n v o n e i n e r Zufallsstichprobe. W a s d a b e i Z u f a l l ist, ist k e i n e s w e g s selbstverständlich und w i r d noch erläutert. Im f o l g e n d e n w e r d e n wir stets von einer Z u f a l l s s t i c h p r o b e a u s g e h e n , w e n n wir v o n einer S t i c h p r o b e s p r e c h e n . Ein v e r w a n d t e r , j e d o c h nicht u n b e d i n g t ü b e r e i n s t i m m e n d e r Begriff ist der der r e p r ä s e n t a t i v e n S t i c h p r o b e . Für sie w e r d e n die Elemente so a u s g e w ä h l t , d a ß sie im Blick auf die u n t e r s u c h t e F r a g e die G r u n d g e s a m t h e i t g e t r e u widerspiegeln. D i e s E r f o r d e r n i s ist e b e n f a l l s n i c h t selbstverständlich, o b w o h l es für z a h l l o s e s t a t i s t i s c h e U n t e r s u c h u n g e n als u n e r l ä ß l i c h oder wünschenswert vorauszusetzen ist. Man denke nur an politische M e i n u n g s u m f r a g e n oder Marketingstudien. J e d e s t a t i s t i s c h e U n t e r s u c h u n g bezieht sich auf M e r k m a l e . Die E l e m e n t e der E r h e b u n g , die U r l i s t e (ob Voll- oder T e i l e r h e b u n g ) sind Träger dieser M e r k m a l e , und es w i r d untersucht, w e l c h e M e r k m a l s a u s p r ä g u n g bei j e d e m e i n z e l n e n Element, d e m M e r k m a l s t r ä g e r , v o r k o m m t . Dafür ist es besonders wichtig, die v e r s c h i e d e n e n Arten von M e r k m a l e n zu unterscheiden.
2 1.2
Deskriptive Klassifikation
Statistik
von
Merkmalen
Die v e r s c h i e d e n e n Arten, T y p e n , K l a s s e n von M e r k m a l e n w e r d e n d a d u r c h g e k e n n z e i c h n e t , wie ihre A u s p r ä g u n g e n d a r g e s t e l l t und g e o r d n e t w e r d e n können. B e g i n n e n d mit dem schwächsten Merkmalstyp sind dies die folgenden: (A)
Nominale Merkmale Ein M e r k m a l heißt n o m i n a l , w e n n seine A u s p r ä g u n g e n nicht in eine a n g f o l g e gebracht w e r d e n können, z.B. V o r n a m e n (Hilde, Klaus, Peter, S u s a n n e , . . . ) ; g e s e l l s c h a f t s r e c h t l i c h e B e z e i c h n u n g e n (AG, G m b H , KG); Glaubensbekenntnis (katholisch, evangelisch, jüdisch, muslimisch,...); Parteien (CDU, CSU, FDP, GRÜNE, SPD,...); Krankheiten (TB, Krebs, MS, Kinderlähmung,...).
(B)
Qualitative Merkmale Ein M e r k m a l h e i ß t q u a l i t a t i v oder o r d i n a l , w e n n es zwar in e i n e R a n g f o l g e g e b r a c h t werden kann, aber die Rangunterschiede nicht g e m e s s e n w e r d e n k ö n n e n , d.h. d a s M e r k m a l läßt sich nicht natürlich e i n e r reellen Zahl z u o r d n e n . B e i s p i e l e hierfür s i n d : L e b e n s s t i l (auf g r o ß e m Fuß, mittel, b e s c h e i d e n , dürftig), c h a r a k t e r l i c h e E i g e n s c h a f t e n ( g u t h e r z i g , g l e i c h g ü l t i g e r Typ,..., C h a r a k t e r s c h w e i n ) , Examensnoten (1.0,1.3, 1.7, 2.0,...), K o n j u n k t u r v e r l a u f (auf, g l e i c h , ab), G e b u r t s t a g e (15.April, 11.Mai, 12.Mai, 22. September), Popularitätsskalen in Punkten (4 Pluspunkte sind nicht doppelt so gut wie 2 Pluspunkte!).
(C)
Quantitative Merkmale Ein M e r k m a l heißt q u a n t i t a t i v oder k a r d i n a l , w e n n es sich natürlich e i n e r reellen Zahl z u o r d n e n läßt, d.h. die A u s p r ä g u n g ist eine reelle Zahl. Das heißt i n s b e s o n d e r e auch, daß R a n g u n t e r s c h i e d e g e m e s s e n w e r d e n können (z.B.Temperaturen, Flutmarken, Erträge, Z e i t p u n k t e u.a.). Für die f o l g e n d e n Ü b e r l e g u n g e n ist dies die w i c h t i g s t e K l a s s e . Sie hat die g r ö ß t e Vielfalt der A n a l y s e v e r f a h r e n und Zahl der A n w e n d u n g e n und steht im Mittelpunkt der Betrachtung. Unter d e n q u a n t i t a t i v e n M e r k m a l e n ist i n s b e s o n d e r e noch die Unterteilung in stetige und diskrete zu s e h e n :
( C . 1 ) D i s k r e t e und s t e t i g e
Merkmale
Ein Merkmal heißt d i s k r e t , wenn es höchstens abzählbar viele Ausprägungen hat. Dabei sind zwei Fälle zu unterscheiden: endlich viele Ausprägungen: z.B. G e s c h l e c h t (weiblich, m ä n n l i c h ) ; die Anzahl der täglichen Geburten in einer Klinik; die T a g e des J a h r e s (365 im Regelfall), M ö g l i c h k e i t e n einer Lottozahl (49), E x a m e n s n o t e n (1.0, 1.3, 1.7,..., 4.0, 4.3, 4 . 7 , 5.0); d i e V e r k a u f s z a h l e n e i n e s b e s t i m m t e n
1 Grundbegriffe der deskriptiven Statistik
3
Autohändlers. Abzählbar unendlich viele Ausprägungen sind mehr theoretisch von Interesse, z.B. die Zahl der Sterne im Universum, Anzahl der Mißerfolge bis z u m ersten Erfolg bei einem Glücksspiel. Ein M e r k m a l heißt s t e t i g ( k o n t i n u i e r l i c h ) , wenn es nicht diskret ist, d.h. überabzählbar viele Ausprägungen hat, z.B. die Zeit, Einkommens- und Umsatzzahlen. Bei der Beobachtung stetiger Merkmale erhält man durch entsprechende Maßeinheiten (für die Zeit etwa: Sekunden oder Minuten, für Längen: Meter oder Zentimeter) diskrete Daten. W e g e n ihrer Vielfalt faßt man sie dann aber zu Klassen zusammen. (C.2) Q u a n t i f i z i e r u n g von q u a l i t a t i v e n Merkmalen In v i e l e n S i t u a t i o n e n w e r d e n n o m i n a l e o d e r ordinale/qualitative M e r k m a l e q u a n t i f i z i e r t , z.B. nominalen Skalen w e r d e n Zahlen zugeordnet: nominale Skala: +++ ++ + 0 - — q u a n t i t a t i v e Skala: 3 2 1 0 - 1 -2 - 3 oder 100 50 25 0 -25 -50 -100 Hier ist besondere Vorsicht in den Schlußfolgerungen angebracht. (C 3) D l s k r e t i s i e r u n g von s t e t i g e n Merkmalen In vielen Situationen werden stetige Merkmale d i s k r e t i s i e r t : Stetige Skalen werden in Intervalle eingeteilt, z.B. das Messen von Firmengrößen nach Umsatzhöhe (unter 1 Mio DM, 1 Mio bis unter 2 Mio DM, 2 Mio DM und darüber; monatliche Arbeitnehmereinkommen: unter 1000 DM, von 1000 DM bis 2000 DM, über 2000 DM). In diesem Fall spricht man von k l a s s i e r t e n oder g r u p p i e r t e n Daten. vielen AuspräU m g e k e h r t w e r d e n d i s k r e t e M e r k m a l e , die mit sehr gungen auftreten, wie stetige behandelt. Sie werden als q u a s i s t e t i g e oder a p p r o x i m a t i v stetige Merkmale bezeichnet (z.B. Verkaufszahlen pro Tag von LP's in einem Schallplattengeschäft).
4
Deskriptive Statistik
Diagramm
zur Eine
Merkmalsklassifikation Merkmalsklassifikation
(ordinal)
(kardinal)
approximativ Legende:
1.3
•
mögliche Übergänge
Aufgaben
Aufgabe
1.3.1
Zur Verbesserung der Personalplanung wird ein Mitarbeiter beauftragt, Daten über alle Beschäftigten zusammenzutragen, die sich unter anderem auf das Alter, das Geschlecht, die Stellung im Unternehmen, die Dauer der Unternehmenszugehörigkeit und das Gehalt beziehen sollen. a) Was ist die statistische Einheit der Untersuchung? b) Was ist die statistische Gesamtheit (Masse, Population)? c) Welcher Art sind die oben erwähnten Merkmale? (nominal, qualitativ, quantitativ; diskret, stetig) d) Welches sind mögliche Ausprägungen dieser Merkmale?
A u f g a b e 1.3.2 Um die Auswirkungen der kommenden Tarifabschlüsse auf die eigenen Lohn- und Gehaltszahlungen abschätzen zu können, führt die Firma Nagel, Holz & Co. bei 100 ihrer 500 Beschäftigten eine Erhebung durch, bei der Alter, Tarifklasse, außertarifliche Zahlungen und Geschlecht festgestellt werden. a) Geben Sie die Grundgesamtheit der Erhebung an. b) Welcher Art sind die angeführten Merkmale? c) Geben Sie mögliche Merkmalsausprägungen dieser Merkmale an.
2 Häufigkeitsverteilungen
2 2.1
5
Häufigkeitsverteilungen Diskrete
Merkmale
Nach Durchführung einer statistischen Erhebung - und dies wird im folgenden fast s t e t s als erfolgt a n g e s e h e n - ist d a s D a t e n m a t e r i a l (die Urliste) so a u f z u b e r e i t e n , d a ß man die Fülle der B e o b a c h t u n g e n intellektuell a u f n e h m e n und v e r a r b e i t e n k a n n . Als e r s t e s w e r d e n e i n i g e e i n f a c h e graphische D a r s t e l l u n g e n v o r g e f ü h r t , die sich in der Praxis b e w ä h r t h a b e n . Sie finden sich z.B. in Z e i t u n g e n , F i r m e n b e r i c h t e n , F e r n s e h n a c h r i c h t e n . Dazu wird der B e g r i f f der H ä u f i g k e i t s v e r t e i l u n g e i n g e f ü h r t : Seien mals
{b-| ,b2 X aus
b n } die b e o b a c h t e t e n einer
Erhebung
notwendigerweise {x-| , X 2 , . . . , x k } . mehrfach
der
verschieden,
(Kk = k=l
n
Länge
so
mit d e n
beobachtet wurden. K
Ausprägungen daß
n. N i c h t die
absoluten Offensichtlich
eines alle
beliebigen
bj ( H 1 , 2
verschiedenen Häufigkeiten
Merkn}) sind
Ausprägungen n^(k=1,2,...,K)
gilt:
;
K=n trifft nur d a n n zu, falls alle B e o b a c h t u n g e n v e r s c h i e d e n
sind.
2.1.1 Beispiel Die M e n g e der n Beobachtungen {b-|,b2 b n ) seien die Ergebnisse von n=100 W ü r f e n e i n e s W ü r f e l s . Als M e r k m a l s a u s p r ä g u n g e n g i b t es d i e s e c h s v e r s c h i e d e n e n A u g e n z a h l e n {1,2,3,4,5,6}. Für die der G r ö ß e nach sortierten M e r k m a l s a u s p r ä g u n g e n s e i e n d i e f o l g e n d e n H ä u f i g k e i t e n n|< (k=1,...,6) beobachtet worden: {
x i , x 2 , x 3 , x 4 , x 5 , x6
}
{
15,20,20,10,15,20
}, n=100, K=6
bzw. als Tabelle:
x
k
1
2
3
4
5
6
n
k
15
20
20
10
15
20
6
Deskriptive
Statistik
2.1.2 D e f i n i t i o n Sei M ={x-| ,X2,...,x| < } die Menge von beobachteten verschiedenen
Merkmalsaus-
prägungen; sei weiter M —> R ^ g: |
^ _ j n k , fallsx=x k (k=l,...,K) •g(x):={' 0 , sonst
und M
[0,1]
1 x -> f(x) := — g(x) Die Funktion f heißt e m p i r i s c h e Häufigkeitsfunktion. Der Graph dieser Abbildung heißt S t a b d i a g r a m m . O f f e n s i c h t l i c h l a s s e n sich solche S t a b d i a g r a m m e stellen. Für das Beispiel 2.1.1 ergibt sich: Das
Schema
eines
für
alle
Merkmale
er-
Stabdiagramms
f
2.1.3 B e m e r k u n g Es ist f: M —> [0, 1] mit 0.15, x=l 0.20, x=2 . 0.20, x=3 f(x) = | 0.10, x=4 0.15, x=5 0.20, x=6 0.00, sonst
sowie
g: M —> R + 15, 20, , 20, g ( x ) = | 10, 15, 20, 0,
mit x=l x=2 x=3 x=4 x=5 x=6 sonst
Offensichtlich unterscheidet sich der Graph von g vom G r a p h e n von f nur durch die Skalierung.
2 Häufigkeitsverteilungen
7
Da e s sich um Empirie ( = B e o b a c h t u n g e n aus der Praxis) handelt, spricht man a u c h von e m p i r i s c h e n H ä u f i g k e i t e n (d.h. e m p i r i s c h e a b s o l u t e Häutigkeiten bzw. e m p i r i s c h e relative H ä u f i g k e i t e n ) . Sei
X
ein
quantifiziertes
verschiedenen
ordinales
insgesamt n Beobachtungen. f k := f ( x k ) = läßt
oder
Merkmalsausprägungen n
Mit der
ein zu
kardinales
jeweils
Merkmal
n^ (k = 1,2
Definition der r e l a t i v e n
mit K)
K
und
Häufigkeiten
k
sich aus den f - | , f 2 , - -.'K
Häufigkeitsverteilung
der Begriff der k u m u l i e r t e n
(empirischen)
konstruieren:
F i := f F2:= U +
= Fi
f
= f2
3 : = f 1 + f2 + f 3
+ f2 + f3
F « > f i + f2 + ••• + fK = FK-1 + fK U m g e k e h r t l a s s e n sich d i e r e l a t i v e n H ä u f i g k e i t e n a u s H ä u f i g k e i t s v e r t e i l u n g b e s t i m m e n bzw. z u r ü c k g e w i n n e n : fi = Fl fj = Fj - Fj_-|
(¡=2,3
der
K)
2.1.4 Definition Seien die A u s p r ä g u n g e n {x-| ,X2,...,X| 2 ist
'
,
)=1
I (x-x,) ( I i=l j=l
(Xij-Xj)).
ergibt sich daraus
n n n 2 l 2 2 2 n, 2 , - - ,2 2 s = — s,1 + — s? + — ( x - xz, ) . i + — (x-x,) n n n ' n
•
3 Verdichtung der Daten 3.4
17
Konzentrationsmaße
K o n z e n t r a t i o n s m a ß e w e r d e n benutzt, um V e r m ö g e n s - , E i n k o m m e n s - oder ähnliche Verteilungen auf einer Population darzustellen. Dabei ordnet man v o r g e g e b e n e n A n t e i l e n der P o p u l a t i o n d i e e n t s p r e c h e n d e n A n t e i l e des betrachteten Merkmals folgendermaßen zu: Man ordnet die Anteile der Population in der Weise, daß der Anteil des betrachteten Merkmals wächst, wie im folgenden Beispiel dargestellt: 3.4.1 Beispiel Seien 5 Eigentümer von Vermögen verglichen, deren Vermögen {z-| Z2 Z3 Z4 Z5 } = {20 1 0 40 90 40 } bzw. sortiert {y-l y2 Y3 Y4 y s } = {10 20 40 40 90 } , b z w . skaliert {w-| W2 W3 W4 W5} = {5% 10% 20% 20% 45% } bzw. kumuliert {F-| F 2 F 3 F 4 F5}= {5% 15% 35% 55% 100%} b e t r a g e . Das bedeutet, daß die ärmste der fünf betrachteten Personen ein Vermögen von 10 Einheiten, die nächste ein Vermögen von 20 Einheiten besitzt usw. bis zur reichsten, die ein Vermögen von 90 Einheiten besitzt. Graphisch läßt sich dieser Sachverhalt folgendermaßen darstellen: Vermögen
100 %
55%
35%
15% -| 5%
Population
0% Bei Gleichheit überein.
der Verteilung
100 % stimmt
die untere
Kurve
mit der
Diagonalen
18
Deskriptive
Statistik
3.4.2 Definition E s b e z e i c h n e x-| , X 2 , . .,x|< betrachtenden
die
geordneten
kumulierten
Anteile
einer
zu
P o p u l a t i o n , d.h. es gilt
0 < x i < ... < x « < 1, und die kumulierten F-| , F 2 , . . . , F «
relativen
Häufigkeiten des betrachteten
Merkmals
mit d e r E i g e n s c h a f t F j + i - F ; > F | - F j _ i für alle i = 2,3
D a n n w i r d d e r P o l y g o n z u g , d e r die P u n k t e ( x ^ F ^ ) (k = 1,2 Lorenz-Kurve
seien
K-1.
K) v e r b i n d e t , als
bezeichnet.
B e i G l e i c h h e i t d e r V e r t e i l u n g fällt d i e L o r e n z k u r v e mit d e r Diagonalen zusammen. T y p i s c h e A n w e n d u n g e n der L o r e n z k u r v e s i n d E i n k o m m e n s - u n d V e r m ö g e n s verteilungen, und a n d e r e Konzentrationsübersichten (Z.B.Marktanteile). Die F l ä c h e A unter d e r L o r e n z k u r v e (ein D r e i e c k u n d (n-1) T r a p e z e ) x,F, A= —
3.4.3.
k ^ i (Fj + F j + i ) ( x j + 1 - x j ) + I j i=l
ist
'
Definition
Sei B d i e F l ä c h e z w i s c h e n d e r Diagonalen u n d d e r L o r e n z k u r v e , also
B =;
Die G r ö ß e G mit G = —— B+A heißt Bei
tf©
Gini-Koeffizient Gleichverteilung
( x ^ = F|1 u n d d i e A n z a h l d e r Z i e h u n g s m ö g l i c h k e i t e n N n . A l l e M ö g l i c h k e i t e n bei n + 1 Z i e h u n g e n e r h ä l t m a n d a d u r c h , d a ß m a n z u a l l e n M ö g l i c h k e i t e n bei n Z i e h u n g e n a l s E r g e b n i s d e r ( n + 1 ) - t e n Z i e h u n g n a c h e i n a n d e r d i e L o s e 1,2,...,N h i n z u f ü g t . I n s g e s a m t e r g e b e n sich d a n n N N n = N n + 1 M ö g l i c h k e i t e n . 6.2.2
•
Beispiele:
1 . N = 5 , n=2: N n = 5 2 = 2 5 2.Sonderfall n=N; nacheinander werden ebensoviel Ziehungen w i e L o s e in der U r n e sind.
vorgenommen
3 . M a n b e t r a c h t e e i n M e r k m a l , d e s s e n A u s p r ä g u n g e n in m e h r e r e T e i l e z e r l e g t w e r d e n k ö n n e n , z . B . die S i g n a t u r e i n e s B u c h e s e t w a a u s d e r B i b l i o t h e k d e r Universität der B u n d e s w e h r H a m b u r g : "vwl 895 J 2+2" Die v e r s c h i e d e n e n T e i l e d e r A u s p r ä g u n g s i n d : T e i l 1: 3 B u c h s t a b e n , v o n d e n e n j e d e r 2 6 A u s p r ä g u n g e n hat, d.h. 2 6 3 . T e i l 2: E i n e Z a h l , d i e j e w e i l s d e n W e r t { 9 , 8 , 7 , 6 , 5 , 4 , 3 , 2 , 1 } , n i c h t j e d o c h d i e 0 a n n e h m e n k a n n ( k e i n e f ü h r e n d e Null b e i e i n e r d r e i s t e l l i g e n Z a h l in d e r e r s t e n P o s i t i o n ! ) d.h., e s g i b t 9 A u s p r ä g u n g e n .
46
Wahrscheinlichkeitstheorie
Teil 3: Zwei Zahlen, die jeweils einen Wert aus {9,8,7,6,5,4,3,2,1,0} annehmen können (nichtführende Nullen bei den Folgeziffern bei einer dreistelligen Zahl in der zweiten und dritten Position sind zulässig!) d.h., es gibt 10 2 = 100 Ausprägungen Teil 4: Ein Buchstabe, d.h. wie für das erste Merkmal 26 Ausprägungen. Für Teile 5 und 7 gilt das für Teil 2 Entsprechende, d.h. jeweils 9 Ausprägungen, und schließlich gibt es nur eine Möglichkeit für den 6. Teil, nämlich das "+" Zeichen. So folgt für die Signaturmöglichkeiten (ohne Berücksichtigung, ob diese Signaturen alle sinnvoll sind): 263• 9
100• 26 • 9 • 1 • 9 = 264• 9 3 • 100 = 33313550400
Oder allgemein: N n
i•
n
2'
n
3
••••
n
r
••••
n
N=nnji=i
Hierzu ist nj = N ein Sonderfall, d.h. N
Betrachten wir in diesem Sonderfall N=2, so erhalten wir das bekannte Rechtecksschema für die möglichen Kombinationen zweier Merkmale. 6.3 Ziehen
ohne
Zurücklegen,
mit
Berücksichtigung
der
Reihenfolge
In einer Urne seien wieder N durchnumerierte (also wechselseitig unterscheidbare) Lose; aus dieser Urne wird zufällig ein Los gezogen und außerhalb der Urne gelassen. Dieser Vorgang wird n-mal durchgeführt und die gezogenen Lose jeweils den zuvor gezogenen hinzugefügt. Offensichtlich muß hier n2) gebildet. M . a . W . die Koeffizienten g e b e n an, auf wieviele Weisen man die M e n g e von N Elementen in 2 bzw K Teilmengen zerlegen kann.
6 Kombinatorik
49
4.N=4, K=3: N!
_
4!
n
n ! l! 3 ~ n l ! n2! n 3 ! ' Die Veranschaulichung für n-| = 2, n2 = 1, nß = 1:
Aus den Kugeln { a,b,c,d } sind drei Gruppen zu bilden, wobei die Reihenfolge unerheblich ist. Insgesamt gibt es zwölf Möglichkeiten:
4!
n !n
l
2 ! n3!
(a b) (a c) (a d) (b c) (b d) (c d)
(c) (b) (b) (a) (a) (a)
4! 2! 1! 1!
(d) (d) (c) (d) (C) (b)
und und und und und und
N!
12 (a (a (a (b (b (c
b) c) d) c) d) d)
(d) (d) (c) (d) (c) (b)
(c) (b) (b) (a) (a) (a)
6!
n
n !n !n ! 1!n2!n3! l 2 3 ' Die Veranschaulichung für n-| = 2, ri2 = 3, n3 = 1:
Aus den Kugeln {a,b,c,d,e,f} sind drei Gruppen zu machen, wobei die Reihenfolge unerheblich ist. Insgesamt gibt es sechzig Möglichkeiten: 6! _ 6! n j! n ^ rij! ~ 2 ! 3 ! 1 ! ~ '
6 . 5 Z i e h e n mit 6.5.1
Zurücklegen,
ohne
Berücksichtigung
der
Reihenfolge
Satz
Beim Ziehen mit Zurücklegen und ohne Berücksichtigung der Reihenfolge gibt /N+n-l\ es
Ziehungsmöglichkeiten.
Beweis:
(Feller,
S.36-37)
Die Urne besteht aus n Teilurnen (Zellen, Plätzen, Löchern...), in denen jeweils die Kugeln sein müssen. Die Zahl der Möglichkeiten für die Wahl ist also die unterschiedliche Zahl der Belegungen der Zellen durch Kugeln. Sei rj (i=1,2,...,n) die Zahl der Kugeln einer Zelle mit r > rj > 0; r-| + r2 +...+ r n = r. Da es auf die Reihenfolge nicht ankommt, sind nur die unterschiedlichen Belegungen für die Wahl von Interesse. Dafür
stelle
man eine
spezielle Verteilung
{rj,
i=1,2,...n}
Strich/Stern-Muster dar, z.B. für 6 Zellen, 8 Kugeln
durch
folgendes
50
Wahrscheinlichkeitstheorie
(6) mit der Belegung
r * * r i i i i **" i 3 1 0 0 0 4
Jede der Zellen wird durch zwei Striche eingerahmt, jede Kugel durch einen Stern repräsentiert. Ein jedes solches Strich/Stern-Muster beginnt mit einem Strich |, endet mit einem Strich |, und zwischen Anfangsstrich und Endstrich können die übrigen n+r-1 Symbole (r Kugeln, n-1 weitere Trennstriche) beliebig verteilt werden. Damit folgt für die Kugeln, daß sie aus n+r-1 Möglichkeiten ausgewählt werden können, d.h. es gibt ( " V i unterschiedliche Möglichkeiten frei wählbaren Trennzeichen
der Belegung.
Entsprechend
folgen
für
die
( " . " " ) unterschiedliche Möglichkeiten der Belegung. Selbstverständlich sind beide Zahlen für die Möglichkeiten gleich: /n + r - l \ /n + r - l \ r (7) [ n-l H ) Die Identität folgt aus der unmittelbaren Auswertung zienten: (n+r-1)! /n + r - l \ /n + r - l \ (n + r - 1 ) ! ( n - l ) ! r! \ n-l j [ r j r! ( n - l ) ! '
der
Binomialkoeffi-
Ein Sonderfall ist der, in dem in jeder Zelle mindestens eine Kugel auftaucht, d.h. keine Zelle leerbleibt, bzw. daß keine zwei Striche nebeneinander stehen. Mit r Sternen ist dann auf jeden Fall eine Kugel festgelegt, m.a.W. die n-1 frei wählbaren Trennzeichen können nur an r-1 potentiellen Positionen stehen, d.h. die Zahl unterschiedlicher Belegungsmöglichkeiten bei Vorgabe einer Kugel je Zelle ist (8)
(r-D! (n-l)!(r-n)!
6.5.2 Beispiel Sei n=6, r=8: (6+8-1)! (6-l)!8!
/r-l\ (n-l|
/|r-l| (r-nf
(r-1)! (r - n)! (n - 1 ) ! '
/ 6+8-1 \ 16+8-1 \ (6+8-1)! 13! ( 6-1 ] I 8 I 81(6-1)! 8!5!
13 8!5!
1287
(8)' Für ein einfacheres Beispiel, das sich per Hand überprüfen läßt, betrachten wir n=2, r=4:
6 Kombinatorik
(7)"
(2+4-1)! J 2+4-1 _ 2+4-1 (2-1 )!4! 2-1 4
W
3! = / 4 - l j / 3 \ _ 3! 112! \ 2 - l j ( l j 1!2!
(2+4-1)! _ 5! 4!(2-l)! ~4!1!
Die zugehörigen Strich/Stern-Muster
sind:
bzw
Eine Übersicht faßt die Möglichkeiten zusammen: Vier
mögliche
verschiedene
.osen aus N ohne |egen
\ZiehungsNrnodus UrnenN,^ modell
1= < §= > 1 E
M
n!
:
Nn speziell n=N: N
Permutationen
/N+n-1 | _ (N+n-1) (N+n-2) •..: N \
n
I
n
'
51
52
6.6
Wahrscheinlichkeitstheorie
Aufgaben
Aufgabe
6.6.1
Man benutze den eigenen PC, um die Fakultät z! zu berechnen. Benutzen Sie dazu die z! = z (z-1)! (2=1,2,...)
Rekursion:
Aufgabe 6.6.2 Für die B e r e c h n u n g der Fakultät n! gibt es A n n ä h e r u n g e n , z.B. die Stirlingsche Approximation. Prüfen Sie die Güte der Approximation der Fakultät durch die Stirling-Zahl (vergl.Feller), d.h.
n!=V^fnn+0/2)e-n (Hinweis:
Ü b e r p r ü f e n Sie für n=0,1 ,...,20).
Aufgabe
6.6.3
W e l c h e und wieviele Kombinationen gibt es für drei Buchstaben, z.B. für S,P,D? Aufgabe
6.6.4
B e s t i m m e n Sie die Anzahl verschiedener KFZ-Zeichen für einen bestimmten Landkreis. D.h. nach der Festlegung des Landkreises bleiben höchstens zwei Buchstaben und anschließend eine höchstens v i e r s t e l l i g e Zahl. A u f g a b e 6.6.5 Ein weiteres Beispiel zur Kombinatorik ist die A u s w a h l von Spielkarten: Seien die vier üblichen Spielfarben v o r h a n d e n : * v • * , sowie für jede Farbe die Karten
7,8,9,10,Bube,Dame,König,As.
Das s o g e n a n n t e Mischen soll sicherstellen, daß jede Karte aus einem Kartenstapel mit gleicher relativer Häufigkeit in die Wahl kommt, d.h. aus 32 Karten die erste Wahl mit 1/32. Beim Skat erhält j e d e r der drei Spieler jeweils zehn Karten und die restlichen zwei k o m m e n in den Skat. Wieviele Möglichkeiten gibt es, d a ß a) g e n a u i B u b e n (¡=0,1,2) im Skat liegen, b) ein b e s t i m m t e r Spieler g e n a u j B u b e n (j=0.1,2,3,4) erhält? [In e c h t e n S p i e l a n w e n d u n g e n sind selbstverständlich andere Fragen interessanter, z.B. wieviel gute Möglichkeiten gibt es, beispielsweise vier Asse in einer Hand von sieben zu halten. [Robert Louis Stevenson soll mal gesagt haben: Im Leben gibt es nie gute Karlen, sondern immer nur die Chance, schlechte gut zu spielen.] Aufgabe 6.6.6 W ä h r e n d eines Fußballturniers treffen vier M a n n s c h a f t e n a u f e i n a n d e r . Jede M a n n s c h a f t spielt g e g e n j e d e andere. Für einen Sieg gibt es zwei Punkte, für ein Unentschieden für beide jeweils einen Punkt und bei einer Niederlage keinen Punkt. a) Wieviele Möglichkeiten gibt es für eine Mannschaft, genau vier Punkte zu erhalten? b) Wieviele v e r s c h i e d e n e Möglichkeiten der Punktverteilungen gibt es nach A b s c h l u ß d e s Turniers?
7 Wahrscheinlichkeiten
7 7.1
53
Wahrscheinlichkeiten Die
Axiome
der
Wahrscheinlichkeit
In d i e s e m K a p i t e l soll n u n d e r B e g r i f f d e r W a h r s c h e i n l i c h k e i t für b e l i e b i g e E r e i g n i s r ä u m e e i n g e f ü h r t w e r d e n . G e s u c h t ist also eine A b b i l d u n g , d i e j e d e m b e l i e b i g e n E r e i g n i s e i n e Z a h l z u o r d n e t , d i e als W a h r s c h e i n l i c h k e i t für d a s Eintreten dieses Ereignisses interpretiert werden kann. 7.1.1 Definition Sei ß ein E r e i g n i s r a u m und 2>(Q) d i e P o t e n z m e n g e v o n £2. D a n n h e i ß t e i n e Abbildung P : P(Q) = P(fl) + P(0) => P(a) = 0
(2) A n A = 0 u n d Q = A u A
(A3)
_
(A2)
.
_
_
=> P(A) + P(A) = P(Q) =» P(A) + P(A) = 1 => P ( A ) = 1 - P(A)
( 3 ) P(A) = P ( B n A ) + P ( B n A ) = P(B) + P ( B n A ) => P(B) = P(A) - P ( B n A ) => P(B) < P(A) ( 4 ) A läßt sich als V e r e i n i g u n g z w e i e r d i s j u n k t e r T e i l m e n g e n A = ( A \ B ) u (AnB) E n t s p r e c h e n d gilt für B: B = (B\A) u (AnB)
schreiben:
54
Wahrscheinlichkeitstheorie und woraus
A u B = ( A \ B ) u ( B \ A ) u (AnB), unmittelbar die Behauptung folgt.
•
7.1.3 B e m e r k u n g Aus (4) in Bemerkung 7.1.2 folgen die u.U. hilfreichen Abschätzungen: P(AuB) < P(A) + P(B)
(Bonferronis
I.Ungleichung),
P(AnB) > l - [P(Ä) + P(B)]
(Bonferronis
2.Ungleichung).
Die Verallgemeinerungen auf beliebig viele Ereignisse sind offenbar: P(uAk)ik=l 7.1.4
iP(Äk)
Bemerkung
Hat Sl nur endlich viele Elemente, d.h. = {(»!, 0)2. •••. a>n} und gilt Püco,}) = P({co2}) = ... = P({coJ), dann k ö n n e n zur Bestimmung von Wahrscheinlichkeiten die Ergebnisse des Kapitels 6 (Kombinatorik) herangezogen werden. Die Wahrscheinlichkeit für ein Ereignis Ae !P(fi) berechnet sich dann aus der Anzahl der Elemente von A im Verhältnis zur Anzahl der Elemente von Q: P(A) |Q|
" A n z a h l der günstigen Fälle" " A n z a h l der möglichen Fälle"
7.2 Bedingte Wahrscheinlichkeiten In vielen Z u s a m m e n h ä n g e n genügt es, zur Berechnung von keiten nur Teilmengen des Ereignisraums Q zu betrachten.
Wahrscheinlich-
7
7.2.1
Definition
(bedingte
55
Wahrscheinlichkeiten
Wahrscheinlichkeiten)
Seien und zwei beliebige P(A)>0 und P(B)>0. Dann werden
Ereignisse
des
Ereignisraums
Q,
mit
bzw.
als b e d i n g t e
Wahrscheinlichkeiten
bezeichnet.
^
Damit kann insbesondere die gemeinsame Wahrscheinlichkeit P(AnB), d.h. die Wahrscheinlichkeit dafür, daß die beiden Ereignisse A und B zugleich auftreten, berechnet w e r d e n : P(AnB) = P(A I B) P(B) bzw. P(AnB) = P(B IA) P(A).
7.2.2
Beispiel
Sei ß die Menge der natürlichen Zahlen zwischen 1 und 20; sei A die Menge der geraden Zahlen in i l , und sei B die Menge der Zahlen aus Q, die durch 3 teilbar sind. Dann lassen sich fí, A und B wie folgt darstellen: n = {1,2,3, 4,5, 6,7, 8,9, 10,11, 12,13, 14,35, 16,17, 18,19, 20 I A = ( 2 4 6 8 10 12 14 16 18 20 ) B= { 3 6 9 32 35 38 } Sei a u ß e r d e m j e d e s der 20 Elementarereignisse g l e i c h w a h r s c h e i n l i c h mit 1/20. Damit sind durch unmittelbares Auszählen: P(AnB) =3/20, P(A) = 10/20, P(B) = 6/20, und damit die bedingten Wahrscheinlichkeiten: P(AIB) = P(AnB)/P(B) = 1/2, bzw. P(BIA) = P(AnB)/P(A) = 3/10. Mit anderen Worten, sofern B als Ereignisraum betrachtet wird (Bedingung B), dann gibt es 6 Elementarereignisse, von denen 3 gerade sind; sofern h i n g e g e n A als E r e i g n i s r a u m dient ( B e d i n g u n g A), d a n n haben wir 10 Elementarereignisse, von den nur 3 (nämlich 6, 12 und 18) durch 3 teilbar sind, und damit Eigenschaft B aufweisen. Mit der bedingten W a h r s c h e i n lichkeit P(A|B) ist also ein W a h r s c h e i n l i c h k e i t s m a ß auf dem auf B eingeschränkten Ereignisraum definiert.
56 7.2.3
Wahrscheinlichkeitstheorie Satz
(Totale
Wahrscheinlichkeit)
Sei ( A j I i=l,2 / ...,K, A ; ? i 0 ) eine Zerlegung des Ereignisraums fi (s.o. 5.1.14) und B c f l eine beliebige Teilmenge, dann gilt: K
P(B) = £ p ( B I A j ) P(Aj). i=l Beweis: K Aus den Zerlegungseigenschaften (UAi=£2; A h A j * 0 , i*j) und B c i i i=l
folgt:
K B = Bnfl = Bn(kjAi). i=l Aus d e m Distributivgesetz für Vereinigung
und Durchschnitt
folgt
K
B = L^BnAi). i=l Damit
folgt für die
Wahrscheinlichkeit:
K k P(B) = P [ ( j B n A i ) l = X P(BnAj), i=l i=1
da alle B n A ¡ disjunkt sind. Mit der Definition der bedingten keit ergibt sich dann die Behauptung.
Wahrscheinlich•
In Fortführung des Satzes von der totalen Wahrscheinlichkeit ergibt sich der sehr wichtige Begriff der Bayesschen Formel. 7.2.4
Satz
(Bayes
Formel)
Sei (A¡ I i=l,2,...,K, A ¡ * 0 } eine Zerlegung des Ereignisraums Q und BcQ beliebige Teilmenge, dann gilt (3)
P(AkIB) =
P(B I A k ) P(A.) 5 —, k=l,2,...,K . i P ( B I A j ) P(Aj) i=l
Beweis: Aus der Definition der bedingten Wahrscheinlichkeit P(B I A k ) P(A k ) = P ( A k I B) P(B)
folgt:
und damit P(BIAk)P(Ak) P(A
*IB) =
P(B)
Mit Ersetzen des Teilers aus Satz 8.1 ist dann alles bewiesen.
•
eine
7 Wahrscheinlichkeiten
57
7.2.5 Beispiel Vier Abteilungen eines Betriebes fertigen ein bestimmtes Produkt. Aus langjährigen Untersuchungen weiß man, d a ß Abteilung I mit Wahrscheinlichkeit 0.05, Abteilung II mit W a h r s c h e i n l i c h k e i t 0.01, Abteilung III mit Wahrscheinlichkeit 0.02 und Abteilung IV mit Wahrscheinlichkeit 0.1 A u s s c h u ß produziert. A u ß e r d e m kommt ein Fertigungsteil mit Wahrscheinlichkeit von jeweils 0.3 aus Abteilung I oder II, mit Wahrscheinlichkeit von jeweils 0.2 aus Abteilung III oder aus Abteilung IV. Sei nun D das Ereignis, daß ein Fertigungsteil defekt ist und Aj (¡=1,2,3,4) jeweils das Ereignis, daß das Teil von der e n t s p r e c h e n d e n Abteilung gefertigt wurde. Die Wahrscheinlichkeit, daß ein zufällig der laufenden Produktion e n t n o m m e n e s Fertigungsteil defekt ist, b e r e c h n e t sich nach dem Satz von der totalen Wahrscheinlichkeit folgendermaßen: 4 P(D)= I P(D I Aj)P(Aj) = 0.05 0.3 + 0.01-0.3 + 0.02-0.2 + 0 . 1 0 . 2 = 0.042 i=l Nun habe man ein Fertigungsteil aus der laufenden Produktion e n t n o m m e n , und es sei defekt. Nach dem Satz von Bayes berechnet sich die Wahrscheinlichkeit, d a ß dieses Teil von der Abteilung II gefertigt wurde, folgendermaßen: P(A 2 1D) =
P(DIA 2 )P(A 2 ) —
=
0 01-0 3 „ = 0.042
0.0714
I P(D I Aj)P(Aj) i=l Wie aus dem Beispiel 7.2.2 offensichtlich ist, stimmen die Wahrscheinlichkeiten P(A) und P(A|B) im Regelfall n i c h t überein (s.o.), aber der Sonderfall der Ü b e r e i n s t i m m u n g ist d e n n o c h m ö g l i c h und t a t s ä c h l i c h von großer t h e o r e t i s c h e r und praktischer B e d e u t u n g . Es ist der Begriff d e r Unabhängigkeit, der dies ermöglicht:
7.2.6 D e f i n i t i o n ( U n a b h ä n g i g k e i t zweier Ereignisse) Seien A c f l und BcO; dann heißen A und B u n a b h ä n g i g , falls P(AnB) = P(A) P(B). In Worten heißt das: Bedingung B übt auf A keinen Einfluß aus, 6 ist unabhängig von A und umgekehrt. ^ Offensichtlich gelten die Äquivalenzen P(A I B) = P(A) o P(AnB)/P(B) = P(A) » P(AnB) = P(B) P(A).
58
Wahrscheinlichkeitstheorie
Die Verallgemeinerung auf mehr als zwei Ereignisse folgt entsprechend: Seien Ereignisse A ^ c i } (k=l,2,...K) gegeben, dann heißen die A^ unabhängig, falls (4)
K
k
P( n A k ) = n P(A k ) k=l k=l
^
Aus der paarweisen Unabhängigkeit von (4), wie das folgende Beispiel zeigt: 7.2.7 Beispiel i i seien die Ergebnisse darstellung: ^v^Würfel
eines
zweifachen
1 j=
Würfel i=1 2 3 4 5 6
Ereignissen folgt nicht
1 (1,1) (2,1) (3,1) (4,1) (5,1) (6,1)
2
Würfelwurfes,
3
4
5
d.h.
notwendig
in
Matrix-
6
(1,2) (1 ,3) (1,4) ( 1 , 5 ) ( 1 , 6 ) (2,2)(2,3)(2,4)(2,5)(2,6) (3,2)(3,3)(3,4) (3,5)(3,6) (4,2) (4,3) (4,4) (4,5) (4,6) (5,2)(5,3)(5,4) (5,5)(5,6) ( 6 , 2 ) ( 6 , 3 ) (6,4) ( 6 , 5 ) ( 6 , 6 )
Dabei ist jeder einzelnen Ergebnismöglichkeit zugeordnet . Sei A j = ((i,j) I i gerade},
die Wahrscheinlichkeit
1/36
a
2 = ( «,j> ' ) gerade} und A3 = ((i,j) I i und j gerade oder i und j ungerade} Durch Abzählen erhält man: P(A-|) = P(A 2 ) = P(A3) = 1/2. Zur Unabhängigkeit gelten: P(Aj) • P(A 2 )
=1/4 = P(Ai n A 2 )
P i A j ) • P(A 3 )
=1/4 = P ( A j n A3)
P(A 2 ) P(A 3 )
=1/4 = P(A 2 n A 3 )
P ( A j ) • P(A 2 ) • P(A 3 ) =1/8 / P ( A j n A 2 n A 3 ) = 0. A j n A 2 n A3 bedeutet ein unmögliches Ereignis. 7.2.8 Beispiel Q. sei die Menge der gemeingefährlichen Störfälle für K AKWs innerhalb eines bestimmten Monats, d.h. A^ ist der Ausfall des k-ten AKW innerhalb eines Monats. Mit der Annahme, daß die Ausfallwahrscheinlichkeit bei allen AKWs gleich ist (eine sehr strenge Annahme; z.B. willkürlich p=0.0001), und daß sie untereinander unabhängig sind, ist die Wahrscheinlichkeit mindestens eines Ausfalls die Parallelsituation der Abbildung zu Beispiel 5.2.4:
7 Wahrscheinlichkeiten
59
P ( n A k ) = n P ( A k ) = l - P ( n A k ) = l - n P(A k ) = l - ( i - p ) K . k=l k=l k=1 k=1 Für eine Stadt wie Hamburg mit K=3
sowie mit der Annäherung
K
(l-p) - 1 - pK ergibt sich: 1 - 0.0003 = 0.9997, bzw. für die Ausfallwahrscheinlichkeit 0.0003, d.h. in 10000 Betriebsmonaten drei Störfälle. Ob das eine erträgliche Gefährdung durch die AKWs ist, ist keine wissenschaftliche Frage, wie oft irrtümlicherweise in der Diskussion solcher Probleme suggeriert wird.
7.3
Aufgaben
A u f g a b e 7.1: Zeigen Sie, daß für beliebige Ereignisse A, B und C gilt: P ( A u B u C ) = P(A) + P(B) + P(C) - P(AnB) - P(BnC) - P ( A ^ C ) + 2 P ( A n B n C ) . Aufgabe
7.2:
Beim Vergleich der drei Fluggesellschaften A, B und C, welche als einzige die Strecke von X nach Y bedienen, wurde insbesondere untersucht, ob das Gepäck der Passagiere korrekt transportiert wird. Dabei stellte sich heraus, daß Gesellschaft A mit der Wahrscheinlichkeit 0.001, Gesellschaft B mit der Wahrscheinlichkeit 0.002 und Gesellschaft C mit der Wahrscheinlichkeit
0.01 das
Gepäck eines Passagiers fehlleitet. Die Wahrscheinlichkeit, bei zufälliger Auswahl eines Flugzeuges für die Strecke von X nach Y in einem Flugzeug der Fluggesellschaft A zu sitzen, beträgt 0.5; für Fluggesellschaft B beträgt sie 0.3 und für Fluggesellschaft C 0.2. a) Ein Passagier wählt zufällig eine Maschine aus. Mit welcher Wahrscheinlichkeit wird sein Gepäck nicht fehlgeleitet? b ) Ein Passagier kommt in Y an und sein Gepäck fehlt. Mit welcher Wahrscheinlichkeit saß er in einer Maschine der Gesellschaft B? c ) Sind die beiden Ereignisse E-f. "Ein Passagier fliegt mit Fluggesellschaft A" und E2'- "Sein Gepäck wird fehlgeleitet" voneinander unabhängig?
60 8
Wahrscheinlichkeitstheorie Zufallsvariable
und
Verteilungen
Bei der Bestimmung von Wahrscheinlichkeiten stößt man häufig auf Schwierigkeiten, die zugrundeliegenden Ereignisse richtig zu beschreiben. Dies läßt sich dadurch überwinden, daß man die Wahrscheinlichkeit nicht unmittelbar als Abbildung von iP(£2) nach dem Intervall [0,1] betrachtet, sondern vorher den Ereignisraum Q in die reellen Zahlen abbildet. Dadurch erhält man einen neuen Ereignisraum, dessen Elemente reelle Zahlen sind. Bildet man auf dieser Menge von reellen Zahlen ein iP(£2) entsprechendes Mengensystem, dann entsprechen die gemäß der Abbildung von Q nach R abgebildeten Ereignisse den "Originalereignissen". Mit einem durch die gleiche Abbildung erzeugten Wahrscheinlichkeitsmaß auf dem von R erzeugten Mengensystem lassen sich dann die entsprechenden Wahrscheinlichkeiten bestimmen. 8.1
Zufallsvariable
8.1.1 Definition (Zufallsvariable) Eine Abbildung X: n R mit der Eigenschaft, daß das Urbild eines jeden Intervalls aus R ein Ereignis aus R mit X(0,0,0) = 0 X(0,0,1) = X(0,1,0) = X(1,0,0) = 1 X(0,1,1) = X(1,0,1) = X(1,1,0) = X(2,0,0) = X(0,2,0) = X(0,0,2) = 2 X(1,1,1) = X(0,1,2) = X(1,0,2) = X(1,2,0) = X(0,2,1) = X(2,0,1) = X(2,1,0) = 3 X(0,2,2) = X(2,0,2) = X(2,2,0) = X(2,1,1) = X(1,2,1) = X(1,1,2) = 4 X(2,2,1) = X(2,1,2) = X(1,2,2) = 5 X(2,2,2) = 6 Ein Funktionswert x von X, also die Zahl x e R , deren Urbild X" 1 (x) ein Ereignis Ae i > ( Q ) ist, d.h. für die gilt X(A) = x, heißt R e a l i s i e r u n g oder R e a l i s a t i o n der Zufallsvariablen X. 8.2
Verteilung
8.2.1 Definition (Verteilungsfunktion) Die Funktion F: R [0,1], die jedem Intervall (-~,x] die Wahrscheinlichkeit P({coeß| X(0) sei, und sei B das Ereignis, daß die Glühbirne über tg hinaus noch bis zum Zeitpunkt t-j (t-| >tg) weiterarbeitet. Interessiert man sich nun für die Wahrscheinlichkeit dafür, daß eine Glühbirne, nachdem sie schon bis zum Zeitpunkt to gebrannt hat, auch noch bis zum Zeitpunkt ti weiterbrennt, d.h. für die bedingte Wahrscheinlichkeit
dann erhält man
80
Wahrscheinlichkeitstheorie
= e~^to,
für das Ereignis A (Funktionszeit bis mindestens tg): P(A) für das Ereignis A n B (Funktionszeit von tg bis t-|): weil t i
nur erreicht w e r d e n
kann, nachdem tg
P ( A n B ) = e"^ 1 " 1 ,
erreicht w o r d e n
ist.
Damit
gilt: -U-i P(B|A) = e"
= U
e
'U1+Xt0=
e^^l^O).
0
D i e s e s E r g e b n i s w i r d ü b l i c h e r w e i s e als die Gedächtnislosigkeit Exponentialverteilung b e z e i c h n e t . Es kommt nur auf die Zeitdifferenz nicht jedoch wo diese Zeitdifferenz anfällt. 1 0 . 5 Die Erlang-Verteilung Eine erste V e r a l l g e m e i n e r u n g der Exponentialverteilung metrige unimodale E r l a n g v e r t e i l u n g . Eine Zufallsvariable mit der Dichte f:R->R 0 e
(n-1)!
zweipara-
tfür - x > n0
heißt Erlang-verteilt
Eine Kurzschreibweise
die
für x < 0
i x" - ' X
mit ne N und X > 0
ist
der an,
mit
Parametern
X und n.
ist X ~ P(n,X).
Dichten mit den Parametern X=3 und n=3 bzw. n=6 sehen folgendermaßen aus:
Für n=1 ist die Exponentialverteilung
zurückgewonnen.
81
10 Stetige Verteilungen
10.6 Die Weibull-Verteilung Eine zweite Verallgemeinerung der Exponentialverteilung metrige unimodale W e i b u l l - V e r t e i l u n g . Eine Z u f a l l s v a r i a b l e mit d e r D i c h t e f: R - > R 0
ist d i e
zweipara-
für x < 0
f(x):={ nx
n-1
Xe
-Xx
n furx>0
mit n s N u n d X > 0 h e i ß t W e i b u l l - v e r t e i l t
mit
den
Parametern
X u n d n.
Eine Dichte mit d e n P a r a m e t e r n X = 0 . 2 5 und n=2 sieht f o l g e n d e r m a ß e n aus:
10.7 Die Hyper-Exponentialverteilung Eine dritte V e r a l l g e m e i n e r u n g der Exponentialverteilung Exponentialverteilung: Eine Z u f a l l s v a r i a b l e mit d e r Dichte f: R - > R 0 f(x):= ^
Für n = 1 folgt e r n e u t die
die
Hyper-
für x < 0 mit Ä.j>0 u n d X
n
X i=l
ist
e
1
für x > 0
Exponentialverteilung.
ai
= l,neN.
82
Wahrscheinlichkeitstheorie
1 0 . 8 Die b e i d s e i t i g e Exponentialverteilung Eine vierte V e r a l l g e m e i n e r u n g der Exponentialverteilung tige Exponentialverteilung. Eine Zufallsvariable mit der Dichte f: R - > R
{
beidsei-
X -e
x -ix
- e
heißt b e i d s e i t i g
ist die
, x0
,x>0
exponentialverteilt
mit
Parameter
X.
Dichten mit den Parametern X=1,2,3 sehen folgendermaßen aus:
Anwendungsbereiche dieser Verteilungen sind etwa: Die Lebensdauer von Glühbirnen oder anderen technischen Aggregaten oder die Servicezeit an S c h a l t e r n werden t y p i s c h e r w e i s e durch Exponentialverteilungen beschrieben. Auch die Sterbewahrscheinlichkeit von Säuglingen wird durch eine Exponential-Verteilung beschrieben.
10 S t e t i g e V e r t e i l u n g e n
83
1 0 . 9 Die N o r m a l v e r t e i l u n g (Gauß-Verteilung) Eine Zufallsvariable mit der Dichte f:R->R (x-n)2 f(x):=—L=e
2ct
2
V 27tG heißt n o r m a l v e r t e i l t
mit Parametern
neR,a2eR++.
Eine verbreitete Kurzschreibweise ist rA£(|i,o2). Eine Kurvendiskussion von f(x) liefert
sofort:
1. f ist symmetrisch um den Extremwert n, d.h. f'(p.)= 0. 2. f ist streng monoton steigend von -«> bis
und streng monoton
fallend
von |i bis 3. f hat zwei Wendepunkte in n ± o Damit
ist
f,
eine
stetige
H-ct Üblicherweise
Funktion,
|i
vollständig
beschrieben:
n+a
bezeichnet man sie als Glockenkurve
der
Normalverteilung.
Die numerischen Werte sind aus Tafel 3 zu entnehmen. Für die Verteilung gibt es keinen geschlossenen Ausdruck, d.h. es existiert keine Stammfunktion F(x). Aber die entsprechenden Werte der Fläche unter obiger Kurve können numerisch gefunden werden. Deswegen ist eine Tabelle der einzige Weg, F(x) schnell verfügbar zu haben.
84
Wahrscheinlichkeitstheorie
Eine in der Wirtschaftstheorie erforderliche Modifikation ist die sog. n o r m a l e V e r t e i l u n g . Die zugehörige Dichte ist f: (-°°,|i]->R
halb-
_ (x-ll)2 f(x) :=
V
.
= e 2(J2
2KG
in der die Variable auf eine Halbachse beschränkt ist. 10.10 Die l o g n o r m a l e V e r t e i l u n g Eine verwandte Verteilung ist die l o g n o r m a l e Eine Zufallsvariable mit der Dichte f. R->R (lnx-a)2
1 ,
1 f(x) := .-.e / 2 x V 271(7 heißt l o g n o r m a l - v e r t e i l t
mit
:r~ 2ct
Verteilung.
2
/ x>0, c >0, ae R
Parametern
a und
c2.
Diese Dichte spielt ähnlich wie die Pareto-Verteilung in Größenverteilungen eine Rolle. Ein Bild der Normal-Verteilung (W. J. Youden) DIE N O R M A L ODER GAUSS VERTEILUNG IST EINES DER HERVORRAGENDSTEN ERGEBNISSE DER STATISTIK UND DER MENSCHLICHEN ERKENNTNIS ALL GEMEIN * SIE IST HEUTE EIN NAHEZU UNENTBEHRLICHER BEGRIFF FUER DIE EMPIRISCHE FORSCHUNG IN DER NATUR- UND SOZIALWISSENSCHAFT, IN MEDIZIN, LANDWIRTSCHAFT UND INGENIEURWISSENSCHAFTEN * FUER DIE ANALYSE VON DATEN UND GRUNDWISSEN, DIE SICH AUS BEOBACHTUNG UND EXPERIMENT AUFBAUEN.
10 S t e t i g e V e r t e i l u n g e n
10.11 Die Cauchy
Verteilung
Eine Zufallsvariable mit der
Dichte
t: R->R f(x) := K
k 2 2 ( k + (x-m) )
heißt Cauchy-verteilt
mit
, 0 < k. - ° o < x < ° °
Parametern
Das Maximum der Dichte liegt in x=m:
k und
m.
85
86
Wahrscheinlichkeitstheorie
1 0 . 1 2 Die t-Verteilung (Students Eine Zufallsvariable mit der Dichte f: R - > R
t-Verteilung)
n ^ l ) f(t):=
V^nJ> + V
— . - °° < t < °°
(1 + )n+1
ir
heißt t - v e r t e i l t mit n Freiheitsgraden. Der Parameter n wird als Freiheitsgrad der Verteilung Mit n=1 und n^-) = Vit folgt
aus
der t-Verteilung
die
bezeichnet. Cauchy-Verteilung
k=1. Dichten mit n=5 bzw. n=9 Freiheitsgraden sehen folgendermaßen aus:
mit
10 Stetige Verteilungen
87
1 0 . 1 3 Die Beta-Verteilung Eine Zufallsvariable mit der Dichte f: R - > R r(a+ß)xa"1(l-x)ß"1
0< x< 1
HcO n p )
, 0 < a,ß
f(x) := { , sonst
0 heißt b e t a - v e r t e i l t
mit
Parametern
a und ß.
Dabei ist f ( z ) die Gammafunktion H z ) :=
I f
°°
x
z
'
]
e"
x
a^ x , 0 < z, 0 < x < •
•'0 Die Beta-Dichte Dichten:
ist eine zentrale
G r ö ß e . A u s ihr folgen z a h l r e i c h e
1 0 . 1 4 Die F i s h e r s c h e F - V e r t e i l u n g Eine Zufallsvariable mit der Dichte f: [0,°o) -> R r(-i—=) f
2
f(x) :=
r A r Ä 2 2 heißt
F-verteilt f(x)
mit
1
f
1 (
L
2
x v ,0< f
f
Parametern
^
W f-)
* und f2-
2 ganzzahlig, 0 < x < •
andere
88
Wahrscheinlichkeitstheorie
Mit f-) = 1, f2 = f sowie x = t 2 folgt aus der F-Dichte die t-Dichte. Mit a =: f-j /2,
ß =: f2/2, F:= (fi/f2)[x/(1-x)]
und f-| ,f2 ganzzahlig
ist die F-
Verteilung ein Sonderfall der Beta-Verteilung. Man beachte den Zusammenhang zur Binomialverteilung (den Rollentausch von Variablen und Parametern), d.h.: mit ganzzahligen a.und ß und x als Parameter erhält man die Binomial-Verteilung. 10.15 Die G a m m a - V e r t e i l u n g Eine Zufallsvariable mit der Dichte f: ( O H -> R a-1 -x/ß f(x) := — , 0 < Ot,ß , 0 < x < °° a ß Ha) heißt g a m m a - v e r t e i l t mit Parametern Die Kurzschreibweise sei G(a,ß).
a und ß.
10.16 x2(Chi-Quadrat)-Verteilung Eine Zufallsvariable mit der Dichte f: [0,~) R 7/2-1 x/2 f(x) := — ,0 1 a-1
Für d ie Varianz folgt: var(X) = E(X2) - E(X) 2 mit: a-1 E(X 2 )= I
x 2 f ( x ) d x = aba I
K
l 0
, a I = -ab fI J
z
a 2 " a-3 , , az dz = -ab aU a-2
(ij
b
w
dx
n u2 iu ab I , ,, = fur a > 2 , 'Vb a-2
also var(X) =
K2 ab
2 2 K a b
V,2 ab
a-2
(a-1) 2
(a-2)(a-l) 2
11.3.12 Beispiel Die Dichte dieses Beispiels zeigt, daß eine stetige Verteilung keinen Erwartungswert zu besitzen braucht. Sei die Dichte 100] P[X>0] = E(X) E(X 2 1 4 ) P U ) = E[X 2 1 X>0] P[X>0] = E(X 2 ), usw. Aus der Definition der Varianz folgt dann die Ungleichung: C)
E(X2)>E[X I X>0I2P|X>0],
sowie aus der Verteilungsannahme, daß der bedingte Mittelwert nur größer als der unbedingte ist: E(X 2 ) > E[X] 2 P[X>0). Dies gibt eine erste, triviale, obere Abschätzung: P(X>0] {Kovarianz=0} nicht der Umkehrschluß, d. h. {Unabhängigkeit} {Kovarianz=0}. Auch hierfür gibt es Gegenbeispiele (Ferguson, 1969, S.112). 12.2.8 D e f i n i t i o n ( K o r r e l a t i o n s k o e f f i z i e n t p) Die Kovarianz zweier standardisierter Zufallsvariablen Korrelationskoeffizient p p = Cov(X*,Y*) = f
X*, Y* heißt
f D l x * - E(X*)] [y* - E(Y*)] f*(x,y) dxdy,
wobei f*(x,y) die gemeinsame Dichte von X* und Y* bezeichnet.
12.2.9 B e m e r k u n g ( K o r r e l a t i o n s k o e f f i z i e n t Für den Korrelationskoeffizienten gilt (i) -1 < p < 1 (ii)
wieder
und
^
Linearität)
p = ± 1 » Y = a + bX(a,beR).
Der Beweis zu Satz 12.1.12 gilt für alle Zufallsvariable, also insbesondere auch hier. 12.2.10 p 2 =: R2
Definition wjrc| a|s
Bestimmtheitsmaß
Offensichtlich ist 0 < R 2 < 1.
bezeichnet.
^
12 Zweidimensionale 12.2.11
Zufallsvariable
119
Satz
Für unabhängige Zufallsvariable X und Y gilt wieder p = 0 und R 2 =0. Der Beweis ist wieder eine unmittelbare Folgerung aus Satz 12.1.4. 12.3
Bedingte
Verteilungen
In Erweiterung zum e i n d i m e n s i o n a l e n Fall e r l a u b t der V e r t e i l u n g s b e g r i f f folgende Verallgemeinerung: Aus der Definition der Verteilung F(x,y) = P[X< x u n d Y< y] ist es offensichtlich, daß auch andere Wahrscheinlichkeiten der Weise bestimmt werden können, etwa:
in
entsprechen-
P[ X ist höchstens halb so groß wie Y] = y=+oo y/2 P[X < 0.5 Y] = I I f(x,y) dxdy. j
Ein weiteres Beispiel
V—-OO
'
\ :
-L. :
ist:
P[ X+Y < c, 09
Eine beliebige Verteilung mit E(X) und var(X)
E(X)=np var(X)=np(1 -p)
13 Stichprobenverteilungen 13.6
139
Aufgaben:
Aufgabe
13.6.1:
In vielen Anwendungen der Binomialverteilung B(n,p) ist n groß und p klein und außerdem das Produkt np:= X konstant sowie sehr klein. In dieser Situation kann die Binomialverteilung wie folgt durch die Poissonverteilung P ( X ) wie folgt angenähert werden. Sei p 0 von B(n,p) durch eine Taylorreihe angenähert, d.h. PO = (1 - p) n = (1 -
« In po = n ln(l - p) = n lnCl -
und (1)
2 In pg = - X - — - . . . bzw für große n lnpo = -A. po = 2n
Für zwei aufeinanderfolgende Werte der Zähldichte von B(n,p), d.h. das Verhältnis ,X k 1 npi— - — - —) n n n =* + , k>0 Pk-1 k k(l-p) ergibt sich mit den Voraussetzungen (np const.; n -» •») für ein festes beliebiges k Pk
Pk-1
i. n k
, k Daraus ergibt sich jedoch die Poissonverteilung (s.o. 9.7):
—e
_x
,k=0,l,2,...
Zeigen Sie die Annäherungschritte im Detail und beweisen Sie damit (1) und (2). Aufgabe 13.6.2 Wie groß ist näherungsweise die Wahrscheinlichkeit dafür, daß bei 10 000 Würfen mit einem fairem Würfel das arithmetische Mittel der Augenzahlen um höchstens 0.035 von dem Mittelwert 3.5 abweicht ( 1 % Abweichung ) ? Aufgabe 13.6.3 Die Sterblichkeitsrate von Ratten, die mit einer bestimmten Seuche infiziert worden sind, beträgt 0.8. In einer Versuchsreihe werden 120 Ratten infiziert. Wie groß ist die Wahrscheinlichkeit, daß weniger als 90 Ratten sterben? Aufgabe 13.6.4 Ein Prozent einer bestimmten Population sei farbenblind. Mit welcher Wahrscheinlichkeit sind von 500 zufällig ausgewählten Personen dieser Population a) höchstens drei Personen farbenblind, b ) mindestens zwei Personen farbenblind? c ) Bestimmen Sie Erwartungswert und Varianz der Zufallsvariablen, welche die Anzahl der Farbenblinden unter den 500 Untersuchten Personen beschreibt. Aufgabe 13.6.5 In einem Fertigungslos von N = 1000 Sicherungen sind M = 10 Sicherungen defekt. Zur Kontrolle werden n = 30 Sicherungen ohne Zurücklegen entnommen und überprüft. Bestimmen Sie die Wahrscheinlichkeit, daß a) genau zwei der entnommenen Sicherungen, b ) höchstens drei der entnommenen Sicherungen defekt sind.
140 14
Induktive Statistik Punktschätzverfahren
Im a l l g e m e i n e n sind die Parameter von Verteilungen, die bei statistischen Untersuchungen auftreten, nicht bekannt. Deshalb versucht man, Werte für diese Parameter mit Hilfe von Stichproben und deren Realisierungen so zu bestimmen, d a ß begründet davon ausgegangen werden kann, daß die so erhaltenen Parameterwerte den wahren, aber unbekannten Parametern entsprechen. Da die so bestimmten numerischen Werte mit den wahren Parametern nicht übereinstimmen müssen - der numerische Wert ist immer mit einem gewissen Fehler behaftet -, werden sie daher als S c h ä t z w e r t e bezeichnet. Man geht a l s o davon aus, daß ein zu untersuchendes Merkmal auf einer G r u n d g e s a m t h e i t einer bestimmten Verteilung unterliegt, deren Parameterwerte mit Hilfe einer Stichprobe ermittelt w e r d e n . Sei f ( x ; 0 ) die (Zähl)-Dichte einer Verteilung einer Zufallsvariablen X mit den unbekannten Parameter ©eR* 3 (Der Einfachheit
halber wird im folgenden
oft
davon ausgegangen daß p=1 ist, d.h., daß nur ein Parameter zu bestimmen ist. (Tatsächlich
gelten
die
Überlegungen
jedoch
allgemein
für
p>1).
Sei
( X i , X 2 , . . . , X n ) eine Zufallsstichprobe aus der betrachteten Grundgesamtheit. Dann sind alle Xj (i= 1,2,...,n) entsprechend der (Zähl)-Dichte f(x;0) verteilt. Ein
Schätzwert
ist
dann
eine
( S c h ä t z f u n k t i o n ) g: R n e-g(xi,x2
Realisierung
der
Stichprobenfunktion
RP xn)
d.h. bei vorliegender Stichprobenrealisierung
(x-| ,X2,..-,x n )
e = g(x-|,x2,...,x n ). M.a.W. die Menge der n Beobachtungen unabhängiger von
dem
und
identisch
p-dimensionalen
verteilter
(x-| , X 2 , . . . , x n )
Zufallsvariablen,
Parameter
0
sind deren
Realisierungen (Zähl-)
a b h ä n g t . Offensichtlich ist 0
Dichte eine
Zufallsvariable. 14.1 Sei
Das
Maximumlikelihood-Prinzip
( X i , X 2 , . . . , X n)
unabhängig
und
eine
von
Zufallsstichprobe,
identisch
verteilte
f ( x ; 0 ) , wobei der Parameter 0
R.A.Fisher d.h.
unbekannt ist.
Dann wird die Funktion n (1)
£=rif(xii0) i=l
als L i k e l i h o o d f u n k t i o n ,
und ihr
alle
Zufallsvariablen
Logarithmus
Xj mit
(i= der
1,2,...,n)
sind
(Zähl)-Dichte
141
14 Punktschätzverfahren n
(2)
L = Dlnf(xil0) i=l
als L o g l i k e l i h o o d f u n k t i o n Mit
diesen
bezeichnet.
Vereinbarungen
kann
das
Problem
der
Schätzung
wie
folgt
angegangen werden. Für die S c h ä t z u n g von 0 , d.h. die numerische Bestimmung von Werten 9 für 0 wird die Likelihoodfunktion maximiert, d.h. es werden Werte 0 so gewählt, d a ß (1) bzw. äquivalent (2) möglichst g r o ß wird. D i e s e s Optimierungsproblem wird als Fishersche Maximumlikelihoodschätzung bezeichnet. Den Übergang von der Likelihoodfunktion zur Loglikelihoodfunktion vollzieht man häufig, weil d a s Maximum der Loglikelihoodfunktion in vielen Fällen leichter als das Maximum der Likelihoodfunktion zu bestimmen ist. A u ß e r d e m interessiert man sich beim Maximum-Likelihood Verfahren nicht für den Maximalwert selbst, sondern nur für d e s s e n Lage. Diese wird jedoch durch Logarithmieren nicht verändert, w i e der f o l g e n d e Satz zeigt. Der formalen Einfachheit w e g e n wird dies nur für d e n e i n d i m e n s i o n a l e n Fall gezeigt (p=1).
14.1.1 Sei
Satz
(Monotone
f(z) eine
beliebige
Transformationen
Funktion
R - > R und
in sei
der für
Optimierung) einen
Optimalpunkt
zg
d e s s e n Umgebung U betrachtet. f ( z 0 ) > Hz), Mit einer
zeU(zo)
monotonen Transformation g: R
-> R bleibt die Lage des
Optimal-
punkts unberührt, d.h.: g(f(z 0 )) > g(f(z)), z e U ( z 0 ) .
Beweis: Ein Extremum wird d u r c h f'(z) transformierte Funktion gilt:
de dz
de df df dz =
2
df dz
„
d_ dg df dz df dz
damit
nach die
bestimmt Ein
charakterisiert.
Für
die
monoton
„
von
g das
ob
Vorzeichen
Maximum
oder
der
zweiten
nicht)
Ableitung
ausschließlich
wird.
Hauptfall
schätzung
Monotonie
Entscheidung,
de dz
0
dg dY df V, 2 ' dz
dz woraus
=
(und aus
f
If einer
ist der
monotonen
Logarithmus.
Transformation
in
der
Maximumlikelihood-
142
Induktive
14.1.2 Beispiel Für die Dichte
Statistik
(Der
ML-Schätzer
00 0 sonst sowie eine Zufallstichprobe {X-| ,X2
für
die
Exponentialverteilung)
,
f(x) = (
X n } ist die Likelihoodfunktion:
n L =
YlXe
X x i
,
i=l
bzw. die
Loglikelihoodfunktion: n L = n lnX - A. Z i=l
•
Eine notwendige Extremumsbedingung 1. Ordnung ist: n dL n ^ Ä
=
r
£ X i = 0
i=i Die zweite Ableitung d \ dX
= 2
n X
-
ist:
< 0.
2
Damit ist die Lösung, der ML-Schätzer, X= X ein maximierendes X. 1 4 . 1 . 3 Beispiel (Der ML-Schätzer für die Für die Dichte f: R -> R 1 f(x) = -°°1, > o, für a 0. Außerdem wird der Ausschluß von a=1 in der Definition der Dichte verständlich. Hält man einen der beiden Parameter konstant, dann kann der andere durchaus mit dem ML-Verfahren geschätzt werden (siehe etwa Schlittgen 1990, S.206). 1 4 . 1 . 6 B e i s p i e l (Der Verteilung)) Für die Dichte
ML-Schätzer
(x-n) f(x)=-^L=e"
2(J
für
die
Normalverteilung
(Gauß-
2
2
V 27IG mit den beiden Parameter )ieR, o 2 > 0, sowie einer Zufallstichprobe {X-], X2,...., X n } ist die Likelihoodfunktion n
(*i-H>
2
2a2
L = n T j = * i=1
sowie
die
V 27to Loglikelihoodfunktion n I>,
(5)
L = -n ln(V2n) - y Ina2 - —
V .
2a2 Der erste Term in (5) ist für die ML-Schätzung unbeachtlich (er verschwindet beim Ableiten!) und wird daher oft gar nicht aufgeführt. Notwendige Extremumsbedingungen sind n Z 0 nach n aufgelöst werden. Ebenso folgt aus der zweiten
Normalgleichung
(7)
eine
Bestimmungsgleichung
für
a2,
nachdem
n
eingesetzt ist. Weiter beachte man, daß aus historischen Gründen nach a 2
14 Punktschätzverfahren
147
und nicht nach a abgeleitet wurde! Als Ergebnis folgen die Schätzer n
H = — y x :1 = X und n ^ i=l _
1
2
°
=n
Ii
~ 2
i=l
2
=s •
Die Tatsache, daß es sich um ein Maximum handelt, wird aus den zweiten Ableitungen unter Berücksichtigung der Bedingungen erster Ordnung klar: I(xrli) i=i
a i 2
3n3n
2
(O )
o ¿(xrn) 2
3|iâo
(a )
= 0,
2
•=0
2
I i=l 2 2 da da
2a
4
2a
4
a
4
-< 0 2a
bzw.
H :
; det (H) = - — a
2
0 . 2a
2
2a
Hiermit
ist das
\ Determinantenkriterium
für ein M a x i m u m
erfüllt.
1 4 . 1 . 7 B e i s p i e l (Der M L - S c h ä t z e r für e i n e ein(-zwei)parametrige Verteilung) Sei X eine diskret verteilte Zufallsvariable mit der Zähldichte P(X=xi)= ap P(X=x 2 ) = (l-a) p; P(X=x3)=
000 n — n — > 0 0 ri
15.2
2
Effizienz
15.2.1 Ein
2
0 = 0 .
Definition
Schätzer
Teilmenge
©
heißt
sonstiger
unterscheiden
(Effizienz) effizienter
als
Eigenschaften
ein sich
Schätzer beide
nur
0, falls in
der
in
einer Varianz
und
var(@) < v a r ( 0 ) ist.
f
Mit d i e s e m B e g r i f f h ä n g t e b e n f a l l s d i e B e z e i c h n u n g z u s a m m e n , d a ß e i n S c h ä t z e r b e s t e n s sei. E s heißt, daß d i e s e r b e s t e S c h ä t z e r in einer K l a s s e (z.B. d e n l i n e a r e n u n d u n v e r z e r r t e n ) v o n S c h ä t z e r n die k l e i n s t e V a r i a n z hat.
157
15 Eigenschaften von Schätzern 15.2.2 Beispiel (Mittelwertschätzer) Man vergleiche die drei Mittelwertschätzer H = X,
E(X) = n ,
, n-l n = a( — - X Xj ) + (1-a) X n / 0 a 0
Unterfall 4 (ein einseitiger
Test):
2
H 0 : o 2 := öq 2
H-|: a 2 :< a 0 als Stichprobenfunktion auf die beiden Schätzer für o 2 — n , n . 2 (xrn) 2 (x: - (i) o =y — und 0 = y . n n-1 i=l i=l Die
Stichprobenfunktion
Theorie des
(in
vier
Konfidenzintervalls
äquivalenten
erläutert)
zurückgegriffen:
Schreibweisen,
für a 2 ist:
wie
in
der
17 Parametrische Tests
£(x,-X)2 z:=
i=1
o
_ =
2
193
_
2 nS 2 0 n 0 (n-1) . = = und z ~ y „ i • 2 2 2 n-1 o a a
Damit kann in Abhängigkeit von der Irrtumswahrscheinlichkeit 1. Art der entsprechende Verwerfungsbereich für die jeweilige Nullhypothese bestimmt werden. Für den 2. Unterfall (dieser wird behandelt, da er besonders einfach in Analogie zum Konfidenzbereich behandelbar ist, vergl. oben Beispiel 16.1.14, bei dem in gleicher W e i s e von der Parallelität der formalen Entwicklung Gebrauch gemacht ist) folgt nach Entnahme der zugehörigen Tafelwerte aus der X 2 -Verteilung-Tabelle ein beidseitiges Intervall: P[Ty < z < T 0 ] = 1 - a, 0< a MO
M ^ M„
M < MO
M = M, 0
M ^ MO
Me [nfn2]
M « t^-Mgl
t-Werte g e m ä ß Dabei
Student's
_ 2 2 1 — ist s * = — - Y ( x1r x ) n-l . , 1=1
H q kann nicht verworfen werden, x e
M0 + t 1 - a '
falls
S* "7= Vn
x s
[ M o - t 1-a ' - 7 = . ) ^S* [ M o " 1 1-a/2 '—/=< Mo + t 1-o/2 Vn s* x e [Ml"t1-a/2 ' - 7 = . M 2 + tl-a/2 Vn t-Verteilung
mit n - 1
Freiheitsgraden.
s* '-7=] Vn s* -7=] Vn
17 Parametrische Tests Grundgesamtheit
199
normalverteilt;
Tests für a 2 :
H
2 CS
H
o 2
"
ö
c
0
2
>
Hg kann 2 a
0
s ^
nicht
verworfen werden,
( o . x L - i i 2
2 a
2 "
°0
2 °0
.2
2
2
»2
II
2 a
a
*
°0
n-1
S
X 2 - W e r t e a u s der x 2 - V e r t e i l u n g s t a f e l Dabei ist s*
2
2
2 Ö