121 37 112KB
Polish Pages [657] Year 2002
WYDAWNICTWO NAUKOWE PWN WARSZAWA 2002
a k y t s y | Stat w ó k y z f a l d
1 Roman Nowak
Projekt okładki i stron tytułowych MARYNA WIŚNIEWSKA
Redaktor MAŁGORZATA KOPCZYŃSKA
Tytuł dotowany przez Ministra Edukacji Narodowej i Sportu
Copyright © by Wydawnictwo Naukowe PWN Warszawa 2002
Wydawnictwo Naukowe PWN SA
ul. Miodowa
10, 00-251
Warszawa
tel.: 69 54 321, e-mail: pwn©pwn.com.pl
www.pwn.pl
ISBN 83-01-13702-9
SA
BŁĄD
Człowiek jakoby w stroju podróżnym, z zawiązanymi oczami; kroczy macając przed sobą kijem, szuka bowiem drogi,
tak by była jak najpewniejsza. Ale niemal zawsze podąża on w Niewiedzy.
*Wszystkie alegorie i cytaty pochodzą z Ikonologii sporządzonej przez Cesarego Ripę, a wydanej przez Towarzystwo Autorów i Wydawców Prac Naukowych UNIVERSITAS,
Kraków 1998.
Spis treści
Spis przykładów
.................
Tytułem wstępu ..................
Część I. DANE ............... 1. Statystyka w fizyce
Część II.
............
JĘZYK ...........
m...
o...
3.
|...
o.
zr
e
BR
0
o
2
a...
|...
z...
m...
o...
ne
PE
o...
o...
i
o
2
Be.
R
A
R.
2
A.
2
0
ER
o
R
0
e
0
i.
R.
A
A
R
BŁ
2
Ra
2
2
0
0
PM
0
0
4
23
3
O
2
A
e
2
21
2
22
23
+
P+
33
>
2
0
0
R
2
A
I
4
RA
A
A
2.
2
2
A
>
A
2
A
A
A
A
o
oe
A
BE
A
8
R.
a
2
13
2
35
aan zaniki 011 -weeae aaa aaa nana 2. Prawdopodobieństwo i jego rozkład ...........-
35
a zana n nana narnii: aaa aa ea aaauaeeaaeen 2.1. Pojęcie rozkładu prawdopodobieństwa.........
2.2. Układ pewników ...........
Że
2.3. Prawdopodobieństwo warunkowe 2.4. Zdarzenia niezależne........ 2.5. Dystrybuanta...............
0
0
e
R
2
A.
0.
0
o
A
20.
2
0
e
ne
3
2
2
3
e
2
52 56
e
>
68 88 104
2
+
11ł
2
111 116 124 128 134 136
na enea nart iii: aaaeaa aaa ana aaa nana .....uuereez dd...
z...
w...
2.
o...
e
o.
e
e
Ro
2...
BR o
A
o
0
BŁ
R
BV
A
A
A
2
A
0
z
R
A
o
A
A
e
A
Pe: e
2
A Ba
aaa aaa naa i iii: aaa anna nana aaaaaa 2.6. Przekształcenia zmiennych losowych ......uuaeaaaa
ana az nn ia: enea nana za eeaa ..uea aaa 2.7. Rozkłady warunkowe i randomizacja .....
2.8. Twierdzenie Bayesa.........
3. Parametry zmiennej losowej ... 3.1. Wartość oczekiwana ........
3.2. 3.3. 3.4. 3.5. 3.6.
w...
e.
e
|...
2
0
a:
o.
|...
Po
z...
i
o
A
R
A
0
a
R
A
R
2
2.
0
2.
ża
o
2
0
A
M
O HE e
A
R
2
2
2
2
Het
A
o
2
A
i
ROB.
2
BŁ
2
22:
Momenty ..........-1221--. az iii: aa aaa eee cana c nn .ueaea aaa aaa Kowariancja i współczynnik korełacji ...... nana n aa naaz naniaacia: eaeaaaa eee enea Momenty funkcji zmiennych losowych ......u Krzywe regreSji ............ Parametry pozycyjne........ m...
..
O.
w...
o...
0:
R.
i...
O
ORA
2.
BO
2
O
0
VO
PA
EE
A
M
OVO
2
e
2
8
R
O
0
PW
0
R
M
R
O
R
e
R
A
2
A
A
O
20
2
0.
A
2
OP
un
ŁA
2
2
5
O
>
e
z nania iii: aaa nana aaa eeea . Momenty i statystyki pozycyjne z próby ..........-eem
139
netii: aaa nawa a anawa nna ca aaa aaa ..uaa 4.1. Wartość średnia —— prawo wielkich liczb .....
140 144 153 157 160 167
4.2. 4.3. 4.4. 4.5. 4.6.
nan aaa niania ii: eee aaa na aaa -u.ea Odchyłenie standardowe i wyższe momenty....... Średnia ważona ............ Kowariancja ............... narnii 1: ana nana nanaaaa .ueaaa aa naaaaaaaaan Efekty systematyczne i ich błędy .....u Statystyki pozycyjne z próby o... w...
Że
A
0
B.B.
o
o
R
R
2
a
Ee
R
O
o
0.
2.
A
2
e
A
2
2
e:
2
2
o
0
0
PA
e
A.
A HE R
i
e
A
ee
HA
A
2
i
2
e
2
6
Spis treści
Część III.
MODELE
5. Niektóre rozkłady
5.1. 5.2.
...............................
...........muuuuueumeaaumaaaaa LLL aaiaiiiLL.
175
Elementy analizy kombinatorycznej..............uuuaaaaaaaaaaaaaaa ii LILII Rozkład dwu- i wielomianowy .......uuuuuuuaaauaaaaaaaaaazaaaiaa LL LLL ii
175 191
5.2.1. Rozkład dwumianowy — wyprowadzenie ..........uuuazaaaaai i LLLLLL. i 5.2.2. Momenty rozkładu dwumianowego i ich estymatory...............-...i.1i11.. 5.2.3. Postacie graniczne rozkładu dwumianowego ..........meuaaaaaaai LLL. aa
5.2.4. Rozkład wielomianowy — wyprowadzenie ............uzuaaaaaaaiLLL. L
5.3.
5.4.
5.5.
5.6.
5.2.5. Momenty rozkładu wielomianowego i ich estymatory ..............aaaaaaLL.... 5.2.6. Postać graniczna rozkładu wielomianowego............uuaaaaaaaiaa LLL. Rozkład wykładniczy .........muuaaa aaa aaaaaaanaaza LLLLJL 5.3.1. Wyprowadzenie .......uuuua aaa auaaaaaaaaa LIIL 5.3.2. Momenty i ich estymatory .........uuuaaaaaaaaaaaa LILII aaaii LL. 5.3.3. „Brak pamięci”.........uuu aaa aaauaaa aaa aaaaaaaa 5.3.4. Szeregi promieniotwórcze .......uuuaaaaaaaaa aaa. Rozkład POoiSSOna...... ..... aaa anawauuaaeaaaaaaa LLL 5.4.1. Wyprowadzenie ........zaa .uuu zazn aeaa a aaaaaLIJI 5.4.2. Momenty ........uuua zania aaaa aaa aaaaaza LL. 5.4.3. Postać graniczna rozkładu Poissona ...........umuaaaaaaaaaazaaaiiai LLL] 5.4.4. CZAS Martwy .......uuuuu aa azaaa aaaa aaa aaaaaaaa LLLL Rozkład Gaussa ......... aaa zaa uaa eaaiiiiiL iiaiia aawLLLL. aa 5.5.1. Wyprowadzenie — modele Laplace'a i Herschela .............u.aaazzLLiLL. 5.5.2. Własności rozkładu Gaussa ......uu aaa euaeuaaaa LLLL. 5.5.3. Centralne twierdzenie graniczne .............muuaa aaaaaaLILII] aaa aaa
5.5.4. Binormalny i wielowymiarowy rozkład Gaussa ...........uzuaaaaaaaiii LLL. Rozkład x? ......uuauaa aaa aaaaaaeaaaaa LLILLLLLaz LLL
5.6.1. Wyprowadzenie
.........uuuaaaazaaa zana aaaaaaaaa LLL
5.6.2. Własności rozkładu X*.....uuuuuueuaaaaaaaaaiii aaaaaazaiia LLLL I.
5.7.
173
5.6.3. Postać graniczna rozkładu X?........uu.uuaaaaaaaaaaaaia LLL.
191 199 203
207
208 214 216 216 222 231 235 243 243 261 275 276 295 295 300 309
313 323
323
324
331
Rozkład Studenta............aaa .uaaa aaaaiaizi aaaaa ii LL aaaaa LLLLLLL. a 5.7.1. Wyprowadzenie ........uuuuuueaaaan aaa aaaaaaaaa LLL. 5.7.2. Własności rozkładu Studenta .............muuuaaaaaaaaaaa iii azia LL LIL 5.7.3. Postać graniczna rozkładu Studenta ...........uuuuaaaaaaazaaaii LLL. 5.8. Rozkład F Fishera...........uuuuuuaaaaaaaaaaaaaaaaaanaaaaai LL LLLLLL. a 5.8.1. Wyprowadzenie ..........muuuaaaaaaaaa niania LII 5.8.2. Własności rozkładu F........muuueuuaaaaaaaaaaaaaaaanaa ai LLL iia 5.8.3. Postać graniczna rozkładu F...........muuuuuuaaaaaaaaaaaaiai LLL 5.9. Rozkład Breita-Wignera ........aaa ..uuueaueaaaa LLILL 5.10. Rozkład jednostajny ......muuuuuuauaauaaaaaaaaaa iii aaaaaaa LLL... aaiia 5.11. Podsumowanie. Związki między rozkładami ..........m.auaaaaaaaiiLLLLLLL.
333 333 337 338 341 341 342 343 344 347 352
6. Metoda Monte Carlo ............... aaa ..uuueuuueee LI
355
6.1. 6.2. 6.3. 6.4.
Idea symulacji komputerowej.............meuaaaaaaa ii aaazaai LLLLLLLLL. a Generatory liczb losowych ......uuuaaauaa aaa aaaaaaaaa LILII Metody generowania rozkładów prawdopodobieństwa .........muuaaaaiaaii LLL. Typowe zastosowania technik Monte Caflo ...........uuaaaaaaaaaaaaiia LLL.
Część IV.
355 359 363 365
WNIOSKI .............................. LL
369
7. Estymacja parametryczna............mu.meumeuaa aaaaaaLLLLLLLLL. i aaiai
371
7.1.
Własności estymatorów ........uuuauaaaaa aaaaaaaaaaaaaa LLL
372
Spis treści 7.2.1. Zasada największej wiarogodności ......uauaaaaaa aaa ana aaa nana anni c i 7.2.2. Własności estymatorów największej wiarogodnoŚci ..........-emaaeaaaaraniti0i1 ana aaa nana e nana cieni: 7.3. Metoda najmniejszych kwadratów.......umueaaeaeaneaaaaaena 7.3.1. Zasada najmniejszych kwadratów 7.3.2. Przypadek |MQoWy ...-auaaeaaana aa eaaaawaaaaana nana aaa ania aa cenia ara ea aaa ni cct: 7.3.3. Przypadek liniowy z liniowymi równaniami WIĘZÓW ......uuaaaa wana aaea anna aaa ne ena rena nai ii A 7.3.4. Przypadek nieliniowy .......uauaeaaeaea 7.3.5. Analiza regresji ini i: nan anaaaaaaananizaaa aan 7.4. Estymacja z ufnoŚcią .....aueeaaeaenaaaeaaa 7.4.1. Metoda estymacji przedziałowej 7.4.2. Estymacja przedziałowa parametrów rozkładu Gaussa 7.4.3. Estymacja przedziałowa w metodzie największej wiarogodnoŚci .................. 7.4.4. Estymacja przedziałowa w metodzie najmniejszych kwadratów ............-1..... ener ani ii aaa naa a arena 7.4.5. Ufność z ograniczeniami ........uuaa aaa aaa aaa o...
0
m...
o
o...
R.
a...
o
a...
o
ERA
A.
o.
p...
e
e
o
e
0.
a
e
|...
r
e
BE
O
R
R.
2
b
e
o
0
R
o
o
2
o...
|...
8. Weryfikacja hipotez
0
R.
O
0
Ł
2
a
Ba
O
R
2
oe
r.
e
o
R:
e
O
o
b
e
A
2
e
O
+
0
2
a
BA tt
że
+
7
A
Pet
a...
2
8.
0
R
e
A
e
Po i
ea aa kaza aaa z azaaaaana a nana LLLuuuuuz zazna 8.1. TesbAStobmoŚlł...L
8.2. Test zgodności
o...
9, Stopień racjonalnego zaufania
0
o...
o...
0
R
O
R
a
o.
i: o
Łe
BŁ
o
0.
20
R
A
ne.
e
a
e
A
e
b
a
BA
0
e
+
+
9.1. Prawdopodobieństwo i statystyka ani ri: na nana znaa a naa aaa a aaneaaaaaaa 9.2. Sposobność i jej miara........eae nii 1: aaa nana aan a aaa aaa n ..uuuua nana aaaa aaa ....... 9.2.1. Algebra Boole'a m...
0
o
e
e...
p.
r
e
Pt
o
R
e
2a
a nana e near i c A nana nana naa nanaaaaaa aaa.-meu 9.2.2. Dezyderaty teorii .....
9.2.3. Prawa operowania stopniem racjonalnego zaufania cana naci: anawa aaa neea cnaaaaaa 9.2.4. Ku prawdopodobieństwu .......uuuueeaaa e nei c i: nna wana wana aaa aan eaza 9.3. Wnioskowanie probabilistyczne .......-m.uuaaaeae ni ii ii aana naa naaaaa aaa aa aaa nawa aaa BayeSa........emeaa 9.3.1. Twierdzenie a...
o
e
0
e
O
>
2
e
»
2
aaa cana nana n nic: nawa aaa a aaaeaaeaaana 9.3.2. Probabilistyczna indukcja........uu
ani 1 1 nana .eeeea aaa aaa 9.3.3. Estymacja parametrów z twierdzenia BayeSa ........ 9.3.4. Weryfikacja hipotez z twierdzenia Bayesa ..........
0...
o
e
e
0
RL
BU
EE
2
O
e
Rae i
a nana anni cia aaa aaa a eee 9.4. Prawdopodobieństwo bezpośrednie .........uuueaaeaaea 9.4.1. 9.4.2. 9.4.3. 9.4.4, 9.4.5.
aaaiii aa narnii aa nawa a nawe wana uuaaea Nieinformatywne zaczątki .....u Minimalnie informatywny zaczątek parametru skalującego .........-222:212-1111. Minimalnie informatywny zaczątek parametru lokacji...........eaasaeet2001. aiii: aaaaaa nana ana naenai aaa nawa .uaeaaa Zasada maksymalnej entropii ....... anni: nana a aan aan auaeaeaa aaa aaa Metoda najmniejszych kwadratów .......u
nania iii: znana nana nanaaaaaa 9.5. Prawdopodobieństwo personalne .........uuuaeaaeaaa
aaa
Część V. DODATKI............aaaae
c era rin iii: aaa nana aaa .eea Dodatek A. Unormowania terminologiczne ...........iii: c nan nnn a ana aaa aaa anna eeeaaaa Dodatek B. Uzupełnienie .............m
anawa nania aaa aaa aaa neeeaa Dodatek C. Prawo mnożenia sposobności ..........-uez za i aana anawa nana narnii uueeeeeza Dodatek D. Prawo dodawania sposobności .........naa anna nana wa aaanararai: aaa....-.eee aaa Dodatek E. Twierdzenie Shannona..........
aan t nii i: aaa ana c eeeea ......uu zana Dodatek F. Rozkłady — podsumowanie....
Podziękowania Skorowidz
o...
i...
e
i...
aoi
e
o
>
.
..
00
r
ne
ra
e.
o...
i
ne
o
a in
a
o
A
e
200
e
oe
no
e
2
e
Pt
e
o
e
e2
631 633 635 637 640 644 647 654 656
Spis przykładów
2.1.1. 2.1.2. 2.1.3. 2.2.1. 2.2.2. 2.2.3. 2.3.1. 2.4.1.
2.4.2. 2.4.3.
2.5.1. 2.5.2.
Normowanie rozkładu dyskretnego ..........uuumuuaaaaaaaaaaaazaziiiaiii LLL. Rozkład Benforda...........uumuuuaeaaaaaaaaaaaaaaaaa aaa LLL Straty energii na jonizację — rozkład Moyala ...........muauaaaaaaaaaai LLL LL. Przestrzeń zdarzeń elementarnych ............muauaaaaaaaaaaaaiaii LL. Prawdopodobieństwo geometryczne — definicja .............uuaaaaaaaaaaaaaii LLL. Paradoks Bertranda............umuueuuaaaaaaaaaaaaaaaaaaaiaa iiiaaiiii LLL I. Układ Kop...........Luuuzania aaaaaa iii aaaanaaaaaa L LL.
37 37 42 45 49 51 55
Żart Pauling. .......uuu aaa aaeaa aaa aa aaaaaa zizi aaaaaaaaa LLL LI
58
Dystrybuanta rozkładu grubości książek ..........mu..aaaaaaaaaaaaaaaiiaa LIIL] Odległość do sąsiada .........uuuaaaaaa aaa aaa aaaaaa iii aaa LILII
65 66
Efektywność detektora.......uuuuuuuuaaaaaaaa iii aaaaaaaaini LLL. Szansa detekcji Cząstki ........uuauaaaaaa aaa aaaaaaaa LLILI
61 63
2.5.3. 2.6.1.
Rozkład Maxwella .........uumuuaaaaaaaaazaaaaaaaaa ciaza L Odwracanie dystrybuanty .....uuuumuaaaaaaaaaaaaa ii aaaaaiaiza LL.
68 70
2.6.3.
Zamiana zmiennych — przypadek niejednoznaczny ............umaa aaaaaaaaa iL LLL.
74
2.6.2. 2.6.4. 2.6.5.
Rozkład energii produktu rozpadu ..........uu.uuuuuaaaaaaaaaaaaaaaiacizi LLL
Rozkład kąta emisji cząstki ......uuuu aa aaaaaaaaaan auaua aaiiiii aaaaa LLL. Rozkład sumy i różnicy zmiennych losowych..........uaaaaaaaaaaaaawaaii iii.
2.6.6. 2.6.7. 2.6.8. 2.7.1. 2.7.2. 2.7.3.
Rozkład iloczynu i ilorazu zmiennych losowych .........uuaaaaaaaaaaaaaiaiiiii LLL. Maksimum Jacobiego .......uuuaaaaaaaa aaa iaazaizii anaaaa iii aaa LLL. Rozkład podstawowych stałych fizycznych............uuaaaaaaazaazaiaii LLL.i Splatanie rozkładu wykładniczego .......muuaaaeauaaaaaaaaaaaaaaaaaiziia LLL I. Masa neutrina ...........uueaaaa aaa aaaia aiz eaaaaawaaza LL I. Profil Volgta.........muunana uaaaaa aaa aaaaaaaaaaaa LLLLLL.
2.8.1. 3.1.1. 3.1.2. 3.1.3.
Twierdzenie Bayesa Wartość oczekiwana Wartość oczekiwana Wartość oczekiwana
2.7.4.
Randomizacja — rozkład ładunku ........uuuuumuuaaaaaaaaaaaaaaazaii LL
71
74 79
79 80 81 92 94 97
102
— licznik Czerenkowa............uuaaaaaaaaaaai LLL. — bankier .............uu.uuuaaaaaaaaaaaaiaiai LLL. ii — rozkład Maxwella .............uuazaaaaaaaaaaaai LiLii LL. zmiennej losowej .............uuamaaaaaaaaaazazaia LLL LIL.
108 lil 112 114
3.2.1. 3.2.2. 3.4.1. 3.4.2. 3.4.3. 3.5.1.
Momenty rozkładu złożonego ........uuuuuaaaaaaaaaaaaaaaaaaanaiaiaii LLL. Momenty losowej sumy zmiennych losowych..........uuaaaaaaaaaaaiiaaizii LL LLLL. Korelacja między oporem i mocą.........uuuuuuuaaaaaaaaaaaaazaa LLiiii LLL. Efektywność detektora..............uaum aaa azaaaa i. aaaaaa nawa aaaaa a ca: Wariancja w ekstremum ......uuuuua a aaaana aaaaaia aizaaaaaa LLL aLL] Linia prosta regresji drugiego typu .......muuau aaa aaaaaaaaaa LIIL.
118 122 130 131 133 135
4.2.2.
Błąd nowicjusza .........uumuaaaaa wana aa ania aaaaaaanana LLL.
3.1.4.
4.2.1.
4.2.3. 5.1.1.
Rozkład pędowy partonów ........uuuuaaaeaz zaa awaaazaaaa iL I.
Zdolność rozdzielcza licznika — źródło ÓFe..........muuaaaaaaaaaaaLLL. aaia
Korełacja wartości średniej i odchylenia standardowego ...............eaaaaaaaiiaL... Wariacje z powtórzeniami — problem de Mórć...........uuauazaaaaaaaiizaiii LLL LL]
114
145
147
151 177
9
Spis przykładów
5.1.2. 5.1.3.
— 5,14.
5.1.5.
5.16. 5.2.1.
5.2.2.
5.2.3.
5.24. 5.3.1. 5.3.2. 5.3.3. 5.3.4. 5.3.5. 5.3.6. 5.3.7. 5.3.8. 54.1. 5.4.2.
5.4.3. 5.4.4. 5.4.5. 5.4.6. 5.4.7. 5.4.8. 5.4.9.
Permutacje — skojarzenia, czyli roztargniona sekretarka
..........
e.
2
o...
o...
.
a
o
pe
st
Wariacje bez powtórzeń — winda .......uuuuaaaaa aaa aaa a aaa n aaa naa znana ana cia: Szansa wygranej w totka
m...
BŁ
2
0...
.
.
.
r
e
BR
BR
e
e
o.
e
3
R
i
ai
Kombinatoryka w fizyce statystycznej........uuaaaaaeaaa aaa aaa nana a aaaaa ana ai ich
Kombinacje z powtórzeniami...........uuuuaaeaaaaaaananana wana wanna nana nna niani iii
Układ komór wielodrutowych
o...
.
o
A
BO
BO.
2.
a
R:
o
A
e
Be
A
2
0
2
0
2
0
e
4
>
Obszar wykluczania ....-.uueeeaaaana wena naa a nana aaa nana n ana ana nanE Wir wodny Optymalna szerokość przedziału histogramowania Prawo zaniku jąder promieniotwórczych Obszar wykluczania ....-emaeeeaa aaa aa aaa ana w nana nawa ania aria narazie r ar iiaH Częstość przypadkowych koincydencji Oczekiwanie na przejazd samochodu — wykres kwantyli.........uuaeeeaa aa aaa a niic2 Obcięty rozkład wykładniczy w...
w...
e...
.
o
B.A
a.
R
a
o
0
e
0
R
A
R
O
........
w...
o...
|...
w...
.
o...
a...
nn...
o.
Rozkład dróg oddziaływania
o...
a...
m...
r.
r...
2
0
Łe
e
0
2.
2
a
e
a
e
o
e
Be
O
>
02
e
ho
o
a.
u
o
2...
e
o
e
BŁ
2
a
o
a
e
Ba
8
e
O
>
2.
ret
00
0
e
i
Ba
s
st
toe
o
2
4
e
aaa rei
te 2
e
eo
a aaaaa
R...
o...
8
0...
Czasy przeliczania — rozkład Erlanga ........aea aaa aaa aaa ana Przeżywanie i rozkład Weibulla
2
2
O
02
0
e
ne
RO
nA
ee
iu
e
Liczba par jonów w detektorze gazowym Zagadnienie Erlanga........uueeeeaa aaa ea aaa nana nna aaa zazna na nana a nania c iii Rozkład czasów przeliczania z rozkładu Poissona........uaaaaaaa ea aaanaa nana nania ca Obszar wykluczania ......u.eeemawaaaa aaa aaa aa naa nana aaa a zazna naka a nei rich Odległość do najbliższego sąsiada ........uaaaaaaa aaa aaa aaa aaa n aaa nana aa nana acc h ASyMetnia ....Luaae eee eea aa aaa aaa naneanna naka a rana zina 0 A Błąd liczby przypadków w przedziale histogramowania.......uuuaaaaaa aaa aaa aa c ii: Reguła zatrzymania Optymalny czas pomiaru |...
0
|...
Pa.
e
BA
0...
O...
w...
a.
a...
e
e
BA
R
O
e
e
o
A
Ba
2
A
o.
Pt
9
R
2
e...
0
R.
0
2
BOR
2
a
o.
e
e
e
2
u
e
>.
0
A
+
A
e
a
Pe
naa aaaanaaaa nna aa nana anna nana ciii 5.4.10. Efektywność detektora.........uuuuuaeaa saa nana r aaa a znana naa aa ranach 5.4.11. Efektywność trygera drugiego stopnia..........uemaaa
5.5.1. 5.5.2.
5.5.3.
5.5.4. 5.5.5. 5.5.6. 5.5.7.
5.5.8. 5.5.9. 5.5.10. 5.6.1.
5.6.2. 5.7.1. 5.7.2. 5.7.3. 5.8.1. 5.10.1.
5.10.2. 510.3. 5.10.4. 5.10.5. 6.4.1. 6.4.2. 6.4.3. 6.4.4.
7.1.1. 7.1.2.
Rozkład Gaussa i pomiary ......umaeaaaaeeaa aan ana nazaaaka nana z aaa znana nar ch Błąd błędu Suma gaussowskich zmiennych losowych........uuuaaaaaaaaaaa aaa anaaara nara rcai Grubość książek — wykres kwantyli logarytmiczno-normalnych 2...
0.
e
ER
R
0
EE
o
2...
Be
0
O
A
O
Łe
A
2
0
R
A
ŁR.
2
|...
Rozkład graniczny sumy zmiennych dwumianowych
................
0
o
0
e
2
u
e
e
to
e.
Rae
nei
0
o
e
2
e
Rozkład graniczny sumy zmiennych poissonowskich Rozkład graniczny sumy zmiennych wykładniczych ......uuaaaaaaaaaaaaaanananecanccić Centralne twierdzenie graniczne — rozkład D'Agostiniego Rozkłady brzegowe, warunkowe i krzywe regresji dla rozkładu binormalnego ........... Rozkład współczynnika korelacji Rozkład estymatora wariancji i dyspersji .........umuaa aaa az anna a na naa naa nara ia: Rozkład x? dla różnych zmiennych gaussowskich ..........uueaaaaa aaa aaa wanna nai i1: Średnia arytmetyczna — rzetelność producenta cukru .......-..---.-eeaaa aaa aiai11 Statystyka Studenta dla dwóch Średnich arytmetycznych ......uuaaaaaa aaa aaa nana aaa cić Współczynnik korelacji z próby — profil wiązki..........aaaeaaa aaa aaa aaa aa nana cć Porównanie odchyleń standardowych........uuuauanaeaaaaaaaaananaanana nana nai ch Wykładnicza zmienna losowa Normalna zmienna losowa ........uueeeaaaaaaaawawanawaanawawakakia nana nana ia Skorelowane normalne zmienne losowe |...
e...
......|..|.....
|...
w...
w...
w...
o
o...
r...
.
a.
e
o
Że
z...
a...
e
eu
e.
e
eż
e
A
ŁO
A
sa
b
O
zo.
e
ne
RO
>
2
02
OŁ
a
8
>
e
2
Bu
2
0
A
ae
9
Łe
a.
A
2
a
Be
0
R
b
o
0
2.
00
>
a
o
i
e
Het
ot
b
tt
o
0
e
A
s
Sprawdzanie poprawności programów analizy danych Poprawki i ocena zanieczyszczeń .......uuuaaa aaa aa aaa aa wanna znana naa ti ani ii: Jaką metodę wybrać?.........uuuaeeaaanawawaanaaaana znana na anna na znani n ania i Stara teoria 1 „NOWA fizyka” L.LLuauaaaaeaa zaa zazna zana naa aan aan ze znika za kaaka aaa aria Odchylenie średnie ..........muuuaaaaa nana aaa anaaa anna nana zazna aaa naci: Minimalna wariancja estymatora wariancji — rozkład Gaussa 0
o
e
R
......d..|.............
o.
0
a.
03
tb
A
2
tO
ae
2
0
2
2
pi
Zmienna losowa x? Zmienna losowa z rozkładu Breita-Wignera........aaaaaaaaaaaaaa zana aaa aa nana ciii: m...
>
>
i
e
2
+
10 7.1.3. 7.1.4. 7.1.5. 7.2.1. 7.2.2. 7.2.3. 1.2.4. 7.2.5. 7.2.6. 7.2.7. 7.2.8. 7.2.9. 7.2.10. 7.2.11. 7.2.12. 7.3.1. 7.3.2. 7.3.3. 7.3.4. 7.3.5. 7.4.1. 7.4.2. 7.4.3. 7.4.4. 7.4.5. 7.4.6. 7.4.7. 7.4.8. 9.1.1. 9.1.2. 9.1.3. 9.1.4. 9.3.1. 9.3.2. 9.3.3. 9.3.4. 9.3.5. 9.3.6. 9.3.7. 9.3.8. 9.4.1. 9.4.2. 9.4.3. 9.4.4. 9.4.5. 9.4.6. 9.4.7. 9.4.8. 9.4.9. 9.4.10. 9.4.11. 9.4.12. 9.4.13. 9.4.14. 9.4.15.
Spis przykładów
Minimalna wariancja estymatora parametru rozkładu Poissona ..................1......
Najefektywniejszy estymator parametru rozkładu dwumianowego ...................... Estymatory dostateczne parametrów rozkładu normalnego ................aaaaaaaiii12 Pomiar sygnału w obecności tła — rozkład Poissona.............u.uaaaaaaaaaazaiii ii. Estymacja parametru rozkładu wykładniczego .........uuuuauuaaaa aaa L ada Estymacja parametrów rozkładu normalnego ........uuuaeaaaa aaa aaa iaiaaii LL Estymacja parametrów rozkładu Breita-Wignera................uaaaaaaaaaaaaa ida LA Wariancja estymatora parametru rozkładu wykładniczego ................a-.aaaa111. Wariancje estymatorów parametrów rozkładu normalnego ...............aaaaaaiiaii1. Ocena czasu życia — symulacja....-uuuauaaaaaaaaaaaaaa aaa aaa iii LI Ocena czasu życia i tła — symulacja ......uuuuuaaaaaaaa aaa aaa LiL Efektywność detektora.........uaeaaaaaaaaaaa aaa aaa ian ziiiii Projektowanie eksperymentu ......uuuaaaaaaaaaaaaaaaaaaa iii iii: Dane zgrupowane .........uuueuuaeaaaaaaaaaaaakaaa aaa naaiiiiaiiziaiiiiZ Poprawka Shepparda ..........uuuaeaaaaaawaaaaaaaakaaaaaa aaa ii LI Dopasowanie liniowe — pełna macierz kowariancji ..........uu.aa aaa aaa aaa LL]
Dopasowanie liniowe — skalowana macierz kowariancji...............-.aaaaaaaa iii 12 Dopasowanie z więzami — geodeta .........uuuaaaaaaaaa aaa nii iii,
382
383 385 388 391 392 394 397 397 401 404 406 409 411 413 424
434 438
Dane zgrupowane .........uuuueuaaaaaaaaaaaaaa kazania iii LL Analiza regresji — profil wiązki ......uuueaaaaa aaa aaa aaa niania ili LI Przedział ufności — wir Wodny ...L.uauaaaaaaazawawaa aaa aaa aaa z ina ia LI Przedział ufności — CZaS ŻYyCHa...-uauuauaaanaaaaa nana aaaaa ana iai iii LI Losowy charakter przedziału ufnoŚci.......uuuuzaaaaaaaaaaaaaaaa aan iaiai ii. Przedział ufności — rozkład PoiSSOnA .....uuuuuamaaaaa aa aaaaa zazna i ILE Przedział ufności dla czasu życia — rozkład Erlanga................-aaaaaaa aaa iii.
440 451 458 458 460 462 462
Przedział ufności — rozkład jednostajny .........u..uamaaaaaaaaaaaaaaaaaaaiaia dil iL] Kalibracja licznika germanowego — porównanie ............u.maaaaaaaa aaa iii LJ Estymator nieobciążony ....uuueaaaaaaaaazaaaaaaa nazi aai iza L LiL Metoda największej wiarogodności — nieefektywny licznik .............eaaaaaaa aaa aL. Estymacja przedziałowa — licznik z czasem martwym............m. aaa aaa iii i. Test istotności — reguła zatrzymania ......uueuuuaaaaaaaaaaaaaaiaaiaiaiaii iii L. Twierdzenie Bayesa — hipoteza zagłady ......uuuuauaa aaa aaa aan nna L Rozkład dwumianowy wg Bayesa .......uuuuaaaaaaaaaazaaaa aaa L LL Reguła następstw Laplace'a.........muuuauaaaaaaaaaanaaaanaa zaa iii LA Rozkład dwumianowy — obszar akceptacji ........muuuuuuaaaaaa aaa i iii LL. Efektywność detektora.........uuuaaeaaaaaaaaaaaazaa nania ii LI Estymacja stałej Natury.......umuuaaaaaaaaaaaazana znani LiL. Odplatanie wg Bayesa .........uueaaaaaaaaaaaaaananaaaaaa nana n aaa LA Prawdopodobieństwo profetyczne — rozkład beta dwumianowy........................ Rozkład wykładniczy wg Bayesa .......uuaaaaaaaaaaaaaaaaaa nana ana iaz ii L. Rozkład Poissona wg BayeSa.........uuueaaaaaaaaaaaaaaa aaa aaa iii L Rozkład Poissona — obszar akceptacji.......muuamuauaaaa aaa aan iaiaz iii Prawdopodobieństwo profetyczne — ujemny rozkład dwumianowy ..................... Najmniej informatywny zaczątek — dyspersja rozkładu Gaussa ............aaaaaaiiai.. Ocena czasu życia z jednego przypadku .....uuuuaauuaaaaaaaa aaa aaaaaaa nazi ai iii. Najmniej informatywny zaczątek — nadzieja rozkładu Gaussa ...............a-.aii22.. Najmniej informatywny zaczątek — estymacja parametrów rozkładu Gaussa ............
464 469 502 503 505 507 529 534 539 544 545 552 553 557 569 572 574 557 584 585 591 592
Przedział ufności — bogata próbka ......uuuuaaazaaaaaaaa aaa zaaa iii iii ii.
Najmniej informatywny zaczątek — rozkład Breita-Wignera .....................-11..
Błędy systematyczne wg Bayesa.......-ueaaauaaaaaaaaaaaaa aaa i.
Entropia informacyjna — rozkład geometryczny .........uuuuaaaaaaaaaaa aaa iii a i.
Entropia informacyjna — rozkład dyskretny z zadaną nadzieją ......................... Przejście od zmiennej dyskretnej do ciągłej ..........auu.m.auaaaaa aaa aaaaana ii iL. Rozkład Gaussa z zasady entropii .........auaaeaaaaaaaaaaa aa naa nana nai i ii ia. Masa antyneutrina — przedział wiarogodnoŚci .........umuuaaaaa aaa aaaaaa ciii
463
595
595
601
604 609 613 617
Dedykuję Rodzinie
STUDIUM
Maluje się go młodym, ponieważ wiek młodzieńczy dobrze znosi trudy studiów. Jest blady, ponieważ studia zwykle wyczerpują i przeszkadzają ciału ... Ubiera się skromnie, bo uczeni zwykli obywać się umiarkowaniem i surowością. ... Zapalona lampa mówi nam, że uczeni więcej konsumują oliwy niż wina.
Tytułem wstępu
... śmiertelnych — stu na stu. Liczba, która jak dotąd nie uległa zmianie. WISŁAWA SZYMBORSKA, PRZYCZYNEK DO STATYSTYKI
Tytuł książki zawiera w sobie pewien skrót myślowy. Zapewne słuszniejszy byłby tytuł
taki jak „Statystyka matematyczna dla fizyków” lub „Analiza statystyczna danych do-
świadczalnych... ”, lub „Metody analizy statystycznej... ”. Może należałoby uzupełnić
każdy z tych tytułów o słowo „wstęp” lub „elementy” albo „podstawy”, jako że w zadnym wypadku materiał tu prezentowany nie ma charakteru całościowego i nie jest to
monografia. Zadaniem tego podręcznika jest przedstawienie w szczegółach pewnych podstawowych pojęć i standardowych metod, jakich każdy fizyk doświadczalnik używa przy opracowywaniu swoich danych eksperymentalnych, jak również zarysowanie ich mozżliwych rozwinięć i uzupełnień, a także zasygnalizowanie (bez dowodów 1 uzasadnień) istnienia specjalnych wyników (pewne z nich to wręcz ciekawostki), które niekiedy są przydatne przy rozwiązywaniu szczególnych zagadnień. Ostatecznym celem tych wszystkich „zabiegów” jest jednak przekazanie Czytelnikowi umiejętności obliczenia czegoś, co powszechnie, choć niepoprawnie (patrz koniecznie dodatek A), nazywamy błędem
pomiaru. Dlaczego fizycy, a już na pewno ci spośród nich, którzy parają się fizyką jądra atomowego i cząstek elementarnych, opanowani są obsesją (bo tak to może wyglądać dla postronnego obserwatora) o nazwie błąd pomiaru? Najprostsza odpowiedź na to pyta-
nie brzmi: A czyż mogłoby być inaczej, jeśli w fizyce spotykamy się, z jednej strony, z przewidywaniem typu: moment magnetyczny elektronu wynosi (1,00115965220 + 0,00000000004) jednostek zwanych magnetonami Bohra (gdzie błąd w wartości to oszacowanie niepewności wynikającej z przybliżeń rachunkowych), a z drugiej — elemen-
tarne doświadczenie początkującego fizyka eksperymentatora podpowiada mu, że „tak naprawdę” nie jesteśmy w stanie „porządnie” mierzyć? Bez większego ryzyka można powiedzieć, że fizyka jest jedyną dziedziną wiedzy przyrodniczej, w której spotykamy absolutnie Ścisłe, a nie tylko modelowe przewidywania. Prognozy te dostarczają wyzwania, a sprostanie im wymaga stosownych narzędzi.
Narzędzia teoretyczne, takie jak pojęcie rozkładu prawdopodobieństwa, prawdopo-
dobieństwo warunkowe, niezależność statystyczna, dystrybuanta, operacje nad rozkładami, randomizacja i twierdzenie Bayesa znajdzie Czytelnik w rozdziale 2, który dostar-
cza reguł „gramatycznych”. Rozdział 3, o momentach zmiennej losowej, to podstawowy
14
Tytułem wstępu
słownik dziedziny. Terminy tam podane zawsze mamy pod ręką, gdy analizujemy dane.
Tłumaczenia słów ze słownika na język codzienny to treść rozdziału 4, czyli pierwszy kontakt ze statystyką, a raczej z tą jej częścią, która określana jest mianem opisowej.
Wyłliczone są tam najbardziej fundamentalne konstrukcje „frazeologiczne”: średnia, odchylenie standardowe, współczynnik korelacji i własności tych wielkości, czyli „chleb
powszedni” analizy danych. Zgodnie z tą lingwistyczną analogią, rozdział 5 to niemalże pełne zdania. Modelowe rozkłady — dwumianowy, Poissona, wykładniczy, Gaussa i jego
pochodne, tj. x*, Studenta i Fishera — są wygodnymi, gotowymi wzorcami, które upar-
cie pojawiają się w wielu problemach
statystycznych. Rozpoznanie któregoś z takich
schematów w zagadnieniu, nad którym pracujemy w danym momencie, pozwala nam na natychmiastowe wykorzystanie całego wachlarza gotowych wyników. Rozdział 6, poświęcony metodom symulacyjnym w elementarnym zakresie, omawia swoisty, meto-
dologiczny „synonim”. Wielokrotnie zdarza się, że choć teoretycznie wiemy, jak należy
rozwiązać napotkany problem, to nie potrafimy tego dokonać analitycznie z powodu piętrzących się trudności matematycznych w postaci sum, które nie mają prostej postaci, lub całek, które nie wyrażają się przez funkcje elementarne. Rozkładamy wtedy
zagadnienie na najprostsze elementy i do pracy, kolejno nad każdym z nich, zaprzęgamy komputer, który „syłabizując”, konstruuje „syntetyczną mowę”. W pełni rozwi-
nięta „mowa” konwencjonalnej metody statystycznej analizy danych to dwa następne rozdziały: rozdział 7 o estymacji parametrycznej, w tym o metodzie największej wia-
rogodności, najmniejszych kwadratów i estymacji przedziałowej, oraz rozdział 8 o weryfikacji hipotez, czyli testy istotności i test x? Pearsona. Stanowią one ukoronowanie
tej części wykładu. W końcu ostatni rozdział 9 to „nowy język”, nowe spojrzenie na
rachunek prawdopodobieństwa. Język ten dostarcza alternatywnej formy wyrażania treści probabilistycznych w stosunku do tej, która stanowi główny trzon wykładu. Dodat-
kowe informacje o tym rozdziale znajdzie Czytelnik poniżej. W
podsumowaniu
tym
został pominięty rozdział 1, który dostarcza widoku z lotu ptaka — ukazuje rozmaite typowe zagadnienia, jakie fizyk doświadczalny zajmujący się fizyką jądra atomowego
i cząstek elementarnych napotyka w codziennym trudzie statystycznym. Rozdział ten spełnia także funkcję specyficznego „elementarza”, jako że Czytelnik znajdzie w nim
wybrane, najbardziej fundamentalne pojęcia dziedziny, wyłożone metodą ilustrowania przykładami. Dostarczył on także autorowi pretekstu do zaprezentowania Czytelnikowi metod wizualizacji danych doświadczalnych. Pracę kończy kilka dodatków: pierwszy, wcześniej wspomniany, o unormowaniach terminologicznych. Drugi ukazuje szczegóły
techniki rachunkowej przydatnej przy określaniu własności pewnej klasy estymatorów.
Do następnych trzech przenieśliśmy niektóre dowody matematyczne,
a ostatni sumuje
najważniejsze wnioski matematyczne w odniesieniu do wszystkich omawianych (oraz
kilku dodatkowych) rozkładów. Jak wspomniano na wstępie, wykład
nie daje pełnego obrazu rachunku prawdo-
podobieństwa i statystyki matematycznej. Czytelnik nie znajdzie tu np. pojęcia funkcji tworzącej prawdopodobieństwa i funkcji charakterystycznej. Są to ważne narzędzia, ale są to narzędzia „tylko” teoretyczne. Funkcja charakterystyczna jest bardzo przydatna
np. w dowodzie centralnego twierdzenia granicznego i przy konstruowaniu momentów
Tytułem wstępu
15
zmiennej losowej, jednak celem wykładu nie jest konsekwentna, matematyczna prezenta-
cja całej dziedziny wiedzy wraz z jej aparatem formalnym. Do formalizmu odwołujemy się sporadycznie i dość liberalnie i raczej po to, by uwiarygodnić prezentowaną tezę, niż jej dowieść (w przeciwieństwie do przykładów, gdzie staramy się być dość szczegółowi). Podobnie, do treści wykładu nie zostały włączone klasyczne tematy, takie jak analiza sekwencyjna i analiza wariancji, procesy stochastyczne, ani też nowsze, jak teoria decyzji, a po macoszemu potraktowane zostało zagadnienie statystyk pozycyjnych. Z całej
gamy testów statystycznych ograniczamy się do jednego, najczęściej stosowanego testu
Pearsona, pomijając milczeniem pozostałe. W przekonaniu autora pojęcia te nie stanowią dla fizyka materiału „pierwszej potrzeby”. Autor ufa, że zrozumienie zagadnień ujętych
w treści wykładu da Czytelnikowi dobre podstawy do samodzielnego uzupełnienia wie-
dzy, gdyby taka potrzeba się pojawiła, jeśli tylko zechce on skorzystać z sugerowanej niżej literatury. Adresatem książki, jeśli chodzi o zakres stosowanych w nim narzędzi matematycz-
nych, jest osoba, która posiadła elementarne umiejętności różniczkowania i całkowania i dysponuje podstawowymi umiejętnościami z zakresu algebry liniowej. Podobnie przedstawia się kwestia niezbędnego poziomu merytorycznego Czytelnika w obszarze
umiejętności opracowywania danych doświadczalnych. Jako test rozważmy następujący przykład. Przypuśćmy, że pewien geodeta, używając teodolitu (lunetki), wymierza w terenie kąty w trójkącie, którego ramiona są rzędu kilometrów. W rezultacie swego pomiaru znalazł on, że kąty te wynoszą: 73”, 63” 1 52, przy czym błąd każdego z pomiarów wy-
nosi 2” (w rzeczywistości pomiary są znacznie bardziej precyzyjne, co nie zmienia istoty zagadnienia). Czytelnik, który analizując ten przykład dojdzie do wniosku, że pomiary
geodety dowodzą kulistości Ziemi, powinien raczej zaprzestać czytania prezentowanego tu materiału i rozpocząć od studiowania poniższej literatury:
e J. R. Taylor, Wstęp do analizy błędu pomiarowego, Wydawnictwo Naukowe PWN, Warszawa 2001.
e L. G. Squires, Praktyczna fizyka, Wydawnictwo Naukowe PWN, Warszawa 1992. e C. M. Grinstead i J. L. Snell, Introduction to Probability, Dartmouth College-AMS, 1997; książka zawiera bogactwo materiału z historii rozwoju rachunku prawdopodobieństwa i jest osiągalna w Internecie pod adresem: http://www.dartmouth.edu/ chance/ teaching_aids/books_articles/ probability _book/book.html. Alternatywnie, stosowny materiał można znaleźć w skrypcie autora: Podstawy rachunku
błędów (http://www.fuw.edu.pl/ rjn/PRB/ptb.zip). Czytelnik, który w konkluzji swego rozumowania
stwierdzi, że wynik uzyskany
przez geodetę jest w doskonałej zgodności z zasadami geometrii Euklidesa, może posiłkować się przy czytaniu niniejszego materiału następującą literaturą uzupełniającą:
e H. Abramowicz, Jak analizować wyniki pomiarów, Warszawa 1992.
Wydawnictwo
e S. Brandt, Analiza danych, Wydawnictwo
Naukowe
e W.
Wydawnictwo
Klonecki,
1999.
Statystyka
dla inżynierów,
PWN,
Naukowe
PWN,
Warszawa 2002.
Naukowe
PWN,
Warszawa
16
Tytułem wstępu
e T. Eadie, D. Drijard, F. E. James, M. Roos i B. Sadoulet, Metody statystyczne w fizyce
doświadczalnej, PWN, Warszawa 1989. e A. Strzałkowski i A. Sliżyński, Matematyczne metody opracowywania wyników pomiarów, PWN, Warszawa 1978. e W. I. Goldanski, A. W. Kucenko i M. I. Podgorecki, Statystyka pomiarów przy rejestracji promieniowania jądrowego, PWN, Warszawa 1963.
Gorąco polecane jest również studiowanie pełnego wydania kompendium Review of Particle Properties, wydawanego w cyklu dwuletnim przez grupę fizyków cząstek elementarnych
z CERN
1 Berkeley.
Są tam opisane podstawowe
i najczęściej spotykane
w codziennej praktyce procedury statystyczne. Kompendium to osiągalne jest również w Internecie pod adresem http://pdg.lbl.gov. Z opracowania tego pochodzą wszystkie cytowane w niniejszym wykładzie dane dotyczące własności cząstek elementarnych, o ile nie jest podane jawnie inne Źródło.
Inna interesująca, choć angielskojęzyczna literatura, to:
e P. R. Bevington i D. K. Robinson, Data Reduction and Error Analysis for Physical Sciences, McGraw-HiH,
New
York
1992.
e A. G. Frodesen, O. Skjeggestad i M. Tofte, Probability and Statistics in Particle
Physics, Universitetsforlaget, Bergen-Oslo-Tromsg 1979. e I. A. Bancroft i C.-P. Han, Szatistical Theory and Inference in Research, M. Dekker,
Inc., New York 1981.
e R. J. Barlow,
Statistics. A Guide
Sciences, Wiley, New
York
to the Use of Statistical Methods
in the Physical
1989.
e L. Lyons, Szafistics for Nuclear and Particle Physicists, Cambridge University Press,
Cambridge 1992.
e B. P. Roe, Probability and Statistics in Experimental Physics, Springer, New 1992. e B. R. Martin, SZzafistics for Physicists, Academic Press, London and New
York
York 1971.
e N. Arley i K. R. Buch, /ntroduction to the Theory of Probability and Statistics, Wiley,
New York 1956.
e D. J. Hudson, Szatistics — Lectures on Elementary Statistics and Probability, Geneva 1964. e W. Hamilton, Szatistics in Physical Science, New York
1964.
Natomiast „„amatorom” poszukującym bardzo ścisłego i szerokiego przedstawienia teorii
prawdopodobieństwa i/łub statystyki matematycznej możemy polecić książki: e W. Feller, Wstęp do rachunku prawdopodobieństwa t. I i II, PWN, Warszawa 1969.
e M. Fisz, Rachunek prawdopodobieństwa i statystyka matematyczna, PWN, Warszawa 1969. e H. Cramer, Metody matematyczne w statystyce, PWN, Warszawa 1958. e Z. Hellwig, Elementy rachunku prawdopodobieństwa i statystyki matematycznej, Wy-
dawnictwo Naukowe PWN, Warszawa 1995.
e L. Gajek i M. Kałuszka, Wnioskowanie statystyczne, WNT, Warszawa 2000. e A. Stuart i J. A. Ord, Kendall's Advanced Theory of Statistics, vol. 1, Distribution Theory, Hodder Headline Plc., London
1994.
Tytułem wstępu
17
e J. A. Ord, Kendall s Advanced Theory of Statistics, vol. ŻA, Classical Inference, Hodder Headline Plc., London 1999.
Niniejszy wykład uzupełnia wydany w odrębnym tomie wybór zadań (po części orygi-
nalnych) o różnym stopniu trudności, do rozwiązywania których autor gorąco Czytelnika zachęca.
e R. Nowak, Statystyka dla fizyków. Ćwiczenia, PWN, Warszawa 2002.
Na rynku wydawniczym można znaleźć również inne zbiory. Interesujący zestaw zadań z rachunku prawdopodobieństwa na poziomie elementarnym prezentowany jest w książce e W. Łeński i A. Patkowski, Rachunek prawdopodobieństwa dla leniwych, Wydawnictwo Naukowe PWN,
Warszawa—Poznań
1996.
Zbiory zadań o poważniejszym stopniu zaawansowania to: e W. Krysicki, J. Bartos, W. Dyczka, K. Królikowska i M. Wasilewski, Rachunek praw-
dopodobieństwa i statystyka matematyczna w zadaniach, część I i II, Wydawnictwo Naukowe PWN, Warszawa 2002. e A. Plucińska i E. Pluciński, Zadania z probabilistyki, PWN, Warszawa 1983. Parę interesujących zadań można także znaleźć w książce: J. Araminowicz, Zbiór zadań z fizyki jądrowej, PWN, Warszawa 1980. Niektóre z probłemów zamieszczonych w tych zbiorach, jak również wcześniej cy-
towanych podręcznikach, trafiły także do niniejszej pracy. Wykład, jaki niemal wszystkie powyższe książki, utrzymuje się w kręgu tradycyjnie rozumianego rachunku prawdopodobieństwai statystyki matematycznej. Wyjątkiem jest
tutaj praca autorstwa T. Eadie' go i innych, w której większość prezentowanego materiału także utrzymana jest w duchu „klasycznym”, jednakże Czytelnikowi dana jest również
możliwość posmakowania podejścia współczesnego, zwanego też bayesowskim. Niestety, jest to praktycznie jedyna taka pozycja na rynku w języku polskim. Dlatego Czytelnik zainteresowany alternatywnym ujęciem tematu skazany jest na literaturę obcojęzyczną, z której najważniejsze pozycje to: e D. S$. Sivia, Data Analysis — A Bayesian Tutorial, Oxford University Press 1997. e C. Howson i P. Urbach, Scientific Reasoning: The Bayesian Approach, Open Court, La Salle 1998.
e J. M. Bernardo i A. F, M. Smith, Bayesian Theory, Wiley, New York 1994.
e G. E. P. Box i G. C. Tiao, Bayesian Inference in Statistical Analysis, Wiley, New York
1992.
e S. J. Press, Bayesian Statistics: Principles, Models and Applications, Wiley 1994. e A. O' Hagan, Kendall's Advanced Theory of Statistics, vol. 2B, Bayesian Inference,
Hodder Headline Plc., London 1994.
e A. Gelman, J. B. Carlin, H. S$. Stern i D. B. Rubin, Bayesian Data Analysis, Chapmann
X Hall/CRC, London 2000. e H. Jefireys, Theory of Probability, Oxford University Press, 1961. e B. de Finetti, Theory of Probability, Wiley, New York 1989.
Należy jednak zaznaczyć, że o ile środowisko klasycznych statystyków jest właściwie bardzo homogenne w swym rozumieniu tematu, o tyle nie istnieje coś takiego jak jed-
18
Tytułem wstępu
nolita szkoła współczesnej teorii prawdopodobieństwa. Występują dość głębokie różnice między prezentacjami różnych autorów, do czego zresztą autorzy ci się przyznają. Jest to
oznaką bujnego rozwoju dziedziny, w której pojawia się wiele nowych pomysłów 1 ścierają się różne idee. Dodatkową trudnością, jaką trzeba niekiedy pokonać, czytając różne, a zwłaszcza mniej ambitne ujęcia, jest nieukrywany, lekceważący stosunek, jaki zwolennicy współczesnego podejścia żywią do „ortodoksów”. Ci, naturalnie, nie pozostają im dłużni. W konsekwencji praktykowanie tych czy innych metod statystycznych staje się bardziej demonstracją i aktem wyznania wiary niż elementem rzetelnego dociekania prawdy naukowej.
Mimo tych psychologicznych komplikacji i uprzedzeń stosowanie bayesowskiej metody analizy danych powoli toruje sobie drogę i zyskuje coraz to szersze grono zwo-
lenników, także wśród fizyków — dlatego też w rozdziale 9 przedstawione są niektóre
fundamentalne fakty z tej dziedziny. Prezentacja ta czerpie intensywnie z pisanej bardzo żywym i barwnym (żeby nie powiedzieć egzaltowanym) językiem wszechstronnej i bogatej publikacji: E. T. Jaynes, Probability Theory: The Logic of Science, która obecnie dostępna jest jedynie w nieco fragmentarycznej
formie na WWW,
pod adre-
sem http://bayes.wustl.edu/etj/prob.html, oraz z paru innych publikacji. Dwie z nich to
T. J. Loredo, The Promise of Bayesian Inference for lenges in Modern Astronomy, red. E. D. Feigelson i 1992 oraz From Laplace to Supernova SN 1987A — sics, w Maximum Entropy and Bayesian Methods, red. Publishers, Dordrecht 1990. Oba artykuły dostępne
Astrophysics, w Statistical ChalG. J. Babu, Springer, New York Bayesian Inference in AstrophyP. F. Fougere, Kluwer Academic są w sieci WWW pod adresem
http://astrosun.tn.cornell.edu/staff/loredo/bayes/tjl.html. Trzecią jest praca P. Sahy: Principles of Data Analysis, a można ją odnaleźć na WWW pod adresem http://www-astro.
physics.ox.ac.uk/ saha/pda.html. Czwarta publikacja to notatki z wykładu: G. D'Agostini, Bayesian Reasoning in HEP — Principles and Applications, CERN Report 99-03, osią-
galne pod adresem http://www.cern.ch/Training/ACAD/reglec_E.html. Teraz słowo o symbolice matematycznej. Chcemy zwrócić uwagę na dwa symbole, które występują w książce. Różnica między nimi jest dość umowna
z akcentu i chęci zwrócenia symbol to = i stosujemy go In(1 + x) = x dla wartości to %, który zastępuje frazę
i wynika raczej
uwagi na różny aspekt tego samego zagadnienia. Pierwszy do zaznaczenia przybliżonej równości, jak np. w wyrażeniu wielkości x bliskiej zera, lub też x = 3,14. Drugi symbol „zachowuje się jak”, jak np. w wyrażeniu: n(n + 1) %n*
dla dużych wartości wielkości n. Sporadycznie wykorzystywany jest też symbol toz-
samości == dla oznaczenia definicyjnej równoważności
występujących po jego lewej
i prawej stronie wielkości oraz symbol x dla określenia prostej proporcjonalności. Po-
nadto czcionką wytłuszczoną, np. x, konsekwentnie oznaczane są zespoły wielkości x;: Xx = (X, X9,..., X„) i tylko wspomnimy, że punktem naszego zainteresowania nie jest tu charakter wektorowy tych wielkości, choć będziemy wykorzystywać do nich aparat alge-
bry liniowej. Symbole opatrzone kreską „nad”, jak x, to wartości średnie, z wyjątkiem sytuacji, w których odwołujemy się do teorii zbiorów lub rachunku zdań, kiedy to kreska
nad symbolem określa zbiór dopełniający lub tezę przeciwną. Gruba czcionka prosta, szeryfowa, np. V, zarezerwowana jest dla macierzy. Symbol „daszka” ” jest używany do
Tytułem wstępu
19
oznaczenia estymatora lub estymaty wielkości, nad którym ten symbol występuje. Na specjalny symbol zasłużyły sobie zmienne losowe w treści niniejszego wykładu. Aby odróżnić je od zmiennych matematycznych przedstawionych wyżej, zmienne te są pi-
sane czcionką bezszeryfową, np. x, jeśli chcemy użyć zmiennej prostej, oraz pogrubioną X = (X,X,...,X„) dla wektora losowego.
Niektóre z rozkładów prawdopodobieństwa pojawiają się na tyle często, że warto
zarezerwować dla nich specjalną symbolikę, ukazaną w tabeli 1. Tabela 1. Oznaczenia rozkładów
B(n, p)
rozkład dwumianowy oraz p
dyskretnej zmiennej
losowej
k z parametrami n
G (p)
rozkład geometryczny dyskretnej zmiennej losowej k z parametrem p
Un, p)
rozkład ujemny dwumianowy dyskretnej zmiennej losowej k, opisującej liczbę prób, z parametrami n oraz p; stosujemy także wariant 24,(n, p), jeśli zmienna k opisuje liczbę porażek
H(N,K,n) Wk,...k; (n, Py,-.., Pj)
rozkład hipergeometryczny dyskretnej zmiennej losowej k z parametrami N, K oraz n
rozkład wiełomianowy j dyskretnych zmiennych losowych k;, ka,...
określony parametrami n, py,...
, k;,
, p;
P.(u)
rozkład Poissona dyskretnej zmiennej losowej k z parametrem
E(t; A)
rozkład wykładniczy ciągłej zmiennej losowej t z parametrem intensywności A; w przypadku gdy zamiast tego parametru używamy jego odwrot-
ności: T = A !, stosujemy oznaczenie €(t; T) N Q; u,o)
rozkład normalny (Gaussa) ciągłej zmiennej losowej x z parametrami u oraz o
XA, (x)
rozkład x? ciągłej zmiennej losowej x o n stopniach swobody
S,()
rozkład Studenta ciągłej zmiennej losowej t o n stopniach swobody
Fnm(2)
rozkład Fishera ciągłej zmiennej losowej x o (n, m) stopniach swobody
W rozdziale 9 indeksy odgrywające rolę zmiennej niezależnej promujemy do pełnoprawnych argumentów rozkładów przez umieszczenie ich w nawiasach, oddzielając je przy okazji pionową kreską | od parametrów. Z uwagi na rozmaitość symboli, jakie występują w literaturze dla określenia niepewności pomiaru, podamy także naszą definicję. Symbołem s, będziemy oznaczali wartość, jaką przyjmuje dla próbki danych pierwiastek kwadratowy z nieobciążonego estymatora
20
Tytułem wstępu
wariancji. W warunkach wielokrotnego pomiaru odpowiada to l n=1
Sx =
— 2
— x),
podczas gdy
= |„20: — 2.
N=
Popularny symbol o, o ile nie oznacza przekroju czynnego, rezerwujemy dla pierwiastka
kwadratowego z wariancji zmiennej losowej lub czynnika skalującego dla tej zmiennej. I jeszcze jedna uwaga. Aby w treści wykładu wyraźnie oddzielić prezentowane przykłady od głównego toku rozumowania,
stosowana jest mniejsza czcionka, a także
symbol II, kończący treść każdego przykładu. Autor dziękuje prof. A. K. Wróblewskiemu za życzłiwość, zachętę i wsparcie, jakie
otrzymywał od niego przez szereg lat, gdy przygotowywane były kolejne wersje tego wy-
kładu w formie skryptu dla studentów. Bez jego pomocy książka ta nigdy by nie powstała.
On także wskazał autorowi źródło wartości liczb x, /3 oraz e z dokładnością do miliona
cyfr. Autor jest wdzięczny prof. A. Majhoferowi oraz prof. J. Crittenedowi za iluminujące dyskusje, a prof. B. Murynowi za wiele cennych wskazówek i krytycznych uwag o manuskrypcie. Podziękowania kieruje także ku prof. Ch. Drostemu za udostępnienie mu danych o kalibracji licznika germanowego i widma, które posłużyło do ilustracji rozważań nad metodą najmniejszych kwadratów w problemie nieliniowym, jak również
dr. J. M. Pawlakowi za dane o czasie oczekiwania na przyjazd metra, prof. M. Kałuszce
—
za wskazanie źródła do zagadnienia oceny optymalnej szerokości przedziału histo-
gramowania, a dr. hab. A. F. Żarneckiemu — za wskazanie na typ eksperymentu, który
posłużył do uzasadnienia metody największej wiarogodności.
Nie bez znaczenia i wpływu na ostateczny kształt i treść wykładu były uwagi i dyskusje z wieloma studentami, które autor prowadził w trakcie wykładów i po nich. Wiele
z tych rozmów pozwoliło lepiej zrozumieć i docenić trudności, jakich doświadczają Ci,
którzy przystępując do rozwiązania konkretnego problemu, próbują go zidentyfikować jako zagadnienie z zakresu statystyki matematycznej i sformułować w języku tej dziedziny. Dzięki im za to.
Wyrazy wdzięczności należą się także Rodzinie, która zawsze z entuzjazmem śledziła postęp prac, zachęcała, pomagała, a przede wszystkim ze zrozumieniem odnosiła się do męża i ojca, gdy ten, przygotowując manuskrypt, spędzał godziny przed kompu-
terem, co bez wątpienia odbywało się kosztem obowiązków domowych. Na zakończenie autor pragnie zwrócić się z prośbą do Czytelnika i zachęcić go do przekazania mu wszelkich uwag, spostrzeżeń i komentarzy. Może pomogą one ulepszyć jeśli nie następne wydanie tej książki, to wykład dla studentów. Ponieważ w dzisiejszej dobie najsprawniejszą i najwygodniejszą formą komunikacji są media elektroniczne, © fuw.edu.pl. toteż autor pozostawia Czytelnikowi swój adres: Roman.Nowak
Roman J. Nowak
PRAKTYKA
Słowo Praktyka brzmi dla nas tak samo jak dla Greków, u których oznacza ona coś związanego z Teorią i coś przeciwnego.
O ile bowiem Teoria dotyczy racji i poruszeń intelektu, o tyle Praktyka obraca się wokół czynności i poruszeń rozsądku; pierwsza tedy ma związek ze spokojem kontemplacyjnym, będącym głównie dążeniem duszy, druga zaś wiąże się ze spokojem aktywnym, będącym głównie dążeniem rozsądku.
Statystyka w fizyce
Najprostszy przykład pomiaru to pomiar prostej wielkości fizycznej typu długości wybranej fali Światła, współczynnika lepkości, oporu lub przyspieszenia ziemskiego. Tę
ostatnią wielkość możemy znaleźć, np. mierząc czas staczania się walca z równi pochyłej, a rezultat takiego pomiaru (dane własne) zilustrowany jest na rys. 1.1. W odniesieniu do tego histogramu, jak również innych przedstawionych poniżej, często używany jest termin wykres częstości, choć nazwa ta, Ściśle rzecz biorąc, powinna być stosowana do rysunku, na którym prezentowana jest nie liczba pomiarów o określonej własności, lecz ułamek bądź procent takich pomiarów. Jeszcze częściej stosowana jest szersza nazwa:
rozkład (w tym przypadku eksperymentalny, jako że budując modele probabilistyczne różnych pomiarów, będziemy mieli również rozkłady teoretyczne lub modelowe), ściślej — rozkład wyników pomiarów przyspieszenia ziemskiego. W odniesieniu do wielkości mierzonej używamy terminu zmienna losowa i zmienne takie będziemy oznaczali czcionką prostą o kroju bezszeryfowym, np.: k, l, m,... „t,
20
T
15
TI
liczba pomiarów
25
900
940
980 1020 przyspieszenie [cm/s”]
1060
1100
Rys. 1.1. Rozkład rezultatów pomiaru przyspieszenia ziemskiego uzyskanych metodą pomiaru czasu staczania się walca z równi pochyłej
24
1. Statystyka w fizyce
X, y, ... , natomiast do wyników pomiarów oraz zwykłych zmiennych matematycznych
zastosujemy kursywę: k, I, m, ... „t, x, y,... . Niedostatkiem tej konwencji jest brak możliwości rozróżnienia w piśmie między zmienną losową a zmienną matematyczną dla
wielkości oznaczanych symbolami z alfabetu greckiego. Autor ufa jednak, że nim takie symbole się pojawią, Czytelnik na tyle będzie wprowadzony w temat, że będzie potrafił zorientować się z kontekstu, o którą z wielkości chodzi. Zbiór (skończony) wszystkich
wyników pomiarów to próbka. Pojęcie to wiążemy z jeszcze jednym, pochodzącym z nauk socjologicznych, terminem — populacja, czyli zbiorem wszystkich przedstawicieli naznaczonych wybraną cechą. Termin ten, choć używany będzie przez nas przy analizie statystycznej danych doświadczalnych, ma raczej charakter pomocniczy, ponieważ, jako żywo, nikomu jeszcze nie udało się wyczerpać pomiarami wszystkich możliwych wartości np. przyspieszenia ziemskiego.
Wszystkie proste pomiary pouczają nas o pewnej charakterystycznej własności każdego procesu pomiarowego: ze względu na wpływ, jak sądzimy, pewnej liczby różnorodnych i niekontrolowanych czynników zewnętrznych, rezultaty pomiarów dowolnej wielkości makroskopowej mają charakter statystyczny —
powtarzając pomiary, nie
otrzymujemy jednej i tej samej wartości. Rozrzut rezultatów, jak ten na histogramie pomiarów przyspieszenia ziemskiego, czyli coś co zwiemy fłuktuacją, wiążemy z procesem pomiarowym — brakiem absolutnej wierności w każdym akcie pomiarowym. Jakościowo inny problem napotykamy, badając np. izotop bizmutu o liczbie masowej
211, który rozpada się w około 65% na polon drogą przemiany 8: *3Bi > *34Po + e” + 0,, a w pozostałych 35% na tal w wyniku emisji cząstki a: 41Bi > "TI + He. Podobne zachowanie wykazuje wiele jąder wzbudzonych i cząstek elementarnych, przy
czym liczba możliwych sposobów, zwanych także kanałami, ich rozpadów jest niekiedy znaczna — np. dla ciężkich leptonów T dochodzi ona do kilkudziesięciu. Trudność w wyznaczaniu częstości takich rozpadów polega na tym, że biorąc próbki np. po sto jąder bizmutu, w jednym przypadku znajdziemy, że 65 z nich rozpadło się na drodze emisji B, w innym może to być tylko 60, a jeszcze w innym aż 80. Niedoskonałość powtórzeń w kolejnych kopiach pomiaru nie jest w tym przypadku związana z warunkami pomiaru
ani instrumentami (nawet jeśli nie są idealne), których używamy, ani z tym, że jedne sto jąder bizmutu ma inne własności niż jakieś inne sto jąder, lecz z naturą zjawiska, które usiłujemy zbadać — ono samo ma charakter statystyczny. Znaczenie statystycznego po-
dejścia jest tu znacznie głębsze niż w przykładzie z przyspieszeniem ziemskim, stąd też
dobre jego zrozumienie jest warunkiem wstępnym do poprawnej analizy eksperymentalnej i znalezienia błędu pomiarowego częstości rozpadu, w nomenklaturze fizycznej zwanej stosunkiem rozgałęzienia.
Inny przykład realizacji identycznego procesu statystycznego znajdujemy w analizie asymetrii. Ilustrację tego zagadnienia stanowi sytuacja, w której badamy polaryzację wyprodukowanej cząstki przez określenie kierunku lotu produktów jej rozpadu względem tzw. płaszczyzny reakcji, czyli płaszczyzny, w której znajdują się wektory pędu
padającego pocisku i wyprodukowanej
cząstki. Okazuje się, że wybrany produkt roz-
padu „chętniej” wybiega na jedną ze stron takiej płaszczyzny niż na drugą. Liczba cząstek nad płaszczyzną 1 pod płaszczyzną to analogia liczb rozpadów jądra bizmutu
1. Statystyka w fizyce
25
10 r
> PA
>s 78] .©
2 Ń
8
6lL
ł
SI
3 4)
4d
Ś
a
5
3 |-
+ —
ee
2 t
ł
+
LL
TASSO, 34,5 GeV |
0
-0,8
l
J
i
l
-0,6
-0,4
-0,2
0
l
0,2
l
l
|
0,4
0,6
0,8
cosi
Rys. 1.2. Rozkład kątowy leptonów u” emitowanych w reakcji anihilacji efe > UTuUT
na dwu drogach. Bardziej rozbudowana realizacja identycznego modelu statystycznego (rys. 1.2, za M. Althoff i inni, An Improved Measurement of Electroweak Couplings from ete —> ete” andete" > U*u', Z. Phys. C — Particles and Fields 22 (1984), 13), to asymetria w liczbie emitowanych leptonów u" w kierunku zgodnym bądź przeciwnym do kierunku lotu pozytonu w układzie środka masy w reakcji e*e > uu. Asymetria ta była jedną z pierwszych wskazówek bozonu pośredniczącego Z.
sugerujących istnienie neutralnego
Poszerzeniem opisywanych przykładów jest następujący eksperyment. Wyobraźmy sobie licznik, np. Geigera-Miillera, z umieszczoną w nim próbką jąder promieniotwórczych, który uruchamiamy wielokrotnie na pewien stały, zadany przedział czasu. W każdym z okresów pracy licznik zarejestruje różne liczby rozpadów. Możemy oczekiwać, że liczby te będą grupowały się około pewnej wartości określającej typową liczbę zliczeń. Spodziewamy się jednak, że od czasu do- czasu zarejestrujemy zarówno małe, jak i bardzo duże liczby rozpadów. Nic nie stoi na przeszkodzie, aby przyjąć model, w którym możliwa liczba rejestrowanych rozpadów to: 0, 1, 2,3,....
W powyższym przykładzie z rozpadem jądra bizmutu każdy indywidualny akt roz-
padu jądra był losowym wydarzeniem o gamie ściśle określonych wyników. Liczba tych wyników, może niekiedy duża — jak w przykładzie z leptonem T — a nawet przy odrobinie wyobraźni nieskończona, jest jednak przeliczałna. Poszczególne możliwości
możemy ponumerować i ustawić w konwencjonalnej lub naturalnej (z jakiegoś punktu widzenia) kolejności i w dalszym toku odwoływać się do numeru w (skończonym lub nieskończonym) szeregu. Do opisu takiej sytuacji wygodnie jest wprowadzić nowy termin — mówimy o dyskretnym charakterze danego procesu losowego lub zbiorze jego możliwych rezultatów, czyli o dyskretnej zmiennej losowej podlegającej dyskretnemu rozkładowi prawdopodobieństwa. Trochę inaczej wygląda następujący problem. Rozważmy przykład elastycznego rozpraszania np. elektronu o zadanym pędzie p na stacjonarnym protonie (patrz rys. 1.3).
W wyniku rozproszenia otrzymujemy elektron o pędzie k i proton o pędzie q. Czy mo-
26
1. Statystyka w fizyce
Rys. 1.3. Definicja zmiennych kinematycznych w procesie elastycz-
nego rozpraszania ep
żemy znaleźć wartości tych pędów? Wprowadzając oznaczenia jak na rysunku, możemy
wypisać zasady zachowania pędu i energii:
p=kcosog +qcosv, 0 =ksing
+qsin3,
myc” + ;/mżc* + p?c? = „/m2c* + k?c? + ,/mąc* +ą?c*, gdzie przez m, i m, oznaczyliśmy odpowiednio masy elektronu i protonu. Jest to układ
trzech równań na cztery niewiadome:
g, %, k oraz q, co oznacza, że możemy je roz-
wiązać, przyjmując jedną z nich, np. kąt pojedynczym akcie rozproszenia? O tej być ona zawarta w granicach od 0” do w każdym konkretnym przypadku i które
p, za znaną. Ale ile wynosi ten kąt w każdym wielkości wiemy a priori tylko tyle, że może 180? i nic nadto. To, ile ona będzie wynosiła wartości (małe, czy też duże kąty) będą prefe-
rowane, zadecyduje losowy proces uwarunkowany dynamiką rozpraszania. Mówimy, że
mamy tu do czynienia z ciągłą zmienną losową, ponieważ zbiór jej wartości przebiega nieprzeliczalną liczbę możliwości. Interesującym przykładem takiej sytuacji jest rys. 1.4 (S. Herb i inni, Phys. Rev. Let. 39 (1979), 252), gdzie przedstawiono wyniki eksperymentu, w którym badano masę niezmienniczą par
u "u* uzyskanych w procesie nieelastycznego rozpraszania protonów na
jądrach atomowych. Mimo że na osi rzędnych odłożona jest pewna forma różniczkowego przekroju czynnego, o wykresie takim też często mówimy luźno jako o rozkładzie. Wy-
niki takie jak ten dostarczyły swego czasu dowodu na istnienie rodziny cząstek ypsilon, będących stanem związanym kwarka b i jego antykwarka. Analiza statystyczna w całej swej krasie ujawnia się jednak dopiero na następnym wy-
kresie — rys. 1.5 — który uzyskano, usuwając z rys. 1.4 coś, co nazywamy tłem (zwróćmy
uwagę na zastosowanie na pierwotnym rysunku skali logarytmicznej, dzięki czemu nadmiar przypadków w okolicy 9-10 GeV
wybija się ponad „coś”, co wygląda jak linia
prosta) i dopasowano do otrzymanych punktów krzywe Breita-Wignera, które pozwoliły wyznaczyć masy nowych cząstek (G. Fliigge, w Proceedings of the EPS Conference on High Energy Physics, Geneva 1979, Geneva, CERN Scientific Information Service). Następna komplikacja, jaka pojawia się w związku ze zmienną ciągłą, to wielowymiarowość. Jeśli wrócimy do przykładu rozpraszania, tym razem nieelastycznego, w którym
powstaje n cząstek w stanie końcowym, to układ taki charakteryzujemy w pełni, podając 3n składowych pędu cząstek, o ile potrafimy zidentyfikować te cząstki. Równania zacho-
1. Statystyka w fizyce
27
24 ©
|
.
,
w 1035
L
do
»,
dmdy |,-, ., 7
——
, Pa,
6
He
la >
*
+
,
ję
4
vo
9,
+
ł
107 |
O:
+ł | |
10?
|
6
7
8
9
10
11
|
12
13
masa [GeV]
Rys. 1.4. Podwójny różniczkowy przekrój czynny na produkcję par u". w procesie nieelastycznego rozpraszania protonów na jądrach jako funkcja masy niezmienniczej pary mionów
wania energii i pędu wyeliminują nam 4 z tych wielkości, a te, które pozostaną, w liczbie 3n — 4, staną się, w każdym indywidualnym akcie rozpraszania, zmiennymi losowymi.
Prosty, a zarazem bardzo pouczający jest dwuwymiarowy przykład na następnym wykresie — rys. 1.6 (dane własne), który przedstawia tzw. profil wiązki cząstek ele-
mentarnych wybiegających z akceleratora i docierających do pewnego detektora. Jest to rozkład punktów trafień tych cząstek w płaszczyznę prostopadłą do osi wiązki, a każdy z 386 punktów reprezentuje sobą jedną cząstkę. Ten chaotyczny, na pierwszy rzut oka,
układ ma jednak pewną strukturę. Widać, że punkty trafień układają się w obszarze elipsy, której dłuższa oś nachylona jest pod pewnym kątem do poziomej osi współrzędnych. Oznacza to, że jeśli cząstka wychyla się „w prawo”, to jednocześnie ma tendencję do odchylenia „w dół”. Zależność taka, nie mająca charakteru zależności matematycznej,
lecz statystycznej, określana jest mianem korelacji.
1. Statystyka w fizyce
liczba przypadków
28
i
| 8,50
9,00
9,50
10,00
10,50
masa niezmiennicza
Rys. 1.5. Rozkład — po odjęciu tła — masy niezmienniczej par u*u" uzyskanych w procesie nieelastycznego rozpraszania protonów na jądrach 100
r
50
|
,
.
:
2
Ę
0
—50
|
.
«
"
—200
*
WC.
1
**
ze
.
Ba
dą"
s.
,
sze”3
JOCK ,
.
"
.
|
-100
Z
-”
.
Z
.
,
e
l
0
i
,,
.
e
+
.
4.
„.
wo,
*
.-
,
.,
. -
, Ó
..
4
.
RJ
+
Wż
*
s"
.
.*., wa
.
|
*
—100
*
.
.
i
.
..
*
*
„..
. .„*.
A
"
,
.
4
,
*
.
".
.*
.
.
..
* .
.
. .
+
.
J
100
mm
Rys. 1.6. Rozkład punktów trafień wiązki w płaszczyznę detektora (dane własne)
Piękny przykład korelacji uwidoczniony jest na rys. 1.7 (S. Kopp, Dalitz Analysis of the Decay D > K'n*n', Eksperyment CLEO, http://arXiv.org/abs/hep-ex/ 0011065), na którym jest przedstawiony rozkład mas niezmienniczych par cząstek Kx" oraz n*n/, powstających w rozpadzie mezonu D” > K"n*n'. Jeśli przejdziemy do układu środka masy tych trzech cząstek, to zasada zachowania pędu ogranicza wszystkie ich możliwe pędy do płaszczyzny, co oznacza, że mamy 6 wielkości (po dwie składowe pędu każdej z cząstek), które charakteryzują taki rozpad. Dodatkowo ta sama zasada wraz z zasadą zachowania energii (razem trzy równania) eliminują 3 z tych wielkości, pozostawiając 3 wolne parametry. Jeśli nadto ustalimy kierunek lotu w tej płaszczyźnie jednej z cząstek (np. kaonu), pozostaną nam dwie wielkości, które w pełni opisują konfigurację przypadku. W omawianej pracy za owe dwie wielkości przyjęto kwadraty mas niezmienniczych kaonu i dodatniego pionu oraz obu pionów. Obrys obszaru wypełnionego punktami zadaje dozwolony zakres zmienności obu mas niezmienniczych.
1. Statystyka w fizyce T
T
T
T
3111100-011
wu
U
=
.
„pe
ł
w
R
SĄ:Se
wyga
z.
swe ",
+
e 41
p
.
7
7
. 4
ZPA
7" «wa +
4
,
.
+
»
>
- as Ta .
;
Ma
4
w
Sapąia 9 a BŚ AGIT
a
-
:
P tn
M(n' n ) (GeVc” )
——
2,0
29
Rys.
1.7.
Rozkład
masy
niezmienniczej
K-n* oraz n*n" z rozpadów mezonu D”
par
3
M(K n ) (GeVc
22
Gdybyśmy mieli do czynienia z absolutnie statystycznym charakterem zjawiska lub, jak to mówią fizycy, rozkład był zdeterminowany przez przestrzeń fazową procesu, punkty na wykresie powinny układać się jednorodnie we wnętrzu tego obszaru. Jak widzimy, para dwóch pionów i para złożona z kaonu i pionu preferuje, w części przypadków, pewne obszary wartości masy niezmienniczej, co uwidacznia się w postaci „wysp” większej gęstości punktów na wykresie. 8 -
]
2
j
Rys. 1.8. Rozkład energii poprzecznej dwóch dżetów
ZEUS
UCAL transverse energy
30
1. Statystyka w fizyce
Wykresy takie jak na rys. 1.7 służą do wizualizacji funkcji zależnej od dwóch zmiennych. Jeśli chcemy pokazać wartości tej funkcji, uciekamy się do tzw. wykresów lego, których przykład widzimy na rys. 1.8 (dane współpracy ZEUS). Oderwijmy się teraz na moment od fizyki i wróćmy do geodety, który wymierza
trzy kąty pewnego trójkąta w terenie. Nikt nie oczekuje, że suma tych kątów, z uwagi na
błędy pomiarowe, wyniesie równo 180”. Jeśli jednak nasz geodeta zamierza wykorzystywać zmierzone przez siebie trójkąty w dalszej pracy i stosować odpowiednie wzory trygonometryczne, to musi zmienić wartości tych kątów tak, aby ich suma wynosiła tyle, ile tego wymaga geometria euklidesowa. Podobny problem występuje przy pomiarach
pędów w rozpraszaniu np. elektronów na protonach. Mierząc pędy cząstek w tej reakcji, nie możemy oczekiwać, z uwagi na błędy pomiarowe, że wyniki naszych pomiarów będą spełniać ściśle zasady zachowania pędu i energii. Ale jednocześnie nie możemy dopuścić do tego, byśmy dałej pracowali z niespójnymi danymi. Musimy, w granicach dopuszczonych przez błędy poszczególnych pomiarów, zmodyfikować wartości mierzone, aby
podstawowe prawa Natury były spełnione. Służy do tego procedura zwana dopasowaniem kinematycznym, oparta na tzw. teście x*, o którym będziemy mówili w dalszej
części tego wykładu. 13 657
5 0
4.2
4.3
$.5
4,
.
TASSO
a RŃ
u
-
|
47
Rys. 1.9. Przykład rejestracji torów cząstek w wielodrutowej komorze dryfowej
Inny, klasyczny przykład dopasowania z zastosowaniem testu x* zaprezentowany
jest na rys. 1.9. Przedstawia on schematyczny, w przekroju poprzecznym, obraz umiesz-
czonej w polu magnetycznym wielodrutowej komory cylindrycznej, otaczającej punkt oddziaływania wiązek przeciwbieżnych (G. Wolf, Deutsches Elektronen Synchrotron Internal Report, DESY 81-086). Naładowane produkty reakcji rozbiegają się wzdłuż linii spiralnych ze środka rysunku i są rejestrowane za pomocą owych drutów. W wyniku
1. Statystyka w fizyce
31
otrzymujemy dyskretną informację o kształcie toru cząstki. Naszym zadaniem jest od-
tworzenie tego toru w przestrzeni i znalezienie jego parametrów, co pozwala określić
pęd cząstki. Na zakończenie przeglądu problemów, jakie typowo spotykamy w trakcie pracy eksperymentalnej, rozwaźmy następujące zagadnienie. Wiemy, że w przyrodzie obowiązuje (jak na razie) eksperymentalne prawo zachowania mionowej liczby leptonowej. Oznacza to, że np. przy obserwacji rozpadu leptonu u", wśród produktów znajdziemy zawsze cząstkę — w tym przypadku tzw. neutrino mionowe v,, — wynoszącą mionowy „ładunek” leptonowy. Wyobraźmy sobie, że wykonujemy doświadczenie, którego celem jest sprawdzenie tego prawa przez poszukiwanie np. rozpadu: u" > ee'e”, który jest z owym prawem sprzeczny (nawiasem mówiąc, jest on również sprzeczny z prawem zachowania elektronowej liczby leptonowej). Załóżmy, że zebraliśmy próbkę jednego
miliona rozpadów i nie znaleźliśmy ani jednego interesującego nas przypadku. W pierwszym momencie moglibyśmy powiedzieć, że prawo jest słuszne, a jeśli nie, to łamane jest co najwyżej raz na milion. Jest to jednak stwierdzenie zbyt kategoryczne. Jeśli
przypomnimy sobie nasze rozważania z początku rozdziału o liczniku Geigera-Miillera zliczającego rozpady jąder promieniotwórczych, zauważymy, że w naszym doświadczeniu mamy identyczny model probabilistyczny —— prawo może być istotnie łamane na
poziomie w okolicy jeden na milion lub nawet nieco silniej, lecz los spłatał nam figla i nie dał nam szansy jego wykrycia!
Dlatego też stwierdzenie, że badany rozpad
zachodzi rzadziej niż raz na milion to zbyt mało. Powinniśmy opatrzyć takie stwierdzenie oceną możliwości wystąpienia takiego zachowania. Tę ocenę nazywamy poziomem ufności. t
BP |
JON
jet aen
|
NS = 130 > 189GeV
m,, = 173,9GeVc
M,., susy = 1TeVc”
PES
10
|
HĄ
|
||
—— mieszanie maksymalne „.. bez mieszania
|
|
4
|LĄ
*
hoM; - 4
m, < 20GeVc* _ wykluczany „© s
20
30
40
50
60
70
80
90
100
110
120
My, [Gevc ]
Rys. 1.10. Rezultat poszukiwania cząstki Higgsa — obszary wykluczonych wartości mas i parametru 8
32
1. Statystyka w fizyce
Bardziej wyrafinowana forma identycznego zagadnienia prezentowana jest na rys. 1.10 (patrz A. Hocker, http://arXiv.org/abs/hep-ex/9903024). Podsumowuje on pewien etap poszukiwania najbardziej nieuchwytnej cząstki elementarnej, jaką jest tzw. bozon Higgsa. W standardowym modelu oddziaływań cząstek elementarnych istnienie jednego takiego obiektu jest niezbędne. Mimo że do chwili obecnej nie udało się go odkryć, nie przeszkadza to fizykom teoretykom w spekulacjach odnoszących się do jeszcze bardziej finezyjnej teorii tzw. minimalnego supersymetrycznego modelu standardowego,
w którym kwarki i leptony traktowane są równorzędnie. Model ten prowadzi do jeszcze
bardziej skomplikowanego
układu tych bozonów,
gdyż przewiduje istnienie aż pięciu
takich cząstek, z których jedna, oznaczana symbolem h;, powinna być relatywnie lekka, choć model nie specyfikuje, ile jej masa wynosi. Zagadnienie komplikuje trudność, jaką
jest pewien
dodatkowy,
zupełnie nieznany
parametr modelu,
zaznaczony
na rysunku
symbolem 8, który ma wpływ na masę tej najlżejszej cząstki. Dlatego mierzenie masy bozonu Higgsa jest jednocześnie badaniem wartości nieznanego parametru. Ponieważ, jak na razie, w żadnym z eksperymentów bozon ten nie został wykryty, więc wyniki owych doświadczeń prezentowane są w formie „negatywnej” — obszarów wartości masy
i parametru 8 wykluczonych przez eksperyment przy zadanym poziomie ufności.
Na zakończenie tego rozdziału przyjrzyjmy się bliżej słowu statystyka. Używane jest ono w wielu znaczeniach. W języku potocznym, w zdaniu jak Statystyki opubliko-
wane przez GUS wskazują na ... jest ono synonimem słowa dane, rozumianego jako liczby, tabele, wykresy itp. W nazwie Główny Urząd Statystyczny poszerzamy warstwę znaczeniową o proces zbierania i przetwarzania tychże informacji, a także ich przechowywania. My będziemy używać tego słowa w innym znaczeniu, zdefiniowanym w podrozdziale 4.2: statystyka to funkcja zmiennych losowych, i właściwym dziedzinie nauki
zwanej statystyką matematyczną, czyli wiedzy o metodach uzyskiwania informacji z danych. Ta gałąź matematyki stosowanej, mimo że ma swój zestaw twierdzeń, związana
jest ze swej natury z wnioskowaniem indukcyjnym i przechodzeniem od szczegółu do ogółu, czego parę próbek przedstawiliśmy w tym rozdziale. Statystyka matematyczna rozwinęła się z dziedziny czystej matematyki: rachunku (teorii) prawdopodobieństwa, który jest jej podstawowym językiem. Dlatego teraz przejdziemy do przedstawienia paru
najbardziej fundamentalnych faktów tej dziedziny.
PRZYUCZENIE
Przyuczenie jest ćwiczeniem się
w nabywaniu zacnych nawyków i chwalebnych zalet za pośrednictwem głosu lub pisma, przedstawia się je w postaci wspaniałej, bo tylko dusze szlachetne łatwo naginają się do przykrości poprzedzających cnoty.
Prawdopodobieństwo i jego rozkład
—— 21. Pojęcie rozkładu prawdopodobieństwa Przypomnimy teraz przykład z licznikiem Geigera-Miillera z rozdziału 1 oraz zilustrujemy go historycznymi danymi Rutherforda i Geigera (E. Rutherford, H. Geiger i H. Bateman, Phil. Mag. 20 (1910), 698) z 1910 roku, kiedy to obserwowali oni liczbę cząstek
a emitowanych przez substancję promieniotwórczą w n = 2612 przedziałach czasowych po 7,5 s każdy. Rysunek 2.1 przedstawia częstości Nę
F,y=—, n
gdzie n, określa liczbę pomiarów (okresów pomiarowych po 7,5 s każdy), w których
uległo rozpadowi k jąder. Na przykład w około jednej pięćdziesiątej (2%) wszystkich
przedziałów czasowych nie obserwowali oni w ogóle rozpadów promieniotwórczych. Dokonajmy teraz myślowego przejścia do nieskończoności z liczbą n pomiarów wykonanych przez obu uczonych. Oczekujemy, że w granicznym przypadku z obserwowanych często-
0,25 r
0,15
|
0,10
1
częstość
0,20 |
0,05 0,00
kó
A
de)
ŚĆ
SA
aÓ
Ę
0
1
2
3
4
5
6
7
Łoś
ża
8
9
:
40
liczba k rozpadów Rys. 2.1. Rozkład liczby rozpadów obserwowanych przez Rutherforda i Geigera
11
12
36
2. Prawdopodobieństwo i jego rozkład
ści F, otrzymamy prawdopodobieństwa P,, że wielkość k, określająca liczbę rozpadów w wybranym przedziale czasowym, przyjmie wartości O, 1, 2,...:
F, = ki
—
Pk=R =P.
(2.1)
Na powyższe przejście graniczne należy patrzeć z dużą dozą ostrożności, gdyż nie ma
ono tego charakteru, do jakiego przywykliśmy w analizie matematycznej. Poza formalnie wypisaną zależnością od liczby pomiarów w mianowniku mamy jeszcze ukrytą, statystyczną zależność w liczniku. Intuicja i praktyka podpowiada nam, że wraz ze wzrostem
liczby pomiarów n wzrastać będzie także liczba n,. Z doświadczenia życiowego także
wynika, że będziemy obserwowali fluktuacje tej wielkości: jeśli np. liczbę n pomiarów zwiększymy dwukrotnie, to także dwukrotnie, ale tylko w przybliżeniu, wzrośnie liczba
nę. Nie spodziewamy się, że zależność ta będzie Ściśle proporcjonalna. Czasami wzrost
ten będzie więcej, a czasami mniej niż dwukrotny. Sądzimy jednak, że im większa będzie liczba n, tym dokładniej n, będzie do niej proporcjonalna. O wielkości k wiemy, że może ona przyjmować każdą dopuszczalną wartość ze
swego zakresu, dlatego określamy ją, jak w matematyce, jako zmienną. Ponieważ nie
my kontrolujemy wartości, jakie ona przyjmuje w każdym indywidualnym przypadku, dlatego uzupełniamy tę nazwę o słowo losowa, a skoro nasza zmienna losowa może
przyjmować tylko pewne wybrane wartości, mówimy o niej, że jest dyskretną zmienną losową.
Uzyskana w ten sposób zależność prawdopodobieństwa P, od zmiennej losowej k
zwana jest w terminologii rachunku prawdopodobieństwa rozkładem prawdopodobień-
stwa. Efektywnie, słowo rozkład zastępuje tu słowo funkcja. Do kompletu informacji powinniśmy dodać wiadomość, iż mamy do czynienia z dyskretnym rozkładem prawdopodobieństwa.
Wielkości P, spełniają, z warunków konstrukcji, tożsamość
3 P,=1,
(2.2)
k=0
zwaną warunkiem unormowania prawdopodobieństwa. Warunek ten odczytujemy jako gwarancję pojawienia się któregokolwiek ze wszystkich możliwych zdarzeń.
Definicja częstości pozwala rozwiązać pewien elementarny problem. Możemy znaleźć eksperymentalne oszacowanie szansy F'(i < k < m) wystąpienia zdarzeń, w których
wartość zmiennej k zawarta jest między wartościami i oraz m:
Fi pl4) (P(A) + P (Z')) + P(Z* + p|Z*)P(2*) =
JA>p(PA
+
Po)
+
fs>pP-:
Koncepcja prawdopodobieństwa warunkowego nie jest jednak w żaden organiczny
sposób związana z chronologią zdarzeń. Ilustruje to następujący, prosty przykład. Wspomniany wcześniej lepton T rozpada się na elektron lub na mion, w każdym z przypadków
z prawdopodobieństwem około 18%, oraz na stany hadronowe, bez udziału naładowanego leptonu, w pozostałych przypadkach. Pytanie o prawdopodobieństwo rozpadu leptonu Tt na elektron, jeśli wiadomo, że wśród cząstek stanu końcowego obserwowano
naładowany lepton, jest dobrym pytaniem o prawdopodobieństwo warunkowe i nie im-
plikuje ono żadnego uporządkowania czasowego zdarzeń. Zwykłe prawdopodobieństwo P(A) zdarzenia A jest także prawdopodobieństwem warunkowym P(A|£2), z tym, że warunkiem jest cała przestrzeń zdarzeń elementar-
nych 42:
P(A|2)
=
P(ANQ) PQ)
P(A) 1
= P(A).
Ten absolutny charakter zdarzenia warunkującego sprawia, że prawdopodobieństwa takie
jak P(A) nazywamy prawdopodobieństwami absolutnymi.
——
24. Zdarzenia niezależne
Wyobraźmy sobie dwa liczniki Geigera—Miillera, nazwijmy je A oraz B, ustawione na poziomej płaszczyźnie, w pewnej odległości od siebie i wystawione na promieniowanie kosmiczne. Przyjmijmy, że każdy z liczników, pracując samodzielnie, notuje typowe
częstości przechodzących promieni jako f4 oraz fg (różnice w wartościach częstości mogą wynikać z różnicy w budowie liczników, np. jeden może mieć większą pojem-
2.4. Zdarzenia niezależne
57
ność czynną niż drugi) i oczekujemy, że przybywanie promieni jest losowo rozrzucone w czasie. Oznacza to, że w pierwszym liczniku typowy odstęp czasu między dwiema
kolejnymi cząstkami promieniowania wynosi Tą = 1/fą4, a w drugim Tp = 1/fg. Przyjmijmy, że impuls wyjściowy każdego z liczników ma standardowy kształt prostokątny
o czasie trwania 74 1 Ig. O czasach tych założymy, że są one wielokrotnie krótsze od CZASÓW TĄ Oraz Tg. W następnym kroku standardowe impulsy wysyłane są na układ elektroniczny, zwany układem koincydencyjnym, który generuje impuls na swoim wyjściu tylko wtedy, gdy dwa standardowe impulsy wejściowe nałożą się na siebie, przy czym
przekrywanie czasowe nie musi być pełne, wystarczy, aby jeden impuls pokrywał się minimalnie z drugim. Przy tak skonstruowanym układzie oczekujemy, że od czasu do czasu zdarzy się przypadkowe nałożenie impulsów z liczników i układ koincydencyjny zarejestruje koincydencję przypadkową — jak to jest zilustrowane rys. 2.19. Jak często
wystąpi taka koincydencja, lub inaczej: jakie jest prawdopodobieństwo
P(A ) B) zda-
rzenia będącego iloczynem zdarzeń, z których jedno oznacza rejestrację promieniowania za pomocą licznika A, a drugie rejestrację innej cząstki za pomocą licznika B?
Licznik A czas czas Licznik B |
Koincydencja
5 8
czas
— ||
> > >
czas czas
>
Rys. 2.19. Orientacja czasowa impulsów, prowadząca do koincydencji przypadkowej i czas jej trwania
Na mocy prawa mnożenia prawdopodobieństw
(2.14), odpowiedź
na to pytanie
sprowadza się do odpowiedzi na następujące pytanie: jakie jest prawdopodobieństwo P(A |B) zarejestrowania cząstki promieniowania kosmicznego za pomocą licznika A, przy warunku, że jednocześnie zadziałał licznik B, lub: jakie jest prawdopodobieństwo
P(B|A) zarejestrowania cząstki promieniowania kosmicznego za pomocą licznika B,
przy warunku, że jednocześnie zadziałał licznik A? Jeśli założymy, że promienie kosmiczne przychodzą z zenitu pojedynczo i bez związku między sobą, to odpowiedź na
takie pytanie jest, z fizycznego punktu widzenia, oczywista: to, że zadziałał licznik A,
nie ma żadnego wpływu na to, czy zadziała, bądź nie zadziała licznik B i odwrotnie: działanie licznika B nie ma wpływu na licznik A. Innymi słowy, P(B | A) = P(B) oraz P(A|B) = P(A) i mówimy, że zdarzenie określone symbolem przed kreską pionową jest statystycznie niezależne (używany też bywa termin stochastycznie niezależne) od
58
2. Prawdopodobieństwo i jego rozkład
zdarzenia określonego symbolem stojącym po kresce pionowej. Zauważmy, że z równo-
ści (2.16) wynika, że jeśli zdarzenie A jest niezależne od zdarzenia B, to zdarzenie B jest niezależne od zdarzenia A. Jeśli wyrazenie P(A | B) = P(A) podstawimy do związku (2.14), to otrzymamy P(A AB) = P(A)P(B).
(2.17)
Słuszne jest także stwierdzenie odwrotne: jeśli zachodzi (2.17), to zdarzenia A oraz B
są statystycznie niezależne, dlatego związek ten możemy
potraktować nie tylko jako
przejaw statystycznej niezależności, ale także jako samodzielną definicję tego pojęcia.
—— Przykład 2.4.1 Żart Paulinga L. ©. Pauling podczas uroczystości wręczenia mu po raz drugi Nagrody Nobla za-
uważył, że niepotrzebnie wokół tej okoliczności czyni się tyle szumu. Przecież ży-
jących laureatów nagrody jest około setki, tak więc prawdopodobieństwo zdobycia tego wyróżnienia po raz wtóry wynosi raptem 1:100, podczas gdy wszystkich kan-
dydatów do pierwszej Nagrody Nobla na całym świecie jest przynajmniej miliard,
tu więc konkurencja jest znacznie większa. Naturalnie, żart badacza polegał na celowej zamianie miejscami dwóch pojęć. Jeśli przez N oznaczymy zdarzenie okre-
ślające zdobycie wyróżnienia, to słynny uczony pomieszał, rozumiane dość pokręt-
nie prawdopodobieństwo warunkowe — P(N | N) i absolutne — P(NNYN), które tylko z pewnym przybliżeniem możemy uznać za zadane iloczynem P(N)P(N) (w przypadku Paulinga można sądzić, że przybliżenie to jest lepiej uzasadnione,
jako że pierwszą nagrodę uzyskał on za osiągnięcia w chemii, podczas gdy druga była nagrodą pokojową, ale nie możemy wykluczyć, że tytuł noblisty z chemii ułatwił mu zdobycie drugiej).
T)
Wróćmy do naszego problemu i rozważmy dowolny, ale długi w porównaniu z czasami TĄ 1 TB przedział czasu r. W tym czasie licznik pierwszy zadziała T/Tą = Tfą razy,
a łączna długość przedziałów czasowych impulsów wytworzonych przez niego wynosić
będzie TfATĄ, co oznacza, że zajmą one ułamek (geometryczna definicja prawdopodobieństwa) Pą = f4TĄ czasu T. Innymi słowy, jeśli popatrzymy na wyjście naszego licznika w dowolnym momencie czasowym, wielkość P4 jest prawdopodobieństwem na-
potkania w tym momencie impulsu wytworzonego przez promień kosmiczny. Podobnie,
prawdopodobieństwo Pg napotkania impulsu promieniowania kosmicznego w drugim liczniku wynosi Pp = fpTp. Ponieważ „odpalenie” jednego licznika nie zależy od tego, co się dzieje w drugim, więc prawdopodobieństwo P przypadkowego nałożenia się przedziałów czasowych jest iloczynem obu prawdopodobieństw: P = PĄPg = fąTą fBTB. Z. prawdopodobieństwa koincydencji znajdziemy teraz jej częstość. Ponownie dokonujemy obserwacji przez długi przedział czasu r. Jeśli pomnożymy ten przedział
czasu przez prawdopodobieństwo koincydencji, to otrzymamy całkowity czas Pz trwa-
2.4. Zdarzenia niezależne
nia wszystkich koincydencji w czasie r. Gdybyśmy
59
znali czas T' trwania pojedynczej
koincydencji, moglibyśmy znaleźć liczbę tych koincydencji w czasie r, a zatem 1 ich częstość. Zauważmy jednak, że czasy trwania koincydencji są różne i zależą od wza-
jemnej konfiguracji impulsów. Jeśli jeden z impulsów jest zawarty we wnętrzu drugiego,
to czas T koincydencji jest równy czasowi trwania impulsu krótszego, natomiast jeśli impulsy pokrywają się tylko w części, to czas ten jest krótszy i równy części wspólnej.
Widzimy, że potrzebujemy pewnego typowego czasu T trwania pojedynczej koincydencji. Czas ten możemy określić z następującego rozumowania, w którym przyjmiemy,
EEE
dla ustalenia uwagi, że sygnały z licznika A są dłuższe niż sygnały z B: 74 > IB. Wyobraźmy sobie, że kręcimy film z ekranu oscyloskopu, na którym rejestrujemy wzajemne orientacje impulsów wyjściowych z obu liczników. Następnie przeglądamy ten film klatka po klatce i wyrzucamy z niego te klatki, na których nie wystąpiła koincydencja. W końcu porządkujemy klatki w taki sposób, abyśmy otrzymali ciągły obraz „przepływania” z lewa na prawo impulsu z licznika B od jednej skrajnej pozycji, w której jego prawa krawędź „właśnie” pokryła się z lewą krawędzią impulsu z licznika A, do pozycji, w której impuls z B „właśnie” opuszcza od prawej strony impuls z A (rys. 2.20).
Rys. 2.20. Ilustracja do wyznaczenia prawdopodobieństwa i częstości koincydencji przypadkowych
Ponieważ impulsy zdarzają się losowo, tak „sfabrykowany” film powinien zacho-
wać proporcje czasowe wszystkich możliwych konfiguracji. Spróbujmy teraz wypisać postać funkcji 7T (t), która będzie podawała nam czas koincydencji w zależności od tych
konfiguracji. Za zmienną niezależną tej funkcji przyjmiemy odstęp czasowy £ między prawą krawędzią impulsu z B a lewą krawędzią impulsu z A. Dla wartości ujemnych
60
2. Prawdopodobieństwo i jego rozkład
T(1) |
| I l
I I | I
T
4
—»
TTG
Rys. 2.21. Zależność czasu 7 trwania koincydencji od wzajem-
t
nej orientacji czasowej impulsów
zmiennej niezależnej oba impulsy się nie przekrywają i czas trwania koincydencji jest
równy zeru. Dla czasów 0 < t < Tg przekrywanie wynosi dokładnie t i tyleż samo
czas koincydencji. Dla czasów
Tp < t < TĄ impuls z B jest w pełni przekryty przez
impuls z A, tym samym czas koincydencji jest stały i równy Tp. Natomiast dla czasów IB k, to liczba kwadratów o powierzchni zawartej między
S„ a S$, jest równa n(F(x,) — F(x,)). Aby
uzyskać rozkład g, liczbę tę odniesiemy do całkowitej liczby n kwadratów i przedziału AS = Sp — Sk n (Fam) — Fx)
n(S„-S)
_ F (Sm)
— FOe(S2)) _ F (als + AS)) — F(x(Sz))
Sm — SŁ
me
AS
|
W wyrażeniu stojącym po ostatnim znaku równości rozpoznajemy iloraz różnicowy dla funkcji złożonej. Jeśli zastosujemy naszą standardową procedurę zwiększania liczby n
kwadratów i zawęzania przedziału
AS, to zauważymy,
że w granicy otrzymamy
po-
70
2. Prawdopodobieństwo i jego rozkład
chodną funkcji złożonej F(x(S$; + AS)) — FQx(Sz))
>
dF(x) z=x(5)
dx
n—>oo, AS-—>0
AS
dx
dx
—c dS =
J al
=g(0). S))— gl ) Wąs
Przeprowadźmy to rozumowanie jeszcze raz, ale tym razem całkiem formalnie. Niech będzie dana zmienna losowa x o gęstości f(x) oraz zmienna losowa y, związana z war-
tościami zmiennej losowej x jednoznacznym przekształceniem y = h(x). Jak mamy
znaleźć gęstość g(y) zmiennej losowej y? Ponieważ założyliśmy, że przekształcenie jest jednoznaczne, więc istnieje funkcja odwrotna x = h"'(y). Niech [x;; x ] będzie dowol-
nym przedziałem należącym do zbioru wartości zmiennej losowej x i niech y; = h(x) oraz yą = h(x2). Prawdopodobieństwo, że zmienna losowa x przyjmuje wartości zawarte między x; a x, jest równe całce z gęstości, przy czym twierdzenie o zamianie zmiennych całkowania mówi nam, że
x2
y2
P(X
)
M
N2TRO
l
1 -
[ exp |( —Af z — ——— ( z) e
0
—(t' —Aa2)
0
J
2o?
y”
exp ( ——z)
dt
|d y
—00
Ostatnią całkę możemy obliczyć jedynie numerycznie, a rezultat widzimy na rys. 2.31, gdzie dla ustalenia uwagi przyjęliśmy, że wartość parametru r jest jednostkowa, a parametrowi o nadano trzy wartości podane na wykresie. Grubsza linia ciągła przedstawia pierwotny rozkład (na osi rzędnych odłożono logarytm funkcji gęstości, dlatego niezdeformowany rozkład ma postać linii prostej), nato-
1,0
Tr=l
CZAS
Rys. 2.31. Przykłady randomizacji rozkładu wykładniczego rozkładem Gaussa; T = I
miast linie cieńsze to rozkłady po „pomiarze”. Widzimy, że jeśli precyzja pomiaru
czasu jest porównywalna z wielkością mierzoną, tj. wtedy, gdy T o, zniekształcenie uzyskiwanego spektrum jest bardzo silne. Zauważmy, że w wyniku splotu uzyskaliśmy również wartości ujemne. Przesłanie, jakie przynosi ten rysunek, polega na tym, że splatanie prowadzi zawsze do „wygładzenia rozkładu — różne
ostre struktury lub maksima zostają spłaszczone, minima przysypane, a wszelkie nachyłenia złagodzone. Stopień nasilenia tych efektów jest tym większy, im mniej precyzyjnie wykonujemy pomiary.
n
94 ——
2. Prawdopodobieństwo i jego rozkład
Przykład 2.7.2 Masa neutrina
Rozważmy następny przykład, w którym randomizacja może, potencjalnie, odgrywać bardzo poważną rolę. Jedną z metod pomiaru masy antyneutrina elektro-
nowego jest badanie rozkładu widma energii kinetycznej padu trytu: 'H >
*He + 8 +v,
w spoczynku.
E elektronów $8 z
roz-
Kształt h(E; Eg, m,) tego widma,
przedstawiony grubszą linią (dła m, = 0) na rys. 2.32 określony jest zależnością
(D. H. Perkins, Wstęp do fizyki wysokich energii, PWN, Warszawa 1989)
h(E; Eo, m,) = NF(v)(E, — E)VE/(E— E)?—m,
0 Po) dwóch zdarzeń, pierwszego, oznaczonego przez Pb i symbolizującego rozpad polonu
2.8. Twierdzenie Bayesa
105
218Po na ołów, a następnie tegoż na bizmut, oraz drugiego (Bi >
Po), opisującego rozpad bizmutu na końcowy izo-
top polonu ?*Po. Gdy w wyniku rozpadu izotopu *'*Po pojawi się astat, co określimy zdarzeniem At, układ zdarzeń, z uwagi na występujące tu rozgałęzienie, jest nieco bardziej skomplikowany. Dlatego najpierw wypiszemy po-
stać zdarzenia prowadzącego do powstania izotopu *'%Po
pod warunkiem, że wyruszamy z izotopu astatu. Uzyska-
nie izotopu ?!*Po jest wtedy określone przez alternatywę (At >
Rn) U(At >
Bi +
Po), gdzie pierwsze zdarzenie
opisuje ciąg rozpadów *$At > **Rn —> **Po, a sekwen-
cję (At > Bi % Po) możemy wyrazić przez koniunkcję (At > Bi) N (Bi + Po). Pełną postać zdarzenia opisują-
Thomas Bayes,
1702-1761
cego łańcuch rozpadów: 29Po — *8At — ?%Po otrzymamy po uzupełnieniu o zdarzenie At: At N [(A£ > Teraz już możemy 214pg:
Rn) U((At >
Bi)
(Bi >
Po))].
podać pełną postać zdarzenia opisującego pojawienie
się izotopu
[Pb N (Bi > Po)]UfAtN[(AŁ > Rn) U((At > Bi) A (Bi > Po))]), gdzie dodaliśmy nawiasy zwykłe, kwadratowe i klamrowe dla przejrzystości i uwypuklenia relacji między różnymi zdarzeniami. Poszukiwanie prawdopodobieństw takich złożonych zdarzeń opiera się na wykorzy-
staniu praw (2.11) rozdzielności względem dodawania i mnożenia oraz wielokrotnym
Rys. 2.38. Fragment szeregu promieniotwórczego ilustrujący rozgałęzienie w rozpadzie izotopów polonu, astatu i bizmutu
106
2. Prawdopodobieństwo i jego rozkład
stosowaniu związku (2.9). Wymaga to jednak pewnej ostrożności, gdyż przy ich lekkomyślnym użyciu możemy popełnić błąd następującej natury. Otóż, dla dwóch zdarzeń
niezależnych A oraz B mamy oczywiście spełniony związek P(A M B) = P(A)P(B), ale jeśli A = B, to P(AN A) = P(A), a nie P(ANA) = P(A)P(A), gdyż zdarze-
nie A nie jest niezależne statystycznie od siebie, co wynika ze związku P(A|A) = 1, a ponadto obowiązuje ANA=A.
Z prawa (2.9) otrzymujemy, że prawdopodobieństwo P(*'%Po) wynosi
PCĆ"Po) = P(Pb N (Bi > Po))+P(At M [(At-> Rn) U ((At > Bi) M (Bi > Po)))) — P(PbN (Bi
Po) N At N[(At> Rn) U ((At > Bi) N (Bi > Po))]).
Prawdopodobieństwo skomplikowanego zdarzenia Pb N (Bi >
Po) N AtN[(At >
Rn) U((At >
Bi) N (Bi +
Po))]
jest, w istocie, równe zeru, gdyż zdarzenie to ma postać PbNAtN(. --) i jego elementem jest koniunkcja PbNAŁ, która jest zdarzeniem niemożliwym: polon nie może się rozpaść
jednocześnie na ołów i na astat. A ponieważ ON(. - -) = ,, więc upraszcza to nieco nasz problem. Z niezależności statystycznej zdarzeń Pb oraz (Bi — Po) otrzymujemy
P(PbN (Bi > W zdarzeniu (At >
Po)) = P(Pb)P(Bi
Rn) U ((At >
Bi) N (Bi >
ności dodawania względem mnożenia: (At >
Rn) U((At >
Bi) N (Bi > = ((Af >
Ponieważ zdarzenie (At >
>
Po) = qyp3.
Po)) wykorzystamy prawo rozdziel-
Po)) Rn) U(At
Rn) U (At +
>
Bi)) N ((At >
Rn) U (Bi +
Po)).
Bi) jest zdarzeniem pewnym — astat może
się rozpaść tylko na radon lub na bizmut — więc (A! > Rn) U((At > Bi)
(Bi + Po)) = (At > Rn) U (Bi + Po),
(2.33)
a to prowadzi do At NO ((At > Rn) U((At + Bi) N (Bi + Po))) = At N((At > Rn) U (Bi + Po)). Tu ponownie zastosujemy prawo rozdzielności: At N((At > Rn) U (Bi + Po)) = (At
(At > Rn)) U(At N (Bi > Po)),
aby w końcu przejść do prawdopodobieństwa P(At NO [(At > Rn) U ((At > Bi) N (Bi > Po)))]) = P((At (At > Rn)) U(At M (Bi > Po))) = P(AtN (At > Rn)) + P(At N (Bi
Po)) — P(At£N (At > Rn) N (Bi + Po))
= P1P2 + P1P3 — P1P2P3 = PipP3 + P1P293.
2.8. Twierdzenie Bayesa Po uzupełnieniu tego rezultatu o prawdopodobieństwo otrzymujemy
zdarzenia
Pb i (Bi
107 +
Po),
P("'Po) = q1P3 + P1P3 + P1P243 = P3 + P1P243-
Słuszność tego wzoru możemy łatwo zweryfikować, jeśli uświadomimy sobie, że do
izotopu polonu *!'*Po dotrze wszystko, co nie „ucieknie” nam do izotopu talu *'*T1. Ten ostatni uzyskamy w ułamku q3 ze wszystkiego, co dotrze do izotopu bizmutu **Bi, a do bizmutu dotrze ułamek q; pierwotnej liczby jąder izotopu polonu *'*Po, które rozpadną
się na ołów *'*Pb oraz ułamek q» tych, które rozpadną się na izotop * "At. Razem daje to nam: P(*Po) = 1 — gz(q, + pig»), Co jest równoważnym rezultatem. Wynik tej wprawki w zakresie elementarnych metod rachunku prawdopodobieństwa
wykorzystamy do rozwiązania problemu, do którego potrzebujemy znajomości prawdo-
podobieństwa uzyskania astatu, które odczytujemy bezpośrednio z rysunku: P(7"At) = p, oraz prawdopodobieństwa P (?Po | SAt) uzyskania *'*Po pod warunkiem, że prze-
chodzimy przez astat. Ta ostatnia wielkość dana jest sumą prawdopodobieństw na nieza-
leżnych drogach przez radon i przez bizmut: P (**Po | "SAt) = p + qap3. Wynik ten łatwo odtwarzamy, obliczając prawdopodobieństwo zdarzenia (2.33). Jakie jest jednak
prawdopodobieństwo P (?8At | 7*Po) przejścia przez izotop **At, jeśli mamy już izotop
214Po? W podrozdziale 2.3 pokazaliśmy, że prawdopodobieństwa warunkowe spełniają
równość (2.16)
P(A|B)P(B) = P(A)P(B|A),
skąd znajdujemy, że P
("At
| *4Po)
—
P (At) P ("Po | *"At) _ py(pz + qap3)
P (214Po)
ps + PiPaq3
W przykładzie tym mamy elementarne zastosowanie w najprostszej postaci tzw. twier-
dzenia Bayesa, które teraz zaprezentujemy w ogólnej formie. Przepiszmy równanie łączące prawdopodobieństwa warunkowe w postaci
P(A|B)P(B
P(BIA) = PAIB)E (8) P(A)
(2.34)
i przypomnijmy oczywiste wyrażenie na prawdopodobieństwo P (A) z podrozdziału 2.3: P(A) =P(AN
QQ).
Rozłóżmy zbiór 62 na wykluczające się podzbiory B; (zdarzenie B w (2.34) to po prostu
jedno ze zdarzeń B;)
K9,
=
U
B;,
które mogą warunkować zdarzenie A. Daje to, po wykorzystaniu (2.11), wyrażenie na tzw. formułę pełnego prawdopodobieństwa dla P(A):
P(A) =P (. n (U 3)
=P (U AN »
=). P(A 0 B,) = >. P(A|B,)P(B,).
108
2. Prawdopodobieństwo i jego rozkład
Zastosowanie formuły pełnego prawdopodobieństwa widzieliśmy wcześniej, w przy-
kładzie 2.3.1, a cały podrozdział 2.7 jest oparty na wersji ciągłej tego prawidła.
Formuła na pełne prawdopodobieństwo pozwala zapisać związek (2.34) w formie określanej także mianem twierdzenia Bayesa P(B,|A) =
P(A|B,)P(B,) _ _ P(A|B,)P(B,) P(A) XP(AIB,)P(B,)'
(2.35)
J
gdzie w miejsce dowolnego zdarzenia B wstawiliśmy jedno ze zdarzeń B, (oczywiście niektóre ze zdarzeń B, mogą nie mieć wpływu na zdarzenie A lub nawet je wykluczać). Interpretacja tego twierdzenia jest następująca. Przypuśćmy, że zdarzenie A może
wystąpić pod warunkiem pojawienia się pewnej liczby wzajemnie wykluczających się zdarzeń B,. Każde z tych zdarzeń ma określone prawdopodobieństwo a priori P(B;).
Każde z nich może przyczynić się do wystąpienia zdarzenia A z prawdopodobieństwem
P(A|B;). Twierdzenie Bayesa pozwala „odwrócić” prawdopodobieństwa P(A|B;) i daje
nam warunkowe prawdopodobieństwa a posteriori P (B,|A) rozmaitych zdarzeń B;, gdy wiadomo, że zdarzenie A nastąpiło.
-——
Przykład 2.8.1 Twierdzenie Bayesa — licznik Czerenkowa Rozważmy (za G. D'Agostini, Bayesian Reasoning in HEP — Principles and Applications, CERN Report 99-03) detektor cząstek, np. licznik Czerenkowa, ustawiony
na wiązce składającej się z protonów i pionów, używany do wyzwalania (trygero-
wania) eksperymentu, w którym interesujące oddziaływania to te wywołane przez proton. Niech detektor ten ma efektywność detekcji protonu 95%, co oznacza, że prawdopodobieństwo zainicjowania zbierania danych (trygera T) przez proton wynosi P(T|p) = 0,95. Niech prawdopodobieństwo mylnego zidentyfikowania
pionu jako protonu, a tym samym prawdopodobieństwo uzyskania trygera wynosi: P(T|ax) = 0,02. Wiedząc, że wiązka składa się w 90% z pionów i 10% z protonów, obliczyć prawdopodobieństwo, że tryger zostanie faktycznie spowodowany przez proton Jeśli skorzystamy z twierdzenia Bayesa w formie (2.35), to prawdo-
podobieństwo pojawienia się trygera spowodowanego przez proton dane jest przez
P(T|p)P(p) P(p|T) = P(T|p)P(p ) + P(Tln)P(n)
0,95 - 0,1 0,95-0,1 +0,02-0,9 = 0,84.
Podobnie, prawdopodobieństwo uzyskania trygera w wyniku przejścia pionu wynosi
P(x|T) =
P(T|nx)P
U lm)E (r)
P(T|p)P(p) + P(T|x)P(Gr)
= 0,16.
2.8. Twierdzenie Bayesa
109
Znajdziemy także stosunek liczby prawdziwych trygerów do fałszywych, czyli stosunek sygnału do tła:
P(piD) _ PA|p) PD) 2
P(x|T)
P(Tln)P(n)
Wynik ten odzwierciedla znaną regułę pomiarową: w trudnych warunkach eksperyment musi być bardzo sełektywny. Ponieważ zanieczyszczenie wiązki jest duże — tylko co dziesiąta cząstka wiązki nas interesuje — musimy silnie dyskryminować szum, abyśmy w nim nie „utonęli”.
TI
Związek (2.35) powszechnie przypisywany jest anglikańskiemu pastorowi T. Bayesowi i kojarzony jest z jego pracą wydaną (pośmiertnie) w 1763 r., mimo że on nigdy tego twierdzenia nie napisał. Jako wniosek z (2.34) znany on już był wcześniej J. Bernoulliemu i A. de Moivre, ale P. $. de Laplace pierwszy dostrzegł jego ogólny charakter i potencjał możliwych zastosowań. Przypisanie rezultatu Bayesowi wynika z pewnego przyczynku, jaki ma on na swym o czym szerzej traktuje rozdział 9.
koncie w związku
z zastosowaniem
tej równości,
Postać twierdzenia Bayesa dla ciągłych zmiennych losowych x oraz y zapisujemy
jako
fFOlx) =
g(x|y)h(y)
|
J galy)h() dy Granice całkowania są zaznaczone symbolicznie i powinny uwzględniać zakres zmiennej losowej y, a także własności gęstości warunkowej g(x | y).
KONIECZNOŚĆ
Konieczność to taki sposób istnienia rzeczy, że nie mogą one istnieć inaczej.
|
Rozdział3
Parametry zmiennej losowej
Ze zmienną losową związane są pewne wielkości, zwane parametrami opisowymi
tej
zmiennej, odgrywające niezwykle ważną rolę w statystyce matematycznej. Parametrami zmiennej są momenty oraz tzw. parametry pozycyjne. Są to wielkości, które w zwięzły 1 uproszczony sposób opisują charakter zmiennej.
—-
3.1. Wartość oczekiwana
Rozpoczniemy
od definicji pojęcia wartości oczekiwanej. Jeśli h(k) jest losową funk-
cją dyskretnej zmiennej losowej k o rozkładzie prawdopodobieństwa P;, to wartością oczekiwaną funkcji h(k) nazywamy wielkość (patrz także komentarz po wzorze (3.3)):
€ [h(k)] = (h(k)) = ) h(k)PŹ,
(3.1)
k
gdzie sumowanie przebiega po całym zakresie zmiennej losowej.
-—
Przykład 3.1.1 Wartość oczekiwana — bankier Przypuśćmy,
że gramy
z drugą osobą, bankierem,
w następującą grę: rzucamy
rzetelną kostką sześcienną do gier planszowych 1 jeśli wypadnie parzysta liczba oczek, bankier płaci nam sumę złotych, jaką pokazuje liczba oczek na kostce. Jeśli wypadnie liczba nieparzysta, my płacimy bankierowi sumę złotych wskaza-
nych przez kostkę. Lepiej być bankierem, czy rzucającym kostką? Typowo raz na 6 rzutów zapłacimy bankierowi złotówkę lub 3 złote lub 5 złotych. Podobnie, raz na 6 rzutów dostaniemy 2 złote lub 4 złote lub 6 złotych. Typowo, po sześciu rzutach, rezultat netto takiej zabawy wynosi: 2+4+6—1—3—5 = 3 złote.
Tak więc w pojedynczym rzucie oczekujemy typowo wygranej 0,5 zł. Zauważmy, że to, czego tu dokonaliśmy, to znałezienie wartości oczekiwanej
(m) zmiennej
losowej m = (—1)kk, gdzie k jest zmienną losową o rozkładzie P, = 1/6 6
6
1
1
(m) = ) (-1)'kP, = ) —D'kz = ;(-1+2-3+4-5+6=0,5. Wartość oczekiwana odgrywa rolę stawki, jaką powinniśmy zapłacić bankierowi za przyjemność każdego rzutu kostką, jeśli zabawa ma być uczciwa. n
112
3. Parametry zmiennej losowej
Dla losowej funkcji h(X) ciągłej zmiennej losowej x, podlegającej rozkładowi f(x), wartością oczekiwaną funkcji h(x) nazywamy wielkość +00
€ [hQO] = (h(X)) = J h(x) f(x)dx,
(3.2)
gdzie przez nieskończone granice całkowania umownie zaznaczyliśmy cały zakres zmienności zmiennej losowej x. Przy obu definicjach, (3.1) oraz (3.2), powinniśmy dodać zastrzeżenie: o ile odpowiednia suma bądź całka istnieje. Zastrzeżenie to nie jest bez znaczenia, jako że w dalszej części wykładu poznamy rozkład (podrozdział 5.9), dla którego wartość oczekiwana nie istnieje. Jak zaznaczyliśmy, obok symbolu € [. : -] stosowany jest również symbol (: : -).
——
Przykład 3.1.2 Wartość oczekiwana — rozkład Maxwella Jako przykład znajdziemy wartość oczekiwaną energii kinetycznej
l
EA =
7”
(vż +v,
+ v>)
cząsteczki gazu doskonałego, w którym prędkości opisane są rozkładem Maxwella (przykład 2.5.3)
r
Ux,
v,)
z
Vy,
=
(= ki1 my ) a
MonkT/
PA
(-
-
2kT
(U; + v;v; + u:))
—
00
k+1l
(k) = ) „klogy k=1
ko
n=4, 0
0
a stąd
d(x) =5(1— x)”,
oraz
4
0 SI cov [x x; | s
— i,j=l
0x; I
X;J
(3.20)
Jeśli, dodatkowo, zmienne losowe nie są skorelowane (macierz V [x] jest diagonalna), to
w (3.20) pojawia się dalsze uproszczenie: h
3
WUEDS (37) i=1
0X;
2
vba].
(3.21)
Zauważmy, że dla funkcji f zadanej kombinacją liniową zmiennych x, wyrażenia (3.18) oraz (3.19) sprowadzają się do Ścisłych wyników (3.16) oraz (3.17).
132 -—-
3. Parametry zmiennej losowej
Przykład 3.4.2 Efektywność detektora Właściwym miejscem dla tego przykładu jest podrozdział 5.4, gdyż za chwilę wykorzystamy jedną z własności rozkładu Poissona, jednakże wzgląd dydaktyczny skłania nas do zaprezentowania go w tym miejscu. Otóż, rozważmy wariancję (3.19) szacunkowej liczby N (wzór (2.18))
=
(3.22)
cząstek użytych do wyznaczenia efektywności detektorów. Typowy błąd metodologiczny, jaki popełniany jest w takiej sytuacji, polega na potraktowaniu zmiennych losowych Ny, Ng i Nc jako statystycznie niezależnych i odwołaniu się do związku (3.21). Poprawny wynik uzyskamy, jeśli zauważymy, że do wielkości N, i Ng wnosi
wkład wielkość Ne, co indukuje korelacje nie tylko między N4 oraz Ne i Ng oraz N., ale także między N4 i Ng, a to wymaga zastosowania związku (3.20).
Od komplikacji związanej z istnieniem tych korelacji możemy się uwolnić, jeśli wielkość Na wyrazimy przez zmienną ną, określającą liczbę cząstek zareje-
strowanych tylko przez licznik A i zmienną Nec: NĄ = ną + Ne. Podobnie, dla
zmiennej Ng otrzymujemy Np = ng + Ne, gdzie ng jest zmienną losową, zadającą liczbę cząstek zarejestrowanych tylko przez licznik B. Przy takim wyborze nowych zmiennych losowych szacowana liczba N wynosi _ (na + Nc)(tg + N£) N N = i wyrażona jest przez wielkości statystycznie niezależne. Związek (3.18) prowadzi nas do rezultatu (3.22) na szacowaną liczbę cząstek, natomiast z (3.21) otrzymu-
jemy
NY?
Y[N] = (3) —N
(-
N
Vv [na] + (2) — Pa)
— PB)
YZ
+ )
3N
Y[nzżl + (c)
YŻ
YT[NCJ
|
PAPB
gdzie za wariancje zmiennych losowych ną, ng i Nc podstawiliśmy wartości ocze-
kiwane ny, ng 1 Ne, O czym poucza nas podrozdział 5.4. Zwróćmy uwagę na to, że
wariancja ) [N] jest proporcjonalna do oczekiwanej liczby N przypadków. Natural-
nie w realnym eksperymencie za wielkości N4, Ng, Nc, N, pa 1 pB podstawiamy
oszacowane wartości.
|
Podobne rozumowanie prowadzi nas do wariancji efektywności p, = Nc/NB: Y [pa] = pa
| —
Pa)
która jest tym mniejsza, im większej liczby przypadków użyjemy w eksperymencie.
Analogiczny związek dla efektywności licznika B znajdziemy zamieniając indeksy. Pełne zrozumienie tych wyników działów 5.2 i 5.4.
Czytelnik uzyska po przeczytaniu podroz7
3.4. Momenty funkcji zmiennych łosowych
133
Istnieje interesujące rozszerzenie procedury wyznaczania przybliżonych momentów funkcji zmiennych losowych. Przy jej prezentacji ograniczymy się do jednej funkcji
f(x) jednej zmiennej x. Polega ona na rozwinięciu tej funkcji w szereg Taylora wokół
wartości oczekiwanej u zmiennej x do wyrazów kwadratowych:
0 = fW+
2
qq s X—
1) F> q3 s (C=
HL).
Jeśli obliczymy wartość oczekiwaną funkcji f(x), to otrzymamy
(00)
£=
FM)+
df
—
5 (K— 1) —
l df
+5>
5
l
—
>
u?)
=—
FU)+
l df
———| > 3
YI, Sa
(3.23) a więc dodatkową poprawkę do wartości funkcji w punkcie oczekiwanej wartości zmiennej losowej x. Żeby być konsekwentnym, do obliczenia wariancji wielkości mierzonej pośrednio musimy użyć trzeciego i czwartego momentu centralnego. Jeżeli przez f, f'
oraz f” oznaczymy wartość funkcji, jej pierwszej i drugiej pochodnej w punkcie x = m,
to znajdziemy, że następujące wyrażenie opisuje wariancję zmiennej losowej f:
1
1
Y1=(f- ()) 2 ( (Fo - U) + zf”(x— 1)? — U l = [VB + g67 (6-0) z7l — f7V
l
[x] + gf V
a
+
|
PM FP (= W)
[x] (7 + 2) + ff'D
[x] Y1:
Po ostatnim znaku równości skorzystaliśmy z definicji (3.10) i (3.11) współczynników
asymetrii y, 1 spłaszczenia ». Jeśli rozkład zmiennej losowej x jest symetryczny, to współczynnik asymetrii y; jest równy zeru i wyrażenie to upraszcza się do postaci VI] =/VBI]
1
+ j/7V
[x] (72 + 2),
natomiast gdy mamy do czynienia z rozkładem gaussowskim dla zmiennej x, wtedy, jak to znajdziemy w podrozdziale 5.5.2, związek (5.71), mamy dodatkową relację:
(«= 1)”) =3V*pq, prowadzącą do znikania współczynnika spłaszczenia )», co też ostatecznie daje nam |
VI] = f7VDJ + > FV BA.
(3.24)
Wynik ten może być przydatny wtedy, gdy aproksymacja liniowa dla funkcji f nie jest wystarczająca, a tym samym model małych błędów pomiarowych jest nieadekwatny, na przykład w okolicy ekstremum tej funkcji. W takiej sytuacji wyrażenie (3.21) reprezentowane we wzorze (3.24) przez pierwszy składnik zwraca dla wariancji wielkości złożonej wartość bliską zera (lub dokładnie zero, jeśli pomiar wypadł w punkcie eks-
tremalnym). Stosownej poprawki dostarcza wtedy wyraz zależny od drugiej pochodnej funkcji f.
134
3. Parametry zmiennej losowej
--—- Przykład 3.4.3 Wariancja w ekstremum Chcemy znałeźć dyspersję wartości przekroju czynnego Breita—Wignera pĄŻ o(E)
(3) ryż
= 00
(z) ——
(EK) —
opisanego
wyrażeniem
2
w maksimum, tzn. dla wartości energii równej wartości parametru „w. Obliczamy
pierwszą pochodną, która w punkcie E = „ wynosi zero, oraz drugą pochodną: do dE?
E=u
co pozwala nam, po podstawieniu do (3.24), wyprowadzić wyrażenie na dyspersję
1
[o(E = n)] 2=—— ||f
D[o(E =
44/20,
z
Y[E] =
VIET,
a także, z (3.23), wartość mierzonego przekroju czynnego o(E=n)żo która jest nieco mniejsza Możemy łatwo zrozumieć jest rozmyta, to faktycznie czynnego, lecz przekroju z rozkładem tejże energii.
(! —
7)
,
(3.25)
niż wartość wyrażenia Breita-Wignera w maksimum. ten wynik, jeśli zauważymy, że skoro wartość energii nasz pomiar nie jest pomiarem bezpośrednio przekroju czynnego splecionego, według reguł podrozdziału 2.7, Wskazaliśmy tam, że splatanie to łagodzi zachowanie
randomizowanej wielkości i powoduje obniżenie wartości w maksimum, czego właśnie jesteśmy Świadkami. Jeśli za model funkcji zdolności rozdzielczej eksperymentu przyjmiemy rozkład Gaussa, jak to uczyniliśmy w przykładzie 2.7.3,
to w granicy małych, w porównaniu z parametrem
/', wartości dyspersji tego
rozkładu dokładnie odtworzymy wynik (3.25).
7
—- 3.5. Krzywe regresji Powróćmy do definicji (2.29) rozkładów warunkowych: f,(y|x) oraz f,(x|y), podanych
w podrozdziale 2.7. Obliczymy teraz warunkową wartość oczekiwaną € [y|x] zmiennej
losowej y (patrz przykład 3.2.1):
OO
ebals40= o | yFObody= |o
|
OO
f(x)
Ray
(3.26)
oraz warunkową wartość oczekiwaną € [x|y] zmiennej losowej x Efdy]=m0)=
J xf(x|y)dx= | —00
—00
x
CY
dx,
(3.27)
3.5. Krzywe regresji
135
gdzie obydwie wartości oczekiwane j« oznaczyliśmy jako zależne od drugiej zmiennej,
jako że otrzymujemy pewną funkcję j4, argumentu x oraz „4, argumentu y. Otrzymane
zależności noszą nazwę krzywych regresji pierwszego typu zmiennej losowej x względem y dla u,(y) lub zmiennej y względem x dla uy(x). W ogólności, obie krzywe nie
pokrywają się na płaszczyźnie (x, y). Zauważmy, że nietrywialne wyrażenia uzyskujemy jedynie dla przypadku zależnych statystycznie zmiennych losowych, gdyż w przeciwnym razie, z uwagi na faktoryzację funkcji gęstości, wartości oczekiwane stają się stałymi niezależnymi od wartości drugiej zmiennej. Interesującą cechą krzywych regresji jest to, iż spełniają one następujące równania wariacyjne: 00 00
[eu] -| J G — WÓYYŻfG,y) dxdy= min(u,(7)) —00
—00
na nieznaną funkcję u,(y) oraz analogiczne wyrażenie na nieznaną funkcję Ly(X):
e[0-460)7]= | | 0-4607f0.))dxdy = minu, (w). przy zadanej funkcji rozkładu f(x, y), czego tu nie będziemy dowodzili. Na zakończenie wspomnimy o krzywych regresji drugiego typu. Mamy z nimi do
czynienia, gdy poszukujemy zadanej krzywej y = h(x;a,b,...) zależnej od nieznanych parametrów a, b,..., wymagając spełnienia warunku
J J (y — hlx;a,b,...))* f(x, y) dxdy = min(a,b,.. .)
(3.28)
ze względu na nieznane parametry. Podejście takie zwane jest metodą najmniejszych kwadratów. —-
Przykład 3.5.1
Linia prosta regresji drugiego typu Jako przykład rozważmy krzywą regresji drugiego typu w postaci linii prostej: h(x; a, b) =ax +b.
Po podstawieniu do funkcjonału minimalizującego (3.28) otrzymujemy
£E[v-ax-b)]=E|(Y-1) - au)+ my — au, — b) | 2
— 0y + a*o2 — 2acov [x,y] + (Hy — aux — b)” = oy + a*0j — 2a0x0yp + (Hy — any — b)” = min(a, b).
136
3. Parametry zmiennej losowej
Stosujemy, wykonując różniczkowanie, mum względem a oraz b:
0
zyk 0
35
standardowe metody poszukiwania mini-
[(y — ax — b)” | = 2a0; — 2Gx0yP — ŻLx(Hy — ai, — b) =0,
[vy — ax
b)”] = —2(u, — au, — b) =0.
Rozwiązanie tego układu daje o
a =p—, Ox
b = Hy
o
— a Ax = Hy — p— Hy, Ox
a stąd otrzymujemy poszukiwaną prostą regresji drugiego typu zmiennej y względem zmiennej x: Qy
Y —Hy=p—(x — A). Ox
Podobnie, możemy zmiennej y
znaleźć prostą regresji drugiego typu zmiennej
x względem
h(y; a, b) = ay +b,
która przyjmuje postać dx
X — Ux = P—(Y — Ly) dy
lub też Y) —Hy
=
o
——(
— Ly).
p ox Jak widzimy, obie proste regresji są identyczne tylko wtedy, gdy współczynnik korelacji p jest jednostkowy, czyli wtedy gdy, jak to pokazaliśmy w podrozdziale 3.3
(wyrażenie (3.15)), istnieje funkcyjna, matematyczna zależność o liniowym cha-
rakterze między zmiennymi.
r
-—— 3.6. Parametry pozycyjne Na zakończenie tego rozdziału wspomnimy o parametrach pozycyjnych zmiennej losowej, czyli wartościach szczególnych tej zmiennej. Najprostsza z nich, tzw. moda, zwana
także dominantą, to po prostu wartość najbardziej prawdopodobna, czyli taka wartość zmiennej losowej x, przy której funkcja gęstości bądź rozkład prawdopodobieństwa przyjmuje wartość maksymalną.
Naturalnie nic nie stoi na przeszkodzie, aby rozkład
miał kilka maksimów i w związku z tym kilka wartości lokalnie najbardziej prawdopodobnych.
Oprócz wartości najbardziej prawdopodobnych
zmiennych losowych napotykamy
często wielkości zwane kwantyłami. Kwantylem rzędu p zmiennej losowej x o dystry-
3.6. Parametry pozycyjne
Ff)
A
137
moda |
mediana
I
| | | wartość oczekiwana I
SI
ME tj oo|
Rys. 3.5. Relacja między modą, medianą a wartością ocze-
kiwaną
buancie F (x) nazywamy
|1
OLI
I
1] l
x
>
taką wartość x„, dla której spełniona jest równość
F(xp) = p.
(3.29)
Tym samym poniżej wartości x, zgromadzony jest ułamek p prawdopodobieństwa.
Punkt, który dzieli prawdopodobieństwo na połowę, czyli kwantyl rzędu 0,5, nazywamy medianą. Typową relację między modą, medianą a wartością oczekiwaną, dla
rozkładu asymetrycznego ze współczynnikiem asymetrii większym od zera, prezentuje rys. 3.5. Gdy skośność zmiennej jest przeciwna, relacje między parametrami ulegają odwróceniu. Dla rozkładu symetrycznego moda, mediana i wartość oczekiwana są Sobie równe. Kwantyle odznaczające 25% i 75% prawdopodobieństwa zwane są dolnym i górnym kwartylem. Obok wielkości, określających typową wartość zmiennej losowej, mamy również parametry pozycyjne opisujące rozrzut tej zmiennej. Najczęściej używany jest tzw. odstęp międzykwartylowy, zwany też ćwiartkowym, czyli różnica między górnym i dolnym kwartylem.
NIEZDECYDOWANIE CH SZ Ż ŻA
o ŻA) o c
ECYA
M1
DALA
AŚ
cŻ
Jk
A
A A i
LĄ NI
=
Czarna chusta wokó ł głowy oznacza omroczenie
i zamieszanie umysłu od natłoku my. Śli, które wtrącają go w niezdecydowanie.
Rozdział 4.
Momenty i statystyki pozycyjne z próby
W dotychczasowych rozważaniach rozdziału 2 oraz 3 przyjmowaliśmy, że rozkłady roz-
ważanych zmiennych losowych są nam znane. Takie podejście jest właściwe dla teorii prawdopodobieństwa, kiedy to podążamy metodą dedukcyjną od ogółu do szczegółu. Przy wykonywaniu pomiarów natomiast rozkład prawdopodobieństwa leżący u podstaw
badanej cechy nie jest nam z reguły znany, a celem analizy, w krańcowym przypadku, jest właśnie uzyskanie jego postaci. Zadaniem statystyki matematycznej jest wypraco-
wanie metod osiągnięcia tego celu. Najczęściej
zadowalamy
się (bądź musimy
się zadowolić) pewnymi
częściowymi
informacjami o rozkładzie. Informacje te wydobywamy z próbki i aby były one wiarygodne, próbka nasza musi być losowa. Nie będziemy tu ściśle definiować znaczenia tego słowa, gdyż jego definicja w sensie operacyjnym prawdopodobnie nie istnieje, odwołamy się jedynie do często, zwłaszcza w prasie, używanego synonimu, jakim jest próbka
reprezentatywna i do intuicyjnego zrozumienia tego terminu, który podpowiada nam, że próbka taka jest zminiaturyzowaną formą całej populacji, odzwierciedlającą wszelkie
cechy i relacje, jakie w niej występują. Rozważmy taki przykład. Przypuśćmy, że usiłu-
jemy zmierzyć typowy czas życia cząstki bądź jądra, która porusza się, przyjmijmy dla uproszczenia, z zadaną prędkością. Długość odcinka przebywanego przez badany obiekt przed rozpadem możemy przeliczyć na czas życia. Jeśli zbiór naszych przypadków ma
być reprezentatywny, musimy umieć zmierzyć każdą długość, nawet tę bardzo dużą, co
zakłada nieograniczoną objętość detektora. Tak więc w praktyce zawsze nasza próbka będzie miała w sobie niedomiar przypadków o dużych czasach życia. W takich sytuacjach
mówimy, że próbka jest obciążona. Próbki obciążone to raczej „chleb powszedni” fi-
zyki cząstek i jądra atomowego. Detektory, którymi obudowujemy punkt oddziaływania, nie pokrywają pełnego kąta bryłowego, ich wydajność zależy od liczby przechodzących
przez niego cząstek i parametrów geometrycznych torów, zakres dynamiczny układów elektronicznych jest skończony i niekoniecznie liniowy, metody trygerowania ekspery-
mentu mają swoje ograniczenia — wszystko to prowadzi do gubienia pewnych klas przypadków. Straty te musimy później wykryć i uwzględnić, dobierając odpowiednie metody analizy danych. I jeszcze jeden termin. Próbę nazywamy prostą, gdy wszystkie występujące w niej zmienne losowe są niezależne. Można wyobrazić sobie schematy losowania, w któ-
140
4. Momenty i statystyki pozycyjne z próby
rych prawdopodobieństwo wyboru następnego elementu załeży od wyników uzyskanych wcześniej. Przykładem takiego postępowania jest losowanie, ze skończonego zbioru, elementu, który następnie nie jest zwracany do populacji, co powoduje, że jej własności ulegają zmianie w trakcie pobierania próby. O takich metodach uzyskiwania próby mówimy, że są to schematy losowania zależnego, a uzyskana próba nie jest już wtedy
prosta.
Próbki złożone (nie proste) to raczej rzadkość w fizyce. W typowym eksperymencie analizujemy kolejne przypadki, jakich dostarcza nam akcelerator, źródło lub promienio-
wanie kosmiczne i taki bądź inny charakter jednego przypadku nie ma wpływu na to, co zaobserwujemy w następnym. Nie jest to jednak prawda w odniesieniu do różnego
rodzaju procesów kaskadowych, kiedy to specyficzny przebieg takiego procesu w jednej fazie może istotnie zdeterminować jego charakter w następnych etapach. O ile nie powiemy tego wyraźnie, całość naszych rozważań będzie odnosiła się do prób losowych prostych. Najprostszą informacją o badanej zmiennej, jaką możemy uzyskać z próbki, jest informacja o jej momentach.
—- 4.1. Wartość Średnia — prawo wielkich liczb Zarówno dla dyskretnej, jak i dla ciągłej zmiennej losowej x o wartościach x, w próbce losowej o liczebności n, uzyskanej z tego samego rozkładu charakteryzującego Się Wwar-
tością oczekiwaną (x) = pm, definiujemy średnią arytmetyczną x jako
xX
—
l
R
—
2,7
(4.1) 4.1
i
I oczekujemy od niej, że jest miarą wielkości, której dotyczy pomiar. Dlaczego? Przyj-
rzyjmy się sytuacji ze zmienną dyskretną. Bez zmniejszenia ogólności możemy przyjąć,
że zmienna ta przyjmuje wartości od jedności do nieskończoności. Wszystkie wartości x, z próby możemy uporządkować w niemalejący ciąg, który może przykładowo wyglądać w sposób następujący: 1, 1, 1, 2, 2, 3, 3, 3, 3, 4, 5, 5,... , a następnie pogrupować,
uzyskując krotności n,: n;, = 3, m = 2, nz =4,ną4 =l,... wystąpienia zmiennej k=1,2,3,4, ... Po takim przekształceniu danych wartość średnią możemy zapisać w innej, równoważnej formie
1 1=-1+1+1+2+2+3+3+3+3+4+:-)) 1
l
n
= — (ny + 2m + 3nz + 4n4 +*--) = — | kny =) k— =) kF, n H tI k=l o kal gdzie wprowadziliśmy eksperymentalne częstości F, występowania zmiennych losowych,
a sumowanie przebiega do maksymalnej wartości w próbce. Teraz już widzimy, że przy
zwiększaniu liczebności próbki częstości doświadczalne dążą, na mocy propozycji (2.1),
4.1. Wartość średnia — prawo wielkich liczb
141
do prawdopodobieństw P,, a ostatnia suma dąży do wartości oczekiwanej (3.3): =)
kF,
noo
) KP
=
u
kal Przypatrzmy się teraz, jak ta konstrukcja działa w odniesieniu do zmiennej losowej ciągłej. W tym przypadku nie mamy z góry narzuconych wartości, których krotność moglibyśmy
zliczać. Możemy jednak pogrupować
nych przedziałach
zmiennej:
[xq); xQ)),
dane x; w N arbitralnych, rozłącz-
[X0:xG)+.-.
» LXW); XN+1v), których długość
przyjmiemy, dla uproszczenia, stałą i równą A, a następnie znaleźć liczby nz określające, ile danych trafiło do k-tego przedziału. Wartość Średnią możenoy wtedy zapisać jako N
Xx = dE
= DELE
i=l
) sj
4 =
Z
k=l
gdzie xy. opisuje wybrany punkt z przedziału, np. jego Środek. Zwróćmy uwagę na wprowadzoną gęstość (2.4) doświadczalną f4. Jeśli będziemy zwiększali liczbę n danych doświadczalnych, to tak jak dyskutowaliśmy to w podrozdziale 2.1 przy wprowadzaniu pojęcia gęstości prawdopodobieństwa, będziemy mogli zawężać szerokość przedziału A,
a nasze przybliżenie będzie będzie dążyła, jak w (2.5), nas, że w takim przypadku, zbiega do definicji wartości l
n
coraz to bardziej dokładne, natomiast gęstość empiryczna do funkcji f(x) rozkładu. Analiza matematyczna poucza w granicznej sytuacji nieskończonej próbki, nasza formuła oczekiwanej (3.3): N
%
X = —n 2 Xx; = > x [k] fk A
— 20
J xf J (x) (x)dx = iL
Mamy także drugą relację, wskazującą na Ścisły związek między wartością średnią a oczekiwaną. Jeśli uświadomimy sobie fakt, że w kolejnych replikach tego samego
eksperymentu będziemy otrzymywali różne wartości średniej, a więc średnia traktowana
jako zależna od zmiennych losowych sama jest zmienną losową albo jeszcze lepiej: statystyką — czyli funkcją zmiennych losowych —
co stanowi definicję tego pojęcia,
to możemy zastanowić się nad wartością oczekiwaną tej statystyki: _
=(,2,%)5,2,%0=,2,00=,2,/=« l
n
i=l
14
l
e€)
0x
n
przy czym równość zachodzi dla o, = O, a więc i ten estymator jest gorszy od estymatora danego średnią.
Teraz wróćmy do wielkości (SX):
(S;) =V[x] — Lytz] = A LY[x]. n n Widać, że wybrana przez nas „próbna” vY[x], a jedynie dąży do niego dla n asymptotycznie nieobciążone.
statystyka (4.5) nie spełnia warunku (S>) = oo. O takich estymatorach mówimy, że są
Jeśli na estymator kwadratu odchylenia standardowego
(błędu pojedynczego po-
miaru) wybierzemy wyrażenie
s; = o 2,6—%), i=|
(4.7)
to jego wartość oczekiwana będzie równa pożądanej wariancji zmiennej losowej x. Poprawka wynikająca z dzielenia przez n — 1 zamiast przez n zwana jest poprawką Bessela.
r-—
Przykład 4.2.2 Błąd nowicjusza Autor był kiedyś świadkiem prezentacji wykresu, którego główne cechy odtwo-
rzone są schematycznie na rys. 4.2. Przedstawia on serię dwudziestu kolejnych
i niezależnych pomiarów tej samej wielkości fizycznej. Numer pomiaru znajduje
się na osi odciętych, a wartości odpowiada rzut punktu na oś rzędnych. Błąd każdego indywidualnego pomiaru reprezentowany jest przez połowę pionowego odcinka. Wykres ten jest wart krótkiego omówienia, gdyż z punktu widzenia staty-
styki matematycznej jest on wewnętrznie sprzeczny. Indywidualne punkty pomiarowe charakteryzują się pewnym rozrzutem wokół wartości średniej. Rozrzut ten, w sensie błędu pojedynczego pomiaru, wynosi około jednej jednostki i jest zdecydowanie mniejszy niż zaznaczone przez wykonawcę ramiona” błędu, które można
ocenić na około cztery jednostki. Druga, ekstremalna ewentualność ukazana jest
" 4. Momenty i statystyki pozycyjne z próby
14
T
12
I
wynik pomiaru
16
T
18
10
0
J
0
2
i
l
l
l
l
l
I
l
J
4
6
8
10
12
14
16
18
20
numer pomiaru Rys. 4.2. Przykład niespójnych wyników pomiarowych: błąd indywidualnego rezultatu jest istotnie większy niż rozrzut miedzy wynikami kolejnych pomiarów
20p
15 |
|
wynik pomiaru
148
l
0
2
4
6
8
l
10
l
12
.
14
l
16
l
18
20
numer pomiaru
Rys. 4.3. Przykład niespójnych wyników pomiarowych: błąd indywidualnego rezultatu jest istotnie mniejszy niż rozrzut między wynikami kolejnych pomiarów
na rys. 4.3, kiedy to rozrzut poszczególnych wyników pomiaru jest istotnie większy niż ukazana wartość błędu dła każde go z nich. Wyniki takie powinny nas zawsze skłonić do ponownego rozważenia metod,
jakie zastosowaliśmy do uzyskania wartości centralnych oraz błędów.
r
4.2. Odchylenie standardowe i wyższe momenty
0,25
149
p
0,20
0,15 1030 0,10
0,05
0,00 średnie
dane
980
Rys. 4.4. Porównanie rozkładu wszystkich wyników pomiarów i dziesięciokrotnie mniejszej próbki wartości średnich, każdej obliczonej z dziesięciu pomiarów
Ze związków (4.6) oraz (4.7) otrzymujemy wyrażenie na błąd Średniej arytme-
tycznej (odchylenie standardowe dla średniej arytmetycznej): Sz
2__542 = na
_ 1) =D
= X
—_
x)
z)2
(4.8)
i mówimy o nim, że jest on statystyczny, mając na myśli fakt, że wynika on z zastosowania metod rachunku prawdopodobieństwa i że maleje ze wzrostem liczebności próbki.
Istotnie, wielkość s;, na mocy prawa wielkich liczb, dąży do wartości stałej: wariancji zmiennej losowej, a dzielnik n wykonuje „mokrą robotę”.
Specyfikę tego faktu demonstruje rys. 4.4. Przedstawia on (na pierwszym planie)
rozkład 1600 wyników pomiarów, w hektopaskałach, ciśnienia atmosferycznego (dane własne). Odchylenie standardowe dła tych danych wynosi 5,9 hPa. Drugi plan prezentuje rozkład 160 średnich arytmetycznych dla 160 podpróbek zbudowanych z kolejnych dzie-
siątek indywidualnych pomiarów. Odchylenie standardowe dla średnich wynosi 1,9 hPa i wyśmienicie zgadza się z prawem odwrotnego pierwiastka z liczby pomiarów — nie-
pewność średniej arytmetycznej istotnie maleje jak Ji
Powyższy wynik jest jednocześnie ilustracją dobrze znanej reguły pomiarowej: jeśli chcesz zmniejszyć błąd dwakroć, próbkę musisz powiększyć czterykroć,
a ci, którzy marzą o zmniejszeniu błędu o rząd wielkości, muszą się liczyć z tym, że
ich eksperyment potrwa sto razy dłużej!
150
4. Momenty i statystyki pozycyjne z próby
Wielkość s;, będąc funkcją zmiennych losowych, jest statystyką, a więc będzie pod-
legała pewnemu rozkładowi. Wartość oczekiwana tej statystyki, jak pokazaliśmy, wynosi
Y [x], a jaka jest jej wariancja? Aby ją znałeźć, musimy obliczyć, z definicji, następujące wyrażenie: > > NE 4 >
v[s] = (8 — (5) ) = (s) - V* bq.
Po odpowiednich obliczeniach, których wykonanie (np. z pomocą dodatku B) zalecamy Czytelnikowi, otrzymujemy związek l
n-3
2n
v[s| [5] ==-(a— > (6— (x))”) 00))- - ——)> > wzypy
wy —— M=„YPl(mt=7
4.9 (4.9)
określony przez współczynnik > spłaszczenia (3.11). Rezultat ten dostarcza nam wyrażenie na wariancję kwadratu błędu Średniej arytmetycznej 2
vy [s|= MOZE
—)
=
l
ba (m+
2
2).
Zauważmy, że obie wielkości maleją ze wzrostem liczebności próbki. Estymatorem wielkości Y |sĘ 4 jest kwadrat błędu kwadratuo 2
3
czyli wielkość sS2:
azaazy(e 2,0-3 l
==———— ' Y
n
3) 5
72 „(% (— x)
2) . sz)
Podobny związek, „wzbogacony” o dodatkowy dzielnik n*, otrzymujemy dla kwadratu błędu S> (autor ma nadzieję, że Czytelnik wybaczy mu to „monstrum notacyjne) kwadratu błędu Średniej arytmetycznej. Wyrażenia te mają swoje znaczenie w praktyce, gdyż
określają precyzję, z jaką powinniśmy zapisywać znalezione błędy, a więc i zmierzone
wartości. Istotnie, wiemy, że jeśli u = v*, to s, 2 (v) s,. Gdy za wielkość v podstawimy s,, to znajdziemy, że s.ż = 2s,5,, skąd otrzymujemy wyrażenie na błąd s., błędu s;:
x S$
X 25 Do tego zagadnienia powrócimy w przykładzie 5.5.2, a tu tylko zwrócimy uwagę Czytelnika na fakt, ze wielkość s. jest błędem statystycznym: ze wzrostem próbki maleje
on jak +/n.
W kontekście powyższych rezultatów dotyczących wartości średniej i odchylenia
standardowego z całą mocą należy podkreślić, że:
Jeśli fizyk widzi rezultat pomiaru w postaci: wynik + błąd, to implicite przyjmuje trzy założenia dotyczące tego wyniku: e wartość zmierzona estymuje wartość oczekiwaną, e błąd jest statystyczny i jego kwadrat estymuje wariancję, e rozkład prawdopodobieństwa wielkości mierzonej jest symetryczny. Gdy którykolwiek z tych warunków nie jest spełniony — wynik musi być opatrzony komentarzem!
4.2. Odchylenie standardowe i wyższe momenty
151
--—- Przykład 4.2.3
Korelacja wartości Średniej i odchylenia standardowego Czy wartość Średnia x jest skorelowana z estymatorem wariancji s;? Rachunki z wykorzystaniem wyników dodatku B przekonują nas, iż
(8-W (£-07)|= >E[G= m0]. Dla rozkładu symetrycznego trzeci moment centralny znika i badane zmienne lo-
sowe nie są skorelowane, co jednak w żaden sposób nie przesądza o ich statystycznej niezależności (patrz podrozdział 3.3).
T)
Na marginesie rozważań nad odchyleniem standardowym warto wspomnieć o zagadkowym dzielniku n — 1, jaki pojawia się w definicji tej wielkości. Pozostawimy Czytelnikowi przeprowadzenie dowodu, że jeśli wartość oczekiwana m rozkładu jest dana, to nieobciążony estymator wariancji ma postać zbliżoną do (4.5):
28 G — 2. n
(4.11)
i=l
Pomniejszanie liczby n punktów danych o jedność przy obliczaniu odchylenia standardowego przy nieznanej wartości oczekiwanej jest ceną, jaką płacimy za zastosowanie średniej arytmetycznej. Często w praktyce doświadczalnej stosujemy jeszcze jedną wielkość statystyczną —
błąd względny, zazwyczaj wyrażany w procentach, w literaturze określany też mianem współczynnika zmienności w próbie: s;/x. Pozwala on, za pomocą jednej liczby, opisać statystyczną jakość naszego wyniku pomiarowego. Pod względem formalnym nie jest to dobrze zdefiniowana wielkość statystyczna, jeśli rozkład, z którego pobierana jest próba, dopuszcza zerową wartość średniej arytmetycznej. Jeśli jednak rozkład ten jest określony jedynie dla dodatnich wartości zmiennej losowej lub wartość błędu względnego jest istotnie mniejsza od jedności, wtedy współczynnik zmienności jest asymptotycznie nieobciążonym estymatorem stosunku dyspersji i wartości oczekiwanej
o wariancji
Sz] _ A (4 — V*[X]) — 4AV [X] pa + 40 [X]
v[z]=
dnżusY [x]
+o(n
_
piw
[io
):
Dla próbki z rozkładu Gaussa N (x; a, o) wyrażenie to upraszcza się do postaci
v[>]- = (1+257) +0(wr
NIA
p
)
152
4. Momenty i statystyki pozycyjne z próby
o ile spełniony jest warunek wymagający, aby błąd standardowy średniej arytmetycznej
był istotnie mniejszy od wartości tej średniej. Wtedy bowiem możemy uważać, iż średnia
jest na tyle oddalona od wartości zero, że możliwość przyjęcia przez Średnią tej wartości jest praktycznie wykluczona. Jest to, oczywiście, przybliżenie. Jaką postać mają estymatory wyższych momentów centralnych? Ponieważ nieobciążony estymator trzeciego momentu centralnego 43 to A
Ham
GZDGZBi
0
-%*
więc wyrażenie na estymator współczynnika asymetrii (3.10) moglibyśmy zaproponować jako A
„_ Ma
=
_
n
2
n
X; —X
>(
s
1
Rdz
—
3
).
jednakże dość powszechnie przyjmowana jest następująca definicja: A
Yi =
1
(
Xi
— X
5,
)
j
.
gdzie 5, jest estymatorem (4.5) średniego błędu kwadratowego. Estymator j? jest jednak,
w ogólnym przypadku, tylko asymptotycznie nieobciążony:
(|=
+0 (17?)
h
z wyjątkiem próbki wylosowanej z rozkładu Gaussa, kiedy to wartość oczekiwana estymatora jest dokładnie równa współczynnikowi asymetrii y, (a ten współczynnik dla zmiennej z tego rozkładu wynosi zero). Chociaż dla czwartego momentu centralnego j14 także dysponujemy jego nieobcią-
żonym estymatorem
»
n(n> — 2n + 3)
|
8
HAT n=Dn=25n=3)n270%
_
n — 1)(2n — 3)
RE
;
3) ©
to jednak konwencjonalnie dla estymatora spłaszczenia (3.11) wybieramy definicję w postaci
hm
i=l
S
|
wykorzystującej estymator średniego błędu kwadratowego. Okazuje się jednak, że wiel-
kość ta jest tylko asymptotycznie nieobciążona, nawet gdy próbka pochodzi z rozkładu Gaussa:
(72) = Y+OÓ
(r 3).
Wart odnotowania jest fakt, że dla próbki gaussowskiej obciążenie to jest znane: 6
(7) = "nil
4.3. Średnia ważona
153
a powinniśmy pamiętać, że sam współczynnik », dla zmiennej z tego rozkładu jest równy zeru. Jest rzeczą interesującą, że dla obu estymatorów znana jest Ścisła postać ich wariancji, o ile elementy próby pochodzą z rozkładu Gaussa:
Y[Al=Geparh r a
6(n — 2)
6
(n+1)n +3)
n
[5 | _
24nn—2)n—3)
_ 24
2 (n+D?(n+3)m+5)
n
Dla innych rozkładów wiadomo tylko, że wariancje estymatorów obu współczynników,
przy wykorzystaniu dużych liczebnie prób, zgodne są z asymptotycznymi postaciami wariancji tychże współczynników dla próbki wylosowanej z rozkładu Gaussa, z dokład-
nością do wyrazów rzędu O(n'*/*).
W literaturze funkcjonuje wiele definicji obu współczynników, dlatego Czytelnik nie
powinien się dziwić, jeśli napotka np. podany wcześniej estymator j; oraz
e
n*(n + 1)
ię
ks q=Da=Da=312(
sni) -3 s
(n — 1)?
(n — 2)(n — 3)”
gdzie skomplikowana postać współczynników zależnych od liczebności n próbki wynika z wykorzystania nieobciążonego estymatora czwartego momentu
centralnego i wyma-
gania braku obciążenia dla przypadku próbki gaussowskiej. Zwróćmy uwagę na to, że dla dużych prób oba alternatywne estymatory przyjmują asymptotyczną postać
ZE Aj
I
X;
—
X
hs;
1
(5)
/x-XV
—
ł
i=l
z) (7 n
n
i=l
Yu
3
i=l
—3Z—
(
-43
Sx
|
|
-3=,2(5) 1
/x=XN* ł
— 3,
w zgodzie z tym, czego byśmy oczekiwali.
——
43. Średnia ważona
W praktyce zdarza się, że musimy wyciągać wniosek co do wartości wielkości zmie-
rzonej w różnych eksperymentach, a więc z różnymi dokładnościami. Jeśli np. plano-
walibyśmy eksperyment, w którym znaczenie miałby rozpad 4X(lp) + yT(1s), to na pewno pomocna byłaby dla nas informacja o stosunku rozgałęzień dla tego rozpadu. Istnieją dwa pomiary tej wielkości, a wynoszą one: 0,32 + 0,06 oraz 0,47 -:0,18. Pierwszy z tych pomiarów jest bardziej precyzyjny, więc i jego wartość centralna jest
zapewne bliższa rzeczywistości. Czy w naszych pracach przygotowawczych do eksperymentu mamy użyć tylko wartości 0,32 i zapomnieć o drugim pomiarze? Czujemy,
154
4. Momenty i statystyki pozycyjne z próby
że nie byłoby to właściwe postępowanie — drugi z cytowanych wyników jest rezulta-
tem dobrego, niezależnego doświadczenia i gdybyśmy go odrzucili, to wyzbylibyśmy się
części informacji, co jest przecież karygodne. Jak możemy „uwspólnić” oba rezultaty? Czy poprawne jest obliczenie dla nich średniej? Średnia taka traktuje oba wyniki jako równocenne 1 dostarczyłaby wyniku „w połowie drogi”, podczas gdy pierwszy pomiar,
jako dokładniejszy, powinien silniej odznaczyć się na końcowym rezultacie. Kluczem do rozstrzygnięcia tych wątpliwości są właśnie niepewności obu pomia-
rów. Widzimy, że niepewność drugiego pomiaru jest 3 razy większa niż pierwszego.
Gdyby drugi eksperyment został powtórzony jeszcze 8 razy, to sądzimy, że w każdej z takich powtórek otrzymywalibyśmy wynik o zbliżonej niepewności, każda około 0, 18,
a wtedy sami moglibyśmy uśrednić te 9 rezultatów i otrzymać jedną liczbę obarczoną błędem porównywalnym z błędem pierwszego eksperymentu. Dopiero w odniesieniu do takich danych moglibyśmy zastosować średnią arytmetyczną. Widzimy, że pomiar pierwszej grupy fizyków jest wart dziewięciu pomiarom drugiej grupy. Wniosek ten pozwala zaproponować następującą metodę obliczania średniej: Stosunek t k rozgalęzień łęzień
=
l
9
149 - ———0,32 140 —— 0,47 +
= 0,335.
W formule tej współczynniki 1/10 oraz 9/10 ważą poszczególne pomiary, przechylając szalę w stronę tego, który jest dokładniejszy. Sformalizujmy to rozważanie. Niech będzie dana seria nieskorelowanych zmiennych losowych x,, każda o identycznej wartości oczekiwanej „ i różnych dyspersjach o;.
Utwórzmy statystykę:
x, = >. W;X;,
(4.12)
i=l
zwaną Średnią ważoną, gdzie wielkości w, to stałe, pozbawione własności statystycz-
nych, współczynniki. Aby średnia ważona x,„ była nieobciążonym estymatorem wielkości
U:
(Xw) = ) w,
i=l
(x) = > wia
i=l
=u) w,
i=l
= HL,
musimy zażądać, by >.
i=l
W;
=
l.
Wariancja o; średniej ważonej x„, na mocy ogólnych reguł — patrz (3.9) — WynoSI:
04 = V[Xw] = ) wło?. i=l
Czytelnik winien zwrócić uwagę na to, że powyższy wzór jest słuszny tylko wtedy, gdy
wielkości w; są pewnymi stałymi, a nie statystykami. W przeciwnym razie we wzorze tym musiałyby się pojawić (przynajmniej) momenty wielkości w,;. Współczynniki w,
4.3. Średnia ważona
155
znajdziemy, domagając się minimalnej wariancji n
)
i=l
przy warunku wiążącym
w?o/EO = min(w
Yu,
ly:::,
)
Wn),
=|l.
i=l
Jest to typowe zagadnienie minimalizacyjne z więzami, które rozwiązujemy metodą współczynników Lagrange'a, tzn. warunek więzów przepisujemy w postaci uj-1=0
i=l
i dodajemy go do minimalizowanej funkcji po pomnożeniu przez dowolną stałą A (współczynnik Lagrange a):
YU użo? +2 (> e ) = min(wi, i=l
i=l
10.)
wymagając minimum ze względu na wielkości w, oraz stałą A. Stosownie różniczkując, otrzymujemy układ równań 2w,0j +A=(0,
i
=1,2,...,A,
uj-1=0 i=l
do rozwiązania względem w; oraz A. Rozwiązując pierwsze z nich względem w; A Wi
=
———
20;
i podstawiając do drugiego, otrzymujemy wyrażenie na współczynnik Lagrange'a A:
l
A=—2
s
„2 i=l Si 1 a stąd na, jak to nazywamy, wagi w; l Ww;
0;
=
n
|
i=l
ł
233 Wariancja uzyskanej średniej ważonej wynosi: OŻ
=
Y [xw]
—
n
156
4. Momenty i statystyki pozycyjne z próby
Zauważmy,
że oba ostatnie wzory redukują się do wyrażeń
arytmetycznej
identyczne.
właściwych
dla średniej
(4.1) i jej wariancji (4.6), gdy dyspersje o, wszystkich zmiennych są
Ponownie zwróćmy uwagę na to, że powyższe wyprowadzenie jest słuszne, gdy niepewności wielkości mierzonych x; są zadane przez dyspersje, a nie przez ich estymatory.
W konsekwencji kwadrat błędu średniej ważonej jest stały w sensie statystycznym, a nie
statystyką podlegającą fluktuacjom. Jest to, naturalnie, idealna sytuacja, jakiej z reguły
nie spotykamy przy analizie statystycznej danych, dlatego zawsze powinniśmy pamiętać o przybliżonym charakterze naszych wyników, jeśli obliczając błąd średniej ważonej, stosujemy estymaty niepewności wielkości wchodzących do średniej.
Czy dysponując próbką wielkości x; oraz ich dyspersjami o;, możemy zaproponować
statystykę, która byłaby estymatorem wariancji średniej ważonej? Okazuje się, że tak.
Wielkość s, zdefiniowana jako
-
S„
=
M
)
l
(n — 1) ) — i=l i
2
,
=
Oi
ma wymagane własności — jej wartość oczekiwana dana jest wariancją średniej ważonej:
€|s,|=VXl =
l
w
Uzasadnienie tych związków Czytelnik znajdzie w przykładzie 5.6.2. W nomenklaturze statystycznej wielkość s„ nosi nazwę błędu zewnętrznego, w przeciwieństwie do
wielkości o„, o której mówi się, że jest błędem wewnętrznym. Błąd zewnętrzny ma swoje zastosowania przy badaniu zgodności danych. Jeśli oba
błędy różnią się znacznie od siebie, mamy prawo podejrzewać, że dane nie są spójne,
a ilustrację takiego braku spójności widzieliśmy w przykładzie 4.2.2. Sama rozbieżność między wartościami obu błędów nie rozstrzyga między nierzetelnością wartości zmie-
rzonych lub też ich błędów. Jednakże wartość oczekiwana sumy kwadratów w definicji statystyki s„ jest równa liczbie składników tej sumy pomniejszonej o jedność:
> (* 5) co pozwala na wyizolowanie
=n-l,
z całej próbki tych danych,
dla których przyczynki do
sumy są istotnie różne od jedności, a następnie poddanie krytycznej analizie metody pomiarowej, która doprowadziła do problematycznych wyników. Jest to, naturalnie, procedura wysoce arbitralna. Rezultaty w fizyce nie są osiągane metodami demokratycz-
nego majoryzowania mniejszości przez większość i historia fizyki dostarcza nam w tym zakresie wielu pouczających przykładów. Alternatywna procedura, stosowana przy określaniu „najlepszych” danych o własnościach cząstek elementarnych prezentowana we
wspomnianym we wstępie kompendium Review of Particle Properties, zakłada jednolite
4,4, Kowariancja
157
traktowanie wszystkich danych doświadczalnych. Polega ona na takim przeskalowaniu dyspersji o; wszystkich wielkości mierzonych przez wspólny czynnik korekcyjny S$, aby równość )
=p
1.
SO;
i=|
BT da a po a
w
spełniona była Ściśle. Nie zmienia to wartości średniej ważonej, powiększa jednak jej błąd wewnętrzny o, o tenże czynnik $ 1 prowadzi do zastąpienia błędu wewnętrznego
błędem zewnętrznym.
PEPE
TYTUSA JETTA R
AMY
ZĘ
i
—- 44. Kowariancja Niech będzie dana próbka prosta zbudowana z par (x;, y;) wylosowanych z łącznego roz-
kładu f(x, y). Spróbujmy znaleźć wyrażenie na estymator kowariancji. Z definicji (3.12) wiemy, że
cov [xy] =(6— AUY — 4,)) = Gy) — ty.
Rozważmy wielkość
R la = 2,6 _5y © (y; — V)
(4.13)
i obliczmy wartość oczekiwaną tej statystyki:
n(R)= (> b —X)(y; — ») = > % — MW -K- u) (y; - 4 — G — 20) i=l
i=l
=) (6-406; — 49) -n(8— 406 — 1) i=l
l
n
=n(6- LOU — y)) — 7 3 (GG — LOG; — 1%) i,j=l
1
ń
n
= ncov |x, y| — H (le
— LJ; — wy) + ).
iźij=1
=
(6 — ŁOly; — 29)
= nCOV [x. y| — Cov [x y | = (n — l)cov [x y] .
Jeśli definicję (4.13) nieco zmodyfikujemy i wybierzemy statystykę R w postaci R =
l n-l
SCEZYWEZY i=l
(4.14)
to jej wartość oczekiwana będzie równa kowariancji, czyli będzie to jej nieobciążony estymator. Wariancja tak zdefiniowanego estymatora ma postać l y[R] => l (6-176 — 47) + „a—pYBMAYP]-
nan 2 KRE -G=Dp"
158
4. Momenty i statystyki pozycyjne z próby
Z kolei nieobciążony estymator tej wariancji, czyli kwadrat błędu kowariancji z próbki, to
n
2 Sp
R
n* >) (% — X?ly, — 1) + (m — 3)(n — 1)sżs; — (n* — n* — 3)R i=l
=
(n — 2)(n* — 3n2 + 2n — 3)
Analogicznie do estymatora (4.10) wariancji kwadratu podać w przemawiającej do wyobraźni postaci 2 SR
1
—
IK
—————— G-DGZ3
i=l
dyspersji, wynik ten możemy
-
-09,-Y)-R). (6-36, -5) -R)
2
Powyższe rezultaty wykorzystamy do obliczenia estymaty R kowariancji dla profiłu
wiązki, o którym mówiliśmy w rozdziale 1: R = —(720 + 120) mm”. Jak widzimy, wielkość ta jest różna od zera i potwierdza wskazywany wcześniej statystyczny związek między zmiennymi losowymi. Oczywiście, z uwagi na normalizację, jaką wnoszą szerokości rozkładów zmiennych x oraz y, ciekawsze byłoby znalezienie współczynnika
korelacji r z próby, który możemy zdefiniować, za K. Pearsonem i w analogii do (3.14), w następujący sposób: R Y
=
SxSy
,
(4.15)
(otrzymując, nota bene, wartość r = O, 32) i jego błędu. Jednakże patrząc na tę definicję, uświadamiamy sobie łatwo, że nie mamy szans na wykazanie, że wartość oczekiwana tej wielkości jest w istocie równa współczynnikowi (3.14) korelacji p, nie mówiąc już o wykonaniu naszego programu poszukiwania estymatora błędu tej wielkości, tzn. zna-
lezienia wariancji wielkości
r, odgadnięcia estymatora tej wariancji
i w końcu sprawdzenia jego poprawności. Nasze metody matematyczne
są zbyt skromne i nie dają możliwości realizacji takiego zadania. Moglibyśmy jednak pokusić się o realizację innego zadania. Zakładając,
Karl Pearson,
NE
-
2
.
-.
>
4
4
że istotnie współczynnik (4.15) korelacji r z próby ma coś wspólnego
1857-1936
z parametrem p, możemy obliczyć wielkość 2 r= R SZSY
i znaleźć błąd tej wielkości, stosując przybliżone metody z podrozdziału 3.4 na błąd wielkości złożonej:
>
ar*
2
ar2
ar? ar
+2 (i
ar? 2
5
*
dr> dr?
2
21
dr70r?
0
gsz 0" [R”, s] + GRE Bzz” [R”, s/] + sz ds” [5;. s,] | -
Od razu jednak widać,
że jest to zaiste tytaniczna praca, jako że wymagałaby
znalezienia z próby trzech zaznaczonych
we wzorze
kowariancji, jak również
błędu
4.4. Kowariancja
159
wielkości R”. W tej sytuacji największą szansę praktycznego powodzenia ma program,
w którym współczynnik korelacji r z próby potraktujemy jako funkcję Żn zmiennych x, OrTAZ y;: r=r(Xxj,Xo,...; Xp, VI; Y2; ---, Yn) 1 Zastosujemy przybliżony wzór (3.20):
Sr
—
2
=
>
dr )
((
ą
S
2
+ |
(3, )
S$;
—
dy;
2 ”
Or dr
0X;
)
R
2——
+
,
dy;
gdzie oczywiście wszystkie błędy wielkości x; oraz y;, a także kowariancję R między owymi zmiennymi przyjęliśmy za identyczne (niezależne od indeksu i). Przy tym podejściu otrzymujemy: r = —0,32 + 0,05. Winniśmy jednak pamiętać, że tak otrzymane
wyniki mają jedynie przybliżony charakter. Więcej na temat własności i rozkładu współczynnika korelacji będziemy mieli do powiedzenia w podrozdziale 5.5.4 oraz w przykładzie 5.7.3. 34
8r 7 6] 5
|
3] >|
-
Pra
4|-
0
Log
7
am
TT
EPE
.
a
y
.
p
zx
* o
hm
l
/
©
/
.
h
8
/
/
ś
.
lp. 0 -
7
Le”
>
A
a
noz e
mt
2
Z
ET
3
J
4
|
5
l
6
J
x 7
Rys. 4.5. Przykład trzech układów punktów o tej samej wartości współczynnika korelacji
W podrozdziale 3.3, dyskutując własności współczynnika korelacji, wspomnieliśmy o jego słabości w relacji do rozkładów, w których dane nie wydają się układać w miarę regularną, owalną „chmurę”. Rysunek 4.5 podaje przykład trzech układów punktów, dła których współczynnik korelacji r z próby jest dokładnie taki sam i wynosi 0,840.
Tylko dla tych pierwszych gotowi bylibyśmy zaakceptować wartość współczynnika r jako naturalną miarę zależności statystycznej między współrzędnymi (x, y) określającymi
położenie pełnych punktów na płaszczyźnie. W pozostałych dwóch przypadkach miarę tę
uznalibyśmy za sztuczną i absolutnie nieadekwatną do opisu istniejącej współzależności. Istotnie, dodatkowa linia łącząca puste kwadraty i romby interpoluje postać funkcyjną
y x x”, w której potęga a została stosownie (dla każdego ze zbiorów) dobrana, aby uzyskać tę samą wartość współczynnika korelacji.
Skoro poznaliśmy pojęcia estymatora wariancji i kowariancji, wróćmy teraz na chwilę do zagadnienia momentów funkcji losowych, omawianego w podrozdziale 3.4. Pokazaliśmy tam, jak w wyniku linearyzacji badanych zależności funkcyjnych, otrzy-
mujemy macierz kowartancji, zadającą korelacje między zmiennymi losowymi określonymi przez te funkcje. Jeśli do tak uzyskanego wyrażenia na macierz kowariancji
160
4. Momenty i statystyki pozycyjne z próby
podstawimy wartości uzyskane w doświadczeniu, a więc estymaty wariancji poszczególnych pierwotnych zmiennych
losowych i estymaty kowariancji dla indywidualnych
par tych zmiennych, to otrzymujemy macierz V(f) liczb: estymat wariancji 1 kowariancji nowych zmiennych losowych. Macierz tę, jak również macierz V (x) estymatorów wariancji 1 kowariancji pierwotnych wielkości mierzonych, powszechnie określa się dość mylącym terminem macierz błędów, który sugeruje, że wśród jej elementów, np. na jej diagonali, występują błędy. Powinniśmy pamiętać, że w rzeczywistości mamy tam ich kwadraty, a poza przekątną estymaty kowariancji. Niestety, statystyka matematyczna nie wypracowała bardziej precyzyjnego specjalnego terminu dla takiego obiektu.
—— 4.5. Efekty systematyczne i ich błędy Zacznijmy od przykładu, który pozwoli wyjaśnić pewne pojęcia. Wyobraźmy sobie, że strumień © cząstek kierujemy na stacjonarną tarczę o liczbie p centrów rozpraszających na jednostkę objętości, a pod pewnym kątem © umieszczamy detektor pokrywający kąt
bryłowy AŚ2. Jeśli w wyniku eksperymentu zaobserwujemy w detektorze n cząstek, to
różniczkowy przekrój czynny wynosi:
Ao
n
AQ
pó
Wynik ten będzie bez wątpienia poprawny, o ile poprawne będą wszystkie trzy występujące w nim wielkości: n, p oraz ©, ale przy pomiarze każdej z nich czyha na eksperymentatora wiełe zasadzek. Jeśli detektor nie jest w pełni efektywny, liczba n rozproszonych cząstek będzie zaniżona. Jeśli pomiar prowadzimy w Środowisku, w którym występuje dodatkowe tło, np. od promieniowania kosmicznego lub od wiązki, która „Ociera się” o elementy systemu jej transportu i nie zadbamy o eliminację tego tła, liczba zarejestrowanych rozproszeń będzie zawyżona. Gdy wiązka cząstek nie składa się tylko 1 wyłącznie z tych cząstek, które nas interesują, lecz ma domieszkę innych, będziemy mierzyć przekrój czynny uśredniony względem składu wiązki cząstek pocisków.
Jeśli gęstość masową tarczy wzięliśmy z tablic, to nie znajdziemy rzetelnej wartości liczby p centrów rozpraszających, gdyż nasza próbka może być zanieczyszczona innymi substancjami. Prowadzi to również do pewnego średniego, tym razem względem składu chemicznego tarczy, przekroju czynnego. Jeśli tarcza jest zbyt gruba, to ryzykujemy
wielokrotnym rozpraszaniem w jej wnętrzu, a tym samym staje pod znakiem zapytania poprawność wyznaczenia kąta © rozproszenia. Do podobnego efektu doprowadzi także
duży przekrój poprzeczny wiązki — różne elementy tarczy będą wtedy widziane przez licznik pod różnymi kątami bryłowymi. Podobnie zadziała brak precyzyjnej wiedzy na temat całej geometrii układu: pozycji detektora względem tarczy, odległości, rozmiarów 1 orientacji jego części czynnej. Strumień © mierzymy za pomocą specjalnych przyrządów umieszczonych w pewnym punkcie wiązki przed tarczą. Jeśli na ostatnim odcinku, do tarczy tracimy część wiązki, to faktyczny strumień cząstek padających na tarczę jest mniejszy, niż sądzimy.
4.5. Efekty systematyczne i ich błędy
161
Wszystkie wyliczone wyżej efekty, a kompetentny fizyk łatwo uzupełni tę listę wie-
loma innymi, mogą obrócić wniwecz cały nasz pomtar. Cechą tych efektów jest to, że
działają one metodycznie i z zaciętością — globalnie psują nasze zabiegi i trud oraz fałszują wynik. Jeśli nie zwrócimy na nie uwagi, nie sprawdzimy i ewentualnie nie
poprawimy naszego pomiaru, to popełnimy błąd. Nie jest to jednak ten typ błędu, o któ-
rym mówiliśmy do tej pory. Nie jest to także błąd systematyczny, z którym to terminem Czytelnik zapewne się już spotkał. Będzie do błąd sztuki, określany niekiedy mianem grubego, dyskwalifikujący pomiar.
Aby precyzyjniej wyjaśnić, co będziemy rozumieli przez pojęcie błędu systematycznego, rozpatrzmy, jako przykład, niektóre elementy analizy danych doświadczalnych, jaką spotyka się w fizyce wysokich energii. Celem tej analizy (G. Grzelak, Production
of Intermediate W and Z Bosons in ep Interactions at 300 GeV Centre of Mass Energy,
rozprawa doktorska, Instytut Fizyki Doświadczalnej, Uniwersytet Warszawski 1998) jest pomiar całkowitego przekroju czynnego na produkcję bozonów pośredniczących W oraz Z. W pomiarze takim całkowity przekrój czynny o określony jest związkiem O
n
_
Nef
_€L L
gdzie n jest liczbą znalezionych przypadków (bozonu W lub też Z), € jest wydajnoŚcią, z jaką te przypadki znaleziono, natomiast £ jest Świetlnością akceleratora wy-
korzystującego wiązki przeciwbieżne. Zauważmy,
że zarówno wielkość e, jak i £ są
swoistymi czynnikami skalującymi, pozwalającymi przeliczyć jedną wielkość fizyczną na drugą: faktyczną liczbę n przypadków na liczbę neg przypadków, jaka byłaby znaleziona, gdyby metoda poszukiwania tych przypadków była doskonała oraz, w drugim
kroku, tak poprawioną liczbę przypadków na przekrój czynny. Jest to jeden z fundamen-
talnych schematów metodologicznych, analogiczny do kalibracji przyrządu. Przyjrzyjmy się niebezpieczeństwom, jakie on stwarza w odniesieniu do rezultatu pomiaru takim przyrządem.
Surowy odczyt, np. liczba neg przypadków, ale także wskazanie strzałki woltomierza 1 amperomierza przy pomiarze oporu, musimy „poprawić”, dzieląc go (w omawianym przypadku) przez czynnik £, który także otrzymujemy w wyniku pomiaru wzorca tymże samym przyrządem, bądź w innym układzie doświadczalnym,
w sposób nieza-
leżny (w najprostszym przypadku) od pomiaru właściwego. Ponieważ szansa uzyskania dokładnie „prawdziwej” wartości czynnika skalującego jest równa zeru (przynajmniej w przypadku zmiennej ciągłej), musimy liczyć się z tym, że wszystkie następne pomiary
wykorzystujące tenże czynnik będą systematycznie zaniżone bądź zawyżone, w zależności od tego, co podarował nam los w trakcie procedury kalibracyjnej. Właśnie z uwagi na ów ustalony i uporczywy, zawsze działający w jedną stronę (przynajmniej do czasu następnej kalibracji) charakter obciążenia, mówimy o efektach systematycznych i ich wpływie na wynik pomiarowy. Najtrudniejszym aspektem analizy efektów statystycznych jest uświadomienie sobie faktu ich istnienia. Nieomal zawsze działają one w ukryciu i nie objawiają się w żaden spektakularny sposób — wynik końcowy wydaje się rozsądny, choć nie jest wart kartki papieru, na którym go zapisaliśmy. Pomocną w ich wykryciu może być tylko daleko
162
4, Momenty i statystyki pozycyjne z próby
posunięta rezerwa:
nie ufaj niczemu
(nawet liczbie x —
czy na pewno powinna się
ona pojawić w tym miejscu?), podejrzewaj metodę (ktoś kiedyś powiedział Ci, że to
można tak zrobić — zweryfikuj to teraz!) i sprzęt (zapewnij sobie narzędzia do monitorowania na bieżąco), sprawdzaj 1 kontroluj (zadbaj o nadmiar informacji — prowadzi to
w pierwszym momencie do zamieszania, ale pozwała za to na niezałeżne sprawdzenia 1 na kontrolę sprawdzeń), bądź krytyczny (lub tez pozwól się skrytykować kolegom).
Zmierz wszystko co się da i najłepiej jak się da. Jeśli dysponujesz jakąś wielkością:
masą cząstki lub stanu rezonansowego, poziomem energetycznym, czasem Życia, nawet
dystansem geometrycznym, który możesz zlustrować za pomocą swojej aparatury — zrób to! Niektóre z metod analizy statystycznej danych, np. metoda najmniejszych kwadratów, dostarczają narzędzi kontrolnych — skorzystaj z nich! Gdy już błyśnie Ci w głowie myśl, że Twój współczynnik kalibracyjny może być źródłem efektu systematycznego, sprawdź
go, tj. zgadnij, oszacuj, zmierz i znajdź niepewność jego wartości.
Tak długo, jak kwadrat niepewności sę ma charakter estymaty wariancji wielkości L£, możemy mówić o przyczynku s„. do całkowitej niepewności standardowej s, zmierzonego przekroju czynnego od niepewności standardowej sz czynnika kalibrującego.
Jeśli spełnione są założenia modelu małych błędów pomiarowych (podrozdział 3.4),
przyczynek ten możemy znaleźć z zależności
i mieć uzasadnioną nadzieję, że przedstawia on sobą estymator dyspersji przekroju czynnego przy ustalonej wartości liczby neg. Ponieważ błąd s,. szacuje nasze wyobrażenie o wpływie „mglistej” wartości czynnika systematycznego, utarło się określanie tego błędu jako błędu systematycznego, choć lepiej jest mówić o niepewności systematycznej i oba terminy są skrótem myśłowym dla sformułowania: niepewność oceny wpływu efektu systematycznego. W ten sposób dochodzimy do definicji tego, co będziemy okre-
ślali błędem systematycznym: każda wielkość, która ma wpływ na końcowy wynik, a którą znamy ze skończoną dokładnością, jest źródłem niepewności tego wyniku, a nie-
pewność ta to właśnie błąd systematyczny.
Dalsze przyczynki do pełnego błędu przekroju czynnego są oczywiście związane
z niepewnością pomiarową liczby neg. Tu jednakże sytuacja jest z reguły nieporównanie
bardziej skomplikowana. Jej jedyny łatwy fragment, to ten związany z obserwowaną liczbą n przypadków. Ocena s, niepewności tej wielkości nałeży (w najprostszym przypadku)
do klasycznych
zagadnień
statystyki matematycznej
i wyprzedzając
nieco tok
wykładu, odwołamy się do rezultatów punktu 5.4.2, gdzie pokazujemy, że niepewność
ta ma, jak mówimy, charakter poissonowski i zadana jest pierwiastkiem kwadratowym
z obserwowanej liczby przypadków: s, = „/n. Dlatego też Sp Z
l nn Sh 5 z — el ELn
© „4n
= —— Z Sat.
Zwróćmy uwagę na to, że przyczynek ten maleje wraz ze wzrostem liczby przypadków w próbce i dlatego błąd ten, jak wskazywaliśmy na to w podrozdziale 4.2, jest błędem
4.5. Efekty systematyczne i ich błędy
163
statystycznym. Jest to jego kluczowa cecha, odróżniająca go od błędu systematycznego,
dlatego błąd systematyczny niekiedy zdefiniujemy jako ten, którego nie możemy się wyzbyć metodą wzbogacania próbki. Jego pomniejszenie wymaga niezależnych prac,
rozprasza nasz wysiłek i odciąga od zasadniczego kierunku naszego badania. Jeśli inte-
resuje nas przekrój czynny na produkcję bozonu Z, a bozon ten identyfikujemy w naszym eksperymencie przez wykrywanie powstającego z niego elektronu, to liczbę wszystkich bozonów otrzymamy, dzieląc liczbę zidentyfikowanych przez stosowną częstość rozpadu.
Jeśli częstość tę znamy z błędem, to żadna liczba bozonów zidentyfikowanych w kanale elektronowym nie uwolni nas od niepewności co do liczby wszystkich wyprodukowanych (a nie tylko zarejestrowanych) bozonów w eksperymencie. Wyzbyć się jej (pomniejszyć jej udział) możemy tylko na jednej drodze: musimy wymyślić, zbudować i przeprowadzić niezależny eksperyment poświęcony temu zagadnieniu. Zasadnicza część analizy niepewności wartości zmierzonego przekroju czynnego ukryta jest w ocenie niepewności s. wydajności e detekcji. Typowo, ocenę efektywnoŚci detektora uzyskujemy na drodze identycznej analizy dwóch próbek: tej znalezionej
w doświadczeniu oraz sztucznej próbki, nazwijmy ją „teoretyczną”, uzyskanej na drodze
symulacji numerycznej, zwanej metodą Monte Carlo, wykorzystującej całość teoretycz-
nej wiedzy o przebiegu zjawiska fizycznego i o detektorze. Na obie nakładamy identyczne cięcia geometryczne i kinematyczne, których zadaniem jest oczyszczenie próbki z przypadków pochodzących z procesów zanieczyszczających dane doświadczalne, jak np. oddziaływania na resztkowym gazie w rurze akceleracyjnej lub ściankach tejże rury, oddziaływania nie zachodzące w nominalnym obszarze czasowym i przestrzennym przecięcia wiązek, oddziaływania wywołane przez halo wiązki itp. Potem przychodzi kolej na cięcia, zadaniem których jest amplifikacja poszukiwanego
sygnału (autor nie musi
w tym miejscu mówić, że rasowego fizyka, jego kunszt i umiejętności, można poznać właśnie po tym, jak dobiera te cięcia). Cięcia te zawsze pozbawiają nas części inte-
resujących przypadków, a to, co z nich zostaje, odniesione do pierwotnej ich liczby, definiuje wydajność e. Wydajność tę możemy określić niezależnie, badając, jaki ułamek interesujących przypadków pozostał w próbce teoretycznej, o której mamy pełną
wiedzę. Ponieważ omówienie metody Monte Carlo „odroczyliśmy” do jednego z dalszych rozdziałów,
wyjaśnijmy
powyższe
rozważania
przykładem
analitycznym,
czyli
wykonajmy na papierze dokładnie to, co symulacja numeryczna realizuje w pamięci komputera.
Przypuśćmy, że liczbę ney interesujących przypadków próbujemy ocenić, konstruując doświadczalny odpowiednik teoretycznego rozkładu f(E;a), na przykład energii
E mierzonej w kalorymetrze. Postać funkcyjna rozkładu jest nam znana, jak również wiadoma jest nam, z wcześniejszych analiz, wartość występującego w nim parametru a, jednak z dokładnością s,. Nasz kalorymetr, jak każdy, charakteryzuje się pewnym szumem, tzn. w stanie jałowym, bez padających na niego cząstek, mierzy on określoną, różną od zera, energię. Dlatego też musimy wprowadzić cięcie odrzucające przypadki o energii E mniejszej niż pewna wartość E. Potrzeba takiego cięcia może również wynikać z charakteru danych, jakimi dysponujemy, np. układ wyzwalający eksperymentu miał w sobie celowo zakodowany warunek usuwający przypadki o zbyt niskiej energii
164
4. Momenty i statystyki pozycyjne z próby
zdeponowanej w kalorymetrze. W rezultacie do dalszej analizy przechodzi część €
€=P(E>E)= J f(E';a)dE' E wszystkich danych. Skoro parametr a znany jest nam z określoną precyzją, jego niepewność dostarczy przyczynku s„, do całkowitego błędu w przekroju czynnym
"a
n
|0€
2_£
|a|
=
o
— €
0€E
da
Sa.
W realnej sytuacji wskazana całka ma najczęściej charakter wielowymiarowy i uwzględnia zarówno wielkości kinematyczne, jak i geometryczne, a 1 parametrów a jest od kilku do kilkunastu, jeśli nie kilkudziesięciu. Ich typowymi przykładami są wspomniane wcze-
Śniej stosunki rozgałęzień, ale możemy je także znaleźć w modelowych uproszczeniach
występujących w konstrukcji funkcji f. Wtedy wystarczy, że dokonamy podstawienia 0€
[5
>
—
0€
i j=1
da;
dE
2, 330V [ai a;] z: dj
o ile znana jest nam pełna postać macierzy błędów. Zwróćmy
uwagę, że przyczynek
ten, niezależnie od liczby „występującnych” parametrów, tak jak przyczynek s„., opisuje niepewność efektu systematycznego 1 niepewność ta jest równa pierwiastkowi kwadra-
towemu z estymaty wariancji. Przed chwilą wspomnieliśmy, że błąd systematyczny cechuje się niezależnością od
wielkości zgromadzonej próbki danych. Jest to jego dość niezła charakterystyka, jednak nie do końca prawdziwa. Niekiedy wpływ systematycznych czynników możemy doprecyzować, dysponując bogatszą próbką. Przykładem takiego błędu systematycznego jest właśnie omawiana wyżej efektywność detektora. Przystępując do eksperymentu, znamy ją z różnego rodzaju testów i symulacji, ale jej dokładny charakter poznajemy w trakcie eksperymentu, kiedy to zbieramy coraz to większą liczbę przypadków
w różnych
obszarach detektora i budujemy coraz to bardziej precyzyjną „„mapę” jego własności. W jaki sposób, dysponując trzema przyczynkami: sę,, Sa, OraZ s, do niepewności
przekroju czynnego, mamy wyrazić pełną i ostateczną niepewność zmierzonej wartości? Powszechnie utarła się pewna podstawowa i dobra praktyka. Polega ona na tym, że w żadnym przypadku nie łączymy błędu statystycznego s,, z innymi błędami — ten błąd cytujemy na zasadzie równorzędności z samym wynikiem pomiaru. Jest on miarą jakości statystycznej naszej pracy badawczej, a następcom pozwoli uzyskać wgląd w to, co ich czeka, gdy podejmą ten sam wysiłek w warunkach próbki o zbliżonej liczebności i przy
wykorzystaniu analogicznej metody analizy. A co mamy zrobić z błędami systematycz-
nymi? Przede wszystkim powinniśmy je wszystkie wyliczyć i podać każdy oddzielnie
oraz opisać procedury, które posłużyły do ich otrzymania. W szczególności, z owego
opisu powinno jasno wynikać, jaka jest interpretacja statystyczna kazdego z nich. Wtedy, gdy mają one charakter odchyleń standardowych, możemy złożyć je w kwadratach (o ile są statystycznie niezałeżne, w przeciwnym razie czeka nas jeszcze trud określenia pełnej
4.5. Efekty systematyczne i ich błędy
165
macierzy błędów) do ostatecznej niepewności systematycznej: —
Ssyst =
2
2
V Soc + Sza”
a końcowy wynik pomiaru zapisujemy w formie: o
=
n
EL
-E Sstat E Ssyst*
W ten sposób naszym sukcesorom wskażemy
główny kierunek natarcia: powiększanie
próbki, gdy błąd statystyczny jest większy niż systematyczny, czy też poprawa procedur i ulepszanie detektora, gdy relacja między błędami jest odwrotna.
Problem efektów systematycznych ulega zaostrzeniu, jeśli funkcja f(E; a) ma kon-
kurentów. W opisywanej analizie Grzelaka rolę takiej funkcji odgrywają różne generatory Monte Carlo, a także algorytmy definiujące obiekt zwany dżetem, na który nie ma precyzyjnego przepisu, oraz, w mniejszym stopniu, procedury identyfikacji elektronu. Zastosowanie
różnych podejść
prowadzi
do różnych
ostatecznych
wartości
przekroju
czynnego. Nawet gdybyśmy określili całą tabelkę możliwych wariantów analizy danych
i określili przekrój czynny dla wszystkich możliwych algorytmów i procedur, to takiego
zbioru rezultatów nie moglibyśmy rozpatrywać pod względem własności statystycznych: nie istnieje przecież przestrzeń zdarzeń elementarnych, np. produkcji bozonu W, realizowana przez różne opisy teoretyczne, a co za tym idzie, uzyskana kolekcja liczb
nie stanowiłaby reprezentatywnej próbki wyników pomiaru, której własności możemy
podsumować, obliczając wartość średnią arytmetyczną i jej błąd. Szczególnie jaskrawo problem ten pojawia się w momencie, gdy przechodzimy do bardziej szczegółowych
pytań fizycznych, takich jak np. ekskluzywna produkcja pewnych typów cząstek. Tu, za-
zwyczaj, opisy teoretyczne, poszukując rozmaitych rozwiązań, stają się coraz to bardziej
modelowe, pojawiają się nie wyspecyfikowane parametry, a różnice w przewidywaniach mogą być znaczne. Oznacza to, niestety, że nie mamy żadnego narzędzia, które pozwoliłoby nam na probabilistyczną interpretację takich wyników i inkorporowanie ich rozrzutu w osta-
teczną formę niepewności. Rozwiązanie takiego problemu wykracza poza dziedzinę statystyki matematycznej. Jedynym wyjściem w takiej sytuacji jest polepszenie jakości i ilości danych — zadaniem fizyka doświadczalnika staje się wtedy rozstrzygnięcie między konkurującymi modelami. Do momentu nim to nastąpi, możemy jedynie podać wynik uzyskany w ramach jednego modelu (najbardziej popularnego, konwencjonalnie stosowanego, możliwie najlepiej zdającego sprawę z sytuacji) oraz zapoznać Czytelnika
z alternatywnymi rozwiązaniami. Do podobnej klasy problemów możemy zaliczyć wpływ wspomnianych wyżej cięć. To, że wybraliśmy taką bądź inną ich wartość, ma najczęściej dobre umotywowanie fizyczne. Naszym obowiązkiem jest jednak zbadanie ich wpływu na ostateczny rezultat. Gdy zmiany wartości mierzonej, indukowane przez cięcia nawet radykalnie różne od nominalnych, mają charakter fluktuacji mieszczących się w granicach błędów statystycznych, wtedy zasadniczo nie powinniśmy się martwić. Możemy zastosować procedurę polegającą na przesunięciu cięcia o jedno standardowe odchylenie, a uzyskaną zmianę
166
4, Momenty i statystyki pozycyjne z próby
w wielkości końcowej potraktować jako jej odchylenie standardowe. Jeśli jednak zmiany
w cięciach prowadzą do drastycznych różnic i nadają końcowemu wynikowi ewidentny trend, to wskazują one na głębszą trudność, wymagającą zrozumienia, a do tego po-
trzebujemy niezależnych i szczegółowych badań — wszak rozbieżności te mogą być sygnałem następnych efektów systematycznych. Nie byłoby dorzeczne postępowanie,
w którym ustalilibyśmy „rozsądny” zakres zmian w wyborze cięcia, a przedział sys-
tematycznych zmian wartości końcowej określilibyśmy mianem błędu systematycznego 1 usiłowali dodać go w kwadratach do pozostałych, gdyż sugerowałoby to standardową interpretację statystyczną tego przedziału w terminach estymaty dyspersji. Statystyka matematyczna nie dysponuje aparatem formalnym, pozwalającym przetłumaczyć znaczenie terminu „rozsądny przedział” na prawdopodobieństwo skojarzone z takim przedziałem.
Często, wykorzystując wyniki doświadczalne, dla których podany jest zarówno błąd
statystyczny, jak i systematyczny, stajemy wobec dylematu: jak potraktować błąd syste-
matyczny — czy wolno nam go złożyć, w kwadratach, z błędem statystycznym? W przekonaniu autora procedura taka jest dopuszczalna, ale tylko w jednym przypadku: gdy zarówno niepewność statystyczna, jak i systematyczna mają charakter odchyleń standardowych (gdyby to przekonanie zakwestionować, to autor nie byłby w stanie zrozumieć,
jak dysponując niepewnością pomiaru napięcia i natężenia prądu płynącego przez opornik, można znaleźć błąd oporu). Wynika to wprost i bezpośrednio z samej definicji wariancji. Z reguły, zadając takie pytanie, mamy
również na myśli pewne konkretne
zastosowanie dla tak złożonej w jedną całość niepewności. Chcemy ją wykorzystać w różnego rodzaju procedurach statystycznych omawianych w dalszych rozdziałach, np. wyznaczyć przedział ufności, zastosować w dopasowaniu lub użyć w teście statystycz-
nym. Z każdą z tych operacji wiąże się pewna interpretacja probabilistyczna jej konkluzji.
Musimy pamiętać, że tę interpretację uzyskamy jedynie wtedy, gdy rygorystycznie potraktujemy wymogi tychże procedur, a im skrupulatniej się do nich zastosujemy, tym bardziej wiarygodne będą nasze wnioski.
Rozważymy teraz jedną z konsekwencji efektów systematycznych. W świetle wyników podrozdziału 3.4 jest ona dość oczywista, ale warta jest uświadomienia Czytelnikowi raz jeszcze. Przypuśćmy,
że badamy
np. różniczkowy przekrój czynny lub też
całkowity przekrój czynny przy różnych wartościach energii i surowe liczby x;, znane z dokładnością s;, mnożymy przez wspólny i niezależny statystycznie od wielkości x,
czynnik korekcyjny f, znany z błędem sę. W ten sposób otrzymujemy skorygowane wartości przekroju 6;,. Dla uproszenia przyjmiemy także, że pierwotne zmienne losowe x; nie są skorelowane: ) [x;, xx] = V[x;]6;4. Proste obliczenie, odwołujące się do definicji (3.12) kowariancji, mówi nam, że wszystkie rezultaty ó, będą skorelowane, a ich
macierz kowariancji przyjmie postać
v [6,6] = bbaf) — (x) af) = bog) (F) — 60) ba) (F)? = ba, x] + 66) 60) (FF + 7) — 6a) ba) (F)? = (x) (6) V[f] + V Ba, xx] (7 [F] + (2) = (x) 2%) Vf] £Vba] (PFF] + (07) 8x Z zs? + s; (sę + f7) Bmw.
4.6. Statystyki pozycyjne z próby
167
Powinniśmy o tym wyniku pamiętać, gdy np. do naszych danych doświadczalnych będziemy dopasowywać model teoretyczny.
Fizyka fachowca można poznać po tym, jak wykonuje pomiar, a fizyka artystę —
jak znajduje i eliminuje, a jeśli nie może wyeliminować, to ocenia efekty systematyczne, poprawia je, a swoją resztkową niepewność przemienia na niepewność wartości wyniku pomiaru. Niestety, nie mamy równoległej do statystyki matematycznej dziedziny wiedzy o nazwie: systematyka matematyczna, czyli rachunek błędów systematycznych, która pozwo-
liłaby zautomatyzować procedury poszukiwania efektów systematycznych 1 poskromić ich wpływ. Efekty te są specyficzne dla każdego problemu fizycznego, który chcemy
rozwiązać, dlatego możemy tylko być czujni, podejrzewać i poszukiwać ich oraz uczyć
się na doświadczeniach własnych i innych. Powoduje to, że słuszniejsze byłoby zalicze-
nie umiejętności wykrywania i usuwania takich efektów do sztuki doświadczalnej, a nie
do rzemiosła.
—— 4,6. Statystyki pozycyjne z próby W podrozdziale 3.6 wprowadziliśmy pojęcie parametrów pozycyjnych, w tym mody i kwantyli, opisujących własności zmiennej. Podamy teraz parę uwag dotyczących estymowania tych wielkości, czyli statystyk pozycyjnych. Moda rozkładu znajduje dość powszechne zastosowania w analizie danych z ekspe-
rymentów fizycznych. Bardzo często potrzebujemy znać położenie maksimum rozkładu
takiego jak masa niezmiennicza układu cząstek, co daje nam pozycję rezonansu lub roz-
kład energii kwantów gamma powstałych w wyniku specyficznej reakcji jądrowej, jako że kwanty te niosą wiadomość o poziomach wzbudzonych jądra. Jednak w sytuacjach takich nie próbujemy mody wyznaczyć bezpośrednio z danych. Zazwyczaj dopasowu-
jemy do danych model teoretyczny i z parametrów tego modelu pochodzi znajomość tej wielkości.
Bezpośrednie oceny wartości mody z rozkładu spotykamy najczęściej w badaniach
medycznych,
biologicznych,
socjologicznych
i ekonomicznych,
gdzie
często
trudno
o wiarygodny model badanej cechy. Stosowanie mody ma wtedy pewne ograniczenia: wymaga ona dość bogatych próbek danych, tak aby histogram tych wielkości był stabilny
względem zmian szerokości przedziału i jego lewego skraju. Także dokładność, z jaką
możemy określić modę, jest ograniczona do szerokości przedziału histogramowania, dlatego też większą użyteczność ma to pojęcie w zastosowaniu do rozkładów teoretycznych. Operacyjny sposób określenia pozycji dominanty wynika z rys. 4.6, gdzie schematycznie przedstawiony jest histogram oraz dwie krzyżujące się linie. Odcięta punktu ich przecięcia podaje położenie mody z próby. Wyznaczenie kwantyla (3.29) rzędu p z próby wymaga wprowadzenia pojęcia empirycznej dystrybuanty, na którą to natknęliśmy się już w przykładzie 2.5.1. Niech będzie dana próbka x;, (i = 1,2,...,n) zrozkładu f(x) o dystrybuancie F(x), uporządkowana
niemalejąco: x; < X
£ **: < x,. O tak uporządkowanej
próbce mówimy,
że tworzy
168
4. Momenty i statystyki pozycyjne z próby
moda
Rys. 4.6. Operacyjna definicja mody w danych doświadczalnych
ona szereg pozycyjny. W przypadku próbki bardzo dużej, teoretycznie nieskończonej,
dystrybuanta F(x) określa ułamek danych w próbce, dla których zachodzi x < x. Jeśli wprowadzimy n + 1 przedziałów: (00; x,), [X1; x2), [X2; X3),..., [Xn-q; x„), [X,; 00), to
możemy oczekiwać, że na każdy przedział przypada ułamek 1/(n + 1) całości próby, tzn. 1/(n + 1) jest estymatą F(x,), 2/(n + 1) jest estymatą F (2x2) itd., aż do n/(n + 1), co jest estymatą F(x„). W ten sposób określiliśmy empiryczną dystrybuantę w postaci schodkowej funkcji, wzrastającej o 1/(n + 1) w punkcie, w którym mamy daną doświad-
czalną:
0
X
X > X.
LO r 0,9 | 0,8 0,7 0,6 0,5 F 0,4 | 0,3 | 0,2 | 0,1 F 0,0
0
i
I
0,5
1
x
1,5
Rys. 4.7. Definicja dystrybuanty empirycznej i procedura wyznaczania kwantyla x, rzędu p
2
4.6. Statystyki pozycyjne z próby
169
Kwantyle z próby znajdujemy z wykresu takiej funkcji metodą interpolacji liniowej, tak jak to zademonstrowane jest na rys. 4.7. Kwantyle, które są wielokrotnością 1/10 to tzw. decyle, a wielokrotności 1/100 to centyle, zwane też percentylami. Naturalnie, mamy także kwartyle, czyli kwantyle rzędu 0,25 (dolny) i 0,75 (górny). Przy okazji: co
autorzy artykułu (Rzeczpospolita, 28 listopada 1996), mieli na myśli, używając terminu kwintyl (tak — kwintyl, a nie: kwantyl) w następującym cytacie? We wspomnianych
latach rewolucji Reaganowskiej (...), aż 86% tych, którzy w roku 1979 znajdowali się na dole drabiny dochodów, tj. wśród 20% pracowników o najniższych dochodach, po-
wędrowało w górę tejże drabiny do czterech wyższych kwintyli, z czego 15% dotarło aż do najwyższej grupy, tj. 20% pracowników o najwyższych dochodach. Sposób wprowadzenia empirycznej dystrybuanty skłania nas do wniosku, że kwan-
tyle g, badanego rozkładu, określone równaniem:
F(q,) = i zmierzone wielkości x;, powinny
i
El
łączyć się związkiem liniowym, jeśli poprawnie
odgadniemy postać dystrybuanty F. Własność ta jest wykorzystywana w tzw. wykresach kwantyli, zwanych także wykresami prawdopodobieństwa, które pozwalają dokonać
wstępnego sprawdzenia słuszności założeń o kształcie rozkładu. Przykłady zastosowania tych diagramów przedstawiamy w rozdziale omawiającym rozkład wykładniczy (przykład 5.3.4 oraz 5.3.7) 1 Gaussa (podrozdział 5.5.2), a także w przykładzie 7.3.1. Musimy
pamiętać, że wykresy takie są jednak tylko jakościowym narzędziem, choć nieocenionym w zagadnieniach z małą liczbą danych, gdyż jak wspomnieliśmy, dystrybuanta empiryczna podlega fłuktuacjom i tym lepiej oddaje rzeczywisty kształt rozkładu, im badana próbka jest liczniejsza. Z kolei, dysponując liczną próbą, możemy
uruchomić
regularne narzędzia analizy rozkładu, o których będziemy mówili w rozdziale 8. Wspomnimy także o pewnej interesującej własności, jaką ma kwantyl rzędu 0,5, czyli mediana, a której to własności pozbawiona jest wartość oczekiwana, a tym samym
1 średnia arytmetyczna. Otóż, jeśli interesuje nas pewna funkcja h(x) zmiennej losowej x o rozkładzie f(x), to wartość oczekiwana (h(x)) tej funkcji nie jest, w ogólności —
z wyjątkiem funkcji liniowej — funkcją h((x)) wartości oczekiwanej. Tak więc pierwszy
moment rozkładu charakteryzuje się brakiem zgodności pod względem operacji zamiany zmiennej. Spójrzmy na kwantyl x, dowolnego rzędu p. Określony jest on warunkiem p = F(x,), gdzie F jest dystrybuantą rozkładu f(x). Jeśli dokonamy zamiany zmiennej: x
y=h(x),
przy założeniu, że funkcja h jest ściśle monotoniczna, to Xp
h(xp)
p
p= J fQ)dx = J FaG)zydy = | s) dy, d
a więc kwantyl dowolnego rzędu zadany jest, po zamianie zmiennej, wartością funkcji przekształcającej h(x) do nowej zmiennej y. Dlatego też stosowanie mediany jako miary
centralności rozkładu, zamiast wartości oczekiwanej, jest w pewnym eleganckie pod względem matematycznym.
sensie bardziej
170
4. Momenty i statystyki pozycyjne z próby
Jest jeszcze drugi aspekt czyniący z mediany atrakcyjne narzędzie opisu własności zmiennej losowej. Otóż wartość oczekiwaną możemy zdefiniować jako taką liczbę a, która prowadzi do najmniejszej wartości wariancji obliczanej jako drugi moment rozkładu względem tej liczby:
E|x-a)”]=€[x'] — ać [x] +a*” =mina)
+
a=€fx].
Jeśli rozkład jest wysoce asymetryczny, wtedy jedno ze skrzydeł rozkładu ma istotny wpływ na jego środek ciężkości, który będzie silnie przesunięty w kierunku tego skrzydła. Już Laplace zaproponował, że lepsza w takim przypadku może być wielkość m,
która minimalizuje absolutne odchylenie, a nie jego kwadrat:
(x- mj) = J z-mfajd=| m-»)fodx+ | G-m/fG)dx = mintm) Wykonując różniczkowanie: d
OO
m
zzm K-m=
| rod
|
rodr=o. m
znajdujemy, że poszukiwana wielkość to mediana. Ponieważ mediana mierzy odstępstwa zmiennej losowej na skali liniowej, a nie kwadratowej, jak wartość oczekiwana, tym samym powinna ona być mniej czuła na asymetrię rozkładu. Jeśli wyobrazimy sobie wieś, w której mamy wielu biedaków i jednego bogacza, to mediana rozkładu zasobności mieszkańców wierniej będzie oddawać poziom ubóstwa ludności tej wsi, wskazując na jednego z biedaków, niż średnia arytmetyczna, która przesunięta będzie w stronę dochodów bogacza. Taką cechę estymatora nazywamy solidnością (ang. robustness) względem fluktuacji na krańcach rozkładu. Podobną własnością charakteryzują się także kwantyle rozkładu, w szczególności wspomniany w podrozdziale 3.6 odstęp międzykwartylowy
jako miara rozproszenia zmiennej losowej.
Rozkład g(x1, x, ... ,x„) statystyk pozycyjnych dla próbki prostej łatwo znajdziemy, jeśli tylko uświadomimy sobie, że stanowią one uporządkowany ciąg zmiennych losowych x, £< X £::: < x,, każda o tym samym rozkładzie f(x): 803,
X,
...
X)
—
n! f(x)
f 02)
.:
J (Xn);
X]
kn;,.
k=l
Pozostaje nam wypisanie wyrażenia na liczbę sposobów, na jaki możemy rozłożyć n, cząstek między g, stanów. Zadanie sprowadza się do określenia liczby sposobów wyboru krotności n,, spośród g, możliwości. Tę wielkość już znamy. Wynosi ona gi! ————-No! R!
.. np!
co daje natychmiast liczbę sposobów rozkładu n = n, +m+-::+n, między m stanów
Zadanie nasze sprowadza względem liczb n,
się do znalezienia maksimum m
In2
=
3 i=l
logarytmu tej wielkości
P
(s:
—
mn) k=l
=
cząstek
max(n;),
5,1. Elementy analizy kombinatorycznej
przy dodatkowych warunkach wiążących na degenerację, całkowitą liczbę cząstek i całkowitą energię: p
Ś: —
m
)
Nik»
n=
m
>
k=0
n, =
i=l
p
)
)
i=|l
k=l
m
knik,
E =
)
p
m
E,h; =
i=l
>
)
i=l
k=l
kE;nik.
Wyrażenie, które mamy maksymalizować, nie zależy do liczb n, cząstek, lecz od krotności n;;. Nie jest to utrudnienie matematyczne, gdyż prosta suma wielkości
n,. daje nam liczby n,, więc maksimum względem krotności da nam jednocześnie maksimum względem liczb cząstek. Ponieważ wielkości n,, nie są niezależne, zastosujemy metodę współczynników Lagrange'a, dodając do logarytmu prawdopodobieństwa termodynamicznego trzy dodatkowe człony wyrażające równania wię-
zów pomnożone przez nieznane liczby (mnożniki Lagrange a): 3
(
(>
i=l
m
)
—
Sin
k=l
0)
+
a
(>
k=l
+ B (>
YU ken
— e)
+Y
(>
k=l
i=l
I
i=l
Knyy
—
)
k=l
Nik — .)
= max(n;4, ©, B, Y).
k=0
Różniczkując powyższe wyrażenie względem n.,,, otrzymujemy, po wykorzystaniu wzoru Stirlinga (5.5), uwzgłędniającego jedynie wyraz wiodący w wykładniku, równania na nieznane krotności:
in Ś +ak+fBke,ty=0, Nik
a stąd ny = giexply + k(a + Be,)] = g,e explk(a + Be;)] = gie” x*, gdzie
x =exp(a + Pe,). Współczynnik y Lagrangea możemy wyeliminować przez powiązanie stopnia de-
generacji z sumą krotności, Pp
p
kz=Q)
k= 0
l
xP!
=) ,nx=ge ) x =gie (l+x+...+ x”) = gie —
—
>
e
A
co daje nam Nik = Si
lx
,
— qprl zpet
b)
po wykorzystaniu szkolnego wzoru na sumę szeregu geometrycznego ltxtx”
X
+...
+x
naa
_1=x"
=
l-x
1-x
—..l xP
189
190
5. Niektóre rozkłady
Liczbę n, cząstek w i-tym stanie uzyskamy, wykonując sumowanie
ź
nh, = 2*ra
s
(
l-x
= Sisi zp
2
l
p+ 1
"lep(e+fe)-1
expllP+1)(a+8e)]-1)
)
Występującą w tym wyrażeniu sumę znajdujemy następującą metodą: yw
=a)
ji =w)
dt
D_*
—= «z
(7). 1-—x
Nieznane wielkości © oraz 8 wyznaczane są z całkowitej liczby cząstek i cał-
kowitej energii układu. Pozostawimy Czytelnikowi wykazanie, że dla p = 1 odzyskujemy z tego wyrażenia rozkład Fermiego-Diraca, a dla p * 00 rozkład Bosego—Einsteina. Parastatystyki pozostają do chwili obecnej „zabawką” teoretyczną, gdyż nie odkryto w przyrodzie cząstek, które by im podlegały. n
Rys. 5.1. Cztery typy relacji kombinatorycznych
Podsumowanie czterech pojęć: wariacji i kombinacji w wersji z powtórzeniami i bez, podane jest na rys 5.1. Umieszczona jest na nim także, uzupełniająca naszą krzyżową klasyfikację, dotychczas niewyspecyfikowana możliwość określająca liczbę k-wyrazowych kombinacji z powtórzeniami ze zbioru n-elementowego:
(0%
)=(
n
0,
—Kk-1
)=
JJ
Gr
nik-1D!
Spotkaliśmy to pojęcie w przykładzie 5.1.5, gdy rozważaliśmy liczbę rozwiązań równania n; + na +*:: + ny =n dla nieujemnych i całkowitych liczb n;.
5.2, Rozkład dwu- i wiełomianowy —-
191
Przykład 5.1.6
Kombinacje z powtórzeniami Pojęcie kombinacji z powtórzeniami jest bardzo rzadko spotykane w fizyce, dłatego zilustrujemy je klasycznym zagadnieniem z kostkami do gry. Jeśli rzucamy
dwie różne, np. różnych kolorów, kostki, to liczba możliwych konfiguracji wyników określona jest przez iloczyn liczb konfiguracji każdej z kostek i zadaje 36 możliwości, przy czym układ: szóstka na kostce czerwonej i jedynka na kostce zielonej, to różny układ od układu: szóstka na kostce zielonej i jedynka na kostce czerwonej. Jeśli jednak kostki zechcemy potraktować jako identyczne, to oba układy są nierozróżnialne, a to oznacza jedynie
(30,) k-1
L (6, 6—1
_ (2) 5
ZY
różnych możliwości określonych przez następujące pary:
(1,1), 2, 1), G, 1), (4, 1), 6, 1), (6, 1), (2, 2), (3, 2), (4, 2), 6, 2), (6, 2), (3, 3), (4, 3), (5, 3), (6, 3), (4, 4), 5,4), (6, 4), (5, 5), (6, 5), (6, 6). Podobnie, rzucając pięć monet, otrzymamy sześć następujących układów: OOO0OQ, ROOOO, RROOO, RRROO, RRRRO, RRRRR. TI
—— 5.2. Rozkład dwu- i wielomianowy 5.2.1. Rozkład dwumianowy — wyprowadzenie Rozważmy następujący przykład. Stańmy przed lokalnym sklepem i notujmy płeć wchodzącej osoby. Mamy jedynie dwie możliwości: wchodząca osoba może być kobietą bądź mężczyzną. Autor zebrał próbkę 1000 takich przypadków, w której znalazły się 683 kobiety i 317 mężczyzn. Podzielmy teraz tę próbkę chronologicznie na kolejne dziesiątki,
będziemy mieli wtedy n = 100 podpróbek, a w każdej z nich liczba k kobiet może być a priori równa 0, 1,2,...,10. Znajdźmy następnie liczby ny określające liczby podpróbek, w których były właśnie takie liczby kobiet. Możemy teraz określić częstości pojawiania się k kobiet w dziesięcioosobowych grupach wchodzących do sklepu. Wykres tych częstości przedstawiony jest na rys. 5.2 w postaci szarego histogramu. Tak wykonane doświadczenie nie różni się w swej treści formalnej od doświadczalnego badania sposobów rozpadu jądra promieniotwórczego bizmutu, o którym wspomi-
namy w rozdziale 1. W jednym i w drugim przypadku dokonujemy serii niezależnych
192
5. Niektóre rozkłady
częstość
0,35 0,30
-
0,25
|-
0,20
|
0,15
+
0.10 0,05
-
0,00
L
i
0
1
e_1
2
e
3
4 5 6 liczba k kobiet
7
Rys. 5.2. Rozkład liczby kobiet w grupach dziesięcioosobowych w próbce 1000 osób
prób, oczekując w każdej z nich jednej z dwu możliwości: kobiety lub mężczyzny, lub, jak w przypadku rozpadu promieniotwórczego: przemiany a lub 8. Przyjmijmy na potrzeby dałszej dyskusji, że w każdym z takich dychotomicznych doświadczeń pierwsza możliwość reprezentuje sukces, a druga porażkę w danym losowaniu. Sukcesowi możemy przypisać umownie wartość jeden, a porażce wartość zero. W każdej z prób mamy pewne (w naszym przypadku nieznane, co nie zmienia istoty
rzeczy) prawdopodobieństwo p sukcesu i prawdopodobieństwo porażki q = Możemy podać zwarte wyrażenie na tak zadany rozkład prawdopodobieństwa:
PDD=pP'l-p)'*, zwany dwupunktowym
dla
1 — p.
k=Ql,
lub Bernoulliego, o momentach
€[k]l=p
oraz
Y[k] = p(l — p).
Jeśli w kolejnych losowaniach prawdopodobieństwo
p
nie ulega zmianie, to zarysowane postępowanie tak często
trafia się w życiu statystycznym, że zasłużyło sobie na spe-
cjalną nazwę: schemat Bernoulliego. Naszym zadaniem jest
określenie prawdopodobieństwa 5,(n, p) uzyskania k sukcesów w n próbach Bernoulliego, czyli próbach przeprowadzonych według tego schematu. Formalnie moglibyśmy to zrobić, tworząc sumę n zmiennych k,, każda z rozkładu Bernoulliego:
k=l+kh+:''-+kn .
Jacob Bernoulli,
1654-1705
(5.9)
i znaleźć rozkład prawdopodobieństwa zmiennej .
.
=
.
-
k. Postą.
pimy jednak bardziej poglądowo i zaczniemy od pytania o prawdopodobieństwo uzyskania, np. przy obserwacji ko-
5.2. Rozkład dwu- i wielomianowy
193
biet w grupach dziesięcioosobowych, następującej sekwencji osób wchodzących do sklepu: KKMKKMKMMK,czyli sześciu kobiet i czterech mężczyzn. Ponieważ wy-
nik każdej obserwacji osoby wchodzącej jest niezależny od wyniku innej obserwacji,
więc to prawdopodobieństwo musi być iloczynem prawdopodobieństw
sukcesów i po-
rażek w każdej z prób: pp(l — p)ppd — p)pl — pO — p)p = p*(l — p)* lub
ogólnie: p*(1 — p)”*. Jednak to co nas interesuje najczęściej, to nie prawdopodobień-
stwo specyficznej sekwencji rezultatów (czyli uporządkowanie, choć i to bywa czasami przedmiotem badań), lecz prawdopodobieństwo uzyskania po prostu k sukcesów, nie-
zależnie od kolejności, w jakiej się one pojawiają. Z, podrozdziału 5.1 znamy liczbę sposobów ustawienia liter K oraz M w ciągu o długości n tak, aby litera K wystąpiła dokładnie
k razy,
a litera M
dokładnie
n — k razy. Wiemy
również,
że na
mocy niezałeżności każdej z prób, każda sekwencja ma identyczne prawdopodobieństwo, co oznacza, że owe prawdopodobieństwa musimy zsumować, a otrzymamy rozkład
Bl, P) = grą pi U - P"*
(5.10)
zwany dwumianowym, prawdopodobieństwa uzyskania k sukcesów w n próbach przeprowadzonych wg schematu Bernoulliego, czyli wtedy, gdy poszczególne próby są niezależne, a prawdopodobieństwo sukcesu w każdej z prób jest stałe 1 wynosi p. Zauważmy, że parametry n i p są pewnymi zadanymi wielkościami, natomiast zmienną losową jest liczba k sukcesów. Rozkład ten, dla n = 20 i kilku wartości parametru p podany
jest na wykresie 5.3 za pomocą punktów (linia ciągła jest bez znaczenia, ma jedynie „poprowadzić oko” Czytelnika). 0,40
0,30
p=0,05
1
0,35 -
0,25
p=0,25
0,20 -
p=0,75
p=05
0,15 0,10 0,05 0,00
+
0
2
ę
4
©
4
6
©
0,05, zawężamy zakres możliwych wartości parametru p do przedziału od zera do Po = 3,0-107*. Jeśli jesteśmy ostrożni, powinniśmy się raczej zdecydować na u = 0,01, a może nawet na 0,001. Gdy gotowi jesteśmy zaryzykować, możemy zgodzić
197
5.2. Rozkład dwu- i wielomianowy
się naa = 0,10. Zauważmy jednak, że wielkość I —a określa prawdopodobieństwo P(k > l;n, p) znalezienia przynajmniej jednego przypadku:
l-a=P(k>l;n,p)=)
k=|
Bln,p) =1— Boln, p),
(5.11)
co pozwala przeprowadzić następujące rozumowanie: jeśli parametr p spełnia nie-
równość p > py = 3,0 -: 107%, to prawdopodobieństwo zaobserwowania jednego lub więcej przypadków jest wtedy większe od I — a = 0,95. Skoro jednak nie widzimy przypadków w ogóle, więc możemy wykluczyć tę właśnie wartość parametru, a także i większe wartości, czyniąc z liczby po = 3,0 : 107* dolną granicę (kres dolny) przedziału [po; I] wykluczonych przez eksperyment wartości parametru p. Wykluczanie to występuje jednak z pewną wiarygodnością, określoną właśnie liczbą 0,95. Wielkość I — x, mnożona często przez 100 i wyrażana w pro-
centach, zwana jest poziomem ufności.
Ah
t-a
=
—
3
B(n,p)
| I ! ! | I
|
ł
4
| |
ł
u I
Rys. 5.6. Ilustracja problemu wyklu-
czania na zadanym poziomie ufnoŚCi
-€ +
”
]
" "e 4
|
k
>
Wyniki naszego eksperymentu możemy podsumować w następujący sposób: brak obserwacji, spośród miliona przypadków, rozpadu leptonu i w kanale e e*e” wyklucza, na poziomie ufności 95%, wartość współczynnika rozgałęzienia większą niż 3,0 : 107”. Wypowiedzmy to zdanie jeszcze raz, wyjaśniając jego sens proba-
bilistyczny. Gdyby współczynnik rozgałęzienia był większy niż 3,0 - 107*, wtedy
w olbrzymiej liczbie eksperymentów — teoretycznie nieskończonej — każdy po
jednym milionie przypadków rozpadów leptonów, przynajmniej w 95% takich eksperymentów zaobserwowalibyśmy co najmniej jeden poszukiwany rozpad, a co
najwyżej 5% spośród nich nie napotkałoby żadnego rozpadu. W języku potocznym bardzo często mówimy w takich sytuacjach o stu eksperymentach, z których przynajmniej 95 zaobserwowałoby co najmniej jeden rozpad, a co najwyżej 5 nie znalazłoby żadnego. Jest to oczywiście skrót myślowy, jako że w stu eksperymentach, z uwagi na statystyczny charakter rozpadu, mogłaby pojawić się sytuacja, w której np. 94 widziałoby przynajmniej jeden rozpad, a 6 żadnego. Tak długo
jednak, jak przez liczbę 100 będziemy rozumieli przejście graniczne z klasycznej definicji prawdopodobieństwa,
taką interpretacyjną parafrazę będziemy
uznawali
za dopuszczalną. Czy wykluczając na poziomie ufności dziewięćdziesięciu pięciu procent wartości parametru p większe od pę = 3,0 -: 107” zaakceptowaliśmy na tym samym
198
5. Niektóre rozkłady
poziomie ufności wartości tego parametru mniejsze niż py? Oczywiście nie. JeŚli parametr p jest równy po, to zerową liczbę przypadków znajdziemy w pięciu procentach doświadczeń. Jeśli wielkość p jest mniejsza niż py, wtedy ułamek eks-
perymentów z zerową liczbą przypadków będzie większy niż 5%. Oznacza to, że
wykluczanie na poziomie 95% oznacza dopuszczanie możliwości, że p < pę na poziomie ufności nie mniejszym niż 5%. Dlatego czasami, w języku potocznym, mówimy o parametrze p, jako o górnej granicy (górnym kresie) dopuszczonych przez eksperyment wartości wielkości p.
r
Schemat Bernoulliego możemy także zastosować do innego zagadnienia. Otóż, wykonując kolejne próby, możemy zapytać o prawdopodobieństwo pierwszego sukcesu w pierwszej, drugiej, trzeciej, ... próbie. Jeśli przez S oznaczymy sukces, a przez P porażkę, to przestrzeń zdarzeń elementarnych dla tego zagadnienia składa się z następujących, rozłącznych zdarzeń: S$, PS, PPS, PPPS itd. Prawdopodobieństwo uzyskania sukcesu w k-tej próbie wynosi
Gl(p)=pd-p)*"!,
k=1,2,3,....
(5.12)
Łatwo sprawdzamy, że rozkład ten jest poprawnie unormowany. Nosi on nazwę rozkładu geometrycznego. Uogólnieniem tego rozkładu jest rozkład sumy zadanej liczby n składników, każdy z rozkładu geometrycznego. Opisuje on prawdopodobieństwo przeprowadzenia k prób, w trakcie których uzyskano zadaną liczbę n < k sukcesów, przy czym ostatnia próba zakończona jest sukcesem. Ponieważ prawdopodobieństwo n sukcesów dane jest przez p”, a prawdopodobieństwo k — n porażek to (1 — p)*"", więc
rozkład ten jest opisany wyrażeniem: ua,
p =(
n-l
jra
pr".
n=1,2,...,
k=nn+l,n+2,...,
(5.13)
gdzie czynnik kombinatoryczny wynika z rozmieszczenia n — 1 sukcesów pośród k — 1
prób (ostatnia próba zakończona jest sukcesem).
Rozkład ten
zwany jest w literaturze rozkładem ujemnym dwumianowym lub też rozkładem Pascala. Poprawność unormowania tego rozkładu wynika z rozwinięcia Taylora: —
(k-1
X (-1)7'
(1
—
p)
kn _.
—_
/m+n—-1
ry( „n
PD
nh
"d-q"
gdzie podstawiliśmy m = k—n,q
Blaise Pascal, 1623-1662
n-1 Je
m
L,
= l — p. Ujemny rozkład
dwumianowy występuje niekiedy w postaci (4„(n, p), zadającej liczbę m = k — n porażek przed wystąpieniem sukcesu o numerze n:
5.2. Rozkład dwu- i wielomianowy
in, p = (
n+m—l
SĘ
n=l,2,...,
pra
199
ma p)”,
m=0,1,2,....
(5.14)
5.2.2. Momenty rozkładu dwumianowego i ich estymatory Najpierw znajdziemy wartość oczekiwaną:
a=pi""7 P k) = 2_kq k=0 —
k(1
on
=
n
ki
n!
—
Dia=pi = 2w= k=l —_
=)
=
__
"77
ga =i" U __
n=k
=P)
(m — 1):
DRIN"
=p
kr
ni
—
n=k __
k—1/1
07
e
(n
.
__
nk
p)
1)!
R=DIu=BI" „ln-1)-(k—1)
_
k—1g4
0
nk
P)
|
Jeśli w ostatniej sumie dokonamy zamiany zmiennej: m = k — 1, to nl
— |D!
—
ln—1,p) =np. = n- „i A - p)” »" =np)_B m=0
= "p > czyli ostatecznie
€ [k] = np.
(5.15)
By obliczyć wariancję zmiennej, znajdziemy najpierw (k*
|= > -_
=hn
IG gi?
kn
PH
k
- m$ m _
| —
U-P)
nk
k-1 (1 — p) -D-(k-1 DG D
(a — 1)!
k-DKu-D=k=D)" -|
(n — 1)!
| ma zD=mi
m
7
1
—
P)
p
(n—1)—m
n—l
= np ) | (m + 1)B„(n — 1. p) = np (m + 1) = np((n — 1)p + I). m=0
gdzie m =k — 1. Odejmując kwadrat wartości oczekiwanej, otrzymujemy
V[k] = npq = npl — p).
(5.16)
200
5. Niektóre rozkłady
Oba wyniki: (5.15) 1 (5.16), są dość oczywiste w świetle związków (3.16) i (3.9) i faktu, że rozkład dwumianowy opisuje rozkład sumy (5.9) n niezależnych statystycznie zmiennych losowych z rozkładu dwupunktowego.
Wynik dla wariancji zmiennej k podpowiada nam, że v B n
= —Y [kl = —npq - A n n n
(5.17)
Zajmiemy się teraz estymatorem p wielkości p, jeśli w wyniku eksperymentu powtórzonego n razy uzyskaliśmy k sukcesów. Spróbujmy: „ k p=— n
(5.18)
1 obliczmy wartość oczekiwaną tej wielkości: » k l l =(7)=;60=7mw=p Tym samym wielkość p jest nieobciążonym estymatorem parametru p. Poszukajmy także estymatora s; wariancji zmiennej losowej k, wyrażając go, na próbę, przez k
k
np(l-p)=n-|l--|=k n n A
A
n=k
n
l,
=k—=k. n
Biorąc wartość oczekiwaną tego wyrażenia, znajdujemy, iż l
l
(k) — — (k*) = np — "pln — 1)p + 1) = (n — 1)pq. Widzimy, że powinniśmy raczej wybrać wielkość 2 _
ko
n-l
np(l — p),
(5.19)
co da nieobciążony estymator. Podobnie dla estymatora s; wariancji wielkości p otrzymujemy
| s;2 = ——-p(l —D). Pn-l
Powróćmy
(5.20)
do naszych obserwacji liczby kobiet czyniących zakupy. Estymata p, dana
wyrażeniem (5.18), wartości prawdopodobieństwa p zaobserwowania kobiety jako osoby wchodzącej do sklepu, a także jej niepewność (5.20), możemy określić z danych doświadczalnych: p = 0,683 + 0,015. Wykorzystując tę wielkość, na wykresie 5.2 dorysowane zostały, w postaci kropek, wartości prawdopodobieństwa B,(10,
0,683). Oczywiście, po-
zostaje otwarty problem zgodności między obserwowanymi częstościami a obliczonymi prawdopodobieństwami, które, nawiasem mówiąc, są obarczone niepewnością, jako że do ich znalezienia wykorzystaliśmy estymatę p.
5.2. Rozkład dwu- i wiełomianowy
"--
Przykład 5.2.3 Wir wodny Dawno temu autor natknął się w jednym z czasopism na rewelacyjną informację. Pewien dziennikarz, relacjonując swój pobyt na półkuli południowej, twierdził, że
kierunek wiru, jaki powstaje w wannie przy spuszczaniu z niej wody po kąpieli
jest po tamtej stronie równika inny niż w naszej części Świata. Dziennikarz ten podawał nawet wytłumaczenie tego zjawiska, czyniąc zań odpowiedzialną siłę Coriolisa. Przygotowanie niniejszego wykładu stało się pretekstem do zweryfikowania
tej hipotezy, a Ściślej, sprawdzenia, czy istotnie spływająca woda preferuje pewien
kierunek obrotu. W wyniku eksperymentu powtórzonego 100 razy o różnych porach dnia i roku autor ustalił, że wytworzony wir w 43 przypadkach powodował obrót masy wody w kierunku zgodnym z kierunkiem ruchu wskazówek zegara,
a w pozostałych 57 przypadkach obrót miał kierunek przeciwny.
Znając wyrażenia (5.18) i (5.20) na estymatory, możemy pokusić się o weryfikację hipotezy o tym, że wir nie wykazuje uprzywilejowanego kierunku. Gdyby tak było, to wartość prawdopodobieństwa p sukcesu (obrót wiru w kierunku ruchu
wskazówek zegara) w pojedynczej próbie powinna wynosić 1/2, podczas gdy my,
podstawiając do wzorów na estymatory, obserwujemy: b = 0,43 + 0,05. natywnie, możemy powiedzieć, że winniśmy oczekiwać 50 wirów w jedną i 50 wirów w drugą, podczas gdy doświadczenie daje w wyniku: 43 + 5. wowane odchylenie liczby wirów od wartości oczekiwanej jest większe niż
Alterstronę Obsertypowa
fluktuacja. Nie oznacza to jeszcze, że mamy do czynienia z sytuacją, która definitywnie wskazuje na preferowany kierunek obrotu wody. Wniosek ten wynika
z następującego rozumowania. Przyjmijmy chwilowo słuszność hipotezy o braku preferencji, wtedy w próbce 100 pomiarów oczekujemy, że fluktuacje liczby wirów wokół wartości 50 będą wynosiły:
VM = ampl
= 10-5-(1-5)=25=5: 2
2
Jak często będą zdarzały się odchylenia o co najwyżej obserwowaną liczbę siedmiu wirów od wartości oczekiwanej? Czyli: jaka jest szansa na to, by liczba wirów była zawarta między 43 a 57? Szansa ta jest dana przez: 57
P(43
sf-zjs-2-I(x) x
1667-1754
otrzymujemy
(k — np)” 2npq
—————
=
Ń
(zachowując
l /2no
eX
?
wyrazy
najniższego
(k— n)” ) , 20?
—_0_|-
(5.26)
gdzie o? = npq oraz u = np. Jest to poszukiwana postać graniczna rozkładu dwumianowego dla dużej wartości liczby n prób, zwana rozkładem Gaussa. Fakt istnienia związku między tymi rozkładami określany jest mianem lokalnego twierdzenia de Moivre—Laplace'a. Porównanie formy granicznej i postaci Ścisłej zamieszczone jest na rys. 5.8, gdzie punkty odpowiadają rozkładowi dwumianowemu, a linia ciągła to rozkład Gaussa, który jak widać jest nieco przesunięty w prawo, przynajmniej dla mniejszych wartości liczby prób. Aby zniwelować ten efekt, stosuje się niekiedy zmodyfikowaną formę związku (5.26):
"DS
I
/Zmpą ? (
(k — (np — 3))
2npq
B,(n, p) £ —p1
—np Pa npa(l — a)
... **:
—NDP;-1P1
—NDpPj;-1P2
..
|
.
|
—np1P;-1 —npaPj-1
sa
np;_1(1
(5.34)
— Pi-1)
Ta ogólna postać
W... M, P1,---, Dj) FE
l
(8) "fa
1 exp (-; (k — (kj) V"' (k — Y
to postać wielowymiarowego rozkładu Gaussa.
—-- 8.3. Rozkład wykładniczy 5.3.1. Wyprowadzenie Autor, przystępując do pisania tego rozdziału, wykonał następujący eksperyment: zmierzył wielokrotnie czas oczekiwania na przejazd koło niego jakiegokolwiek samochodu na jednej z ulic Ursynowa. Rezultat tego pomiaru przedstawia unormowany do jedności histogram 5.10, będący eksperymentalną gęstością prawdopodobieństwa przejazdu samochodu w czasie kolejnych sekund, tzn. wysokość „słupka” umieszczonego na wybranym przedziale czasu, pomnożona przez odpowiadający mu przedział czasowy (w tym przypadku jedną sekundę) daje eksperymentalne prawdopodobieństwo przejazdu samochodu w trakcie tego przedziału czasu. Na przykład prawdopodobieństwo, że w czasie pierwszej sekundy przejedzie koło nas samochód, wynosi około 18%. Znaczenie dodatkowej linii ciągłej oraz formuły matematycznej wyjaśnimy w dalszej części rozważań.
Ze swej konstrukcji suma wysokości „słupków” histogramu pomnożonych przez związany z każdym z nich przedział czasowy daje jedność. Powinniśmy zwrócić uwagę na
to, że czas jest zmienną ciągłą, my — przez grupowanie danych — opisujemy zjawisko w zmiennej o charakterze dyskretnym. Ta „dyskretyzacja” pozwoli nam, wykorzystując dotychczasowe informacje, zbudować model znalezionej zależności. | Z, podrozdziału 5.2 wiemy, że prawdopodobieństwo B;(n, p) zanotowania k sukcesów w n próbach, jeśli prawdopodobieństwo odnotowania sukcesu w pojedynczej próbie
wynosi p, dane jest rozkładem dwumianowym (5.10). Zadajmy teraz pytanie o prawdo-
podobieństwo Q, = Bę(n, p) braku sukcesu we wszystkich kolejnych n próbach (czeka-
nie to właśnie uporczywy brak sukcesu). Warunkiem takiego zdarzenia jest brak sukcesu w każdej z kolejnych prób, a prawdopodobieństwo takiego zdarzenia, na mocy własności rozkładu dwumianowego, to Q, = (1 — p)”. Ponieważ będziemy chcieli przejść do rozkładu ciągłego, pojedynczy czas t oczekiwania na przejazd samochodu, konstytuujący jeden przypadek na naszym histogramie, podzielimy na n równych przedziałów o długości Aż, przy czym liczba n jest bardzo duża, a w ostatecznym wyrażeniu przejdziemy
z jej wartością do nieskończoności. Ważne jest uświadomienie sobie, że przedział At
gęstość [1/s]
5,3. Rozkład wykładniczy
0,20 0,18 ks. 0,16 0,14 0,12 0,10 0,08 0,06 0,04
y= 0,193 exp(-0,1931)
0,02 ż
0,00
0
217
1
e
BE
5
10
15 20 czas oczekiwania [s]
25
30
Rys. 5.10. Rozkład czasu oczekiwania na przejazd samochodu na ulicy
nie ma żadnego związku z przedziałami histogramowania. Powinniśmy raczej sobie wyobrazić, że stajemy przy ulicy, włączamy stoper i czekamy na pierwszy nadjeżdżający
samochód i ten czas oczekiwania — choćby nawet był bardzo krótki — dzielimy w myśli na bardzo dużą liczbę bardzo małych odcinków czasowych Aż, a oczekiwanie w każ-
dym takim odcinku to właśnie jedna próba ze schematu Bernoulliego. W każdej z takich
prób mamy pewne prawdopodobieństwo p przejazdu samochodu. Jeśli przyjmiemy, że wielkość ta jest stała w każdej z prób, to rezultat przejścia granicznego n — oo nie
będzie imponujący — otrzymujemy po prostu zero
Q,=(1-p)'
—
Nn—>OO
0,
o ile wielkość p nie jest równa zeru, co jawnie stoi w sprzeczności z danymi doświadczalnymi. Dlatego też wielkość p musimy uzależnić od przedziału czasowego, w którym
w danej chwili się znajdujemy, czekając na samochód. Najprostszej możliwości dostarcza model, w którym wielkość p nie zależy od numeru przedziału, choć jest ona proporcjonalna do wielkości tego przedziału: p x At, co też zapisujemy jako At p=AAt=—, (5.35) n gdzie wielkość A, zwana często intensywnością, jest już prawdziwie stałą liczbą o wymiarze odwrotności czasu. Jej interpretację znajdujemy z (5.35) i wartości oczekiwanej
(5.15) rozkładu dwumianowego:
|
WH
niani
n
n
z4= e
(5.36)
Widzimy, że wielkość ta określa typową liczbę zdarzeń na jednostkę czasu. Podstawiając (5.35) do wyrażenia na prawdopodobieństwo braku sukcesu, otrzymujemy Q, = (
— =
—
Nn—>0O
Q(t; A) =exp(-At).
218
5. Niektóre rozkłady
Teraz możemy już znaleźć dystrybuantę (2.19), czyli prawdopodobieństwo P(0 < t < t; A) = F(t; A) sukcesu w przedziale czasu od zera do t, jako uzupełnienie porażki: Ft;A)=1—
a po
zróżniczkowaniu,
w chwili £:
dF(t:A E(t; A) = a
funkcję
QQG;A) =1 — exp(—At),
gęstości
prawdopodobieństwa
= Aexp(=At)
dla
)00
k )
de". ©
Wyprowadzenie to uzasadnia inną, bardzo udatną, nazwę rozkładu geometrycznego: rozkład dyskretnych czasów oczekiwania. ——
Przykład 5.3.2 Obszar wykluczania
Rozważmy eksperyment poszukujący rozpadu nukłeonu. Wyobraźmy sobie wypełniony wodą pojemnik o rozmiarach 10 m x 10 m x 10 m, a więc zawierający
1000 ton wody, czyli około n = 6 - 10? nukleonów. Ciągła obserwacja tej objętości
wody przez jeden rok jest równoważna (patrz niżej) obserwowaniu pojedynczego
nukleonu przez T = 6 - 10% lat. Podobnie jak w przykładzie 5.2.2, możemy
tutaj zapytać o długość czasu £ obserwacji, aby przy zadanym oczekiwanym czasie życia r nukleonu prawdopodobieństwo P(t < t; T) zaobserwowania rozpadu przynajmniej jednego nukleonu wynosiło przynajmniej B:
P(ft
—zln(l
— 8).
> B,
220
5. Niektóre rozkłady
Przyjmijmy na t>3-107 lat, poradzić, gdyż Przyjmijmy
przykład 8 = 0,95 oraz r = 10? lat, wtedy czas oczekiwania co wydaje się wielkością, z jaką nasz detektor może sobie jeszcze wymaga to tylko pół roku jego ciągłej pracy. teraz, że w wyniku obserwacji przez czas t = lrok nie udało
się nam znaleźć ani jednego przypadku rozpadu nukleonu. Prawdopodobieństwo
p =P(t £t;T) rozpadu pojedynczego nukleonu w czasie jednego roku dane jest
związkiem
£
p=l
-ap(-2).
T
Z. rozkładu dwumianowego wiemy, iż prawdopodobieństwo a, że żaden z n nukleonów nie ulegnie rozpadowi, to a = Bn, p) = (l — p)” = exp (-7)
= exp (-7)
.
Tu widzimy, dłaczego jednoczesna obserwacja n nukleonów przez czas £ jest rów-
noważna obserwacji jednego nukleonu przez czas T = nt — powrócimy jeszcze do tego zagadnienia w podrozdziale 5.3.3. Gdyby parametr t był istotnie mniejszy
od wartości 7, to prawdopodobieństwo a byłoby bardzo małe, np. dla r = 0,017
otrzymujemy a = 4.107* i byłoby zdumiewające, że nie zaobserwowaliśmy żad-
nego rozpadu, skoro jego prawdopodobieństwo wynosiło 1 — 4. 107%. Oznacza to, że tego typu wartości parametru r, jak również mniejsze, możemy odrzucić. Czy
możemy odrzucić np. wartość r = T? Dla niej prawdopodobieństwo a wynosi około 0,37, a więc gdyby wartość parametru z była porównywalna z czasem obserwacji T', to typowo w co trzecim eksperymencie nie obserwowalibyśmy żadnego rozpadu i powinniśmy się liczyć z tym, że nasz eksperyment jest tym „trzecim”. Jaką wartość « powinniśmy w takim razie wybrać? To zależy od tego, jak często gotowi jesteśmy zaakceptować możliwość, że zostaniemy zlekceważeni przez los.
Jeśli za graniczną wartość w przyjmiemy 0,05 (patrz rys. 5.11), to dla para-
metru T otrzymamy wartość ry = 0,3357 = 2. 10? lat. Jednocześnie, ponieważ 1 r
©
Ol
NN
SN 5
0,05
Nu
Ho
RR
—
Ó
001 p——--——— z 0,001 -----
0,0001
I
010
ł
015
1
0,20
|
i
|
!
i
"
|
||
!
|
|
|
I
I
|
10,145
|
| 0,22 0,25
i
|
| 0,33
! 0,43
ł
I
030
1
0,35
|
1
0,40
0,45
parametr T/7
Rys. 5.11. Prawdopodobieństwo braku rozpadu nukleonu jako funkcja r/T
|
0,50
5.3. Rozkład wykładniczy
221
| — a to prawdopodobieństwo rozpadu nukleonu T
l
l-a=P(O)
42
A
—= dx
n(n + 1)
= ————.,
0» A
n
w zgodzie z momentami dla zmiennej z rozkładu wykładniczego, czyli dla n = 1,
jak również faktem, że wartość oczekiwana sumy (5.41) niezależnych zmiennych losowych jest sumą wartości oczekiwanych, a wariancja — sumą wariancji tych
zmiennych (patrz (3.9)). Wynik ten pokazuje, że im większa jest wartość współ-
czynnika przeliczania n, tym mamy wania na n-te zdarzenie:
DE]
mniejsze fluktuacje względne czasu oczeki-
|na_
Et] Wan
4Jn
Powyższy rezultat stanowi podstawę wykorzystywania tzw. rejestrów przesuwnych (ang. pipe line) do buforowania informacji o nadchodzących zdarzeniach w ją-
drowych i cząstkowych eksperymentach z zastosowaniem technik elektronicznych odczytu i gromadzenia danych. W takich eksperymentach zdarzenia, na których
rejestrację nastawiony jest detektor, pojawiają się (zazwyczaj) zgodnie z rozkła-
dem wykładniczym £(t; r) z pewnym typowym odstępem czasowym T = A”!. Jeśli czas potrzebny na analizę jednego przypadku, w celu podjęcia decyzji o jego zapisie lub odrzuceniu, wynosi T, to faktycznie czas ten jest okresem martwym
w pracy eksperymentu, jako że jeśli nawet detektor przyjmie nowy przypadek,
towarzyszące detektorowi procesory nie są w stanie go przeanalizować. Jeśli czas T jest znacznie krótszy od czasu r, to praktyczne straty przypadków są zaniedbywalne, natomiast jeśli oba czasy są porównywalne, to eksperyment zacznie gubić istotną część interesujących przypadków. I tak, jeśli T = t/2,
wtedy prawdopodobieństwo pojawienia się przynajmniej jednego nowego zdarze-
nia, w czasie kiedy procesory analizują poprzednie, wynosi r/2
l
P (: < >) = - | 2
T
0
t
(-:)
T
df=l-e"'=0,39,
co oznacza stratę ponad 1/3 statystyki (słowo statystyka tu użyte, to klasyczny eksperymentalny żargon; oznacza ono dokładnie tyle co próbka, dane). Wystarczy
jednak, abyśmy wprowadzili dodatkową pamięć (bufor) przechowującą informację o kolejnych n zdarzeniach, z której to pamięci procesory pobierają przypadki na
zasadzie: pierwszy wchodzi, pierwszy wychodzi (FIFO — first in, first out), a wtedy w najgorszym razie stracimy wszystkie, z wyjątkiem pierwszych n, jeśli pojawią się
227
ZŁO
5. Niektóre rozkłady
one w czasie T krótszym niż nr/2. Szansa takiego zdarzenia dana jest następującą
całką (| = x):
nt/2
ne/2
| €,„(t; T) dt = l
TJ
0
GD
n/2
nl
el dź -|
n-N!
0
A
nl
e "dt.
(n — 1)!
0
Jeśli za „głębokość” rejestru FIFO przyjmiemy wartości: n = 2,4, 8 oraz 16, to szansa utraty tych przypadków przyjmie wartości: 0,26, 0,14, 0,05 oraz 0,008.
Rejestr FIFO łagodzi fluktuacje w czasach pojawiania się kolejnych przypadków,
przekazując je do dalszej analizy w bardziej wyrównanym rytmie.
Zwróćmy uwagę na to, że jeśli czas T analizy pojedynczego przypadku jest równy czasowi t lub od niego dłuższy, to rejestr taki, bez względu na swoją głę-
bokość, nie jest w stanie nam pomóc. Musimy poszukiwać szybszych algorytmów
analizy danych lub dane te poddawać równoległemu przetwarzaniu (patrz przy-
kład 5.4.2). Kształt rozkładu czasów oczekiwania na n zdarzeń: ć,
(u)
=
m
(nu)""
— Dio
_
,
d gdzie
i
u
=
t
Ste]
——
Z
At >
—,
podany jest na rys. 5.13 dla wartości parametru n = 1, 2,4, 6,8, 10. 1,4
r
1,2 1,0 0,8 0,6
0,4 0,2 0,0
0,0
0,8
1,0
1,2
1,4
1,6
18
20
znormalizowany czas u
Rys. 5.13. Rozkład Erlanga jako funkcja u = t/€ [t]
Rozkład ten również ma tę własność, że dla dużych wartości współczynnika
przeliczania n przechodzi w rozkład Gaussa. Pokażemy to, wprowadzając zmienną standaryzowaną Ee a £ —
dla której rozkład przyjmuje postać
DŁ]
t—n
yn"
/n(zy/n+n)
6,(X) =
(n — 1)!
exp (-x/n — n).
5.3. Rozkład wykładniczy
229
Wykorzystując wzór Stirlinga (5.5) dla funkcji silnia
E,(x) ©
1
/n(xy/n+ ny
/2n
(n— 1)" żer!
e(—x
n—n),
a następnie wciągając wszystkie czynniki, z wyjątkiem pierwiastka z 2n, do funkcji wykładniczej l
6,(x) £
ezp( — VB +
zlnn + (
(eee)
/2n
Lh
l
— 1)ln(x/n +n)
l
a dalej porządkując i upraszczając, otrzymujemy
E,(x) %
o
2x
ex
(-=
+m-Dmfr+
s - (n-)m(1- 2)
2
n
x —)-1).
Dokonujemy teraz rozwinięcia obu logarytmów
co, po podstawieniu, uporządkowaniu i odrzuceniu wyrazów rzędu n"' i mniejszych, a więc w warunkach asymptotycznych, daje standaryzowany rozkład Gaussa 2
€„(x)
—>
Ntaiu=0,0=D=—=ap(-5).
Wykorzystajmy rozkład Erlanga do znalezienia oceny intensywności A. Konwen-
cjonalnie problem taki rozwiązujemy
w ten sposób, że przez zadany przedział czasu
mierzymy liczbę zdarzeń. Tak znaleziona liczba zdarzeń jest zmienną losową. Nie jesteśmy jeszcze przygotowani teoretycznie do rozpatrzenia tego problemu z punktu widzenia statystyki matematycznej, gdyż wymaga on zrozumienia rozkładu Poissona, który
jest przedmiotem następnego rozdziału. Możemy jednak wyobrazić sobie eksperyment, w pewnym sensie, odwrotny: zadajemy liczbę n zdarzeń i czekamy tak długo, aż ta liczba
zdarzeń się pojawi, a wtedy natychmiast przerywamy pomiar. W tak postawionym problemie zmienną losową jest czas t pomiaru. Na nieobciążony estymator intensywności
230
5. Niektóre rozkłady
możemy zaproponować wielkość
2 nl A= — |
(5.43)
która, jak to łatwo sprawdzić, istotnie spełnia swoją rolę: 00
of]
(2) =A(n
20 — l)! e "dt=A t(n
x
(n — 2)!
0
e*”dx=A
|
gdzie podstawiliśmy x = At. Zajmiemy się teraz wariancją tego estymatora:
,
1
e[-]=2n- 12 | 52 0
Qr1 )
t2 (n — 1)!
eH dr = 22
-1
n-2
skąd
v[s] = a
n=2
Żel
n-2
y2
Proste obliczenia wskazują, że nieobciążonym estymatorem tej wariancji jest wielkość a
Ta
ba ==
l
n-l
_
i.
Zastanówmy się nad kwestią estymacji parametru r rozkładu wykładniczego. Łatwo sprawdzamy, że średnia arytmetyczna t = 7 jest nieobciążonym estymatorem:
B-(,
Ż: -
2,60=„0r=r
Wariancja estymatora parametru r wynosi
-
lĘ
l
|ę
lę
-v|2|-9|2s|-z7ym=
Lę
22
!
=-T.
o ile próbka jest prosta i widzimy tu, ponadto, bezpośrednią realizację relacji (4.6). Wynik ten podpowiada nam, że estymatora s; wariancji V [7] powinniśmy szukać w postaci proporcjonalnej do kwadratu Średniej. Aby ułatwić sobie to zadanie, wróćmy do przykładu 5.3.6, w którym pokazaliśmy, że kwadrat sumy (5.41) ma wartość oczekiwaną € [t'| = n(n + DT”, a tym samym
e|e]="—r,
skąd łatwo odgadujemy postać nieobciążonego estymatora wariancji
5.3. Rozkład wykładniczy
Widzimy, że wyrażenia na nieobciążone estymatory parametrów
231
Tt oraz A, a także ich
_wariancje, nie są identyczne (po dokonaniu odpowiednich podstawień), choć występuje między nimi duży stopień „pokrewieństwa. Czytelnik powinien odebrać to jako ostrzeżenie przed przyjmowaniem za oczywisty fakt, że momenty funkcji estymatora są równe
funkcjom momentów: jeśli 8 jest estymatorem parametru 0 rozkładu, a © =h(0) funkcją tego estymatora, to w ogólności: © + h(0) oraz na pewno Só z h(s;). 5.3.3. „Brak pamięci” W podrozdziale 5.3.1 pokazaliśmy, że prawdopodobieństwo przeżycia jądra promieniotwórczego przez czas t* dane jest wyrażeniem
Q() = exp(—At'). Zapytajmy o prawdopodobieństwo obserwacji, w której jądro promieniotwórcze przeżyje dodatkowo czas t, jeśli już „zdołało” przeżyć czas t'. Jest to pytanie o prawdopodobieństwo warunkowe (2.15):
Q(t|t) =
Q(, t)
Qt)
Licznik ułamka to prawdopodobieństwo przeżycia czasu łącznego t' +- t, które w tym przypadku jest równe prawdopodobieństwu
Q(t' + t), co w efekcie daje nam
O(n) = SO = SBexp(—Af') (r)
= exp(-At) =| Q(0).
Wynik jest absolutnie niezależny od czasu £'! Mówimy, że rozkład wykładniczy charak-
teryzuje się niezależnością od obecnego wieku — pozostały czas życia nie zależy od przeszłości i ma ten sam rozkład co całkowita długość życia. Można wykazać, że ten brak starzenia się, dający się faktycznie ująć wzorem
Q(t+t)=Q60)OU), jest cechą tylko i wyłącznie rozkładu wykładniczego i funkcji tożsamościowo równej
zeru lub jedności (faktu tego dowodzi się przez różniczkowanie powyższego związku
względem t', aby następnie położyć w nim tę wielkość równą zeru — w wyniku otrzymujemy proste równanie różniczkowe). Dopiero w świetle powyższej cechy rozkładu wykładniczego można w pełni zrozumieć opinię wyrażoną w przykładzie 5.3.2 o równoważności ciągłej, rocznej obserwacji
liczby 6 - 103? nukleonów i obserwacji pojedynczego nukleonu przez 6 - 10 lat. Istotnie, jeśli wielkość t oznacza okres obserwacji n nukleonów, to prawdopodobieństwo braku rozpadu pojedynczego nukleonu zadane jest wielkością Q(t) = exp(—At). Prawdopodobieństwo przeżycia czasu t przez wszystkie nukleony, na mocy niezależności statystycznej między rozpadami różnych nukleonów, dane jest iloczynem n czynników: O(t)O() ::: O(t). Z kolei to wyrażenie, na mocy własności braku zależności przyszło-
ści od historii, wynosi
Q(nt) = exp(—Ant) i wyraża prawdopodobieństwo przeżycia
jednego nukleonu przez czas nt.
232
5. Niektóre rozkłady
Ta własność „braku pamięci” zawarta w rozkładzie wykładniczym sprawia, że jest,
mimo prostoty matematycznej formy, trudny do intelektualnego przyswojenia, gdyż jest
to obce naszemu doświadczeniu życiowemu: ludzie umierają z reguły, osiągnąwszy pewien wiek, a nie w losowych momentach swojego życia. Podobnie jest z różnego rodzaju urządzeniami, które na co dzień wykorzystujemy, jak np. samochód: nowy raczej jeździ,
a zaczyna się psuć dopiero po paru latach. ——
Przykład 5.3.7 Przeżywanie i rozkład Weibulla W tabeli 5.1 (za: Trwanie życia i umieralność wg przyczyn w 1997 r, GUS, Warszawa 1998) przedstawiona jest przewidywana liczba osób, jaka pozostanie
z początkowej liczby 100000 osób urodzonych w 1997 r., po zadanej liczbie lat. Zbadajmy, czy i jakie odstępstwa od wykładniczego charakteru występują w tych danych. Model rozkładu wykładniczego podpowiada nam, że z początkowej liczby N4 osób liczba N(t) = Nyexp(—At)
osób dożyje wieku £. Nie znamy parametru A w tym wyrażeniu, ale jeśli je zloga-
rytmujemy, to otrzymamy zależność liniową logarytmu liczby osób, które dożyły wieku t, od tego wieku In N(t) = In N, — At. Tabela 5.1. Przewidywana śmiertelność osób urodzonych w 1997 r.
0
100000
100000
55
82377
92878
5
98741
98932
60
75045
89755
10
98624
98835
65
65373
85099
15
98492
98755
70
53498
77808
20
98056
98597
75
40045
66611
25
97391
98435
80
26082
50579
30
96621
98235
85
13558
31092
35
95601
97948
90
5243
13665
40
94012
97432
95
1295
3522
45
91498
96542
100
168
403
50
87731
95078
5.3. Rozkład wykładniczy
Wykres 5.14, na którym oś rzędnych przedstawiona jest w skali logarytmicznej, prezentuje relację, jaka występuje w danych. Wynika z niego absolutnie wyraźnie, że do ludzkiego życia nie stosuje się prawo wykładniczego zaniku. Przez bardzo długi okres czasu — do wieku około pięćdziesięciu lat — zależność wydaje się stała, tak jakby współczynnik A był równy zeru. Zmiany pojawiają się dopiero po tym wieku i są bardzo gwałtowne, zanik jest bez wątpienia silniejszy niż liniowy. 100 000
+
©
o
©
©
0
o
0.0
©
o
©
9
o
o
10000 |
e
1000 | 100
« mężczyźni o kobiety
,
|-
10 r l
0
l
_L
10
20
l
l
l
l
l
l
l
30
40
50
60
70
80
90
100
wiek
Rys. 5.14. Wykres przeżywalności — liczba osób dożywających danego wieku
Czy moglibyśmy wymodelować takie zachowanie wykresu przeżywalności?
Przypomnijmy — rozkład wykładniczy uzyskaliśmy przy założeniu, że prawdopodobieństwo p sukcesu w pojedynczej próbie Bernoulliego przyjęliśmy jako proporcjonalne do czasu Az trwania tej próby 1 niezależne od numeru próby. Złagodzimy
teraz to ostatnie wymaganie i przyjmiemy, że prawdopodobieństwo p, w i-tej próbie wynosi
p; = A,AŁ,
antycypując, że wielkości A, ulegają zwiększeniu
(czas
życia skróceniu) w wyniku wyczerpywania się potencjału życiowego („zużywania się”) organizmu. Prawdopodobieństwo
tym razem przez
Q, braku sukcesu w n próbach zadane jest n
Q,=d-p)A-p)---A-p)=|[Q- 243). i=l
Naszym zadaniem jest znalezienie granicy tego wyrażenia, gdy liczba n prób dąży do nieskończoności, a jednocześnie przedział Aż do zera. Obliczmy w tym celu logarytm obu stron InQ,=
S7in(l — A,At) = — DU AAŁ i=l
i=l t
—
n—>oo,At>0
Usuwając logarytm
z J X(t)dt =—A(t) = InQ(t). 0
Q(t) = exp(-A(t))
233
234
5. Niektóre rozkłady
i przechodząc do dystrybuanty
FG) = 1 — exp(-A(1)), znajdujemy yP poszukiwaną, modelową funkcję rozkładu d
Jl) = q” © = At) exp(—A(1)), gdzie
d A(t)(6) ==—A(1). 40)
W szczególności, jeśli funkcja A(t) nie zależy od czasu, odzysku-
Wallodi Weibull, 1887-1979
jemy rozkład wykładniczy, natomiast dla zależności A(t)
x t*
otrzymujemy tzw. rozkład Weibulla (W. Weibull, A Statistical Distribution Function of Wide Applicability, Journal of Applied Mechanics, 1951). W następnym kroku powinniśmy poszukać ta-
kiej postaci funkcji A(t) (łub też A(t)), która w miarę wiernie odtwarzałaby dane. Uzyskany analityczny opis ucieszyłby, bez wątpienia, wszystkie firmy ubezpieczeniowe, które zajmują się wystawianiem polis na życie.
Rozkład Weibulla, definiowany dwuparametrycznym wyrażeniem
o dystrybuancie
goia0=$ (2) as(-(2)) FQ2) =l—=exp (- (>))
>
znajduje powszechne zastosowanie w szeroko pojętych zagadnieniach niezawodności. Szansa Q(x), że układ nie zawiedzie, mimo że wartość zmiennej losowej x opisującej pewną własność układu przekroczy wartość x, wynosi
Q(x) = 1— F(x) = exp (- (=) ) x
a
Obliczając podwójny logarytm In (— n(O(x))) =alnx
—alno,
widzimy, że na wykresie zależności In(— In(Q(x))) od Inx powinniśmy otrzymać linię prostą. Sposób ten można wykorzystać, jeśli dysponujemy sporą liczbą danych,
na tyle dużą, abyśmy mogli utworzyć ich histogram. Jeśli danych mamy mniej, możemy posłużyć się wykresem kwantyli. W tym celu wystarczy, że dopełniające
prawdopodobieństwo Q(x;) odpowiadające punktowi pomiarowemu x, zastąpimy przez 1 — i/(n + 1), a otrzymamy In (-1
(-
| )) n+1
=alnx,
—alno,
5.3. Rozkład wykładniczy
235
a tym samym zestaw par punktów (In(— In(1 —1/(n+1))), In x;) powinien układać
się wzdłuż linii prostej. Wykres 5.15 to właśnie wykres kwantyli dla trzydziestu próbek krzemowych
jako
funkcja
tów
(dane
logarytmu
naprężenia
x,
megapaskalach),
(w
przy
którym
nastę-
puje pęknięcie próbki. Widzimy, że układ punktów dość dobrze podąża wzdłuż odręcznie naniesionej linii prostej, być może z wyjątkiem pierwszych paru punkza:
S.
F.
Duffy
i E.
H.
Weibull
Baker,
Estimation,
Parameter
http: //www.crtechnologies.com/EngDiv/mechanics/ weibull/ theory /theory.html).
Możemy nawet z wykresu oszacować wartości nieznanych parametrów a oraz o.
logarytm naprężenia [MPa]
Rys. 5.15. Wykres kwantyli rozkładu Weibulla dla próbek krzemowych poddanych naprę-
żeniom
|
TI
5.3.4. Szeregi promieniotwórcze Rozważmy równoległe rozgałęzienie w szeregu promieniotwórczym: AI
— J >
A2
+, Ak
—
Ji, >
Ja, Jk
w którym jądro J może się rozpaść, z intensywnością A,;, na jedno z jąder J;. Musimy określić dla takiej sytuacji prawdopodobieństwo sukcesu w pojedynczej próbie schematu Bernoulliego. Ponieważ dla każdego jądra J mamy k + 1 możliwości: może się ono rozpaść na jedno z jąder J,, ale także może pozostać w stanie początkowym, więc naturalnym schematem probabilistycznym będzie rozkład wielomianowy (5.27) określony
236
5. Niektóre rozkłady
przez układ parametrów pg, py, P2,..., py takich, że ,
SLEJ
gdzie
Pi
=
hi
t
I=|1,2,...,k,
a parametr po opisuje prawdopodobieństwo braku rozpadu jądra J w pojedynczym, ele-
mentarnym akcie obserwacji. Z, własności (5.28) rozkładu wielomianowego (jego rozkłady brzegowe określone są rozkładem wielomianowym ze zmniejszoną liczbą zmiennych losowych) wiemy, że prawdopodobieństwo braku rozpadu opisane jest rozkładem dwumianowym z parametrem
k £ P=l-),p=1l--) i=1
k
=
k
£
l
mA,
gdzie
i=l
A= i
=]
Aj.
Wcześniejsze wyniki niniejszego rozdziału natychmiast prowadzą nas do wniosku, że
prawdopodobieństwo braku rozpadu w przedziale czasu [0; £] dane jest wyrażeniem
Q() = exp(—At). Oznacza to, że jeśli za No przyjmiemy liczbę jąder typu J w chwili t = 0, to po czasie
t zostanie ich
N(t) = Noexp(—At). Te, które się rozpadły, a liczba ich wynosi No — Noexp(—At)
= No (1 — exp(—At)),
przeobrażą się w jądra J; z prawdopodobieństwami danymi przez stosunki Pi
Aj
k
A;
——
A
k
2,Pi
Dh:
i=l
i=l
intensywności przejść do danego kanału i całkowitej intensywności, co daje liczby N,
jąder J;
A;
N, (1) = No (l — exp(—A1)). Zauważmy, że liczby N, jąder spełniają następujące równania różniczkowe:
dN;
gp = MN.
dła
i=12....,k,
|
gdzie
N() = No— 2 - NiC).
Należy zwrócić uwagę na jedną zasadzkę, jaka czyha na każdego, kto pierwszy raz spotyka się z tego typu problemem. Otóż w pierwszym odruchu chciałoby się powiedzieć, że prawdopodobieństwo przejścia J — J; określone jest przez intensywność A; I — exp(—A;t).
5.3. Rozkład wykładniczy
237
Gdyby to była prawda, to w żaden sposób nie moglibyśmy odtworzyć liczby jąder J,
które zniknęły, z liczb jąder J;: k
k
i=l
i=l
> Nil) =No)
(l — exp(-A,t)) £ No (1 — exp(—Ar)).
Oznaczałoby to ponadto, że jądro atomowe ma wiele czasów życia i czas ten zależy od
tego, do jakiego kanału się ono rozpadnie. Nie jest to prawda. Czas życia T = A""! jądra atomowego lub cząstki elementarnej możemy wyznaczyć z danych odnoszących się do
dowolnego, wybranego kanału rozpadu i nie potrzebujemy do tego znajomości stosunku rozgałęzień bądź intensywności A,. Wielkość ta będzie decydowała jedynie o tym, jaki ułamek wszystkich rozpadów trafi do naszej analizy. Można, dokonując pewnej personifikacji, powiedzieć, że jądro atomowe najpierw w ogóle decyduje się na rozpad, co mu
zabiera typowo czas T, a dopiero potem, w ostatniej chwili, podejmuje decyzję o tym, na co ma się rozpaść, przy czym każdą z ewentualności waży prawdopodobieństwem
A,/A. Wracając do przykładu z przejeżdżającymi samochodami z początku niniejszego rozdziału, sytuacja wygląda tak, że najpierw rejestrujemy fakt przejazdu koło nas samochodu, a dopiero później klasyfikujemy go jako osobowy, autobus, bądź karawan
pogrzebowy.
——
Przykład 5.3.8 Rozkład dróg oddziaływania Analogiczne rozważania odnoszą się do zjawiska rozproszenia cząstki podróżującej przez ośrodek. Tutaj, zamiast czasu życia Tr, mamy drogę swobodną A
A=—, on
zadaną przez całkowity przekrój czynny o na jakiekolwiek oddziaływanie w ośrodku o liczbie n centrów rozpraszających na jednostkę objętości. W wyniku rozpraszania cząstki ubywają z wiązki i po przebyciu drogi x pozostaje ich typowo
NG) = Noexp(->),
natomiast liczba cząstek rozpraszających się na i-ty sposób określona jest przez x
Ni(a) = No (l- exp(->)).
gdzie o, to cząstkowy przekrój czynny na reakcję przejścia do i-tego kanału.
.
Rozważmy
szeregowy
P
łańcuch
.
>
promieniotwórczy:
M
A2
J;,— Jj——+
T)
Ak—1
::: —
Jk — Ję+1, gdzie ostatni element szeregu jest stabilny. Przyjmijmy, że dysponujemy pojedynczym jądrem izotopu J;. Czas t oczekiwania na rozpad tego jądra dany jest
rozkładem
fl) =€(;A,) =he"".
238
5. Niektóre rozkłady
Czas t oczekiwania na rozpad jądra J» jest sumą czasów: t, oczekiwania na rozpad jądra
J, i czasu tę oczekiwania na rozpad izotopu J>, przy czym ten ostatni czas liczymy od
momentu rozpadu jądra J;. Dlatego rozkład f,(t) dany jest splotem t
t
Pl) = J filt — JE; hy) dt = Mn J e ul-ę-ef dt = 0
0
Aha
(e
A— ha
—e").
Analogiczną sumą trzech czasów ty, tą i tz zadany jest czas t oczekiwania na rozpad jądra Ją, dlatego rozkład fz(t) tego czasu znajdujemy także ze splotu funkcji wykładniczej z funkcją f(t): £
BG)
a
dała a
(1 (m
e
p,
36
__
e
At
(
—
)
boy
——|—ÓóÓó.(ę
„2%
(
Ast
-
_
©
At
,
)
W sytuacji, w której wszystkie stałe rozpadu są identyczne, z rozkładów tych powinniśmy
otrzymać stosowne rozkłady Erlanga, co istotnie występuje. Podobnym rekurencyjnym związkiem określony jest rozkład f;,,(t) czasu t oczekiwania na rozpad jądra J; 1: ft
t
fa) = J FMJEG —F; ka) dY = kge" J fiGe*" dr. 0
0
Rozkład f(t) czasu oczekiwania na rozpad dowolnego z jąder J, dany jest sumą rozkładów dla wszystkich rozpadów: k
IOEDZEIO i=l
i rozkład ten unormowany jest do liczby k niestabilnych izotopów w szeregu:
| rod=k 0
gdyż jedno jądro izotopu J; prowadzi do obserwacji k rozpadów.
Zajmiemy się teraz aktywnościami poszczególnych izotopów w próbce. Aktywnością
nazywamy aktualną szybkość, z jaką dokonuje się rozpad; opisuje ona liczbę aktów rozpadu jąder wybranego izotopu w jednostce czasu. Liczbę An;(t) rozpadów izotopu J; w przedziale czasu Aż otrzymujemy, mnożąc prawdopodobieństwo /f;(ż)A£ rozpadu
jądra tego izotopu przez liczbę No wszystkich jąder w próbce: An; (t) = Nof; G)AŁ, co wyznacza aktywność A; (£)
A,() = dn, Ę — Nofi(t).
- 5.3. Rozkład wykładniczy
239
Z aktywności możemy uzyskać liczby N;(t) jąder każdego z izotopów w próbce w chwili
t. Zacznijmy od izotopu J;, którego może tylko ubywać z próbki, jako że jest on pierwszy w szeregu. Obserwowana liczba A;(ż)A£ jego rozpadów w czasie Aż powoduje zmianę —AN|(t) liczby jego jąder w próbce, skąd t
|
d
= -A;()=-Mfit)
gw
N(t)=N—-
*%
|
M
dt — Noe *",
AO
0
gdzie na równanie różniczkowe nałożyliśmy warunek początkowy N/;(t — 0) =M. Dla izotopu Ją pełna zmiana ANo(t) liczby jąder składa się z dwóch elementów: w czasie Aż zmniejsza się ich liczba o Aa(ż)At jąder z powodu rozpadu i przybywa ich
liczba A;(ż)At z rozpadów jąder macierzystych: ANa(t) = A;(1)AŁ — Az(t)At
d
©
q 20)
= A,(t) — Ao(t) = Nof)
— Nofalt).
Scałkujemy to równanie z oczywistym warunkiem początkowym N>(t = 0) =0: |
£
N,(t) = No
£
J f() dt — J f(t) dr
|
0
0 t
=
No
r
t
|
(t')
dt
— A» J
0
e łał
Ja
0
(t')e
dt” |
dt
0
Zmienimy kołejność całkowania w całce podwójnej: t
je 0
t'
t
t
| | ear] ||0 moOear|ar=|0 roo" |
ar
t
t
= J fi'yes" (e! — ea") gr” 1
Uś
2
H
0 t
l
,
t
l
dt + — J N(G)dr J file" =-—0* Aa | A 0
1 podstawimy N,(t) = Ny
J ft)dr
+e 77 J f(t)e>? dr — | ft) dr
0
0 t
=
Ne *7
Ja 0
0
(t)e*? dr'.
0
240
5. Niektóre rozkłady
Ponieważ jednocześnie zachodzi
Nofi(t) = Nohue *" = AN, (1),
więc
t
N,(t)
=
A1e77
J
dt.
0
Obowiązują także związki: At)
N,(t e"
= NM)
= AN (1),
A>(t) = Nofa(t) = None ** J ft)e* dt = XąNa(t), 0 dlatego równanie rządzące zachowaniem się liczby jąder izotopu Ją ma postać d q, 020)
= ArNy(t) —
2 N(t).
Analogiczne równania otrzymujemy i dla liczb N;(t) jąder następnych, niestabilnych izotopów: d d
iH1(6) =A,N;(t) — Ara Nię1(t),
: i=1,2,...,k—1.
Równanie to będzie słuszne także i dla ostatniego, stabilnego izotopu, jeśli tylko przyj-
miemy, że jego czas życia jest nieskończony, a tym samym intensywność A;,,, dla niego
jest równa zeru. Sposób, w jaki rozwiązaliśmy problem liczby jąder izotopu Ją, podpowiada nam, że ogólne rozwiązanie ma rekurencyjną postać: t
Ni+1(£)
= Aje *+"
J
N;(t e"
dt,
Il=l,2,..
„k — l,
0
z tym, że
Nel) =
ł
J NC) dr,
0 co wynika bezpośrednio z równania określającego liczbę jąder tego izotopu lub podstawienia A,,j =O. Podamy teraz jawne
postaci
wzorów
na liczby jąder dla najprostszego
A —% B —> C, w którym izotop C jest stabilny: N4(t) = Nyexp(—Aą4t),
Ns(t) = NO NCQ)
= Na
A AĄ
(
—
—— AB (exp(—Agt) — exp(-Aat)), 1 —
—A4t at)
EE A
_ exp( —Apt) z
— aż A
4B
—A_t m).
szeregu
5.3. Rozkład wykładniczy
241
1 odpowiadające im rozkłady dla poszczególnych izotopów:
Ja(t) = Aa exp(-Aat), A AA B
fB(t) = ———
AA — AB
(exp(—Agt) — exp(—Aat)).
Rozważymy teraz otrzymane wyniki w przypadku dwóch skrajnych relacji między stałymi rozpadu. Pierwsza to ta, gdy Aą K Ap, czyli gdy czas życia jądra A jest znacznie dłuższy od czasu życia jądra B. Liczba jąder B po czasie £ to R or AA AĄ Ng(t) = No —— exp(—A4t) = —NA4(t) AB
lub inaczej
AB
Np(t)Ag = Ny(t)AĄ.
Widzimy, że obfitość Npg(t) jąder B jest proporcjonalna do liczby jąder A. O szeregu,
który zachowuje się w ten sposób, mówimy, że znajduje się w równowadze promienio-
twórczej, zwanej też wiekową. Sytuacja taka powstaje np. w przypadku rozpadu uranu o czasie życia 1, 4: 10'” lat, którego jednym z produktów rozpadu jest rad o czasie życia
5.107 lat. Z warunku równowagi wiekowej wynika, że w 1 gramie uranu znajduje się 3,4.1077 gramów radu, co tłumaczy, dlaczego małżeństwo Maria i Piotr Curie musiało
I
—
©
a
*
szybkość rozpadu
przerobić dobre parę ton rudy uranowej, aby wydobyć z niej jeden gram radu.
0,01
0,001
| czas £
Rys. 5.16. Ilustracja równowagi wiekowej — jądro macierzyste ma znacznie dłuższy czas życia niż jądro potomne
Ilustracja równowagi wiekowej przedstawiona jest na wykresie 5.16, gdzie przyjęto, że Aą = 0,05, natomiast Ag = 1 i wykreślone są Ścisłe postacie zależności aktywności
od czasu. I tak krzywa a przedstawia aktywność substancji A, krzywa b — samoistną aktywność substancji B, krzywa c to aktywność substancji B w próbce, natomiast krzywa
d to łączna aktywność próbki, czyli suma krzywych a oraz c. Widzimy, że dla cza-
242
5. Niektóre rozkłady
sów powyżej dwóch jednostek krzywe a oraz c, a tym samym 1d, stają się do siebie
równoległe. Rozważmy teraz przypadek, gdy A4 >> Ap, czyli gdy czas życia jądra A jest znacz-
nie krótszy od czasu życia jądra B. Oznacza to, że wyjściowy izotop A rozpada się znacznie szybciej niż powstały z niego produkt. Układ taki jest rządzony w przybliżeniu równaniem Ng(t) = N,exp(—ABt), przy czym
NA(t) = Noexp(-A4t) K Npg(t). Popatrzmy na rys 5.17, na którym przyjęto Aąq =
I, natomiast Ag
= 0,05 i gdzie
krzywa a to aktywność substancji A, która bardzo szybko zanika, krzywa b to samoistna
aktywność substancji B, krzywa c to aktywność substancji B w próbce, a krzywa d to pełna aktywność próbki, czyli suma krzywych a oraz c. Widzimy, że po paru jednostkach czasu życia krótkożyciowej substancji mamy praktycznie w próbce jedynie substancję B, która decyduje o aktywności próbki, tak jak dla krótkich czasów obserwacji aktywność
P>
szybkość rozpadu
próbki jest praktycznie określona przez aktywność substancji A.
0,01
0,001 czas £
Rys. 5.17. Ilustracja relacji obfitości jąder izotopów w przypadku, gdy jądro macierzyste ma znacznie
krótszy czas życia niż jądro potomne
Powyższe rozważania, mimo
problemami
że ilustrowane szeregami promieniotwórczymi, czyli
w pełni rozwiązanymi przez A. H. Becquerela, małżonków
Curie i im
współczesnych, wcale nie tracą na aktualności, jako że mają swoje istotne zastosowania
w rozpadach cząstek elementarnych i w wielu reakcjach jądrowych, w których powstają jądra wzbudzone, które następnie kaskadują do stanu podstawowego przez szereg stanów pośrednich. Wyniki zarysowane w tym rozdziałe stanowią częstokroć podstawowe, startowe wzory w dziedzinie spektroskopii jądrowej, przy analizie takich stanów wzbudzonych.
5.4. Rozkład Poissona
——
243
54. Rozkład Poissona
5.4.1. Wyprowadzenie Rozważmy proces probabilistyczny, polegający na pojawianiu się zdarzeń losowych, takich jak wjazd samochodu na rynek miejski lub rozpad wzbudzonego jądra, czyli podlegających rozkładowi wykładniczemu. Jak pokazaliśmy w podrozdziale 5.3.3, rozkład wykładniczy nie ma pamięci, więc po każdym sygnale historia powtarza się od nowa,
dokładnie tak, jakbyśmy zaczynali oczekiwanie na pierwsze zdarzenie, czyli pierwszy
sygnał. Niech £ będzie zadanym, całkowitym czasem obserwacji, w którym może się pojawić k(t) =0, 1,2,... sygnałów. Jakie jest prawdopodobieństwo każdej z tych moż-
liwości? Wprowadźmy oznaczenie: Ty = ty; + b + '*: + tę dla wielkości określającej moment przybycia k-tego sygnału. Zdarzenie k(t) = k wystąpi wtedy i tylko wtedy, gdy T4 < t oraz jednocześnie [,,;, > t, a więc jest określone przez prawdopodobieństwo P(T < t; [hs; > t). Aby to prawdopodobieństwo znaleźć, musimy określić łączną funkcję gęstości prawdopodobieństwa obu zmiennych losowych [4 oraz [;,,. Z przykładu 5.3.6 wiemy, że zmienna losowa T, opisana jest rozkładem Erlanga (5.42) Gx(T%;
,
A)
=
(AT)! tk DIŚ
—AT
Wiemy również, że [,,, = Ty + ty,,. Łatwo możemy wypisać łączną funkcję gęstości dla zmiennych T, oraz ty+;, jako że zmienne te są niezależne. Jest ona iloczynem funkcji
€4(T4; A) oraz rozkładu wykładniczego:
AT)"
—AL exp( —AT)A k)A exP(ZAK1)
k-D!
AT)"
=4A
(k- DI
exp(—AT;1).
Ponieważ jakobian przejścia od zmiennych (T;, t4+1) do zmiennych (T4, 14,4) jest jednostkowy, więc ostateczna postać poszukiwanego rozkładu to (AT,)*"!
fG, Tra; X) = RI
exp(-AT)
dla
0 £):
t
P(k
= k;
At)
=
P(T;
t) =
J
|
ra.
Tę;
A) dThi
d7;
0 ,
=)
(AT,
ye"!
(k z DI d7; 0
00
|DZACA
_
t
Otrzymaliśmy w ten sposób (przy oznaczeniu
COW k!
|
i. = At) rozkład Poissona k
P,(1) = qi” a w podrozdziale 5.2.3 pokazaliśmy, że jest on poprawnie unormowany.
(5.44)
244
5. Niektóre rozkłady
0,35 r 0,30 0,25 | ż 2 N
0,20 |0,15 0,10
0,05 GW
0,00
0.1
2
3
4
5
EN
6
liczba k samochodów
7
8
9 00
Rys. 5.18. Rozkład Poissona (punkty) i częstość występowania liczby k samochodów w dziesięciosekun-
dowych przedziałach czasu
Ilustracji powyższych rozważań dostarczają dane, które posłużyły do wykreślenia rozkładu 5.10 czasów oczekiwania na samochody w podrozdziale 5.3. Jeśli policzymy liczbę mijających nas samochodów w np. dziesięciosekundowych przedziałach czasu 1 wykreślimy krotności zaobserwowania zerowej liczby samochodów, jednego, dwóch itd. w takim obszarze czasowym, to uzyskamy wynik przedstawiony na histogramie 5.18. Punkty na wykresie odpowiadają rozkładowi Poissona z parametrem A = £ ' = 0,193 s”! dla £ = 10 s. Widzimy, że zgodność danych z modelem jest bardzo dobra. ——
Przykład 5.4.1 Liczba par jonów w detektorze gazowym Detekcja cząstki naładowanej w liczniku gazowym odbywa się na zasadzie rejestracji sygnału spowodowanego spływającymi do elektrody elektronami powstałymi
w wyniku jonizacji cząsteczek mieszanki gazowej. Proces tej jonizacji ma charakter statystyczny w tym sensie, że liczba par elektron-jon, wytworzonych przez pierwotną cząstkę, podlega rozkładowi Poissona z pewnym nieznanym parametrem ji, którego wartość, jak to wynika z formy tego rozkładu, określa w przybliżeniu modę tego rozkładu. Oznacza to, że im większa jest jego wartość, tym, typowo,
powstanie więcej par elektron-jon, licznik będzie miał większą wydajność, a my
wydamy mniej pieniędzy na wzmocnienie sygnału. Dlatego też przy jego konstrukcji ważna jest znajomość tego parametru. Przypuśćmy, że dysponujemy układem
doświadczalnym, w którym potrafimy określić liczbę n cząstek przechodzących przez licznik. Liczba k cząstek zarejestrowanych nie musi być jednak równa tej liczbie, gdyż z powodu fluktuacji statystycznej niektóre z cząstek mogą przejść przez licznik bez wytworzenia pary elektron-jon. Przypuśćmy także, że elektro-
nika, którą dysponujemy, jest w stanie dostarczyć nam jedynie informacji o samym fakcie przejścia cząstki przez licznik, bez żadnych bliższych danych, np. o całkowitym zdeponowanym ładunku, który byłby miarą liczby k owych par.
5,4. Rozkład Poissona
Przy zadanej liczbie n wszystkich cząstek przechodzących przez licznik, liczba k zarejestrowanych cząstek określona jest rozkładem dwumianowym (5.10), któ-
rego parametr p podaje nam szansę zarejestrowania cząstki w pojedynczej próbie Bernoulliego. Z drugiej strony, szansa, że cząstka nie zostanie w takiej próbie zarejestrowana przez licznik, określona jest przez pierwszy wyraz rozkładu Poissona: l-p=e". Pozwala to nam określić estymatę parametru u przez estymatę parametru p roz-
kładu dwumianowego: l-p=e*
=>
r
KL=—ln(l — p), A
gdzie
A
p=—.
.
a
k
ńn
Przybliżoną niepewność tak zadanej estymaty znajdujemy ze wzorów (3.19) oraz
(5.20):
>
a
$$
d nA — 5) |
(ab
Si
—
—
= |
>
s?
e
Błąd względny tej estymaty to:
=
l
I. 1-5)
a-pbin-1
m_A]A. Bo i Aafn-10-5
,
—
————---—
7
—
l
p
n=10-5)
—___—_
,
|explij-1_ |Aen-1l) Jn-l
6 5
=R 41
—
31
2
+
!
-
o
0
l
0,0
0,5
l
i
l
1,0
1,5
2,0
L
2,5
|
3,0
l
3,5
I
4,0
x
Rys. 5.19. Zależność niepewności względnej estymaty parametru m rozkładu Poissona od wartości tego parametru
Wykres
funkcji
f(x)
podany jest na rys. 5.19. Jej przybliżoną,
minimalną
A
L
[12
wartość 1,24 znajdujemy dla argumentu ji = 1,6, a stąd minimalna niepewność względna A 1,24 n-l
Oczywiście wielkości parametru u jesteśmy w stanie kontrolować tylko w pewnych granicach. Wynik powyższy oznacza, że jeśli zbudujemy detektor, w którym
parametr ten wynosi około 1,6, to nasza metoda pomiaru znajdzie go z najmniej-
szym błędem. Taka specjałna wartość parametru u nie musi być jednak korzystna z punktu widzenia zastosowań detektora. r
245
246
5. Niektóre rozkłady
W podrozdziale 5.3 otrzymaliśmy rozkład wykładniczy z rozkładu dwumianowego, rozważając prawdopodobieństwo braku zdarzenia. Zapytajmy się teraz o prawdopodobieństwo wystąpienia dokładnie k zdarzeń w przedziale czasu [0; t]. Prawdopodobieństwo to zadane jest rozkładem dwumianowym (5.10): 1 BG. P) = grypy U - PT" = gra
Dln 2)--0-k+p'd- py".
!!
Tak jak i przy wyprowadzeniu rozkładu wykładniczego w podrozdziale 5.3, podzielimy
cały przedział czasowy t na bardzo dużą liczbę n bardzo małych odcinków czasu Ać i wybierzemy prawdopodobieństwo sukcesu w pojedynczej próbie w formie (5.35):
At n
p=—,
a uzyskamy
1
B,m, p) =—nln k!
—1):::(n-k+1)|
ArY*
— n
AŁYT*
1-—
n
-r0()(E7)er(-2)(-2)
Dokonując przejścia granicznego z liczbą n prób do nieskończoności, zachowując jed-
nocześnie stałą wartość k, otrzymamy B,(n, p)
2
P,(At) =
Porównanie obu rozkładów prezentuje wykres 5.9.
COREY k!
|
(5.45)
Wyprowadzenie to przedstawił po raz pierwszy francuski naukowiec Simeon De-
nis Poisson w 1837 roku w swym dziele Recherches sur la Probabilitć des Jugements en Matićre Criminelle et en Matiere Civile, Próćcćdóes des Regeles Gćnerales du Calcul des Probabilitćs. Rezultat ten został jednak zapomniany i dopiero w 1898 roku przypomniany pracą Das Gesetz der kleinen Zahlen L. Bortkiewicza, który wykorzystał go do analizy liczby śmiertelnych przypadków spowodo-
wanych kopnięciem przez konie, jakie pojawiły się w ciągu dwudziestu lat w czternastu korpusach kawalerii armii pruskiej.
Jak widzimy, rozkład Poissona jest Ściśle związany z rozkładem wykładniczym — oba powstają z tych samych założeń.
W szczególności, dla specjalnej wartości k = O zmiennej loso-
wej z rozkładu dwumianowego otrzymujemy wyrażenie, z którego wywiedliśmy rozkład wykładniczy.
Obliczenia prowadzące do (5.44) i wyprowadzenie (5.45)
Simeon Denis Poisson,
1781-1840
podpowiadają nam zastosowania uzyskanego rozkładu: wszędzie tam, gdzie zjawiska pojawiają się losowo w czasie, a czas oczekiwania na nie określony jest rozkładem wykładniczym, liczba tych zjawisk w zadanym przedziale czasowym podleA . o. , o gać będzie rozkładowi Poissona. Dodatkowo, ponieważ rozkład Poissona jest rozkładem granicznym dla rozkładu dwumiano-
5,4. Rozkład Poissona
wego, gdy prawdopodobieństwo
247
sukcesu w pojedynczej próbie jest znikome, oczeku-
jemy, że rozkład Poissona znajdzie również zastosowanie do opisu rzadkich zdarzeń. Istotnie, rozkład ten wydaje się dobrze opisywać takie zjawiska, jak liczbę samobójstw, katastrof i burz w ciągu roku,
a także liczbę błędów
drukarskich
na stronie, liczbę
sprzedanych sztuk danego towaru w sklepie w tygodniu (z dokładnością do sezonowych wyprzedaży i okresów Świątecznej gorączki) i liczbę rozpadów jądrowych obserwowanych przez Rutherforda i Geigera w ich doświadczeniu.
Jako ciekawostkę wyprowadzimy rozkład Poissona z rozkładu ujemnego dwumianowego (5.14). W tym celu zapiszemy rozkład ten w postaci n--m—l
U„(n, p) = ( =
n-l
|
0 +1)
(n+m—
1)!
pra — p)" = mazpr? +2):
,
477
—1+ m)p'(l— p)”,
a następnie wprowadzimy parametr j« zdefiniowany wartością oczekiwaną (5.22): A=R
l-p po”
Ze związku tego obliczymy wielkość p i podstawimy ją do rozkładu, a wtedy u" U„(n,
p)
=
n
n+ln+2
min+un+un+
m (1
u
n+pu
LL
)
n+uj)
Jeśli wykonamy przejście graniczne z liczbą n prób do nieskończoności i jednocześnie z parametrem p prawdopodobieństwa sukcesu w pojedynczej próbie do jedności, ale w taki sposób, by wartość parametru w była ustalona, to przy ustalonej wartości zmiennej m znajdziemy
m
U„(n, p)
— n>00
P,(L)
=
Heh, m!
Wyprowadzenie to jest o tyle interesujące, że jest ono komplementarne do przejścia granicznego (5.45) — gdy „zalewają” nas sukcesy, wtedy porażki zaczynają być zdarzeniami
godnymi odnotowania. Relację między rozkładem Poissona a ujemnym dwumianowym przedstawia wykres 5.20, na którym dobrze widać dyskutowaną zbieżność. Pouczające jest wyprowadzenie rozkładu Poissona jeszcze inną techniką. Niech P;(t) oznacza prawdopodobieństwo zarejestrowania k zdarzeń w przedziałe czasu [0; £]. Wydłużmy ten przedział o krótki odstęp czasowy Az i zapytajmy o prawdopodobieństwo P,(t + At). Aby w tym przedziale czasu wystąpiło k zdarzeń, warunkiem koniecznym i dostatecznym jest, aby został spełniony jeden z następujących warunków: w przedziale
[0,żt]
nastąpiło
w przedziale
[0,4]
nastąpiło
w przedziale
[0,£]
w przedziale
[0,t]
k
zdarzeń,
w przedziale Aż
żadne,
k—1 _
zdarzeń,
w przedziale Aż
jedno,
nastąpiło
k—2
zdarzeń,
w przedziale Aż
dwa,
nastąpiło
0
zdarzeń,
w przedziale At
k zdarzeń.
248
5. Niektóre rozkłady
0,14 p 0,12 0,10 0,08 0,06 0,04 0,02 0,00 liczba m porażek Rys. 5.20. Porównanie rozkładu Poissona (słupki) i ujemnego dwumianowego (punkty)
Ponieważ powyższe wydarzenia wykluczają się i są niezależne, poszukiwane prawdopodobieństwo możemy przedstawić jako sumę
F.(t+At) = P,(t) Po(At)+ Pi_; (1) P,(At)+ Pi-2(t) P>(At)+: - + Po(t) P.(At). (5.46) Wzorem naszego pierwotnego rozumowania (5.35) przyjmiemy, że P, (At) =AAt, gdzie A jest pewnym współczynnikiem proporcjonalności, co daje
dla
P,(At) = a, AAt)'
i=2,3,4,...,
(5.47)
gdzie a, to pewne nieznane, czysto liczbowe współczynniki proporcjonalności, nieza-
leżne od przedziału czasu i od intensywności A.
Rozważmy przypadek k = 0. Prawdopodobieństwo
nienie jedności:
Po(At) uzyskamy jako dopeł-
Po(A1) =1-AAt-aQAL) — az(AAt) — :--.
Równość ta wyznacza jednocześnie warunek początkowy Py(0) = 1. Niezależne rozumowanie przekonuje nas, że abyśmy nie mieli zdarzeń w przedziale od zera do t + At,
nie może nastąpić żadne zdarzenie od chwili zero do chwili £, jak i od chwili £ do chwili £t + At:
Py(t + At) = Py(t) Po(At) = Po(t) (1 — AAt — a, AAL)” — ---) lub
Po(t + At) — Py(t) = — Pot) (AAt + (AA) + ---),
a po podzieleniu obu stron równania przez At i przejściu do zera z tą wielkością do-
chodzimy do równania
dPo(t) dt
=
—AFo(t),
5,4. Rozkład Poissona
249
którego rozwiązanie, spełniające zadany warunek początkowy Py(0) = 1, ma postać
Plt)=e"*. Wróćmy teraz do wyższych wartości zmiennej losowej k. Dla wartości początkowej prawdopodobieństw P,(0) dla k > I otrzymujemy P,(0) =0. Jak dla przypadku k =0, odejmiemy od obu stron równania (5.46) prawdopodobieństwo P;(ż):
P,(t + At) — P(t) = Pilne"! + P_4(MAAŁ + :-- + Poltjaz(AAL)* — P;(t)
= -P(t) (1 —e74') + P_(COAAŁ +:*: + PoltrazAAL)*, a następnie podzielimy obie strony równości przez Aż i przejdziemy do granicy, w wyniku czego otrzymamy układ równań różniczkowych, zwanych równaniami kinetycznymi:
dP;(t)
= —AP(t) + AP;
dt
(1).
(5.48)
Jeśli do równania tego podstawimy
P,(©) = fe(tje"*, to otrzymamy
gdzie
i = Afki(0), pO=L
a ponadto wiemy,
f(0=0
(5.49)
da
k=1,2,3,...,
że
fltj=l. Przedstawimy teraz pewną technikę rozwiązywania równania różniczkowo-różnico-
wego (5.49). Technika ta, zwana metodą funkcji tworzącej, polega na pomnożeniu tego
równania obustronnie przez wielkość z*: zł df(t)
= Aż fe—1(1) = Azz*"' fe_1(1)
dź
i zsumowaniu wszystkich tych równań względem indeksu k: 00
d
3 z” ae k=l
0
= Aż 3 zł fk-1(0).
(5.50)
k=l
Wprowadzimy teraz funkcję tworzącą
UDEDZEGSOEDZEŁIO! k=l
k=0
(5.51)
250
5, Niektóre rozkłady
Funkcja ta spełnia warunek początkowy H (z, t =0) =1 i pozwala zapisać lewą stronę równania (5.50) w postaci e
a
Ź
=): a
RE
DYR
k=l
Jx()
k=0
=
25
(z TO)
k=0
Joz FG) = He 1), 0 *
gdyż funkcja fo jest stała, co ostatecznie daje nam nową postać równania (5.50)
|
d —H j (2,Hz: t) 1) ==AzH(Z, AZH
Rozwiązanie tego równania,
jest przez
(2,1) t).
spełniające warunek początkowy
H(z,t
= 0) =
I, dane
H (z, t) = explazt).
Z definicji (5.51) funkcji tworzącej otrzymujemy, że l dź
10 = g zz EEO| =p
(At)*
Składając wszystkie wyniki razem, otrzymujemy ponownie rozkład Poissona. -——
Przykład 5.4.2 Zagadnienie Erlanga Aby przekonać Czytelnika, że równania kinetyczne nie służą wyłącznie kolejnemu wyprowadzeniu rozkładu Poissona, zastosujemy je do praktycznego zagadnienia
równoległego przetwarzania danych w czasie rzeczywistym. W przykładzie 5.3.6 wskazaliśmy, że jeśli czas analizy pojedynczego przypadku stanowi istotny ułamek odstępu czasowego
między
momentami
nadchodzenia tych przypadków, to
nieuchronnie czekają nas duże straty. Wyjściem jest wtedy buforowanie nadcho-
dzących danych, a w skrajnym przypadku równoległe przetwarzanie. Rozważymy teraz szczegółowo tę drugą możliwość. Przyjmiemy następujący model zagadnienia. Sygnały nadchodzą w czasie z rozkładem wykładniczym charakteryzowanym parametrem intensywności A.
Czas analizy każdego sygnału także podlega rozkładowi wykładniczemu z pa-
rametrem intensywności 7 i dysponujemy dwoma identycznymi urządzeniami do analizy sygnałów. Założenie o dwóch urządzeniach jest uproszczeniem, od którego
Czytelnik potrafi odstąpić, jeśli zrozumie detale mniej skomplikowanego układu. Symbolami po(t), p;(t), pa(t) oznaczymy prawdopodobieństwo, że w chwili £ żadne, jedno lub też oba urządzenia są zajęte obsługą sygnałów. Rozważymy moment czasu £ + Aż, przy czym przedział czasu At jest na tyle
krótki, że w jego trakcie może, co najwyżej, nastąpić zakończenie analizy sygnału
lub pojawić się nowy sygnał. W chwili £ + Aż żadne z urządzeń nie będzie zajęte,
jeśli nastąpi jedno z trzech możliwych zdarzeń:
5,4. Rozkład Poissona
Oba urządzenia w chwili ż były wolne i w przedziale czasu Aż nie nadszedł żaden sygnał; prawdopodobieństwo takiego zdarzenia wynosi
«
Poll) Po>o(At) = Po(t)Po(AAŁ) = po(t)e ** £ po(t)(1 — AA). Jedno z urządzeń w chwili t było zajęte, ale w przedziale czasu
e
At zakoń-
czyło pracę, a także nie pojawił się nowy sygnał; prawdopodobieństwo takiego zdarzenia wynosi
POP-o(At) = pit) (1-e”*) PAAŁ) E piKONAŁ(1 — AAL).
Oba urządzenia w chwili £ były zajęte, lecz w przedziale czasu At oba ukoń-
e
czyły pracę i nie pojawił się nowy sygnał; prawdopodobieństwo takiego zda-
rzenia wynosi
POPo(AD) = Pl) (I - 273) PAAN E PONAD — AA).
Prawdopodobieństwo, że w chwili £ + Aż żadne z urządzeń nie będzie zajęte, jest
sumą owych trzech prawdopodobieństw:
Polt + At) = po(t)Po>o(A£) + pi) Pi>o(At) + Pa(£) Pa_>o( At)
2 pO
— AMAN) + prMOMNAŁQ —AAK) + PONAŁA
— AAL).
Odejmując od obu stron równości prawdopodobieństwo py(t), dzieląc przez At i przechodząc z tą wielkością do zera, otrzymujemy równanie różniczkowe
d
ŁA
= —Apo(t) + np. (4).
Zwróćmy uwagę na brak składnika z prawdopodobieństwem p,(t) w otrzymanym równaniu różniczkowym. Szansa wystąpienia dwóch zdarzeń w przedziale czasu
At jest małą wyższego rzędu (tu zadaną kwadratem czasu At) 1 przy przejściu granicznym znika. Dlatego np. w pierwszym punkcie naszego wyliczenia nie mu-
sieliśmy się martwić o zdarzenie następującego typu: oba urządzenia w chwili t były wolne, a w przedziale czasu At pojawiły się dwa sygnały, których analiza została ukończona przed upływem tego czasu. Prawdopodobieństwo takiego
zdarzenia byłoby rzędu (A£)* i nie dostarczyłoby ono w granicy przyczynku do pochodnej prawdopodobieństwa py(t) (zachowanie to zaobserwowaliśmy już przy wyprowadzaniu
równania (5.48)). To tłumaczy nasze zastrzeżenie:
czas At jest
na tyle krótki, że w jego trakcie może, co najwyżej, nastąpić zakończenie analizy
sygnału lub pojawienie się nowego sygnału. Oznacza to także, że przy dalszych rozważaniach możemy liberalnie traktować zdarzenia wielokrotne — nawet jeśli je uwzględnimy, to nie będą one miały wpływu na ostateczny rezultat.
Dokonajmy identycznej analizy prawdopodobieństwa p,(t). W momencie £ +At jedno z urządzeń będzie analizowało sygnał, jeśli wystąpi jedna z następujących możliwości: e
Oba urządzenia w chwili £ były wolne i w przedziale czasu Aż nadszedł jeden
sygnał; prawdopodobieństwo takiego zdarzenia wynosi
Pot) Poi (At) = poltH)P,AAM) = poltjAAte"**" e
po(DAAŁ(1 — AAL).
Jedno z urządzeń w chwili £ było zajęte i w przedziale czasu Af nie zakończyło
swej pracy, a także nie pojawił się nowy sygnał; prawdopodobieństwo takiego
251
252
5. Niektóre rozkłady
zdarzenia wynosi
P+) p-1(AL) = piltje ""P,AAt)
e
p;(K)A — (9 + A)AL),
Oba urządzenia w chwili t były zajęte, lecz w przedziale czasu A jedno z nich
ukończyło pracę i nie pojawił się nowy zdarzenia wynosi
sygnał; prawdopodobieństwo takiego
P20_)P2>1(At) = p(t) (2(1—e7"*) PAN)
£ Zp(HNAŁ(I — AAJ),
a czynnik 2 pojawia się z uwagi na to, że mamy dwa urządzenia.
Prawdopodobieństwo, że w chwili ż + At jedno z urządzeń nie będzie zajęte, jest sumą owych trzech prawdopodobieństw: P:(t + At) = po(t) Po>(At) + piG) PCA) = Po(OAAŁ(1 — AA) + pCO
+ PG) P2_(At)
— (7 + A)JAL) + Zpr(K)NAŁ( — AAt).
Tak jak poprzednio, otrzymujemy równanie różniczkowe dla prawdopodobieństwa P1(t):
d PO
= APo(t) — (n + A) p;(t) + 2np(t).
W końcu przeprowadźmy analizę prawdopodobieństwa p>(t). W momencie t-+ Ar oba urządzenia będą analizowały sygnały, jeśli wystąpi jedna z następujących
możliwości: e Oba urządzenia w chwili t były wolne i w przedziale czasu A: nadeszły dwa sygnały; prawdopodobieństwo takiego zdarzenia wynosi e
e
Po(t) Po-2(At) = po(t)P,AAŁ) =; pot) AAL)?e** 2; py(YAAD?A — AMG).
Jedno z urządzeń w chwili £ było zajęte i było zajęte przez cały przedział czasu At, kiedy to pojawił się nowy sygnał; prawdopodobieństwo takiego zdarzenia wynosi
P()P2(Al) = pilDe"*"P,AAL) £ p, OAAŁ(A — AAND( — nat).
Oba urządzenia były zajęte przez cały przedział czasu At i pojawiła się dowolna
liczba (w tym zero) nowych sygnałów; prawdopodobieństwo takiego zdarzenia wynosi
P(OP>-z(AT) = py(t) (ET) £ p(D)( — ZNAŁ).
Dla prawdopodobieństwa p,(t) w chwili t + At otrzymujemy wyrażenie Pz(t + At) = po(t) Po>a(At) + pr) Pr>2(At) + Pa(t) P>_>(At) 1
= z PoOJAATYI — AAt) + PQAAŁQ
— AAL)(I — NAt) + pa(t)(1 — ZNAŁ)
i równanie różniczkowe d g;P2 (t) =Ap;(t) — Żnpa(t).
5,4. Rozkład Poissona
Doskonałej kontroli naszego rozumowania dostarczają następujące równości:
Po>o(At) + Po>1(At) + Po2(A1) =1+0 ((Ań)”), Pi>o(At) + pi>i(AD) + pr2(At) 1+0
((An)”),
P>o(At) + P>i(At) + Po(At) =1+0((An)7), które zapewniają nas, że bez względu na to, w jakim stanie w danej chwili £ się
znajdujemy, w jakimś stanie w chwili £ + Aż będziemy się musieli znaleźć: szansa przejścia do jakiegokolwiek stanu jest gwarantowana. Jest to oczywisty warunek
normalizacyjny, jaki muszą spełniać prawdopodobieństwa przejścia p,.,;. Warunki
te gwarantują nam, że suma prawdopodobieństw po(t), p;(t) oraz p»(t) jest stała
w czasie, dzięki czemu możemy je unormować do jedności, czego potwierdzenie znajdujemy po dodaniu stronami wszystkich trzech równań różniczkowych: d
d
d
—q, Pol Po(t) ) ++ —j, 7:0) + —q, po(t Pl ) = —Apo(t) + np,(t) + Apo(t) — (7 + A)p1(t) + Znpa(t) + Ap; (t) — 2npa(t) =0O. Stoimy przed problemem rozwiązania układu trzech liniowych jednorodnych równań różniczkowych pierwszego rzędu. Jest to standardowe zadanie, omawiane
w każdym podręczniku analizy matematycznej, więc nie będziemy tutaj demonstrowali techniki postępowania. Zwrócimy jedynie uwagę Czytelnika na fakt, że warunek nietrywialnych rozwiązań tego układu prowadzi do wartości własnych macierzy układu równań, z których jedna jest równa zeru, a tym samym
każde
z prawdopodobieństw py(t), p,(t) oraz p(t), oprócz części zanikającej wykładniczo, będzie miało część niezależną od czasu. Oznacza to, że po początkowym uruchomieniu układu, którego dalsza ewolucja podyktowana jest zestawem warunków
początkowych, układ przejdzie w stan stacjonarny o rozwiązaniach niezależnych od owych warunków początkowych:
1,0 09 0,8 |
PX?
07 -| pó” 0,6 |
0,5 04 0,3 0,2
0,1
0,0
| | | -
2
pó”
PP
o
-
po
nA x=Afq
Rys. 5.21. Asymptotyczny kształt prawdopodobieństw p, (00) lub oba urządzenia będą zajęte, jako funkcja stosunku A/7
(k=0,1,2), że żadne, jedno
253
254
5. Niektóre rozkłady
A
1
(oo) __
nĄ
(00) __
qq
2
A?
n
(00) __
24?
2n2Ą n
2y
Przedstawione są one (krzywe pociągnięte grubszą linią) na wykresie jako funkcje stosunku x = A/n.
5.21
Ogólna postać prawdopodobieństwa asymptotycznego dla układu n urządzeń
równolegle analizujących nadchodzące sygnały zadana jest przez 1a (00)
*
_
k!
nk
k=0,1,2,...,n.
1a"
To iz=()
l.
n
Przetwarzanie równolegle może być kosztowne z uwagi na budowę dodat-
kowego urządzenia analizującego. Tańsza może się okazać metoda buforowania sygnałów, choć nie musi to być oczywiste — jeśli buforowanie będzie mało efektywne, wtedy wydłuży się czas trwania eksperymentu, a to pociągnie za sobą inne koszta. Rozważmy przypadek jednego procesora i jednego bufora, który przechowuje
sygnał do czasu zakończenia analizy poprzedniego, a gdy procesor jest wolny
w chwili nadejścia sygnału, bufor działa „,przezroczyście, przekazując mu ten sygnał niezwłocznie. Rozumowanie analogiczne do tego, jakie przeprowadziliśmy dla tandemu procesorów, prowadzi do następującego układu równań:
dP
4
= —AP
dP
gp = AP dP,
dr
A+ MPI +1,
= AP, — nP,
o asymptotycznych rozwiązaniach
A n
1 Py”
=
A A2 l+-+= nn
+ nP,,
Pi?
=
A A 2” l+—+= nn
A” n2 P2”
A> A 2” l+-+—= n 4
gdzie P/* opisuje prawdopodobieństwo, że żadne z urządzeń — ani procesor, ani bufor — nie są zajęte, P|*”) oznacza prawdopodobieństwo, że zajęty jest procesor, ale bufor jest wolny, a P;** podaje nam szansę, że zarówno procesor, jak i bufor
nie są dostępne. W ogólnym przypadku, gdy dysponujemy układem n buforów, rozwiązania asymptotyczne są następujące:
"5,4. Rozkład Poissona
PÓ=—L-
255
k=0,1,2,...,n.
Kształt rozwiązań P;* dla układu z jednym buforem przedstawiony jest na wykresie 5.21 (cieńsza krzywa). Widzimy, że choć zachowanie układu z buforem jest gorsze, zysk z zastosowania dodatkowego procesora nie jest dramatyczny. Prawdopodobieństwa P;* i py?” mogą być interesujące z powodów czysto
utylitarnych: jeśli są zbyt duże, to układy są zbyt intensywnie wykorzystywane,
a to będzie rzutowało na ich niezawodność. To, co interesuje fizyka przy rozważaniu obu wariantów analizy, to ich efektywność — jaka jest szansa utraty danych?
Jest to problem dość skomplikowany, nawet wtedy, gdy używamy jednego procesora o ustalonym czasie działania i bez dodatkowych buforów, czego przykład przedstawiamy w podrozdziale 5.4.4. Gdy interesuje nas układ z większą liczbą procesorów lub procesorów i buforów, wzory anałityczne stają się na tyle złożone, że z reguły prościej jest rozwiązać taki problem metodą Monte Carlo.
TT
Metoda równań kinetycznych poddaje się pewnemu uogólnieniu, polegającemu na tym, że wielkość A nie musi być wielkością stałą, lecz może być dowolną funkcją czasu A(t). Równania (5.48) definiujące prawdopodobieństwa P,(t) zachowują swoją moc, gdyż przy ich wprowadzaniu nie dokonywaliśmy ani operacji różniczkowania, ani całkowania, traktując wszędzie wielkość A jako mnożnik. Popatrzmy na równanie dP
a = AO P;(),
dła którego łatwo znajdujemy całkę spełniającą warunek początkowy: £
Pą(t) = exp
- | 0
dt | =exp(-A(t)).
0
Równanie
dP;,(t)
di
= —A(t)P;(t) + A(1) Px_i(£)
rozwiązujemy tą samą techniką jak poprzednio, dokonując podstawienia
P.(t) = fi(tje"*"*, co ostatecznie daje nam ponownie rozkład Poissona, tym razem w formie P,(t) =
(AG)at k!
|
Jest możliwe jeszcze inne uogólnienie rozkładu Poissona.
Przy wyprowadzaniu
rów-
nań kinetycznych założyliśmy, że prawdopodobieństwa pojawienia się wielu impulsów
256
5. Niektóre rozkłady
jednocześnie (w przedziale czasu Aż) są proporcjonalne do stosownych potęg prawdopodobieństwa pojawienia się jednego impulsu w tym przedziale czasu. W granicy A£ > 0 przyczynki od tych prawdopodobieństw znikają, co faktycznie oznacza, że nie dopuszczamy możliwości pojawiania się „wielokrotnych” zdarzeń. Gdybyśmy od tego założenia odstąpili i wprowadzili funkcje A; określające prawdopodobieństwo P;(A£) = A,AŁ, otrzymalibyśmy jeszcze inny rozkład, w którym zdarzenia pojawiają się nie tylko pojedynczo, ale parami, trójkami, .... Nie będziemy jednak prowadzili tu dalszego rozumowania w tym kierunku, a jedynie zachęcamy Czytelnika do samodzielnych obliczeń. Na zakończenie kwestii wyprowadzenia rozkładu Poissona rozważymy jeszcze jedno
zagadnienie. Wypisując wyrażenie (5.47) na P;(At), czyli prawdopodobieństwo wystąpienia liczby i zdarzeń w bardzo krótkim przedziale czasu Aż, powiedzieliśmy, że wielkości a; są pewnymi czysto liczbowymi współczynnikami niezależnymi od intensywności A. Obecnie widzimy, że współczynniki te to odwrotności funkcji silnia liczby zdarzeń. Czy możemy ten wynik zrozumieć? Przecież podstawowe prawa rachunku prawdopodobieństwa mówią, że jeśli prawdopodobieństwo wystąpienia zdarzenia określone
jest przez AAt, to szansa k-krotnego pojawienia się, dla przypadku zdarzeń niezależnych, zadana jest przez (AAt)*. Właśnie kluczem do rozwiązania tego problemu jest
zagadnienie niezależności. Prawdą jest, że kolejne zdarzenia występują niezależnie od siebie, niemniej pojawiają się one w określonej sekwencji czasowej. Jeśli prawdopodo-
bieństwo (5.35) zaistnienia zdarzenia w bardzo krótkim przedziale czasu jest proporcjonalne do tego przedziału czasu, to funkcja gęstości tego prawdopodobieństwa jest stała w czasie i w naszym przypadku zadana przez intensywność A. Zapytajmy wobec tego
o prawdopodobieństwo wystąpienia zdarzeń w zadanej kolejności. Jeśli przez ty, tą, ...,
t, oznaczymy kolejne chwile, w których pojawiły się zdarzenia, to będzie nas interesowało prawdopodobieństwo P,(0 £ WA - (1 + nA) = u(l — (1 +3n)A) + O(A”).
5,4. Rozkład Poissona
289
W warunkach długiego czasu obserwacji £, czyli dużej, w porównaniu z jednością, oczekiwanej liczby 4 padających cząstek, wynik ten możemy uprościć:
V[KI £ u(1 — ZNA) + O(A”) =At(1l — 3AT) +O(A”). Widzimy, że rezultat ten odtwarza liniową część związku (5.64) w wielkości AT. Jeśli przypatrzymy się bliżej formule (5.64), to zauważymy,
że zaniedbując w niej odwrot-
ności wielkości Aż w stosunku do jedności, związek ten przedstawia pierwsze wyrazy
rozwinięcia funkcji
1
(5.68)
v[k] = A+AT)3
względem argumentu A7, w obszarze asymptotycznie dużych wartości argumentu At. Matematyczna
technika rozwinięć
asymptotycznych
pozwala
znaleźć
(J. W.
Mueller,
Nucl. Instr. Methods 117 (1974), 401) przybliżone, ale uwzględniające wyrazy wyższego rzędu, wyrażenia na wartość oczekiwaną i wariancję:
+ AM (AT)? (k) — 1I+AT ( + 2(1 nz)” y[k] =
At a+ar> |
(AT)? (18 + 4AT + (AT)”) * 12At(1 + AT)
|
Przejdziemy teraz do dyskusji wyników dla wartości oczekiwanej i wariancji liczby sygnałów zarejestrowanych z użyciem układu charakteryzującego się czasem martwym. W analizie naszej przyjmiemy, że w eksperymencie mamy do czynienia z małymi obciążeniami i długim czasem pomiaru, a więc do opisu wystarczą uproszczone wyrażenia (5.66), (5.67) oraz (5.68). Przede wszystkim zwróćmy uwagę na fakt, że niepewność względna
Dk]
k
/At
A+ATVI+FAT
1+AT
l
A
> JAJYI+FAT
mniejszej,
w obecności
1
AL
mniejsza jest od tej, jaką otrzymujemy dla rozkładu Poissona. Źródła tego efektu należy upatrywać
w dyskutowanej
wcześniej
czasu martwego,
fluk-
tuacji liczby zarejestrowanych cząstek, niż ta, jaka wynika z rozkładu Poissona. Jeśli wyobrazimy sobie skrajny przypadek dużego strumienia cząstek padających na licznik, to w momencie jego wysycenia, czyłi nieomal regularnej, na podobieństwo zegara, re-
jestracji cząstki po każdym okresie czasu martwego, rozwinięcie fluktuacji.
nie ma już wolnego miejsca na
Czas martwy charakteryzuje się jeszcze jedną ciekawą konsekwencją. Jeśli ustalimy
liczbę n cząstek padających na licznik w zadanym przedziale czasu £ 1 rozważymy relację
między liczbami k;, i ką rejestrowanych cząstek w dwóch rozłącznych, lecz następujących
po sobie przedziałach czasowych £, + ty = t, to znajdziemy, że relacja ta, która w przy-
padku licznika bez czasu martwego ma charakter matematycznej zależności liniowej, ulega istotnej zmianie. Dla rozkładu dwumianowego korelacja taka wynosi ((ki — (k;)) (ką — (ka))) = (n =k, + ka] = ((ki — (kq1))00 — ky — (n — k,))) = — ((ki — (k;)) (ką — (k1))) = —P[kil,
290
5. Niektóre rozkłady
co implikuje ujemny, jednostkowy współczynnik korelacji. Gdy występuje czas martwy, prosty związek n = k, + ką przestaje funkcjonować, gdyż pojawia się pewna losowa liczba m impulsów zgubionych n = k;, + ką + m, a korelacja między liczbami zarejestrowanych sygnałów wynosi
((kr — (kq)) (ka — (ka))) = ((kq — (k1))0m — ki — m — (n — k; — m))) = — ((kq — (k1)) (ki — (ki)+ m — (m))) —Y [k,] — ((ki — (k1))(m — (m))).
Kowariancja wyrażona przez ostatni składnik jest nie tylko różna od zera, ale na pewno
ujemna, gdyż im mniejsza będzie liczba zarejestrowanych sygnałów, tym większa będzie liczba utraconych. W efekcie wariancja sumy zliczeń nie jest sumą wariancji zliczeń w poszczególnych przedziałach czasowych. Wniosek ten ma jednak bardzo lokalny charakter w czasie i jest słuszny jedynie w odniesieniu do bardzo krótkich odstępów czasowych, porównywalnych z długością czasu martwego. W warunkach asymptotycznych, kiedy możemy użyć wyrażenia (5.68) dla wariancji liczby zliczeń, znajdujemy bezpośrednim rachunkiem, iż
Y[k] =
At
n
I+ATŻ
A(t
+ b)
_
(Q+ATŻ
Aly
+
(QG+ATY
Ab
-Yy
[ki] + Y [ke],
G+ATY
co oznacza, że w tym przybliżeniu zmienne losowe k, i ką nie są statystycznie skorelo-
wane, choć nie przesądza to o ich statystycznej niezależności. Zwróciliśmy już uwagę, że im czas martwy jest większy, tym mniejsza jest niepewność zarejestrowanej liczby zliczeń. Nie oznacza to jednak, że powinniśmy w eksperymencie używać układów detekcyjnych z dużym czasem martwym — raczej powinniśmy postępować odwrotnie. Dysponując liczbą k zarejestrowanych przypadków, chcielibyśmy znać rzeczywistą liczbę n przypadków, estymującą wielkość Ar. Estymatę tę możemy znaleźć ze wzoru (5.66)
a jej niepewność wynosi =
sa
(z) l
TĄ”
y[k]
=
(ew) 1
At
TY" G+AT)3
Jeśli w wyrażeniu na wariancję ) [k] wyeliminujemy wielkość 1 + AT za pomocą
wyrażenia na wartość oczekiwaną (5.67), to otrzymamy
v[k] =
At
U+AT)Ż
(k)”
(5.69)
(An
a oczekiwaną liczbę At padających cząstek wyeliminujemy z tego samego związku, zamieniając w nim liczbę k zliczeń na jej wartość oczekiwaną (k), to znajdziemy następujące wyrażenie na wariancję: | 2
Y [k] = (k) (1 — (k) 7) £
= (k)(1- |x
1
i=l
1
m
m
=. 3 k;, i=l
_
s; 2 =—— m1 Yo2! (kk).) 2 Ponieważ wielkość s; jest estymatą wariancji (5.70), więc A s;ZNĄZ Z AK(1-KT)
rpry2
>
o
T
EOl
Sk
RJĄŻ
=
A
ASk
EĘ
k
Trudniej obliczyć błąd czasu martwego. Aby to zrobić Ściśle, potrzebowalibyśmy do tego wyrażeń na wyższe momenty rozkładu (5.61). Aby tego uniknąć, wykonamy obliczenia przybliżone, stosowne dla przypadku małych obciążeń. Skorzystamy z wyników
podrozdziału 3.4:
—
(of
af af
sz = (s)
of
,
v [kl + 23% gz" [k, sę| + (33)
v[s].
związku (4.6) miedzy D |k| i D[k] oraz wyniku przykładu 4.2.3: _
l
l
cov[k,k,s| sę] =—€|(k—u)”| - [km] =—D*fk]y. m [kl gdzie y, jest współczynnikiem asymetrii, oraz związku (4.9):
Y[EJ=
2 5) + (m 71a
Po podstawieniu znajdujemy ię
„2 z AVIKI
mk
4(-725)
[W
2Y%8)
+
h
WA
(- za) + (
2900)
AU
+
m)
m-1)]'
294
5. Niektóre rozkłady
W warunkach niewielkiego obciążenia obowiązuje V[k] próbki są liczne, czyli (k) 4 I, to
2
To
A?
l
2m(k)”
2mk>
=
(k), a jeśli m >> 1 oraz
Widzimy, że rezultat zależy od liczby m zgromadzonych próbek, tak więc pomiar czasu martwego możemy przeprowadzić z dowolną, niemalże, precyzją. Naszą dyskusję zjawiska czasu martwego 1 efektów, do jakich on prowadzi, oparliśmy na rozkładzie (5.61), który uzyskaliśmy, zakładając, że zliczenia zaczynamy obserwować
od chwili, w której licznik jest dostępny, czyli jest w stanie zarejestrować cząstkę, a tym samym rozkład czasu oczekiwania na pierwszy sygnał zadany jest zwykłym rozkładem wykładniczym (5.37). Inna typowa sytuacja doświadczalna to taka, w której zaczynamy
pomiar od pewnego losowo wybranego sygnału. Oznacza to, że czas oczekiwania nie tylko na następne, ale i na pierwszy sygnał określony jest rozkładem (5.59). Przy takim wyborze początkowego momentu liczenia czasu otrzymalibyśmy rozkład liczby zarejestrowanych sygnałów różny od zadanego wzorem (5.61), gdyż efektywny czas pomiaru
wynosiłby £ — 7. W końcu istnieje jeszcze trzecia możliwość wyboru chwili startu obserwacji. Jest nią zdanie się na łaskę losu i wybór początku obserwacji na chybił-trafił.
Chwila ta może wypaść w momencie, kiedy licznik jest zablokowany i będzie się znaj-
dował w tym stanie jeszcze przez pewien losowy przedział czasu (nie większy niż 7) albo trafimy na licznik gotowy do zarejestrowania cząstki. Stosowne złożenie rozkładów odpowiadających tym dwóm możliwościom doprowadza do jeszcze innego rozkładu prawdopodobieństwa. Nie będziemy tu prezentowali wyników obrazujących te rozliczne możliwości. Czytelnik zapewne jednak zgodzi się z sugestią, że w warunkach asympto-
tycznych, określonych przez At >> 1 1 przy małym obciążeniu, czyli wtedy gdyAT X 1,
konkluzje wysnute z tych rozkładów, a odnoszące się do wielkości, które potrzebujemy znać w praktyce, czyli oczekiwanej liczby zliczeń i liczby cząstek, jakie padły na licznik oraz ich dyspersji, różnią się marginalnie.
Na zakończenie tego punktu wspomnimy, że świat liczników z czasem martwym zasiedlony jest przez jeszcze jeden specjalny gatunek liczników z tzw. przedłużającym się czasem martwym. Liczniki takie charakteryzują się tym, że jeśli układ jest zabloko-
wany przez jakiś sygnał i w momencie ź£ liczonym od chwili, w której pojawił się ten
sygnał, zaistnieje następny, to czas martwy tego urządzenia zostaje przedłużony 1 trwa do momentu ż + 7. Własność taka jest raczej cechą układów elektronicznych, zwłaszcza dzisiaj, w dobie układów cyfrowych, niż fizycznie samych liczników. Szerszą klasę
takich urządzeń zaprezentowaliśmy w przykładzie 5.4.11, gdzie czas analizy Tp ulegał
fluktuacjom. Nie będziemy tu rozwijali opisu statystycznego takich układów. Zainteresowanego Czytelnika odsyłamy do wspomnianej we wstępie książki W. I. Goldanskiego i innych, która ujmuje te zagadnienia (a także zwyczajny
czas martwy)
w klasyczny
sposób. Współczesny i alternatywny, a przede wszystkim naturalny opis zjawisk związanych z czasem martwym, znajduje swoje ramy w teorii procesów stochastycznych i taki
też opis można znaleźć w drugim tomie monografii W. Fellera, również wymienionej
w spisie literatury we wstępie.
5.5. Rozkład Gaussa
—
295
5,5, Rozkład Gaussa
Historia rozkładu Gaussa, zwanego też rozkładem normalnym, sięga 1733 roku i wiązana jest z nazwiskiem francuskiego matematyka Abrahama de Moivre'a, który pierw-
szy dostrzegł ten rozkład jako graniczną formę rozkładu dwumianowego, jednakże bez związku z gęstością i ze zmienną ciągłą. Właściwe zrozumienie roli tego rozkładu
przypisuje się Gaussowi i Laplace'owi, przy czym to Laplace, niezależnie odkrywając rozkład, powiązał go z centralnym twierdzeniem granicznym. Właśnie dzięki temu twierdzeniu tak wielkie jest znaczenie tego rozkładu w statystyce matematycznej.
RE
Carl Friedrich Gauss,
Pierre Simon de Laplace,
1777-1855
1749—1827
5.5.1. Wyprowadzenie — modele Laplace'a i Herschela Rozważmy sytuację, w której usiłujemy zmierzyć wielkość, którą oznaczymy symbolem L, jednakże pomiar nasz jest zaburzany przez n losowych efektów o wielkości e każdy, działających z prawdopodobieństwem p = 0,5 zarówno w kierunku zmniejszającym, jak i zwiększającym wartość wielkości mierzonej. Doświadczalną realizację takiego układu zaproponował matematyk angielski F. Galton, budując tzw. quincunx, czyli deskę Gal-
tona, której schemat przedstawia rys. 5.28.
W wyniku pomiaru zamiast wielkości 4 otrzymamy jedną z wielkości x; określonych równaniem k=0,1,2,...,n—2,n—l,n. x =u+ (—n + 2k)e,
Prawdopodobieństwo każdej z tych wartości jest zadane przez rozkład dwumianowy
(5.10)
BPO)
n!
1y”
= jan =hi (3) |
296
5. Niektóre rozkłady
Rys. 5.28. Deska Galtona
Zwróćmy uwagę, że wartość oczekiwana zmiennej losowej x, dana jest przez p, nato-
miast jej wariancja wynosi
v bę] =Y[u + (2k — ne] = 4eV[k| = 4e*np(l — p) =ne". Wiemy z podrozdziału 5.2, że dla dużych wartości liczby n prawdopodobieństwo to
ma zachowanie graniczne
l R —-0©% /żnnpq P (
26 /2n
(
/n€
P
Sz —--—--. | 2npq
=
2
2nn
©
_(k- zn)
p
25n
(X — c) 2ne 2
|
gdzie podstawiliśmy k = **" + 3. Gdybyśmy
chcieli zmniejszyć wartość e do zera, przy zachowaniu pozycji x, to
aby uzyskać sensowną granicę, musielibyśmy zażądać, aby wielkości n oraz k dążyły do nieskończoności oraz aby wariancja ne” dążyła do wartości stałej: ne” > a”. Pozostanie jednakże czynnik Że przed funkcją wykładniczą, który „zepsuje” całe przejście graniczne. Uświadamiamy sobie jednak, że przejście z wartością zaburzenia e do zera oznacza przejście do zmiennej ciągłej, a więc zamiast prawdopodobieństw B;(n, p) powinniśmy używać gęstości prawdopodobieństwa. Zauważmy równocześnie, że poszcze-
gólne wielkości x, oddzielone są od siebie o Że, stąd w naturalny sposób można wprowadzić gęstość, dzieląc prawdopodobieństwo B;(n, p) przez ów przedział 2e, „rozmazując” niejako prawdopodobieństwo skojarzone z punktem k po całym takim przedziale:
Bim D=05) 2E€
|||
n>00, e>0
wa:uoj= z
/2no
xp
P
(GM 20?
|
Jak należało się spodziewać, otrzymaliśmy rozkład Gaussa ciągłej zmiennej losowej x.
5.5, Rozkład Gaussa
Powyższy
sposób
wyprowadzenia
rozkładu
Gaussa
określany jest modelem
297
La-
place'a błędów pomiarowych i jest uwspółcześnioną wersją rozważań tego uczonego z przełomu XVIII i XIX wieku. Inny sposób, bardziej bezpośredni —
bez odwoływania
się do postaci granicznej
rozkładu dwumianowego — polega na zbudowaniu ilorazu różnicowego: B,, — B
p
l
n!
n!
= 2 (EDGE DI 1
1Y”
BGB) (3)
n!(n — k)
n!
Ly”
- 2e (a> Dn=k)! kin 5) _A1(n=k
- 2e
n!
(k+1
kiln=k!(2)
I)
(3)
_ln-k-15
2e
k+l
*
który, po wyeliminowaniu z niego przez podstawienie Xk — JL
k=
n
— ŻE + 2 zależności od wielkości k, doprowadza nas do równania
AH A" Ax
1
De ŻE X. %k — Hal
2€
ko
Oz —_ me + ne* 2 + ŻE 2%
2
Aby pracować z funkcją gęstości, podzielimy obie strony równości przez 2e. Następnie dokonamy przejścia granicznego n — oo z liczbą czynników zaburzających, przy jedno-
czesnym przejściu do zera z wartością e, ale przy warunku stałości wariancji: ne” > o” i utrzymaniu stałej wartości położenia x, = x. Lewa strona dąży do pochodnej funkcji gęstości, a całość przyjmuje postać równania różniczkowego
LN dx
(u, 0) = —
x-u g2
N (x; n,o).
Rozwiązanie tego równania, ze stałą całkowania spełniającą warunek unormowania, daje
rozkład Gaussa. -—
Przykład 5.5.1 Rozkład Gaussa i pomiary Kompendium Review of Particle Properties, wymienione we wstępie, zawiera bogactwo rezultatów pomiarowych. Czy moglibyśmy jakoś sprawdzić, czy przedsta-
wione tam wyniki pomiarów istotnie układają się zgodnie z rozkładem Gaussa?
Byłoby to łatwe, gdybyśmy znali prawdziwe wartości wielkości, które są bohate-
rami tej publikacji. Ponieważ tak nie jest, możemy próbować rozwiązać problem inaczej. Zajrzyjmy do tegoż dzieła, ale sprzed paru laty i wybierzmy z niego te wyniki x, wraz z błędami s,, dla których błędy w najświeższym wydaniu uległy istotnej redukcji. Te najnowsze wyniki możemy potraktować jako „prawdziwe” wartości j4,. Dla tak wyselekcjonowanej próbki zbudujmy wielkości
5. Niektóre rozkłady
—10
—12
Rys. 5.29. Rozkład stałych z kompendium Review of Particle Properties
0,08 r 0,07 0,06 gęstość [hPa *]
298
0,05 0,04 0,03 0,02
0,01 0,00
980 ciśnienie [hPa]
Rys. 5.30. Rozkład wyników pomiarów ciśnienia atmosferycznego
5.5. Rozkład Gaussa
6, =
299
16; — | Si
i z nich utwórzmy histogram. Histogram taki, a Ściślej, logarytm eksperymentalnej funkcji gęstości przedstawiony jest na wykresie 5.29 (za: A. P. Bukhvostov, On the
Probability Distribution of the Experimental Results, http://arXiv.org/abs/hep-ph/
9705387) linią ciągłą, łamaną. Linia przerywana nakreśla krzywą Gaussa, a linia prosta to funkcja gęstości odpowiadająca rozkładowi wykładniczemu z jednostkowym parametrem. Rzeczą najbardziej zdumiewającą, jaką unaocznia ten wykres,
jest zdecydowane odstępstwo wyników doświadczalnych od tego, czego oczeki-
walibyśmy, czyli rozkładu Gaussa. Wynik ten jest chyba najbardziej naocznym dowodem tezy, dobrze znanej praktykom statystycznym, że nie należy zbyt wiele oczekiwać od rozkładu Gaussa. Jest on bardzo dobrym modelem, jeśli chcemy
opisać główny „trzon” danych, w zakresie jednego lub dwóch odchyleń standardowych. Skrzydła rozkładu z reguły już mu nie podlegają i są zazwyczaj bardziej
obsadzone, niż to przepowiada ten uświęcony tradycją rozkład. Jak widzimy z wykresu, prosty model wykładniczy wydaje się o wiele lepiej opisywać rezultaty procedur stosowanych przez fizyków.
Nie zawsze jednak jest tak źle. Na wykresie 5.30 przedstawiona jest empi-
ryczna funkcja gęstości 1600 pomiarów wcześniej,
ciśnienia atmosferycznego,
w podrozdziale 4.2, wraz z rozkładem
jest ewidentna.
Gaussa.
Tym
omawianych
razem
zgodność
T'
Interesujące jest przytoczenie jeszcze jednego, pochodzącego z roku 1850 i wiąza-
nego z nazwiskiem angielskiego astronoma J. Herschela, sposobu wyprowadzenia rozkładu normalnego. Wyprowadzenie to łączy się z pewnym twierdzeniem, które mówi, że jeśli w jakimś układzie współrzędnych para (x, y) przedstawia niezależne zmienne losowe i istnieje choćby jeden inny, obrócony, układ współrzędnych, o tym samym początku i para (X,y') otrzymana z par (x,y) po jej przetransformowaniu przedstawia w tym układzie również niezależne zmienne losowe, to każda ze zmiennych x i y może być tylko zmienną losową podlegającą rozkładowi normalnemu. Naszkicujemy tu dowód
tego twierdzenia, odwołując się do „artyleryjskiego” przykładu strzelania do wybranego punktu, który będzie naszym początkiem układu (x, y) (w rzeczywistości Herschel rozważał zagadnienie pomiaru pozycji kątowej gwiazdy na niebie). Prawdopodobieństwo
trafienia w mały obszar o powierzchni As wokół punktu (x, y) jest proporcjonalne do
tej powierzchni. Jeśli wybierzemy obszar o trochę innym kształcie, ale tej samej powierzchni wokół tego samego punktu, to prawdopodobieństwo trafienia w ten obszar
będzie, z dokładnością do wyrazów kwadratowych względem wielkości As, identyczne
z prawdopodobieństwem trafienia w obszar pierwotny. Wybierzemy obszar As w kształcie prostokąta o środku w punkcie M (x, y) i bokach Ax oraz Ay. Na mocy niezależności statystycznej zmiennych losowych x i y prawdopodobieństwo AP (M) trafienia w obszar As wokół punktu M(x, y) dane jest iloczynem
AP(M) =N
(X)N (7) As + O(As”).
300
5. Niektóre rozkłady
Jeśli jako drugi układ odniesienia przyjmiemy układ (x', y') obrócony względem pierwszego o pewien kąt, to prawdopodobieństwo A P'(M) trafienia w prostokąt As = Ax'Ay' będzie niemalże równe prawdopodobieństwu AP(M):
AP(M) =N (x)N (y) As + O (As*) = N(x'))N (y') As + O' (As?) = AP'((M).
Jeśli podzielimy obie strony środkowej równości przez As oraz przejdziemy z wartością As do zera, to
NON)
=N(x')N(y).
Jeśli dobierzemy układ x', y' tak, że oś x' przechodzi przez punkt M, to:
N(X)N(GY) NGN (0) =kNfr), r=yx+y, k=N(0). Zróżniczkujemy obie strony tej równości względem x oraz względem y:
GA
©) ry)
_3N0
dx
N Gy A
_ NX
0x
dr
r
dy
dr
r
_ ANM _;Wlny
d
Dzieląc równania przez siebie, otrzymujemy l
dN(x)
xN(x)
dx
_
1
yN(y)
dN())
dy
|
Ponieważ lewa strona jest jedynie funkcją argumentu x, a prawa strona jedynie funkcją argumentu
y, więc aby taka równość
każdego y, każda ze stron musi być liczbą:
l
xN (x)
mogła być prawdziwa
dla każdego x oraz
dN(x) dx
2 N (x) = Aexp (>)
lub też
O wielkości c nie potrafimy niczego powiedzieć poza tym, że jeśli chcemy, aby funkcja
była całkowalna, wielkość ta musi być ujemna i możemy ją wybrać w wygodnej postaci
c = —l/o*. Stałą całkowania A otrzymujemy z warunku unormowania, co prowadzi
ponownie do rozkładu normalnego:
N(;u=0,0)= Warto
przypomnieć,
że w
1860 roku fizyk J. C. Maxwell
wyprowadził
rozkład
prędkości cząsteczek gazu doskonałego, zwany dziś rozkładem Maxwella, odwołując się do tego samego założenia o braku zależności dowolnej ze składowych wektora prędkości cząsteczki od wartości innych składowych. 5.5.2. Własności rozkładu Gaussa Krzywa Gaussa ma charakterystyczną postać „dzwonu”, którego maksimum wypada w punkcie x = ju, a dwa punkty przegięcia rozłożone są symetrycznie wokół maksimum
5.5. Rozkład Gaussa
301
0,9 r 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0
Rys. 5.31. Rozkład Gaussa dla trzech wartości parametru o
w odległości o od niego (rys. 5.31). Wymiary obu parametrów są takie same jak wymiar
zmiennej losowej x, a wymiar funkcji gęstości rozkładu jest odwrotnością wymiaru tej zmiennej. Wartość oczekiwana zmiennej wynosi OO
1
€ [x] = dz6
| xa»
(x — w)”
(>)
dx=u,
—O0©
a jej wariancja to
1
Yh] = Zza]
f
(x — w)?
(x — 4)” exp (-—-)a
=0o..
Ogólnie, wszystkie nieparzyste momenty centralne znikają z uwagi na symetrię rozkładu, natomiast parzyste przyjmują wartości
2k)!
(6 W) = air 0
(5.71)
co dla k = 2 czyni ((x — )*) = 3o*, skąd, w szczególności, dla współczynników asymetrii 1 spłaszczenia otrzymujemy zerowe wartości. ——
Przykład 5.5.2
Błąd błędu Przypomnijmy wyrażenie (4.90) na wariancję estymatora określającego kwadrat błędu pojedynczego pomiaru: l
v [5] = — (6
9) - — _
—3 zn”
2
[x] .
302
5. Niektóre rozkłady
Gdy rozkład, z którego czerpiemy próbkę, jest rozkładem normalnym, wtedy wy-
korzystując (5.71), otrzymujemy Dis|=
[5x]
3
|-g4—
(że
n-3
——
2
gi! =
nn=Do
n=l
2
Jeśli wielkość s; potraktujemy jako kwadrat błędu, wtedy (przypomnijmy: jeśli u=v?, to s, £ 2(v) sy) D [s; | = 20,D [sx],
lub
pis] 1 |--o? xl = — 241 _= 20;
2o4n-—1
0;
0
=
———=—— Oy,
/2(n—1)
(5.72) .
co daje wyrażenie na błąd błędu i determinuje dokładność, z jaką powinniśmy zapi-
sywać wartość błędu pomiaru, a tym samym i wynik pomiaru. Wynik (5.72) stosuje się także do błędu średniej arytmetycznej, jeśli wielkość oż zastąpimy przez ot.
Rozważmy prosty przykład. Przypuśćmy, że wykonaliśmy serię n pomiarów wielkości x, i obliczona przez nas Średnia arytmetyczna (4.1) wynosi 9.87654321..., natomiast odchylenie standardowe (4.8) tej średniej to
1,23456789.... Jak mamy te wyniki zapisać? Czy wystarczy:
10 + 1, czy też
może 9,9 + 1,2, a może nawet 9,88 + 1,23? Niech liczba pomiarów, z których
obliczyliśmy średnią, wynosi 5. Błąd względny znalezionego odchylenia standardowego na mocy (5.72) wynosi D [sz]
x
u
D [sz]
z
06,
1
/2(n=l1)
co dla pięciu danych pomiarowych daje około 35%. Oznacza to, że wartość odchylenia standardowego 1,23456789... znamy z dokładnością 0,4. Tym samym nie ma sensu zapisywać tej niepewności z uwzględnieniem drugiej cyfry znaczącej
(pierwszej po przecinku), gdyż ta jest po prostu szumem statystycznym. Wystarczy
pierwsza jedynka i ostateczny wynik powinniśmy podać w pierwszej z sugerowa-
nych postaci: 10 + 1. Jeśli jednak liczba pomiarów, z których wydobyliśmy Śred-
nią, wynosi np. 50, wtedy identyczny błąd względny dla odchyłenia standardowego otrzymujemy na poziomie 10%. Oznacza to, że druga cyfra znacząca w zapisie
odchyłenia standardowego jest co prawda dość niepewna: może to być zarówno jedność, jak i trójka, warto jednak w takiej sytuacji podać ostateczny rezultat w postaci: 9,9-+1,2. Przy wzrastającej liczbie pomiarów „odsłaniać” się nam będą kolejne cyfry znaczące. Abyśmy ostateczny rezultat mogli podać z dokładnością
do trzech cyfr znaczących, niepewność względna powinna wynosić przynajmniej 1%. Oznacza to, że próbka naszych pomiarów powinna liczyć przynajmniej kilka tysięcy liczb. Naturalnie, wskazane wyżej relacje będą wygłądały trochę inaczej,
jeśli pierwsza cyfra niepewności standardowej nie będzie jedynką, ale np. ósemką.
Wtedy wynik: 98,87654321...-+8,7654321... dla próbki liczącej 5 pomiarów powinniśmy zapisać jako: 100+ 10, dla pięćdziesięciu pomiarów jako: 99-F9, a dla pięciu tysięcy pomiarów jako 98,9 = 8,8. W przypadku, gdy dane nie pochodzą z rozkładu Gaussa, przydatna może być formuła (4.10), uzupełniona o dodatkowy czynnik n**, wyrażający przejście od odchyłenia standardowego dla zmiennej losowej do odchylenia standardowego średniej arytmetycznej.
n
5.5. Rozkład Gaussa
303
--- Przykład 5.5.3 Suma gaussowskich zmiennych losowych Dane są dwie niezależne zmienne losowe: x oraz y, obie z rozkładu gaussowskiego o tej samej wartości oczekiwanej „4 i dyspersji o. Jaki jest rozkład zmiennej losowej z będącej sumą obu zmiennych? Ponieważ rozkład sumy dany jest splotem (2.27), więc ł
2na?
|
ex
,
-
_Z-u-t)
ex
2o?
b
_(6—
ny”
dt
20?
I
==———-—-—-——--.
w/2n(v/20) P (
z a|
——
2(/20)?
=
A (
:2u,v2
s Y20)
.
Stąd łatwo otrzymujemy, że suma n niezależnych zmiennych losowych gaussowskich ma rozkład Gaussa (mówimy, że rozkład Gaussa jest zamknięty względem operacji dodawania), o wartości oczekiwanej nw i wariancji no”, a Średnia arytmetyczna X —
rozkład Gaussa
o wartości oczekiwanej
j„ i wariancji
n-krotnie mniejszej od wariancji pojedynczej zmiennej losowej.
(4.6)
r
Rozkład Gaussa jest silnie „skoncentrowany” wokół swego maksimum. Możemy to zilustrować, obliczając prawdopodobieństwo P
(ui—no
—
x
1-9
>
4MK "(M+K)2
Łączny rozkład zmiennych losowych m oraz k dany jest iloczynem rozkładów dwu-
mianowych B„(M, p = 0,5) oraz B,(K, p =0,5), z których każdy, dla dużych wartości parametrów M oraz K, na mocy lokalnego twierdzenia de Moivre—Laplace'a (5.26) przyjmuje postać gaussowską, dlatego też
B„(M, p=0,5)B,(K, p=0,5) = P„.(M,K)
R
2
2nM
exp | —
(m-IM)] 2- 4 M
2
/2nK
exp
(k—;K) |-————2: zK
|.
5.5. Rozkład Gaussa
Jeśli z rozkładu tego wyeliminujemy zmienne m oraz k na korzyść xx m
k
=
=
1
4€óm,k (x „k
1
de
Xm
Hx A ) +
"kad —
X
)
—
l
na 48 (y Umko„k (Ly)
14
48 mk m
—
OrAZ y,, i:
1
M, 2
+
+ lk 5017 4
s
to po zastosowaniu wyrażeń na współczynnik p i wariancje zmiennych Xx otrzymamy BE0 P„x(M,
x
exp |
K)
—
A
2nD EH l
24-05)
D [ymx] yl-
(Xm,k
—
Vf]
u)”
=
2p
p”
315
OrAZ yk»
X
(Xm.k
U)
mk
—
D [xe] P lynx]
+
Ly)
(Ym.k
a ay)”
Vlyme| J)
Abyśmy mogli przejść do ciągłych zmiennych x oraz y, musimy zmniejszać wartości
zaburzeń e oraz 6, zwiększając jednocześnie liczby M oraz K, ale w taki sposób, by współczynnik korelacji p, a także dyspersje obu zmiennych losowych były skończone:
D|xm] > 06 Dyk] —> 0y. Tak jak w przypadku jednowymiarowym musimy także m
przejść do gęstości, a więc „rozmazać” uzyskane prawdopodobieństwo zmiennych oraz k po jednostkowym obszarze skojarzonym ze zmiennymi Xx
OTAZ yk:
Rys. 5.39. Elementarna powierzchnia Ax, zAymk Wyznaczona przez zmianę Am =liAk=l
Naszym
X
>
zadaniem teraz będzie wyznaczenie powierzchni tego jednostkowego ob-
szaru. Na płaszczyźnie (m, k) dozwolone wartości tych zmiennych wyznaczają kratow-
nicę punktów zawartych wewnątrz prostokąta o bokach M oraz K. Przekształcenie pro-
wadzące do zmiennych x;„ oraz y;„ to translacja połączona z obrotem 1 skalowaniem, która zamienia elementarny
kwadrat o wierzchołkach
i (m + 1,k + 1) w przestrzeni
(m,k),
(m,k),
w równoległobok
(m + 1,k),
o wierzchołkach
(m,k + 1)
(Xx, Ym.k):
(Xmk + 2E, Ymk + 26), (mk + 2E Ymk — 28) 1 (Xmk + 2€, Ymk) w przestrzeni (x, y).
Z rysunku 5.39 znajdujemy, że powierzchnia tego równoległoboku wynosi 8e6, a więc
316
5. Niektóre rozkłady
dokładnie jest równa współczynnikowi mnożącemu prawdopodobieństwo. Cały ten rachunek moglibyśmy wykonać w znacznie prostszy sposób, odwołując się do własności jakobianu przejścia od jednych zmiennych do drugich. Jakobian taki wyznacza właśnie poszukiwaną elementarną powierzchnię: ó(m,k)
Onkrymk)
1
1
4€
45
4e
48
|1
z
l
1] 8e8'
Dzieląc wyrazenie na prawdopodobieństwo przez połe elementarnej powierzchni (bądź mnożąc przez moduł jakobianu), znajdujemy ostateczne wyrażenie na dwuwymiarowy
rozkład normalny, zwany też rozkładem binormalnym:
N (x, Y; x, ky, 0x,0,, p) = 1
x
Xx — Hy
-so(-zr>5
((
0x
*
)
XA —
-z(
HM
My
dx
(
dy
-
)-(
My
dy
)))
Własności rozkładu binormalnego to € [x] = € [y]
=”
x,
v [x]
=
Ż,
hy,
Ylyl
=oy.
Dodatkowo, ponieważ mamy dwie zmienne losowe, możemy znaleźć ich kowariancję cov [x, y] = gxOyp,
która wyraża się przez parametr p rozkładu, będący jednocześnie współczynnikiem korelacji (3.14). Jeśli współczynnik ten jest równy zeru, rozkład binormalny staje się iloczynem rozkładów obu zmiennych, które tym samym uzyskują statystyczną niezależ-
ność. Jest to specyficzna własność rozkładu Gaussa, jako że w ogólnym przypadku brak korelacji nie implikuje niezależności statystycznej (patrz podrozdział 3.3).
—
Przykład 5.5.9 Rozkłady brzegowe, warunkowe i krzywe regresji dla rozkładu binormalnego Prostym, choć żmudnym rachunkiem można wykazać, że rozkłady brzegowe (2.24)
dla normalnego rozkładu dwuwymiarowego są rozkładami Gaussa: ICE
Ax; Hy, Gy, Gy, p)
co pozostaje słuszne i dla drugiej zmiennej.
dy
=N
(x; Hx, 0x),
5.5. Rozkład Gaussa
317
Rozkład warunkowy (2.29) zmiennej losowej y przy zadanej wartości zmiennej x dany jest wyrażeniem
N (x, Y; x, My, 0x, Gy, p)
IO) =
N (x; x, 0%)
2
i
(-pża
"V2moxyl=ee
|
- m)
2(awi=p7)
Rozkład ten dostarcza krzywej regresji € [y|x] pierwszego typu zmiennej y wzglę-
dem zmiennej x w postaci
€ [yk = x] = 4y(%) = Hy FP
dy X
(X — Mo).
Podobną krzywą regresji otrzymujemy dla zmiennej. x względem zmiennej y x
€ xly=y| =m0) =m + PO — Ly). y
Są to, jak widzimy, linie proste. Zwróćmy uwagę, że na płaszczyźnie (x, y) proste
te pokrywają się jedynie wtedy, gdy współczynnik korelacji między zmiennymi
jest równy jedności. Dla kompletu informacji o dwuwymiarowym rozkładzie normalnym podamy także postać wariancji warunkowej zmiennej y:
b=
2
= £|((-w-PEG-n0)
| = oy (l- p”).
Aby lepiej sobie wyobrazić kształt rozkładu binormalnego, rozważmy na płaszczyź-
nie (x, y) linie stałych wartości tego rozkładu. Przebiegają one tam, gdzie wykładnik
funkcji wykładniczej przyjmuje stałą wartość C”, a więc wzdłuż krzywej określonej
równaniem
l l-
A — Hy p
2
+
2
Y-My
e
— 20
A — Hx
Y — Hy
|
dy
Dy
lub też, jeśli wprowadzimy zmienne standaryzowane X —
u =
0;
Mx
,
v=
>
Hy
Oy
,
to wzdłuż krzywej l 1l=p*
(u? + v” — Zpuv) =C-.
—
(2
318
5. Niektóre rozkłady
1,0
0,6
0,4
-2
3 3 Rys. 5.40. Obraz dwuwymiarowego rozkładu Gaussa
Jeśli dokonamy obrotu układu o kąt o w kierunku dodatnim, transformując zmienne wg reguły
U =u' CosQ—v Sing,
v=u' Sing+vV cosy,
to równanie krzywej przejdzie na l
zl
2
(1
,
in
2
— psn
29) +
2
v'(1l
1
in
+ psin29g)
2
—
2
1
Żpuv
cos
2
z
p) =
C-
.
Wybierając kąt p = 45", otrzymujemy
GG) + (>) $©
Tym samym transformacja postaci
l+p
1-p
l+p U
=
2
l=p 56
+
2
Ć,
przekształca elipsę w zmiennych (u, v), na której gęstość binormalna jest stała, na okrąg o promieniu € w zmiennych ($,£). Postać taka prowadzi do faktoryzacji w nowych
5.5, Rozkład Gaussa
319
Rys. 5.41. Przykłady elips kowariancji dla kilku wartości współczynnika korelacji p
zmiennych, co równocześnie wykazuje ich statystyczną niezależność. W ogólnym przypadku poziomice rozkładu binormalnego to tzw. elipsy kowariancji. Ich wspólny środek
usytuowany jest w punkcie (x, £ty). Półosie i kąty nachylenia tych półosi zadane są
przez dyspersje i współczynnik korelacji.
Przykład takich elips, dla których wartość pełnego wykładnika funkcji wykładni-
czej wynosi
1/2 (czyli wtedy, gdy
€ =
1), wartości o, =
2 oraz o, =
1 oraz dla
wartości centralnych „a, i u, równych zeru, a także różnych wartości współczynnika korelacji p, przedstawione są na wykresie 5.41. Należy zwrócić uwagę na to, że bez względu na wartość współczynnika korelacji, wszystkie elipsy zawarte są w prostokącie
o połówkach boków równych wartościom dyspersji. Gdybyśmy wybrali wartość wykładnika 2 (C€ = 2), otrzymalibyśmy prostokąt o połówkach boków będących podwójnymi
wartościami dyspersji, a dla wykładnika 4,5 (C = 3), byłyby to trzykrotne wartości dyspersji. Ilość prawdopodobieństwa zawarta pod rozkładem Gaussa w obszarze płaszczyzny (x, y) ograniczonej takimi elipsami jest niezależna od wartości współczynnika
korelacji i podana jest w tabeli 5.4.
Jak widzimy, prawdopodobieństwa te są różne od tych, jakie otrzymujemy dla rozkładu jednowymiarowego. W zastosowaniach wykorzystywane są często elipsy kowaTabela 5.4. Własności dwuwymiarowego rozkładu Gaussa
0,5 (C=1)
l
39,3%
2,0 (C=2) 4,5 (C=3)
2 3
86,5% 98,9%
320
5. Niektóre rozkłady
prosta regresji x względem y
prosta regresji y | względem x
x
>
Rys. 5.42. Relacja między półosiami elipsy kowariancji a prostymi regresji pierwszego rodzaju
riancji odpowiadające innym wartościom prawdopodobieństwa, a mianowicie: 90%, 95% lub 99%. Patrząc na elipsy kowariancji, warto uświadomić sobie, że proste regresji (przykład 5.5.9) nie powinny być utożsamiane z żadną z osi elipsy kowariancji. Proste regresji
łączą przeciwległe punkty styczności elipsy z prostokątem, jak ten na rys. 5.42, w który wpisują się wszystkie elipsy kowariancji, podczas gdy kąt a nachylenia dłuższej osi elipsy do osi x jest określony równaniem tg 2a = -—-
200,0
> - =
O£ — Oy
Przykład 5.5.10
Rozkład współczynnika korelacji W rozdziale 4 pokazaliśmy, w jaki sposób dla próby losowej (x,, y;) z rozkładu dwóch zależnych zmiennych losowych x oraz y skonstruować pięć estymatorów:
wartości średnie Xx, y, odchylenia standardowe sx, sy oraz kowariancję R. Zaproponowaliśmy tam również postać współczynnika r korelacji z próby. Okazuje się, że dła próby z rozkładu binormalnego można podać łączny rozkład tych pięciu statystyk. Ma on formę iloczynu dwóch czynników J
(x,
y,
SX»
Sy;
r;
Hx,
Hy,
Ox,
dy,
p)
O. =N
XV;
x,
Hy, y
0.
——, /n
——,9 /n
g(Sx,
Sy, y
TF;
Ox,
Gy, y
P),
gdzie pierwszy czynnik to binormalny rozkład Średnich arytmetycznych, a drugi
g(5x, Sy, T; 0x, Gy, P) = n-l
4
Jy0y
l-p*
o
(5x5,)|
) ee
- ryżem»
nI (n — 2)
_
n-l
2(1-p)
BEZZGI
(la
JxOy
Oy
5,5, Rozkład Gaussa
daje łączny rozkład obu odchyleń standardowych i współczynnika korelacji z próby. Ważną cechą łącznego rozkładu wszystkich pięciu statystyk jest niezależność Średnich od pozostałych wielkości. Niestety, ogólna postać rozkładu brzegowego wielkości r jest dość skomplikowana, z wyjątkiem przypadku p = 0, kiedy to
r (zn — 1)
_
Jar gazo) 7)
fr) =
Lajżłn-4
i nie będziemy jej tu przedstawiać. Ograniczymy się jedynie do prezentacji graficznej na rys. 5.43, gdzie rozkład ten ukazany jest dla dwóch wartości współczynnika
=
KR
©
R
M
O
1
00
O
©
—
p=0,75
-|
—0,75
—0,5
—0(,25
0
0,25
0,5
0,75
I
Rys. 5.43. Rozkład współczynnika korelacji z próby
p oraz trzech wartości liczebności n próbki. Podamy także, że współczynnik korela-
cji z próby jest asymptotycznie nieobciążonym estymatorem parametru p rozkładu próbkowanego, jako że dla dużych liczebności próbki wartość oczekiwana tego estymatora zachowuje się jak
A
r* (zn)
A
|-p-
0a z LGD l
Y[r]
„ (U — p”)
2
-1
(21009).
,
a rozkład współczynnika r korelacji z próby dąży asymptotycznie do rozkładu normalnego o wartości centralnej i wariancji jak wyżej. Warto także nadmienić,
że znana jest (I. Olkin oraz J. Pratt, Ann. Math. Statist. 29 (1958), 201) taka funkcja u(r) współczynnika korelacji z próby u(r)=rF
l
ln-2
22
-(uez
n —
no
2
2(n—2)
„l=r
+3(
> 1-2)
+00).
8n(n — 2)
321
322
5. Niektóre rozkłady
gdzie F' jest funkcją hipergeometryczną: F(a,b,c;x)
I (c) 3 Ti +a)T(n +b) x" n! I (n +c) I (a)T' b) n=0
=
że jej wartość oczekiwana jest dokładnie równa współczynnikowi korelacji p: (u(r)) = p. A już tylko jako ciekawostkę zacytujemy, że (arcsin r) = arcsin p.
Wyrażenia na wariancje i kowariancję, ujęte we wspólną macierz, pozwalają zapisać postać rozkładu binormalnego w zwartej formie
N (x; a, V) =
1 exp (-ze — AV (x — w)
1 2nx/ det V
gdzie górny indeks T oznacza transpozycję, natomiast o; 2 Ox0yP
V_ oraz
0% 0yD Oy
detV = ogo, (1—p*),
a pozostałe oznaczenia przyjęte zostały w zgodzie z duchem notacji wektorowej podrozdziału 3.4. Uzyskany rozkład dwuwymiarowy uogólnia się na normalny rozkład n-wymiarowy: N (x; u, V) =
I
;
(/2r) „/det V
l 2
exp (-za
— nV "(x — w)
,
(5.74)
gdzie w macierzy V na diagonali mamy wariancje kolejnych zmiennych losowych, a elementy pozadiagonalne dane są kowariancjami poszczególnych par. Algebra liniowa poucza nas, że macierz taka jest dodatnio określona, a więc możemy ją zdiagonalizować, a tym samym wprowadzić taki układ zmiennych, w których wykładnik rozkładu wielonormalnego przyjmuje postać sumy kwadratów (bez wyrazów mieszanych), co prowadzi do niezależności statystycznej nowych zmiennych. Inną ważną cechą rozkładu wielowymiarowego jest fakt normalnych rozkładów brze-
gowych, jakie otrzymujemy z (5.74) po wycałkowaniu względem wszystkich, z wyjąt-
kiem jednej, wybranej zmiennej x;:
f N (x;
u, V) dx; dx
... dx;
dx,
... dx, =
exp
( — w)?
| —————
|.
5.75 gdzie V;, to j-ty diagonalny element macierzy kowariancji V. 073) W dalszych rozważaniach przydatne nam będzie jeszcze jedno spostrzeżenie. Zauważmy, że wielowymiarowy rozkład normalny jest niezmienniczy, co do swej formy,
5.6. Rozkład x?
323
przy liniowych transformacjach zmiennych losowych. Istotnie, wprowadzając układ nowych zmiennych y = Rx, otrzymujemy dla formy kwadratowej w wykładniku rozkładu wielowymiarowego:
x- NTV (x -p=(R"y-u) V"'(R"'y— a)
= (R"'y - RW) V"' (R"'y — Rh) = (y — Aa)” [R"'] V'R"' U — An) = (y — un) [RT] VR"
(5.76)
— An)
= (y — un)! [RVR"] ' 0 — An) = (7 — Un) (VRI' (Y — R):
co powoduje, że nowe zmienne y mają rozkład
N (y; ln, VR) =
;
(s 2n
1
,/det VR
1 exp (-50 — in)" [VR] 0 — u)
,
przy czym HR Oraz
—
RL,
Va
—
RVR"
det Vp = det V
dla transformacji ortogonalnych. Wiele lat pracy matematyków nad rozkładem normalnym zaowocowało
bogactwem wyników dotyczących własności tego rozkładu. Obecnie przejdziemy do przedstawienia niektórych, wybierając trzy z nich: rozkład X, Studenta i F Fishera, które mają związek z zagadnieniem testowania hipotez.
—-
56. Rozkład x*
5.6.1. Wyprowadzenie Niech zmienna losowa x ma rozkład Gaussa o znanej wartości oczekiwanej j4 1 znanej dyspersji o. Znajdziemy rozkład zmiennej losowej 2 x — [l u= ,
cz
W pierwszym kroku, standaryzując gaussowską zmienną x X
x—
Z=
o
,
otrzymujemy standaryzowany rozkład normalny (5.73) 1
N (z; 0, 1) = Só
zł
KP (-5)
,
324
5. Niektóre rozkłady
Wykorzystując wyniki przykładu 2.6.3, możemy podać funkcję rozkładu zmiennej u X (u)=
5 7%
(- >):
Weźmy teraz dwie niezależne zmienne gaussowskie x; i x z tego samego rozkładu
1 zbadajmy rozkład zmiennej losowej
=(57) + (757). x1=mV o
x — WYŻ o
Rozkład takiej zmiennej to po prostu rozkład sumy dwu zmiennych u; i u», który otrzymamy, splatając, zgodnie z (2.27), dwa rozkłady A) (u): A> (u)
=
|»
(u — t)
X)
l
(t) dt =
z
p
( ——AJ= czna
1
exp
u
(>).
Zwróćmy uwagę na to, że otrzymaliśmy rozkład wykładniczy. Postępując tak dalej, otrzymujemy rozkład dla sumy n kwadratów standaryzowanych gaussowskich zmiennych
losowych:
X, (u) = (2)
r(7)*
5-1 'exp
(
exp(-*>)
,
n>0,
u>0,
(5.77)
co można wykazać np. indukcyjnie. Rozkład (5.77) opisywany funkcją X, (u), należącą do rodziny rozkładów gamma (5.42), nazywany jest rozkładem x*. Rozkłady te numerowane są indeksem n, który nazywamy liczbą stopni swobody. Przy parzystej liczbie stopni swobody rozkład ten jest rozkładem Erlanga w zmiennej t = u/2.
5.6.2. Własności rozkładu x? Przykłady tego rozkładu dla kilku wartości liczby stopni swobody zilustrowane są na wykresie 5.44. Widzimy, że jeśli zwiększamy liczbę stopni swobody, maksimum tego rozkładu przesuwa się ku większym wartościom zmiennej, jak również rozkład staje się coraz to szerszy i bardziej symetryczny. Podamy teraz jego wartość oczekiwaną:
€[u]=n
(5.78)
V [u] = 2n,
(5.79)
1 wariancję:
bez wdawania się w szczegółowe obliczenia, jako że całki, jakie musimy tu obliczyć, są elementarne i sprowadzają się do funkcji I” Eulera. Fakt, że wartość oczekiwana zmiennej losowej typu x” jest równa liczbie stopni
swobody, wykorzystywana jest często w praktyce statystycznej, przez podawanie wartości
5.6. Rozkład x? 0,5
325
n=l
0,4
|-
0,3
|-
n=2
0,1 0,0
Rys. 5.44. Przykłady rozkładów x? dla kilku wartości liczby n stopni swobody
tej zmiennej podzielonej przez liczbę stopni swobody. Warto wtedy pamiętać, że tak wyrażona wielkość losowa, mając wartość oczekiwaną równą jedności, ma jednocześnie dyspersję
Zauważmy również, że moda rozkładu x? przypada w punkcie u =n —2.
-—-
Przykład 5.6.1 Rozkład estymatora wariancji i dyspersji Dotychczasowe
rozważania
zakładały,
że
wartość
oczekiwana
rozkładu
Gaussa
jest znana. Jak zmieni się nasz rezultat, gdy standaryzując każdą ze zmiennych
gaussowskich, użyjemy średniej arytmetycznej zamiast wartości oczekiwanej? Jest
to pytanie o rozkład zmiennej u postaci =
-12
(*
*)
4
-S
(*
o
-
2
+4...+
o
-4
(*
2
)
,
(5.80)
o
Powyższą sumę możemy zapisać inaczej: l Ę u= Gi 2%
—X)
l = 5ż
— (2%
- 1)
.
_
(5.81)
i=l
Zmienne losowe x; mają łączny rozkład będący iloczynem n rozkładów normal-
nych:
326
5. Niektóre rozkłady
ex (-
N (x; 4,0)= =
a
1
MN
(
2n o)
(Xx; — a)
P
CXp
202
(
pe
A
2
0
2
9)
(5.82) 3
gdzie wykorzystaliśmy notację podrozdziałów 5.2.6 1 5.5.4. Do zmiennych x; w powyższym rozkładzie zastosujemy tzw. przekształcenie Helmerta: yy
I
=
(x
1
2
zzz
a =
Y
l
1.2
l
1
—
X), 2
1 Fa — 2%),
zę 1 FX Fa — 3%),
1 Z—-—(1+%+%3+4+:'':+X,-1 — (N— 1)X,), (n-1l):n
1 _ y, —0,+%+x3 +x4+''"+X,) =4nX, /n co inaczej zapiszemy jako y=Rx.
Istotną cechą tego przekształcenia jest to, że jest ono ortogonalne, czyli R'R=RR'
=l|L,
co, po wykorzystaniu (5.76), pozwala zapisać rozkład (5.82) w formie
(Y— UR) (Y — p
N (x; HR, 0) =
=
sj" „(s Żpi- bog)
jako że wszystkie zmienne y;,y>,...,y„_, mają wartość oczekiwaną równą zeru, a wartość oczekiwana zmiennej y, jest ,/n razy większa niż wartość oczekiwana pojedynczej zmiennej losowej. Zauważmy, że wprowadzając zmienną X =
Yn R”
5.6. Rozkład x?
rozkład możemy przepisać w postaci N
(i,
222
Yn-1s X;
AL,
o)
l
(X — a)
„Ak n
TE= JE
(Siio)
w której rozkład zmiennej losowej x jest odseparowany od pozostałych zmiennych,
co jednocześnie wykazuje nam, że średnia jest od nich statystycznie niezależna. Zauważmy, że w zgodzie z ogólnymi wynikami podrozdziału 4.2, Średnia arytmetyczna ma wartość oczekiwaną równą wartości oczekiwanej zmiennej losowej,
a wariancja średniej arytmetycznej jest n razy mniejsza od wariancji pojedynczej zmiennej gaussowskiej.
Wróćmy teraz do zmiennej losowej u (5.81). Ponieważ przekształcenie R jest ortogonalne, więc
2 ; =x".x=(R'y) - (R'y) =y'RR'y=y' -y l
— Dy:
n=l
— Sy
i=1
+Y;,
2 J_Y:
i=l
Lnx.
i=l
Podstawiając ten rezultat do wyrażenia (5.81), otrzymujemy 1 u
czyli dokładnie
=
n
wykładnik
>
—
1
pierwszej
nl
>
DZ
=
-„e
(2:
52
funkcji wykładniczej
w funkcji gęstości
(5.83). Ponieważ jest to suma n — 1 niezależnych zmiennych losowych (rozkład w zmiennych y, faktoryzuje się), więc rozkład wielkości u jest rozkładem x* o n—1
stopniach swobody (porównaj z (5.77))
X-1 (U) n-1
4)
=
-
(2) r(7) 1
n
—|l
1 -1exp(->
U
€Xp
|
(->)
.
Z rozkładu zmiennej losowej u natychmiast otrzymujemy, że wielkość ń
l
v=$=——u=—-
V(x -3*
dostarczająca estymatora wariancji zmiennej rozkładu Gaussa, podlega rozkładowi n-l
f(v;o,n) =
(2)
n—l a”
r (
n-l >
)
(
(n — l)v
o?
"z!
M
(n — 1)v
exp (z) 20?
i, co jest bardzo ważne, jest statystycznie niezależna od zmiennej losowej, jaką jest
średnia arytmetyczna (widzieliśmy to już w przykładzie 5.5.10). Z powyższego A na wartość oczekiwaną estymatora wariancji rozkładu otrzymujemy
eg]=>7
——2 - (a — ) = o?
327
328
5. Niektóre rozkłady
tl (e) () 200
1 wariancję tego estymatora 2
2
2
2
tak jak to już raz znaleźliśmy w przykładzie 5.5.2. Podobna
(sprawdź (4.8))
analiza
prowadzi
nas
również
do
2
wniosku,
że
zmienna
losowa
_ nin NM ——1) 1) 2 o?
x)
jest statystyką Xx” o n — 1 stopniach swobody. Skoro dysponujemy nieobciążonym estymatorem sź wariancji o? zmiennej rozkładu Gaussai znamy rozkład tego estymatora, możemy pokusić się o sprawdzenie własności statystycznych estymatora s„. Zacznijmy od wartości oczekiwanej: 00
o
O
nl (42) n
n
"(2)rG) n—1
-1(V/2)
-1(92)
r
n-l
ja
7471
A
(sx) = ——- (Vu) =
p
u
' exp (->) du
8 ( 2 ) ”
raz
__
n-l
( 2 )
n
r
76)
"
nl]
( 2 )
która ukazuje na jego obciążony, choć nie asymptotycznie, charakter:
(5) =
—__"()
—r(7)
o
"Wn-l
O
— 0.
n>o
2
Zajmijmy się teraz wariancją estymatora s,. Ponieważ wartość oczekiwana jego kwadratu to o”, więc V[sx]=o* — (s) =o*|1—
Lo
2
"re
2
(3)
(2)
50_
"(z)r(7)
Jeśli dokonamy asymptotycznego rozwinięcia, wg wzoru Stirlinga (5.5), wszystkich występujących tu funkcji /' Eulera, to otrzymamy ń
ME) r()r(Z) 2
R eX
Pn)
=|]
m
5,6. Rozkład x?
329
co prowadzi do wyrażenia na wariancję
l
(5.84)
v [sx] Z o”, 2n i jej estymator (kwadrat błędu błędu) A l > V[Ssx] = 2n *
stosowany w przykładzie 5.5.2.
T)
Powyższy przykład nie powinien w Czytelniku wzbudzić mniemania, że dysponując
próbką doświadczalną normalnych danych x;,, możemy dla tej próbki obliczyć wartość zmiennej losowej x*, wykorzystując Średnią arytmetyczną, jako że pozostaje problem mianownika w każdym ze składników sumy
(5.80), czyli problem dyspersji rozkładu
Gaussa. Wielkość ta przy pobieraniu próby z reguły nie jest znana, a pobieranie próby ma właśnie na celu najczęściej określenie zarówno estymaty wielkości oczekiwanej, jak i estymaty dyspersji. Moglibyśmy co prawda użyć tej ostatniej do określenia wartości zmiennej losowej (5.80), która wyglądałaby jak zmienna x*, ale w najlepszym razie mo-
głaby ona ją aproksymować, przy czym aproksymacja ta byłaby tym lepsza, im estymata dyspersji obarczona byłaby mniejszym błędem. O tym zastrzeżeniu należy zawsze pamiętać, ilekroć oglądamy wyniki eksperymentalne interpretowane w terminach rozkładu X”, jako że właśnie regułą jest, iż zamiast Ściśle określonego parametru rozkładu normalnego, jakim jest jego dyspersja, stosowana bywa jej estymata. Tę, zdawałoby się, słabość zmiennej z rozkładu x* często obraca się w jej atut i wykorzystuje w procesie analizy
danych doświadczalnych do określenia nieznanego błędu pomiarowego. Metoda ta jest powszechnie stosowana w procedurach kalibracji detektorów, kiedy to wykorzystujemy pewne znane wielkości np. geometryczne, znajdowane w dokładnych pomiarach geode-
zyjnych przeprowadzanych w momencie budowy detektorów lub też np. masy cząstek elementarnych lub rezonansów jądrowych. -—-
Przykład 5.6.2 Rozkład x* dla różnych zmiennych gaussowskich Rozważmy n gaussowskich zmiennych łosowych x, (i = 1,...,n), każda pochodząca z rozkładu normalnego W (x;; 4,o;) o wspólnej wartości centralnej. Dla
- (2) (2) (2)
próbki tej zdefiniujemy zmienną losową
x-AV 0)
(%-HV 07
x AV O,
Ponieważ każdy ze składników tej sumy podlega rozkładowi x? o jednym stopniu swobody, więc suma jest zmienną losową o rozkładzie x* o n stopniach swobody. Identyczny rezultat otrzymujemy także i dla zmiennych z rozkładów Gaussa zadanych różnymi wartościami oczekiwanymi ,,.
330
5. Niektóre rozkłady
Przykład ten podnosi kwestię wykorzystania średniej ważonej Xx„ zamiast wartości oczekiwanej j4 w konstrukcji zmiennej X*: -
2
Xi — Xy j
01
-(
)
—
2
X2 — Xw 07
+(
)
-
Xp
2
Kw On
++(
|
|
Rozumowanie przebiega tu tym samym torem co w przykładzie 5.6.1. Musimy jedynie zmodyfikować przekształcenie Helmerta. W tym celu wprowadzimy najpierw
zmienne
a z nich skonstruujemy zmienne l
Zi
l
Ę — 9;
"= 270 (a, 205) Y 2 =
ŁŻ"]) 03 'Q+0:;
1
Yn=1
=
dn
+ 74) — 0
nl
NA ——— Q,-10
(5:
—
O
O3Z3 27323
)
|,
Z,
— —
GnónZn
)
|»
gdzie
Przekształcenie to jest ortogonalne, dzięki czemu z” :z = y':y, a wszystkie zmienne y, mają jednostkową wariancję i zerową wartość oczekiwaną, z wyjątkiem zmiennej y,, dla której wynosi ona m/ Q,„. Ponieważ
rę0. = Sz 2002 +o. =P(->) 2-2) n
i=l
-
2
i
n
n
i=l
i=|l
n
FE
i=l
n
n
n—
nl
i=1
i=l
i=1
i=l
=),4—QX, =) y; — Q,X, = Sy +y— QŹ =) y; więc
(uj=n—- l
1 to niezależnie od rozkładu, z którego wywodzą się zmienne x,. Wynik ten uzasadnia postać błędu zewnętrznego, jaką wprowadziliśmy w podrozdziale 4.3.
W szczególnym przypadku, gdy zmienne x, pochodzą z rozkładów normalnych, wszystkie o identycznej wartości oczekiwanej m, lecz różnych dyspersjach o;, Wówczas zmienne z, podlegają rozkładowi
5.6. Rozkład x*
n
N
l
331
1
, u) = [l YŻm
exp (-50
— u?
Wykładnik tego rozkładu przekształcimy do postaci zależnej od zmiennych y;
e - u) = z -2Y) pz, + SU
i=l
1
i=l
i=l
= Sy; — 2uQ,x, + Qu i=l
n-l
=) ly; + Q,X, — 2uQ,X + Qu” i=l
nl
= )y; + Q,(% — u)”, i=l
co prowadzi do rozkładu tych zmiennych
N (112 Yn-1 wi IŁ) n-l
=
_
GE
oo
ep (536)
|
z
2
Utwierdza to nas w przekonaniu, że zmienna u ma istotnie rozkład x* o n — 1 7 stopniach swobody.
5.6.3. Postać graniczna rozkładu x* Wykres 5.44 rozkładu x? sugeruje, że dla dużej liczby stopni swobody rozkład ten staje się symetryczny. Nauczeni doświadczeniem z badania postaci granicznych innych rozkładów, wprowadzimy standaryzowaną zmienną z, zdefiniowaną wyrażeniem z
=
u-ć[u]
u=n
Dluj
42n
>
u=v2nz+h,
charakteryzującą się rozkładem postaci
Jn(z)
=
V2n (Wz tn)
ca r) 7
ń
!
"CEC +3)
exp | —z
w/2nz
+n)/.
Rozkład ten przedstawiony jest na rys. 5.45 dla trzech wartości liczby n = 5,101 20 stopni swobody (linie cienkie) wraz ze standaryzowanym rozkładem normalnym. Widać, że rozkład x? upodabnia się do rozkładu Gaussa dla dużych wartości parametru n. Wykażemy to formalnie, wykorzystując przejście graniczne n — oo. Skorzystamy z rozwinięcia Stirlinga (5.5)
332
5. Niektóre rozkłady n=5
0,5
p
rozkład Gaussa
i
—3
-—2
-]
0
l
2
3
zmienna standaryzowana Rys. 5.45. Porównanie rozkładu x* dla trzech wartości liczby n stopni swobody z rozkładem Gaussa
(2) Sz8($-1) ee NI
f(z) *
w/2n („/2nz + n
1] exp (-;
(2nz
+ 9)
,
(Go) -(-086-3-)
a po wprowadzeniu wszystkich elementów wzoru (z wyjątkiem czynnika X 2n) do wy-
kładnika i dokonaniu odpowiednich redukcji, otrzymujemy
J„(z) *
Wykorzystamy teraz rozwinięcia logarytmów:
a otrzymamy Jnl2)(z) R© pol
xp
2> _
J-541 zd — „||
Zachowując dominujący, pierwszy człon w wykładniku, otrzymujemy standaryzowany rozkład Gaussa
2
fnlz)
—
n> 00
| /27
xp ( 2- )
Z rysunku widzimy, że zbieżność rozkładu x* do rozkładu normalnego jest dość wolna. W praktycznych obliczeniach rozkład graniczny stosuje się dla n > 30.
5.7. Rozkład Studenta
—-
333
5.7. Rozkład Studenta
5.7.1. Wyprowadzenie W podrozdziale 5.6.2 wspomnieliśmy, że użycie estymaty dyspersji rozkładu normalnego przy konstruowaniu zmiennej typu x* może dać nam co najwyżej tę zmienną losową w przybliżeniu. Dlatego właściwsze byłoby rozważenie rozkładu statystyki postaci
x—H b
Sx
zwanej statystyką Studenta. Ponieważ błąd średniej arytmetycznej s; wiąże się ze zmien-
ną typu x” zależnością
g2 Sz = nn=l)
więc statystykę Studenta możemy wyrazić w ogółnej postaci
x— u o
x Sx
X-a -
2
nn=l1'
4n m
u
n—
l
W mianowniku licznika znajduje się dyspersja o/,/n wartości średniej, a w mianowniku pod pierwiastkiem liczba n — 1 stopni swobody zmiennej u typu x”. Oba obiekty pojawiają się tutaj z uwagi na to, że wyszliśmy od pewnej konkretnej zmiennej losowej, tj. Średniej arytmetycznej. Aby nasze rozważania uogólnić, zajmiemy się rozkładem
zmiennej losowej zdefiniowanej wyrażeniem
x— U t=—o—
(5.85)
gdzie wielkość x jest zmienną losową pochodzącą z rozkładu normalnego o parametrach A oraz o , natomiast zmienna u podlega rozkładowi x* z n stopniami swobody, przy czym zmienne x oraz u są statystycznie niezależne (tak jak to jest dla średniej arytmetycznej
i jej niepewności standardowej).
Postać rozkładu zmienną losową
zmiennej
t wyprowadzimy,
standaryzując
najpierw
gaussowską
x— HL t=—
u
n
>
z
t=—,
U
n
a następnie wypisując postać łącznej funkcji rozkładu dla zmiennych z oraz u
334
5, Niektóre rozkłady
2
oraz odwołując się do wyników podrozdziału 2.6. Pokazaliśmy tam, że funkcja gęstości dwóch zmiennych losowych przy ich przekształceniu podlega zamianie wg przepisu (2.26): glłt,v) =h(z(t,v),u(t, v)) |J(t, v)|.
Jeśli dokonamy przekształcenia
|
= v=u
z
———
—
+=
>
/ujn
0z
y
a |_|; t
J=|s
+
u=v
dz
807]
—
—
dt
z7gl-
m
2%
0
dv
1
=|
[e
to łączna funkcja gęstości zmiennych t oraz v przyjmie postać Snlf,
6) V)
1 r Jze »( v 5) = == —— ni V — ©xp|-—5 — 57 V2NT
r (>)R
(42)
1
my Y
= / nn (42)
n
2
nżl_q
v
2n
t>
%P|-z(IF7)|-
r (>)
Ponieważ jesteśmy zainteresowani rozkładem brzegowym zmiennej t, więc wycałkujemy £„(t, v) względem zmiennej v: 00
S,() n
=
J
00
(t,v)d V)dU
gnU,
=
I
PNY
ant
śm(43) r(3)
J
v2
ap6 (
73
»(142))a "
v.
Jeśli w całce dokonamy zamiany zmiennej:
"z n
to sprowadzi się ona do całki normalizacyjnej z rozkładu x? z n+1 stopniami swobody, którą możemy łatwo obliczyć, otrzymując ostatecznie w wyniku 40
T(i(n+1
= TE)
„/nn T' (zn)
n=l,2,...,
2y
(147)
n
736640)
,
(5.86)
—00 < I < ©,
czyli rozkład Studenta o n stopniach swobody, podany przez angielskiego statystyka W. S$. Gosseta (Student, The Probable Error on the Mean, Biometrika 6 (1908),
William S. Gosset,
1876-1937
1), który swoje
prace naukowe publikował pod pseudonimem Student, gdyż . . . jego pracodawca, znana firma browarnicza Guiness, zabronił mu w kontrakcie używania własnego nazwiska.
5.7. Rozkład Studenta
Przykład 5.7.1
Średnia arytmetyczna — rzetelność producenta cukru Przyczynę, dla której interesujemy się rozkładem Studenta, wskazaliśmy we wstępie do tego podrozdziału. Stosując zmienną Studenta:
X-H
t=
o/4/n
(n — 1)sż JE /a-1
_X-u =
ss//no|
=
X-H
(5.87)
sz
o n— 1 stopniach swobody, unikamy trudności, która „gnębi” statystykę y* — nieznana dyspersja rozkładu Gaussa kasuje się i otrzymujemy zmienną zdefiniowaną
w całości przez dane doświadczalne. Umożliwia to testowanie hipotez o wartości oczekiwanej rozkładu Gaussa. Zauważmy także, że zmienna t mierzy odchylenie uzyskanego wyniku od wartości oczekiwanej w jednostkach błędu standardowego. Rozważmy następujący przykład. Przypuśćmy, że chcemy sprawdzić rzetelność, z jaką producent cukru rozsypuje go do toreb, których waga netto powinna wynosić 1 kilogram. Zakupujemy w tym celu 5 toreb i ważymy ich zawartość.
Obliczamy średnią wagę, która wynosi 960 gramów i znajdujemy odchylenie stan-
dardowe tej wielkości jako np. 10 gramów. W świetle reguły trzech odchyleń standardowych (patrz przykład 5.2.3) gotowi jesteśmy posądzić producenta o nieuczci-
wość, jako że w tym przypadku średnia waga odbiega od nominalnej aż o cztery standardowe odchylenia. Czy jednak nasz wniosek nie jest zbyt pochopny? Reguła trzech standardowych odchyleń odniesiona do rozkładu Gaussa implikuje prawdopodobieństwo 99,73% znalezienia zmiennej losowej wokół wartości oczekiwanej. W naszym przypadku wartość statystyki Studenta wynosi £ = —4. Jakie jest prawdopodobieństwo, że średnia waga otrzymana z próbki liczącej 5 pomiarów będzie zawarta między 960 g a 1040 g, czyli jakie jest prawdopodobieństwo, że zmienna
1 l
©
—
DV
©
RM
nn
O
M
0606
©
—
losowa Studenta t o czterech stopniach swobody będzie mniejsza, co do wartości bezwzgłędnej, od czterech? Stosowne obliczenia dają P(—4 < t < 4) = 0), 9839. Widzimy, że jest to prawdopodobieństwo mniejsze niż to, jakie znajdujemy dla
liczba odchyleń
r-—
0
„LL.
i
10
20
l
30
l
40
]
S0
stopnie swobody Rys. 5.46. Graniczna wartość statystyki t Studenta,
jako funkcja liczby stopni swobody
dla której
P(—t
< t < t) = 0,9973,
335
336
5. Niektóre rozkłady
rozkładu Gaussa. Gdybyśmy
chcieli wyciągać konkluzje na tym samym pozio-
mie prawdopodobieństwa, na jakim to czynimy w przypadku rozkładu Gaussa i reguły trzech standardowych odchyleń, graniczna średnia waga netto musiałaby
odbiegać od wagi nominalnej o przynajmniej 66 gramów, ponieważ dopiero wtedy P(=6,6 < t < 6,6) = 0,9973.
Jak powinniśmy się zachować, gdy nasza próbka jest bardziej obfita? Na rysunku 5.46 prezentujemy zależność granicznej wartości statystyki Studenta, wy-
czerpującą tę samą ilość prawdopodobieństwa (99,73%) jako funkcję liczby stopni swobody. Jak widzimy, dopiero dla liczby stopni swobody na poziomie kilkudzie-
sięciu uzyskujemy wartość £ zbliżoną do tego, co daje nam rozkład Gaussa, czyli
trzy odchylenia. Wynik ten jest zrozumiały, jeśli przypomnimy sobie rezultat (4.9) podrozdziału 4.2, który pokazuje, że dla próbki o rosnącej liczebności fluktuacje estymatora wariancji z próby maleją, a tym samym estymator ten w coraz to większym stopniu przybliża parametr rozkładu Gaussa. Dla mniejszych liczb stopni
swobody, liczba odchyleń może być bardzo duża; np. dla liczby stopni swobody kolejno: 5, 6 i 7, liczba ta wynosi około: 5, 5 i w końcu 45.
T)
—-
Przykład 5.7.2
Statystyka Studenta dla dwóch średnich arytmetycznych Rozważmy teraz dwa ciągi x; (i = 1,2,...,n)orazy,
(Jj=l, 2,...,'m) gaussow-
skich niezależnych zmiennych losowych pochodzących z rozkładu o tych samych
parametrach /4 oraz o. Skonstruujemy następujące niezależne statystyki: |
L —_ X =
—
n
2__ Ss, =
Xi,
-_lq
2,
J=QW
l
3-
n-l—=i=l
bę
(G
—
=;2 X) ,
22
| Y=nT > (y;— 1) .
Wiemy, że obie średnie arytmetyczne podlegają rozkładom Gaussa o wartości ocze-
kiwanej u i dyspersjach o /,/n oraz o/4/m. Różnica obu średnich, a nawet ogólniej, wyrażenie X— 4, — (y — Ly) ma również rozkład normalny z wartością oczekiwaną równą zeru i wariancją
o 2 o 2 m+n o, — + — = o.
n
Statystyki
m
c
u, = (n — 1),
nm
y
uy = (m — 1)—;
mają natomiast rozkłady x? o n — 1 oraz m — 1 stopniach swobody. Z. podrozdziału 5.6.1 wiemy, że suma dwóch zmiennych losowych o rozkładzie x*, jedna on — 1, druga o m — 1 stopniach swobody, jest również zmienną losową o rozkładzie x? o liczbie n + m — 2 stopni swobody. Możemy wobec tego utworzyć zmienną Studenta
5.7. Rozkład Studenta
337
X ay — (Y — my) n +m nm
—
Ux H Uy
y
NT
n+m— 2
x-T-(u y
n+m
p
n+m-2V
(1x
m
—
My)
ę+ ż
*
n
5
(5.88)
Cz
o"
o rozkładzie Studenta z liczbą n + m — 2 stopni swobody. Zmienna ta ma zastosowanie przy testowaniu hipotez o równości wartości oczekiwanych dla dwóch
populacji gaussowskich o tej samej wartości dyspersji. Tak jak w przykładzie 5.7.1,
tu zmienna Studenta (5.88) także mierzy różnicę między wartościami średnimi (dla x = Hy) w jednostkach odchylenia standardowego dla tej różnicy, ale dzieje się to jedynie wtedy, gdy liczebności próbek są duże i porównywałne ze sobą:
—
x-y y
x-y Tę
pę+
n+m
n=m
lsż
+ s;
n+m-2Y m n o " W przeciwnym razie dochodzą, jak to widzimy, czynniki korekcyjne.
n
5.7.2. Własności rozkładu Studenta Dla parametru n = 1 rozkład Studenta przechodzi w tzw. rozkład Cauchy'ego 1 1 SG) =— , —00 () —
—00 < £ < OO,
(5.90)
+ (€ — 4) £
—
—00 < JL < OO,
T> 0.
Parametr I' zwany jest szerokością linii. Do rozkładu tego po-
wrócimy w podrozdziale 5.9.
Zauważmy, że rozkład Studenta ma tyłko skończoną liczbę momentów. Jeśli liczba stopni swobody jest większa od jedno-
ści, to wartość oczekiwana znika: € [t] =0,
n>l,
natomiast wariancja istnieje dla liczby stopni swobody większej od dwóch:
YKM=——, n-2
n>2
(5.91)
Kształt rozkładu Studenta, dla kilku wartości liczby stopni swo-
body, podany jest na rys. 5.47.
Augustin Louis Cauchy,
1789-1857
e
]
5. Niektóre rozkłady th
338
rozkład Gaussa n=lo
Rys. 5.47. Kształt rozkładu Studenta dla kilku wartości liczby stopni swobody
5.7.3. Postać graniczna rozkładu Studenta Na rysunku 5.47 ilustrującym rozkład Studenta przedstawiony został również, dla porównania, standaryzowany rozkład Gaussa. Widzimy, jak dla dużej liczby stopni swobody
rozkład Studenta zbliża się kształtem do rozkładu normalnego. Tym zagadnieniem zajmiemy się obecnie. Tak jak i w poprzednich przypadkach, rozwiniemy, korzystając ze wzoru Stirlinga (5.5), obie funkcje I' występujące w definicji (5.86) rozkładu:
5,0) z
EGP)
„/nnx/2n (zn — 1)
1,1
NI
—_ayżn
9 CE
3)
2 exp (—>n + 1
24 —Ż
n+|
(+7) H
|
a następnie wciągniemy wszystkie czynniki (z wyjątkiem x 2n) do wykładnika:
302 zęee(50(1-3)7377z7"(71)l
„(t) =
n 1 | —n|l—-—|--—
n-l
n|l—-|
2
—
1 rozwiniemy logarytmy:
1.
I
2), n
2 n
n|l--|=-—-,
n|l--j=—-, n n
72 "(*7))
n+1
In | 1
t
KAWIE. n n
n(1+—|=—,
otrzymując
SZ „M )
*
—
w2n
2
( 7 — CXP]z AE
n
z
—
n
—
n>oo
I
„/2n
( 3
exp | -—
AE
|,
jak oczekiwaliśmy, rozkład Gaussa. W praktyce rozkład graniczny jest używany zamiast rozkładu Studenta, jeśli liczba stopni swobody przekroczy 30.
5.7. Rozkład Studenta
--
Przykład 5.7.3 Współczynnik korełacji z próby — profil wiązki Powróćmy do przykładu 5.5.10 i łącznej postaci funkcji rozkładu błędów standar-
dowych i współczynnika korelacji z próby: g(Sx,
Sy;
r)
—
nl
(osy) UP)" nT'(n — 2)
n- | sz EN] X w( no 2(1—5p>) ĄD (>) Najczęściej
zdarza się, że potrzebujemy
9
-
p”
prszS sy ZY A , Ox0y " (2) ))
sprawdzić zgodność uzyskanego współ-
czynnika korelacji z próby z wartością zero, czyli z założeniem p = 0, niezależnie
od rozkładu wartości błędów standardowych sy, oraz sy. W takim przypadku funkcja
rozkładu brzegowego dla współczynnika korelacji z próby przyjmuje postać
Jr)
_
p (zm = 1))
VAT 10 -2))
(1 s OW
.
Jeśli w tym rozkładzie dokonamy zamiany zmiennej pna
r/n —2
to otrzymamy
Ś„-2(t)=
o
r Gw
D)
/nln-2T (3(n — 2))
(>)
n=2
|
—00 < £< ©.
Widzimy, że rozkład zmiennej t jest rozkładem Studenta o n —2 stopniach swobody. Wartość tej zmiennej dla przykładu z profilem wiązki z rozdziału 1 wynosi 0,324/ 386 — 2 f=——————)
"
1
" (S2) r(3)
który w następnym kroku zamienimy na rozkład zmiennej Jeśli dokonamy przekształcenia
DU n w,
F =
=>
v=u
—
UL
U =v
n
JU
yy
=>
J
=
to łączna funkcja gęstości przyjmie postać $nm(F,v)
=
(42)
|
wim
I
a (—F)
TGnT(im)" "
dv su
OF
dv
M2
U)?) 2-1
e
xp (>)U2
i
,
F, stosując metodę (2.26).
Jur
3F a
zh 1
(
oM2
1
yż m1
n
—v |M
=
0
exp (->
—F| Mm l
(—F
m
=
n
—y,
m
+ 1)) ,
Eliminując zmienną v przez scałkowanie (całka jest z klasy całek rozkładu x”), otrzymujemy rozkład Fnm(F)
=
r (;(0+m))
ni"m?" Fa"!
n,m> O,
'A (żn) A (żm) (m + nF)żttm
F>0Q,
zwany rozkładem F Fishera z (n, m) stopniami swobody. Należy wspomnieć o pewnym
zamieszaniu, jakie panuje w literaturze w kwestii nazwy tego rozkładu. Jeśli zajrzymy do
książek ze statystyki adresowanych do fizyków, spotkamy nazwy: F Snedecora—Fishera lub po prostu F Fishera. Klasyczne podręczniki statystyki matematycznej dość jedno-
myślnie określają go jednak mianem rozkładu F Snedecora lub po prostu rozkładem F.
W dziełach tych termin rozkład Fishera, zarezerwowany jest dla rozkładu zmiennej, konwencjonalnie oznaczanej literą z, zdefiniowanej wyrażeniem z = > lnF,
—00
< Z < W,
1 określany jest precyzującą nazwą rozkład z Fishera z (n, m) stopniami swobody. Zaletą rozkładu wielkości z jest to, że jest on bardziej zbliżony do rozkładu normalnego.
W tej książce będziemy stosowali terminologię, jaka utarła się wśród fizyków, a więc
używali nazwy rozkład F Fishera dla rozkładu zmiennej losowej (5.92) proporcjonalnej
do stosunku dwóch zmiennych, każda o rozkładzie x*.
342
5. Niektóre rozkłady
George W. Snedecor,
Sir Ronald A. Fisher,
1882-1974
1890-1962
r—
Przykład 5.8.1 Porównanie odchyleń standardowych Wiemy,
że każda ze statystyk u, oraz uy, wykorzystująca estymatory sz oraz Sy
wariancji o? dła dwóch prostych próbek, statystycznie niezależnych od siebie i wylosowanych z popa U, =
nl
=
normalnej o tej samej dyspersji o:
>
(w - X),
ml
uy =
55
lIĘ
sy = 2
)
_
(y—Y);
i=l
ma rozkład x? oodpowiednio n — I oraz m — 1 stopniach swobody. Z wielkości tych możemy zbudować zmienną F Fishera: Ux
nl,
aż
Sx
g2
Sy
_ nl n=l _S% == mol, $ m— l
(5.93)
m—l
która będzie podlegała rozkładowi F o (n — 1, m — 1) stopniach swobody. Przykład ten jest ważny, ponieważ dostarcza on narzędzia do testowania hipotezy o równości wariancji w dwu próbach prostych wylosowanych z rozkładu normalnego.
n"
5.8.2. Własności rozkładu F
Przykłady rozkładu F dla niektórych wartości par stopni swobody zilustrowane są na
rys. 5.49. Rozkład F jest monotonicznie malejący dla n < 2 oraz ma modę dla n > 2 w punkcie
Kaz MA—2 n(m +2)
1.
5.8. Rozkład F Fishera 1,0
r
(n,m) = (1,1)
08 | 0,6
343
(n,m) = (5,1)
|
0,4 |
3
02 L
(n,m) = (10,5) (m, m) = (5,10)
0,0
l
0,0
0,5
l
L
J
1.0
1,5
2,0
Rys. 5.49. Przykłady rozkładu F
Wartość oczekiwana dana jest wyrażeniem €[F]=-—,
m >2
m —2
1 jest zawsze większa od jedności, natomiast wariancja określona jest przez 2m*(n + m — 2
Y[F] =
r ) n(m — 2)2(m — 4)
m > 4.
Dla jednostkowej wartości pierwszego ze stopni swobody otrzymujemy rozkład F w po-
staci:
_ Tlm+D)
która po podstawieniu zamienia się na
TOGM+D)
1"
p
PY O
1,
t=F, Ir
(i(m +1
1 Gm+D)
,/ nm I (>m)
1
(1 +
m
0)
zD
t>0,
czyli rozkład Studenta o liczbie m stopni swobody, określony na dodatniej półosi.
5.8.3. Postać graniczna rozkładu F Interesujące zachowanie objawia rozkład F przy przejściach granicznych dla liczby stopni
swobody. Przy ustalonej wartości parametru n, przy przejściu granicznym m
otrzymujemy
F„(F) Kok
— mM—>0o
n 22"
(>n.)
(nF)r" exp (-znF) 2
”
—
00
344
5, Niektóre rozkłady
czyli rozkład x* w zmiennej nF, o n stopniach swobody. Dowód przebiega analogicznie
do dowodów postaci granicznej dla innych rozkładów. Dokonujemy przybliżenia funkcji I' w części, w której występuje stopień swobody m, za pomocą wzoru Stirlinga (5.5) (o
ile dotychczas utrzymywaliśmy bardzo uważnie wszystkie stałe składniki typu jedności lub połowy, to tym razem zaniedbamy je w stosunku do wielkości m; ufamy, że Czytelnik po tylu przykładach powtórzy nasz rachunek bez przybliżeń): niż” E2n-1
Fnm(F) 3
(ż(n
D(zn) |
+ m))*"""
(2)
- zer 9)
=——--—---gyp
+ m))
mie(tm)*" exp(—1m)
_n (nF)2""!
_ n(nF)ż"!
exp(—1(n
n
n y ż(r+m)
2
m
=—— 0% | 23" T' (żn)
n
—— + 2
m
(22) n
n(14 2) n — | —
n+mn 2
n pp"
y-zbtm)
m
+ | ——
_ n(nF)z"!
(
— — m
n+mn 2
=
In (14 --P) n -
—F m
n(nF):""! n MAD (I In? 1 (14 ©)np). 22" T' (zn)
2m
2
m
Znak przybliżonej równości wprowadziliśmy z uwagi na rozwinięcie funkcji logarytm. Dła m — oo ostateczne wyrażenie zbiega do rozkładu x? w zmiennej nF, jak to podaliśmy wyżej. Ponieważ rozkład x” przy liczbie jego stopni swobody dążącej do nieskończoności dąży do rozkładu normalnego, więc jednoczesne przejście w rozkładzie F z parametrami n oraz m do nieskończoności prowadzi nas również do rozkładu Gaussa. Dowód przebiega analogicznie, należy jedynie wprowadzić zmienną standaryzowaną. W przeciwieństwie do przejścia m — oo przy ustalonym indeksie n, przejście n — oo przy ustalonym indeksie m nie doprowadza do żadnego nowego rezultatu, co
więcej, nie doprowadza do żadnego rozkładu.
—-
5.9. Rozkład Breita-Wignera
Rozkład (5.90) Breita—Wignera (zwany też rozkładem Cauchy ego) S(x
4
1
T)=——
—
DT
"(ZT) +G-n)
7”
—00
< X < ©,
—00
< JL < OO,
T>0,
spotkaliśmy w podrozdziale 5.7.2 jako szczególny przypadek rozkładu Studenta, gdy
ten ma tylko jeden stopień swobody. Znaczenie tego rozkładu w
fizyce jądra atomowego
1 cząstek elementarnych wynika z faktu, że opisuje on kształt jądrowych poziomów wzbudzonych i rezonansów cząstkowych. Jest on również nie bez znaczenia z punktu widzenia statystyki matematycznej z uwagi na swoje specyficzne własności. Polegają
5.9. Rozkład Breita-Wignera
345
one na tym, że rozkład ten nie ma określonej wartości oczekiwanej, a wyższe momenty zwykle są bądź nieskończone (parzyste), bądź nie istnieją (nieparzyste). Spowodowane jest to tym, że rozkład Cauchy'ego zbyt wolno zbiega do zera dla dużych wartości argumentu.
Gaussa.
Ilustracją tego faktu jest rys. 5.50, porównujący ten rozkład z rozkładem
0,5 p 0,4 0,3
rozkład Gaussa
0,2 F rozkład
0,1
Cauchy'ego
-4
-3
-2
-|
0
l
2
3
4
Rys. 5.50. Porównanie rozkładu Cauchy'ego i Gaussa
W konsekwencji dla rozkładu Breita-Wignera nie są spełnione założenia centralnego
twierdzenia granicznego i wartość Średnia z prostej próbki zmiennych tego rozkładu nie podlega, w granicy, rozkładowi normalnemu. Pokażemy to, wyprowadzając rozkład sumy
X = x; + x» dwóch zmiennych losowych x; oraz x, każda o rozkładzie Cauchy'ego. Jak to wynika z podrozdziału 2.6, rozkład sumy jest zadany splotem (2.27):
fa => on
|
NI
00
du
(1+2:-0v)7)(1+v0)
13
mwq+(lx)
—00
gdzie całkę obliczamy, rozkładając funkcję podcałkową na ułamki proste. Jeśli zamiast sumy zmiennych losowych weźmiemy Średnią arytmetyczną, to otrzymamy
1
fG) = —1
1
iż
ponownie rozkład Cauchy'ego. Składając podobnie dowolną liczbę zmiennych, otrzymamy zawsze dla średniej arytmetycznej rozkład Cauchy ego.
Własność ta uniemożliwia zastosowanie standardowych metod oceny parametrów rozkładu Breita-Wignera. Jeśli próbka jest liczna, wtedy zazwyczaj uciekamy się do metody najmniejszych kwadratów. Jeśli danych jest niewiele, a próbka nie jest zanieczyszczona, wtedy możemy
przywołać na pomoc modę i zastosować metody podroz-
działu 4.6 lub jeszcze lepiej wykorzystać metodę wykresu kwantyli. Sposobem na „uleczenie” tego rozkładu jest obcięcie go do pewnego zakresu zmiennej wokół wartości modalnej:
346
5, Niektóre rozkłady
J 06; M, La, Ly, T')
l
Lip
(GT) +e-w>
(GT) +2- u)?
2
Ib
( Ha
2
a
dx
—
arctg | 2 b)
r
TY + 6 — w)?
—_
j
arctg | 2 bah
a
dla 1, < x < jm, co dla wartości oczekiwanej daje
l
T
Ep]l=u+—
„AG
a
M" +T"
_„2+ŁT2
BE) +
4 arctg (287 *)
— arctg (275 »
Wielkość ta jest równa wartości ji tylko wtedy, gdy obcięcie jest symetryczne wokół mody rozkładu.
Specyficzny charakter rozkładu Breita-Wignera objawia się również w niezmiernie
często spotykanym w praktyce laboratoryjnej przypadku obliczania wartości błędu ilorazu z = x/y dwóch niezależnych zmiennych losowych rozłożonych wg rozkładu normal-
nego z parametrami p, i o, Oraz ay i oy. Stosujemy tu zazwyczaj metodę przedstawioną w podrozdziale 3.4 i przedstawiamy błąd wielkości z jako s2
s2
|
s;=z (5 + 3
(5.94)
gdzie wielkości sy i sy to estymaty wariancji obu rozkładów. Przyjrzyjmy się bliżej
temu zagadnieniu. Jak to wynika z przykładu 2.6.6, zmienna losowa z określona jest
rozkładem
fGQ) =
1
—
210 xy
|
f
(-=
bie
—n)Ż 1x)
20?
(W=
8 (V — ))
u)? ja:
2o;
który, po rozbiciu zakresu całkowania na dwa: od minus nieskończoności do zera i od zera do plus nieskończoności (w celu usunięcia modułu pod znakiem całki), rozwinięciu
kwadratów w wykładnikach, wydobyciu przed znak całki części niezależnych od zmien-
nej całkowania, dokonaniu zamiany zmiennej i uporządkowaniu, można przedstawić jako
J (z)
—
1
noo,
1
1 R z? w( o; 2
o; 2
1/fuż
M
——> (>|5xę©)J| + aż
1
+ g(z) exp
8” (2)
>
g(z)
jes 0
——t2 | dr|,
5.410. Rozkład jednostajny
347
gdzie
g(z) = ————. o
x
l
z”
2 Oy | g2 0;
Zauważmy, że jeśli zmienne x oraz y pochodzą ze standaryzowanego rozkładu normalnego, natychmiast otrzymujemy, że rozkład f(z) redukuje się do rozkładu Cauchy'ego. Jak widzimy,
pełny rozkład dła dużych
wartości zmiennej
z zachowuje
się
identycznie z rozkładem Breita-Wignera (funkcja g(z) dąży do stałej dla z + oo), tak więc wariancja zmiennej z tego rozkładu jest również nieokreślona. Wynik ten stawia pod
znakiem zapytania sensowność, w odniesieniu do zmiennych gaussowskich, obliczania błędu stosunku dwu takich zmiennych, jako że błąd takiej wielkości jest nieokreślony, a tym samym wielkość ta pozostaje dowolna między plus a minus nieskończonością. Wielkości losowe określone takimi stosunkami są, z punktu widzenia statystyki matematycznej, źle zdefiniowanymi obiektami. Powinniśmy po prostu unikać formułowania za-
gadnień w ten sposób. Na przykład nigdy nie formułujemy zagadnienia polegającego na
obliczeniu stosunku dwu zmiennych, każda o rozkładzie dwumianowym, poniewaz w takim przypadku mielibyśmy niezerowe prawdopodobieństwo pojawienia się wyrażenia, w którym mianownik znika, co daje nam nieokreśloną operację matematyczną. Zamiast tego stosunku obliczamy wielkości typu stosunku rozgałęzień, w których w mianowniku
występuje zawsze dobrze określona wielkość. Mimo tych zastrzeżeń postępowanie wykorzystujące wzór (5.94) ma wielokrotnie sens, choć nie zawsze zdajemy sobie z tego sprawę. Jeśli wielkości x oraz y są np. dodatnie z mocy operacyjnej procedury pomiaru, co dzieje się np. przy wykorzystaniu twierdzenia Pitagorasa do pomiaru odległości między punktem produkcji a punktem rozpadu niestabilnej cząstki elementarnej, to nie mają
one znaczenia wielkości losowych o charakterze gaussowskim. Modelowych przykładów takich wielkości dostarczają nam rozkłady x*, Studenta lub Fishera, dla których wartość i błąd stosunku są dobrze określone, przynajmniej dla pewnych zakresów parametrów
tych rozkładów. Wtedy nasze rozważania powyżej nie mają zastosowania i możemy mieć
dobrze uzasadnioną nadzieję na słuszność prostego, laboratoryjnego wzoru.
—— 510. Rozkład jednostajny Z rozkładem tym spotkaliśmy się już w przykładzie 2.6.1. Ogólnie, rozkład jednostajny, zwany też jednorodnym, równomiernym lub płaskim, zadany jest wyrażeniem J(x;a,b)
=
——,
ba
—00
—...—2lnx,
=—2lnQqx>...X,).
Dla rozkładu x* o nieparzystej liczbie 2n + 1 stopni swobody wystarczy, jeśli utworzymy zmienną u
u=
—2InOqX>...X,„) + z”,
gdzie wielkości x; mają rozkład jednostajny z przedziału [0; 1], a zmienna z pochodzi ze standaryzowanego rozkładu Gaussa.
T)
5.10. Rozkład jednostajny r —
351
Przykład 5.10.5 Zmienna losowa z rozkładu Breita-Wignera Ponieważ dla rozkładu Cauchy'ego (5.89) dystrybuanta określona jest związkiem — T
|
dt
-( , = —(arc I + t* T 2
+5) —|, 2
—00
więc zmienna losowa
ma rozkład Breita-Wignera o parametrach j4 oraz I”, jeśli zmienna x ma rozkład jednostajny z przedziału [0; 1]. r
Dyskretny wariant rozkładu jednostajnego to P.(n) = L. k=1,2,...,n. n Wartość oczekiwana i wariancja dla tego rozkładu wynoszą n+1
ć [k] =
n —1
*
VIkl=—7—:
0,1010 r 0,1005
|-
0,1000
|-
0,0995 |0,0990 | 0,0985 0,0980
|
0
1
2
3
4
5
6
7
8
9
Rys. 5.51. Rozkład cyfr w liczbie r
Jako ciekawostkę można podać, że matematycy
w swych zmaganiach
z liczbą n
obliczyli wiele milionów cyfr znaczących po przecinku i badania statystyczne nie doprowadziły do zdyskwalifikowania tego ciągu jako ciągu liczb losowych o rozkładzie płaskim. Histogram 5.51 przedstawia częstości, wraz z błędami, występowania cyfr 0,1,...,9
dla pierwszych
I 254539
cyfr ludolfiny. Dane
(za: H. Scott, Project Gu-
tenberg, http://promo.net/pg/index.html) pochodzą z tabeli 5.5 zadającej krotność każ-
352
5. Niektóre rozkłady Tabela 5.5. Krotność cyfr w rozwinięciu liczby n
dej z cyfr. Zauważmy,
górne 2%. Rozważmy
0
125 505
5
125 880
1
125 083
6
124 796
2
125 594
7
125452
3
125 792
8
125 376
4
125372
9
125 689
że histogram przedstawia jedynie „wierzchołek” rozkładu, czyli
dwie najprostsze wielkości statystyczne, jakie możemy
tabeli. Dla jednostajnej dyskretnej zmiennej losowej o rozkładzie P,=-—,
nń
wydobyć z tej
k=0,1,2,...,n—l,
wartość oczekiwana wynosi
1 w naszym przypadku jest to 4,5. Z, danych znajdujemy, że średnia arytmetyczna dla
wszystkich cyfr wynosi 4,5002, a jej niepewność to 0,0026. Dla wariancji otrzymujemy Yy[k] =
nż — |]
12
1 oczekujemy, że będzie ona wynosiła 8,25. Estymata tej wielkości to 8,2504.
—- 5.11. Podsumowanie. Związki między rozkładami Wzajemne relacje między poszczególnymi rozkładami przedstawionymi w tym rozdziale
możemy podsumować na rys. 5.52 (idea za: T. Eadie i inni, Metody statystyczne w fizyce
doświadczalnej, PWN, Warszawa 1989; symbole n, m, k oraz p, A i i mają znaczenie, w jakim są one używane w odpowiednich podrozdziałach). Wskazuje on na centralną rolę,
jaką odgrywa rozkład normalny, będąc granicznym rozkładem dla wszystkich dyskutowanych przez nas rozkładów, przy spełnieniu zaznaczonych na rysunku warunków. Na schemacie zaznaczony również został schemat Bernoulliego, z którego niejako wywodzą się pozostałe rozkłady. Obok relacji ukazanych na rysunku, istnieje także związek między rozkładem Erlanga a rozkładem Poissona. Związek ten jest treścią podrozdziału 5.4.1, gdzie rozkład Poissona wyprowadzony był z rozkładu Erlanga, i treścią przykładu 5.4.3,
gdzie przeprowadzona jest operacja odwrotna — rozkład Erlanga uzyskany jest z roz-
5.11. Podsumowanie. Związki między rozkładami
kładu Poissona. Sam rozkład wykładniczy wywiedliśmy
353
także z rozkładu dwumiano-
wego w podrozdziale 5.3.1, jednak wyprowadzenie to nie jest takie bezpośrednie (tak samo jak i wyprowadzenie rozkładu Poissona z rozkładu Erlanga i odwrotnie), jako że
prowadzi od zmiennej dyskretnej do zmiennej ciągłej.
Powinniśmy także pamiętać, że oprócz zależności granicznych między rozkładami normalnym, Studenta, x? oraz Fishera F zaznaczonymi na rysunku, istnieje między nimi Ścisły związek, wynikający ze stosownej zamiany zmiennych.
schemat
Bernoulliego
dwumianowy (wielomianowy)
geometryczny (Pascala)
> 0 p—>0
np > At
L) m(l
p) >At
m— w
wykładniczy
p>l
n — 00 k>©o
|
n(l -p) >u p—>l
nw
p-—>0 np-—>u fp-ż%
M —> 00
n> ©
Poissona
(Erlanga)
A> © (wielo)normalny
1h ©
Breita-Wignera M —
©
n =const
Rys. 5.52. Związki między rozkładami i ich formy graniczne
TEORIA
Niewiasta odziana w szaty o kolorach pomieszanych, w prawej dłoni trzymająca złotą koronę i pełny mieszek, w lewej sznur.
Złota korona i stryczek to znaki mówiące, że zrządzeniem losu jednemu pisane jest szczęście, drugiemu — nieszczęście.
— Rozdział 6
Metoda Monte Carlo
—- 6.1. Idea symulacji komputerowej Metodę Monte Carlo wytłumaczymy na następującym przykładzie. Przypuśćmy, że interesuje nas kwestia równowagi gatunkowej między królikami i wilkami na pewnym obszarze. Zbudujmy następujący model. Wyobraźmy sobie wyspę, na której panuje
wieczne, łagodne lato ze stosowną ilością opadów, które zapewniają niewyczerpane zasoby trawy, stanowiącej podstawę pożywienia królików. Króliki żyją w parach. Samice co trzy miesiące (12 tygodni) rodzą młode, których liczba waha się między pięcioma a czternastoma, przy czym kazda z tych możliwości występuje z identycznym prawdo-
podobieństwem wynoszącym 0,1. Każde młode z równym prawdopodobieństwem może być zarówno samczykiem, jak i samiczką. Młode dorastają bardzo szybko, a po trzech
miesiącach dojrzewają, łączą się w pary i kontynuują samodzielny żywot na innej łące.
Założymy także, że króliki nie są wybredne i łączą się w parę z pierwszym napotka-
nym przedstawicielem płci przeciwnej. Rasa królików, która zadomowiła się na naszej
wyspie, różni się od dobrze znanych nam królików tym, że nie są one zbyt towarzyskie 1 rozmieszczają się dość losowo po terytorium wyspy. Normalna długość życia królika
wynosi 5 lat (60 miesięcy) i osobnik, który dożył do tego wieku, znika z łąk naszej
wyspy. W tak sprzyjających warunkach naturalnych liczba królików rozrosła się do tego
stopnia, że na całej powierzchni wyspy liczącej 100 kiców kwadratowych (kic jest jednostką długości, jaką będziemy stosowali w naszych rozważaniach) można było znaleźć ich aż 9600 sztuk (4800 par). Ta obfita populacja królików zaczęła zagrażać uprawom i dlatego ludzie zdecydowali
się wprowadzić do środowiska naturalnego wroga królików, który utrzymałby ich liczbę
pod kontrolą. Wybór padł na wilka. Te jednak są bardzo drogie na rynkach okolicznych wysp, toteż lokalny samorząd zdołał, po długotrwałej kampanii zbiórek publicznych,
zgromadzić fundusze i zakupił tylko jedną wilczą parę. Każdy wilk, aby utrzymać się
przy życiu, musi przynajmniej raz na tydzień upolować królika. Przyjmiemy,
że wilk
w poszukiwaniu swojej ofiary może w ciągu jednego dnia przebiec dystans jednego kica, a w trakcie łowów jest on w stanie wyczuć królika w promieniu 0,005 kiców. Jeśli
wilk trafi na królika, ten ma szansę 0,2, aby mu się wymknąć, o ile wilk w poprzednim
356
6. Metoda Monte Carlo
tygodniu najadł się do syta. Jeśli tak nie było, to z każdym tygodniem szansa królika
wzrasta o kolejne 20%, co sprawia, że po czterech tygodniach postu wilk odchodzi do
innej, wiecznej, krainy łowów. Jeśli polowanie zakończy się sukcesem, to wilk wraca do sił i do końca bieżącego tygodnia leni się, o ile nie ma obowiązków rodzinnych, o których
za chwilę opowiemy. Wilki żyją w parach i wilczyca co 6 miesięcy w miocie wydaje na świat od czterech do ośmiu młodych, z prawdopodobieństwem 0,2 dla kazdej możliwości. I tu, jak dla królików, szansa każdej z płci jest równa. W czasie ciąży, która trwa dwa miesiące (8 tygodni), jak również przez następny miesiąc, kiedy to wilczyca opiekuje się małymi, tata-wilk musi łowić przynajmniej dwa króliki na tydzień. Jeśli mu się połów uda, to, z racji swego wilczego apetytu, pierwszy królik jest dla niego, a dopiero drugi dla wiłczycy i potomstwa. Po tym czasie wilczyca również może ruszyć na polowanie, ale przez kolejne dwa miesiące dorastające wilczki wymagają zwiększonej ilości jadła i wilcza para musi w tym czasie łowić przynajmniej 3 króliki tygodniowo. Zarówno wilk, jak i wilczyca są egoistyczni. Pierwsza upolowana sztuka przypada myśliwemu, druga
jest dla dzieci, a dopiero trzecia dła współmałżonka. Przez te trzy miesiące, kiedy młode
są pod opieką i nie potrafią samodzielnie polować, każde 3 tygodnie bez pożywienia
eliminują je z dalszych rozważań. Także jeśli któryś z wilków z pary nie przeżyje tego okresu, drugi działa od tego momentu do końca życia jako samotny wdowiec (lub wdowa). Młode, po trzech miesiącach od urodzenia, stają się samodzielne i ruszają na
polowanie. W sześć miesięcy po urodzeniu dojrzewają, łączą się w pary i odchodzą do własnych rejonów łowieckich. Wilki nie mają wrogów, chyba że ich liczba przekroczy 10 sztuk na kic kwadratowy. Wtedy wkracza do akcji człowiek, co czyni, że szansa przeżycia przez wilka pojedynczego tygodnia spada do 99%. W normalnych warunkach wilk dożywa wieku dziesięciu lat (stu dwudziestu miesięcy).
Jak będzie się kształtowała populacja wilków i królików na wyspie? Jaka ustali się
równowaga i jaką liczbę wilków i królików ona wyznacza? Pomysł uzyskania analitycz-
nej odpowiedzi na pytanie dotyczące populacji królików i wilków jest absurdalny. Przy takiej liczbie precyzujących warunków jest to niemożliwe. Możliwe jest jednak prześledzenie rozwoju sytuacji na wyspie, jeśli skorzystamy z komputera, który dostarczać nam będzie liczb losowych z rozkładu jednostajnego na przedziale [0; 1], za pomocą których
rozstrzygniemy o każdej probabilistycznej sekwencji wydarzeń. Musimy najpierw dopre-
cyzować warunki początkowe naszego problemu. Wiemy, że na wyspie znajduje się 4800 króliczych par. Utwórzmy listę wszystkich królików. Przyjmiemy, że są to wszystko doro-
słe pary, dlatego musimy określić, w jakim wieku się one znajdują. Ponieważ króliki żyją
5 lat, tzn. 240 tygodni, przyporządkujmy wszystkim kolejnym czterdziestkom królików ten sam wiek — pierwsza czterdziestka ma 1 tydzień, druga 2 tygodnie itd. W ten sposób
utworzymy trochę par królików, które formalnie nie będą jeszcze dostatecznie dojrzałe, aby mieć potomstwo, ałe będzie to niewielki ułamek całej populacji, który nie powinien istotnie zafałszować ogólnego obrazu sytuacji. Podobnie, każdej kolejnej parze króliczej
przypiszmy kolejny tydzień, w jakim znajduje się samiczka w ciąży. Oba zabiegi pozwa-
lają na równomierne rozrzucenie w czasie przyszłych momentów narodzin i naturalnej śmierci w całej populacji. Nasz algorytm mógłby wyglądać w następujący sposób. Zacznijmy, a będziemy to robić po upływie każdego tygodnia, od bilansu. Przegłądamy
6.1. Idea symulacji komputerowej
357
listę wszystkich królików. Jeśli natkniemy się w niej na królika, który osiągnął wiek pię-
ciu lat, skreślamy go z listy. Natomiast gdy natrafimy na parę, dla której przyszła pora mieć potomstwo, losujemy liczbę z przedziału [0; 1]. Jeśli liczba ta należy do przedziału
[0; 0,1), to królicza para ma piątkę potomstwa, jeśli liczba ta znajduje się w przedziale
[0, 1; 0,2), to mamy szóstkę itd., aż do liczby zawartej między 0,9 a 1,0, która oznacza 14
małych puszystych króliczków. Dla każdego nowego królika tworzymy miejsce na naszej
liście, notujemy numer tygodnia, w którym się urodził, oraz wybieramy losowo dla niego płeć. Jeśli na naszej liście znajdziemy parę króliczą zdolną do podjęcia samodzielnego
życia, to łączymy ją w parę. Obliczamy łączną liczbę wszystkich królików i znajdujemy
ich gęstość n na jednostkę powierzchni. Liczba ta przyda się nam za moment. Teraz pora zająć się wilkami. Najpierw tworzymy listę wszystkich wilków i stadeł,
jakie one stanowią. W liście tej zapisujemy wiek każdego z nich, tydzień, w którym
on jadł ostatnio, jak również odnotowujemy, kiedy ostatni raz wilcza rodzina uległa powiększeniu. Jak mamy rozwiązać problem polowania? Jeśli wilk może wyczuć królika w promieniu 0,005 kiców, to oznacza to, że biegnąc, wilk penetruje węchem pas o szerokości 0,01 kica. Liczba ta określa „przekrój czynny” o na natrafienie na królika. Znając gęstość n królików na jednostkę powierzchni, możemy obliczyć „typową drogę swobodną” A = (no)”', jaką wilk musi pokonać, aby napotkać królika. Ponieważ zarówno siedziby wilków, jak i same króliki są rozrzucone losowo po terytorium wyspy, więc gęstość prawdopodobieństwa napotkania królika przez wilka po przebyciu drogi s
zadana jest rozkładem wykładniczym € (s; A) = A”' exp(—s/A). Przykład 5.10.1 podpowiada nam, jak dysponując liczbą losową x z przedziału [0; 1], znaleźć liczbę losową s podlegającą rozkładowi wykładniczemu z parametrem A: s = —Alnx. Gdy znaleziona
przez nas liczba s jest większa niż dystans jednego kica, jaki wilk może przebiec w ciągu jednego dnia, to wilk tego dnia będzie musiał zacisnąć pasa i głodować. W przeciwnym razie wilkowi udało się znaleźć królika. Teraz go jeszcze musi upolować. Pobieramy w tym celu ponownie liczbę losową. Jeśli jest ona mniejsza niż 0,8, to polowanie kończy się sukcesem i z listy królików skreślamy np. pierwszego. Jeśli w poprzednim tygodniu wilk głodował, to liczba ta może wynosić co najwyżej 0,6, przy dwutygodniowej gło-
dówce —
0,4, a przy trzytygodniowej —
0,2. Jeśli polowanie się nie powiedzie lub
wilk ma obowiązki rodzinne, to wyrusza na polowanie także każdego następnego dnia
tygodnia, dopóki nie zaspokoi swego głodu i nie wywiąże się ze swych obowiązków.
Po tygodniu dokonujemy bilansu królików i wilków. Sprawdzamy, czy wilki przeżyły i czy nie nadeszła już pora na powiększenie wilczej rodziny. Problem ten rozwiązujemy
tak samo jak dla królików. Łączymy również dojrzałych osobników w pary. Jeśli liczba
polujących wilków przekroczy krytyczną wartość dziesięciu na jeden kic kwadratowy, dla każdego z nich dokonujemy jeszcze jednego losowania, które zdecyduje o tym, czy nie stanie się on w nadchodzącym tygodniu myśliwskim trofeum. Wystarczy, że otrzy-
mamy liczbę większą od 0,99, a skończy on jako skóra przed kominkiem w salonie myśliwego.
Algorytm ten powinniśmy powtarzać tydzień po tygodniu. W ten sposób możemy prześledzić rozwój króliczej i wilczej populacji na wyspie. Jeśli nabierzemy przekonania, że osiągnęliśmy stan ustalony, możemy zakończyć procedurę. Przeprowadzona przez nas
358
6. Metoda Monte Carlo
analiza nie będzie jednak ostatecznym rozwiązaniem problemu, gdyż otrzymany wynik będzie pewną losową realizacją założonego modelu. Dlatego całą symulację musimy
powtórzyć wielokrotnie, np. kilkaset razy, a uzyskane rezultaty uśrednić. Dopiero wtedy
otrzymamy typowy obraz rozwoju sytuacji. Inne zagadnienie, już z zakresu fizyki, to problem rozwoju kaskady elektronów, pozytonów i kwantów gamma zainicjowanej np. pojedynczym elektronem przelatującym przez detektor zbudowany np. z naprzemiennie ułożonych warstw ołowiu i scyntylatora,
czyli tzw. kalorymetr. Ołów w takim detektorze służy do budowania lawiny, natomiast
scyntylator do jej mierzenia. Całkowity sygnał odczytany ze scyntylatorów jest miarą energii zdeponowanej w kalorymetrze i jeśli tenże jest na tyle długi, że pomieści w sobie
całą lawinę i nic nie „wycieknie” na zewnątrz, sygnał ten również stanowi miarę ener-
gii pierwotnego elektronu. Typowym problemem przy projektowaniu takiego detektora jest dobranie geometrii poszczególnych warstw, głównie ich grubości. Gdy ołów jest zbyt gruby, nie mamy dobrego pomiaru energii pierwotnego elektronu, gdyż większość
energii umyka nam, pozostając w ołowiu. Gdy natomiast mamy zbyt wiele scyntylatora,
słabo postępuje rozwój lawiny i „rozdrobnienie” energii, gdyż główne procesy odpo-
wiedzialne za mnożenie cząstek w lawinie, tj. kreacja par i promieniowanie hamowania
(Bremsstrahlung), zależą od liczby atomowej ośrodka. W rezultacie kalorymetr taki byłby nietolerowalnie długi. Możemy próbować zoptymalizować rozmiary kalorymetru przez
odpowiedni dobór grubości warstw, zapewniając sobie jednocześnie dostateczną jakość pomiaru energii pierwotnej cząstki. Operację taką najłatwiej jest przeprowadzić właśnie
drogą symulowania rozwoju kaskad w kalorymetrach o różnych parametrach geometrycznych. Oczywiście procedura taka wymaga dobrej znajomości składu chemicznego
ośrodków, przez które wędrują elektrony, pozytony i fotony, oraz przekrojów czynnych
na wspomniane wyżej procesy, jak również procesy rozpraszania Comptona, efektu fotoelektrycznego, nieelastycznego rozpraszania na elektronach powłok atomowych z wybiciem szybkich elektronów, wielokrotnego rozpraszania, rozpraszania na jądrach ato-
mowych oraz anihilacji i to jako funkcji zarówno kąta, jak i energii, dla całego zakresu
energii od zera do wartości energii padającego elektronu. Naturalnie, niezbędny jest również do tego celu potężny komputer, abyśmy nie strawili wieczności na symulowanie pojedynczej kaskady. W wielkim uproszczeniu symulacja taka przebiega w następujący sposób. Znając energię padającego elektronu i całkowity przekrój czynny na jego oddzia-
ływanie, a także gęstość ośrodka, w którym się on porusza, możemy znaleźć (patrz przy-
kład 5.3.8) typową drogę swobodną na oddziaływanie. Rzeczywista droga, jaką elektron przebiega, podlega rozkładowi wykładniczemu, a więc możemy ją wylosować metodą opisaną w przykładzie 5.10.1. Gdy elektron dotrze do miejsca swego przeznaczenia,
losujemy charakter jego oddziaływania, znając proporcje różnych przekrojów czynnych. Jeśli jest to np. proces typu Bremsstrahlung, losujemy zgodnie z przekrojem czynnym
parametry kinematyczne emitowanego kwantu gamma i wyłaniającego się z reakcji elek-
tronu. Od tego momentu mamy już dwie cząstki, których los musimy dałej śledzić. Na-
turalnie, występują pewne komplikacje: pierwotny elektron podróżując przez ośrodek, traci energię na wzbudzenia otaczających go atomów, a więc zmienia się jego przekrój czynny, a tym samym zmienia się szansa na oddziaływanie. Elektron w swej wędrówce
6.2. Generatory liczb losowych
359
podlega nieustannym, tzw. wielokrotnym rozproszeniom, które
również zmieniają jego aktualny kierunek ruchu. W końcu, gdy energia elektronu spadnie poniżej pewnej wartości, zaczyna on faktycznie błądzić przypadkowo — powinniśmy zaprzestać
jego śledzenia. Wszystkie takie efekty musimy uwzględnić, jeŚli chcemy, by nasze wyniki miały jakieś odniesienie do rzeczywistości. Gdy śledzone przez nas cząstki znajdą się we wnętrzu scyntylatora, pojawiają się nowe efekty: wzbudzenia i deekscy-
tacje atomów wraz z emisją fotonów. Musimy określić ich drogę
w ośrodku scyntylacyjnym oraz ich pochłanianie i ucieczkę. Ostatecznie, gdy fotony dotrą do fotopowielacza, musimy wysymulować jego odpowiedź. Stąd też powstały wszechstronnie doGeorge pracowane, za cenę szybkości i wielkości, specjalne programy komputerowe, uwzględniające cały stan wiedzy o procesach elektromagnetycznych. Jeden z nich, najczęściej spotykany i stosowany, czyli Electron-Gamma Shower. Metoda Monte Carlo nie została bynajmniej odkryta przez fizyków się w momencie, kiedy komputer stał się nieodzownym narzędziem w ich duchowego tej metody powszechnie uznawany jest francuski przyrodnik,
L. Bufton, 1707-1788
to tzw. EGS, i nie pojawiła pracy. Za ojca G. L. Buffon.
W 1777 roku zastanawiał się on nad uczciwą stawką, jaką powinien zapłacić przystę-
pujący do popularnej wśród paryskich robotników gry, w której rzucano bagietkę na podłogę z desek. Grający obstawiali zdarzenie polegające na przecięciu się bagietki ze szparą między dwiema sąsiednimi, równolegle ułożonymi deskami. Buffon podał poprawne wyrażenie na prawdopodobieństwo takiego zdarzenia. W rozwiązaniu tym występuje liczba w, co zrodziło popularny problem „igły Buffona”, a w późniejszych wiekach zainspirowało wielu amatorów do rzucania tej igły tysiące razy na liniowany papier, w celu eksperymentalnego wyznaczenia ważnej stałej matematycznej. William Gosset badał swój rozkład (Studenta), używając trzech tysięcy liczb losowych właśnie opubli-
kowanych w najbardziej prestiżowym czasopiśmie statystycznym Biometrika. Pierwsze znaczniejsze wykorzystanie metody symułacyjnej w fizyce zainicjowane zostało przez
Stanisława Ulama i rozwijane dalej wspólnie z Johnem von Neumannem, a związane było z budową broni atomowej i dotyczyło spowalniania neutronów. Zadanie to, jak zresztą
cały projekt Manhattan, było tajne, więc musiało zostać ukryte pod kryptonimem. Ulam zaproponował nazwę Monte Carlo, która przetrwała po dzień dzisiejszy.
—- 6.2. Generatory liczb losowych Jak widać z powyższych przykładów, kluczowy dła powodzenia każdej symulacji jest dostęp do dużej liczby liczb losowych, przy czym wystarczą do tego celu liczby z rozkładu jednostajnego z przedziału [0; 1], jako że materiał podrozdziału 5.10 pokazuje nam, jak uzyskać liczby losowe podlegające innym, przynajmniej tym najprostszym rozkładom. Metody symulacji nabrały skrzydeł w momencie upowszechnienia się komputerów
i opracowania algorytmów generowania liczb losowych. Wcześniej wykorzystywano do
360
6. Metoda Monte Carlo
ich otrzymywania naturalne zjawiska. W jednym z takich przypadków liczby losowe uzyskiwano, wprawiając w -ruch obrotowy cylinder zaopatrzony w strzałkę wirującą
nad skalą z kolejnymi liczbami naturalnymi. Cylinder ten zatrzymywany był przez licz-
nik typu Geigera-Miillera odnotowujący przejście cząstki promieniowania kosmicznego. Inny
sposób
to obserwowanie
preparatu
promieniotwórczego
przez zadany
przedział
czasu i zliczanie rozpadów. Przy nieparzystej ich liczbie zapisujemy jedynkę, przy pa-
rzystej — zero. Powtórzenie m-krotne takiej procedury daje w wyniku m bitową liczbę
losową w układzie dwójkowym. Obecnie liczby losowe, a ściślej pseudolosowe, generowane są w komputerach za pomocą liniowych rekurencyjnych algorytmów postaci Xn+l © AQXp F GyXp1 +'** rayX„x tb
(mod M),
gdzie startowe wartości (,ziarno”) pierwszych k + 1 liczb całkowitych x, pobierane są
np. z daty i czasu systemowego. Parametry a, ...,a4, b oraz M dobierane są w zależ-
ności od architektury komputera (długości jego słowa). Operacja „„mod” oznacza branie
reszty z dzielenia przez liczbę M. Liczbę pseudolosową z przedziału [0; 1) otrzymujemy,
dzieląc x„+,, przez M. I tak, dla przykładu, program STATISTICA* firmy STATSOFT*,
przeznaczony dla komputerów osobistych, używa następującej procedury:
Xan = 742938285x,
(mod(2?*! — 1)).
Wspólną cechą takich algorytmów rekurencyjnych jest okresowość uzyskanego szeregu liczb, tzn. po obliczeniu pewnej liczby x i podstawieniu jej do wzoru w celu wykonania następnej iteracji otrzymujemy ponownie pierwszą liczbę z szeregu. Dla przykładu
rozważmy prosty wzór
Xp
= llx,
(mod 32).
Dla xp = 1 otrzymujemy następujący ciąg liczb: 1, 11, 25, 19, 17, 27, 9,3, 1,... o okresie 8. Dlatego ważny jest odpowiedni dobór parametrów ag, ..., ax, b oraz M, aby ten ciąg był jak najdłuższy. Ich pochopny dobór może doprowadzić do tego, że pewne liczby
w ciągu będą występowały częściej niż inne, a więc faktycznie nie będziemy generowali rozkładu jednostajnego. Łatwo jest również uzyskać sytuację, w której dwie kolejne liczby będą ze sobą skorelowane. Znane są w historii fizyki cząstek elementarnych
fakty zdyskredytowania „markowych” generatorów liczb losowych dostarczanych przez szacowne firmy komputerowe. Właśnie z uwagi na te pułapki, przed wykorzystaniem
„firmowego” generatora warto poświęcić mu trochę uwagi i: e
Sprawdzić, czy liczby, które nam są oferowane, pochodzą z rozkładu z przedziału [0; 1], czy też może z przedziału [0; 65 535] albo np. [—1; 1]. Jeśli nie jest to prze-
dział [0; 1], to przez odpowiednią transformację liniową możemy je przekształcić do e
wymaganego zakresu.
Sprawdzić, czy liczby te istotnie mają charakter losowy, a więc przynajmniej powinny być jednorodnie rozłożone w swoim przedziale, a pary nie powinny wykazywać korelacji.
6.2. Generatory liczb losowych e
361
Rozważyć, jak długiego ciągu liczb będziemy potrzebowali i sprawdzić, czy w tym
zakresie nasz generator nie powtarza swojego cyklu. Gdy jakiś szczegółny problem wymaga tak dużej liczby liczb losowych, że przebiegniemy pełny zakres generatora,
wtedy cała podstawa metody Monte Carlo staje pod znakiem zapytania i pojawia się
wyraźna groźba, że nasze wyniki będą pozbawione wartości. Zazwyczaj generatory, których używamy, umożliwiają kontrolowanie wartości star-
towej. Warto z tej opcji skorzystać w sytuacji, gdy pracujemy nad programem, 1 rozpoczynać generację od tego samego „ziarna”, ponieważ może to ułatwić śledzenie błędów
w kodzie programu. Jeśli natomiast zbieramy próbkę przypadków z Monte Carlo, wtedy należy rozpoczynać program od następnej liczby losowej po tej, która kończyła poprzednie uruchomienie programu, a uzyskane próbki połączyć w jedną, przez co uzyskamy
lepszą statystyczną dokładność w naszym symulacyjnym opisie. 0,052
0,051
0,050
0,049
ia
0,048
0,0
0,1
0,2
0,3
Rys. 6.1. Rozkład 200000 pięciocyfrowych miliona cyfr, pierwiastka z trzech
0,4
0,5
liczb z przedziału
0,6
0,7
0,8
[0; 1], utworzonych
0,9 z rozwinięcia,
do
Spójrzmy na przykład wykorzystania cyfr, jakich dostarcza rozwinięcie 4/3 i zbudujmy z nich liczby losowe. Milion cyfr rozwinięcia tej stałej matematycznej (za: Nemi-
roff, R., Project Gutenberg, http://promo.net/pg/index.html) zostało pogrupowane w ko-
lejne piątki i metodą dzielenia przez 100000 znormalizowane do przedziału [0; 1) co dało 200000 kandydatów na liczby losowe. Histogram częstości, wraz z błędami, tak uzyskanych liczb przedstawiony jest na rys. 6.1 (zwracamy uwagę na tzw. odcięcie zera na osi rzędnych — gdybyśmy tego nie zrobili, nie moglibyśmy ukazać rozmiaru nie-
pewności częstości występowania liczb w każdej z klas). Rozkład wydaje się dobrze zgodny z rozkładem jednostajnym — fluktuacje są ograniczone i wartości częstości nie oddalają się o więcej niż dwa odchylenia standardowe od wartości 0,05, jaka wynika z wybranej liczby przedziałów histogramu. Oczekujemy, że wartość Średnia naszych
362
6. Metoda Monte Carlo
kandydatów na liczby łosowe powinna być bliska wartości oczekiwanej dla zmiennej
z rozkładu jednostajnego, która, jak wiemy, wynosi 0,5. Dla naszej próbki 200 000 liczb
znajdujemy x = 0,4991 + 0,0007. Możemy także obliczyć wariancję z próbki, która wynosi 0,083 31, podczas gdy oczekujemy wartości 1/12 = 0,083 33. 1,0
| 006
0,9
|
0,7
3
.
.
Pa
a e,
«e
.
p
0,5
0,4 le
.
0,3
|.
*
.
,
%
*
0,1
|
0,0
0,0
.
-
.
. .*
a.
0,1
*
a
*
.
.*
1,2
0,2
Ę
*
.
..e
,
„ „*
.
*
RE
+
.
"
.,
e
k
.
."
*
2
.
+
ad
0,3
0,4
"
*,
.
.
_*
.
*
*
".
e
0,5
*.
.
*
.
+
.
+
,
.
tł
s
.
.
0,6
.
+
-
L"a
0,7
:
.
.
* 20
. RA
.
.
,
.
.» .
. .
Ak .
.
. .
..
.*
| 2
:
.
+
. .
..
*,
+
.ą
3%
.
*
„. e?
.
. e
. *
..
.
.
*
.
.
+
.
«a
*
e
. .
.
*.
,
e
*
*
*
. ,
*
..
,
.
,
©
.
*«»
*
.,
.
.
z
8
© ..
h
.
...
..
€
.
.
.
*.
*
B
0,2
.
.
.
tg
.
.
» 0,6
e
.. .
Pe
0,8
*.*
1
.
.
*
:
e
„.*
*
|
0,9
©
e.
.
J
1,0
Rys. 6.2. Rozkład pięciuset pięciocyfrowych par liczb utworzonych z rozwinięcia, do miliona cyfr, pierwiastka z trzech
Zastanówmy się teraz na kolejnymi parami. Wykres punktowy na rys. 6.2 przedstawia pierwsze 500 ze stu tysięcy par. Widzimy, że rozkład punktów jest dość równomierny.
Możemy obliczyć współczynnik korelacji dla pełnego układu par. Znajdujemy, że wynosi
on —0,003 i powinniśmy wynik ten porównać z wartością zero, jakiej spodziewamy się dla zmiennych nieskorelowanych. Mimo że rezultaty te napawają optymizmem, nie oznacza to jeszcze, że uzyskaliśmy
dobry zestaw liczb losowych. Testowanie generatora liczb losowych to właściwie zada-
nie, które nie ma nigdy końca i zależy od pomysłowości sprawdzającego. Stosowane bywają rozmaite testy statystyczne, głównie polegające na konstruowaniu z tych liczb
wielkości, których rozkłady są znane, i sprawdzaniu zgodności tak uzyskanej próbki
z tymi rozkładami. Interesującym testem jest wykorzystanie liczb losowych do rozwiązania problemów, dla których znamy odpowiedź. Jednym z takich zagadnień jest obliczanie objętości V,,
kuli o jednostkowym promieniu w m-wymiarowej przestrzeni. Objętość ta, jak wiemy, wynosi p zy "m
(zm)
Metoda polega na sprawdzeniu związku x + dla układów
+''+x,
D[k] = >nz (1-2) z =. [A] n [k| nV4 4 /n
Jeśli zastosujemy te związki do liczb uzyskanych z rozwinięcia +/3, to znajdujemy N = 3,152 + (0, 005, co wskazuje na dobrą zgodność. Podobnie, dla przypadku trójwy-
miarowego uzyskana estymata liczby n wynosi 3,16-0,01. Zwróćmy uwagę na skromną
efektywność takiej metody szacowania liczby rr — mimo ogromu danych, w przypadku trójwymiarowym uzyskaliśmy precyzję na poziomie 0,3%.
——- 6.3. Metody generowania rozkładów prawdopodobieństwa Metoda
odwracania
dystrybuanty
przedstawiona
w
przykładzie
2.6.1
i zastosowana
w podrozdziale 5.10 jest najprostsza i najbardziej przemawia do wyobraźni, lecz daje
się wykorzystać jedynie w sytuacjach, gdy odwrócenie zależności matematycznej można przeprowadzić metodami analitycznymi. W bardziej skomplikowanych przypadkach mu-
simy się uciekać do innych sposobów.
/(2x)
A
c
Rys. 6.3. Ilustracja metody eliminacji przy generowaniu liczb losowych z ograniczonego rozkładu
J (x)
Jednym z nich jest tzw. metoda eliminacji. Jej algorytm dla funkcji gęstości praw-
dopodobieństwa f(x) ograniczonej od góry przez pewną wartość c < oo oraz jej dziedziny (zbiór argumentów x) zawartej między dwiema
liczbami
oo
CYTOWIACZACO sr) ar(7) ń
Elul=€|/5|=
ee
fs"
dS=———_—
(5)
)
O.
Jak widzimy, wielkość u jest obciążonym estymatorem dyspersji rozkładu, jeśli jednak wprowadzimy zmienną S
—
n
n
1
S$,
25
to usuniemy to obciążenie. Obliczymy teraz wariancję zmiennej s:
nr” (>)
£”[s] = NL
v[s] =
za)
= zzć
Xx
+
—0”
3
=
ze |
c | m |-
o”
NE
iźk,k=l]
= zi: (eta +) Stetin) i=l
iźk,k=l
n
2
= z, m (no? + zna
— Do?) - a
>,
=
01-22 7
Znaleźliśmy w ten sposób dwie statystyki: s oraz d, przy czym obie są zgodne i nieobciążone, toteż obie mogą posłużyć do oceny dyspersji w rozkładzie z wartością oczekiwaną równą zeru. Którą mamy wybrać? Zbadajmy stosunek f ich wariancji: n 2
= VBI _
nr (3)
vy [d]
|
are (>)
2n
nr-2
2 Zilustrowany jest on na wykresie 7.2 jako funkcja liczebności użytej próby.
Można pokazać, wykorzystując rozwinięcie Stirlinga (5.5), że stosunek ten dąży, dla wzrastającej
liczebności próby,
do około
0,876.
Widzimy,
że dla dowolnej
liczebności próby estymator s charakteryzuje się mniejszą wariancją, a tym samym dostarcza ocen dyspersji o mniej rozproszonych wokół wartości prawdziwej estymator d.
niż
10 r L 0,876 0,8 |-
0,6 |-
0,4
i
376
0,2 | 0,0
0
l
l
l
l
]
10
20
30
40
S0
liczebność n próby Rys. 7.2. Zależność stosunku wariancji błędu i wariancji odchylenia średniego jako funkcja liczebności użytej próby n
7.1. Własności estymatorów Cechę
estymatora
opisującą jego koncentrowanie
się na poszukiwanym
377 parame-
trze nazywamy efektywnością estymatora. Jest to niewątpliwie bardzo ważna i nie do pogardzenia cecha, jako że estymator wyposażony we własność małych fluktuacji dostarcza potężnego 1 kosztów.
narzędzia oceny „poszukiwanego
parametru,
ujmując
nam
pracy
Czy możemy skonstruować, przy skończonej liczebności próby, estymator o dowolnie
dużej efektywności? Niestety, nie. Okazuje się, że istnieje pewna minimalna graniczna wariancja Vin dla wszystkich możliwych estymatorów, jakie moglibyśmy wymyślić do
oceny poszukiwanego parametru. Aby sformułować postać tej granicznej wartości, wprowadzimy najpierw tzw. funkcję wiarogodności. Niech będzie dana próba losowa prosta x; o liczebności n z rozkładu f(x;0), gdzie x jest zmienną losową, a © parametrem określającym rozkład. Funkcją wiarogodności £ (x;0) dla próby x; nazywamy wielkość
£(x;6) =| | /0x:0).
(7.3)
i=l
Należy zwrócić uwagę na to, że formalnie funkcja wiarogodności wygląda jak łączna funkcja gęstości rozkładu. I taką łączną funkcją gęstości jest ona tak długo, jak
długo wielkości x; w wyrażeniu (7.3) są zmiennymi losowymi. Wielokrotnie w dalszej części wykładu spotkamy się z sytuacjami, gdy wielkości x, to faktycznie wyniki pomiaru, a więc Ściśle określone liczby, a nie zmienne. Wtedy wielkość £ nie jest funkcją gęstości zmiennych losowych — jest to zwykła, matematyczna funkcja zależna tylko i wyłącznie od parametru 8. W literaturze statystycznej utarła się i bardzo głęboko zakorzeniła się tradycja wymiennego stosowania terminu funkcja wiarogodności dla obu tych sytuacji. Dlatego, abyśmy mieli jasność, o której z tych dwóch
funkcji mówimy w danym momencie, będziemy stosowali oznaczenie L dla łącznej funkcji gęstości zmiennych losowych oraz £ dla funkcji parametru 6 (lub parametrów).
Wyprowadzimy
teraz wyrażenie
na postać wspomnianego
ograniczenia Vin.
ZA-
czniemy od formalnej definicji pojęcia obciążenia estymatora. Jeśli dysponujemy statystyką © (x) estymującą funkcję (6) parametru 0 rozkładu, to obciążeniem b estymatora
funkcji $ nazwiemy wielkość b(8) zadaną związkiem OO
J O©(x)L (x;0)dx = 3(0) + b(0). —00
W całości naszych dalszych rozważań przyjmiemy, że funkcja rozkładu f(x; 6) spełnia
wymagania niezbędne do tego, abyśmy parametru, obie pochodne — pierwsza wane, a zakres zmienności argumentu x spełniony np. dla rozkładu jednostajnego własność umożliwia przechodzenie, bez
mogli ją różniczkować dwukrotnie względem i druga — mają skończone wartości oczekinie zależy od parametru (warunek ten nie jest określonego na przedziale [0; 6]). Ta ostatnia komplikacji, ze znakiem różniczkowania pod
znak całki. Najpierw zróżniczkujemy powyższy związek względem parametru:
378
7. Estymacja parametryczna 00
38
O(x)L (x;8)dx
= Jewto
m
-
5
8) dx
lnL(x;8),
= | ow
"7
|
_ d8(6)
L(x;0)dx
=
19
„|-
db(6)
(7.4)
je
Następnie skorzystamy z faktu, że skoro funkcja Ł jest gęstością 1 jest unormowana, 00
| L(x;8)dx=l, to przy założeniu, że granice całkowania nie zależą od parametru, zachodzi 0 =
8 [ L(x;8)dx= |f —— In L ————L(x;8)dx=€|———|. (1:0) 9 In Ł (x;6) 06 (e:5)dx = | 30 3 0)dr = £ | 30 |
7.5
2)
Jeśli ten ostatni związek pomnożymy przez funkcję % (6), a wynik odejmiemy od (7.4), to znajdziemy, że
[00-00
(x; 0)
dó(8) , db(8)
8GĘE2
(x; 6) dx = ——— +9:
a podnosząc obustronnie do kwadratui stosując nierówność Schwarza do lewej strony,
otrzymujemy nierówność OO
[e ©)
jcew
— 8(8))ŻL (x; 0)dx
J(3
2
In L (x; o
L (x; 8)dx
00 2 (7 "da
+ 0) do
2
(7.6) |
która przepisana w postaci
v[0()] = J (O(x) — 8.(0))2L (x; 0) dx > Vy, [56 | (w do —
DO
J
A)
OD
+
2) dO 2
( do =
L (x;8)dx
+ mo) do
3
2
| (pnrao)
prowadzi nas do tzw. twierdzenia Cramera-Rao, czyli nierówności określającej minimalną wariancję V/min [5% | dla dowolnego estymatora funkcji v (6) parametru.
7.1. Własności estymatorów
379
Niekiedy bardziej przydatna jest alternatywna postać wyrażenia stojącego w mia-
nowniku. Otóż, różniczkując powtórnie związek (7.5) względem parametru 0, otrzymu-
jemy
f
9ln L(x;8)N”
(757)
|
Ló)dx
=
|
—00
f 9?1n L(x;6)
|
og
L:0)dz.
—00
co możemy także zapisać jako
€ |(5
9
* WACE o) | -—€
|
92
nL (x; o |
(7.7)
Twierdzenie Cramera-Rao ma szczególnie prostą postać, jeśli za funkcję » (0) przyj-
miemy sam parametr 6, a estymator 6(x) jest nieobciążony, ponieważ wtedy A
A
v|ó|>Vx|ó|=
= —T—
l
€ (5
ln Z (c; o) |
E |
(7.8)
|
l
L (x; o)
W dalszych naszych rozważaniach będziemy rozpatrywali, dla uproszczenia, tylko
estymatory nieobciążone. Zwarte i dość złożone formuły na minimalną wariancję Vmin
uprościmy teraz do postaci przydatniejszych w praktyce. Podstawimy, przede wszystkim, jawną postać logarytmu funkcji wiarogodności: Vmin
A
[6|
—
-
l
on
J L (x; 0) (ws)
2
=
dx
l
s
J
fi
(f12) (7)
gdzie, dla uproszczenia, wprowadziliśmy notację f; = f(x,;0)
2
,
dx
oraz f, = 36 J 0; 0).
Rozwijając kwadrat sumy pod całką, otrzymujemy dwa typy wyrażeń. Pierwszy z nich, dostarczający n składników, to kwadraty pochodnych logarytmu
C E J C O L S 8 7) ( I(s) —00
a drugi typ to wyrazy mieszane
nn) dz,
—%0
J(M)że- | saas=|([ ras) (| an)
które znikają, gdyż z warunku normalizacji | = J f(x;8)dx
380
7. Estymacja parametryczna
po zróżniczkowaniu go względem parametru O wynika, iż
_= „| | £ | 9ln f6G8) [636)dx 0 0=_[05/0:0dx _= | [ 8ln f(x:6) —00
J
(7.9)
—00
przy założeniu wspomnianej wyżej regularności funkcji gęstości. Przy spełnieniu tego warunku nierówność Cramera-Rao dla ciągłej zmiennej losowej przyjmuje postać
A
A
v|0] > min a
o
0
l
o
n | f(x;0) (51a J (x; o)
l
a
dx
n€ IG
J 0% s)
|| (7.10)
Ponowne wykorzystanie regularności funkcji gęstości pozwala przedstawić mianownik
w powyższym związku w innej postaci. Po zróżniczkowaniu (7.9) względem parametru 8
ZIIOESIOZSIOZ --[(7)]--[6)]
otrzymujemy twierdzenie Cramera—Rao w równoważnej związkowi (7.10) formie
v [ó] > Vo [5] =— nJ
|
0 f(x; 0)55z I f(x;0)dx
—
- —!
d n€ FL
(7.11) f OG Ą
wyrażonej przez formalne oznaczenia i bez skrótów. Dla rozkładu dyskretnego P,(0) i zbioru k; zmierzonych wartości: k = (k;,...,k,), funkcję wiarogodności definiujemy analogicznie
£ (k; 8) = | | P,(6),
(7.12)
i=l
a nierówność
Cramera—Ra0
to
6] >v.f]-
55
ky ,ką,...,kę
Ł(k;6) (zy ntt o)
>.
gdzie zaznaczone sumy w mianownikach przebiegają pełne zakresy zmienności. Rozumowanie podobne do tego, jakie przeprowadziliśmy dla zmiennej ciągłej, pozwala tę nierówność wyrazić przez
v[6| > %|6|=
n€
a
(35 In Pio)
*
—
0
ne |
—!
In P;(6)
|
(7.13)
7.1. Własności estymatorów Estymator,
dla którego
wariancja
osiąga ową minimalną
wartość,
381
nazywany jest
estymatorem najefektywniejszym. Dostarcza on wygodnej „miarki” do oceny jakości estymatorów.
-——
Przykład 7.1.2 Minimalna wariancja estymatora wariancji — rozkład Gaussa Znajdziemy minimalną wariancję estymatora parametru o” (wariancji) rozkładu Gaussa. Logarytm tego rozkładu wynosi | nA
(x;
,
4,0)
=
—>
l
In2n
—
l
2
z Ino
(x wa n)
202
7
Jego pierwsza i druga pochodna to (o?)
| ( x ; 4 , 0 ) = —>— (3 4,0) 20?
N NN
a? ——— InN (ao?)
n
(x
(2; u,0) H
o)
+
ł
=
x-Hu) +=, 2(o0*)?
-
2(07)?
(x — p) (a*)3
Podstawiając do twierdzenia Cramera-Rao (7.11), otrzymujemy Vin
[6]
l
=
—n [NG
u,o)
z
=
5 MN
2
—o*.
65 u.0) dx
Natomiast najefektywniejszy estymator dyspersji o (a nie wariancji o*) rozkładu Gaussa W (x; 4, o) powinien się charakteryzować wariancją
Va [6] =
308 o?
ok z (2-
/2RO
ex
p
_G-m 20?
dx
=
2
2a
1 jak widzimy, nie zależy ona od wartości oczekiwanej „w. Wyznacza to efektywność odchylenia średniego d z przykładu 7.1.1: o
—L-
on-2 n
n-2
= (0,876,
2
a dla estymatora s z tego przykładu znajdujemy, że jego efektywność dąży do
jedności wraz ze wzrostem liczebności próby. Stwierdzamy również, odwołując się
do przykładu 5.6.1, że błąd s, należy do klasy asymptotycznie najefektywniejszych.
TI
382 ——
7. Estymacja parametryczna
Przykład 7.1.3
Minimalna wariancja estymatora parametru rozkładu Poissona Rozważmy próbę złożoną z n elementów z rozkładu Poissona o wartości oczekiwa-
nej 4. Z podrozdziału 5.4.2 wiemy, że zarówno wartość oczekiwana, jak i wariancja
rozkładu Poissona są równe parametrowi ji. Dlatego też możemy rozważyć, który z estymatorów: wartości Średniej czy też kwadratu błędu jest bardziej efektywny.
Zacznijmy od minimalnej wariancji (7.13). Logarytmujemy rozkład Poissona
n — exp(- 1) =ilnp — p — Ini! i obliczamy jego pochodną
i!
0 i i — —(inu-u-hnih=—-1=—
0,
SEE i=l1
17 )n-2 ( — > ) i=]
nie zależy od parametrów ju oraz o, a jedynie od wielkości t. Zwróćmy uwagę, że jeśli znana jest nam wartość parametru ja, to statystyka t wyrażona przez para-
metr « zamiast średniej arytmetycznej x, jest dostateczna dla parametru o, a jeśli znany jest parametr o, to statystyka x jest dostateczna dla parametru „w. Gdy oba parametry rozkładu nie są znane, wówczas obie statystyki są łącznie dostatecznie
dla obu parametrów.
7
Inne rozkłady dopuszczające estymatory dostateczne dla swych parametrów to: dwu-
mianowy, ujemny dwumianowy, wykładniczy, Erlanga 1 Poissona.
Liczba statystyk dostatecznych nie musi oczywiście zgadzać się z liczbą nieznanych
parametrów. Jeśli badany rozkład ma postać fQ; 1,0) =
>
l
24/2r(1+1)o
ex
?
(-—-)
o
J'
7.2. Metoda największej wiarogodności
387
to funkcję wiarogodności możemy zapisać w formie
Lana)
1
I
ag
4 =w0)
ZG
wyznaczającej cztery łącznie dostateczne statystyki n
y=) x,
k=1,2,3,4
i=l
dla parametrów ja oraz o. Gdy parametr j4 jest znany, wtedy jedyną dostateczną staty-
styką dla parametru o jest wielkość
n
t=)6— M)", i=l
natomiast przy znanym parametrze o do oceny parametru j4 potrzebujemy aż trzech statystyk: t;, tę Oraz tz. Podobna sytuacja występuje dla rozkładu binormalnego, określonego przez 5 parametrów, dla których mamy 5 łącznie dostatecznych statystyk. Jeśli znane są wszystkie
parametry tego rozkładu, z wyjątkiem np. jednej z wartości centralnych, wtedy do oceny
tej wielkości dostateczną statystyką jest wartość Średnia. Jeśli jednak nie znamy tylko
współczynnika korelacji, to do jego oceny potrzebujemy dwóch łącznie dostatecznych statystyk
1
|
Uu=—7 3 (% — 1)” + — ) (yi — Hy)”, 0x i=l Oy i=l 1
b=
OxQy
n
36% — Moly; — My). i=-]
—- 7.2. Metoda największej wiarogodności 7.2.1. Zasada największej wiarogodności W podrozdziale 7.1 wprowadziliśmy funkcję wiarogodności (7.3) i (7.12):
L(x;6)=[ [ /(%;;0),
(7.18)
i=l jako funkcję gęstości, w której w miejsce zmiennych losowych x; podstawiamy wartości x, uzyskane w wyniku pobierania próby prostej z rozkładu f(x;8). Zakładamy, że postać matematyczna funkcji gęstości f jest znana, nie znamy jednak wartości parametru 0. W takiej sytuacji funkcja wiarogodności staje się funkcją tego parametru. Zgodnie z zasadą największej wiarogodności za estymatę nieznanego parametru © powinniśmy wybrać taką liczbę 0, dla której funkcja wiarogodności osiąga maksimum: AR
L (z; 6)
= max.
388
7. Estymacja parametryczna
Jedynym uzasadnieniem takiego postępowania jest jego racjonalność: tak dobieramy wartość parametru, żeby wyniki pomiarów były najbardziej prawdopodobne, ufając, ze Natura nie znosi ekscesów i obdarza nas danymi, o których można powiedzieć, że są typowe. Jeśli strumień promieniowania kosmicznego docierający do nas z góry przynosi nam w ciągu każdej sekundy około 180 cząstek na metr kwadratowy, to jesteśmy przekonani, że z dokładnością do efektywności licznika, dokonując wielokrotnie pomiaru takiego strumienia przez jedną sekundę, będziemy otrzymywali liczby zliczeń rozłożone w zgodzie z rozkładem Poissona i ulokowane właśnie w okolicy tej wartości, a nie systematycznie niższe bądź też systematycznie wyższe.
(——
Przykład 7.2.1 Pomiar sygnału w obecności tła — rozkład Poissona Rozważmy
sytuację, w której dokonujemy pomiaru intensywności źródła promie-
niotwórczego o bardzo długim czasie życia w warunkach, w których występuje
tło, np. kosmiczne, zakłócające ów pomiar. Zarówno liczba s przypadków sygnału,
jak i liczba b przypadków tła są rozłożone zgodnie z rozkładem Poissona, przy czym nieznany parametr „4; definiuje ten rozkład dla sygnału, a nieznany parametr Lg dla tła. Wiemy, że łączna liczba m przypadków sygnału i tła jest określona rozkładem Poissona P„(u) z parametrem 4 zadanym sumą „45 +
p. Przypuśćmy,
że w eksperymencie zaobserwowaliśmy łącznie m = 8 przypadków sygnału i tła, a wykonany niezależnie, przez taki sam przedział czasu, pomiar tła dostarczył b =3 przypadki. Jakie są najlepsze oceny wartości obu nieznanych parametrów?
Wypiszmy łączny rozkład P„ „(i Ls) zmiennych m oraz b, który z uwagi na nie-
zależność metod zastosowanych do ich uzyskania będzie zadany iloczynem obu rozkładów Poissona:
P,„ (U, Lp) = P„(U)P,(LB)
A” Up p
= —r ky Ś
m! b!
Skonstruujmy funkcję wiarogodności
,3
8
a
L(m=8,b=3; s, Hg) =
EE,
Jęz,
Kontury tej funkcji przedstawia wykres na rys. 7.3. Widzimy, że maksimum funk-
cji wiarogodności występuje w punkcie (jis, ts) = (5,3), co dobrze zgadza się z naszą wiedzą o estymatorach parametru rozkładu Poissona.
Posiadłszy tę wiedzę, chcielibyśmy poznać rozkład nieznanej liczby s = m—b przypadków sygnału w eksperymentalnej próbce. Rozkład P,(4, j45) liczby s sy-
gnałów znajdziemy, sumując łączny rozkład względem wszystkich wartości zmiennych b oraz m, żądając jednak, by ich różnica miała zadaną wartość s = m —b, co sprowadza się do podstawienia wyrażenia s + b w miejsce argumentu m: P.(i,
W, ka?
wu — "HB
ROM
Hp LB
> G+bIbi
uu _ | "HB
*
NO
(Ukta) A
> s + b)!b!
Jeśli skorzystamy z definicji zmodyfikowanej funkcji Bessela 7,(x) rzędu s
(3)
(x) = ŚDEZZ 2) —(i+s)li!
s=0.1,2,...,
7.2. Metoda największej wiarogodności
=
10 Rys. 7.3. Kontury funkcji wiarogodności dla pomiaru intensywności sygnału w obecności tła
o własności /_,(x) = /,(x) 1 dokonamy wyboru x
q
HK
%
x= Ż/ ILILB,
to poszukiwane prawdopodobieństwo P,(it, LB) zapiszemy w postaci P;(iL,
Poprawność Bessela:
LL)
=
(
2) B
unormowania
e"
"EJ,
rozkładu :
(24
Aus)
wynika |
,
S
= 0,
l,
+2,
....
z postaci funkcji tworzącej do
exp (5 ( + ;)) =)
funkcji
eI,(x).
S=—00
Charakter rozkładu P,(ii = 8, Lp = 3) ukazuje rys 7.4. Widzimy, że rozkład
ten przybiera maksymalną wartość w punkcie s = 5. Wybór estymat jż; i fig jako tych wartości parametrów, które maksymalizują funkcję wiarogodności, jest sposobem na uczynienie danych najbardziej prawdopodobnymi, czyniąc, tym samym,
parametry najbardziej wiarogodnymi.
Zwróćmy uwagę, że zmienna losowa s, będąc różnicą zmiennych losowych przebiegających wartości dodatnie lub zero, przyjmuje wartości określone wszyst-
kimi liczbami całkowitymi z zakresu od minus do plus nieskończoności. Jest to rezultat pozbawiony wszelkiej treści fizycznej, gdyż nie jesteśmy w stanie wyobrazić sobie np. —3 przypadków sygnału w próbce, choć statystyka matematyczna skazuje nas na takie horrendum. Nie byłoby poprawne obcięcie rozkładu P,(u, Lg)
do wartości s > 0 i stosowne jego unormowanie,
gdyż oznaczałoby to, że np.
389
0,14
1
7. Estymacja parametryczna
0,12
|
0,10 |
P,(u5=5,4p=3)
3%0
0,08 | 0,06 | 0,04 |0,02 |
0,00 ez liczba s sygnałów Rys. 7.4. Kształt rozkładu liczby s sygnałów w obecności tła, dla parametrów sygnału i tła określonych metodą największej wiarogodności
w eksperymencie mierzącym tło w zadanym przedziale czasu potrafimy kontrolować liczbę b sygnałów tak, aby nie była ona większa niż liczba m przypadków
sygnału i tła. Próba ustanowienia takiej kontroli byłaby sprzeczna z warunkiem poissonowskiego charakteru takiego pomiaru, a w dodatku musiałaby pogwałcić
niezależny charakter obu eksperymentów, czyniąc wyrażenie na prawdopodobieństwo P,„(/L, Lg), zadane iloczynem dwóch rozkładów Poissona, nieadekwatnym
wobec ustanowionego przez nas modelu obu pomiarów. Jeśli kiedykolwiek przytrafi się nam eksperyment, w którym liczba sygnałów będzie ujemna, staniemy się, ni mniej, ni więcej, tylko bezradną ofiarą pecha zesłanego na naszą głowę
przez statystykę matematyczną, a rozwiązania tej trudności będziemy musieli po-
szukać w zmianie podejścia do zagadnienia i odwołaniu się do metody estymacji przedziałowej, czym zajmiemy się w podrozdziale 7.4.
T)
Estymatory, jakie uzyskujemy z funkcji wiarogodności, nazywamy estymatorami metody największej wiarogodności. Wymaganie maksymalnej wartości funkcji wiarogodności sprowadza się do żądania znalezienia pierwiastka 6 równania 0
35 7 (x;,0) =0,
przy warunku
L (x;0) |_g
i =
—
natomiast jego pochodna, a stąd estymata parametru A mi
—-
392
7. Estymacja parametryczna
Tym samym widzimy, że
+=5(6).
1=$()=
czyli dla tego specyficznego rozkładu estymator jest niezmienniczy względem transformacji »(x)
=
1/x parametru.
O ile estymator parametru Tr uzyskaliśmy
w formie nieobciążonej, o tyle wynik dla parametru A, w świetle (5.43), jest obażONY. ciążony. r
r——
Przykład 7.2.3 Estymacja parametrów rozkładu normalnego Znajdziemy estymatę wartości oczekiwanej „ i wariancji o” metodą największej wiarogodności z próbki x, o liczebności n wylosowanej z rozkładu Gaussa
N (x; a, o). Funkcja wiarogodności (7.18) tej próbki to
l
L (x; 4,0) = ————€Xxp (CZ
o)
l
2a? 2
(x; — w
natomiast jej logarytm wynosi In £ = -z n2n Biorąc
e
jA L= 0
352 ML=
— > Ina” —
względem wartości pa
06-60 >
2.
= — 1)
0
— u).2
5
i wariancji, otrzymujemy
>
fi=- 2]
— z: = 0
>
A2__
o
«2
l
—
AS2
= S;=,2,0- 60
Widzimy, że estymata wartości oczekiwanej to wartość Średnia, jednak estymata wariancji, będąc tożsama z (4.5), różni się współczynnikiem przed znakiem sumy od uzyskanego w podrozdziale 4.2 i konsekwentnie stosowanego w niniejszym wykładzie estymatora sź (4.7). Tym samym estymator wariancji rozkładu normalnego
z metody największej wiarogodności jest obciążony, a obciążenie to wynosi S2) Xx
_ g2 —
n= l n
_52_7—1 X
i znika dopiero dla n —
n
2
gto x
12
2
n
_12 n
oo. Ten asymptotyczny brak obciążenia to dość po-
wszechna cecha estymatorów największej wiarogodności. Jaką wariancją charakteryzuje się uzyskany estymator S; ? Z przykładu 5.5.2 wiemy, że
1 „|= 1o| 1 _(h=-1l y[5:]=v| - s|-( (n-l- )>el-( - |2
4
ot
_„h-L1,
7.2. Metoda największej wiarogodności
co oznacza, że usunięcie obciążenia, czyli przejście od estymatora S$, do estymatora s>, zwiększa wariancję nieobciążonego estymatora s; w stosunku do obciążonego
S; o wartość
PIS] - PIS] =P| s: |- PIS] = (> -1) PIS] n
=
l n-l
p[S;] =
l
2
n-l
nl
o
n*
„
o”
=—
2
nyNn=l
.
Czynnik o*/n stojący przed pierwiastkiem po ostatnim znaku równości to wartość
obciążenia. Widzimy, że im liczba n jest większa od trzech, tym w mniej szym stopniu zwiększona jest dyspersja D [s; | estymatora nieobciążonego s; i jednocześnie jest ona mniejsza od samego obciążenia. Istnieje interesujące odwrócenie rezultatu tego przykładu. Otóż jeśli średnia arytmetyczna X, z liczbą składników większą niż 2, jest estymatorem największej wiarogodności parametru ji funkcji gęstości postaci f(x — u), określonej na całej osi rzeczywistej, to jedyną funkcją spełniającą takie warunki jest rozkład Gaussa.
Istotnie, niech estymator parametru u będzie zadany przez Średnią arytmetyczną i spełniony niech będzie wymóg metody największej wiarogodności, tzn. 7-5 J 06—x x)
fQG-3) Wprowadźmy,
dla uproszczenia notacji, oznaczenia J =2X,—X,
g(%)=
J 0) JO.)
|
wtedy
a także
Rozważmy przypadek n = 2, kiedy to
0) + 802) =0 a ponieważ y, = —y,, więc
s)
= —801);
co mówi nam tylko, że funkcja g musi być antysymetryczna. Więcej informacji uzyskamy, rozważając n = 3. Eliminując wielkość y;, otrzymujemy 20) + 802) +g(-Vi
—))=0
Zróżniczkujmy ten rezultat względem y»:
g 02) — g Z) — a) 50,
393
7. Estymacja parametryczna
a poniewaz jest to wielkość dowolna, połóżmy ją równą zeru
g 0) =g(-y). Oznacza to, że pochodna funkcji g jest stałą, co prowadzi nas do stwierdzenia, że
sama funkcja g jest liniowa w swym argumencie, a w konsekwencji funkcja f ma postać rozkładu Gaussa. Identyczne wnioski wynikają z rozważenia przypadków,
kiedy liczba składników w średniej arytmetycznej jest większa od trzech.
r
Przykład 7.2.4 Estymacja parametrów rozkładu Breita-Wignera Uzyskanie analitycznej postaci estymatorów udaje się, niestety, tylko w klasycznych
1 najprostszych przypadkach. Zazwyczaj zasada największej wiarogodności doprowadza do równań, które nie dają się tak łatwo rozwiązać. Mamy często dodatkowe komplikacje. Przykład takiej sytuacji znajdujemy przy określaniu parametrów rozkładu Breita-Wignera (5.90). Logarytm funkcji wiarogodności (7.18) dla próbki o liczebności n ma postać
In £
=
—h
nn + nn ——
2
—
97in
I
2
2
—
+(
X;
—
H )”
co daje nam równanie np. na parametr 4
jj m
"
=2)
(7
_E
+ (6 — p)?
0.
Przy znanej wartości parametru 7” jest to wielomian stopnia 2n — 1, a więc
musimy wybrać jeden z jego pierwiastków, czyli w takiej sytuacji dysponować
dodatkowymi kryteriami. Przykład tego, co się może zdarzyć, przedstawiony jest
na dwóch wykresach: na rys. 7.5, ukazującym rozkład 1000 liczb wylosowanych
70
i
80 r
60 |50 | 40 r 30
I
20 "©
—
394
Rys. 7.5. Symulacja rozkładu Breita-Wignera
7.2. Metoda największej wiarogodności
395
-18 Rys. 7.6. Kształt funkcji wiarogodności dla rozkładu z rys. 7.5
metodą Monte Carlo z rozkładu Cauchy ego (5.89) (patrz też przykład 5.10.5) oraz
na rys. 7.6, pokazującym
logarytm funkcji wiarogodności
dla rozkładu Breita—
Wignera jako funkcji parametru a, przy ustalonym parametrze I' = 2.
r
7.2.2. Własności estymatorów największej wiarogodności Metoda największej wiarogodności cieszy się uznaniem z uwagi na własności estymatorów, jakich dostarcza.
Wskazówki
dotyczącej jednej
z tych własności,
a mianowi-
cie niezmienniczości względem transformacji estymowanego parametru, dostarczył nam przykład 7.2.2. Jest to bardzo pożądana cecha estymatorów, ponieważ w praktyce jest niekiedy rzeczą arbitralną, jaką funkcję poszukiwanego parametru wybierzemy. Możemy łatwo pokazać, że postać tej funkcji jest bez znaczenia. Istotnie, jeśli 6 jest estymatorem największej wiarogodności parametru 6, a nas interesuje pewna funkcja tego parametru, powiedzmy: © = 9 (0), to z równania
_0L
08
_ 0L060
86 80"
przy założeniu, że pochodna funkcji © względem parametru © nie znika, wynika, że
nowy parametr © również spełnia równanie będące warunkiem koniecznym istnienia estymaty tego parametru
AL
30
0.
Stąd mamy ową niezmienniczość względem transformacji parametru:
0 -5(0) =2(). Wynik ten rzuca światło na kwestię obciążenia estymatorów największej wiarogodności. Musimy się spodziewać, że są one, ogólnie rzecz biorąc, obciążone, jako że nie
39%6
7. Estymacja parametryczna
ma oczywistej recepty na wybór funkcji parametru rozkładu, którą mamy estymować. I nawet jeśli estymator parametru 6 nie jest obciążony, to ponieważ
e|o6)| ź o (€ [5 |) z wyjątkiem przekształcenia liniowego, estymator O funkcji » tego parametru z reguły będzie obciążony. Estymatory największej wiarogodności charakteryzują się jeszcze innymi, bardzo ważnymi własnościami, które wyliczymy tu w formie twierdzeń, niekoniecznie podając szczegółowe
dowody.
Przy zachowaniu pewnych
warunków
regularności funkcji roz-
kładu (niezależność zakresu zmiennej losowej od parametrów rozkładu, dwukrotna różniczkowałność względem parametru i istnienie wartości oczekiwanej pierwszej i drugiej pochodnej względem parametru), jedno z tych twierdzeń to: Twierdzenie 1. Estymatory największej wiarogodności są zgodne.
Zastanówmy się nad wariancją estymatora. Jeśli funkcję wiarogodności (7.18)
L (x;6) =| [ /(%:0) i=l
potraktujemy jako funkcję łącznego rozkładu prawdopodobieństwa zmiennych x; i dokonamy zamiany zmiennych
|
0 Y;
=
a;(X1,X2,
...,
Xn),
i
=|1,2,...,.n-l,
to funkcję L możemy zawsze przepisać w postaci
L(x;6) =L(x6,y):6)1J| = L(6,y:0), zależnej
od estymatora i zmiennych
losowych
znajdujemy rozkład brzegowy dla wielkości 6
y,. Całkując
względem
zmiennych
y;,
2:0) = J L (6. y:0) dy. z którego możemy określić wariancję estymatora 6
v [6] z | (6 — (8))?g(6; 6) dó. Wynik ten ma raczej teoretyczne znaczenie, ponieważ niezmiernie rzadko udaje się przeprowadzić taki program z sukcesem do końca. Oczywiste jest jednak to, że wynik ten jest równoważny następującemu rezultatowi:
v [6 | — | (6 (x) — (6))?L (x; 6)dx,
(7.19)
7.2. Metoda największej wiarogodności
397
który uzyskujemy, „cofając” przekształcenie x — (6,y). Wariancja (7.19) przyjmuje postać funkcji ocenianego parametru 8 — jeśli chcemy znaleźć jej wartość liczbową,
zmuszeni jesteśmy do podstawienia za ów parametr wartości estymaty, co naturalnie jest
tylko przybliżeniem. -——
Przykład 7.2.5 Wariancja estymatora parametru rozkładu wykładniczego Wykorzystajmy rezultat (7.19) do obliczenia wariancji estymatora czasu życia T, zadanego średnią (patrz podrozdział 5.3.2), dla rozkładu wykładniczego: a>
1
00
vE]-
0
= —
0) ot,
G=I
[lzeo(-*)dt...
i=l
T"
N
2
| (72:-7)
l
=-
n
00
i=l
2
1
[l
t,
exp | —— »(
)
T*
|dt,...dt,—T* =—. "
n
Nie podajemy szczegółowych obliczeń, gdyż przebiegają one standardowo, jeśli przypomnimy sobie elementarne całki dla rozkładu wykładniczego (wartość oczekiwana, wariancja) i technikę rozkładania jednomianów na wyrażenia z nie powtarzającymi się indeksami (patrz dodatek B). h
Rozważmy teraz przypadek wielu, np. k parametrów opisujących badany rozkład. Proste rozumowanie, będące rozszerzeniem przypadku jednowymiarowego, prowadzi nas do rezultatu
r——
v (6,6, |= J (6x) — (876,02) — (6;))L (x; 6)dx.
Przykład 7.2.6
Wariancje estymatorów parametrów rozkładu normalnego Rozważmy jednoczesną estymację dwóch parametrów:
w i o rozkładu Gaussa.
W przykładzie 7.2.3 pokazaliśmy, że ich estymatory największej wiarogodności to k=
2x
=
06-607
(7.20)
398
7. Estymacja parametryczna
Zgodnie ze wzorem (7.20) wariancja estymatora wartości oczekiwanej „w dana jest przez
y[a] =
1
zz);
00
Lę
(2-2)
2
CJE
GM] 92
)
_o?
= —.
Szczegółowych obliczeń nie przytaczamy z uwagi na ich prostotę. Rachunki dla wariancji estymatora o* są bardziej skomplikowane, choć można je wykonać, korzystając z uwag z dodatku B:
BT
I (r 20; --10-0) [ [eo(--5 z a dx
_ 201 n-
Zwróćmy uwagę na to, że wynik ten różni się od otrzymanego w przykładzie 5.5.2 oraz przykładzie 5.6.1, a to z powodu obciążonego charakteru estymatora największej wiarogodności wariancji rozkładu normalnego. Łatwo zauważyć, że dokonując zamiany
usuwającej obciążenie, odzyskujemy nasze wcześniejsze rezultaty.
Obliczenie, z wykorzystaniem (7.20), kowariancji między obydwoma estymatorami również nie jest skomplikowane i dlatego pozwalamy sobie zostawić je Czytelnikowi, a tu podamy jedynie ostateczny rezultat
cov [1, 6?]
1czy! 5)
(G$--)(720-P'-0 o|fleo(- SB)
= (), w zgodzie z wynikami przykładu 4.2.3 oraz przykładu 5.6.1.
Podany wyżej ogólny wynik (7.19) lub też (7.20) na postać wariancji daje się wykorzystać jedynie w najprostszych przypadkach. W sytuacjach bardziej skomplikowanych zmuszeni jesteśmy uciekać się do metod numerycznych albo przybliżonych. Pewne ułatwienie przynosi sytuacja, w której badana próbka jest duża, ponieważ wtedy zachodzi:
7.2. Metoda największej wiarogodności
399
Twierdzenie 2.
Gęstość rozkładu prawdopodobieństwa estymatorów największej wiarogodności dąży, przy liczebności próby dążącej do nieskończoności, do rozkładu normalnego, a estymatory największej wiarogodności są asymptotycznie nieobciążone i dążą do klasy najefektywniejszych. Dowód tego twierdzenia opiera się na rozwinięciu pierwszej pochodnej logarytmu funkcji największej
wiarogodności
względem
parametru,
obliczonej
przez estymator, wokół prawdziwej wartości 6 tego parametru 0 —
0 ln L (x; 0) 30
_3mL(G:6) — 9-5 30
w punkcie
zadanym
| 9? ln Z (x; 0) 6 —0), 302 „og, )
(0.21)
7.21
o której to wielkości wiemy, że jest ona równa zeru, co zaznaczyliśmy po lewej stronie
równości. Wielkość 6* jest wartością parametru 6 zapewniającą poprawność rozwinięcia
(drugi wyraz jest po prostu jedną z wielu postaci reszt, jakie wykorzystywane są w roz-
winięciu Taylora). Wartość oczekiwana pierwszego składnika sumy, na mocy (7.5), jest równa zeru, co oznacza, że wariancja pochodnej logarytmu funkcji wiarogodności wynosi
0lnLGG6)]|
„|(0lnLGG6)N" | „[
8mLQGG8)]
1
|Pege -]-e|(e©) |= =(=] = zz] gdzie wykorzystaliśmy (7.7). Ponieważ pierwsza pochodna logarytmu funkcji wiarogodności jest zadana sumą niezależnych składników:
Hm L(x:0)6) dlatego też, w warunkach
4h
asymptotycznych,
centralnego twierdzenia granicznego wielkość O ln ZŁ (x; 0)
-
06
z p nz
—
przy dużej
p, [5] 072056)
> = Din 10]
30
liczebności próby,
36
na mocy
0.22)
zachowuje się jak standaryzowana zmienna losowa o rozkładzie normalnym.
Spójrzmy teraz na drugą pochodną względem parametru w związku (7.21). Wielkość
ta również dana jest sumą niezależnych statystycznie składników, którą w asymptotycznym reżimie możemy także wyrazić przez minimalną wariancję:
82 In L (x;6) 392
0=0*
o—
no 321n f(x,,6)
3
i=1
00
2
, [ 821n f(x,6) 362
8=8*
2%
f (x,0)dx
(7.23)
400
7, Estymacja parametryczna
gdyż na mocy twierdzenia 1 o zgodności estymatorów największej wiarogodności wielkość 8* musi zbiegać do prawdziwej wartości © parametru. Podstawiając uzyskane wyniki (7.22) oraz (7.23) do wyjściowego wyrażenia (7.21), otrzymujemy
u Din
—_] [5 |
Vmi
(6—0)
=
U=_|_
[6]
Din
6-0)
(7.24)
[6 |
co dowodzi asymptotycznie normalnego charakteru estymatora największej wiarogodności i jego minimalnej wariancji. Zacytujmy jeszcze jedno twierdzenie odnoszące się do estymatorów największej wiarogodności: Twierdzenie 3.
Jeśli istnieje dostateczny estymator parametru, to jest on funkcją estymatora naj-
większej wiarogodności.
Nim przejdziemy do przykładów ilustrujących zastosowanie powyższych twierdzeń, rozważymy także postać asymptotyczną funkcji £ największej wiarogodności jako funkcji parametru 6 (ograniczymy się do przypadku jednego parametru) w okolicy wartości tego parametru określonej jego estymatą. Rozwiniemy w tym celu logarytm funkcji wiarogodności w szereg Taylora do wyrazów drugiego rzędu włącznie: A A 1 0 InL(6) 2 0 ln £ (6) ———— 0—8)+> ———— 8—8)* o (6-67). in £ (6) = In £ (6)+ 39 4 )+z 92 „4 J+o(( ) Pierwszy wyraz tego rozwinięcia to wartość maksymalna Lgax funkcji wiarogodności,
a drugi wyraz jest dokładnie równy zeru na mocy definicji estymaty największej wiarogodności. Jeśli wykorzystamy wynik (7.23), to w warunkach asymptotycznych całość możemy przepisać jako
InL (6) £ In Lyyx — (8 — 6)? +0 (te — 6”) | 2 [6
Usuwając funkcję logarytm i zaniedbując wyrazy wyższego rzędu, znajdujemy gaussowski kształt
L (0) © Lax xP
(6 — 6)
2V min
(7.25)
[6 |
funkcji wiarogodności w okolicy maksimum. Musimy tu z całą siłą zaznaczyć, że otrzymana zależność nie reprezentuje sobą ani funkcji gęstości rozkładu estymatora parametru
0, ani tym bardziej rozkładu samego parametru (to ostatnie byłoby, co najmniej, absurdalną propozycją), mimo formalnej zbieżności tego wyniku z wnioskami wynikającymi ze związku (7.24). Powyższy wynik opisuje asymptotyczny kształt funkcji wiarogodności jako funkcji parametru 0, w okolicy wartości zadanej estymatą tego parametru, a więc przy ustalonych wartościach punktów pomiarowych x,. W ramach klasycznej statystyki matematycznej, którą się tutaj paramy, parametr 8 jest pewną ściśle określoną, choć nieznaną, liczbą, a nie jest zmienną losową. Funkcja (7.25) jest zwykłą matema-
7.2. Metoda największej wiarogodności
401
tyczną funkcją argumentu 0, która ma tylko kształt krzywej Gaussa, wyzutej ze wszelkiej
probabilistycznej interpretacji. Studenci przedmiotu często o tym zapominają. Rezultat (7.25) jest bardzo ważny w praktyce. Kreśląc kształt funkcji wiarogodności jako funkcji parametru, bezpośrednio z rysunku możemy odczytać nie tylko wartość estymaty, ale także wartość błędu poszukiwanego parametru, gdyż na mocy twierdzenia 2, kwadrat tego błędu jest zadany minimalną wariancją, a ta jednocześnie definiuje
asymptotyczną postać funkcji wiarogodności. Jednakże w praktyce nie dysponujemy nieskończoną liczbą przypadków, więc dla wariancji estymatora parametru 6 otrzymujemy,
co najwyżej, pewne przybliżenie
A
[a
p|ó|=-
,
9% In £
) , 6=6 Dla przypadku wielu parametrów mamy natychmiastowe uogólnienie: A
[A
(
08?
a
|
9?In £
Y(6,6,) = |
(7.26)
——
00,00,
8—6
|
,
(7.27)
gdzie przez nawias kwadratowy zaznaczyliśmy macierz drugich pochodnych, którą mu-
simy odwrócić, aby uzyskać macierz kowariancji, a raczej jej estymatę, czyli macierz błędów, gdyż zamiast parametrów używamy ich estymat.
—-
Przykład 7.2.7 Ocena czasu życia — symulacja Opiszemy teraz przykładową próbę określenia parametru, jakim jest oczekiwany
czas życia r cząstki elementarnej lub wzbudzonego jądra atomowego w sytuacji pomiaru indywidualnych czasów życia przy użyciu detektora o skończonych roz-
miarach (porównaj przykład 5.3.5). Zazwyczaj sytuacja wygląda tak, że czas życia (pamiętajmy o dylatacji!) cząstki określamy z odcinka wyznaczonego przez punkt produkcji oraz punkt rozpadu, a więc o znanej długości i ze znanej prędkości cząstki, którą to prędkość znajdujemy z pędów produktów rozpadu. Dla cząstki poruszającej się w zadanym kierunku w detektorze istnieje pewien maksymalny
odcinek, na którym może dojść do obserwacji rozpadu. Odcinek ten wyznacza dla tej cząstki pewien maksymalny czas życia t/*%*. Gdyby cząstka żyła dłużej, jej rozpad nastąpiłby poza obszarem detektora i takich rozpadów nigdy nie rejestrujemy
w próbce. Dodatkowo, gdy odległość między punktem produkcji i rozpadu jest zbyt mała, nasze metody identyfikacji takich cząstek często są nieefektywne, co
prowadzi do strat w próbce, w związku z czym wprowadzamy dodatkowe obcięcie na mierzone czasy Życia od dołu, definiując pewien minimalny czas ż””, powyżej
którego, w naszym mniemaniu, efektywność detekcji rozpadów jest satysfakcjo-
nująca. Przy tak postawionym
problemie
rozkład czasów
życia obserwowanych
cząstek jest różny od zera jedynie dla przedziału wartości czasów od tj" do tP*. Oznacza to, że funkcja gęstości dla pojedynczej cząstki przyjmuje postać T
Jlt;T)=
gin
exp (-
7
(>) T
) — exp (-
gnax
-
*
402
7. Estymacja parametryczna
Funkcję wiarogodności (7.18) możemy zapisać w postaci InlL
=—nl
lĘ
—
—
£;
*
—
l
—
jp
—
—
gprax
,
skąd otrzymujemy równanie na estymatę parametru T
nC£ OT
=
1.
T?
Mi
no T
Tt
Llqa*
min
i=1
ap (
_
fp
ex
z
i
L_ g Max
>)
—
i ap (
in
z
fi
jmax
z
e),
i
T
T
Jak widzimy, równanie to nie daje się rozwiązać przez funkcje elementarne i mu-
simy się uciec do metod numerycznych. Możemy jednak przekształcić je do postaci t
Z
T=fl—n
2
ty” exp(-
i=l
C€xp
(
min
— ) —t
tpm —— T
)
—
cXp
exp((
——
max —
-
a
) |
T
gdzie pierwszy wyraz po prawej stronie równości to średnia arytmetyczna obserwowanych czasów życia, a suma to poprawka. Wyrażenie to nadaje się wyśmienicie do obliczeń iteracyjnych. 120
100 g0 | 60
40 | 20 | 00
05
10
15
20
25 T
30
35
40
45
50
Rys. 7.7. Kształt wygenerowanego rozkładu wykładniczego z jednostkowym parametrem
Dla ilustracji wykorzystaliśmy metodę Monte Carlo 1 wygenerowaliśmy 500 przypadków z czasem życia Tr = 1. Rozkład ten przedstawiony jest na rys. 7.7. Dla celów dalszej demonstracji, a także dla uproszczenia przyjęliśmy, że wszystkie czasy £;/”” są identyczne i wynoszą 0,25, natomiast czasy t/*%* także dane są tą
samą wielkością 2,0. Odrzucenie danych, które nie spełniają warunków nałożonych
przez obcięcia t”" oraz ty*%, pozostawia w próbce 335 przypadków. lteracyjne wyrażenie na estymator parametru T już po paru „obrotach” dostarcza rezultatu T = 0,889 = 0,89. Przyjmując, że liczba 335 przypadków jest „duża”, skorzystamy
z wyrażenia (7.26) na estymatę wariancji, uzyskując D [£ | = (0,038 = 0,04.
7.2. Metoda największej wiarogodności
parametr T 0,95
1,00
1,05
log funkcji wiarogodności —— 335 liczb
0,90
Rys. 7.8. Kształt logarytmu funkcji wiarogodności £ dla przypadków z rys. 7.7 jako funkcja oczekiwanego czasu życia T
Powyższe
rozważania możemy
zilustrować
wykresem
z rys. 7.8 logarytmu
funkcji wiarogodności zależnej od argumentu r. Widzimy, że wartość maksymalną funkcja ta uzyskuje przy wartości parametru około 0,89, co dobrze zgadza się z ob-
liczeniami numerycznymi (na wykresie unormowaliśmy krzywą przez odejmowanie tak, aby jej wartość w maksimum była równa zeru). Kształt tej funkcji jest istotnie bardzo zbliżony do kształtu paraboli, jak tego powinniśmy się spodziewać dla kształtu Gaussa (7.25), ponieważ In£ =
Ż
CG
ŻVmin
2
+- const.
[7]
Z tego samego związku (7.25) wynika, że jeśli zmienimy parametr r o jedno odchylenie standardowe, to logarytm funkcji wiarogodności ulegnie zmianie o 1/2. Poziom —1/2 oznaczyliśmy za pomocą linii, która po przecięciu z ramionami
paraboli wyznacza dwie wartości parametru r, jedną w okolicy 0,852, a drugą około 0,925. Różnica między tymi liczbami to dwukrotne odchylenie standardowe,
które szacowane tą drogą daje nam wynik 0,036, co jest w wyśmienitej zgodności z obliczeniami numerycznymi. Podobne oszacowania możemy
przeprowadzić dla
dwóch lub trzech standardowych odchyleń, przesuwając tak wartość parametru T, aby logarytm funkcji wiarogodności uległ zmianie odpowiednio o dwie lub o cztery
i pół jednostki. Zaznaczyliśmy je na wykresie stosownymi liniami. Odczytując liczby z wykresu, otrzymujemy dwa dalsze oszacowania odchylenia standardowego o zbliżonych wartościach. Jest jednak interesujące, że o ile odległość od maksimum na lewo do punktu przecięcia naszej funkcji z prostą na poziomie 4,5 wynosi trochę więcej niż 0,1, to ta sama odległość na prawo jest równa 0,12. Świadczy to o odstępstwach od para-
bolicznego charakteru logarytmu funkcji wiarogodności. Te odstępstwa nasilają się przy zmniejszonej liczebności próbki. Dla ilustracji przedstawiamy na rys. 7.9 wy-
kres tej samej funkcji logarytmu wiarogodności, ale dla pierwszych pięćdziesięciu
wygenerowanych liczb. Nasze kryteria wyboru usunęły z niej 5 przypadków, zostawiając 45, a więc próbkę około 8 razy mniejszą niż pierwotna. Przez statystyczny
403
7. Estymacja parametryczna
parametr T
0,9
0, log funkcji wiarogodności — 45 liczb
404
—(,5
—1,0
—1,5
-20
Rys. 7.9. Kształt logarytmu funkcji £ wiarogodności dła ubogiej próbki przypadków jako funkcja oczekiwanego czasu życia T
kaprys, owe 45 przypadków daje bardzo zbliżoną wartość czasu życia £ = 0,875.
Tu już wyraźnie daje się zauważyć odstępstwo od parabolicznego charakteru krzywej. Potwierdzamy to, odczytując z wykresu wartości odchyleń standardowych: na
lewo około 0,095, natomiast na prawo około 0,105. Rachunek błędu wykorzystujący
formułę z drugą pochodną logarytmu funkcji wiarogodności daje wartość 0,102,
który to błąd jest oczywiście symetryczny (nota bene, zauważmy ładną zgodność odchyleń standardowych dla obu próbek: zmiana liczebności o czynnik 8 powo-
dująca zwiększenie błędu o czynnik V8 — 2,8, daje błąd 0,036 - 2,8 = 0,102 w zgodności z naszymi rezultatami „graficznymi).
r
Przykład 7.2.8 Ocena czasu życia i tła — symulacja Rozpatrzymy teraz przypadek, gdy występują w rozkładzie dwa nieznane parame-
try. Jako przykład rozważymy obserwację czasów rozpadu izotopu o intensywności
A w warunkach stałego w czasie tła, przez ustalony w czasie okres T. Przykład ten jest równoważny sytuacji, w której dokonujemy obserwacji zaniku izotopu, powstającego w szeregu z innego źródła promieniotwórczego o znacznie dłuższym czasie
życia. Gęstość prawdopodobieństwa dla takiej sytuacji określona jest wyrażeniem
fGA,T,p) = p
A exp(—At)
l
expCAT) * U-P7:
gdzie wielkość 1 — p określa domieszkę tła w znalezionej próbce. Dla ilustracji,
ponownie skorzystaliśmy z metody Monte Carlo i wylosowaliśmy 5000 przypadków z powyższego rozkładu z parametrem A = 1 i p = 0,5 dla czasu obserwacji
T = 5. Otrzymany rozkład przedstawiony jest na wykresie 7.10. Następnie zmaksymalizowaliśmy logarytm funkcji największej wiarogodności. Ponieważ tym razem mamy dwa parametry, więc konwencjonalnie rezultat takiej operacji przedstawiamy
7.2, Metoda największej wiarogodności
350 300 | 250 | 200 150 100 50
CczaS
parametr tła p
Rys. 7.10. Wygenerowany rozkład czasów życia w obecności tła
0,55 0,54 0,53 0,52 0,51 0,50 0,49 0,48 0,47 0,46 0,45 0,44 0,43 0,42 |0,41 | 0,40 0,80
! 0,85
090
i
l
I.
i
i
0,95
100
105
110
115
120
intensywność A Rys. 7.11. Kontur funkcji wiarogodności parametrów p oraz A dła rozkładu prezentowanego na rys. 7.10
w postaci konturów badanej funkcji (samą funkcję zazwyczaj normalizujemy, przez odjęcie od niej jej wartości w maksimum). Otrzymany wynik prezentowany jest na wykresie 7.11, gdzie kontury są po-
prowadzone co 0,5 jednostki od wartości —0,5 do wartości —4,5. Warto, aby Czytelnik zwrócił uwagę na odbiegające od eliptycznego kształtu krzywe poziomic, co wskazuje na niegaussowską postać funkcji wiarogodności, a tym samym
405
406
7. Estymacja parametryczna
przybliżony charakter wariancji obliczanej ze związku (7.27). Wartość maksymalną znajdujemy w punkcie A = 0,99 + 0,07 oraz p = 0,48 + 0,05, a więc wiernie
odtworzyliśmy wartości pierwotne, niestety, nie bez skorelowania parametrów między sobą. Ich współczynnik korelacji otrzymaliśmy jako r = —0,32. Odczytanie
tych samych błędów pomiaru z wykresu, jak to czyniliśmy w podrozdziale 5.5.4, jest nieco bardziej skomplikowane od tego, jakie wykonywaliśmy w przypadku jednowymiarowym. Teraz już nie wystarczy wybrać jednowymiarowy „przekrój ” funkcji wiarogodności w maksimum i odliczyć pół jednostki wartości tejże funkcji, aby otrzymać wartość błędu parametru. Musimy wyrysować pełny, dwuwymiarowy kontur funkcji wiarogodności, odpowiadający zmianie jej wartości o 1/2 1 z punk-
tów przecięcia z osiami parametrów prostych stycznych do konturu i równoległych do obu osi odczytać błędy. Wartość współczynnika korelacji możemy odzyskać, mierząc kąt © nachylenia większej półosi elipsy do osi x (intensywności A) i zastosować elementarny wzór
2poyO a . o£ — Gy
tg 2a =
Przykład 7.2.9
Efektywność detektora W przykładzie 5.4.10 zaproponowaliśmy modelowy opis doświadczenia Poissona,
którego celem jest pomiar wydajności dwóch liczników. Model ten określony jest przez trzy definiujące go parametry: dwie efektywności pą oraz pg i liczbę jt cząstek i zadany jest iloczynem czterech rozkładów Poissona Pza.np.Ncn (PA:
dla czterech zmiennych
PB:
u)
=
losowych
Pr
(LPA) Ps
na, ne, Nc
(LPB)Pu
(upc)Plup)
oraz n. Ponieważ
ostatnia z tych
zmiennych nie jest dostępna eksperymentalnie, więc usuniemy ją metodą przejścia do rozkładu brzegowego P, np.NC (Pas PB. M) = P., (UPA) P,, (UPB)PN. (Hpc).
Prawdopodobieństwo P,, ».v- (PA» PB. 4), przy znalezionych z eksperymentu liczbach ną, ng oraz N,, staje się funkcją wiarogodności L (pa, PB, ii), która posłuży do oceny nieznanych parametrów. Stosujemy standardową procedurę: ob-
liczamy logarytm £ i różniczkujemy względem poszukiwanych parametrów, uzyskując następujący układ równań: 0
N,
0 nl= AE OpA
00 nl ODB 0
PA
N ETC
PB
na+nz.+N
OB
(l — pp) =0,
MA
A - pa) =0.
lI-PM-A
| — DB
—n£L=-——”.
Nieznane parametry znajdujemy, minimalizując względem parametrów 8: In £ (68) = >. n, ln P,(6) + const, k=l|
gdzie const ukrywa w sobie wielkości niezależne od poszukiwanych parametrów. Gdy źródłem histogramu jest eksperyment Poissona o oczekiwanej liczbie
przypadków, wtedy liczby n, przypadków w każdym przedziale podlegają rozkładowi Poissona
Pn
(Ux)
Hk
—
m,
ny.
ę "*k
t
1
Ly = UP,(0),
a w konsekwencji, temu samemu rozkładowi podlega także całkowita liczba N przypadków w histogramie. Funkcja wiarogodności wynosi n
L (68) = [ [7 k=]
(Uk) = [I ti k=l
''k*
e,
i wiemy z przykładu 5.4.6, że jest to równoważne L (6)
=
=
u
N
NIŻ
_
e *
N!
P'"'... Pp",
min,
H
=
n
Żla
,
Przy poszukiwaniu maksimum tej funkcji istotna jest tylko część określona rozkładem wielomianowym, a więc estymatory metody największej wiarogodności nie zależą od decyzji odnoszącej się do sposobu zakończenia eksperymentu. Jeśli liczby n, przypadków w każdym z przedziałów histogramu są duże, to wiemy, że rozkład Poissona dąży do rozkładu normalnego, a wielomianowy — do normalnego wielowymiarowego (patrz podrozdział 8.2). Jeśli, dodatkowo, liczba n
przedziałów histogramowania jest również duża, co pozwala zastosować znane nam z przykładu 5.4.7 przybliżenie V[n.] =aP(1
— P,) Z nP, =n,
to efektywnie, zarówno w przypadku eksperymentu Bernoulliego, jak i Poissona, maksymalizujemy następujące wyrażenie: 1L/n=mV 1 £(0)x-5)( * e)
=
——
1
2
>
i=]
———n
(
+ const
may >
4/Nę
4-
const.
Do własności statystycznych tej wielkości wrócimy w przykładzie 7.3.4.
7.2. Metoda największej wiarogodności
-—-
413
Przykład 7.2.12 Poprawka Shepparda Niech przedziały grupowania, w liczbie n, będą identycznej długości A, ich Środek niech leży w punkcie x, = xy+kA,k=|1,2,...,n,
natomiast liczba danych okre-
ślająca liczby zmierzonych wartości, które należą do przedziału [x, — A/2; x + A/2], wynosi n,. Niech także liczebność próbki, czyli suma wszystkich krotności
n, wynosi N, a cecha, którą badamy, podlega rozkładowi Gaussa N (x; u, o). Obliczmy prawdopodobieństwo P, znalezienia zmiennej losowej wewnątrz przedziału o środku x, (y = x — x): |
P,b= =
xx +A/2
Bao
J
|
ap (
———(x-—u) >: W w)
x >A/2
=
NN
AZANY
A/2 exp P |
/2no
— 202 (x,k —
-A/2
__|1
A/2
| se(W2RTO
y
y
dy
20? AJ2
_m—m)
/2RO
L
72)
—Aj2
Eo
|d Xx
P
|»
20?
_%%m-W0 PY); P
—Aj/2
20*
>.
Ponieważ zakładamy, że przedziały są istotnie mniejsze od dyspersji o rozkładu, więc funkcję wykładniczą pod całką rozwiniemy, wyrazów kwadratowych włącznie: C€Xp
2y(% — M) ŁY?
= |] —
Ży(x% — u) + y 20?
X — g2
—1 + 2
—A/2
2y(%
> MW+ŁY?
ee(-"F—
dy
/2yQ% — m) + y”
l (3 — 1) —— g2 — | -| +z(
Pozwoli to nam obliczyć, w przybliżeniu, całkę
|
całkowania y, do
777020200
= |-
A/2
w zmiennej
* +
207
2 >+
O
O (7)3 .
3 U
)
414
7. Estymacja parametryczna
Wynik ten, z dokładnością do wyrazów rzędu A*, możemy zamienić ponownie na funkcję wykładniczą:
4 (
l
l
(X
w
+ 240? (
u)
2
l
—1/|4A|]=A
o?
2P
(Xk
(240?
o
u)
2
—1)A|,
o?
a w konsekwencji, z tą samą dokładnością, otrzymujemy wyrażenie na prawdopodobieństwo P,
A
P, Z
/ 21 o
A
=
/2Ra
0w-u)
exp | — ex
202
A.
+
4
(oG— Nu)
2402
o?
1N
—— | 240% 2a?
P
(% — kk
„-
—|
4
,
2402
a stąd pełną postać funkcji wiarogodności n
=[|P* =
c=||7
A
(
N
5)
—_—
UE
za:
w
Rozważymy teraz sumę występującą w wykładniku:
2 mala — u? =D) mog —2u) nx +Nu =NS+ NG — u), k=l
k=l
gdzie wprowadziliśmy definicje Średniej arytmetycznej x oraz średniego odchylenia kwadratowego $ dla danych zgrupowanych, zadanego związkiem (4.5) (zauważmy, że w definicji tej ostatniej wielkości dzielimy przez całkowitą liczebność próbki)
W następnym kroku podstawiamy obie wielkości do funkcji wiarogodności
e
z
(
A
W
3
xp (
N
A?
1
——__|(8+G-
E-
53)
+G-u))
NA?
m?) -
Sa
,
obliczamy jej logarytm nCZ-Nmo+N(
A”
l
240%
2) 20
2
(S* + ( —
ny) sa 240? -- const,
i pochodne względem nieznanych parametrów: 0 —a n£=
a — do
nl=0
3% >
1 NZZACK) — A (6:A -—|=0 53) N AŻ ——+N(7" ( 665
| $* + (% — WZĘ -0. )( +6-60)+ 4:
7.2. Metoda największej wiarogodności
415
Z, pierwszego równania otrzymujemy estymatę wartości oczekiwanej, jako zdefiniowaną wyżej Średnią arytmetyczną zgrupowanych danych
Wynik ten upraszcza nieco drugie równanie, które po przekształceniach przyjmuje postać
A?
AS
4 — 62 | 574 — - o( +1)"
6
= 0.
Rozwiązania tego równania dwukwadratowego to A2
—_
1272|7 Właściwe
rozwiązanie
l
S2
A?
ua
71
+
j(
S2
A
uk
* 5)
to rozwiązanie ze znakiem
2
=
—
3
„+,
4252
gdyż dla szerokości
A
przedziału grupowania dążącej do zera powinniśmy odzyskać estymatę S*, tożsamą z estymatą 6? z przykładu 7.2.3. Ponieważ wszystkie obliczenia prowadzimy
z dokładnością do wyrazów
O(4A*), więc i tym razem rozwiniemy pierwiastek,
zachowując tę samą dokładność
|(>+5) -żes- (845) |1- 6SAŃŻ
2
2)
A?
(fa,
A?
24282
1
AS
2
(5+)
|,
4
4
Podstawiając do rozwiązania, otrzymujemy ostateczną postać estymaty wariancji
rozkładu Gaussa
Uzyskana poprawka do wyrażenia na kwadrat odchylenia standardowego S* obli-
czanego ze zgrupowanych danych nosi w literaturze nazwę poprawki Shepparda.
Zasada największej wiarogodności jest jedną z najpotężniejszych i najbardziej owoc-
nych metod statystyki matematycznej. Jest rzeczą zdumiewającą, że nie ma ona żadnego uzasadnienia na gruncie teorii prawdopodobieństwa, ani nie wynika z głębszych przesłanek. Jest ona „włożona” do statystyki z zewnątrz i jej jedyne uzasadnienie ma charakter a posteriori: będąc niezwykle
wszechstronną,
dostarcza (zazwyczaj;
zaintrygowanego
Czytelnika odsyłamy do przykładu 9.1.2) rozsądnych rezultatów o pożądanych właściwościach.
416
7. Estymacja parametryczna
—- 7.3. Metoda najmniejszych kwadratów 7.3.1. Zasada najmniejszych kwadratów W podrozdziale 3.5 rozważaliśmy krzywe regresji drugiego typu, zdefiniowane związ-
kiem (3.28), dla znanej postaci łącznej funkcji rozkładu. Sytuacja taka jest raczej wyjąt-
kiem w praktyce statystycznej — krzywe regresji musimy zazwyczaj określać z próbki
dyskretnych danych. Dlatego przyjmijmy, że mamy wyrażenie zależne od pewnej wiel-
kości x, którą będziemy nazywali wielkością kontrolowaną lub objaśniającą, a także od pewnej wielkości y, zwanej wielkością objaśnianą, 1 zbioru m parametrów 6, (i = 1,2,...,m), co możemy
zapisać jako R(x,
y:04,...,6m)
=
(0,
gdzie R jest pewną zadaną co do kształtu funkcją z nieznanymi parametrami 6;. Gdy mamy n wartości par (x;, y;), których jest więcej niż nieznanych parametrów 6;,, wtedy
układ równań na te parametry
R(x;,y;;0,,...,8,)
=0,
J=l1,2,...,n,
NR>M
jest co najmniej zależny, a w ogólnym przypadku sprzeczny. Zasada najmniejszych kwadratów (3.28) w wersji dla dyskretnego zbioru punktów danych orzeka, że wielkości 0, mamy tak dobrać, by spełniały one warunek NR
=
j=l
R*Q;,
y;; By, ...,
8m)
=
min(6,,...,6,),
co jest równoważne układowi m równań na m nieznanych wielkości 6; OR
3
i
=1,2,...,m.
Parametry, które minimalizują wielkość ŚR, oznaczać będziemy przez 0, i zwać estymatorami metody najmniejszych kwadratów. Należy zwrócić uwagę na to, że o ile w metodzie największej wiarogodności rozpatrywaliśmy funkcję gęstości rozkładu o nie-
znanych parametrach, o tyle tutaj wielkość R nie określa rozkładu, a jest dowolną funkcją podyktowaną przez np. teoretyczny model opisujący relację między wielkościami x oraz
y lub też może być wybrana arbitralnie jako wygodna, aproksymująca formuła do użytku
w innych obliczeniach. W wielu zastosowaniach praktycznych powyższą zasadę formułujemy w następujący
sposób: dany jest zestaw n punktów kontrolowanych x,, a dla każdego z nich dana jest wielkość objaśniana, czyli wartość mierzona y;, której prawdziwa wartość 7;
nm= NR =
(a) = meta e
Yk
H
=
.
,
k=l
Rozwiązaniem tego problemu jest średnia ważona (4.12). Gdy wielkości y, są skorelowane macierzą kowariancji V (y), wtedy problem określenia średniej ważonej poddaje się naturalnemu uogólnieniu
R=)>
k,j=l
O+-W[V" W], O; — M) = min(u).
Sformułowanie to sugeruje, abyśmy macierz Q w resztkowej sumie kwadratów (7.30) zdefiniowali jako odwrotność macierzy kowariancji: Q = V"' (y). Taki wybór ma ładną interpretację geometryczną, którą łatwo zauważymy, jeśli macierz błędów jest diagonalna i określona przez błędy s; poszczególnych wielkości y;, ponieważ wtedy minimalizujemy wyrażenie
R= 2
(|
PeE0),
(7.31)
określające odstępstwa, w jednostkach błędu s;, wielkości mierzonej od domniemanej (patrz rys. 7.13).
Istotnym elementem zasady najmniejszych kwadratów jest brak jakichkolwiek za-
łożeń co do charakteru rozkładu, z którego pomiary y, się wywodzą — można powiedzieć, że zasada najmniejszych kwadratów jest niezależna od postaci rozkładu. Jeśli jednak chcemy dokonać probabilistycznej interpretacji uzyskanych wyników, musimy wiedzieć, z jakiego rozkładu pochodzą wielkości mierzone. To jednak nie wystarcza. Równanie (7.31), a przez domniemanie również (7.30), sformułowaliśmy, wykorzystu-
jąc macierz błędów. Istotnie, zazwyczaj w praktyce dysponujemy jedynie statystykami określającymi wariancje i kowariancje. Taka sytuacja czyni problem na tyle skomplikowanym matematycznie, że jego aspekt probabilistyczny staje się praktycznie nierozwiązywalny na drodze analitycznej. Głębszy wgląd w naturę statystyczną uzyskanych
418
7. Estymacja parametryczna
1
F(x:0)
Rys. 7.13. Odstępstwa e, wielkości mierzonej od domniemanej
wyników można otrzymać dopiero wtedy, gdy przez macierz V (y) będziemy rozumieli
macierz kowariancji, a więc wielkości zbudowanej z elementów, które są stałe pod wzglę-
dem statystycznym. Takie też ograniczenie przyjmiemy we wszystkich naszych dalszych
rozważaniach metody najmniejszych kwadratów, a niniejszy akapit niechaj będzie dla Czytelnika ostrzeżeniem, że to, co tu robimy, to są faktycznie pewne rozważania modelowe, które nie zawsze muszą przystawać do rzeczywistości i stanowią najwyżej przy-
bliżenie realnej sytuacji. Przybliżenie to oczywiście będzie tym lepsze, im dysponujemy precyzyjniejszymi wartościami błędów i estymat kowariancji.
Należy podkreślić, że w całym sformułowaniu zasady najmniejszych kwadratów, jak
to jest przedstawione wyżej, nigdzie nie występuje pojęcie dokładności, z jaką znamy wielkości kontrolowane x,. Założeniem jest, że są one nam znane absolutnie dokład-
nie. Oczywiście, tak wyidealizowana sytuacja nigdy nie pojawia się w praktyce, dlatego też najczęściej zastosowania tej metody ograniczają się do przypadków, gdy dyspersje punktów x, są na tyle małe, że praktycznie nie modyfikują one wielkości dyspersji
o;. Istnieje możliwość rozszerzenia zasady najmniejszych kwadratów tak, by dyspersje wielkości x, były jawnie uwzględnione w formalizmie. Nie będziemy jednak tego robili, ufając, że Czytelnik będzie potrafił sam tego dokonać po opanowaniu całości materiału przedstawionego niżej. Autor jest również przekonany, że zrozumienie metody
najmniejszych kwadratów w wersji, w której występuje jedna tylko wielkość kontrolowana x, pozwoli Czytelnikowi łatwo dokonać uogólnienia na zagadnienie wielu takich zmiennych.
Na zakończenie tego punktu rozważmy przypadek specjalny, a mianowicie niech
wielkości mierzone
y;, pochodzą z rozkładu normalnego.
Wtedy
wielkość (7.30) jest
(z dokładnością do czynnika 1/2 i znaku „„—*) wykładnikiem, jaki pojawia się w łącz-
nej funkcji gęstości (5.74) rozkładu tych zmiennych. Tym samym minimalizacja wielko-
ści St jest równoważna poszukiwaniu maksimum funkcji wiarogodności, a więc metoda
najmniejszych kwadratów jest tożsama z metodą największej wiarogodności.
7.3. Metoda najmniejszych kwadratów
419
7.3.2. Przypadek liniowy Pod względem matematycznym najprostszą sytuację mamy wtedy, gdy związek (7.29) między parametrami 6; a wielkością mierzoną 7 przyjmuje postać liniową
1(x) = f2,9) = 1(1)9; + 2(1)6> + *** + Pm(X)0m, gdzie wielkości g;(x)
są zadanymi,
liniowo niezależnymi
funkcjami
kolejne potęgi wielkości kontrolowanej x, ale tez np. wielomiany
(7.32) —
są to często
Legendre'a, które
występują w wyrażeniu na różniczkowy przekrój czynny lub specjalne wielomiany or-
togonalne, do których jeszcze powrócimy w dalszej części wykładu. Poniżej podane są najprostsze przykłady zależności funkcyjnych, które przez odpowiednią zamianę zmien-
nych można sprowadzić do wymaganej zależności liniowej: x
7
|
a+bx
l
z
z =ab” z =ae”
n=lnz n=lnz
z=ax?
q = Inz
>
n=aL
= =>
n=lna+xlnb=a +bx, qn=lna+bx =a +bx,
>
tb,
qn=lna+blnx=a +blnx,
niestety, najczęściej kosztem przekształcenia poszukiwanych parametrów do pewnej po-
staci funkcyjnej. Dla n wartości wielkości x, otrzymujemy n związków dla n wartości wielkości 7; odpowiadających wielkościom mierzonym y;: M = 91(21)6, + PO)
+ **: + Pm (X1)0m,
M = 91(%2)6, + P2(02)0 + *** + Pm (X2)8m,
Mn
=
(I (Xn)01
+
92(X,)0
+
:::
+
Pm (Xn)Om -
Powyższe równania możemy zapisać zwarcie w formie macierzowej q =dQ0,
(7.33)
gdzie 91 Ą
=
9a .
Nn
P(X) s
©
—
P1(%) .
Pln)
(01)
PO)
PaXln)
*::
*:: ,
***
Pm()
Pm(X2) .
01 ,
0
=
Pm(Xn)
6,
,
Om
a samą zasadę najmniejszych kwadratów (7.30) jako
R = (y — 96) Q(y — %6) =(y' —8'%')Q(y — %0) = min(6). Zdefiniowaną przez nas macierz © określa się mianem macierzy konstrukcyjnej.
(7.34)
420
7. Estymacja parametryczna
Aby znaleźć minimum wielkości Ot, wypiszemy jawną postać związku (7.34), bez
wykorzystania notacji macierzowej: n
R =
3
ij=1
= >,
i,j=l
(» —
wwa)
Q;; (» — Żaaya)
k=1
[=]
Qi);— 3 2 p) Qyy; — PY yi Qyoilt)6, i,j=l
k=
Lj=l
l=l
+) ). ge(x;)8k Qijo1(2;)6,. i, j=l k.I=1
Jeśli w trzecim składniku dokonamy zamiany indeksu I na k oraz wymienimy między
sobą nazwy indeksów i oraz j, a następnie wykorzystamy fakt, że macierz Q jest symetryczna — jako odwrotność symetrycznej macierzy kowariancji V — to całość możemy zapisać jako
R= > y Qyy; — 2 3 ) 040300404; + 3 2 0x()8; Q;;pi(t;)8. ij=lkl=
i,j=l k=
ij=
Różniczkujemy teraz względem parametru 6, 3% 39.
— 2
n
m
3
M.
i,j=l k=l
Pp
Pe(Xi)Bkp QijY
n
m
+ ),
3
i, j=1 k,I=1
Pi; )Ókp QijP1(2;)0)
3 0x(%)86 Qi (08, 3 k,l=1 + i,j=t =—2
>
OACDIUTRZ
+
3
i,j=l
) 06000068)
i=
+
y
)
i,j=l
k=
0404064010)
gdzie wykorzystaliśmy fakt, iż
08
8,
©
_]bo
]0
"=J
iźj.
Dokonując identycznej z poprzednią manipulacji indeksami, otrzymujemy układ m równań
03R
an
06,
=
2)
976600,
+2) i,j=l
)0000,m(0)0 k=l
= (,
p
=
1,2,...,m.
(7.35)
Przypatrzmy się teraz pierwszemu wyrazowi, zadanemu przez podwójną sumę. Mamy w nim macierz Q mnożoną od prawej przez wektor y, a od lewej przez kolumnę o indeksie p macierzy konstrukcyjnej %. Jeśli wprowadzimy macierz %', transponowaną
7.3. Metoda najmniejszych kwadratów
421
w stosunku do macierzy konstrukcyjnej, to podwójna suma jest p-tym elementem wek-
tora $'Qy
2 66) Qyy; =).i,j=l (BI) Qyy; = (W'Qy),.
i j=l
Podobnie dla sumy potrójnej
2900004)
i,j=l k=
=
_(60),0, 0,6,= (6TQG8) .
ij=lk=
p
Pozwala to zapisać uzyskane równania na parametry 6; w postaci macierzowego układu równań liniowych, zwanych normalnymi
P'Qd08 = $'Qy
(7.36)
o rozwiązaniach 6 liniowo zależnych od mierzonych wielkości y;
6=(87Q6) GTQy=(4'V'9) GTV'y=W$'V'y=Wy,
(7.37)
gdzie zdefiniowaliśmy dodatkowe dwie macierze
W=(4e'V"'6)| oraz W=Wg'Vv"..
Zabawne jest, że całej tej skomplikowanej algebry można było uniknąć, dokonując formalnego różniczkowania względem parametru 6': OR
0
391 = zgr | —68)V' 0 - 60) =-G'V"' (y - 06) =0, co jest inną formą równania (7.36).
Zauważmy, że aby uzyskać rozwiązania (7.37), nie musimy znać absolutnej postaci macierzy wag Q, a tym samym pełnej postaci macierzy kowariancji V: wystarczy, jeśli określimy ją z dokładnością do pewnego współczynnika. Jest to często wykorzystywana w praktyce własność, kiedy to dla nieskorelowanych pomiarów, czego przykła-
dem jest (7.31) (przypadek najczęściej pojawiający się w praktyce), wybieramy macierz wag jako jednostkową. Jednakże, ponieważ wielkości mierzone wchodzą do wyrażeń na estymatory, niepewności w wielkościach mierzonych znajdą swoje odbicie w nie-
pewnościach parametrów. Istotnie, jeśli pomiary nie są obciążone, wartość oczekiwana
rozwiązania (7.37) dana jest przez
e|6|=ENvy]=VElyl =Wy, co pozwala nam znaleźć macierz kowariancji estymatorów, wykorzystując (3.19), bądź
422
7. Estymacja parametryczna
wychodząc wprost z definicji takiej macierzy
v(6) = los
-
|
Vv"(6)| =>" ij
2 00,00;
(
7.39
)
Przy jego wyprowadzeniu należy wykorzystać związek między macierzą kowariancji V
a macierzą wag Q oraz fakt, że obie macierze są symetryczne. Jak widzimy, znajdując rozwiązania układu (7.36) równań normalnych, znajdujemy jednocześnie macierz
ich kowariancji, jeśli macierz wag, a co za tym idzie i macierz kowariancji wielkości mierzonych znamy absolutnie.
Przydatnego narzędzia do oceny jakości wysiłku eksperymentalnego dostarcza reszt-
kowa różnica Ep =Y—4
W minimum. Zbadajmy jej wartość oczekiwaną. Przyjmijmy,
za (7.28), że wielkości mierzone są nieobciążone, a wtedy
€ [5 = WóTV-'E [yj= W4TV'y=Wó4"V"'96 =6, czyli estymatory parametrów są także nieobciążone. Pozwala to stwierdzić, iż
E lemnl = € [y- 4] =€vy]-€[5]=1-€|v0|=n-V0=qn-1=0. Rozważmy także wariancję wektora reszt
Y Em) =
(68-—y)'V'$=0.
7.3. Metoda najmniejszych kwadratów
433
Pozostałą część resztkowej sumy (7.43) zapiszemy jako
a = (” z 667) —
y' Vy
V-ly=yTV-ly — ÓTgTV-!y
z
Ww
'We'V
'y
—
yV'y
=
w”"'6,
(7.44)
gdzie w drugim wyrazie wyeliminowaliśmy, wykorzystując rozwiązanie (7.37) równań normalnych, jawną zależność od wielkości pomiarowych. Jeśli skorzystamy z równa-
nia (7.33), to wyrażenie (7.44) możemy zapisać jako
Rain = 7'V7y -87W”'6 = (7 — g)'V"'(y — 1) — (6 —6)'W”'(6—6).
(7.45)
Znajdziemy teraz wartość oczekiwaną tej resztkowej sumy kwadratów:
E Bial =mp]| =Tr(V"'V) =TrO) =n. Podobne rozumowanie odniesione do drugiego wyrazu w wyrażeniu (7.46) na war-
tość oczekiwaną daje nam w ostatecznym wyniku
a
„
|
ZTaTG-1A
E [Rmin] =€[87'V"'8|= —ć Baa
=n=m
o niezależnie od charakteru rozkładu wielkości mierzonych y,. Obserwacja ta pozwala wyznaczyć nieobciążony i niezależny od rozkładu wielkości mierzonych estymator pa-
rametru skalującego o?
2,
O
=
8TWTIB n-m
.
(7.47)
W konsekwencji otrzymujemy pełną postać zarówno estymatorów macierzy kowariancji mierzonych wielkości, jak i estymowanych parametrów
=, A
W=Q? GÓR
=6W.
-—-
7. Estymacja parametryczna
Przykład 7.3.2
Dopasowanie liniowe — skałowana macierz kowariancji Przypatrzmy się zastosowaniu powyższych wyników do analizy danych (własnych), uzyskanych z kalibracji przepływomierza, czyli urządzenia służącego do pomiaru szybkości, np. liczby litrów na godzinę, przepływającego gazu. Obecnie niemal we wszystkich eksperymentach fizyki jądra atomowego i cząstek elementarnych stosowane są detektory drutowe, które wymagają płukania gazem. Za pomocą prze-
pływomierza możemy mierzyć ilość gazu, która wpływa do detektora, jak również ilość gazu, która wypływa. Dzięki takim pomiarom możemy łatwo kontrolować szczelność. Aby jednak taki przyrząd używać, musimy go najpierw wykalibro-
wać, czyli przepuszczać przez niego gaz ze znaną szybkościąi odczytywać jego wskazania.
przepływ [1/h]
434
napięcie [V]
Rys. 7.17. Wynik kalibracji przepływomierza wraz z prostą najlepszego dopasowania i „korytarzem błędów”
Na rysunku 7.17 przedstawione są rezultaty takiej kalibracji. Nie jest ona, jak widać, zbyt precyzyjnie wykonana, gdyż rozrzut punktów pomiarowych — czarne
kółka (o dodatkowych liniach na wykresie mówimy niżej) — jest duży, choć wyraź-
nie układają się one wzdłuż pewnej linii, o której z dużą dozą prawdopodobieństwa możemy powiedzieć, że jest linią prostą. Istotną cechą danych przedstawionych na tym rysunku jest to, że nie znamy błędów na wartości przepływów dla żadnego punktu pomiarowego. Dla celów dalszej dyskusji przyjmiemy, że zależność między szybkością przepływu 7 a napięciem Y jest liniowa: h = a, + a,V oraz że kolejne pomiary nie są ze sobą skore-
lowane (każdy pomiar był wykonany niezależnie od innego), a także, że błędy wartości szybkości przepływu w każdym pomiarze są identyczne. Innymi słowy, założymy, że macierz błędów pomiarowych jest proporcjonalna do macierzy jednostkowej: V = o'"I, gdzie wielkość o? nie jest znana. Możemy teraz uruchomić
wyżej przedstawiony formalizm statystyczny, a otrzymamy © = —0,7 1/h oraz d, = 4,7 l/(h:V). Takie są właśnie parametry wykreślonej na rysunku prostej, pogrubionej linii.
7.3. Metoda najmniejszych kwadratów
Resztkowa suma kwadratów Ńtyi dla naszego dopasowania wynosi 6,61/07. Ponieważ mamy 10 punktów pomiarowych, więc oczekujemy, że suma ta w typowym pomiarze kalibracyjnym powinna wynosić 8, co daje nam nieobciążoną estymatę błędu pojedynczego pomiaru szybkości przepływu 6 = 0,9 l/h. Dys-
ponując wielkością 6, znajdujemy błędy na parametry: 4, = (—0,7 + 0,6) 1/h, a, = (4,7 £ 0,2) l/(h:V), a także współczynnik korelacji między parametrami p = —0,98 (który, jak wiemy, jest niezależny od parametru o). Musimy jednak z całą mocą podkreślić, że chociaż znamy estymator pełnej macierzy kowarian-
cji dopasowanych parametrów, nie potrafimy podać interpretacji probabilistycznej
estymatorów samych parametrów. Nie znamy rozkładu, z jakiego pochodzą pomiary, więc nie znamy rozkładu, jakiemu podlegają znalezione współczynniki — określenie go jako dwuwymiarowego gaussowskiego wyrazi jedynie nasze nadzieje 1 pozostanie tylko przybliżeniem realnej sytuacji. Jednakże niezależnie od charakteru tego rozkładu możemy uprościć postać domniemanej krzywej kalibracji. Widzimy, że wartość wyrazu wolnego jest zgodna z zerem, dlatego moglibyśmy zaproponować prostszą formułę: n = a,V, przeprowadzić nowe dopasowanie współczynnika a, i znaleźć jego błąd. Zachęcamy Czytelnika do takiego postępowania z własnymi danymi, ilekroć nadarzy się ku temu okazja. Uzasadnienie leży tu nie tylko w zgodności procedury z zasadami statystyki matematycznej. Jest i wzgląd praktyczny. W przypadku naszych danych
unikniemy dzięki temu kłopotliwej sytuacji, w której ze wzoru liniowego z wyrazem wolnym mniejszym od zera otrzymamy ujemną wartość szybkości przepływu, gdy zmierzone napięcie będzie dostatecznie niskie. Jak dokładnie możemy wyznaczać wartość szybkości przepływu z naszej krzy-
wej kalibracji, w sytuacji gdy stosujemy ją do interpolacji lub ekstrapolacji? Oceny takiej dokładności dostarczają dwie dodatkowe krzywe na rysunku: nad i pod krzywą kalibracji. Dają one zależność wielkości jednego odchylenia standardowego (w górę lub w dół) od wartości centralnej (w żargonie mówimy, że wyznaczają one „korytarz błędów ). Zauważmy, że obszar wyznaczony przez jedno standar-
dowe odchylenie jest najwęższy w środkowej części wykresu, natomiast ulega poszerzeniu, gdy zbliżamy się ku obu końcom danych. Oznacza to, że najbardziej bezpieczna jest interpolacja w środku obszaru danych, a ekstrapolacja może być
zdradliwa.
Jako podsumowanie przykładu podamy pełną postać wzorów na współczyn-
niki linii prostej: Ą = ay +a,x
i postać ich macierzy błędu w przypadku, gdy
poszczególne pomiary y, nie są ze sobą skorelowane, natomiast błędy wielkości mierzonych znane są z dokładnością do wspólnego czynnika proporcjonalności: S$; = ou,. Jeśli zdefiniujemy wielkości:
I
e
v[a,] = U6*8,
Dodatkowo, gdy pomiary określone są przez rozkład normalny, wtedy dla każdego
z parametrów możemy zbudować statystyki =
0%
|
t=
Id
G+/U,,0
64/U6
,
się jak zmienna (5.85) z rozkładu Studenta
a każda z nich będzie zachowywać o n — 2 stopniach swobody.
Gdy zależność jest proporcjonalna: 7 = a,x, wtedy »
ad, =
U,, Ux
6
+ w
22
,
0
=
87V'8 n
U
—
1
,
Dla pomiarów gaussowskich wielkość adi
t=— v
a
Ux
podlega rozkładowi Studenta z n — 1 stopniami swobody.
Zbadamy
teraz własności
statystyczne niektórych wielkości występujących w po-
wyższych rozważaniach, przy założeniu, że każda z wielkości pomiarowych pochodzi z rozkładu normalnego. Wspomnieliśmy, że w takiej sytuacji, o ile znana jest pełna macierz kowariancji wielkości mierzonych, a nie macierz ich estymat, ważona minimalna suma kwadratów reszt (7.45) ma rozkład wielkości x* o n — m stopniach swobody. Ponieważ
wielkość
podlega rozkładowi wielkość
(CEDRACET) x?
o n stopniach
swobody,
to na mocy
x2 = (6 — 6)7W”'(6 — 6)
będzie podlegała rozkładowi x* o m stopniach swobody.
własności rozkładu
X,
(7.49)
7.3. Metoda najmniejszych kwadratów
437
Przyjrzyjmy się teraz estymatorowi (7.47) parametru o”
2 6” =
8/V!8 CZA SA = 8—8= nm n=m o
0” nm
„q
a zauważymy, że jego rozkład zadany jest rozkładem zmiennej 2
o
2
Kn=m
a —M
*
Rozważmy także rozkład statystyczny formy kwadratowej
(6 — 077W”'6 — 6), zbudowanej z estymatora macierzy kowariancji znalezionych parametrów, gdy nie jest nam znany: współczynnik skalujący o”. Statystykę tę przekształcimy do postaci
2 róą 6-07W'6-0 =—6—-6) W (6 — 0) = 2:6 —07W-!6 — 0): 2
—|
2
g2
o
widzimy, że w rozkładzie wielkości 2
l
nm
Paz — M
— M
Kn=m
n-—m
a
A
_6-0'Ww'6-60)
;.
A
= — (6 — 0)0W”'(6 — 0)
Ty!
m
(7.50)
n=-m
kasuje się parametr o”, a całość to zmienna F rozkładu Fishera o (m, n — m) stopniach swobody.
7.3.3. Przypadek liniowy z liniowymi równaniami więzów Niekiedy
zdarza się, że o dopasowywanych
parametrach
6,, i =
1,2,...,m,
mamy
pewne dodatkowe informacje w postaci k liniowych równań (k < m) wiążących parametry między sobą:
),Cyój=Z,
1=1,2,...,k,
j=l
co zapiszemy w postaci macierzowej
C6 =Z. Formalnie rzecz biorąc, moglibyśmy rozwiązać te równania, to jest wyznaczyć k parametrów jako funkcje pozostałych i podstawić je do równań (7.32), co zostawiłoby m — k parametrów swobodnych. Wadą tego podejścia jest to, że wyeliminowane parametry
nie pojawią się nam w macierzy błędów, a niekiedy chcielibyśmy mieć właśnie pełną informację o wszystkich poszukiwanych parametrach. Dlatego do rozwiązania tak po-
stawionego problemu lepiej jest wykorzystać metodę współczynników Lagrange'a, czyli
minimalizować następującą wielkość:
R =(y” — 6767) V"'(y — *0) + (67'C' —Z')A,
(7.51)
438
7. Estymacja parametryczna
gdzie wprowadziliśmy dodatkowy człon, który formalnie jest równy zeru, a wielkość A = (Ay, Aa, ..., A)
to właśnie układ współczynników
Lagrange'a, które powinniśmy
również otrzymać z procedury minimalizacyjnej. Warunek minimalizacji daje nam tym
razem następujące równania: OR
397
=
OR
_g'V"
(»
—
a
zą = ŚĆ -Z7=0 gdzie przez 0.
oznaczyliśmy
2
oó,
+
CA
—
0,
ą
(68.-Z=0,
>
rozwiązania tych równań.
Jeśli przypomnimy
sobie, że
wielkość 6 jest rozwiązaniem zagadnienia (7.36) bez więzów, to pierwsze równanie możemy przepisać w postaci
w” (6-6) =C'A.
W następnym kroku pomnóżmy to równanie od lewej przez CW
Có — C6. = CWC'A. Jeśli skorzystamy teraz z drugiego równania na minimum i wyeliminujemy wielkości 6,, to znajdziemy wyrażenie na nieznane współczynniki Lagrange'a
A =(cwc')”"' (c — z). a stąd znajdujemy bez trudności, że
6, =6-wc'(cwc')"' (có- z).
(7.52)
Dalej, już standardowymi metodami, możemy znaleźć macierz kowariancji W, parametrów 6.
W =W-wWC'
1
(CWC')
2
CW.
(7.53)
Gdy wartości mierzone podlegają rozkładowi Gaussa, a macierz ich kowariancji jest znana, wtedy estymatory parametrów (7.52) także podlegają temu rozkładowi, z macierzą kowariancji (7.53). Dodatkowo, minimalna, ważona resztkowa suma kwadratów (7.51)
zachowuje się jak zmienna z rozkładu x* o liczbie n — m +-k stopni swobody (zauważmy, że równania więzów zwiększają liczbę stopni swobody, ponieważ za ich pomocą możemy
faktycznie wyeliminować k spośród m nieznanych parametrów), więc możemy dokonać oceny jakości naszego dopasowania, tak jak to dyskutowaliśmy w przykładzie 7.3.1. -—-
Przykład 7.3.3
Dopasowanie z więzami — geodeta Rozważmy przykład z pomiarem kątów trójkąta w terenie, który podaliśmy we wstępie do książki. Mieliśmy tam dane trzy kąty: u = 73, B =63iy =52,
każdy z błędem o = 2”, które sumują się do 1889. Jeśli chcielibyśmy wykorzystać
te pomiary do dalszej pracy, np. znając jeden z boków trójkąta, chcielibyśmy obliczyć pozostałe, to fakt, że suma kątów nie przyjmuje wartości, jakiej wymaga geo-
439
7.3. Metoda najmniejszych kwadratów
metria euklidesowa, niewątpliwie wprowadza nas w pewien dyskomfort psychiczny. Jak poprawić nasze wyniki, aby suma tych kątów była właściwa? Otóż powinniśmy wprowadzić trzy nieznane nowe kąty: t, B oraz y, od których będziemy wymagali, aby » _ a
—
a,
B
—
B,
Y
=
Y;
przy warunku wiążącym
G+B+y
= 180.
Macierz konstrukcyjna ©, wektor parametrów 6., wektor pomiarów 0 (będący jednocześnie rozwiązaniem zagadnienia bez więzów), macierz błędów V dla punktów pomiarowych, macierz więzów C i macierz Z (która jest liczbą) przyjmują postaci:
100 10], 00 1
C=[1,1,1],
Tó 6=|8|, $ R
6=-|0
Z=
Ta 6=|g|, y
V=o'|0
100 1 0|, 0.0 1
180,
gdzie o = 2. Z uwagi na prostotę powyższych poszukiwane parametry to
związków,
w tym
V
=
NOENOOACZEJEFZAH Ta
l
IN"
1[
ly
I
1
3 |—a — 8 + 2y + 1805
703 = | 603 [494 Jak widzimy,
nadmiar
8” został równo
rozdzielony
oTl,
20-8-y+180
i odjęty od wszystkich po-
miarów. Gdyby macierz błędów wielkości pomiarowych nie była proporcjonalna do macierzy jednostkowej, wtedy mniej odejmowalibyśmy od wartości obarczonej mniejszym błędem.
Przejdźmy teraz do macierzy błędów
W. = o*l— o'IC' (Co*IC')' Col =o*(1-C' (CC') 'C) 2 | 2 =——|-1 3|-21
-1 21
2
zr 1] 2
Błędy dopasowanych kątów są mniejsze (o czynnik /2/3
= 0,8) niż kątów zmie-
rzonych, ale za cenę korelacji między nimi. Wartość wielkości Ń w minimum wynosi, w przybliżeniu, 2,3 i jeśli przyjmiemy, że wielkości pomiarowe pochodzą
z rozkładu normalnego, to wielkość ta ma charakter liczby wylosowanej z rozkładu
X o liczbie stopni swobody równej I (trzy pomiary, trzy niewiadome i jedno równanie więzów), a prawdopodobieństwo uzyskania wartości x* większej niż ta, którą otrzymaliśmy, wynosi 0,13, co niewątpliwie jest sensownym rezultatem.
O dopasowaniu, w którym liczba pomiarów jest równa liczbie dopasowywa-
nych parametrów, na które nałożonych jest k równań więzów, mówi się w żargonie
fizyków, że jest ono typu k C (z angielskiego: constraint). Tak więc nasze dopasowanie kątów jest typu 1 C.
n
440
7. Estymacja parametryczna
Rozważmy teraz resztkową sumę (7.51), jaka powstaje po rozwiązaniu problemu z liniowymi więzami. Możemy ją, podobnie jak w wyrażeniu (7.45), rozłożyć do postaci A
Ay T
A
A
nn = £PV2, = (7-4) V"' (4) +(6.-6) w"'(6.-6), | (1.54) gdzie
_
h
n
Eci ZY — Mei
A
—J/(0,0),
n
1 = 90.
Pierwszy wyraz to resztkowa suma kwadratów (7.45) dla problemu bez więzów, drugi to przyczynek wynikający z uwzględnienia zmian w poszukiwanych parametrach z powodu więzów. Rozumując analogicznie do tego, jak to robiliśmy dla zagadnienia bez więzów, możemy pokazać, że wartość oczekiwana tej sumy to E [ihnlzsz—m+k.
Dla macierzy kowariancji wielkości pomiarowych znanej z dokładnością do współ-
czynnika o”,
s
V=oV,
współczynnik ten, w sposób nieobciążony i niezależnie od rozkładu, z którego pochodzą punkty pomiarowe, możemy określić z danych:
2
Oj
8VTI8,
= ————,, n=>m+k
a przy założeniu słuszności formy dopasowywanej zależności, także pozwala dokończyć
dzieła oceny macierzy kowariancji pomiarów i poszukiwanych parametrów: m
(.=6%, A
m
m
m
W.=ć? (w — WC" (cwc') A
-|
m
cw) |
7.3.4. Przypadek nieliniowy Z sytuacją taką stykamy
się wtedy,
gdy funkcja
f(x,6;,...,8„)
wiążąca wielkości
pomiarowe i nieznane parametry nie zależy liniowo od tych parametrów. Klasyczny przykład to zagadnienie określenia parametrów linii spiralnej, po której porusza się naładowana cząstka w polu magnetycznym, co pozwala znaleźć jej pęd, jeśli dysponujemy współrzędnymi x;,y; oraz z, Serii punktów na jej torze. r-—
Przykład 7.3.4
Dane zgrupowane Wykres na rys. 7.18 (Ch. Droste, informacja prywatna) to doświadczalne widmo kwantów gamma zmierzonych za pomocą omawianego wcześniej detektora germanowego wraz z dopasowanym do tego widma układem czterech linii widmowych, każda o profilu gaussowskim, oraz liniowego tła. Dopasowana krzywa ma w tym przypadku postać
7.3. Metoda najmniejszych kwadratów
JG, „hu
10)
=
0x
+)
z
(x — 1)”
exp
202
s
i opisana jest czternastoma nieznanymi parametrami, gdzie wielkość x to zmienna
opisana na wykresie jako numer kanału, wielkości ji, podają pozycje czterech linii, o, ich szerokości, natomiast parametry a, to intensywności tych linii, czyli liczby
przypadków każdego ze stanów wzbudzonych. Rozważmy, w jaki sposób moglibyśmy taką krzywą dopasować do danych. Oznaczmy, zbiorczo i dla uproszczenia,
symbolem 6 wszystkie nieznane parametry w liczbie m. Przypuśćmy, że całkowita
10000
|
liczba zliczeń
1000
100
10
0
.
l
2140
i
2180
i
numer kanału
i
2220
l
>
2260
Rys. 7.18. Widmo kwantów gamma
liczba przypadków w histogramie wynosi N, liczba przedziałów histogramu to n, liczba przypadków w każdym z nich wynosi n,, Środki tych przedziałów wypadają w punktach x,, a wielkości A, zadają szerokości przedziałów. Jeśli szerokości
te są na tyle małe, że dopasowywana funkcja f(x, 6) może być uznana za stałą wewnątrz
każdego
z nich, wtedy
zapewne
nieznane parametry wyznaczymy z warunku =
2
nę NA —— JG, 0)Ax 8)4; V
Gdy
nie popełnimy
J (Xk,
istotnego błędu, jeśli
.
= min(6).
8)4,
stałość funkcji może nie być dobrym przybliżeniem, wówczas
powinniśmy
postępować ostrożniej. Właściwsze jest wtedy wprowadzenie teoretycznej krotności
442
7. Estymacja parametryczna
N, przypadków w k-tym przedziale histogramu az ŁAŁ/2
N,(6) =
J
f(x;8)dx,
k=12,...,n.
xx -Ax/2
Dla danych n, oraz krotności N, możemy
skonstruować, aby następnie zminima-
lizować względem nieznanych parametrów, taką oto miarę odchylenia krzywej od danych:
n, — N,(6)
"= > (ar VN,(0)
)
jeśli nasz eksperyment modełowany jest na wzór doświadczenia Poissona, gdyż
w takim podejściu brak jest korelacji między zawartościami przedziałów histogramu, a wariancja | [n,] liczby przypadków w każdym przedziale wynosi N;(6). Żargonowo mówimy wówczas o dopasowaniu bez normalizacji, gdyż znaleziona
zależność f(x; 0) nie musi całkować się do pełnej liczby N przypadków w hi-
stogramie. Jeśli parametry 6 są z góry znane, wtedy resztkowa suma kwadratów R zachowuje się asymptotycznie, ze wzrostem liczb ną przypadków w przedziałach histogramu, jak zmienna z rozkładu x? o n stopniach swobody. Wynika to
z gaussowskiego przybliżenia dla rozkładu Poissona i statystycznej niezależności zmiennych losowych n;,. Gdy doświadczenie prowadzimy na wzór eksperymentu Bernoulliego, a więc liczba N jest ustalona, wtedy korzystamy z procedury dopasowania z normalizacją, wprowadzającej prawdopodobieństwa P,(6) xx tAk/2
N P,(0) =
|
f(x;68)dx,
k=1,2,...,A,
x4—A4/2
unormowane do jedności, co redukuje o jeden liczbę m niezależnych parametrów w wyrażeniu na funkcję f(x; 6) i wymaga minimalizowania następującej wielkoŚci: n, — NP,(6)
wą > (WEG /NP,(6)
) |
Gdy wszystkie parametry 6 znane są nam skądinąd, wielkość ta, asymptotycznie, ze wzrostem liczby N, nabiera kształtu zmiennej losowej x* o n — I stopniach swobody. Pomniejszenie liczby stopni swobody wynika z faktu, iż zmienne losowe n, podlegają „n-mianowemu” rozkładowi, który w granicy przechodzi w n — 1 wielowymiarowy
dziale 8.2.
Zarówno
rozkład normalny, czego dowód Czytelnik znajdzie w podroz-
dla eksperymentu
Bernoulliego, jak i Poissona,
własności
staty-
styczne wielkości R, którą otrzymujemy w wyniku estymacji parametrów 6 metodą najmniejszych kwadratów, nie są już tak proste, gdy liczby n, są niewiel-
kie. Statystyka R,
nie podlega rozkładowi x”, gdyż estymowana funkcja f(x; 6)
7.3. Metoda najmniejszych kwadratów
nie spełnia warunku
( f(x; 6) = f(x;6), a to prowadzi do niezerowej
wartości
oczekiwanej reszt. Okazuje się jednak, że estymatory 0 mają wiele pożądanych własności: są zgodne i są asymptotycznie zarówno normalne, jak i najefektywniej-
sze.
| Znalezienie parametrów 6 nawet w najprostszych sytuacjach nie jest zadaniem
łatwym, gdyż, w przypadku eksperymentu Bernoulliego, musimy rozwiązać układ m — 1 nieliniowych równań a=
2
2 06,
k=1
R
ZN)
0P,
2NPĘ
06,
PR
=0.
Cramer (H. Cramer, Metody matematyczne w statystyce, PWN, Warszawa 1958) twierdzi, że wpływ drugiego składnika pod znakiem sumy jest w reżimie asympto-
tycznym zaniedbywalny, a wtedy rozwiązywany układ równań można przekształcić (wykorzystując unormowanie prawdopodobieństw P,) do postaci ——
1 0R
2 36,
A
k k=l
(
n,
NP,
P,
$G,__m.
OP,
) 08, ———
=
ś
n,
OP,
2—P,00, —
m
Z
0
>
26 2_mulnP. m
l
!
P
= (0,
k=l
która, w istocie, jest warunkiem na ekstremum funkcji największej wiarogodno-
ści dla zgrupowanych danych, co omawialiśmy
w przykładzie 7.2.11. Okazuje
się (patrz podrozdział 8.2), że przy tym uproszczeniu statystyka R,,, odzyskuje
charakter zmiennej losowej z rozkładu x”, a jej liczba stopni swobody wynosi n — 1 — (m — 1) =n—m.
Odejmowanie pierwszej jedynki w tym związku przy-
pomina nam o tym, że nasz eksperyment jest typu Bernoulliego, a druga jedynka wynika z ogólnej postaci funkcji f(x; 6), na jaką zdecydowaliśmy się na początku
tego przykładu i na którą nie nałożyliśmy warunku unormowania do pełnej liczby przypadków w histogramie (m = 14 dła funkcji, jaka pojawia się na wstępie naszego przykładu, a warunek unormowania redukuje tę liczbę do trzynastu). Dokładnie tę samą liczbę n — m stopni swobody ma statystyka 9t,;, w przypadku eksperymentu Poissona. Z, powodów praktycznych często stosowana jest uproszczona wersja
R
CZEARAA, >( NR m
m0)
wyrażenia na resztkową sumę kwadratów. Jednakże niezależnie od przyjętej postaci minimalizowanego wyrażenia, estymatory parametrów są zgodne, asymptotycznie normalne i asymptotycznie najefektywniejsze. Różnice występują jedynie
w szybkości, ze wzrostem liczb n;, dochodzenia do tych własności: uproszczona forma osiąga je wolniej, a najbardziej ekonomiczna jest metoda największej wia-
rogodności dla danych zgrupowanych, dyskutowana w przykładzie 7.2.11 i zadana warunkiem In £ (6) =
BL k=1
ln P, (6) = max(0).
443
444
7. Estymacja parametryczna
Niekiedy równania więzów również mogą mieć nieliniowy charakter. Przykład takiej
sytuacji odnajdujemy w zagadnieniu, w którym dysponujemy już uzyskanymi z pomiaru
pędami cząstek biorących udział w reakcji, ale chcemy nałożyć na nie zasady zachowania pędu i energii.
Do rozwiązywania takich problemów istnieją specjalne programy komputerowe, wykorzystujące rozmaite strategie poszukiwania minimum. Jest to wiedza z dziedziny tech-
nik numerycznych sama w sobie i nie będziemy jej tutaj prezentowali. Aby jednak przybliżyć to zagadnienie, przedstawimy, pokrótce, najprostszą z metod, dającą się zastosować jedynie w niektórych uproszczonych sytuacjach (działa ona skutecznie wtedy, gdy już jesteśmy blisko minimum). Idea tej metody polega na tym, że znane jest pewne,
poszukiwanego rozwiązania i chcemy znaleźć jego
lepsze lub gorsze, przybliżenie 00
ulepszoną postać 60*) ze zlinearyzowanych równań dla wielkości mierzonych
|
= ;=f(lx,0
uj (
> ()
)
+)
— —— 0f (0;,0)
m
06,
„
0—60
Jeśli wprowadzimy wielkości oraz
>
() (+1) 807—80)=f
(6
|)=v
(1)
0f (x;,0) + ———
80
jo
> (+1) A80.
An =m= fi PY() _=
of (X; , 8)
06;
8=60
,
to układ n takich równań możemy zapisać jako Aq
= BOAT,
a więc jak w problemie liniowym, z jedyną różnicą, że zamiast minimalizowanej sumy resztkowej kwadratów w postaci (7.34), tym razem będziemy minimalizowali wielkość
RO = (Ay — 60 A6+0) Q (Ay) — GOAG0), gdzie
Ay =y= l
Jeśli w zagadnieniu są więzy w liczbie k, określone równaniami to te także możemy przybliżyć:
Z, zg, (60) + 3 980) 86; j=l
8=60
(369 —0P)I = g, (60) + 780) 00
AGD. 0=60
a w konsekwencji przepisać je w postaci takiej, jaka występuje w problemie liniowym COA0WD
gdzie wprowadziliśmy
= AZO,
AZ? = Z, — g; (60)
7.3. Metoda najmniejszych kwadratów
445
Oraz
* 06; |ęóv | Tak sformułowany problem możemy rozwiązać poznanymi metodami, tzn. znaleźć po-
prawkę A6T+D, a stąd nową wartość 6"*V. Postępowanie to możemy iterować, aż zostaną spełnione zadane kryteria zbieżności, dotyczące zmiany wielkości R i zmiany
wartości parametrów w kolejnych krokach. Gdy uznamy, że uzyskaliśmy satysfakcjonujące wyniki, niepewności parametrów znajdujemy tak jak dla zagadnienia liniowego,
wykorzystując np. rezultat (7.39). W zagadnieniach nieliniowych musimy pamiętać, że statystyczna interpretacja otrzymanych rezultatów wymaga ostrożności, nawet w przypadku, gdy wielkości pomiarowe mają rozkład normalny. Nie mamy tu żadnych twierdzeń, z wyjątkiem sytuacji asymptotycznej omówionej w przykładzie 7.3.4, które orzekałyby o charakterze rozkładu dla znalezionej np. resztkowej sumy kwadratów, ani dla uzyskanych estymatorów parametrów. Wszelkie stwierdzenia w tym względzie mają zawsze jedynie przybliżony charakter.
7.3.5. Analiza regresji W podrozdziale 3.5 zdefiniowaliśmy pojęcie krzywej regresji pierwszego typu jako warunkową wartość oczekiwaną (3.26) i (3.27). Wprowadziliśmy tam również pojęcie krzywej regresji drugiego typu, jako swoistą, w zadanej klasie, krzywą najlepszego dopasowania, minimalizującą funkcjonał (3.28). Tamże, w przykładzie 3.5.1, pokazaliśmy, że dla układu dwóch zmiennych taka krzywa regresji, z klasy funkcji liniowych, zadana przez Efylx=x|=n(x)
=
+aqx
(7.55)
minimalizuje ten funkcjonał, jeśli nieznane współczynniki ag oraz a, wybierzemy w poStaci
O.
O.
q=P—,O
M9EHy— PHR E Hy — Aly. o,
W szczególnym przypadku, jeśli zmienne losowe określone są przez dwuwymiarowy
rozkład Gaussa, to, jak to wynika z przykładu 5.5.9, krzywe regresji drugiego typu są
jednocześnie krzywymi regresji pierwszego typu.
Najprostsze zagadnienie regresji, zwane liniową jednokrotną
lub też jednoraką,
a także jednowymiarową, polega na znalezieniu estymatorów współczynników ay oraz a,, a także rozkładów tych estymatorów, z próby prostej n par zmiennych (4q,y,), i = 1,2,...,n. Jeśli zmiennych mamy więcej niż dwie, np. m + 1 i określone są przez losowy wektor (x, x2, ..., Xm, y), mówimy
też wielowymiarowej regresji liniowej:
wtedy o wielokrotnej bądź wielorakiej, lub m
€ [ylx
=
Xi,X
=
M2,
..., X
=
Xp]
=
n(x)
=
9
+
) | aiti. i=l
Współczynniki a, (z wyjątkiem ag) zwane są cząstkowymi współczynnikami regresji.
Jeśli któryś z nich jest statystycznie istotnie różny od zera, określa on znaczenie wpływu
446
7. Estymacja parametryczna
skojarzonej z nim zmiennej x; na zmienną y. Należy pamiętać, że to co w matematycz-
nym wyrażeniu na krzywą regresji nazywamy zmienną zależną i niezależną, w analizie statystycznej danych jest wysoce umowne. Wybór zmiennej zależnej, zwanej też zmienną objaśnianą i zmiennej niezależnej, czyli zmiennej objaśniającej, jest podyktowany intencją badacza. Jeśli badamy korelację między temperaturą na Śnieżce i na Kasprowym,
jest rzeczą absolutnie arbitralną, którą z temperatur przyjmiemy za zmienną objaśnia-
jącą. Sytuacja jest zapewne bardziej klarowna, jeśli poszukujemy relacji między liczbą
ubytków w zębach a zawartością fluoru w wodzie pitnej, ale jak mamy dokonać wyboru między zmiennymi, gdy interesuje nas relacja między wzrostem a wagą ludzi? Formalna
analiza danych z wykorzystaniem metod statystyki matematycznej nigdy nie jest w stanie określić związku przyczynowego, co uzasadniałoby — w sposób nie budzący wątpliwości — użycie pojęć zmiennej zależnej i niezależnej, a może jedynie określić powiązania
między badanymi cechami. Niech ostrzeżeniem przed próbą przyczynowej interpretacji wyników analizy regresji będzie następujący przykład. Przypuśćmy, że zebraliśmy dane
na temat pożarów: jedna dana to liczba jednostek straży pożarnej biorących udział w akcji gaszenia, a druga dana to strata materialna, w złotych, odniesiona z powodu pożaru.
Bez wątpienia znajdziemy w danych tendencję wskazującą na to, że im więcej strażaków
brało udział w gaszeniu pożaru, tym większą stratę odnotowano w jego wyniku. Przyczynowa interpretacja takiego związku zakazałaby nam w ogóle wysyłania strażaków do
następnego pożaru, w nadziei, że strat również nie będzie. Analiza regresji jest metodą ilościowej oceny, za pomocą współczynników regresji,
domniemanej relacji między własnościami elementów danej populacji. Metoda ta została wprowadzona do statystyki matematycznej pod koniec XIX w. przez angielskiego matematyka F. Galtona. Zajmował się on badaniem korelacji między wzrostem rodziców i ich dzieci. Zauważył on tendencję, że synowie wyższych ojców mają większy wzrost niż synowie niższych ojców. W wyniku ewolucji powinno to prowadzić do rozbicia populacji ludzkiej na dwie grupy: karłów i wielkoludów, a przecież rozkład wysokości wszystkich dorosłych osób płci męskiej jest bardzo dobrze opisany przez rozkład normalny (o czym dobrze wiedzą wszystkie komisje poborowe). Galton zauważył, że choć synowie wyższych ojców są raczej wyżsi,
to nie tak wysocy, średnio rzecz biorąc, jak ojcowie. Wzrost
synów, jak to ujął Galton, uległ regresji. Termin ten się przyjął i używany jest do dziś. Odwrotnie rzecz się ma ze wzrostem
synów niskich ojców: ci z kolei nie są tak niscy jak ich ojcowie.
Poniżej ograniczymy się, dla uproszczenia, do prezentacji jednorakiej regresji liniowej (7.55), zakładając, że dana jest nam normalna próba prosta w postaci serii n par zmierzo-
nych wielkości (x,, y;). Aby znaleźć regresję cechy y wzglę-
dem cechy x, powinniśmy, w zasadzie, przy ustalonej wartości
zmiennej x określić wartość Średnią y, zmiennej y, a następ-
Sir Francis Galton,
1822-1911
nie dla owych par wartości (x, y,) znaleźć wspólne równanie yy = do + a,x. Ponieważ w danych doświadczalnych nie dysponujemy możliwością płynnego regulowania” wartości
7.3. Metoda najmniejszych kwadratów
447
zmiennej objaśniającej, dlatego też możemy jedynie pogrupować wielkości x, w klasy xpp] o zbliżonych wartościach i dla nich określić średnie wartości yy.) zmiennej objaśnianej,
a następnie wyprowadzić dla tych wielkości wspólny liniowy związek. Ponieważ wszelkie
grupowanie danych oznacza stratę informacji, dlatego naturalne jest zastosowanie metody
najmniejszych kwadratów do wszystkich par (x;, y;) i taki dobór parametrów ag oraz ay, by resztkowa suma kwadratów
R=)M
i=l
(yi - m — ayx,)? = min(a, a,)
(7.56)
była minimalna. Należy podkreślić, że o ile w metodzie najmniejszych kwadratów, tak jak była ona
przedstawiona w poprzednich punktach tego rozdziału, wielkość x była zmienną niezależną w wyrażeniu funkcyjnym i mogliśmy ją dowolnie kontrolować, o tyle teraz wielkość ta jest w istocie statystyczną zmienną losową, a jej wartości wykorzystujemy jako zadane i ustalone, tak jak tego wymaga interpretacja pojęcia oczekiwanej wartości warunkowej (3.26). Poprzednio poszukiwaliśmy, podyktowanej np. modelem teoretycznym, zależności funkcyjnej między zmienną x a wielkością 7 (którą mierzyliśmy jako y), teraz poszukujemy krzywej regresji wyrażającej oczekiwaną wartość warunkową zmien-
nej losowej y względem zmiennej losowej x. W celu bliższego uświadomienia sobie tej różnicy, przypomnijmy przykład z rozdziału 1 dotyczący profilu wiązki. W przykładzie tym mamy układ par współrzędnych punktów trafień cząstek wiązki z akceleratora na
płaszczyźnie detektora usytuowanego prostopadle do osi wiązki. Punkty trafień obejmują tutaj cały obszar powierzchni detektora i wskazują one na przestrzenny rozrzut torów
poszczególnych cząstek. Tym, co nas interesuje w zagadnieniu regresji dla tego przypadku, jest informacja o tym, jaka jest typowa wartość współrzędnej y, jeśli ustalimy
wartość współrzędnej x. Niedorzeczne byłoby przypuszczenie, że w płaszczyźnie detektora cząstki układają się wzdłuż pewnej prostej, nachylonej np. pod katem 45? do osi x, a dokładnie tak właśnie postępowalibyśmy, gdybyśmy wyrażenie (7.56) na wielkość $t
oraz związek (7.55) interpretowali za pomocą metody najmniejszych kwadratów, tak jak ją dotychczas poznaliśmy i stosowaliśmy. Adeptom zastosowań metod statystyki matematycznej do analizy danych zdarza się często takie właśnie mieszanie sensu metody
najmmiejszych kwadratów zastosowanej do wyznaczania nieznanych parametrów funkcji i wyznaczania krzywej regresji. Wyrażenia na estymatory współczynników ag oraz a, prostej regresji minimalizujące
wielkość Yt już znamy, wskazaliśmy je w przykładach 7.3.1 oraz 7.3.2, toteż nie będziemy powtarzali tu obliczeń, a jedynie zacytujemy, w trochę innej notacji, ostateczne wyniki: h Spo a | -a> aj
—T—,
Sx
a0 ZY—ajiX,
gdzie wykorzystaliśmy definicję (4.7) odchyleń standardowych s, i s, i definicję (4.15)
współczynnika korelacji r z próby. Widzimy także, że prosta operacja translacji początku układu (x, y) do punktu zadanego środkiem ciężkości (x, y) prowadzi do eliminacji estymatora współczynnika ag, co wyjaśnia jego „kinematyczną” naturę i powoduje, że
nie zaliczamy go do grona współczynników regresji.
448
7. Estymacja parametryczna
Spójrzmy na resztkową sumę kwadratów (7.56) w minimum, która, jak wiemy, służy do oceny wariancji tych estymatorów: Mimin = 3
(y; —Y
— a; (Xx; — x))
i=l
= ))0s-5)7 -24) 6-303 -9D+4))w-2) i=l
i=l
(7.37)
i=l
= (n — 1) (s; — 26,R + aysz) = (n — sy(1 — r"), gdzie wykorzystaliśmy definicję (4.14) kowariancji R z próby. Jeśli uświadomimy sobie, że wariancja warunkowa V [y|x = x] dla rozkładu binormalnego wynosi oy (1—p”) (patrz przykład 5.5.9), to widzimy, że (nieomalże) każdy z wyrazów sumy resztkowej (7.57) w minimum dostarcza oszacowania tej wielkości. Stąd nieobciążony estymator wariancji warunkowej, zwany wariancją resztkową, wynosi AJ
O
M min
7
=
n-l
„zl
2 l=r), 2 r)
7.58 (7.58)
gdzie dzielnik n — 2 wynika z faktu szacowania dwóch parametrów prostej regresji z danych lub też z faktu, że resztkowa suma kwadratów (7.56) wyraża się jedynie przez n — 2 niezależne składniki, gdyż obowiązują dwa równania więzów zadane równaniami normalnymi. Potwierdzenie tego faktu znajdujemy w związku
Bqin) = (r — Jo2(d — p”), który możemy otrzymać niezależnie z rozkładu g(Sx, Sy, f; 0x, gy, p) zademonstrowanego
w przykładzie 5.5.10. Za pomocą wariancji resztkowej oraz związków (7.48) możemy skonstruować nieobciążone estymaty wariancji estymatorów parametrów prostej regresji nl,
(l —r")sy
Ta
Ar
(l —r")s;
(m 5+7) PEl= Gone
*B]- Gz A,
>
KOWECEZYH A
A
A
(1
—
r
JS
(7.59)
_
Zwróćmy uwagę na to, że estymatory parametrów prostej regresji nie będą skorelowane, jeśli wszystkie współrzędne x; przesuniemy do ich środka ciężkości. Powróćmy
jeszcze
do wyrażenia
(7.58) na wariancję resztkową i występującego
tam interesującego związku między jakością dopasowania, wyrażoną przez tę wariancję, a stopniem skorelowania danych, określonym przez współczynnik korelacji Pearsona r. Rozważmy kwadrat odchylenia standardowego sy zmiennej losowej y, który przedstawimy w postaci:
7.3. Metoda najmniejszych kwadratów
I
+
_
449
» = zo12%-9=„— 2(06-06-60)a l
n
i=l
=>
m i (> (V: — 01)” + 0 i=1 i=1
— v*)
jako że suma wyrazów mieszanych znika tożsamościowo: n
3
(Vi —MO
— fi) =4
>.
i=|
(y: —y — d(x; — x)) (Xi — X)
i=l
= 4, ) x;(y; — ) — ly(4; — 3) — 4, ) (y —5 — 4,4, —2))=0 i=]
i=l
na mocy równań normalnych (7.36) (każda z sum to jedno z tych równań). Pierwsza
suma w ostatecznym wyrażeniu na kwadrat odchylenia standardowego sy to resztkowa suma kwadratów Śimin. Mówimy, że w analizie regresji całkowita wariancja zmiennej losowej y rozkłada się na dwie części: część określoną przez wariancję resztkową, czyli odchylenia od linii regresji
i=l
i=l
Stosunek tej pierwszej do kwadratu odchylenia standardowego s, określa kwadrat współczynnika zgodności o (zbieżności)
natomiast
stosunek drugiej
części do kwadratu
odchylenia
standardowego
kwadrat współczynnika korelacji jednorakiej (wskaźnika korelacyjnego) o
sy określa
Obie wielkości: go oraz g, zwane w literaturze także stosunkami korelacyjnymi, są mia-
rami jakości, jakie typowo stosuje się do globalnego opisu rezultatów analizy regresji. Przypatrzmy się teraz estymowanej warunkowej wartości oczekiwanej w ustalonym punkcie x (X) = 89 + 41x = 41(X —X) +y 1 znajdźmy wariancję tej wielkości: y [0) |
=
(Go
+
ajX
— dy —
a,x)')
=) [30]
+ 2xV
[30,
a]
+ xV
[31]
.
450
7. Estymacja parametryczna
Jeśli za elementy macierzy kowariancji podstawimy ich estymaty (7.59), to otrzymamy
to] U (0-09) h
1
—
ŻY
c2
—1
Dwie krzywe określone wyrażeniem
4x — 2) +) £D[4()] dostarczają jednego standardowego odchylenia od warunkowej wartości oczekiwanej. Zajmiemy
parametrów
estymatorów
się teraz rozkładem
a; i ag prostej regresji.
Znany jest (przykłady 5.5.10 oraz 5.7.3) pełen rozkład trzech statystyk: odchyleń standardowych s, i sy obu zmiennych losowych x oraz y, a także współczynnika korelacji r Pearsona z próby. Jeśli z rozkładu tego wyeliminujemy współczynnik korelacji za pomocą wyrażenia na współczynnik regresji a,, a następnie scałkujemy względem zmien-
nych s, i sy, to otrzymamy rozkład brzegowy dla estymatora współczynnika regresji. Jest rzeczą interesującą, że program ten można wykonać do końca 1 znaleźć poszukiwany rozkład w formie zamkniętej:
A.
J (a;:
Oxy,
gdzie —00
dy,
m
r (zn)
p) = /xT(
!(n—1))
(
/
dy
Max
Gy
m
-7)
s2U-8
2
) +
A
dy
(4-07)
AE
,
< dy < oo. Jeśli zamiast zmiennej losowej, jaką jest estymator a, współ-
czynnika regresji, wprowadzimy zmienną
oA/N — I (
t=———=——yy
1— p*
3)
|(|a-p_
0x
|;
to znajdziemy, że wielkość ta podlega rozkładowi Studenta (5.86) z liczbą n — 1 stopni
swobody, dlatego z łatwością otrzymujemy
e[5] = =p. , o v[E]= >>l 20 -/). Statystyka t byłaby bardzo wygodnym narzędziem do sprawdzania hipotezy o wartości
współczynnika regresji, gdyby parametry ją definiujące były znane. W normalnych warunkach znamy tylko estymaty tych wielkości. Ponieważ jednak znamy estymator (7.59) błędu współczynnika regresji, więc możemy utworzyć statystykę
= ZE a
-
m ŻA 5 (3 — ay), x
—
2
A
(7.60)
wyrażoną przez znane wielkości i mającą, jak się okazuje, rozkład Studenta o n — 2
7.3. Metoda najmniejszych kwadratów
451
stopniach swobody. Podobnym rozkładem opisana jest statystyka A
ag — 40
to=————M..
[0,41] = —
= 3)oz"
Przykład 7.3.5
Analiza regresji — profil wiązki Zalustrujemy powyższe rozważania przykładem o profilu wiązki z rozdziału Prosta regresji dla tych danych ma postać n(x) = (—0,15 = 0,02)x + (—0,001 + 1,835),
|.
PlAo, 41) = —0,01,
1 zilustrowana jest na rys. 7.19 za pomocą grubszej linii, otoczonej dwiema cieńszymi, określającymi obszar jednego standardowego odchylenia. Z wykresu tego
widzimy wyraźnie, że prosta regresji nie powinna być, w żadnym przypadku, utożsamiana z którąś z osi elipsy kowariancji — dłuższa oś elipsy przebiega bardziej diagonalnie niż prosta warunkowej wartości oczekiwanej. Gdybyśmy chcieli uzyskać równania na oś elipsy, powinniśmy wykonać analizę regresji, w której mini-
malizowalibyśmy odległości punktów od prostej. Regresję taką nazywa się ortogonalną i określona jest ona równaniem
452
7. Estymacja parametryczna
l
n
N =14
a? 2 (a, + a1x — y;)” = min(ag, a),
do wyprowadzenia i rozwiązania którego zachęcamy Czytelnika.
Tak jak w przykładzie 5.7.3, gdzie pokazaliśmy, że współczynnik Pearsona korelacji między obiema zmiennymi jest istotnie różny od zera, tak i tym razem widzimy, że współczynnik regresji jest także definitywnie różny od zera. Spójrzmy jeszcze raz na ten rezultat, tym razem obliczając wartość statystyki Studenta (7.60): £1
(A, — a) = —6,62, Syyl=—r x
=
— 2
A
gdzie za domniemaną wartość współczynnika regresji a, podstawiliśmy wartość zero. Ponieważ
dysponujemy
olbrzymią liczbą stopni swobody:
384, więc uza-
sadnione będzie zastosowanie rozkładu granicznego dla rozkładu Studenta, czyli rozkładu Gaussa, który w tym przypadku określony jest zerową wartością oczekiwaną i (praktycznie) jednostkową wariancją. Jeszcze raz widzimy, że otrzymany współczynnik regresji jest różny od zera na poziomie więcej niż sześciu dyspersji. Zwróćmy jednak uwagę na fakt, że powyższa analiza nie wnosi nic nowego .
100 y
.
.
.
.
, .
e
e
,
.
..
..,
.,
ć
.
|
+
.
. *
..
=
e Po
.,*
e
*
*
„
|
*
h
.”
"
*
.*
a
.-
H
%
..
..*
* te .
«e
.
4%
«
...
e
.
...
+
x *
0100 „** "e.
.
*
.
„
©
.
.
.
.
ÓM
2* 200 ©
..„*.%.22 ,
*
. *
.
.
o
|e
.
.
.
"e.
*
.
*
4
th. m
0%,GE=
e
..
.
.,” .*
| %
e
*
„*
24 + eje ,
„4%
©
.
9%
0
.
20
e
.
Ez.
*
*
.
.. „ * „.” 4
-100 43%, .
.
„3 |
*
nJ
*
A
.,
...
d.
3
.
. .
.
*
.
—200
e
e
*
. LJ
.
*
—100 -
Rys. 7.19. Profil wiązki — rozkład punktów trafień cząstek w detektor i prosta regresji
w stosunku do tej, jaką przeprowadziliśmy w przykładzie 5.7.3. W przypadku gdy sprawdzana wartość a, = 0, wtedy i
=—-——0
=———
>> >2oL-
—
Z
co tłumaczy identyczność wartości statystyki Studenta w obu sytuacjach, jako że otrzymujemy dokładnie to samo wyrażenie, które w przykładzie 5.7.3 zastosowaliśmy do oceny istotności współczynnika korelacji Pearsona. r
7.4. Estymacja z ufnością
453
—— 74. Estymacja z ufnością Nasze dotychczasowe metody oceny wartości parametrów koncentrowały się na znalezieniu estymatora poszukiwanego parametru, a wszelką niepewność co do jego wartości
przedstawialiśmy za pomocą odchylenia standardowego. Taka procedura nosi w statystyce matematycznej nazwę estymacji punktowej. Dotychczas nie zastanawialiśmy się,
z wyjątkiem niektórych przykładów,
nad treścią probabilistyczną, jaką niosą ze sobą
znalezione estymatory. Ba, ambicją naszą, np. w rozdziale 4, było zbudowanie takich procedur, które w odniesieniu do momentów zmiennej losowej wręcz nie wymagałyby znajomości postaci rozkładu. Ten niedostatek zamierzamy teraz nadrobić. Jeśli znany
jest rozkład, z którego losujemy próbę, postępowanie estymacyjne można przeprowa-
dzić alternatywną metodą, która jest innym, bogatszym, językiem do wyrażenia tych
samych treści.
7.4.1. Metoda estymacji przedziałowej Niech będzie dany eksperyment, w którym znana liczba N cząstek padła na tarczę o zna-
nej grubości x i znanej liczbie n centrów rozpraszających na jednostkę objętości, dając w rezultacie k interesujących nas oddziaływań. Z przykładu 5.3.8 wiemy, że przekrój
czynny o na taki proces możemy wyrazić wzorem o
l - Nxn
k,
(wynik ten uzyskujemy, rozwijając funkcję wykładniczą do wyrazów liniowych w gru-
bości tarczy, co zazwyczaj jest wręcz doskonałą aproksymacją). Załóżmy także, że pozostałe wielkości występujące w wyrażeniu na przekrój czynny są znane absolutnie dokładnie, tym samym błąd na przekrój czynny będzie zdeterminowany przez niepewność obserwowanej liczby k oddziaływań, a ta podlega rozkładowi Poissona P,(u) z pewnym parametrem u. W celu wyostrzenia problemu przyjmijmy, że znaleziona liczba zdarzeń wynosi 3. Tak mała liczba przypadków prowadzi do dużej niepewności dla zmierzonego przekroju czynnego, który w tym przypadku będziemy znali z precyzją około 60%, jeśli utożsamimy obserwowaną liczbę k zdarzeń z parametrem ji rozkładu Poissona. Świadomi
jesteśmy faktu niedoskonałości takiej operacji, jako że łatwo sobie wyobrażamy, iż przy
tak małej liczbie obserwowanych przypadków fluktuacje tej liczby są istotne. Innymi słowy, jeśli przeprowadzimy następny eksperyment, zachowując warunki pierwszego, możemy łatwo zaobserwować np. jedno lub pięć interesujących nas oddziaływań. Wydaje się nam, że jeśli nawet obserwacja sześciu bądź nawet ośmiu zdarzeń jest możliwa, to już trudniej nam uwierzyć, że znajdziemy np. dziesięć, a tym bardziej piętnaście takich zdarzeń. Naszym zadaniem jest określenie praktycznego zakresu wartości rezultatów, a stąd wiarygodnego zakresu wartości parametru „e rozkładu. Minimalna i maksymalna
wartość skojarzona z przedziałem, który pomieści oceniany z próby parametr, zwane są granicami ufności, a sam przedział zwiemy przedziałem ufności, natomiast procedura
454
7. Estymacja parametryczna
dochodzenia do tych wartości określana jest mianem estymacji przedziałowej. Ilustracje takiego postępowania podane były w przykładach 5.2.2, 5.3.2 oraz 5.4.4 dla szczególnej sytuacji, kiedy wynik przeprowadzanego przez nas doświadczenia był negatywny. Dotknęliśmy również tego zagadnienia w przykładzie 5.2.3, gdzie eksperyment „coŚ”
dostarczył. Skoncentrujmy się na przykładzie z rozkładem Poissona 1 zastanówmy się nad zna-
czeniem frazy o „wiarogodnym” zasięgu wartości parametru /4. Jeśli wartość tego parametru wynosi „4 = 5, to na ile wielkość k = 3 lub mniejsza jest możliwa? Prawdopodobieństwo
P(k < 3; i = 5) takiego zdarzenia to
l
0
P(k 43 >pP-,N= 100) p
=
3 (+) Zk
p — (l
"
p P- )"9* ==V,0,025
,
znajdujemy, że p_ = 0,332 oraz p, — 0, 533. Przedział ten, jak należało oczeki-
wać, zawiera w sobie wartość p = 0, 5, a więc nie preferującą żadnego z kierunków obrotu wiru. n
(—
Przykład 7.4.2 Przedział ufności — czas życia
Popatrzmy również na przykład 5.3.2, przyjmując, że nasz eksperyment poszukujący rozpadu protonu znalazł jeden przypadek o czasie życia t. Nasze równania (7.61) do rozwiązania tym razem to P(ft £t;T,)=—
1
T+
t J exp (->)
T4
dt = 0,025,
459
7.4. Estymacja z ufnością
skąd
£
=——-_———-
Te
oraz
7 1n(d — 0,025) !
00
2 39 St, „
P(t>t;T_)=— J exp (--) T. T_
dt = 0,025,
T=—————0,2ft. In 0,025
Ponownie zauważmy gigantyczną szerokość znalezionego przedziału. Wspomnieliśmy już o tym w podrozdziale 5.3.2, mówiąc, że rozkład wykładniczy charak-
teryzuje się dużymi fluktuacjami. Ponieważ dla tego przykładu mamy analityczną postać rozwiązań na granice przedziału ufności, możemy pokusić się o znalezienie
minimalnego przedziału ufności (7.62). W tym celu musimy znaleźć taką wartość f, aby różnica
+=! była minimalna lub stosunek
(wa
1
— fa)
1
ln(l — 5)
T_
in(l — fa)
zr,
ln((l — f)a) | 0,010
1200 p
1000 p
| 0,009
|
| 0,008
|
-
l
5R
"O
-
_
|
stosunek
ł
gg
| I
6007,
400
!
— 0
00
01
0,2
m naa--____
L
l
03
04
05
06
=
| 0,005
5O
| 0,004
|
|
0,002
|
-| 0,001
| 0,003
|
200 |
2
| I
_
| 0006
—
a=
07
08
09
Z
7
0,000
1,0
parametr f
Rys. 7.23. Zależność stosunku i różnicy krańców przedziału ufności od parametru f
był najbliższy jedności. Na rysunku 7.23 przedstawione są obie te wielkości dla przypadku, gdy « = 0,05. Stosunek zbliża się najbardziej do jedności dla f = 0,84, przy której to wartości granice przedziału ufności znajdujemy jako T_ =
0,2: oraz tr, = 23,3r. Różnica osiąga minimalną wartość dła f = 1 i dostarcza rozwiązań T. = 0 oraz r, = 19,5t, co jest niewątpliwym ulepszeniem, choć niezwykle problematycznym: dolna wartość granicy ufności dopuszcza zerowy r czas życia, co nie ma fizycznego sensu.
460
7. Estymacja parametryczna
Wyniki ostatniego przykładu łatwo poddają się pewnemu przekształceniu, którego wynik, będąc wygodnym skrótem myślowym, kolosalnie gmatwa zrozumienie sensu przedziałów ufności. Równania na dolną i górną granicę przedziału ufności, w wersji centralnej (7.61), są w istocie równaniami na kwantyle rzędu 0,025 oraz 0,975 dla rozkładu wykładniczego:
to,025 = —T ln 0,975 = 0,0253T,
to.915 = —T ln 0,025 = 3,6897,
co wyrażamy jako stwierdzenie o prawdopodobieństwie rejestracji zmiennej losowej t: P(0,0253T < t < 3,6891) = 0,95. Możemy, rozwiązując podwójną nierówność nik przepisać w postaci P(0,0253T
1
2
0,001
0,001
2,6
Suma
2612
1,000
1,000
2612,0
zmiennej losowej k, obejmującej wartości od zera do jedenastu, wynoszą k
P = P,(1) = pie"
k=0,1,2,...,11,
natomiast dla ostatniej klasy, trzynastej, prawdopodobieństwo to przyjmuje postać 00
— 12;n)=e u 2
—_
.
Ph = P(k>
n—
A
k
ki
11
—
7 l-=e
_
_ HL 2
k —
ki
Wyrażenia te budują logarytm funkcji wiarogodności 11 In £ (u)
=
)
k=0
u m
In (e”)
+ nią ln (
—e*
11
u*
3
3
k=0
,
który maksymalizujemy numerycznie, otrzymując ji = 3,88, w wyśmienitej zgodności
z rezułtatem uzyskanym w podrozdziale 5.4.2, gdzie obliczyliśmy po prostu Średnią arytmetyczną. Dysponując estymatą parametru rozkładu, możemy obliczyć estymaty ph
prawdopodobieństw P, przedstawione właśnie w czwartej kolumnie tabeli 8.1, a w piątej
mamy estymaty Np, spodziewanych krotności NP,. Do testu hipotezy potrzebujemy jeszcze statystyki testowej.
Ponieważ mamy do czynienia z rozkładem eksperymentalnym, a więc nie mamy przewidywania na liczbową wartość N sumy wielkości n,, dlatego musimy narzucić na
8.2. Test zgodności
489
model normalizację zadaną doświadczeniem. Rozkład zmiennych losowych ną między
poszczególne klasy, przy zadanych prawdopodobieństwach P; trafienia do danej klasy, określony jest rozkładem wielomianowym (5.27) W,
==
Wynn.
n„
Py,
(N,
Pi,
N!
=
P
Pą,...,
"TI
r
ś
SLEŁE
LET
[[7.
ny! k=0
k=0
k=0
(8.1)
Do wszystkich funkcji silnia zastosujemy przybliżenie Stirlinga (5.5) I
N!'=xy2nN" "ze", oraz m
L
k=0
k=0
[ [re! *
nit
KZT
e" = (J2n)
n+l
-
e" | [m
ny+2
k=0
2,
skąd
W, =
1
(
/
2x)
[I
p
Pi: nat;
nę
k=0
R
*
U
DT
(42 n) | [I Nh
Ji (w
N P,
)
z
(8.2)
Wartość oczekiwana każdej ze zmiennych losowych ną wynosi NP%, a wariancja określona jest przez NP,(1 — P,) = NP, toteż, dla dalszej wygody, wprowadzimy związek łączący obserwowane wartości n, z wartościami oczekiwanymi ny
=
N P,
+
Bk,
(8.3)
gdzie wielkości 8,, z warunku ustalonej sumy ny, spełniają związek
3,8 =0.
(8.4)
k=0
Podstawiając (8.3) do (8.2), otrzymujemy W,
/N
1
We) LR ho
(1 BO)
h
NPi+Br+Z
k
Zajmiemy się teraz wyrażeniem
[(+yz) Ł-0 N PX n
NP,+Bk+"3
(8.5)
w którym oczekujemy, że
| w stosunku do NP; w pierwszym czynniku. Podstawiając, znajdujemy
l
n
Br
l
Npę+Bk+3
=
(F(+;% k=0
n
1
—
B;
(TZN) k=0
—_
1
n
BŹ
224NB
|
k=0
ponieważ suma wielkości 8; znika na mocy (8.4). W następnym kroku, po wyeliminowaniu wielkości B; za pomocą związku (8.3), otrzymujemy
n [(+) Ł=0 NP
NPx+Br+3 2
l n Są). — NP 2 tap(Z 2% NP,
Tym samym asymptotyczna postać rozkładu wielomianowego przedstawia się jako n
YNN
PR
(w 2n)
[l
exp (-3 1IĘ< 3 4 NP,
2 —
U
— NP)? k) ) . NP;
k=0
Jak widzimy, przybliżenie to ma postać zbliżoną do (n + 1)-wymiarowego rozkładu Gaussa, a wielkość R =
—_
(nę — NP)”
> ————+,,, NE,
(8.7) 8.7
wprowadzona przez K. Pearsona jeszcze w 1900 roku, odgrywa rolę statystyki x*: jest to suma kwadratów standaryzowanych zmiennych, każda określająca odchylenie wielkości losowej ną od wartości oczekiwanej NP, i podzielona przez wielkość +/N P, o charak-
terze dyspersji wielkości losowej.
Wielkość Ńt określona związkiem (8.7) ma istotnie własność zmiennej x? z dokładnością do dokonanych przez nas przybliżeń, tzn. liczby ną przypadków muszą być
na tyle duże, aby sprawiedliwe było przybliżenie Stirlinga dla ich funkcji silnia i dla całkowitej liczby N przypadków oraz by słuszna była relacja (8.6). Jak wiemy z pod-
rozdziału 5.1, dwa pierwsze warunki
są łatwe do spełnienia, gdyż przybliżenie Stir-
linga pracuje wyśmienicie nawet dla małych wartości argumentu funkcji silnia. Trudniej przedstawia się kwestia związku (8.6), warunkującego poprawność rozwinięcia funkcji logarytm. Sytuację komplikuje fakt zastosowania metody największej wiarogodności do estymacji nieznanych parametrów rozkładu i wykorzystania tych estymat do obliczenia
8.2. Test zgodności
491
wielkości py, których w praktyce używamy zamiast wielkości P, w związku (8.7). Jak wiemy, metoda ta dostarcza estymatorów, które są tylko asymptotycznie nieobciążone
i dlatego nie możemy oczekiwać, że związek (nę) = NP, będzie spełniony ściśle, a jedynie asymptotycznie. Statystycy poświęcili wiele wysiłku badaniom szybkości, z jaką
wielkość R nabiera cech zmiennej losowej rozkładu granicznego, czyli rozkładu 4”. Zwyczajowo przyjmuje się propozycję samego K. Pearsona, aby wielkości ną wynosiły
przynajmniej 5, a jeśli liczba składników w (8.7) nie jest mała (większa niż kilka) to może się pojawić pojedyncza wielkość nę nawet mniejsza od tej wartości. Dodatkowo,
zaleca się taki sposób grupowania danych, aby ich liczba w każdej z klas była zbliżona. Musimy jeszcze określić liczbę stopni swobody uzyskanej statystyki. Jeśli wielkości prawdopodobieństw
P, są znane, czyli wtedy, gdy hipoteza jest w pełni określona
przez podanie postaci rozkładu i nie musimy wydobywać estymat parametrów rozkładu z próbki, to natychmiast zauważamy, że statystyka JR asymptotycznie charakteryzuje się liczbą stopni swobody o jeden mniejszą od liczby składników w sumie (8.7). Wynika to z faktu, że na wielkości n, narzucony jest warunek więzów, wymagający, aby suma tych wielkości była równa N, co czyni je matematycznie zależnymi. Istotnie, rozkład wielomianowy zapisany w symetrycznej formie (8.1) charakteryzuje się macierzą kowariancji
N Pę(1 — Po) —N P,Po V
(n)
—
—N PoP) NP,L—P,)
.
... :::
.
—N P,„ Po
—N PoP, —NP,P,
.
—NP,„P,
.
-:
,
(8.8)
NP,(l— P,)
która jest osobliwa, o czym łatwo się przekonujemy, dodając wszystkie kolumny do ostatniej. Dlatego odchodząc od symetrycznej postaci, odrzucimy ostatnią zmienną n,, czyniąc pozostałe matematycznie niezależnymi, co jednocześnie oznacza wyrugowanie ostatniej kolumny i ostatniego wiersza z macierzy kowariancji i prowadzi do macierzy V (patrz (5.34)). Bezpośrednim rachunkiem sprawdzamy, że macierz
1 4 Po
,
1
P,
V-! (n) = —
N
LL
1
1
P,
l
P,
1 P,
1
]
.
.
i
i
P,
P,
=
P,
P,
P,
-
.
.
1
I N
Ts
|omo P
P,
1
Pn_i
P,
jest odwrotna do macierzy V (8.8) „odartej” z ostatniej kolumny 1 ostatniego wiersza. Wykładnik wyrażenia aproksymującego gaussowsko rozkład wielomianowy ma tym samym postać
8
(n-NP)'V'!(n-NP)=
1
5-1
M
3
Śóm
(n, — NP) (5
k,m=0
—
m
(nę —
NP)” P
k=0
1
+ 5) (n, — NP)
NP
,
492
8. Weryfikacja hipotez
w zgodzie z (8.7). Tę własność dotyczącą liczby stopni swobody łatwo możemy sprawdzić, obliczając wartość oczekiwaną wielkości R:
E[R]I=> [R]
nh
l
nh
—€E|n-NP)/|=> NB [m — NP,)?]
l
——NPAU-P)=)> NB | - P,) = >
(1—P,)=n.
Wynik uzyskaliśmy, wykorzystując wyrażenie (5.29) na wariancje zmiennych z rozkładu wielomianowego. Zauważmy, że liczba składników w sumie wynosi n + 1, a wartość oczekiwana jest o jeden mniejsza od tej liczby. W podobny, choć nieco bardziej skomplikowany, sposób można obliczyć wariancję wielkości ŚR: YB
=204
która asymptotycznie, dla N > stopniach swobody.
1
(Z
[+1
-l0+07
2).
oo, zbiega do wariancji zmiennej z rozkładu xX* on
Rozważmy teraz modyfikacje, jakie musimy wprowadzić, jeśli hipotetyczny rozkład jest wyrażony przez m parametrów 6,, których nie znamy. Jeśli do ich oceny wykorzystamy funkcję największej wiarogodności w postaci (patrz przykład 7.2.11) In £ (6) = 3
n, ln P, (6) + const,
k=l
to warunek na estymatory Pa
z M £(6) =
om
rozkładu P G
_P. (6) =0.
06,
i=1L2,...,m,
jest w istocie dodatkowym układem m liniowych równań więzów łączących liczby n, przypadków w przedziałach histogramu. Oznacza to, że w macierzy (8.8) już nie wystarcza odrzucenie jednej kolumny i jednego wiersza, ale musimy odrzucić dodatkowo m takich wierszy i kolumn, aby przestała ona być osobliwa. Prowadzi to do dalszego zmniejszenia liczby stopni swobody o liczbę m nieznanych parametrów.
Oznacza to, że w naszym przypadku, dysponując liczbą trzynastu klas i wyznaczając jeden parametr rozkładu, otrzymamy 11 stopni swobody. Dla wielkości R znajdujemy:
Ńmin = 10,8. Jeśli przyjmiemy, że poziom zgodności testu wynosi 0,05, to wartość krytyczną dla rozkładu x* o jedenastu stopniach swobody znajdziemy jako 19,7, a więc
większą niż uzyskana przez nas wartość Mty;„. Zmusza nas to do stwierdzenia, że nie
mamy
statystycznych podstaw do odrzucenia hipotezy o poissonowskim rozkładzie ob-
serwowanych przez Rutherforda i Geigera liczb rozpadów. Opisaną tu procedurę nazywamy testem x* zgodności Pearsona. Określony jest on następującą, roboczą receptą: e zgrupuj dane doświadczalne o liczebności N w n rozłącznych klasach, tak aby w każdej klasie liczba ny, k=1,2,3,...,n przypadków była nie mniejsza niż 5, a liczby przypadków w klasach były zrównoważone, e zdefiniuj hipotezę, podając domniemaną postać rozkładu,
8.2. Test zgodności
493
e określ poziom zgodności testu,
e jeśli zdecydujesz się na ocenę parametrów rozkładu z próbki, zrób to metodą funkcji wiarogodności dla danych zgrupowanych, maksymalizując wyrażenie: n
nl
=
ny ln P, (0,,6,...,
6),
M
+bx+c (© — 30.9) , Dane doświadczalne przedstawione na histogramie z rys. 8.3 to właśnie unormowana do jedności gęstość rozkładu, gdzie w każdym przedziale naniesiony jest stosunek liczby
przypadków w tej klasie do całkowitej liczby przypadków, podzielony przez szerokość
przedziału histogramowania. Dane te pochodzą z tabeli 8.2, gdzie pierwsza kolumna to klasa, czyli przedział histogramu, druga — to liczba przypadków w danej klasie, trzecia — doświadczalna częstość, a czwarta — to doświadczalna gęstość, czyli szary histogram na wykresie. W piątej kolumnie umieszczona została ocena p, teoretycznego prawdopodobieństwa P, — czyli częstość rejestrowania przypadku w danej klasie — obliczona przy wartościach parametrów b oraz c określonych metodą największej wiarogodności
494
8. Weryfikacja hipotez
1,2 1,0 0,8 0,6 0,4 0,2
—0,9
—0,6
—0,3
0
0,3
0,6
0,9
cos U
Rys. 8.3. Rozkład kątowy leptonów w rozpadzie bozonu Z
Tabela 8.2. Rozkład kątowy w rozpadzie bozonu Z
(—0,9)-(—0,6)
7
0,2121
0,7071
0,2131
7,0
(—0,6)-(—0,3)
4
0,1212
0,4040
0,1416
4,7
(—0,3)-0
5
0,1515
0,5051
0,1098
3,6
0-0,3
3
0,0909
0,3030
0,1177
3,9
0,3-0,6
5
0,1515
0,5051
0,1652
5,5
0,6-0,9
9
0,2728
0,9091
0,2526
8,3
Suma
33
1,0000
3,3334
1,0000
33,0
dla zgrupowanych danych, czego zaraz dokonamy, i w końcu szósta kolumna — to ocena oczekiwanej liczby przypadków w danej klasie.
Musimy teraz określić dwa nieznane parametry rozkładu. Potrzebne będą nam do tego prawdopodobieństwa P,: x +A
p, = J f(x; b,c)dx, gdzie k = 0,1,2,...,5,
jak poprzednio:
xg = —0,9 oraz A = 0,3. Funkcję wiarogodności zbudujemy 5
5
k=0
=(0
nC=ln|[P"*=)_ nlnP,,
8.2. Test zgodności
495
a maksymalizując ją znajdujemy, że b £ 0,087, natomiast ć Z 0,734. Mając te wyniki,
możemy wykreślić rozkład teoretyczny (linia paraboliczna na wykresie), a także obliczyć wartość statystyki testowej Atys, == 0,91. Wartość krytyczna zmiennej x? dla poziomu
zgodności 0,05 przy trzech stopniach swobody (sześć klas danych doświadczalnych minus dwa oceniane parametry minus jedność) wynosi 7,81, co oznacza, że nie mamy podstaw statystycznych do odrzucenia hipotezy o jednostkowym spinie bozonu Z.
Sytuacja nie jest jednak tak prosta. Można postawić przecież „szaloną”, bo nie popartą żadnym modelem, hipotezę o zerowym spinie tego nośnika sił. Obliczenia są
bardzo proste, bo rozkład wtedy powinien być jednostajny na poziomie 5/9 (daje to normalizacja do jedności na przedziale od —0,9 do 0,9) co w pełni określa hipotezę. Jako wartość statystyki Pearsona otrzymujemy ) = 4,27 przy wartości krytycznej 11,07 dla pięciu stopni swobody. Tak więc i tej hipotezy nie możemy odrzucić na podstawie posiadanych danych doświadczalnych. W kwestii ostatniego przykładu autor jest winien Czytelnikowi wyjaśnienie. Przedstawione dane doświadczalne pochodzą z bardzo wczesnego etapu badań własności bozonu Z, kiedy to ilość danych doświadczalnych zebranych na temat tej cząstki była bardzo skromna. Obecnie dane te są na tyle bogate, że nie pozostawiają najmniejszej wątpliwości co do wektorowego charakteru bozonu Z. Intencją autora było nie tyle wzbudzenie w Czytelniku niepewności co do własności tej cząstki, ile uświadomienie mu, że jakość danych jest zawsze kluczem do rozstrzygnięcia hipotezy. Jest jeszcze i drugi aspekt zagadnienia. O ile w 1987 roku istotą analizy było pytanie o spin cząstki, o tyle dziś możemy rozważyć inny problem. Jeśli nie dysponujemy silnym argumentem teoretycznym, przemawiającym
za jedną z hipotez, to którą z nich mamy
wybrać?
Czy
możemy do procesu podejmowania decyzji wprząc kryterium estetyczne, np. prostoty hipotezy? W odniesieniu do testu x* dla zmiennej ciągłej, naturalne jest postawienie pytania o celowość wywodu estymat parametrów rozkładu z „wielomianowej” postaci funkcji wiarogodności dla danych zgrupowanych w n klas, skoro często dysponujemy indywidualnymi pomiarami. Grupowanie danych prowadzi niechybnie do utraty informacji
1 zapewne otrzymalibyśmy efektywniejszą i precyzyjniejszą ocenę parametrów, stosując pełną funkcję wiarogodności. Okazuje się, że takie podejście prowadzi do częściowego odzyskania stopni swobody, a rozkład resztkowej sumy kwadratów opisany jest przez rozkład x? o pośredniej liczbie Oszacowanie efektywnej liczby problemu, jaki rozwiązujemy. rogodności „w pełnej krasie”,
stopni swobody, zawartej między n — m — 1 oraz n — 1. stopni swobody nie jest zadaniem trywialnym i zależy od Dlatego, jeśli wykorzystujemy metodę największej wiawartość statystyki testowej powinniśmy skonfrontować
z wartościami krytycznymi wynikającymi z obu rozkładów X*.
Zza
ZEK)
Ó
7
O
R
ŻA
ZO?ZZ © ZŁ
GG AKRANY,
Obliczenia arytmetyczne widnieją tam dlatego, że za pomocą tej sztuki, dowodzącej prawdziwości rzeczy, kalkuluje się racje rozumowe.
Stopień racjonalnego zaufania
—— 9.1. Prawdopodobieństwo i statystyka W podrozdziale 2.2 podaliśmy, sformułowaną przez A. N. Kołmogorowa, aksjomatykę teorii prawdopodobieństwa. Wskazaliśmy tam również, że sformalizowana teoria nie odpowiada na pytanie, jak określać prawdopodobieństwo — ten aspekt wychodzi poza jej ramy — a przecież jest on kluczowy w każdym praktycznym przypadku. Podobnie, teoria prawdopodobieństwa nie zajmuje się określaniem zbioru zdarzeń elementarnych. Po to, by stosować reguły rachunku prawdopodobieństwa, musimy najpierw zbiór ten, w kazdym konkretnym zagadnieniu, zadać, a także znaleźć pierwotne, „wejściowe” wartości prawdopodobieństw jego elementów. To, jak tego dokonać, jest kwestią określonego przepisu operacyjnego, czyli definicji. W podrozdziale 2.1 podaliśmy definicję częstoŚciową zdarzenia A, zadaną wyrażeniem P(A) = lm
gdzie wielkość m(n)
P,(A) = lim
n>o.
m(n) , /h
(9.1)
to liczba zdarzeń obdarzonych badaną cechą A, jaka pojawiła
się wśród wszystkich zdarzeń n. Ponadto, w podrozdziale 2.2, określiliśmy prawdopo-
dobieństwo geometryczne jako stosunek miar zbiorów, natomiast prawdopodobieństwo kombinatoryczne, właściwe dla sytuacji, w której występuje skończona liczba możliwych
rezultatów eksperymentu, dyskutowaliśmy w podrozdziale 5.1. Wszystkie te definicje do-
czekały się w dziejach rozwoju rachunku prawdopodobieństwa bardzo poważnej krytyki, którą teraz postaramy się pokrótce zrelacjonować. Zaczniemy od definicji kombinatorycznej, związanej z nazwiskami J. Bernoulliego
(Ars Conjectandi, 1713), A. de Moivre'a (Doctrine of Chances, 1738) i P. S. Laplace a
(Thćorie Analytique des Probabilitćs, 1812). W klasycznym sformułowaniu Laplace'a brzmi ona (w wolnym tłumaczeniu) następująco: prawdopodobieństwo zdarzenia jest
zadane stosunkiem liczby m zdarzeń sprzyjających temu zdarzeniu do liczby n wszystkich możliwych zdarzeń, w sytuacji gdy nie mamy podstaw do podejrzeń, że niektóre z tych zdarzeń powinny pojawiać się częściej niż inne, co czyni je równie możliwymi. Okre-
498
9, Stopień racjonalnego zaufania
ślenie odnosi się implicite do sytuacji, w której całkowita liczba zdarzeń jest skończona, a definicja (9.1) jest dość oczywistym
uogólnieniem. Problem z definicją Laplace'a polega na tym, że ona niczego nie definiuje, gdyż jest tautologią: w jej treści występuje pojęcie równych możliwości, które jest synonimem frazy równe prawdopodobieństwa. Abyśmy mogli tej definicji użyć,
ktoś musi nam zdefiniować to ostatnie pojęcie, czego, jak na ra-
zie, nikomu się nie udało (przynajmniej w ramach klasycznego podejścia), gdyż nie jest oczywiste, jak tego dokonać. Niech jako ostrzeżenie posłużą historyczne przykłady. Włoski matematyk G. Cardano, żyjący w XVI w., był pierwszym, który Geronimo Cardano,
w swej książce Liber de Ludo Aleae, dyskutując matematyczne
1501-1576
kwestie hazardu, uważał, że przy jednoczesnym rzucie dwóch
kostek do gry mamy 36 elementarnych możliwych par, a nie 21 (patrz przykład 5.1.6). Jeśli rzucimy jedną monetą dwa razy, to łączna liczba orłów
w tych rzutach może wynosić 0, 1 lub 2. Jeszcze w XVIII wieku francuski matematyk J. dAlembert utrzymywał, że te trzy możliwości stanowią zbiór zdarzeń elementarnych, a każda z tych możliwości powinna być traktowana równoprawnie, a więc prawdopodobieństwo każdej z nich wynosi 1/3.
Określenie kombinatoryczne prawdopodobieństwa ma jeszcze jeden ciekawy aspekt. Niech będą dane dwie urny: w jednej umieszczono jedną kułę czarną i jedną kulę białą, natomiast w drugiej trzy kule czarne i jedną białą. Jakie jest prawdopodobieństwo, że wybierając z dowolnej urny dowolną kulę, wylosujemy kulę białą? Niech U, zdarzeniem polegającym na wyborze urny pierwszej, z dwiema kulami, P(U,) prawdopodobieństwem wyboru tej urny, natomiast U> to zdarzenie polegające na rze urny drugiej, a P(U>) to prawdopodobieństwo wyboru tej urny. Przyjmiemy,
będzie będzie wyboże oba
prawdopodobieństwa są sobie równe i wynoszą 1/2 każde. Niech P(B) będzie prawdopodobieństwem pojawienia się zdarzenia B, czyli wylosowania białej kuli. Z, faktu, że zdarzenia U, i U; są rozłączne i wyczerpują wszystkie możliwości, otrzymujemy P(B) = P(BN(U,
UU;)) = P((BNU,)U(BNU)
=P(BNU,)
+ PBNU;),
a z definicji (2.14) prawdopodobieństwa warunkowego znajdujemy
P(B) = PBUWYPU) + POBIUJPW) = 3-z+5-3=. Jest interesujące, że wyniku
tego, w żadnym
wypadku,
nie da się wytłumaczyć,
odwołując się do stosunku liczby zdarzeń sprzyjających do wszystkich zdarzeń (stosunku liczby wszystkich białych kul do liczby wszystkich kul w urnach). Tego typu spostrzeżenia doprowadziły jednego
z twórców
współczesnej
teorii prawdopodobień-
stwa do stwierdzenia, że Ci, którzy nauczają tej definicji, nigdy jej sami nie praktykują
(H. Jeffreys, Theory of Probability, Oxford University Press 1961). Podobne, fundamentalne trudności, związane z jej tautologicznym charakterem przypadły w udziale także definicji geometrycznej, która a priori przypisuje równe prawdo-
9.1. Prawdopodobieństwo i statystyka
499
podobieństwa wszystkim punktom leżącym wewnątrz odcinka pro-
stej, figury na płaszczyźnie czy też objętości bryły w przestrzeni. Ponieważ liczba punktów nawet w najmniejszym takim obiekcie geometrycznym jest nieskończona,
więc
aby uniknąć
trudności
związanych z obliczaniem stosunku dwóch nieskończonych liczb, zamiast tego stosunku brany jest stosunek miar obiektów geometrycznych. Zarzut, jaki niekiedy jest podnoszony w tym kontek-
ście, to arbitralny wybór tej miary. Jeśli ograniczymy się do osi
rzeczywistej, to miarą dowolnego zbioru zadanego przez odcinek na tej osi jest dowolna, dodatnia i monotoniczna funkcja np. różnicy krańców
tego zbioru. Klasyczna definicja wybiera spośród
nieskończonej liczby możliwych miar jedną i czyni to bez uzasadnienia, z wyjątkiem być może tego, że ta specyficzna miara
Sir Harald Jeffreys, 1891-1989
nie stoi w sprzeczności z postulatami teorii prawdopodobieństwa. Ale nawet i ta jedyna miara przestaje odgrywać jakąkolwiek rolę w sytuacji, gdy przyj-
muje ona wartości nieskończone, tzn. wtedy, gdy mamy do czynienia z np. całą osią rzeczywistą. Nieco inaczej przedstawia się kwestia określenia prawdopodobieństwa za pomocą
wyrażenia (9.1). Nie mamy tu już trudności z tautologią, ale w zamian za to pojawia się granica nieskończonego ciągu. Powoduje to, że nawet jeśli definicja ma jakiś sens, do dyskusji czego przejdziemy za chwilę, to jej znaczenie operacyjne jest żadne. Nikt nigdy
nie znalazł prawdopodobieństwa za pomocą tej definicji, ani nikt nigdy w przyszłości
go nie określi, ponieważ nie możemy wykonać nieskończonej liczby doświadczeń, aby wymaganą granicę obliczyć. Definicja ta może co najwyżej posłużyć do oceny poszu-
kiwanego prawdopodobieństwa, ale tylko z pewną precyzją. Przypomnijmy nierówność Czebyszewa (3.7)
P (x
wl
PZ
2 6) £ G. €
W skończonej liczbie n prób i przy liczbie m sukcesów estymator parametru p prawdopodobieństwa sukcesu w pojedynczej próbie zadany jest wyrażeniem (5.18) „ m P=—, n a jego wariancja wynosi (patrz (5.17))
|_PAd—p)
[5]=——
Y|pl=>——. Jeśli podstawimy ten wynik do nierówności Czebyszewa, to otrzymamy m n
) < Ipd-p) €
n
Prawdopodobieństwo, że estymata będzie różniła się od wartości parametru p o wartość większą niż dowolnie mała liczba e, dąży do zera dla wzrastającej liczby prób:
P(=-»p n
> e) < „PP n
—
n—>0o
0
(9.2)
9. Stopień racjonałnego zaufania
parametr p
500
100 p 0,90 | 0,80 | 0,70 | 0,60 0,50 0,40 0,30 | 0,20 0,10 0,00
O
i
0
100
EO
l
200
l
300
k
400
l
i
500 600 numer próby
l
l
700
i
800
J
900
1000
Rys. 9.1. Symulacja tysiąca rzutów monetą i prawdopodobieństwo uzyskania reszki
Związek
ten zilustrowany jest na rys. 9.1, gdzie przedstawiony jest badany
stosunek
m/n, znaleziony w tysiącu prób Bernoulliego, każda z prawdopodobieństwem sukcesu p = 0,5, uzyskanych metodą symulacji Monte Carlo.
Wynik (9.2), na mocy lokalnego twierdzenia de Moivre—Laplace'a (5.26) z podroz-
działu 5.2.3, możemy zapisać w bardzo konkretnej postaci, jako
5 (0-7 f
np+en
m=np—en
m
|
yz;
[PA
=
_Ż „P
2
dz
—
h>>00
1 (9.3)
gdzie z = m/n. Uzyskany rezultat nazywa się całkowym twierdzeniem de Moivre— Laplace'a i należy do grupy twierdzeń określanych mianem praw wielkich liczb —
w tym przypadku jest to tzw. Bernoulliego prawo wielkich liczb. Prawo to daje nam 100% gwarancji, że estymata będzie równa parametrowi p, ale dopiero przy nieskończonej liczbie prób. Jeśli liczba ta jest skończona, mamy niezerową szansę na to, że
estymata będzie jednak różna. Mówimy, że wielkość m/n zbiega do parametru p, ale w sensie prawdopodobieństwa, a nie w sensie Cauchy ego, jaki jest wymagany w analizie matematycznej, abyśmy mogli mówić w sensowny sposób o granicy ciągu. Można
nawet pokazać (H. Jeffreys, ibid.), że granica taka nie istnieje, jeśli chcemy zachować losowość i niezależność w kolejnych próbach, których celem jest określenie prawdopo-
dobieństwa na mocy definicji (9.1). Rozważmy w tym celu pięć nieskończonych ciągów
obrazujących rzuty monetą, w których uzyskanie orła zaznaczyliśmy jedynką, a reszki zerem: a) 100110010100100111010.. b) 100100100100100100100... , c) O000000000000000000000... , d) 1111111111111111I1II1... , e) 10110000111111110000000000... .
9.1. Prawdopodobieństwo i statystyka
501
Pierwszy z tych ciągów otrzymano, wykonując rzeczywisty eksperyment z rzucaniem
monetą. Wartość stosunku m/n wydaje się w nim rzeczywiście fluktuować wokół liczby 0,5. Pozostałe cztery ciągi są sfabrykowane. Granica drugiego wynosi 1/3, trzeciego 0,
czwartego
I, a piątego oscyluje w nieskończoność między
1/3 a 2/3 (ciąg ten został
zbudowany tak, że bloki zer i jedynek następują po sobie na przemian i liczba każdej z cyfr w bloku jest zadana liczbą wszystkich cyfr występujących wcześniej), czyli nie istnieje. Problem z przykładami (b)-(e) polega na tym, że są one absolutnie legalnymi przykładami losowych ciągów, jakkolwiek niewiarogodnie mogą one wyglądać, które poten-
cjalnie możemy otrzymać, rzucając monetą (a Czytelnik na pewno sam będzie potrafił „wyprodukować” wiele innych przykładów). Na mocy niezależności każdej z prób Ber-
noulliego oraz ich losowego wyniku nie istnieje funkcyjny związek między wyrazem
F, a wyrazem P,+, nieskończonego ciągu w definicji (9.1). Oznacza to, że nie jesteśmy w stanie podać dowolnej liczby e i takiego indeksu N, że dla wszystkich indeksów n
większych od wartości N kolejne wyrazy ciągu P„ będą się różniły od hipotetycznej granicy P o mniej niż owa wartość e. Tym samym granica ciągu P, nie istnieje. Wynik
ten stawia nas w bardzo delikatnej sytuacji: granica ciągu P, nie istnieje, a prawdopodobieństwo takiego zdarzenia, na mocy Bernoulliego prawa wielkich liczb (9.3), jest
równe zeru. Wyjaśnienie tego paradoksu leży w zacytowanych przez nas przykładach
ciągów (b)-(e), których pośród wszystkich nieskończonych ciągów jest nieskończenie razy mniej niż ciągów reprezentowanych przez ciąg (a).
Wszystkie trzy „definicje”: kombinatoryczna, geometryczna i przez granicę ciągu są bezużyteczne — one niczego nie definiują. Dwie pierwsze są w najlepszym przypadku
tautologią, a o tej trzeciej można powiedzieć (H. Cramer, Metody matematyczne w sta-
tystyce, PWN, Warszawa 1958), że jest tak samo przydatna jak matematyczna definicja
punktu geometrycznego, który uzyskamy wtedy, gdy będziemy go rysować na tablicy kredą o grubości dążącej do zera. Jakie w takim razie są podstawy całej wiedzy prezentowanej we wszystkich wcześniejszych rozdziałach tej książki? Czy mamy do czynienia z kolosalną, intelektualną mistyfikacją? Rozwiązanie trudności leży, w pewnym sensie, w odwróceniu zagadnienia: nie definiujmy prawdopodobieństwa przez częstości, ale je interpretujmy jako częstości. Potraktujmy „definicje” jako pewne hipotezy orzekające
o własnościach opisywanego zjawiska i zamiast je stosować, poddajmy je raczej weryfikacji przez eksperymentalne badanie. I tak się rzeczywiście dzieje. Przez prawie 100
lat historii rachunku prawdopodobieństwa wypracowane zostały, głównie przez K. Pearsona, E. Pearsona, J. Neymana i R. A. Fishera, a także wielu, wielu innych, w miarę standardowe narzędzia do realizacji takiego programu. Narzędzia te są wyodrębnione
w oddzielną dziedzinę wiedzy — statystykę matematyczną.
Ścisły związek między prawdopodobieństwem a częstością wycisnął głębokie piętno
na procedurach i narzędziach tej dziedziny wiedzy. Gdy przystępujemy do badania jakiegoś zjawiska i mamy określoną hipotezę co do jego natury, wówczas na mocy logiki arystotelesowskiej nasza hipoteza może być tylko prawdziwa bądź tylko fałszywa. Po-
miar dostarczy nam pewnych informacji, które nie przesądzą definitywnie o słuszności
hipotezy, gdyż zawsze, w ramach częstościowej interpretacji prawdopodobieństwa, będą
502
9. Stopień racjonalnego zaufania
skażone przez proces losowego ich wyboru. Rozstrzygnięcie takie mogłoby nastąpić jedynie w skrajnym przypadku nieskończonej liczby pomiarów. Ponieważ sytuacja taka jednak nigdy się nie zdarza, pytanie, jakie zadaje badacz, występujący w roli statystyka, brzmi: zakładając słuszność postulowanej hipotezy, jaka jest szansa, że dane, jakie uzyskamy w wyniku pomiaru, wskażą na jej słuszność? Odpowiedź na to pytanie wymaga
konstrukcji rozmaitych narzędzi, wśród których poczesne miejsce zajmują estymatory i statystyki testowe.
Chociaż niniejszy podręcznik pełen jest przykładów wykorzystania takich narzędzi,
rozważmy jeszcze parę uzupełniających przykładów. Zaczniemy od pojęcia estymatora
nieobciążonego. r——
Przykład 9.1.1
Estymator nieobciążony Załóżmy, że mierzymy liczbę cząstek promieniowania kosmicznego przechodzącego przez nasz detektor. Wiemy,
że łiczba ta opisana jest rozkładem Poissona
zadanym przez nieznany parametr j4, który chcemy ocenić z danych. Jeśli w zadanym przedziale czasu znajdziemy, że nasza aparatura zarejestrowała k takich zdarzeń, to wiemy, że najlepsza wartość estymaty parametru /4 zadana jest przez k: (i =k. Przypuśćmy, że zamiast estymatora parametru ji jesteśmy raczej zainte-
resowani estymatorem pewnej funkcji f (4) parametru. Jak znaleźć jej estymator? Jeśli zażyczymy sobie, aby nie był on obciążony, to powinien on spełniać następujące równanie (patrz definicja (3.1) wartości oczekiwanej) 0O
k
gk)=e")ReKW=fW k=0
>
PFW=D
00
k=0
k
st)
Rozwijając iloczyn e* f (u) w szereg Taylora, znajdujemy k
g(k) = 2A (e* f(1))
u=0
Z konstrukcji wynika także, że jest to jednoznaczny wybór. Znajdźmy wobec tego estymator kwadratu parametru rozkładu: f(u) = „e. Dokonując odpowiednich obliczeń, otrzymujemy _
f(4) = k(k — 1),
(wynik ten możemy łatwo otrzymać, jeśli przypomnimy sobie wyrażenia na wartość oczekiwaną (5.53) i wariancję (5.54) rozkładu Poissona). Podobnie, jedyny nieobciążony estymator dla trzeciej potęgi parametru: f (u) = pi, jest równy
f(v) = k(k — 1)(k — 2). W ogólności, dla f(4) = u”
k! f(u) = k(k— 1)(k — 2) ---(k—m+ 1) = ——.. (km)!
Jeśli interesuje nas trzecia potęga estymatora, a doświadczenie dostarczy nam jedną lub dwie cząstki, to estymator sugeruje nam, byśmy jako najlepszą ocenę
9.1. Prawdopodobieństwo i statystyka
503
parametru rozkładu przyjęli wartość zerową. A przecież, przy u = 0, prawdopo-
dobieństwo, że otrzymamy jakąkolwiek liczbę cząstek, wynosi dokładnie zero!
Do podobnej trudności i niekonsekwencji prowadzi nieobciążony estymator
(5.43) parametru intensywności A rozkładu wykładniczego.
Przy obserwacji po-
jedynczego przypadku rozpadu jądra lub cząstki elementarnej estymator ten podpowiada, że dla parametru A powinniśmy wybrać wartość zero, choć estymator parametru r mamy wybrać różny od zera! Innego rodzaju trudność napotykamy przy ocenie wartości oczekiwanej
kwadratu ciągłej zmiennej losowej. Łatwo sprawdzamy, że wielkość
(x)”
X — s2 jest poszukiwanym, niezależnym od rozkładu, nieobciążonym estymatorem
(© — sz) =() — ($) =VER]+ (R
- VP] = (X).
Estymator ten jest jednak ułomny. Może się zdarzyć, np. dla rozkładu Gaussa, że przyjmie on wartość ujemną — jeśli średnia jest bliska zeru, a sam pomiar jest
mierny i rozrzut między indywidualnymi wynikami pomiarów duży — mimo że
wielkość (x)”, którą ocenia, musi być dodatnia.
m
Spójrzmy teraz na jedną z najważniejszych metod uzyskiwania estymatorów, jaką jest metoda największej wiarogodności. r——
Przykład 9.1.2
Metoda największej wiarogodności — nieefektywny licznik Zastanówmy się, w jaki sposób moglibyśmy ocenić faktyczną liczbę cząstek wiązki
z akceleratora, ale także cząstek promieniowania kosmicznego lub też cząstek ze
źródła promieniotwórczego, w sytuacji, gdy dysponujemy nieefektywnym liczni-
kiem tego promieniowania. Załóżmy, że efektywność licznika, tzn. prawdopodo-
bieństwo p zarejestrowania przez niego cząstki, jest nam doskonale (bezbłędnie)
znane z wcześniejszych badań i dla wyostrzenia problemu przyjmijmy, że p = 0,1.
Z rozkładu dwumianowego wiemy, że jeśli na licznik skierujemy n cząstek, to licznik ten zarejestruje k = O, 1, 2,...,n cząstek, przy czym każda z możliwości wystąpi z prawdopodobieństwem B(n, p) = (;)p'a
—p)"*,
k=0,1,2,...,n.
Załóżmy także, że znana jest nam oczekiwana liczba u = 100, będąca parametrem rozkładu Poissona n
P,(u)
=
e”*,
n=0,1,2,...,
określającego rozkład liczby n cząstek, jakie faktycznie docierają do nas z ak-
celeratora w zadanym przedziale czasu. Jakie jest prawdopodobieństwo P,(p, m)
504
9, Stopień racjonalnego zaufania
zarejestrowania liczby k cząstek, niezależnie od tego, ile cząstek padło na licznik? Aby odpowiedzieć na to pytanie, musimy skonstruować łączny rozkład prawdopodobieństwa P, „(p, ji) zdarzenia polegającego na dotarciu do licznika dokładnie n cząstek, z których k zostanie zarejestrowanych. Rozkład ten zadany jest, z definicji
prawdopodobieństwa warunkowego (2.14), iloczynem Px„(P;
L)
—
B.(n,
p)
P, (4)
n=0,1,...,
=
n
(;)p'a
—
p)"
M
n!
ęu
(9.4)
k=0,1,...,n.
Aby uzyskać poszukiwaną odpowiedź, tj. obliczyć brzegowy rozkład P,(p, 4) —
patrz (2.24) — musimy wykonać sumowanie względem zmiennej losowej n:
- Pe"
DO
P(P,W) = ) ,P(P,M) =), BA n=k
.
n=k
_ (pw
_„SZlUd=p)"*
_ (PL) k!
udp) _ (pu) k!
w miP2
nk)!
(pw
="a
_„q>
"2
(ll — p))”
m!
"=P(PL).
Otrzymaliśmy ponownie rozkład Poissona, ale z parametrem określonym przez iloczyn pji, co oznacza, że typowo nasz licznik będzie rejestrował 10 cząstek. Wykonajmy teraz jeden pomiar i niech liczba k zarejestrowanych przez licznik cząstek wynosi 15. Jaka liczba cząstek faktycznie przeszła przez licznik? Mimo że znamy globalną charakterystykę j« pierwotnego strumienia cząstek, faktyczna
liczba cząstek może być dla nas ważna, gdyż zajmujemy się np. wyznaczaniem
przekroju czynnego. Jeśli zechcemy do tego zagadnienia zastosować metodę największej wiarogod-
ności, to funkcja wiarogodności dla takiego problemu zadana jest przez rozkład dwumianowy
L(k=15;n)
= B_s(n, p=0,1)
= max(n).
Stosowne obliczenia doprowadzają nas do wniosku, że
h = k = 150. p
(9.5)
Wynik ten, bez wątpienia, jest bez sensu. Jeśli oczekiwana liczba j4 cząstek przechodzących przez licznik wynosi 100, a dyspersja tej liczby wynosi 10, to jeste-
śmy świadkami niewiarogodnej fluktuacji statystycznej, która po prostu niemalże
nie ma prawa się zdarzyć. Możemy to wyrazić jeszcze inaczej. Fluktuacje liczby zarejestrowanych przez licznik cząstek wynoszą:
D[k] = /pu = 3,2 i przenoszą się, z niezwykłym wzmocnieniem, na fluktuacje pierwotnego strumienia » l 3,2
pi] = -D[k]z= p
0,1
= 32,
podczas gdy my wiemy, że w istocie wynoszą one 10.
(9.6)
9.1. Prawdopodobieństwo i statystyka
Jest rzeczą niezwykle niepokojącą, że dla tego zagadnienia możemy
505
podać
alternatywne rozwiązanie, wywodzące się bezpośrednio z rachunku prawdopodo-
bieństwa. Możemy po prostu napisać twierdzenie Bayesa (2.34) w formie (2.16) dla zdarzeń losowych n oraz k
P.„(p, u) = Brln, p)P„(u) = P,(k, p, u) P(P. 1),
skąd
_
B,(n,
p)P„(u)
LEPR="RPu
jest poszukiwanym zmiennej wynosi:
rozkładem
00
zmiennej
m
0-5
losowej
(u(t — p)" "e *"P n. Wartość
oczekiwana dla tej
je
n n=ka-A(l-p ) = 2 nP,k,p0=2)_ _gikU-P)"'e"» 00
m
=
+
— (m=n—kh)
k
2,77 KU - p)"e""P =k+u(l — p)
1 jest to najlepsza ocena poszukiwanej liczby cząstek, które przeszły przez detektor. Jeśli podstawimy poprzednio podane liczby, znajdziemy, że (n) = 105, co jest
istotnie niezgodne z wynikiem (9.5) metody największej wiarogodności. Wariancja zmiennej losowej n wynosi
vin =) m=k- ud n=k
p))?P,(k, p, u) = ul — p).
Podstawiając wartości liczbowe, znajdujemy D [n] = V90 = 9,5, ponownie wynik
bardzo różny od (9.6), jaki podpowiada zasada największej wiarogodności.
T)
Rozważmy także metodę estymacji przedziałowej. ——
Przykład 9.1.3 Estymacja przedziałowa — licznik z czasem martwym Przypuśćmy, że dysponujemy licznikiem, który charakteryzuje się czasem martwym, tzn. po zarejestrowaniu pewnej cząstki musi on „odpocząć” przez pewien czas T, nim będzie mógł dokonać rejestracji następnej cząstki. Rozkład czasu t
oczekiwania na cząstkę promieniowania kosmicznego, w przybliżeniu niezależnych cząstek, zadany jest rozkładem wykładniczym z parametrem A, o którym założymy, że jest znany bezbłędnie i wynosi
1s”'. Rozkład
f(t; A, T) czasów oczekiwania,
jaki znajdziemy, stosując nasz licznik, będzie rozkładem wykładniczym, ale obciętym do czasów t większych niż wartość parametru 7:
flt;A,T) =Aexp(—A(t—T)),
T służących do oceny słuszności stwierdzenia A. Nie będziemy się jednak dręczyć badaniem sposobno-
Ści A| W; A W, jeśli przesłanki W, i W, są sprzeczne, gdyż z fałszywej tezy możemy wydedukować każdą konkluzję, o czym orzeka prawo Dunsa Szkota, a potwierdzenie
tego znajdujemy w wartości logicznej prawda zarówno dla zdania: (A A A) > A, jak i dla zdania: (A A A) > A.
Relacja sposobności nie musi istnieć między wszystkimi tezami. Jeśli naszą prze-
słanką W jest zdanie: światło z Księżyca biegnie do Ziemi przez jedną sekundę, a teza A to: Całkowita energia mechaniczna w polu siły zachowawczej jest stała, to nie mamy możliwości wypowiedzenia się co do sposobności A| W, gdyż nie ma najmniejszego logicznego związku między tymi dwoma stwierdzeniami. Stosując omówioną symbolikę, wprowadzimy drugi dezyderat teorii: Dezyderat 2: Jakościowa zgodność ze zdrowym rozsądkiem.
Przez ten postulat będziemy
na przykładzie. Przypuśćmy,
rozumieli
że usłyszeliśmy
następujące przesłanie, które wyjaśnimy
strzał i nieomal natychmiast potem wi-
dzimy następującą scenę: dwóch panów, X oraz Y, każdy z nich trzyma pistolet, a na ziemi
leży pan
Z.
Nasza
wiedza
W
to: pan
Z nie żyje,
a teza
A
brzmi:
strzelał
pan X. Oceniamy, że sposobność A|W jest taka sama jak sposobność tezy przeciw-
nej: A|W = strzelał pan Y |pan Z nie żyje. Jeśli jednak dostrzeżemy następujący fakt: W' = pistolet w ręku pana X dymi, to natychmiast stwierdzamy, że: A|W'AW
natomiast sposobność tezy przeciwnej do A maleje: A |W'AW
AJW,
Rozpatrzmy dodatkową tezę B: pan X miał porachunki z panem Z lub pan Y chciał zastrzelić pana X, a nawet panowie X, Y oraz Z spotkali się, aby pograć w brydza
z „dziadkiem”. Sposobność B|A A W tej tezy, zarówno w warunkach wiedzy W wraz
z informacją: strzelał pan X, jak również z dodatkową wiadomością o dymiącym pi-
516
9, Stopień racjonalnego zaufania
stolecie, czyli BIA A W' AW, są identyczne. Zdrowy rozsądek wymaga od nas byśmy uznali AABIWAW >AABIW.
W końcu trzeci i ostatni dezyderat, to dezyderat konsekwentnych, uczciwych i rzetelnych studiów zagadnienia: Dezyderat 3a: Jeśli konkluzję można wydedukować więcej niż jedną drogą, wszystkie metody muszą doprowadzić do tej samej wartości sposobności. Dezyderat 3b: Przy zgłębianiu problemu muszą być wzięte pod uwagę wszystkie istotne dla zagadnienia informacje, bez ich cenzurowania. Dezyderat 3c: Jeśli w dwóch lub więcej problemach stan wiedzy jest ten sam,
wszystkim tym problemom musi być przypisany ten sam poziom sposobności.
Te trzy dezyderaty będziemy określali łącznie mianem spójnego wnioskowania. Uzbrojeni w te przesłanki, przystąpimy do wyprowadzenia ilościowych praw rządzących rachunkiem stopnia racjonalnego zaufania.
9.2.3. Prawa operowania stopniem racjonalnego zaufania Na pierwszy ogień weźmiemy zagadnienie warunkowej sposobności A A B|W iloczynu tez A i B, w kontekście wiedzy W i związku tej sposobności ze sposobnościami każdej z tez oddzielnie. Proces decydowania o słuszności hipotezy A A B możemy wykonać w dwóch krokach: e decydujemy o słuszności tezy A, czemu odpowiada sposobność A|W,
e zaakceptowawszy ją, rozstrzygamy o słuszności tezy B i otrzymujemy sposobność BIAAW. Krok drugi wymaga komentarza z powodu przerzucenia tezy A do warunku. Moglibyśmy sądzić, że wystarczy sposobność uzyskaną w tym kroku zapisać w postaci B|W. Nie byłoby to słuszne, gdyż na to, by teza A A B była prawdziwa, oprócz tezy B musi być prawdziwa również teza A, co właśnie wyraża BIJA A W.
Rezultatem
tego rozumowania jest wniosek o tym, że sposobność
funkcją sposobności A|W oraz BIAAW: AAB|W=/f(AIW,BIAAW)=
f(x,y),
x=A|W,
A A B|W jest
y=B|AAW.
(9.9)
Gdybyśmy zamiast powyższej relacji zaproponowali
A ABIW = f(A|W, B|W),
nie byłoby to zgodne z dezyderatem jakościowej zgodności ze zdrowym rozsądkiem. Sposobność A|W może być istotna, jak i też sposobność B|W. Natomiast B|A A W
może być zarówno mała, jak i duża. Możemy się o tym przekonać, rozważając następu-
jący przykład. Możliwość, że następna spotkana osoba będzie miała błękitne oczy, na pewno nie jest mała. Podobnie, możliwość, że następna spotkana osoba będzie miała ciemne włosy, także nie jest znikoma. Również możliwość, że taka osoba będzie miała
i błękitne oczy, i ciemne włosy jest całkiem rozsądna. Natomiast z faktu dość istotnych
9.2. Sposobność i jej miara
517
sposobności, że następna spotkana osoba będzie miała prawe oko błękitne oraz następna
spotkana osoba będzie miała lewe oko kasztanowe nie wynika, że sposobność napotkania następnej osoby z prawym okiem błękitnym a lewym kasztanowym będzie również znacząca.
Badanie słuszności tezy A A B możemy przeprowadzić także w inny sposób: e decydujemy o słuszności tezy B, czemu odpowiada sposobność B|W,
e zaakceptowawszy ją, rozstrzygamy o słuszności tezy A i otrzymujemy sposobność A|BAW. Prowadzi nas to do wniosku, że zamiast (9.9) równie dobrze możemy napisać
A A B|W — f(BIW, A|B AW). Widzimy, że do określenia sposobności A A B|W
B|A NW, B|W oraz A|B A cjalnych funkcji. Okazuje się Pergamon Press, New York typu A=B A=W lub A
(9.10)
mamy
cztery wielkości: A|W,
W, z których możemy utworzyć łącznie jedenaście poten(M. Tribus, Rational Description, Decisions and Designs, 1969), że poddanie tych funkcji różnym skrajnym testom = B pozostawia tylko dwie z nich, właśnie (9.9) i (9.10)
jako rozsądnych kandydatów na sposobność A A B|W.
Co możemy powiedzieć o funkcji f(x, y)? Z dyskusji drugiego dezyderatu, a także
z propozycji ciągłości sposobności wynika, że funkcja ta musi być ciągłą, monotonicznie niemalejącą funkcją obu swych argumentów.
Włączymy teraz do naszych rozważań dezyderat 3a konsekwentnej spójności rozu-
mowania i zastosujemy go do sposobności A A BAC|W.
iloczyn trzech tez A A B AC
Na mocy prawa łączności,
rozważymy jako A A (BAC) 1
zastosujemy do niego
dwukrotnie prawo (9.9)
AAN(BAO)|W = f(BACIW,AJBACAW)
= J(f(CIW, BICAW),AJBACAW)= gdzie wprowadziliśmy oznaczenia: x =C|W,y=B|CAW
Jednakże iloczyn A A B AC
(f(x, 7), z),
orazz=A|BACAW.
możemy zapisać także jako (A A B) AC, co implikuje
związek (AAB)JAC|W=Jf(CIW,
AABICAW)
= f(C|W, f(BICAD,A|BACAW)
= f(x, f(y,2)).
Łącząc te dwa wyrażenia, otrzymujemy równanie funkcyjne, wyrażające prawo łączności w najbardziej ogólnej formie
IFG,y),2)
Fx, FV, 2)).
(9.11)
W dodatku C pokazujemy, że rozważenie tej równości funkcyjnej prowadzi do następującego związku między sposobnością A A B|W i sposobnościami A|W oraz BJAAW:
g(A A BIW) = g(A|W)g(B|A AW),
(9.12)
gdzie funkcja g jest dodatnia i może albo monotonicznie rosnąć, albo monotonicznie maleć.
Wymaganie jakościowej zgodności ze zdrowym rozsądkiem nakłada na funkcję g
pewne dodatkowe ograniczenia. Przypuśćmy, że w świetle wiedzy W propozycja B jest
518
9, Stopień racjonalnego zaufania
absolutnie pewna. Wtedy sposobność A A B|W musi być tożsama ze sposobnością A|W. Również wiedza AA W nie wnosi nic nowego w stosunku do wiedzy W przy roztrząsaniu
tezy B: B|LA AW
= B|W. Podstawiając do prawa (9.12)
g(AIW) = g(AIW)g(B|W), stwierdzamy, że jeśli tylko g(A|W) jest różne od zera, to dla tezy B gwarantowanej w warunkach W:
g(B|W)=l.
(9.13)
Przypuśćmy teraz, że opinia B pod warunkiem W jest absolutnym fałszem. Wtedy nie tylko A A B = B, ale również B|A AW = BJW, gdyż wszelka uzupełniająca wiedza A, o ile nie jest sprzeczna z W, nie może zmienić naszych konkluzji w stosunku do B. Sięgając ponownie do prawidła (9.12), znajdujemy warunek, który musi zawsze
obowiązywać, bez względu na wielkość g(A|W), o ile jest ona różna od jedności:
g(B|W) = g(A|W)g(B|W). Równość tę możemy
spełnić jedynie w dwóch przypadkach:
albo wielkość g(B|W)
jest równa zeru, albo jest ona równa nieskończoności. Jeśli przyjmiemy, że wynosi ona
zero, wtedy funkcja g rośnie monotonicznie od zera dla tezy absolutnie wykluczonej do
jedności dla tezy absolutnie pewnej. Jeśli przyjmiemy konwencję, że tezie nieprawdziwej
odpowiada nieskończona wartość g, to funkcja ta monotonicznie maleje do jedności dla tezy prawdziwej. Jest rzeczą konwencji, które z tych dwóch zachowań przyjmiemy. Umówimy się, że będziemy stosować pierwszą z tych możliwości, tzn. dla tezy B fałszywej w warunkach W:
g(B|W) =0,
(9.14)
ponieważ przy wyborze drugiej treść teorii pozostaje taka sama — wystarczy, że zamiast funkcji g przyjmiemy funkcję g, = 1/g, aby powrócić do pierwotnego wyboru.
Zajmiemy się teraz drugim prawem, rządzącym związkiem między sposobnością A|W a sposobnością tezy przeciwnej do A. Związek taki powinien istnieć, bo jeśli mało możliwa jest pewna sugestia, to sugestia do niej odwrotna powinna mieć duże szanse, że będzie prawdziwa. Zaproponujemy ten związek w formie
g(AIW) = F (g(A |W)).
(9.15)
Konwencje (9.13) i (9.14) wymuszają dość oczywiste ekstremalne wartości dla funkcji
F: F(0) = 1 oraz F(1) =0. Inną jej własność uzyskamy, stosując tę funkcję do obu
stron równania (9.15):
_
F (g(AIW)) = F(F (g(AIW))).
Na mocy wymagań stawianych funkcji F' prawa strona tego wyrażenia powinna zwrócić nam wewnętrzny argument g(A siebie samej
|W), co oznacza, że funkcja ta musi być odwrotna do
F (FQ2))=x.
(9.16)
Nie są to jednak wystarczające własności do określenia najbardziej ogólnej formy
funkcji F. Musi być ona także zgodna z prawem (9.12), które implikuje bardziej skomplikowaną postać równania funkcyjnego.
9.2. Sposobność i jej miara
519
Rozważmy prawo mnożenia sposobności (9.12) w odniesieniu do dwóch tez: A A B oraz A A B. Wykorzystując je, znajdujemy
g(AABIW) =g(A|W)g(B|A AW), g(A A B|W) = g(A|W)g(BJA AW).
(9.17) (9.18)
Stosując (9.15) do równania (9.17), możemy je zapisać w równoważnej
postaci
g(A A B|W) = g(A|W)F (g(BIA AW)), a wykorzystując (9.18), otrzymamy
g(A A BIW) g(A A BIW) = g(A|W)F (i g(AIW)
|
Ponieważ tezy A oraz B w (9.17) komutują, więc związek ten możemy równie dobrze
zapisać jako
g(A A BIW) = g(B|W)g(A|B AW),
a stąd
g(A A BIW) = g(B|W)F ( lub też
a)
AIW)F | ————
S(AW)
( g(AIW)
g(A A
2)
g(B|W)
(o)
1 =o(BIW)F | ——
SZT |
2(BIW)
1.
Ta równość musi być słuszna dla wszystkich A oraz B, w szczególności także dla B = AND, gdzie D jest dowolną nową sugestią. Jednakże, przy takim doborze tezy B, otrzymujemy A A B = B oraz, na mocy (9.8): BA A=A,
skąd
AWF (EG) g(AIW) = sewF (EG) g(BIW) >.
F (g(B|W)) I — ( g(AIW) )
AIW)E | ———
84AD
CLJ IW) ( g(BIW)
o(BIW)F | —————
lub wprowadzając oznaczenia x = g(A|W), y = g(B|W):
„F(-2) =>F(22). x y
(9.19)
Otrzymaliśmy równanie funkcyjne na nieznany związek F łączący sposobności prze-
ciwnych tez. W dodatku D pokazujemy, że rozwiązaniem tego równania jest funkcja F spełniająca związek F"(u)+tu"=l,
implikujący następującą zależność między sposobnościami A|W i A|W:
s" (AIW) + g"(AIW) =.
(9.20)
Sporządźmy bilans tego, co dotychczas udało się nam osiągnąć. Łączność iloczynu logicznego wymaga, aby pewna funkcja g(x) sposobności x = A|W spełniała równa-
520
9. Stopień racjonalnego zaufania
nie (9.12). Ta sama funkcja musi także spełniać prawo (9.20) dodawania sposobności. Jednakże prawo mnożenia, po podniesieniu stronami do m-tej potęgi, możemy zapisać w formie
g'(AAB|W)
=g"(A|W)g"(BIA AW)
1 widzimy, ze wartość wielkości m jest faktycznie nieistotna. Jakąkolwiek wartość byśmy wzięli, zawsze możemy wprowadzić funkcję
P(x) = g" (x), w terminach której nasze prawa przyjmą postać reguły mnożenia
P(AAB|W) oraz reguły dodawania
==P(A|W)P(BIAAW)
=P (B|W)P(A|BAW) _
P(A|W) + P(AI|W)=1.
(9.21)
(9.22)
Nie zmniejsza to ogólności rozważań, gdyż jedyny warunek, jaki nałożyliśmy na funk-
cję g(x), był warunkiem monotonicznego narastania od zera dla tezy niemożliwej do
jedności dla tezy pewnej. Własność ta zachowuje się dla funkcji P(x) przy dowolnej
wartości parametru m, o ile jest on większy od zera, co także jest spełnione. Czy te dwie reguły wystarczą do znalezienia sposobności dowolnego zdania? Znaj-
dziemy, jako przykład, sposobność tezy danej sumą logiczną tez A oraz B:
P(AVB|W) =P (A A B|w) =|—P(AAB|W)=l1
— P(AIW)P(BIA AW)
= | — P(AJW) (1 — P(BJA AW))
= |] — P(A|W) + P(A|W)P(B|IA A W) = P(AIW) + P(A ABIW) = P(A|W) + P(BIW)P(A|B AW)
= P(A|W) + P(B|W) (1 — P(A|B AW)) = P(A|W) + P(B|W) — P(B|W)P(A|B AW) = P(A|W) + P(B|W) — P(A A BIW) czyli ostatecznie
P(A v B|W) = P(AJW) + P(B|W) — P(A A B|W).
(9.23)
Jeśli badane tezy A oraz B są wzajemnie sprzeczne w świetle posiadanej wiedzy W, tzn. A A B
d
-
jest tezą fałszywą, wtedy na mocy konwencji (9.14) wynik ten upraszcza się
P(Av B|W) =P(A|W) + P(BIW).
(9.24)
W podrozdziale 9.2.1 powiedzieliśmy, że działania logiczne iloczynu i negacji wy-
starczają do skonstruowania wszelkich innych operacji logicznych. Tym samym dwa nasze prawa: mnożenia (9.21) i dodawania (9.22), wystarczają do określenia sposob-
ności dowolnej innej tezy, bez względu na stopień jej komplikacji. Wystarczy, że tezę złożoną z n zdań rozłożymy na 2” fundamentalnych tez, a stosując łańcuchowo regułę
9.2. Sposobność i jej miara
521
mnożenia, określimy sposobność każdej z nich. Ponieważ tezy fundamentalne są logicz-
nie rozłączne, więc po zbudowaniu badanego zdania z tych tez, znajdziemy sposobność tego zdania, stosując prawo dodawania. I tak, dla n = 5, mamy 2” = 32 elementarnych tez, których sposobność musimy
określić z przesłanki
W, a to pozwoli nam, metodą
prostej algebry, przypisać sposobność każdemu z 2** = 4294967 296 możliwych zdań,
jakie możemy skonstruować.
9.2.4. Ku prawdopodobieństwu Jakkolwiek postać uzyskanych przez nas praw (9.21) i (9.22) rządzących sposobnościami
może wydawać się znajoma, dwie okoliczności wskazują na to, że zadanie nasze nie jest jeszcze zakończone. Po pierwsze, chociaż nasze reguły ustalają ograniczenia na to, jakie relacje między funkcjami P sposobności tez są dopuszczalne, dostarczają one jednocześnie olbrzymiej swobody w wyborze funkcji g, a co za tym idzie, także funkcji P. Po drugie, nie możemy naszych reguł zastosować do żadnego praktycznego przypadku, gdyż reguły te nie mówią nic o tym, jak przetworzyć informacje zawarte w przesłance W na konkretne wartości wielkości P najprostszych tez, jakie pojawiają się na wstępie
każdego zagadnienia. Dopiero gdy takie liczby będziemy mieli, możemy odpowiadać na następne, bardziej skomplikowane pytania. Rozwiązanie tej trudności polega na odwołaniu się do dotychczas nie wykorzystanego przez nas dezyderatu 3c.
Rozważmy zagadnienie określenia sposobności A; V A> V Aa|W, że przynajmniej jedna z trzech tez jest słuszna. Możemy to wykonać, stosując prawo dodawania (9.23) dla tezy (A; V Aa) V A3
P(A, Y A> V A3| W) = P(A; V A>[ W) + P(A3| W) — P((A: V A>) A A3IW)
= P (Ay V Az] W) + P(A3| W) — P((A; A 43) V (Az A A3)| W) 1 ponownie to samo prawo dla tezy A; V A> oraz (A; A A3) V (A> A 43)
P(A, V AV Az| W) = P(A,|W) + P(Az| W) + P(Az|W) — P(A: A A>| W) — P(ArA Az| W) — P(Aa A A3l W) + P(A1 A A> A A3| W). Przypuśćmy, że informacje zawarte w W implikują, że tezy A; wzajemnie się wykluczają,
co oznacza, że każda teza postaci A; A A; jest fałszywa, jeśli tylko i £ j. Takie założenie powoduje, że cztery ostatnie wyrazy w powyższej sumie znikają, a wtedy
P(A: V A> V A3|W) = P(A;|W) + P(A»|W) + P(A3IW). Czytelnik łatwo się przekona, stosując metodę indukcji matematycznej, że dodając następne tezy A4, As,..., Ay, spełniające warunek wzajemnego wykluczania, powyższe wyrażenie uogólnia się do:
P(A,VA„V'--VA„|W)=) P(AGIW), k=|
1, A3,..., Ay różniący się od pierwszego jedynie tym, że dwie
pierwsze tezy są zamienione miejscami. Sposób przypisywania indeksów tezom jest oczywiście arbitralny, więc nie ma znaczenia, czy indeks l przypiszemy tezie pierwszej,
czy też drugiej. Jasne jest, że jakąkolwiek wiedzę posiadamy w odniesieniu do tezy A; w pierwszym problemie, co wyznacza dla niej wartość
P(A;|W),
to tę samą wiedzę
posiadamy w odniesieniu do tezy A>, co wyznacza dla niej wartość P' (A,|W), która musi być identyczna z wartością P(A,;|W). Podobnie musi obowiązywać
P(A>|W)
=
samym
w problemie
P'(A1|W), bez względu na to, jak realne bądź nierealne mogę być obie rozważane tezy. Załóżmy teraz, że wiedza W nie wprowadza rozróżnienia między obiema tezami A; 1 A>: jeśli mówi coś na temat jednej z nich, to mówi dokładnie to samo na temat drugiej, a tym stan naszej wiedzy o każdej z tez w zestawie A;, A>, A3,..., Ay
pierwszym jest dokładnie taki sam jak stan naszej wiedzy o każdej z tez w zestawie
Ai, A>, A3,..., Ay w problemie drugim. Przywołajmy dezyderat 3c rzetelnych studiów, który mówi, że jeśli w dwóch problemach stan naszej wiedzy jest taki sam, to obu problemom musi być przypisany ten sam poziom sposobności. Oznacza to, i tylko to, że musi obowiązywać P(A,|W) = P'(A,|W) dla wszystkich wartości indeksu i. Podstawiając ten wynik do równania P(Az|W) = P'(A,|W), znajdujemy, że wartości funkcji P dla tezy A;
oraz
A; muszą być identyczne:
P(A>|W)
=
P(A,|W).
Stąd już tylko
krok dzieli nas od stwierdzenia, że jeśli wprowadzimy trzeci problem, z tym samym
zestawem tez, ale ustawionych w dowolnej kolejności 1 wiedzą W, która nie wyróżnia
ani nie dyskryminuje żadnej z nich, to wartości funkcji P sposobności wszystkich tez
muszą być identyczne. Ponieważ tezy te jednocześnie wyczerpują wszystkie możliwości, więc z (9.26) mamy natychmiast P(A:IW) = Za Keynesem
l ,
i=1,2,...,N.
(9.27)
wynik ten zwany jest w literaturze zasadą nieistotności (Principle of
Indiffjerence), oczywiście ze wskazaniem na przesłankę W. Rozważymy
teraz jej konsekwencje.
Niech będzie dana urna, której zawartość to
N identycznych co do wielkości, koloru, wagi, temperatury, gładkości powierzchni, ...
ponumerowanych kul, z których K, o indeksach i, ip, ...,ik to kule białe, a reszta M =
N — K kul to czarne. Nie mamy również żadnej wiedzy co do tego kiedy, kto, w jakiej kolejności i w jaki sposób umieścił kule w urnie. Przywołujemy na pomoc sierotkę, która
9.2. Sposobność i jej miara
523
z zawiązanymi oczami wydobywa z urny jedną kulę. Zdefiniujmy tezę A„: wyciągnięto kulę o numerze m, gdzie m = 1,2,..., N. Nasza wiedza W, zawarta w drugim, trzecim
1 czwartym zdaniu akapitu, nie pozwala nam na preferencyjne traktowanie którejkolwiek
z owych N tez. Dlatego też wyrażenie (9.27) określa wartości funkcji P(A,|W) dla wszystkich tez. Zdefiniujmy teraz następną tezę B: z urny wydobyto kulę białą. Teza ta
jest logiczną sumą rozłącznych tez A„: B=A,VAĄ,V::: funkcji P(B|W)
znajdujemy z dodawania (9.25):
VA;,, ik» dlatego też wartość
K P(B|W) = P(A; V Az V-*-VAGIW) = ) , P(A,„[W) = y: K
(9.28)
m=l
Przykład ten rozwiązuje jednocześnie dwa postawione przez nas na wstępie pro-
blemy. Pokazuje, jak w jednym szczególnym przypadku, który możemy teraz uogólnić, informacja zawarta w przesłance W prowadzi nas do konkretnych wartości numerycz-
nych dla funkcji P, dzięki czemu możemy rozpatrywać praktyczne zagadnienia. Drugi wniosek jest dość oczywisty: wiedza i prawa dodawania i mnożenia, które zastosowaliśmy, doprowadziły nas do wartości dla ostatecznych funkcji P(A,|W), a nawet bardziej
skomplikowanej funkcji P(B|W), a nie pierwotnych sposobności A,|W czy też B|W. Oznacza to, że słuszniejsze będzie odwrócenie zagadnienia i powiedzenie, że to sposobności są dowolnymi, monotonicznymi funkcjami jednoznacznie wyznaczalnych wielkości P, a nie odwrotnie.
Widząc, że teoria stopnia racjonalnego zaufania może być całkowicie wyrażona za
pomocą wielkości P, możemy wprowadzić dla nich specjalny termin: od tego momentu wielkości te będziemy
nazywali prawdopodobieństwami,
a termin sposobność, jako
pomocniczy, usuniemy w niebyt i nie będziemy do niego więcej wracali. Zrekapitulujmy uzyskane rezultaty. Prawo (9.22) oraz (9.24) wraz z konwencjami
(9.13) i (9.14) to zestaw aksjomatów podrozdziału 2.2, które konstytuują teorię klasycznego rachunku prawdopodobieństwa. Tym samym nasza nowa teoria „dziedziczy” cały formalny dorobek teorii Kołmogorowa, przedstawiony w poprzednich rozdziałach.
Jednakże, w zagadnieniach praktycznych, nowa teoria nie odwołuje się w żaden sposób do częstoŚciowej interpretacji, a opiera się na logicznym wnioskowaniu z posiadanych
przesłanek. Gdy przesłanki te są dostatecznie bogate w informacje, może się zdarzyć, że będziemy mogli przesądzić o słuszności bądź fałszu badanej tezy. Gdy wiedza nasza nie
jest wystarczająca do definitywnego rozstrzygnięcia, o słuszności tezy możemy jedynie
wypowiedzieć się, określając jej poziom prawdziwości, czyli stopień racjonalnego zaufania. Prawdopodobieństwo, którym wtedy operujemy, nie ma żadnego związku z naturą badanego zjawiska, a przedstawia przetłumaczone na liczby nasze wewnętrzne przekonanie o stopniu słuszności każdej głoszonej tezy, do której zechcemy nową metodę
zastosować.
Zauważmy także, że wynik (9.28) to wspomniana w podrozdziale 9.1 klasyczna definicja prawdopodobieństwa, interpretowana przez późniejszych badaczy w duchu często-
Ściowym. Rezultat ten jest także zapowiedzią, że całą konwencjonalną teorię powinniśmy odnaleźć we współczesnej.
524
9. Stopień racjonalnego zaufania
—— 9.3. Wnioskowanie probabilistyczne Na silny logiczny związek między prawdopodobieństwem P(A|W)
tezy A a wiedzą W
wskazuje przykład podany przez wspomnianego wcześniej Jaynesa (E. T. Jaynes, Cle-
aring up Mysteries — The Original Goal, w Maximum-Entropy and Bayesian Methods, J. Skilling (red.), Kluwer, Dordrecht 1989). Rozważymy ponownie urnę wypełnioną identycznymi kulami w liczbie N, wśród których mamy K kul białych, a reszta to kule czarne. Wiedzę tę oznaczymy symbolem W. Szansa P(B;|W) wydobycia białej kuli w
pierwszym losowaniu określona jest związkiem (9.28). Jeśli losowanie prowadzimy bez zwracania, wylosowanie takiej lub innej kuli w pierwszy kroku ma, niewątpliwie, wpływ na szansę wylosowania białej kuli w powtórnym losowaniu. Analizując ten wpływ, nie
jest nam jednak łatwo oderwać się od sprawczego charakteru faktu fizycznego usunięcia
jednej kuli z urny. Aby uzyskać jaśniejszy wgląd w problem i wyzbyć się fałszywych tropów, odwróćmy zagadnienie. Wylosujmy pierwszą kulę i bez sprawdzania koloru odłó-
żymy ją do kieszeni. Sięgnijmy ponownie do urny i wydobądźmy z niej następną kulę. Przypuśćmy, że jest to kula biała. Ile wynosi prawdopodobieństwo P(B,|B A W), że w
naszej kieszeni schowaliśmy białą kulę? Tym razem, przy próbie sformułowania odpowiedzi, duszy naszej nie targają komplikacje związane z przyczynową relacją — wszak
wynik drugiego losowania nie może mieć fizycznego wpływu
na losowanie w pierw-
szym kroku! Brak relacji fizycznej nie uniemożliwia nam jednak uzyskania precyzyjnej odpowiedzi na postawione pytanie. Nie będziemy jej tu podawać w nadziei, że Czytelnik spróbuje ją uzyskać sam, a gdyby miał trudności, powinien powrócić tu po przeczytaniu podrozdziału 9.3.1. My rozpatrzymy jedynie szczegółny przypadek omawianej sytuacji. Jeśli wśród wszystkich kul w urnie tylko jedna jest biała, to z pełną odpowiedzialnością możemy
twierdzić, że kula spoczywająca w naszej kieszeni jest czarna! Przykład ten
z całą mocą ukazuje na dedukcyjny, a nie fizyczny (np. częstościowy) charakter pojęcia
prawdopodobieństwa. Nowa interpretacja pojęcia prawdopodobieństwa ma niezmiernie głębokie konsekwencje. Przede wszystkim, nie ma w nim miejsca na pojęcie „losowości”. Pod tym po-
jęciem, w mniemaniu nowej teorii, ukrywana jest, łagodnie mówiąc, zadufana ignorancja badacza. Zdanie: Nawet gdybyśmy próbowali zbudować maszynę, rzucającą monetą z do-
skonałą prawidłowością, nie moglibyśmy przewidzieć wyników indywidualnych rzutów (H. Cramer, ibid.) w nowej teorii jest przykładem tupetu i braku pokory — jeśli nie
potrafimy czegoś zrozumieć lub przewidzieć, to na Naturę zrzucamy odpowiedzialność
za naszą intelektualną ułomność, twierdząc, że taka jest właśnie natura zjawiska. Wraz z pojęciem „losowej natury zjawiska” znika „zmienna losowa” i cały statystyczny ansambl, z którego owa zmienna jest wybierana aktem eksperymentalnym. Stąd też przed
teorią odkrywają się nowe pola zastosowań. Uzasadnione staje się zadawanie pytań w rodzaju: jakie jest prawdopodobieństwo,
że gdzieś we Wszechświecie istnieje inny układ
planetarny? Rozważenie takiej kwestii w ramach konwencjonalnej teorii zawsze będzie
wysoce spekulatywne z formalnego punktu widzenia, gdyż musi myślowo dopuszczać istnienie nieskończonej liczby wszechświatów takich jak nasz, który z definicji obejmuje cały świat. Rezultatem zanegowania populacji” jest utrata racji bytu wielkości
9.3. Wnioskowanie probabilistyczne
525
statystycznej, jaką jest estymator z całą menażerią jego własności 1 statystyki testowe, co czyni bezprzedmiotowymi różne metody statystycznej oceny parametrów rozkładów,
czyli metody momentów, największej wiarogodności, w końcu metody testów i weryfikacji hipotez. Niewinna, z pozoru, zmiana koncepcji prawdopodobieństwa prowadzi
faktycznie do wielkiej rewolucji w dziedzinie zastosowań, a jednym z jej owoców jest anihilacja całej statystyki matematycznej. To narzędzie w ramach nowej teorii staje się
zbędne, przy zachowaniu, naturalnie, bogactwa wyników matematycznych, jakie w ramach tej dziedziny uzyskano w czasie stuletniego jej rozwoju. Nie oznacza to jednak,
że stajemy bezradni wobec kolosalnej liczby problemów, które dotychczas umieliśmy rozwiązać. Nowa teoria dostarcza nam nowych narzędzi do osiągnięcia tego celu.
9.3.1. Twierdzenie Bayesa Przystępując do oceny stopnia racjonalnego zaufania wobec tezy H, nigdy nie działamy w próżni. W praktyce naukowej mamy zazwyczaj jeszcze dwie dodatkowe informacje.
Są to: dane D uzyskane w wyniku eksperymentu oraz pewna nagromadzona wiedza
W o zagadnieniu, którego hipoteza H dotyczy (przez hipotezę H będziemy rozumieli zdanie stwierdzające słuszność tej hipotezy). Rozdział między danymi a wiedzą jest często podyktowany wygodą: wyniki z wcześniejszego eksperymentu możemy uznać
za element nagromadzonej wiedzy lub też połączyć z zestawem naszych danych. Samo sformułowanie osądu P(H|D A W) nie może jednak wybiórczo traktować żadnego
z warunków D lub W, gdyż byłoby to w sprzeczności z dezyderatem 3b spójnego wnioskowania. Głównym narzędziem takiego wnioskowania w ramach nowej teorii jest prawo (9.21)
mnożenia prawdopodobieństw
P(H A D|W) = P(H|W)P(DIH AW) = P(D|W)P(H|DAW), z którego wynika
P(H|DAW) = P(DIH AW)
P(H|W)
P(DIW)
(9.29)
Jeśli mamy więcej niż jedną hipotezę, a wszystkie one, w Świetle wiedzy W, wykluczają się wzajemnie, tzn. P(H, AH,|W)
=0,
i £J,
oraz wyczerpują wszystkie możliwości, czyli zdanie: H, V H;V...V H, ma wartość logiczną prawda, wtedy na mocy praw algebry Boole'a i prawa dodawania (9.22) możemy
rozwinąć mianownik wyrażenia (9.29):
P(DIW) = P(DA(H,VH>...H,)|W) = P((DAH)vV(DAH)V...(DAH>)|W)
= > P(DAH,|W) = | P(D|H; A W)P(H,|W), i=l
i=l
(9.30)
526
9, Stopień racjonalnego zaufania
co prezentuje Czytelnikowi zapowiadany wcześniej mechanizm równoważny z rozkładem na zdarzenia elementarne w teorii Kołmogorowa. W związku tym rozpoznajemy generalizację (wolną od ograniczenia wielkości H, do zdarzeń losowych) znanej nam formuły pełnego prawdopodobieństwa z podrozdziału 2.8. Rozumowanie prowadzone w przeciwną stronę, wiodące do usunięcia zależności od H,; i pozostawienia jedynie zależności od D, zwane jest, w języku nowej teorii, procedurą marginalizacji względem D. Wykorzystując ten wynik, otrzymujemy twierdzenia Bayesa
P(H,|DAW)
= P(D|H, AW)—
P(H,|W)
5, P(DIH, AW)P(H,|W) i=1
(9.31)
Rezultat ten jest dobrze znany konwencjonalnej teorii prawdopodobieństwa (patrz (2.35)), gdzie także występuje pod tym mianem. Jego znaczenie jest tam jednak marginalne, gdyż jego zastosowania są ograniczone do sytuacji, w której wielkości D oraz H są zdarzeniami losowymi. Nowa interpretacja prawdopodobieństwa poszerza wielce zakres zastosowań, gdyż
wielkość H może być np. zdaniem: we Wszechświecie są trzy rodziny neutrin. W klasycz-
nej teorii taka hipoteza nie jest dopuszczalna, z uwagi na to, że nie możemy prowadzić procesu losowania z populacji, w której byłyby różne liczby rodzin neutrin, aby następnie zbudować estymator tej wielkości i zastanawiać się nad np. jego wartością oczekiwaną. Wszechświat jest tylko jeden i jakakolwiek liczba rodzin neutrin by w nim była, liczba ta
jest raz na zawsze ustalona i nie podlega rozkładowi. Mówiąc swobodniejszym językiem, wielkości takie jak P(H|...)
opisują w klasycznym podejściu fluktuacje wielkości H,
a przy częstoŚciowej interpretacji prawdopodobieństwa istnieje pewna klasa wielkości,
które nie podlegają fluktuacjom. Do nich należy liczba rodzin neutrin we Wszechświe-
cie, czas życia r izotopu uranu **U, masa antyneutrina elektronowego i wiele, wiele innych, w tym długość strony pomiarowa, która zależy od wzdłuż następującej drogi. Z struowana jest wielkość s(D)
zawierającej niniejsze zdanie. Fluktuuje jednak wielkość liczby rodzin, dlatego konwencjonalna analiza postępuje danych D, traktowanych jako wielkość losowa D, konzwana statystyką. Następnie, przy założeniu słuszności
hipotezy H, ze znanego rozkładu f(D|H)
znajdowany jest rozkład g(s|H) tej staty-
styki. Ostatecznie obliczana jest wielkość s(D), jaką statystyka przybiera na uzyskanej próbce i ta liczba rozważana jest w kontekście wszystkich możliwych wartości, jakie
statystyka s może przybrać na wszystkich możliwych danych D przy założeniu słusz-
ności hipotezy H. W wyniku tej konfrontacji podejmowana jest decyzja o możliwości odrzucenia hipotezy. Rezultatem takiego postępowania są zdania takie jak: w świetle uzyskanych danych
nie ma podstaw do odrzucenia hipotezy H na takim to a takim poziomie zgodności lub istotności (w zależności od sytuacji), lub też: dla parametru teorii określiliśmy przedział
ufności na pewnym poziomie ufności, mając na myśli stwierdzenie, że przedział ten za-
wiera z zadanym prawdopodobieństwem poszukiwany parametr, co wcale nie oznacza, że określiliśmy prawdopodobieństwo znalezienia tego parametru w tym przedziale! Różnica między dwoma ostatnimi stwierdzeniami jest dla przeciętnego użytkownika staty-
9.3. Wnioskowanie probabilistyczne
527
styki matematycznej scholastyczna i dopiero dła głęboko szkolonych — fundamentalna.
Rasowy
fizyk, wyrwany
ze snu, oceni prawdopodobieństwo,
że masa bozonu Higgsa
jest większa niż 1 TeV, jako bardzo małe (zakładając, że w ogóle taki obiekt jak bozon
Higgsa istnieje), co w jego ustach będzie herezją, jeśli jest on ortodoksyjnym, praktykującym statystykiem. Procedury i język statystyki matematycznej są w głębokiej nie-
zgodzie z naszym prostym zdroworozsądkowym zrozumieniem zagadnienia, co dobrze
widać u każdego początkującego amatora tej dziedziny, któremu trudno jest przyjąć taką gimnastykę umysłową za swoją. Twierdzenie Bayesa (9.31) w nowym środowisku interpretacyjnym czyni, że nie tylko na stare, dobrze znane problemy możemy spojrzeć nowym okiem, ale także możemy rozpatrywać nowe. Twierdzenie to pozwala rozważać prawdopodobieństwo różnych liczb
rodzin neutrin we Wszechświecie, pozwala zadać pytanie o szansę, że masa bozonu Higgsa jest większa niż 1 TeV, a także wiele, wiele innych pytań, włącznie z tymi
najprostszymi, odnoszących się do rzutów monetą i wydobywania kul z urny. Abyśmy mogli obliczyć prawdopodobieństwo hipotezy występujące po lewej stronie twierdzenia (9.29) lub (9.31), musimy znać trzy wielkości występujące po prawej stronie równości. Najprostsza z nich to P(D|H AW), którą uzyskujemy, podstawiając dane D do rozkładu znalezionego przy założeniu słuszności hipotezy H, co daje nam dobrze znaną funkcję wiarogodności £ z podrozdziału 7.1. Następny czynnik to
P(H|W). Określa on prawdopodobieństwo hipotezy H w śŚwietle dotychczasowej wie-
dzy, a więc niezależnie od danych D. Zwolennicy klasycznej teorii określają go mianem prawdopodobieństwa a priori. W nowej teorii odchodzi się od tego nazewnictwa i w li-
teraturze angielskojęzycznej używany jest powszechnie termin prior probability lub po
prostu prior. W mniemaniu autora, udatnie sens tego terminu w kontekście twierdze-
nia Bayesa można oddać, mówiąc o prawdopodobieństwie zaczątkowym, zalążkowym, zawiązkowym bądź w końcu zarodkowym, przy czym pierwsze z tych określeń jest za-
pewne najzgrabniejsze. Jeśli będziemy chcieli użyć rzeczownika, powiemy po prostu o zaczątku P(H|W). Wielkość P(D|W) to, technicznie rzecz biorąc, zaczątkowe praw-
dopodobieństwo danych D, jakie znajdziemy w eksperymencie i prawdopodobieństwo to moglibyśmy określić na mocy wiedzy W, ale bez odwoływania się do hipotezy H.
Wielkość ta jednak nie jest istotna dla dalszych rozważań, jako że nie zależy ona od
H, 1 jest zwykłym czynnikiem normalizacyjnym, gwarantującym sumowanie się praw-
dopodobieństw P(H;|D A W) wszystkich hipotez do jedności. Wielkość P(H|D AW) także ma swoje własne imię. Klasycy mówią o nim jako o prawdopodobieństwie a posteriori, a dla zwolenników współczesnej teorii, aby uciec od skojarzeń, jest to, oczywiście
w języku angielskim, posterior probability lub też krótko i rzeczownikowo: posterior.
Autor chciałby tu zaoferować Czytelnikowi terminologię: prawdopodobieństwo wynikowe.
Wszystkie te terminy charakteryzuje pewna słabość, wynikająca z nieodłącznego poczucia sekwencji czasowej, jaką one implikują. Jeśli pozostajemy w kręgu zastosowań
do fizyki, odczucie to jest pogłębiane przez nieuniknioną dla naszych schematów myślowych potrzebę poszukiwania przyczynowości. Te koncepcje nie mają żadnego związku
z równością Bayesa. Skojarzenia czasowe oznaczają jedynie to, że pewne elementy wy-
528
9, Stopień racjonałnego zaufania
stępują wcześniej, a inne później w toku naszego rozumowania. Na twierdzenie to należy
patrzeć tylko i wyłącznie jak na związek logiczny między prawdopodobieństwem za-
czątkowym i wynikowym, czyli taki związek, jaki widzimy w dowolnym twierdzeniu matematycznym. Jeśli dowodzimy, że z podzielności liczby przez cztery wynika jej podzielność przez dwa, to nie wyczuwamy tu żadnej korelacji czasowej ani nie poszukujemy związku przyczynowego między tezą a założeniem. We wstępie do niniejszego podrozdziału wspomnieliśmy,
że podział między dane
i wiedzę jest arbitralny i pozostawiony do uznania badaczowi. Czy nie prowadzi to do różnych wniosków, w zależności od tego, jak ten podział przeprowadzimy? Aby sprawdzić, czy taka groźba może się pojawić, przypuśćmy, że dysponujemy danymi
D, które posłużyły nam do wysnucia konkluzji P(H|D A W), wynikającej z twierdzenia Bayesa i przyjętego zaczątku P(H|W). Ponieważ naszą ambicją jest ulepszenie tego rezultatu, wykonaliśmy
własny
eksperyment,
który dostarczył danych
D'. Aby-
śmy byli konsekwentni w naszej analizie nowych danych, musimy przyjąć, że wiedza W” tuż przed wykonywaniem eksperymentu składa się z oryginalnej wiedzy W 1 „starych” danych D: W ' = DAW,a zaczątek P(H|W') to prawdopodobieństwo wynikowe P(H|D wynik
AW).
Po zakończeniu eksperymentu
„ PH|W')
,
w!
A AW)=P(D|HANW)—————— P(H|ID P(D'|W')
zabieramy się do pracy 1 otrzymujemy
,
=P(D|H
W następnym kroku, w miejsce zaczątku P(H|DAW) dzenia Bayesa (9.29) P(D|HADAW)
POD AW)="PODIDAW)
P(H|DAW)
ADAW)——---—.
P(D'|DAW)
podstawiamy prawą stronę twier-
0?
P(H|W)
P(DIW)
a wykorzystując prawo (9.21) mnożenia prawdopodobieństw
P(D|H ADAW)P(DIH AW) = P(D' ADIJH AW) oraz
P(D'|DAW)P(DIW)
otrzymujemy
,
P(H|IDADAW)=P(D Widzimy,
że niezależnie
=P(D Aa DIW),
, AD|HAW)——————-.. P(H|W)
od tego, czy stare dane
czy też połączymy je z nowymi
P(D'A DIW)
D
włączymy
do zasobów
2”, wniosek będzie taki sam. Wynik
wiedzy,
ten ukazuje
twierdzenie Bayesa jako pozbawiony sprzeczności wewnętrznych schemat postępowania, będący jednocześnie solidnym narzędziem do konsolidowania danych i integrowania
wiedzy.
9,3, Wnioskowanie probabilistyczne
-—-
529
Przykład 9.3.1 Twierdzenie Bayesa — hipoteza zagłady Nim przejdziemy do szerszej dyskusji twierdzenia Bayesa, jego własności i wnio-
sków, do których ono prowadzi, a zwłaszcza zastosowań w fizyce, rozważymy przykład „lżejszego kalibru” (K. D. Olum, http://arXiv.org/abs/gr-qc/0009081). Istnieje pewna szansa P(K|W), ze ludzka rasa będzie trwała na Ziemi krótko (teza K), gdyż ulegnie unicestwieniu z powodu np. katastrofy nuklearnej, upadku planetoidy, wyczerpania zasobów naturalnych lub też skażenia środowiska. Naturalnie, jest do pomyślenia, że żadne z tych zdarzeń nie nastąpi, co zapewni, z prawdopodobieństwem P(K|W) = I — P(KIW), pomyślne trwanie ludzi na naszej planecie jeszcze przez wiele, wiele lat. Zastanówmy się nad prawdopodobieństwem P(K |n, W) naszego nagłego końca, świadomi faktu, ze zajmujemy n-tą pozycję w szeregu wszystkich ludzi urodzonych na przestrzeni ostatnich, po-
wiedzmy, 200 000 lat. Z twierdzenia Bayesa otrzymujemy P(K|n, W) =
P(n|K, W)P(KIW)
= = . P(n|K, W)P(K|W) + P(n|K, W)P(K|W)
Wielkości P(n|K, W) i P(n|K, W) określają prawdopodobieństwa urodzenia się jako n-ta osoba w obu scenariuszach. Ponieważ możemy urodzić się, równie dobrze, na początku, w środku, jak i na końcu ery człowieka na Ziemi, więc naturalne będzie przyjęcie, że prawdopodobieństwa te są zadane odwrotnością całkowitych liczb Ny lub Ng ludzi, którym dane jest żyć w obu przypadkach. Podstawiając do twierdzenia Bayesa, znajdujemy, że
P(Kin.W)= |
1 — P(K|W Nę (KIW) 1 l z gy, PKW) + „-P(KIW) K
K
_
Nk (-)
K
P(K|W) P(KIW) +
Nk K
Jeśli nie chcemy, by wkrótce po nas ludzkość dokończyła swego żywota, to ułamek Nx/Nę powinien być mały. Wtedy prawdopodobieństwo P(K |n, W) jest bardzo bliskie jedności, chyba że zaczątek P(K|W) jest zdumiewająco mały: znacząco
mniejszy niż stosunek Ny/N;ę. Pchnęło
to niektórych
(B. Carter, Philosophical
Transactions
of the Royal
Society of London A310 (1983), 347; J. Leslie, Bulletin of the Canadian Nuclear
Society, May 1985, 10; J. R. Gott, Nature 363 (1993), 315; H. B. Nielsen, Acta Physica Polonica B 20 (1989), 427) do wysunięcia hipotezy zagłady (doomsday argument): nasze rokowania są mizerne — koniec.
ludzkość skazana jest na swój rychły n
9.3.2. Probabilistyczna indukcja Podstawowa zasada logiki stwierdza, że zaprzeczenie dowolnej, prawdziwej tezy A daje
tezę A, która jest fałszywa. Dokładnie taki sam schemat rozumowania odnajdujemy
w naszym prawie dodawania prawdopodobieństw: P(A|W) + P(A|W) = 1. Jeśli teza A jest prawdziwa, to P(A|W) = I, a stąd P(A|W) = 0. Gdy nie mamy do czynienia z tak
530
9. Stopień racjonalnego zaufania
klarowną sytuacją, reguła dodawania prawdopodobieństw wydaje się dość naturalnym rozszerzeniem dla logiki arystotelesowskiej.
Metoda rozumowania polegająca na wyciąganiu wniosków z przesłanek to dedukcja. Opiera się ona na fundamentalnym sylogizmie: ((A > B) AA) = B, który mówi: wiadomo, iż A implikuje B oraz stwierdzamy fakt A, więc wnioskujemy, że obowią-
zuje B. Istnieje także reguła przeciwna: ((B => A) A B) = A. Przypatrzmy się, jak twierdzenie Bayesa plasuje się w tym schemacie. Niech nasza wiedza W oznacza zasadniczą przesłankę rozumowania dedukcyjnego, tzn. W jest identyczne ze stwierdzeniem, że implikacja A => B ma logiczną wartość prawda. Niechaj nasze dane D to prawdziwa teza A, natomiast hipoteza H to teza B. Przepisujemy twierdzenia Bayesa
P(BIAA(A + B)) =
P(A|B A (A > B))P(BIA > B) _ P(AAB|A > B) PQAJA 5 B)
-.
PAJA=B)
Jeśli prawdziwa jest implikacja A = B, to teza A A B ma tę samą wartość logiczną co teza A (demonstruje to tabela 9.3), a tym samym co daje nam
P(B|A Aa (A >
P(A a B|A >
B) = P(AJA > B),
B)) = |, czyli prawdziwość tezy B.
FAP=F
FNF=F
vy
PNF=F
PNP=P
NY
PAP=P
PNF=F
U
m
FANP=F
v "v
FNF=F
uv
(4 U M U
yu
U
9 "N
Tabela 9.3. Własności operacji implikacji i koniunkcji
Przyjmijmy teraz, że nasze dane to teza B, przez co chcemy powiedzieć, że prawdą jest, że teza B nie zachodzi, a wtedy twierdzenie Bayesa ma postać
P(A|B A(A 2 B)) =
P(B|AA (A > B))P(A|A > B) _ P(BAAJA > B) P (B|A + B) | P(BIA>B)
Ponownie, zakładając prawdziwość implikacji A > B, znajdujemy z tabeli 9.3, że war-
tość logiczna tezy A A B jest zawsze fałszywa (z definicji implikacji, jako równoważnej wartości logicznej zdania A v B wynika, że teza A A B jest prawdziwa tylko wtedy,
gdy implikacja jest fałszywa). Oznacza to, że P(A A BIJA => B)= 0, a tym samym teza A jest fałszywa: P(A|B A (A = B)) =0. Widzimy, jak reguła mnożenia odtwarza, w skrajnym przypadku, zasady dedukcji logicznej.
_ _ Pamiętając, że nie obowiązują reguły ((A > B) AB) => A oraz ((A > B)A A) >
B, ani też reguły do nich odwrotne ((B > A)AA) > B, ((B > A)AB) > A, rozważmy mniej klarowną sytuację. Niech dalej obowiązuje wiedza W zadana wartością
9,3. Wnioskowanie probabilistyczne
S31
logiczną prawda dla implikacji A = B i niechaj będzie prawdziwa teza B. Co możemy powiedzieć na temat tezy A? Zapiszmy twierdzenie Bayesa
AE AA
207
P(B|A A(A > B))P(A|A=> B) _ P(AJA > B)
P(BIA > B)
* P(BIA > B)
gdyż z naszej tabeli 9.3 wynika, że jeśli wartością logiczną tezy A A (A > B) jest prawda, to teza B też jest prawdziwa. Jednakże założenie prawdziwości samej implikacji A
=
B nie pociąga za sobą bezwzględnej
prawdziwości
tezy
B. Oznacza
to, że
P(B|A = B) jest mniejsze, a co najwyżej równe jedności, a tym samym mamy związek
P(A|B A (A > B)) > P(A|A = B), czyli stwierdziwszy prawdziwość tezy B, teza A staje się bardziej prawdopodobna, choć niekoniecznie pewna. Obserwujemy tutaj, jak fałszywa reguła wnioskowania ((A > B)AB) + A nabiera probabilistycznych rumieńców. Przyznajmy — akceptacja dowolnej teorii fizycznej A następuje w wyniku zgromadzenia faktów eksperymentalnych B, choć
te mogą wynikać z wielu innych teorii. A)
Bardzo podobny proces zachodzi dla fałszywego schematu logicznego ((A > B)A
=
B. Przyjmijmy, że słuszna jest implikacja A >
B i przyjmijmy, że prawdą jest
A. Co możemy powiedzieć na temat tezy B? Stosowny układ twierdzenia Bayesa dla
tej sytuacji, to
B))P(B|A > B) PBIAA(A > B)) = P(A|B A (A +
P (A|A > B)
Jednakże przed chwilą pokazaliśmy, że P(A|B a (A => B)) wynika P(A|B A (A + B)) < P(AJA = B), toteż
>
P(A|A
>
B), skąd
P(B|A A (A > B)) < P(B|A > B). Widzimy, że jeśli utrącimy założenia, przestajemy wierzyć w tezę, choć wcale nie mamy takiego obowiązku.
Twierdzenie Bayesa, opisując proces zdobywania wiedzy, odzwierciedla nasze Intu-
icyjne zasady indukcyjnego rozumowania.
Nie chodzi nam tutaj o pewien szczególny
rodzaj indukcji, jaki występuje w matematyce 1 zwany indukcją matematyczną, jako że ta, mimo swej nazwy, jest par excellence schematem dedukcyjnym. Chodzi nam o codzienne metody wnioskowania, kiedy to próbujemy uogólniać pewne fakty. Na przykład, obserwując przez całe życie różne gatunki ptaków, dochodzimy do wniosku, na
drodze nieznanego nam bliżej procesu fizjologicznego w mózgu, zwanego indukcją, że upierzony stwór ze skrzydłami i czterema nogami nie istnieje w przyrodzie. Twierdzenie Bayesa usiłuje te schematy myśłowe porządkować i formalizować, nadając im matematyczną formę. Przedstawia sobą narzędzie poszerzające zasady klasycznej logiki o elementy, które moglibyśmy nazwać probabilistyczną indukcją. Nie jest to oczywiŚcie metoda niezawodna. Kant zawsze utrzymywał, że łabędzie są tylko białe. Istotnie, w całej Europie łabędzie są białe. Zoolodzy potrzebowali aż podróży do Australii, aby stwierdzić, że bywają też czarne.
532
9. Stopień racjonalnego zaufania
9.3.3. Estymacja parametrów z twierdzenia Bayesa Rozważmy zastosowanie twierdzenia Bayesa do klasycznego przykładu. Rozszerzymy omawiane w podrozdziale 9.2.4 zagadnienie dotyczące losowania kuli z urny, zakładając, że wiedza W dostarcza następujących informacji:
urna zawiera znaną liczbę N absolutnie identycznych kul, z jedyną różnicą,
= N — K jest
PEER
że znana liczba K pośród nich jest białych, a reszta M
z
czarnych. Nie wiemy kto, kiedy i jak umieścił kule w urnie. Losowanie to odbywa się z zawiązanymi oczami i jest bez zwracania. Niech tezy B, oraz C, oznaczają: e B,: w i-tym losowaniu wydobyto z urny kulę białą,
e C,: w j-tym losowaniu wydobyto z urny kulę czarną. Rozważmy prawdopodobieństwo P(B; A B,|W), które na mocy prawa mnożenia
(9.21) znajdujemy jako
P(B, A B,|W) = P(B,|W)P(B>|B, AW). Pierwszy czynnik w tym wyrażeniu już znamy — dany jest on związkiem (9.28). Drugi wyprowadzamy w sposób analogiczny, gdyż dodatkowa przesłanka B, w warunku mówi
nam, że po wylosowaniu kuli białej w pierwszej turze, w urnie pozostaje już tylko N— 1 kul, z czego K — I to kule białe. Łącznie daje nam to
P(B; A B|W)= KK
37
NN-1
Kontynuując, znajdujemy, że prawdopodobieństwo P (B; ABzA: : -:ABz,|W) wylosowania k białych kul w pierwszych k ciągnieniach, wynosi
KK-1 K-k+1l KKUN...r,
byłby zapisem wyniku n-krotnego losowania za pomocą liczby w systemie, którego
podstawą jest liczba m (jeśli rzucamy sześcienną kostką do gry, to liczba 3405 oznaczałaby, w systemie szóstkowym, że wykonaliśmy cztery losowania, wynikiem pierwszego była „czwórka”, drugiego „piątka”, trzeciego „jedynka”, a czwar-
tego „szóstka). Takie sformułowanie problemu ma tę własność, że uciekamy na-
wet od pojęcia losowania i jego repetycji. Jedyne, czym dysponujemy, to układ
535
536
9. Stopień racjonalnego zaufania
n-cyfrowych liczb, których pełny nabór wynosi m”. W warunkach zasady nieistotności każda z tych możliwości ma jednakowe prawdopodobieństwo, zadane przez
m". Niechaj przedmiotem naszego zainteresowania będzie podzbiór $ owych m” wyników, złożony z s elementów. Jakie jest prawdopodobieństwo, że k spośród n znaków ryr...r„ trafi do podzbioru S? Łatwiej będzie odpowiedzieć na to py-
tanie, jeśli zaproponujemy pewien model. Niech m oznacza liczbę komórek, do których może trafić kulka w pojedynczym losowaniu. Wykonujemy n losowań,
czyli umieszczamy n kulek w m komórkach. Jakie jest prawdopodobieństwo, że k kulek trafi do grupy $ komórek? Musimy obliczyć liczbę sposobów, na które taką
sytuację możemy zrealizować. Liczbę k kulek spośród n możemy wybrać na (>) sposobów. Owe k kulek w wybranych s komórkach możemy ułożyć na s* sposo-
bów, a pozostałe n — k kulek możemy rozłożyć wśród pozostałych m — s komórek na (m — s)""* sposobów. Daje nam to poszukiwane prawdopodobieństwo:
1
/ny,
B(kls, m,n, W) W) =— - (4):
(m ——5)" s)
2
(nys* (m=s)"*
= (Z) — - ——|-—
ny,
m
= (Z) 8'(1—09)” (1—09)”-,
gdzie 0 = s/m.
Widzimy, że u podstaw rozkładu dwumianowego nie leży wcale fizyczna niezależność poszczególnych aktów losowania. Jest to rezultat czysto kombinatoryczny,
wynikający z symetrii problemu wyrażonej brakiem preferencji dla któregokolwiek z m” możliwych rezultatów. Wynik ten musi mieć głębokie konsekwencje dla interpretacji pozostałych, szeroko stosowanych rozkładów prawdopodobieństwa, takich
jak Poissona, wykładniczego, gaussowskiego 1 ich pochodnych, które, jak to pokazaliśmy w rozdziale 5, wywodzą się ze schematu Bernoulliego.
n
Rozkład (9.34) posłuży nam za pierwszy przykład wnioskowania probabilistycznego.
Przypuśćmy, że dokonaliśmy, wg opisanego modelu, n losowań, w wyniku których uzy-
skaliśmy k białych kul. Niechaj liczba K białych kul w urnie nie jest nam znana. Oznacza
to, że nasza obecna wiedza W jest uboższa od wiedzy przedstawionej na początku niniej-
szego podrozdziału właśnie o tę informację, ale jednocześnie bogatsza jest o informację o liczbie k wylosowanych białych kul i liczbie n losowań. Chcemy ocenić liczbę K.
Wykorzystamy do tego prawo mnożenia (9.21), które zapiszemy w postaci P(k, K|n, N, W) = P(kln, N, W)P(K|n, N,k, W) = P(K|n, N, W)H(k|N,K,n,
W)
i rozwiążemy je względem poszukiwanego prawdopodobieństwa P(K|n, N,k, W)
P(K|n,N,k, W) =H(KIN,K,n, W)
P(K|n,N, W) P(kln, N, W):
(9.35)
uzyskując twierdzenia Bayesa (9.29) „skrojone” do naszego problemu. W związku tym
wielkość H(k|N, K,n, W) to funkcja wiarogodności P(D|H A W) przy zadanej liczbie K, czyli rozkład hipergeometryczny, do którego podstawiamy uzyskaną daną eksperymentalną k. Czynnik normalizacyjny P(k|n, N, W), czyli P(D|W), określimy za
9,3. Wnioskowanie probabilistyczne
537
moment, gdyż najpierw musimy podjąć decyzję co do zaczątku P(K|n, N, W), oznaczo-
nego we wzorze (9.29) symbolem P(H|W). Przypomnijmy, wielkość ta określa prawdopodobieństwa różnych liczb K białych kul w urnie, w warunkach naszej wiedzy
o urnie. Ponieważ wiedza ta jest niedostateczna w treści, które pozwoliłyby rozstrzy-
gnąć o uprzywilejowaniu jakiejkolwiek z dopuszczalnej wartości K = 0,1,2,...,N, więc przyjmiemy, w zgodzie z zasadą nieistotności (9.27), następującą postać zaczątku:
1 P(K|n,N,W)=——, (K|n "NZ
K=0,1,2,...,N.
9.36 (9.36)
Takie równoprawne potraktowanie wszystkich możliwości pierwszy zaproponował
Bayes, a Laplace podniósł je do fundamentalnej zasady niedostateczności (Principle of
Insufficient Reason), zwanej dziś także postulatem Bayesa
jeśli nic nie jest nam wiadome a priori o poszczególnych możliwych hipote-
zach, prawdopodobieństwa tych hipotez powinniśmy przyjąć równe.
Za pomocą
(9.35)
związku
(5.3) znajdujemy
SE
czynnik
normujący
4)=(„21)
—
(wś
m
n+ 1
prawdopodobieństwo
,
a stąd pełną postać rozkładu liczby K białych kul w urnie
PiknNkW= (7)
-|
(90,3).
k
K=k
N+ŁN
KN/N-K
K+1-0(7)(-:)
"LP
(21)
2
/K+ŁIN/N-K (200,3)
k+1 —1=(N+2)—— — 1, (A+
nF2
gdzie ponownie wykorzystaliśmy związek (5.3). W sytuacji, gdy liczby N, n oraz k są duże, wynik ten różni się marginalnie od mody (9.38), co wskazuje na narastającą
symetrię prawdopodobieństwa wynikowego jako funkcji K. Jak możemy określić margines niepewności dla naszego oszacowania 6 ułamka bia-
łych kul w urnie? Jako stosowne narzędzie wybierzemy wariancję rozkładu wynikowego. Nie będziemy podawać szczegółowych obliczeń, odwołamy się jedynie do następującej
własności współczynników Newtona:
(K +2)(K + v(3) = (k+2D(k + v(; k+22).
która istotnie łagodzi trud obliczeń:
| k+1 k+1 Y[K]= ——— | 1 — |N+20(N —n). —riaęz( 3)! 2X ) Tak oto rozwiązaliśmy prosty problem probabilistyczny (w konwencjonalnej teorii określilibyśmy go mianem: statystyczny) znalezienia estymatora punktowego i przedzia-
łowego (używając języka statystyki matematycznej), wychodząc z jednego narzędzia —
twierdzenia Bayesa — i wykorzystując standardowe metody teorii prawdopodobieństwa. Na miejscu będzie tutaj jedna uwaga dotycząca wykorzystanych pojęć wartości oczekiwanej i wariancji, wywodzących się ze „starej” teorii. Zgodnie z tym, co powiedzieliśmy na temat różnic między konwencjonalną i nową, współczesną teorią prawdopodobieństwa, wielkości te nie opisują wielkości K jako zmiennej losowej, gdyż takie pojęcie w nowej teorii nie istnieje. To, co te wielkości opisują, odnosi się nie do ocenianej wielkości K, lecz do rozkładu prawdopodobieństwa tej wielkości. Dłatego (K) to nie wartość oczekiwana wielkości K, która miałaby się jakoby zmieniać w niekontrolowany sposób, a wartość oczekiwana prezentowałaby typową wartość tej wielkości, lecz jest to wartość oczekiwana rozkładu wynikowego P(K |n, N,k, W). Wielkość ta opisuje cechę
rozkładu,
a nie własność
K. Podobnie
ma się rzecz i z wariancją V[K|]. Wielkość
ta
nie podaje nam rozmiarów fluktuacji wielkości K, lecz szerokość rozkładu wynikowego.
Za pomocą dyspersji D[K]
oceniamy rozsądny obszar rozkładu, mierzony jego argu-
mentem, w którym jest on istotnie różny od zera, a przez to zakres możliwych wartości liczby białych kul, jakie mogą się znajdować w urnie. Interpretacja ta, wraz z odrzuceniem pojęcia zmiennej losowej tłumaczy, dlaczego odstąpiliśmy od specjalnej notacji (czcionka bezszeryfowa) dla argumentów w wielkościach oczekiwanych i wariancjach, jakie pojawiły się powyżej. Nowe zastosowanie starych wielkości jest przyczyną ucieczki od terminologii jednoznacznie kojarzonej z konwencjonalną teorią. W szczególności, dla wartości oczekiwanej
9.3. Wnioskowanie probabilistyczne
539
stosowany jest w literaturze angielskojęzycznej termin przewidywanie (prevision), który
autor chciałby zastąpić słowem nadzieja rozkładu lub po prostu nadzieja, przywracając teorii prawdopodobieństwa, jej stary, dawno zapomniany termin, dobrze oddający
sens dyskutowanej wielkości. Termin wariancja (a tym bardziej dyspersja) nie znalazł
jeszcze swego „współczesnego” zamiennika. -——
Przykład 9.3.3
Reguła następstw Laplace'a Z. uwagi na znaczenie historyczne, znajdziemy prawdopodobieństwo tezy B,.,, że po wyciągnięciu n kul z urny, wśród których było k kul koloru białego, następną
kulą, jaką wyciągniemy, będzie kula biała. Jeśli zdefiniujemy tezę Dz: w urnie znajduje się K białych kul, to teza Dy v D, v D, V::: v Dy jest bez wątpienia słuszna, dlatego też
N
P(B,„|W) = P(B,, A (DOY Di V...V Dy) |W) = | ,P(B,. A DklW) K=0
N
= > P(B,,.|Dx A W)P(Dk|W). K=0
Pierwszy czynnik pod znakiem sumy to prawdopodobieństwo wydobycia białej kuli przy następnym po n-tym losowaniu, przy założeniu, że w urnie pierwotnie znajdowało się K kul białych, dlatego też dane jest ono wyrażeniem typu (9.28)
K-k
P(B,„„|DkAW)=——,
N—n
natomiast drugi czynnik to rozkład wynikowy razem, otrzymujemy
(9.37). Składając obie informacje
raw) ERZE(O(Z5) K=
Posiłkując się wynikiem dla nadziei (K), znajdujemy
P(B,„|W)
k+l1
+2
(9.39)
Uzyskany rezultat zwany jest regułą następstw Laplace'a. Odegrała ona, bę-
dąc źródłem wielu kontrowersji, ważną rolę w historii rachunku prawdopodobień-
stwa. Za liczne nieporozumienia odpowiedzialny jest sam Laplace, który reklamował swą regułę, jak współczesny szef działu sprzedaży, twierdząc, że skoro Świat powstał 5000 lat temu (25 lutego w roku 3123 przed naszą erą), to gotów był on
dać 1826213 (5000.365, 2426 = 1826213) franków do jednego, że jutro wstanie
Słońce. Gdyby wziąć to rozumowanie za dobrą monetę, musielibyśmy uznać, że
szansa zachowania przez Słońce takich obyczajów przez następne 5000 lat wynosi niewiele więcej niż 1/3: 1 226
213
EL (; 826213 + )
1826213
= 0,368.
540
9. Stopień racjonalnego zaufania
Oczywiście, nie powinniśmy podejrzewać Laplace'a o taką naiwność. Uczony ten miał na swym koncie wiele istotnych osiągnięć z zakresu astronomii i dobrze
wiedział, że za wschody i zachody Słońca odpowiedzialne są znane i sprawdzone prawa fizyki Newtona, a nasza wiedza o zjawiskach astronomicznych nie sprowadza
się do prymitywnej alternatywy. Zapominało o tym jednak wielu jego następców, którzy z całą powagą, a przeciw posiadanej wiedzy, atakowali regułę następstw np. w następujący sposób: roczne dziecko ma szansę tylko 2/3 dotrwania do końca
drugiego roku swego życia, podczas gdy jego prapradziadek w wieku 98 lat ma szansę przeżycia następnego roku znacznie większą i bardzo bliską jedności, bo
równą 99/100.
TI
Rozważmy, jakiej zmianie będzie ulegał problem estymacji dyskretnego parametru K, jaki omówiliśmy wyżej, jeśli zarówno liczba K białych kul, jak i liczba N
wszystkich kul będzie bardzo duża. Gdybyśmy, zamiast hipotez o liczbie K rozważali
hipotezy dotyczące stosunku 6 = K/N, wtedy liczba możliwych hipotez na odcinku [0; 1] będzie bardzo „gęsta”, przy czym oczekujemy, że prawdopodobieństwa wynikowe dla hipotez, dla których wartości 6 będą zbliżone, będą niewiele różniły się od siebie. Naturalne stanie się wtedy pytanie nie o prawdopodobieństwo wynikowe konkretnej wartości 6, lecz o prawdopodobieństwo wynikowe, że wartość ta znajdzie się w pewnym przedziale A6 wokół wartości 6. W ten sposób problem przekształci się w zagadnienie oceny ciągłego parametru 0, zadanego przez granicę stosunku K/N, gdy zarówno
liczba K, jak i liczba N dążą do nieskończoności. Spójrzmy na twierdzenie Bayesa (9.31) P(H,|DAW)
=P(DIH,
AW)
P(H,|W)
—
>” P(D|H, A W)P(K,|W) i=|
1 zastanówmy się, jakiej ono ulega zmianie, jeśli liczba hipotez wzrasta do nieskończo-
ności, wypełniając „szczelnie” odcinek [0; 1]. Wielkość P(D|H;, A W), czyli funkcja wiarogodności nie stwarza specjalnych problemów, gdyż jest to granica wyrażenia na
prawdopodobieństwo tezy, nazwijmy ją BęyC„-k, określającej kolejność pojawiania się kul różnych kolorów, przy czym kul białych znaleziono łącznie k, a czarnych n — k, co
opisane jest wzorem (9.32). Jak to wynika z dyskusji wzoru (9.33), prawdopodobieństwo
wylosowania kuli białej w ciągnieniu o numerze i +- 1, jeśli wcześniej wylosowaliśmy już k takich kul oraz i — k kul czarnych, dane jest przez K-0o,K/N->8
N —i
natomiast prawdopodobieństwo wylosowania kuli czarnej N-K-(i-k) N —i
=
N N —i
_—
K+i—k N —i
— N>0%,K-—>00,K/N—>8
1-9.
9,3. Wnioskowanie probabilistyczne
541
Widzimy, że pierwsze losowanie daje nam funkcję wiarogodności jako 0 bądź
1 —9,
a kazde następne powoduje uzupełnienie jej o kolejne takie czynniki, prowadząc w rezultacie do ostatecznej postaci
P(DIH, AW) = P(BpC,-vlW)
NoE
EIN
L (k, nio, W) =0'(1—0)7"*.
Zauważmy, że taka analiza wyklucza trudności związane z decyzją o zakończenia eks-
perymentu, które były źródłem kłopotów w przykładzie 9.1.4. W konwencjonalnej teorii
liczba n losowań może być, decyzją eksperymentatora, umieszczona w warunku, podczas
gdy obecnie zalicza się ona do danych D, gdyż to dane właśnie określają tę wielkość, a nie przyjęta z góry reguła zatrzymania.
Oczywiście, możemy założyć, że dane będziemy zbierać tak długo, aż nazbieramy n przypadków. Wtedy funkcją wiarogodności jest P(D|n, H; AW). Jednakże, skoro w danych D mamy informację zarówno o liczbie n, jak i k przypadków, zatem P(D|n, H, AW)
= P(k,nlin, H;, AW)
= P(kin, H; AW)P(nln, H; AW)
= P(kln, H;, NW),
gdyz P(nln, H; AW) = 1. Oznacza to, że powtarzanie się jest bez znaczenia. Bez względu na to, czy w danych zawarta jest informacja, którą znamy z wiedzy wstępnej, czy też nie — funkcja wiarogodności pozostaje bez zmiany. Własność ta powoduje, że reguła zatrzymania w teorii bayesowskiej przestaje odgrywać jakąkolwiek rolę. Otóż z prawa mnożenia prawdopodobieństw otrzymujemy P(H,,n|DAW)
= P(H,;|n, DAW)P(n|DAW)=P(nlH;
a ponieważ P(n|D AW)
= 1, a także P(n|H; ADAW)=|1, P(H;|n, DAW)
Tym
samym
dowolne
kryterium
ADAW)P(H;|DAW), więc
= P(H,|IDAW).
określające
koniec
(9.40)
eksperymentu jest równie
i każde z nich doprowadzi nas do tej samej postaci rozkładu wynikowego. Zajmijmy
się teraz prawdopodobieństwem
wynikowym.
Wielkość
dobre
ta ma określać
prawdopodobieństwo, że ułamek 6 znajdzie się w przedziale d9 wokół wartości 6. Określa nam to P(H;|D AW) jako wielkość infinitezymalnie małą, proporcjonalną do prze-
działu dó. Współczynnik proporcjonalności to funkcja w(6|k, n, W) gęstości rozkładu wynikowego dla poszukiwanego parametru 6. Konsystencja matematyczna wymaga, by prawdopodobieństwo zaczątkowe także było dane wyrażeniem z(6|W) do, gdzie z(6|W) jest gęstością dla tego parametru. W konsekwencji suma w mianowniku po wszystkich hipotezach przeobraża się w całkę względem wartości tego parametru, dając ostatecznie
ciągłą wersję twierdzenia Bayesa
w(ólk, n, W) = - £(k, nić, W)z(61W)
J £(k,n|0, W)z(8|W) do 0
(9.41)
542
9. Stopień racjonalnego zaufania
Twierdzenie to łatwo możemy uogólnić dla przypadku, gdy zarówno poszukiwany
parametr O, jak i wielkości mierzone x przybierają wartości ciągłe z dowolnego obszaru:
w(6|x, W) =
CH DZEW)
f LQ, W)z(6|W)do
(9.42)
—00
Zastanówmy się teraz, jak zasadę nieistotności, wyrażoną przez (9.36) dla przypadku
dyskretnego, możemy zaadaptować do nowej sytuacji. Wiedza W podpowiada nam, że skoro każda z hipotez o wartości K jest równie prawdopodobna, więc liczba hipotez w przedziale AK wokół K jest taka sama dla każdej z wartości K i zależy jedynie od
szerokości przedziału AK. Stąd też liczba hipotez o wartości stosunku 8 w przedziale
A8 także będzie określona jedynie szerokością tego przedziału i nie będzie zależała od
samej wartości parametru 6. Wnioskujemy stąd, że w granicznym przypadku prawdopodobieństwo zaczątkowe z(6|W) parametru 6 powinno być zadane rozkładem jednostajnym w przedziale określonym przez zakres zmienności parametru, czyli na odcinku [0; 1]:
z(8|W)=l, Prawdopodobieństwo
zaczątkowe,
0.a _|_H(N (N + 1)2
_ 1
NĄ!
Cc
|N, , Ną, A: Ng, B; W)
Ng!
x
- No Nc!(NA — NC)! (Nz — NC)! y N=Nmin
1 N=NIN — NZ)! l N+1(N-N,—Nz+NQ)! (N+1)!
547
548
9. Stopień racjonalnego zaufania
gdzie jeden z czynników N +-1 włączyliśmy do funkcji N!, natomiast N,, = N, +
Ng — Nc, co wynika z faktu, że niewątpliwie liczba N wszystkich cząstek nie może być mniejsza od tej, jaką zarejestrowały nasze detektory. Asymptotycznie wyrazy
sumowanego szeregu zachowują się jak N""c"*, a ponieważ zazwyczaj liczba Ne
jest duża, więc są one bardzo szybko zbieżne do zera, dlatego też górną granicę sumy możemy bezpiecznie przesunąć do nieskończoności. Jeśli takie przybliżenie
będziemy także stosować we wszelkich obliczeniach, w których wystąpi sumowanie po N, to czynnik normujący możemy zapisać w uproszczonej postaci Ż =
NĄ! NZ! NC!(NA — NO)! (NB — NO)!
3 N=Npin
I (N-N!(NNZ)! l — N+1(N-N,=—Ns+N(N+ 1)! O)!
a o zaczątku P(N|W) zapomnieć, gdyż czynnik ł/N» uprości się za każdym razem 1 zniknie z dalszych wyrażeń. Dokonamy teraz paru podstawień: N="N—N"Ng+NO
ZN
—nyp,
NN=n+Ng—No=zn+ng,
N=—Ng=n+N,—Ncz=n-+ny,
NąB = Ną
hp + Nę = Nin;
które pozwolą zapisać wyrażenie na Z w nieco innej formie
- Ne!((Na — NO)! (Ns— NO)! żn+nys+tl I (N, + 137 (NZ + 1) FN + X
c —
(n+tnąp +1)!
ni
>
1)F'(n4 + 1)T' (ng + 1)
l Tn+n4 +1)T(n+n.+1) 1 n + nąp +1 T' (n + nyg +2) nt
Sumy tu podanej nie można obliczyć w sposób analityczny, jeśli nie dokonamy pewnego przybliżenia. Otóż, w warunkach każdego eksperymentu zajmującego się badaniem efektywności detektora, liczba n 45, przedstawiająca łączną liczbę cząstek widzianych przez oba liczniki, jest duża, dlatego też z wyśmienitym przybliżeniem ułamek (n + n4g + 1)! możemy zastąpić przez (n + nąp +2)" Z
2
F(N,
- PN
+
1)F' (NB
+ 1)
PF
(ną4B
+ 3)
X
+ DT mas +3) D' (na + 1) (ng +1)
x 2,—
in!
F(n + nap + 3)
1 wykorzystać definicję funkcji hipergeometrycznej F (a, b, c; x) F(a,b,c;x)
=
I (c)
3 Ir (n +a)T'(n +b) x"
rf0rtb 4
Tn+o)
nn
która ma tę szczęśliwą własność, że znamy jej zamkniętą postać dla jednostkowej wartości argumentu x
_ FP(o)F'(c —a —b)
F(a,b,cGl)=TCZArc=b)
549
9,3. Wnioskowanie probabilistyczne
Po podstawieniu 1 uproszczeniu otrzymujemy ostateczną postać czynnika normu-
jącego Z
„ TN, + DT (NZ + 1) =
TNOEDT(st3)
F(n,
74
+ l,ngp
+1, Nąp + 3, 1)
*
m
)
=
l
(NA + 1)(N5 + 1)
Dla kompletności zapiszmy jeszcze raz rozkład wynikowy, wyrażając go przez N, Ną, Ng OTAZ Nąp, Zachowując także tu i ówdzie, dla wygody, symbol No: w(n, Pą, Pelna, NB, Nap, W)
l
F'(n+nąg + 1)
"ZTN+ŁDTn,
bo
a+Nc
+DT(nz +1) n!?*
(= pa)
rea p "e(1— pzy"
Pozostawimy Czytelnikowi wykazanie, że wartości parametrów py, pp Oraz N, które maksymalizują ten rozkład, to znane nam oceny znalezione w przykładach
2.4.2, 5.4.10 oraz 7.2.9. Zajmiemy się obliczeniem innych ocen, zadanych nadziejami. Zaczniemy od
nadziei efektywności pą. Marginalizując względem p,, usuniemy najpierw zależność od efektywności pp: w(n,
ALTELTE
l
HAB;
w)
5 (n +nyąg
+
1)
"ZTN+DTn,+DT(n
—l
py: *"C(l
—
PA)”
X
+1) ni
l - |
BAC
(|
—
ps)" "A
dpp
0
1 T(N; +1) Ta+n,+D1 pa — p) "ZTN+DTn,+DTnz+D) ntnyatl ni” PA
n+ng
1 obliczymy nadzieję l
F(NZ + 1)
(pa) = 7 TNc+DTr+DTO+ D —
X >
[(n+n,y + 1) 1 |
0 ntnatl
nl
1
PA7
A+NC+1
( I — PA) =+eB d PA
0
_1
F(N, + 2)T (Nz + 1)
o
x
a )
Fn+n.a WE
I'(n
+)Fn+nzs+1) +
Nnąp
+ 3)
1 nt
Ponownie, sumy tej nie potrafimy obliczyć analitycznie, jeśli nie zastosujemy przy-
bliżenia analogicznego do tego, jakiego użyliśmy przy obliczaniu czynnika Z. Tym razem musimy w wyrażeniu n + n4g + 1 zastąpić jedynkę trójką
.
9. Stopień racjonalnego zaufania
(Pa)
[le
550
1 TNA +2)T(Nz + 1) Z
T(NC
y_
1)7' (nąB
+
+ 4)
FI (n,
+
1)7' (ng
F(n+n, + DFn+ng+1)
—
_
T (nas + 4)
-ZT(NC+DT(nas +4) _ (N4+ D(Nc +1) „Ne (Na +20(Ns +2)
F(n,
+
1)
L
I (n + nąp +4)
I PF(NA + 2)F (NZ + 1)
x
n! +
1, ng
+ 1,
Nąp
+4;
1)
Naj
Wynik ten jest w znakomitej zgodności z rezultatem konwencjonalnym. Opanowawszy technikę funkcji hipergeometrycznej, łatwo znajdziemy wyraże-
nie na wariancję efektywności detektora A. Nadzieja kwadratu efektywności tego
detektora wynosi 2
PA
„_ TNA +3)T (mas + 3)F(na + 1, ng + 1, nas F3; 1)
TOY DTGwE5FGat nat ln t3D
_ (Na + 1)(NC + 1)(Nc + 2)
— (Na Ł3)(N3 + 2)(N5 +3)
skąd otrzymujemy wariancję y [Pa]
s (NA + 1)(Nc + 1)(NC + 2) s (N + D(NC + 1)? x (pa) U — (PA) (NĄ + 3)(Np +2)(N5 +3) (N4 + 2)7(NB + 2)? Ng
Podobne rezultaty otrzymujemy dla efektywności detektora B, wystarczy jedynie indeks A zastąpić indeksem B (pz)
[>]
"8
Z
(NZ + 1)(NC + 1)
(N3+D(N1+2)
„Ne
Na
Z (Nz + 1)(VCc + 1)(NCc + 2) a (Nz + 1)Ż(NC + 1)? m (Ps) (l — (Pz))
(Nz + 3)(NA + 2)(N4, +3)
(Ns+27(N, + 2)?
NĄ
Przejdziemy teraz do oceny całkowitej liczby N przypadków. Obliczamy
(N+ 1) = (n+ nag + 1)
_1 DI(N, + 1)T (NZ + 1) > Z T(Nc+1)F' (ny + 1)T' (ng + 1) z yo —
tras t 1Fn+ną N +n,B + 1
+I)Tn+ng.+1) 1
I' (n + nąp + 2)
n!
i widzimy, że nie musimy dokonywać żadnych przybliżeń:
(N+1)=
l T(N, + DT (NB + 1) x Z T(N,+1)T' (n4 + 1)T' (ng + 1)
—
rTn+tn,+UT(n+ng+1)
e
F' (n + nąp + 2)
93 _
| F(N4 + 1)F(NZ + 1)
"ZT(NC+ DT (nas +2)
I
—
n!
F (ną+ l, l,ng+ 1, 1, nąp + 2;1)= )
ZN. .
9.3. Wnioskowanie probabilistyczne
Po podstawieniu, otrzymujemy (N, + 1)(N3 + 1) _12
(N) 2
NANe
Nc
Nę
Zajmiemy się także wariancją. Obliczymy nadzieję kwadratu wielkości N + 1:
(N+ 1)
I'(N, + DT (Np + 1)
=—-
ZT(N
x
+ 1)T'(n, + 1)7 (ng + 1)
m T(n+n, (n +nąg + 1) > 48
_1
x
+DT(n +np+1) 1 — FT (n + nąpg + 2) n!
T(N, + DU(NZ + 1)
"ZT(N.+1)T (ną + 1)T' (ng +1)
>
y rn+n, +]Tn+n.+1) 1 0
I'(n + nąg + 1)
_1ITWA+DT(Nz+1) Z TN + DT (naz + 1) _d1 NaNB " Z(N—
n!
F(n, + 1,ng+ 1,nąp + 1; 1)
DNC
a w rezultacie
(N+1)7)2
N4(NA + 1)Np(NZ + 1)
(Nc — 1)Nc
|
Ponieważ dla wariancji obowiązuje załeżność Y [x + a] = Y[x], gdzie a jest dowolną stałą, toteż YTN]=
NANA + DNS(Ns +1)
(Na +1) (Nz + 1)” = (N) 1 — (pa) — (PB)
(Nc — 1)Nę
NC
(Pa) (PB)
Wynik ten jest jednak ułomny, gdyż dopuszcza ujemne wartości wariancji. Jest to artefakt przybliżenia zastosowanego przy obliczaniu czynnika normującego Z. Przybliżenie l 1 n+nągp+1
- n+Nąp +2
jest zbyt grube. Subtelniejsze będzie:
l
5
n+nąs+tl
l
l
n+nąs +2 * (n + nas +2)(n + nas +3).
W konsekwencji otrzymujemy nowy czynnik normujący
-
- (Na +1)(Nz + 1)
(+
75675)
(NA + 2)(N3 +2)/'
który asymptotycznie nie różni się od pierwotnego. Dostarcza on nowego wyrażenia dla nadziei liczby cząstek
551
552
9. Stopień racjonałnego zaufania
(N+ 1) = (N, + D(Ns +1)
MAJ
Ne
1 +
Nę
t
l
Nę
(NĄ + 2)(N5 + 2) 1 „zdrowego” matematycznie dla wariancji
(I = (PA) — (PB))
VIN]I=(N)
|
Przykład 9.3.6 Estymacja stałej Natury Wróćmy do przykładu 2.6.8 i rozważmy wpływ, jaki hipotetyczny rozkład (2.28) stałych Natury wywiera na wyniki uzyskiwane przez eksperymentatorów. ważmy pomiar x;, jeden spośród n, opisany modelem rozkładu Gaussa N
(x,10,
Oi,
Ww)
l
= 4)
gdzie
© jest poszukiwaną
wartością
wszystkich takich pomiarów wynosi L (x|8,0, W
x
21
0;
(
(x; —
P
i=1
Roz-
|
207
stałej Natury.
-mp|-57
Funkcja
|
wiarogodności
dla
57 — 6) )Fzszz 0;
Ponieważ znamy postać (2.28) prawdopodobieństwa zaczątkowego
z(8|W) x 4
(9.47)
możemy obliczyć prawdopodobieństwo wynikowe
vółe.0.W) a gap (-z7 0). —_PpYŻ
i==]
i
Wartość modalną możemy łatwo znałeźć, jeśli z prawdopodobieństwa wynikowego wyciągniemy logarytm, który różniczkowany względem parametru 6 dostarcza równania
a tł 41 — Inw(ó|x,o, W) = -5 +27 00
Po przekształceniu, uzyskujemy równanie kwadratowe
BY
pO
t1=0.
zz] 0;
—
o rozwiązaniu Omoda
=
NI
-——
(Pa) (PB)
(X +
/37 407),
9.3. Wnioskowanie probabilistyczne
gdzie
,
Xw
25m2 i=1
=
Oi
5
oraz
ń
i=1 0;
2
I
m
w
zi
—= 2
|
—. o?
Gi
Z dwóch dopuszczalnych rozwiązań wybieramy to ze znakiem „+, ponieważ drugie rozwiązanie opisuje minimum rozkładu wynikowego. W wielkości x, odnajdujemy średnią ważoną pomiarów, a o„ to jej wariancja (podrozdział 4.3). Jak to widzieliśmy już wcześniej, także i w tym przypadku duża liczba pomiarów prowadzi do konwencjonalnego
wyniku
Onoda £ xw. Jednakże
dla kazdej
skończonej
liczby
danych nasz wynik jest, co do wartości, mniejszy niż standardowa Średnia ważona.
Poprawka, jaką ustanawia nasz nowy wynik, wynika z monotonicznie malejącego przebiegu zaczątku, wskazującego na preferencję dla małych wartości stałej. Spójrzmy, jakiej zmiany w ocenianej wartości możemy się spodziewać, je-
Śli zastosujemy nową formułę. Kompendium Review of Particle Properties podaje dla czasów życia mezonu r” następujące cztery wartości (w jednostkach 1077 s): 8,97 + 0,28, 8,2 + 0,4, 5,6 + 0,6 oraz 9,0 + 0,68 i znajduje ich średnią ważoną: 8,4 + 0,6. Jeśli powtórzymy obliczenia wykonane przez autorów kompendium i zachowamy większą liczbę cyfr znaczących, wtedy dla Średniej otrzymamy
następujący wynik: (8,385 + 0,611) : 107''s. Zastosowanie nowej formuły prowa-
dzi do wartości 8,371 - 107''s. Widzimy, że różnica między dwoma podejściami
stanowi znikomy ułamek niepewności wartości mierzonej, nawet w sytuacji, gdy
dysponujemy jedynie czterema pomiarami. Istotniejszej poprawki moglibyśmy oczekiwać jedynie wtedy, gdy pomiarów jest bardzo mało — jeden lub dwa, a błędy indywidualnych pomiarów stanowią
istotny ułamek wartości mierzonej. Wtedy też powinniśmy być bardziej ostrożni w cytowaniu wartości tej stałej, o ile jesteśmy przekonani o słuszności tezy głoszącej istnienie uniwersalnego prawa określającego rozkład stałych Natury. Gdyby odkrywcy (J. K. Christenson, W. J. Cronin, V. L. Fitch i F. Turlay, Phys. Rev. Letters 13 (1964), 138), łamania symetrii parzystości kombinowanej CP ulegli ta-
kiemu poglądowi, wtedy zamiast wartości (2,0-E0,4) : 107” dla stosunku rozpadów mezonu K; na dwa piony do wszystkich kanałów rozpadu podaliby raczej wartość (1,9 + 0,4) : 107. Zauważmy jednak, że wynikowy rozkład w(60|x, o, W), z uwagi na osobliwość
w zerze, nie jest normowalny, tym samym nie możemy określić wariancji i nadziei
parametru 0, jeśli arbitralnie nie ograniczymy jego zakresu zmienności.
7
Przykład 9.3.7 Odplatanie wg Bayesa Dotychczas zajmowaliśmy się odzyskiwaniem parametrów rozkładu. Teraz wykorzystamy twierdzenie Bayesa do odzyskania całego rozkładu z danych doświad-
czalnych. Abyśmy byli bardziej konkretni w naszych rozważaniach, rozpatrzymy jednowymiarowy, teoretyczny rozkład z,(x|W) argumentu x. Może to być np. rozkład kątowy w reakcji nukleonów. niskiej energii z jądrem. Dobrego opisu takiej
554
9, Stopień racjonalnego zaufania
reakcji, przy energiach do kilkunastu MeV, dostarcza tzw. model optyczny. Z mo-
delu tego można wyprowadzić wyrażenie na różniczkowy przekrój czynny, czyli właśnie rozkład kątowy. Rozkład z,(x|W)
(indeks t ma właśnie oznaczać „teore-
tyczny”) jest przykładem zaczątku wyprowadzonego z posiadanej wiedzy. Podob-
nie, dysponując dodatkową wiedzą o detektorach użytych w eksperymencie, ich własnościach i zastosowanych procedurach, możemy pokusić się o ustanowienie zaczątkowego rozkładu zą4(y|W) danych, jakie uzyskamy w tymże eksperymencie.
Z formuły (9.30) pełnego prawdopodobieństwa wynika, że obie wielkości po-
łączone są ze sobą równaniem Fredholma (gdy znany jest zaczątek za stojący po lewej stronie równości, a poszukiwany jest zaczątek z,): 00
OW) = | role WzlslW)dz. gdzie funkcja r(y|x, W) zdolności rozdzielczej eksperymentu, odpowiedzialna za wędrówkę przypadków z przedziału Ax do przedziału Ay, odgrywa rolę funkcji wiarogodności i spełnia warunek unormowania je
| rot Wydy=l1 dla każdej
wartości parametru x. Warunek te wyraża zasadę zachowania liczby
przypadków: wszystkie, które znajdują się w obszarze Ax wokół punktu x, musimy odnaleźć w pełnym spektrum wartości y. Najprostszy sposób rozwiązania równania Fredholma polega na przekształcenia go do wersji dyskretnej i przekształcenia go w układ n równań na n niewiadomych gdzie:
P, = RP, P; = (P;(Q7),..., Pa(yn)) to zestaw oczekiwanych doświadczalnych czę-
stości rejestracji przypadków w przedziałach histogramu zmiennej doświadczalnej y, P, =
(P,(x,),..., P,(x,)) to zestaw poszukiwanych częstości w przedziałach
zmiennej x, natomiast macierz R to kwadratowa macierz wymiaru n x n elemen-
tów R(y,|x;) opisujących migrację przypadków. Rozwiązanie otrzymuje się metodą
algebraiczną, odwracając macierz R (patrz podrozdział 2.7). W podejściu bayesowskim (Ali Mohamad-Djafari, Bayesian Inference for Inverse Problems, http://arXiv.org/abs/physics/01 10093) wysiłek związany z rozwiązaniem równania Fredholma skierowany jest na wyprowadzenie rozkładu wynikowego w(x|y, W), warunkowanego wynikami eksperymentu:
w(x|y, W) a r(y|x, W)z,(x|W). Zobaczmy, jak to podejście funkcjonuje w prostej sytuacji, gdy mamy dwie, mieszające się między
sobą klasy przypadków.
Niech jako model posłuży problem
odzyskania ułamka p przypadków sygnału w warunkach pomiaru z zaburzającym tłem. Przyjmijmy, że w eksperymencie wyprodukowana została ogólna liczba n wszystkich przypadków, z których k to przypadki sygnału, a pozostałe są zanie-
czyszczeniem. Wiemy, że modelem dobrze oddającym takie zachowanie jest model rozkładu dwumianowego B(k|n, p, W), przy czym parametr p jest wielkością poszukiwaną. W procesie rejestracji, liczby k oraz n—k przypadków mieszają się mię-
dzy sobą, w wyniku czego znajdujemy pewną liczbę m przypadków sygnału oraz
9,3, Wnioskowanie probabilistyczne
n — m przypadków tła (przyjmiemy, że nasz eksperyment nie gubi przypadków). Zastanówmy się teraz nad modelem, który opisałby owo mieszanie. Przyjmijmy, że każdy z przypadków sygnału może być z pewnym prawdopodobieństwem © zarejestrowany poprawnie jako sygnał oraz z prawdopodobieństwem 1 — a jako tło, podczas gdy każdy z przypadków tła może zostać z prawdopodobieństwem 1 — 8 mylnie zaklasyfikowany jako sygnał oraz poprawnie jako tło z prawdopodobień-
stwem 8. Model ten determinuje związek między nadziejami (m) oraz (n — m) a liczbami wyprodukowanych przypadków sygnału i tła w formie liniowej relacji:
(wm)=hta
51)
=R(,-.).
którą, z uwagi na założenie o braku strat, możemy zastąpić jednym związkiem:
(m) = (a + B — 1)k + (1 — B)n. Tym samym funkcję zdolności rozdzielczej eksperymentu możemy opisać modelem dwumianowym r(m|n, k, W) = B(mln, n(k, a, B), W), gdzie
k
u(k, a, B) = (a + B — DFA
— B).
co prowadzi do rozkładu wynikowego
w(k|m, p, a, B, W) x B(mln, z (k, «, 8), W)B(kln, p, W). W
relacji tej parametr
p pozostaje nieznany,
z(p|W):
dlatego
opiszemy
go zaczątkiem
w(k, p|m, a, B, W) a B(mln, z (k, a, B), W)B(kln, p, W)z)p|W),
skąd już tylko krok do ostatecznego rozkładu: w(k|m, p,a, B, W) 1
—
Z,
m,a
n
8).
W)
2
Bnin.
(k,
a, B),
W)Btkln,
PD,
W)z(plW),
gdyż wielkość k, niedostępną eksperymentalnie, usuwamy procedurą marginalizacji. Współczynnik normujący wynosi:
1
Z(n, m, a, B), W) = 5, B(mln, r(k, a, B), W) J B(k|n, p, W)z(p|W)dp k=0
_
0
l
"n+1)),.,B(mlin, a(k,a,B), W)
Poziomice rozkładu ukazane są na rysunku 9.3 wraz z krzywą (pogrubioną) nadziei
(p), jako funkcji ułamka y = m/n opisującego obserwowaną frakcję przypadków sygnału oraz linią prostą kropkowaną: p
ko y n a«a+8-1
1-8 a«a+B8-1
555
556
9, Stopień racjonalnego zaufania
1,0 0,9
|
0,8
|
0,7 0,6 a
05 0,4 0,3 0,2 0,1 0,0
j
0,0
I
01
|
0,2
p
0,3
1
I
0,4
i
l
05
,
I
06
.
1
07
1
|
08
1
l
0,9
1
1,0
y=m/n Rys. 9.3. Poziomice rozkładu wynikowego w(p|m,ax, 8, W) na płaszczyźnie (y, p) dla przykładowych wartości n = 100, a = 0,8 oraz 8 = 0,7. Krzywa pogrubiona przedstawia zależność nadziei (p) od obserwowanego ułamka y przypadków sygnału, natomiast prosta kropkowana to rozwiązanie uzyskane z równania Py = RP,
reprezentującą rozwiązanie równania P, = RP,. Główną zaletą podejścia bayesowskiego jest uzyskanie oceny parametru p w sytuacji, w której konwencjonalne podejście doprowadza do niefizycznych rezultatów. Zauważmy, że dla osobliwej
macierzy R, tj. wtedy gdy a = 1 — 8, rozkład wynikowy w(p|m, «, B, W) sprowadza się do zaczątku z(p|W).
T)
Reguła następstw Laplace'a to narzędzie umożliwiające przewidywanie — jego war-
tości potrafimy obliczyć dopiero po wykonaniu eksperymentu, który dostarczył pary liczb n oraz k. Prawdopodobieństwo to należy do szerszej rodziny prawdopodobieństw, które moglibyśmy nazwać profetycznymi (predictive), a które konstruujemy w następujący sposób. Niech modeł zjawiska opisany będzie gęstością f (x|0, W) z nieznanym parametrem 6. Z danych doświadczalnych x, konstruujemy funkcję wiarogodności £ (x|6, W), a z twierdzenia Bayesa 1 z pomocą zaczątku z(8|W) otrzymujemy prawdopodobieństwo wynikowe w(6|x, W). Jeśli wykorzystamy prawo mnożenia prawdopodobieństw (9.21),
9.3. Wnioskowanie probabilistyczne
557
możemy usunąć zależność od parametru 8 OO
sGlx.W)= | fGo, Wywolx, W)do,
(9.48)
a otrzymamy rozkład w pełni określony przez znane wielkości. -—-
Przykład 9.3.8
Prawdopodobieństwo profetyczne — rozkład beta dwumianowy Niech model
zjawiska opisany będzie rozkładem dwumianowym
B(m|n, 6, W),
a zaczątek rozkładem beta (9.44). Zaczątek w takiej formie jest atrakcyjny, gdyż w jakimś sensie podsumowuje naszą dotychczasową wiedzę, prezentując ją w formie jednego, wielkiego eksperymentu, w którym znaleziono a + b — 2 przypadki, z których a — I okazały się sprzyjające. Tak sformułowany problem dostarcza prawdopodobieństwa wynikowego (9.45) także w postaci rozkładu beta, natomiast prawdopodobieństwo profetyczne (9.48) przyjmuje postać P(m|n,k,a,b, W) 1
=
ECO
W)w(6|n, k,a,b, W)do
0 —
1 n!
r(n
+
a
t b)
m!(n — m)! I (k +a)T'(n — k ++b)
F'(n + 1)
gmtera—l
(1
—_
0)
m+b-1
do
0
T'(n + a +b)
"Tm+DTu-=m+DTk+talrn=k+b) >
(2n —k—m I' (m +k+a )l+b)
Ten+a+b)
Jeśli wprowadzimy oznaczenia
a=a+k,
B=n+b—k,
to rozkład ten zapiszemy w konwencjonalnej formie P(m|n, a, B, W) =
'(n+1)T(a+8) T(m+a)T(n +8 —m) F'(n + a + B)T (a)T (8) T' (m + 1)T' (n—m +1)
przy czym m = 0, 1,2,...,n,
i określamy go mianem rozkładu beta dwumia-
nowego. Dla kompletu podajmy jego własności: € [m]
a =n=—5
Pim]= „Pn ta +8)
(a + B)”(a + 8+1)
W szczególności, jeśli zaczątek wybierzemy jednostajny, czyli dla a = b = 1, skąd « =k+1l, B=n—k+-1, to rozkład profetyczny będzie miał kształt
558
9. Stopień racjonalnego zaufania
P
(m|n
T'(n + 1)T'(n + 2)
)
Tk+DTm-k+DTQOn+2)
,k,W)=
r(m+k+1)T(2n-k-m+1) T(m +1)T'(n— m + 1)
o nadziei
,
m=0,1,2,...,n
kLl n
i wariancji
k+1
Y [m] lm] = 2
20
1-
k+lyn+l1
ró)nta
m
m
=2ne[]ln (1( -£|7])z):
Widzimy, że rozkład ten jest szerszy niż odpowiadający mu rozkład dwumianowy.
Przedstawia to rys. 9.4, porównujący kształt rozkładu beta dwumianowego (punkty)
określonego przez parametry n = 100 oraz k = 25, k = 50 i k =90 z kształtem rozkładu dwumianowego (słupki histogramu), określonego przez odpowiadające
parametrom k wartości parametru 6 równe 0,25, 0,5 oraz 0,9. rozkład dwumianowy (słupki) i beta dwumianowy (punkty), n = 100 0,14 r 012
|-
0,10 |
m=100 k=25 9=025
n=100 k=50 8=0,5
n=100 k=90 8=0,9
0,08 | 0,06 t 0,04 |0,02 |
0,00
0
ookżeoo 10
20
30
40
50
60
70
80
90
Rys. 9.4. Porównanie rozkładu dwumianowego (słupki) i beta dwumianowego n = 100
100
(punkty);
Rozkład beta dwumianowy stanowi interesującą alternatywę dla zwykłego roz-
kładu dwumianowego. Wyposażony jest w więcej parametrów, a więc zapewnia większą elastyczność przy dopasowywaniu do danych doświadczalnych.
Na zakończenie dyskusji elementarnych metod oceny wej teorii zwróćmy przede wszystkim uwagę na to, że taki sam, jaki otrzymalibyśmy, stosując konwencjonalne szej wiarogodności. Maksymalizując prawdopodobieństwo
T)
parametrów rozkładu w nowynik (9.38) jest dokładnie metody, tzn. zasadę najwiękwynikowe P(K|n, N,k, W),
9.3. Wnioskowanie probabilistyczne
559
maksymalizowaliśmy faktycznie wiarogodność H(k|N, K,n, W) pomnożoną przez zaczątek P(K|n, N, W), który przyjęliśmy w postaci (9.36), a więc bez jawnej załeżności od K. Gdyby nasza pierwotna wiedza W dyskryminowała pewne wartości K, a inne
faworyzowała, wynik naszego rozważania byłby różny od wyniku metody największej
wiarogodności. To zachowanie stwierdziliśmy także w wyniku (9.46), uzyskanym z maksymalizacji prawdopodobieństwa wynikowego (9.45) z zastosowaniem nieinformatywnego prawdopodobieństwa zaczątkowego (9.43). Jest to generalna cecha wnioskowania z użyciem twierdzenia Bayesa. Metody konwencjonalne to szczególny przypadek metody bayesowskiej stosowanej w sytuacji, gdy jesteśmy kompletnymi ignorantami. Wszelka dodatkowa informacja, np. z poprzedniego eksperymentu, pozwala nam uściślić wiedzę o przedmiocie, a twierdzenie Bayesa dostarcza naturalnego narzędzia do integrowania
tej wiedzy i wysnuwania ostatecznych wniosków.
I jeszcze słowo na temat własności ocen parametrów uzyskanych z zastosowaniem twierdzenia Bayesa z punktu widzenia klasycznej teorii. Przede wszystkim, estymatory bayesowskie są zgodne i asymptotycznie spełniają te same warunki co estymatory naj-
większej wiarogodności, a więc są: najefektywniejsze, mają rozkład normalny, a także są
funkcjami dostatecznych estymatorów i to niezależnie od wybranego prawdopodobień-
stwa zaczątkowego. Wynika to z faktu, że w wyrażeniu na logarytm prawdopodobieństwa wynikowego In w(0|D, W) = InL (Do, W) + Inz(0|W) + const,
pierwszy wyraz jest efektywnie n-krotnie większy niż drugi, który tym samym staje się asymptotycznie nieistotny dla dużej próby.
9.3.4. Weryfikacja hipotez z twierdzenia Bayesa Problem oceny parametrów dyskutowany w poprzednim podrozdziale prowadzony był
przy założeniu słuszności danego rozkładu. Często spotykamy znacznie poważniejsze za-
gadnienie, dotyczące oceny trafności analizowanego modelu. Jeśli model jest kwestionowany, to musi on być ulepszony bądź zastąpiony zupełnie nowym i musimy być w stanie dokonać ilościowej oceny funkcjonowania każdego z nich. Niekiedy dysponujemy kilkoma konkurującymi modelami i wskazane byłoby posiadanie narzędzia pozwalającego dokonać sądu i doprowadzić do rozstrzygnięcia. Przyjmijmy wobec tego, że do wyjaśnienia pewnego zjawiska opisywanego przez
informację D uzyskaną na drodze doświadczalnej pretenduje n różnych modeli, o których
założymy, że wykluczają się wzajemnie i wyczerpują wszystkie możliwości. To ostatnie założenie, o wyczerpywaniu, może wydawać się dość silnym ograniczeniem, jako że nigdy nie możemy przewidzieć, co geniusz jutrzejszego badacza chowa nam w zanadrzu.
Dobrym
przykładem mogą tu być wszystkie dziewiętnastowieczne próby wyjaśnienia
precesji Merkurego, które obracały się w kręgu teorii grawitacji Newtona. Jeśli jednak nie dysponujemy superteorią, to przyjmijmy postawę pozytywną i dokonajmy wyboru tego schematu, który na dzień dzisiejszy najlepiej zdaje sprawę ze stanu rzeczy. Jeśli 1 ten najlepszy model będzie miernie odtwarzał rezultaty eksperymentów, to przynajmniej będziemy mieli wskazówkę, sugerującą potrzebę dalszego wysiłku intelektualnego.
560
9, Stopień racjonalnego zaufania
Niechaj teza M; stanowi: model i jest słuszny. Rozumowanie, odniesione do układu tez M;, identyczne z tym, jakie doprowadziło nas do twierdzenia Bayesa (9.31), prowadzi do następującego, analogicznego rezultatu:
P(M,|W)
P(M,|D A W) = P(D|M,; AW)—
2, P(D|M, AW)P(M,|W)
|
(9.49)
i=l
W wyrażeniu tym, tak jak i w (9.31), mianownik to oczywisty czynnik normalizacyjny.
W
P(M;|W)
wielkości
rozpoznajemy prawdopodobieństwo zaczątkowe dla słuszności
modelu o numerze i, natomiast wielkość P(D|M; AW) zbliżona jest swym sensem do standardowej funkcji wiarogodności, jednakże z pewną różnicą. Otóż w części określa-
jącej warunki tej wielkości występuje założenie o słuszności danego modelu. Z reguły
modele zawierają w swoim sformułowaniu pewne dodatkowe wielkości, a mianowicie rozmaite parametry, których wartości mogą, lecz nie muszą być wyspecyfikowane. Wielkość P(D|M; AW) określa wiarogodność, zbiorczo, dla całego modelu, bez wdawania się w takie szczegóły techniczne i dlatego nazywana jest ona globalną wiarogodnością. Jak mamy postępować w sytuacji, gdy model nie jest do końca Ściśle określony? Przywołajmy na pomoc przykład. Niech będą nam dane wyniki doświadczenia,
w którym mierzono rozkład kątowy cząstek emitowanych z rozpadu A > a+-b. Przypu-
śćmy, że dysponujemy dwoma modelami opisującymi ten rozkład. Pierwszy z nich twierdzi, że rozkład ten powinien być izotropowy, a więc jednostajny w wielkości x = cos%: HOIW)
l = 7.
—l, (x
— u).
i=]
Wykorzystujemy zaczątek Jeffreysa i znajdujemy rozkład wynikowy dla parametru o
nSż
l
w(o|5,,n, W) =
Ż„(S.4/n)o"+! ©P (- 202
):
0)):
(9.76)
0
co też daje nam ostateczną postać rozkładu dla parametru a u(eiś.,n.W) 277
1
(
OWZAWE 3
)
zai
p
nS?
(55: )
0)=>u 20?
— x)52 ) ,
gdzie czynnik normujący wynika z przejścia granicznego
jesz) z. RE 2
_ ) n —— (UL —
o 20 —.
d
U]
Z. rozkładu tego znajdujemy, że najlepsza ocena parametru lokacji dana jest nadzieją (i jednocześnie modą)
u=(u)ED[u]=x+ Ai Wynik ten jest dokładnie taki sam, jak w konwencjonalnej teorii, jednak jakże
różna jest jego interpretacja. W tradycyjnej statystyce matematycznej powiedzielibyśmy, że statystyka ji = X podlega rozkładowi Gaussa -
O |
N (ża 5) =
/n
ąz 0 (
TE
2:
zĄ2
zy).
Wynik ten tłumaczymy na stwierdzenie, że najlepszą oceną parametru ju jest staty-
styka X, a niepewność tej statystyki wynosi o/4/n, co określamy prawdopodobień-
stwem P(u=o//n
z(u|W).
w formie minimalnie informatyw-
nej, a powtarzając rozumowanie, które doprowadziło nas do rozkładu wynikowego w(a|a, o,, W), docieramy do celu naszych rozważań
w(uly,o, W) =
|
/2n
exp (- (U — —)
o
20 2
|
Widzimy, że najlepszą oceną ji poszukiwanej wielkości „ jest poprawiony, o wynik
a kalibracji, pierwotny pomiar x: i = y = x+a, a ocena niepewności tego wyniku
to niepewność o, uzyskana przez dodanie, w kwadratach, niepewności pomiaru o, (błąd statystyczny) i kalibracji o, (błąd systematyczny). Procedurę oceny wpływu czynników systematycznych na poszukiwaną wiel-
kość ji metodą pomiaru x, o nadziei j4,, który następnie korygowany jest do wartości y o nadziei u, możemy
łatwo formalnie uogólnić na przypadek, gdy takich
czynników mamy n, a każdy z nich jest opisany wielkością a,. Chwilowo przyjmiemy ograniczające założenie, że oceny tych wielkości mają charakter czysto do-
świadczalny — są wynikiem specjałnego pomiaru, np. efektywności detektora lub parametru skali w kalibracji kalorymetru. Założenie to oznacza, że dysponujemy,
9.4. Prawdopodobieństwo bezpośrednie
wywiedzionym z wcześniejszego pomiaru a = (a;,...,a,), łącznym zaczątkiem z(a|a, W) wszystkich parametrów « = (a,,...,,). O wielkości a przyjmiemy,
że stanowi ona nadzieję (a) = a rozkładu z(a|a, W), a komplet znanych wielko-
Ści V [%,, x,] dostarcza macierzy kowariancji tego rozkładu. Rozporządzamy także
funkcją wiarogodności £ (x|u,, W) „surowego” pomiaru x, o którym założymy, że
jest równy nadziei: (j4,) = x, a niepewność o, zadaje dyspersję rozkładu wielkości ii,. Jeśli wyliczenie to uzupełnimy o zaczątek z(j4,|W), to wszystkie jego elementy możemy złożyć w całość i uzyskujemyć łączny rozkład wynikowy poszukiwanego
parametru j4, oraz układu wszystkich nieznanych czynników a, opisujących wpływ efektów systematycznych
l
w(u,,a|x,a, W) = zł (x|u,, W)z(ala, W)z(u.|W),
(9.84)
gdzie czynnik 1/Z dostarcza unormowania. Zauważmy, że rozkład ten ulega fak-
toryzacji na część zależną od j4, oraz część zależną od czynników «, wpływu. Jest to efekt naszego założenia, ukrytego w postaci zaczątku z(u,|W), o niezależności pomiaru zasadniczego, tj. wielkości „,, od pomiaru efektów systematycznych.
Gdy obiektem naszego zainteresowania jest poprawiona wielkość ju, znajdo-
wana wg recepty u = f(u,,a), wtedy w funkcji wiarogodności £ (x|ju,, W) dokonujemy zamiany parametru j4, na je, co też i prowadzi do nowej funkcji
wiarogodności £ (x|u, a, W) = £(x|f"'(u, a), W), a to, z kolei, umożliwia znalezienie łącznego rozkładu wynikowego l
w(u, x|x, a, W) = 77 (alk, w, W)z(a|a, W)z(ula, W), gdzie z(u|a, W) to zaczątek indukowany Rozkład ten, po marginalizacji:
1 w(u|x,a, W) = z | Solna
przez przekształcenie
u
=
f(u,,a).
W)z(a|a, W)z(uja, W)da,...da,,
(9.85)
jest źródłem wszelkiej informacji o wartości wielkości „e 1 jej niepewności.
Wynik analityczny, jak ten dotyczący przesunięcia skali, możemy uzyskać jedynie w najbardziej elementarnych sytuacjach — już nawet przekształcenie skalowania postaci a. = wi, nie poddaje się takiej analizie (o ile nie dobierzemy specjalnych rozkładów). Gdybyśmy potrafili wykonać wszystkie obliczenia do końca, z rozkładu (9.85) znaleźlibyśmy, niechybnie, najlepszą ocenę /4i poszukiwanej wielkości u jako pewną funkcję g(x, a) zmierzonych wartości x oraz a, czego przykład widzieliśmy powyżej, w zagadnieniu pomiaru przy użyciu przyrządu z przesunię-
tym zerem skali. Ponieważ funkcja ta nie jest nam znana, musimy zadowolić się
przybliżeniem 1 = f(x, a), wykorzystującym tę samą funkcję f, jaka łączy wartość „prawdziwą” w z wartościami „prawdziwymi” j4, oraz m. Aby ukazać Czytelnikowi, że postępowanie takie ma swoje uzasadnienie, rozważmy przez moment
przypadek, w którym zaczątek z(j4|W) wybieramy nieinformatywny, a zaczątek
z(a|a, W) nie zależy, jak to jawnie zapisaliśmy, od wielkości a, co w ogólności nie musi być prawdą (choć trudno byłoby sobie wyobrazić sytuację, w której taka
zależność by występowała). Przyjmijmy także, że nasze najlepsze oceny niezna-
nych wielkości to mody rozkładów wynikowych. Jeśli oceną parametru j4, jest moda x, to także najlepszą oceną parametru u = f(u,,a«) jest moda rozkładu w(u,a|x,a, W), a ta wynosi f(x, «), co wynika wprost z własności funkcji wiarogodności £ (x|;4,, W).
597
598
9, Stopień racjonalnego zaufania
Przyjmując przybliżenie £ = f(x,a), znajdziemy przybliżone wyrażenie na
dyspersję wielkości „w. Dokonamy tego, rozwijając w szereg, do wyrazów liniowych włącznie, zależność u = f(u,, x) względem m, oraz a, wokół punktu (x, a):
u= f(u,, a) = f(x,a) + f,(L. — x) + 3 fi (0; — a;), i=l
gdzie przez f, oraz f; oznaczyliśmy pochodne cząstkowe względem m, oraz «;, obliczone w punkcie (x, a). W przybliżeniu tym odzyskujemy naszą pierwotną propozycję: i = (u) = f(x,a). Dalej procedura przebiega jak w klasycznej statystyce matematycznej — konstruujemy różnicę u — (u) Z u — i, podnosimy
do kwadratu i obliczamy nadzieję rozkładu (9.84). W rezultacie otrzymujemy
Y[u] = (f,a0,) + Ż, fi Vla, ax] J;. i,k=l
Relacja ta, zastosowana np. do przekształcenia skalowania u = aji,, prowadzi do rezultatu
V [u] Z a”o) + x*o;,
co jest dość zabawne, gdyż wynik ten nie jest zgodny ze ścisłym obliczeniem
(at, — (a) (1,))?) = (a?) (uż) — (a)? (u)? = ozoż +ożx" +a'o?, które potrafimy wykonać, mimo że nie znamy funkcji g(x, x). Różnica spowodo-
wana jest składnikiem ożjo;, który, w warunkach uzasadniających liniową aprok-
symację związku u = aj,, jest po prostu małą mniejszego rzędu niż wielkość
ox” lub też a*”o*.
Droga, jaką dotarliśmy do wyniku (9.85), pozwala oderwać się od uprasz-
czającego założenia o doświadczalnym charakterze wartości a, wpływu
efektów
systematycznych. Często wielkości te nie pochodzą z bezpośredniego pomiaru,
lecz prezentują sobą założony w obliczeniach model opisu fizycznego zjawiska.
Dodatkowo sytuację może komplikować fakt, że w grę wchodzi parę konkurują-
cych modeli, a każdy z nich zawiera w sobie jeden lub więcej parametrów, przy czym nie wszystkie muszą być jednoznacznie określone. Niektóre z nich mogą
być rezultatem wcześniejszych dopasowań, a inne pozostawać nawet niezdefiniowane. Przypomnijmy, że problem oceny błędów systematycznych w takiej sytuacji
jest zadaniem, którego nie można rozwiązać w ramach klasycznej statystyki matematycznej. Ta nie może nam służyć pomocą dopóty, dopóki nie przeprowadzimy experimentum crucis i dokonamy wyboru poprawnego modelu. Zobaczmy, jak
„Sprawuje się” w takich warunkach teoria Bayesa.
Przyjmijmy, że dysponujemy liczbą m modeli M, (k = 1,2,...,m), przy czym z każdym z nich skojarzony jest zestaw parametrów a,, (i = 1,2,...,n,). Prowadzi to do układu m konkurencyjnych funkcji wiarogodności £ (x|j4,, My, a,, W)
rezultatu pomiarowego x, uzyskanego przy założeniu słuszności modelu M; wraz
z zestawem jego parametrów e,. Niech każdy z tych modeli realizuje się na poziomie P(M,|W) racjonalnego przekonania, a naszą ufność w słuszność specyficznych wartości właściwych mu parametrów opisuje zaczątek z(a,|M;, a,, W), gdzie wiel-
kości a, zadają najlepsze oceny parametrów a,. Wtedy każdy model przyczynia się w wymiarze
9.4. Prawdopodobieństwo bezpośrednie
w(x,
My,
a;|X,
a,
599
W) A
L
(x |£Lx,
M, OŁ,
W )z(a,|M;,
dz,
W)P(M,IW)z(iu,
|0t%,
Ww)
do rozkładu wynikowego w(u,|Xx,a;,...,a„, W) |
4"
=Z
3
je
(x|/Lx,
My,
Oy,
W )z(a,|M;,
a,
W)P(M,IW)z(u,
|ot,,
W)
da; |
Ż.. da; n,.
k=l
W ramach kazdego modelu znajdujemy wielkość u = f(i,, 4), reprezentującą poszukiwaną wielkość „w właściwą dla tegoż modelu. Rozwiązując tę równość
względem m, i podstawiając do funkcji wiarogodności, a także modyfikując sto-
sownie pierwotny zaczątek z(u,|a4, W), znajdujemy rozkład w(u|x, I
=
A;,...,
dm,
W)
m
>.
fetlu.
My,
Ok,
W )z(a,|M;,
dz,
W)P(M,|W)z(ula,
W)
da
1
...
dO
n,»
k=l
stanowiący fundamentalne narzędzie oceny wartości i niepewności wielkości ut.
Tr)
9.4.4. Zasada maksymalnej entropii Jak wspomnieliśmy wcześniej, reguły mnożenia i dodawania prawdopodobieństw to jedynie część teorii. Jej praktyczny rozwój wymaga dodatkowego, równie ważnego elementu składowego, jakim jest narzędzie przetwarzające naszą werbalną wiedzę na postać
rozkładu prawdopodobieństwa. Mamy tu na myśli nie tylko kwestię prawdopodobieństw zaczątkowych, ale także tę część twierdzenia Bayesa, w której występuje funkcja wiarogodności. Wielkość ta, w niektórych wyżej przedstawionych przykładach i rozważaniach
pojawiała się nieomalże na zasadzie królików wydobywanych przez iluzjonistę z kapelusza, a przecież pojęciowo nie ma różnicy między nieinformatywnym zaczątkiem z(6|W) dla parametru 6 a modelem Gaussa N (x|t, o, W) dla wyniku pomiaru x, wykorzysty-
wanym w funkcji wiarogodności. W tym drugim mamy tylko więcej informacji wydo-
bytych na zewnątrz z „czeluści” W. W jaki sposób konkretna wiedza o wielkościach
oraz o pozwala nam dojść do takiej a nie innej postaci tego rozkładu? Czy z wielkości
W nie powinniśmy wyłuskać jeszcze innych wskazówek i umieścić je po pionowej kre-
sce w symbolicznym zapisie rozkładu? Do tej pory „transmutację” wiedzy na rozkład potrafiliśmy wykonać w pewnych dość uproszczonych warunkach: wszystkie możliwe sytuacje wydawały się nam na tyle symetryczne, że nie odczuwaliśmy potrzeby wyróż-
niania żadnej z możliwych konfiguracji. Taką metodę postępowania uznaliśmy nawet za godną podniesienia do rangi pryncypialnej i stworzyliśmy dla niej zasadę nieistotności (podrozdział 9.2.4). Wariantem tego postępowania są rozważania podrozdziałów 9.4.2 1 9.4.3, gdzie warunki symetrii skłoniły nas do ustanowienia pewnych równań na funkcje zaczątków. Taki system dochodzenia do rozkładów moglibyśmy nazwać metodą grupy symetrii niezmienniczych transformacji.
600
9. Stopień racjonalnego zaufania
Jak jednak z informacji: typowa wartość wielkości x, która może przyjmować zarówno dodatnie, jak i ujemne wartości, wynosi u, a jej typowy rozrzut wynosi o, mamy utworzyć
rozkład tej wielkości? To, czym tu dysponujemy, to konkretne wartości liczbowe i możemy sobie wyobrazić bardzo wiele różnych rozkładów, które odtworzą zadane wartości, np. rozkład Gaussa, Studenta lub też logistyczny. Rozkłady te narzucają jednak dodatkowe warunki: wszystkie są symetryczne, a to pojęcie nie występuje w sformułowaniu
zagadnienia. Wykorzystując którykolwiek z nich, czynilibyśmy dodatkowe założenie, nie mając do tego stosownej legitymacji. Rozkład, którego poszukujemy, to rozkład, który
spełniałby warunki problemu, a jednocześnie pozostawiał nam maksymalną swobodę, czyli możliwie maksymalną niepewność w odniesieniu do innych elementów, jakie mogą
wchodzić w grę, a których nie wyspecyfikowaliśmy explicite. Rozwiązanie tak postawionego zagadnienia wymaga od nas zbudowania wielkości, która byłaby miarą niepewności, jaką reprezentuje sobą każdy rozkład prawdopodobieństwa. Okazuje się, że taką wielkość można jednoznacznie określić, nakładając na nią kilka (w miarę) prostych, warunków.
Przyjmiemy, że mamy
do czynienia z dyskretnym i skończonym układem praw-
dopodobieństw P;, gdzie indeks i przyjmuje wartości 1, 2,...,n. Miarę niepewności rozkładu P; oznaczymy przez $„(P+, P,..., P„). Opiszemy kilka własności, jakich od
tej wielkości będziemy wymagać. Założymy przede wszystkim, że jest ciągłą funkcją
swych argumentów. Jeśli wszystkie wielkości P;, z wyjątkiem jednej, są równe zeru, wtedy nie mamy żadnej niepewności i przyjmiemy, że
$,(1,0,...,0)=S„(0,1,...,0)=::-=S,(0,0,...,1)=0 W szczególności, jeśli mamy tylko jedną możliwość, to na pewno nie mamy najmniejszej
niepewności 1 dlatego $,(1) = 0. Jeśli mamy układ n Pa Op P, oraz n + 1 prawdopodobieństw P,; takich, że P;, = P; dlai = 1,2,...,n, natomiast P,,, = 0, to
S„(Py, ,..., P,) = S„u(Pi, P.,..., P/,0). Przyjmiemy także, że w warunkach najmniej określonych przez rozkład, tzn. wtedy,
gdy wszystkie prawdopodobieństwa są identyczne, niepewność jest maksymalna:
S(Py, P,...,P)
nn
1 l —..., n
S„(1/n,1/n,...,1/n)
= s(n).
Przypatrzmy się teraz sytuacji, w której mamy dwie tezy określone przez prawdopodobieństwa P;, oraz P> o jednostkowej sumie, lecz tezę drugą możemy rozłożyć na trzy
prostsze, rozłączne tezy o prawdopodobieństwach P>, P>» 1 P>z spełniających warunek P = Pą, + Py + Pa. Od wielkości S$ będziemy wtedy wymagali, aby
Pą
S4(Pi, Pą, Pa, Pa3)= $>(Py, P>) + PaS3 (7
Pra Paz
P,' P' P>
Prawdopodobieństwa
P>;/P>,
Pą/P>
1 Py3/ P, to znane nam prawdopodobieństwa
wa-
runkowe, określające szanse każdej z trzech dodatkowych subtez, przy założeniu, że teza druga jest słuszna. Całość możemy odczytać jako niepewność czterech możliwości, która dana jest niepewnością dwóch pierwotnych i trzech dodatkowych, ale te trzy dodatkowe,
9,4. Prawdopodobieństwo bezpośrednie
601
wywodząc się z rozbicia tezy drugiej, przyczyniają się do pełnej niepewności z łącznym
prawdopodobieństwem P>. Ostatni warunek możemy uogólnić w następujący sposób. Niech prawdopodobieństwa
P, odpowiadają pełnemu układowi n wzajemnie wykluczających się tez A;. Niepewność rozkładu P, określona jest przez S„(P,, P;,..., P„). Zamiast jednak podawać prawdo-
podobieństwa P; dla każdej tezy bezpośrednio, możemy zgrupować pierwsze k z nich i podać prawdopodobieństwo nm; = P, + P» + ::: + P, tezy Bi. =A,VAzV:::V 4%, następne m tez zgrupować w tezę B, = Az V Ap V*** V Az 1 Określić dla niej
prawdopodobieństwo r = Pi; + Pra +** * + Pkqm itd., aż dojdziemy do tezy B, okre-
ślającej sumę pewnej liczby pozostałych tez A;, której prawdopodobieństwo wynosi 7T,
i zadane jest sumą prawdopodobieństw tych tez. Dla takiego układu prawdopodobieństw
x; otrzymujemy niepewność S,(7y, Ta, ...,7r,). Następnie określamy prawdopodobień-
stwa warunkowe P,/my, P»/7,..., P,/rr, każdej ztez A;, A>,... „Az, co daje niepewność S+(P+/ru, Pe/ry,..., Pz/q1) z prawdopodobieństwem n;,. Podobny
zbiór prawdopodo-
bieństw warunkowych P,; /712, Pką2/702,. . . , Pkąm/7t2 Uzupełnia wyznaczenie łącznej niepewności S$, o składnik m+S,„(Pkx:/12, Pk+2/T02, .-., Pk+m/7T2) itd. Ostatecznie, niepew-
ność $„(P;, P;,..., P,) możemy wyrazić alternatywnie pod postacią skończonej sumy S„(P4,
Pa, ...,
P,)
=
Ś,(Ty,
02,
21, TTy)
LMS, (>= TT2
+
TY SK
Pa
P,
P
(>:
—
KIWA z
TT
day
PŹ
>)
(9.86)
p.
TT
co stanowi ogólne równanie funkcyjne, jakie niepewność $ musi spełniać. Wyliczone powyżej własności i warunki pozwalają jednoznacznie określić postać funkcji niepewności rozkładu:
S„(P,, P,,..., P,) =— )(Pi InP,,
(9.87)
i=l
z dokładnością do ogólnej multiplikatywnej stałej, którą możemy ukryć pod postacią podstawy logarytmu. Wynik (9.87) znany jest pod nazwą twierdzenia Shannona
(C. E Shannon,
A Mathematical Theory
of Communication,
Bell System
Technical
Journal 27 (1948), 379). Dowód tego twierdzenia podajemy w dodatku E.
Wielkość S określona wzorem (9.87), kojarząc się z dobrze znaną z fizyki statystycznej wielkością (5.6), nosi nazwę entropii informacyjnej. Mierzy ona ilość niepewności,
jaka zawarta jest w rozkładzie prawdopodobieństwa P,. ———
|
Przykład 9.4.11 Entropia informacyjna — rozkład geometryczny Znajdziemy entropię rozkładu geometrycznego (5.12)
G (kip, W) = pą*,
q=l-p,
k=0,1,2,....
(9.88)
Jesteśmy tutaj w dość trudnej sytuacji, ponieważ nasza definicja entropii dotyczyła
rozkładów o skończonej liczbie prawdopodobieństw, podczas gdy rozkład geome-
9. Stopień racjonalnego zaufania
tryczny ma nieskończoną liczbę wyrazów.
Dlatego ograniczymy
liczby n + 1 pierwszych członów:
K=0l-n
=qogpmd> —_q*
P(k|p,n, W) = —ga
ten rozkład do
a po wykonaniu wszystkich obliczeń dokonamy przejścia granicznego z liczbą n
do nieskończoności. Dla takiego obciętego rozkładu entropia wynosi n
S(Po, ..., PJ)
l
n
l
=) PnP, = -7 ) q' ln (ze) k=0
k==( 1
n
(9.89)
n
-7 (-u Z) 3 ą' + (Inq) s k=0 k=0
,
Pierwsza suma w tym wyrażeniu sprowadza się do czynnika normującego Z, natomiast drugą sumę znajdujemy po odwołaniu się do zależności
SU ką? = k=0
kę = ązię (20) -« z (7) l-q
l —
(n
+
1)q”
+
nq”*!
(1—g)7
|
co dostarcza nam następującego rezultatu:
Dq" + ną +nq"*! na Sma(Bo.., ) = 3I (-ZmZ +ą 1- (n++ Da" (l-q)
=-h(
p
)-
1 — (m + l)q" + nq”*
04
05
06
l-q'*!
(l-qg)(1 —q7*')
entropia rozkładu geometrycznego
602
000
01
02
03
07
08
09
10
Rys. 9.13. Zależność entropii informacyjnej dla rozkładu geometrycznego w zależności od
wartości parametru p
9.4. Prawdopodobieństwo bezpośrednie
Dokonujemy przejścia granicznego n —
603
oo, uwzględniając fakt, że wyrazy typu
q” jak również nq” w takim przejściu znikają, i otrzymujemy Sn
(Po,
-..,
P„)
—
S$(p)
n—>00
=
—lnp
—
l-p In(1 — p).
(9.90)
Rezultat ten przedstawiony jest na rys. 9.13 jako funkcja parametru p roz-
kładu. Widzimy, że entropia jest tym większa (dąży do nieskończoności), im wartość parametru p jest bliższa zera. Przypomnijmy: jeśli parametr ten jest bardzo
mały, rozkład geometryczny charakteryzuje się bardzo wolnym zanikiem, co do pewnego stopnia symułuje sytuację, w której wszystkie prawdopodobieństwa są
sobie równe. Natomiast dla wartości parametru p bliskiej jedności, całe prawdopodobieństwo rozkładu jest praktycznie skupione na pierwszym wyrazie i dlatego entropia, zgodnie z postulowanymi własnościami, dąży do zera. Zauważmy, że wynik (9.90) jest dokładnie taki sam, jaki otrzymalibyśmy, gdybyśmy podstawili postać (9.88) rozkładu do wzoru (9.89) i od razu rozciągnęli
sumowanie do nieskończoności.
7
Zachęceni wynikiem powyższego przykładu, rozszerzymy definicję entropii na nieskończony układ prawdopodobieństw
P;, i = 1,2,...,
S(P,, P»,...) = -)P, In P..
(9.91)
i=l
Twierdzenie Shannona pozwała rozwiązać problem postawiony na wstępie niniejszego podrozdziału: jak określić rozkład prawdopodobieństwa P;, jeśli dysponujemy pewną liczbą informacji o jego specyficznych własnościach. Przyjmijmy, że te specyficzne własności to liczba m znanych nam nadziei j4, zadanych funkcji f4(i)
L=) _MGP,
k=1,2,...,m.
i=l
(9.92)
Optymalny rozkład prawdopodobieństw uzyskamy, jeśli zmaksymalizujemy
entro-
pię (9.91) wzgłędem prawdopodobieństw P;, uwzględniając więzy (9.92). Wymusimy w ten sposób spełnienie warunków określonych przez nadzieje, pozostawiając maksymalną, dopuszczalną swobodę — niepewność rozkładu pozostanie możliwie największa
— względem wszelkich innych możliwych jego elementów. Tak sformułowana procedura
postępowania zwana jest zasadą maksymalnej entropii. W praktyce zasadę wariacyjną maksymalnej entropii rozwiązujemy metodą mnożników Lagrange'a A = (Ay, A»,..., A„), tzn. maksymalizujemy następujące wyrażenie: —
3 i=l
P, In P; —Ag
(> i=l
P,
—
)-
Ak k=l
(>
Jx(i) P;
—
w)
=
max(P;,
P>,
Ż..% A0; A),
= i =]
gdzie uwzględniliśmy, za pomocą mnożnika Ag, także warunek unormowania rozkładu P,. Maksymalizowaną wielkość, dła dalszej wygody w obliczeniach, a bez straty ogól-
604
9, Stopień racjonalnego zaufania
ności, możemy także zapisać jako
-—),PilnP, — (49—1)) Pi) Ax) i=l
i=l1
k=l
fi(i)P; = max(P,, Pa,..., Ao, A),
i=l
gdyż dodawanie lub odejmowanie stałych wartości nie zmienia rozwiązania wariacyjnego. Wykonując różniczkowanie względem prawdopodobieństw P;, otrzymujemy
- mP —20-) 4f()=0 k=l
=>
Pi=exp (> - aso) k=l
Mnożnik Ag możemy wyeliminować z warunku unormowania 3
P, = ) exp
(>>
— Zano) k=1
= exp (—Avg) ) exp (i=]
Hana) k=1
= |.
Jeśli wprowadzimy funkcję rozdziału, zwaną w fizyce statystycznej sumą statystyczną
ZA) = ) exp (- >. i=l
k=l
0.
(9.93)
to poszukiwany rozkład otrzymamy jako
P = P(iA, W)= 20)eo(Korzystając z równań więzów (9.92), NS
lk = 2 J()P, = z 2>
ana).
(9.94)
wyeliminować mnożniki Lagrangea A;
Jx(i) exp (-
Haańoj.
co także możemy zapisać jako pochodną logarytmu funkcji rozdziału wzgłędem mnożników 3 Hk =——l|nZzQa 34, nZ(A),
k=1,2,...,m.m
Relacja ta jest dobrze znana w fizyce statystycznej, gdzie występuje pod nazwą przekształcenia Legendre'a. -——
Przykład 9.4.12 Entropia informacyjna — rozkład dyskretny z zadaną nadzieją Przyjmijmy, że wielkość i charakteryzuje się zadaną nadzieją u oraz podlega dyskretnemu rozkładowi prawdopodobieństwa określonemu na zbiorze liczb naturalnych. Jaki jest rozkład wielkości i? Obliczamy najpierw funkcję rozdziału Z (9.93)
Zł) = )expt- Ai) =) esp(-24) -
l
_1-
exp(—A)
| = Tzapc3) 7! 7 T=exp(-3)
9.4. Prawdopodobieństwo bezpośrednie
a z pochodnej jej logarytmu otrzymujemy związek między nadzieją /4 a mnożnikiem Lagrange'a A
—_4 —_4y( PO) _|_, ©xP—Ń)| = maa 70)7 r u (Eo |= 1+ TECH 5 skąd
- 1=exp(-X)
,
exp(—A) = 1 — —. LL Podstawiając do funkcji rozdziału, otrzymujemy Ż=u-—-l,
co daje nam rozkład (9.94) w postaci
|
exp(-Ai) =
Gu, W) ="
TEG
|
l
Ly
ul (! - z) (exp(-X))) = —
-( | =-|1--) u u Uzyskaliśmy dobrze nam znany rozkład geometryczny (5.12). Przypomnijmy, że w podrozdziale 5.2.1 otrzymaliśmy ten rozkład, rozważając prawdopodobieństwo pierwszego sukcesu w kolejnych losowaniach prowadzonych wg schematu
Bernoulliego, wymagającego absolutnej powtarzalności warunków każdego z losowań i ich niezależności. Tym razem żadne z takich obostrzeń nie występuje. Wystarcza jedyna informacja: nadzieja rozkładu dyskretnego, a wtedy najbardziej
ogólnym rozkładem prawdopodobieństwa, jaki spełnia to wymaganie, jest właśnie rozkład geometryczny. Możemy wyprowadzić także inny rozkład wielkości dyskretnej, przebiegającej nieskończony przedział i spełniający warunek zadanej nadziei. Rozważmy
model
czasu zmieniającego się dyskretnie. W każdym z przedziałów czasu może pojawić się pewne zjawisko. Jednostkę czasu wybierzmy na tyle małą, aby w każdym
z odcinków czasowych mogło nastąpić co najwyżej jedno zdarzenie. Niech łączna liczba takich przedziałów będzie n. Jeśli np. n = 3, to możliwe są następujące konfiguracje: 000, 00X, OXO, XOO, OXX, XOX, XXO, XXX, gdzie symbol „o” obrazuje
brak zdarzenia, a symbol „x” jego wystąpienie. Każdą z takich sekwencji nazy-
wać będziemy historią (fizyk zamiast słowa historia użyłby terminu mikrostan). W przypadku przedziału czasowego trwającego n jednostek liczba możliwych historii wynosi N = 2”. Niech każda z możliwych historii ma swoje prawdopodo-
bieństwo p,. Będziemy poszukiwali maksimum entropii informacyjnej dla prawdopodobieństw p;,: N
S(Pr
Das
-::;
PN)
5
—
p,
ln p,
=
max(p;,
Pa, ...,
DN):
i=l
z dodatkowymi warunkami, które za chwilę sprecyzujemy. Rozłóżmy najpierw wszystkie historie na klasy, w których liczba j zdarzeń jest taka sama. Takich
klas będziemy mieli n + 1. Do pierwszej z nich zaliczymy wszystkie historie,
605
606
9, Stopień racjonalnego zaufania
w których nie było w ogóle zdarzeń (jest tylko jedna taka historia: o0o...o), do
drugiej włączymy wszystkie historie, w których nastąpiło jedno zdarzenie (takich
historii mamy
n: X00...O, OXO...O, OOX...O,
..., 000...x) itd., w końcu ostatnia
klasa będzie się składała także z jednego elementu określonego historią xxx... x. Łatwo
się upewniamy,
że klasa historii z liczbą j zdarzeń występuje tyle razy,
ile wynosi wartość współczynnika Newtona (7). Przyjmijmy również, że wszystkie prawdopodobieństwa p, w klasie o numerze j są identyczne i wynoszą q,, wtedy N
n
WANE:
3 j=0
=>
Gy? GZ
Zdefiniujmy prawdopodobieństwo
p, ln p,
iefklasa j)
Inq;.
P, natrafienia, w dowolnie wybranej sek-
wencji czasowej, historii z liczbą zdarzeń równą j, czyli klasy o numerze j P
n!
|
= ——1,4
jiłm=l"
Definicja taka oznacza, że nie tylko utożsamiamy wszystkie historie z klasy j, ale
także określamy to prawdopodobieństwo jako proporcjonalne do liczby historii,
które wnoszą wkład do danej klasy (w fizyce statystycznej mówimy,
że prawdo-
podobieństwo stanu jest proporcjonalne do liczby mikrostanów realizujących ten stan). Po tych zmianach entropia przyjmuje
S(P,, P,,...,P) = —
postać
Pin ( i: —
Nim zaczniemy poszukiwać rozkładu
p 3)
(9.95)
P,, który maksymalizuje tę entropię,
rozważmy sytuację, w której dyskretny czas jest duży, czyli wtedy gdy n + oo. Do części współczynnika Newtona zależnej od liczby n klas i występującego jako argument funkcji logarytm wykorzystamy rozwinięcie Stirlinga (5.5):
(n-j! n!
|
(n=jmie"i n'e”m
|
|
(n=jrei Mon).
OCENE
co, po podstawieniu do (9.95) daje
pla n (= j'n BD
OPZC
| e”
"(-;)
JY
1
m
)
= -S0Piln(;!P) + nn) YO jP. Ostatni wyraz przedstawia sobą wielkość proporcjonalną do nadziei ju
k= DJP, j=0
rozkładu prawdopodobieństw P, określonego na klasach, a będąc wartością stałą, nie odgrywa żadnej roli w procesie poszukiwania ekstremum i możemy go odrzu-
9,4. Prawdopodobieństwo bezpośrednie
607
cić. Narzucimy teraz na entropię warunek unormowania rozkładu oraz warunek na
nadzieję, co prowadzi do zasady maksymalnej entropii w postaci
S(P, P,,...) =— $. P,ln(j!P,) — (44 —1)) ,P,—A) JP, j=0
j=0
j=0
= max(7Póy, P;,..., Ag, A), gdzie dodatkowo wykonaliśmy
przejście graniczne z liczbą klas do nieskończo-
ności. Po zróżniczkowaniu względem wybranego prawdopodobieństwa P, uzyskujemy równanie: d 3p, Po P,,...) = — In(fi!P,) — Ay — AI =0, i=0,1,2,..., którego rozwiązanie ma postać
P, = | hę
1! | Po narzuceniu warunku unormowania i warunku na nadzieję otrzymujemy rozkład Poissona
P(i|u, W) =
u
|
re. i! Zauważmy, że gdybyśmy w związku (9.95) nie dokonali przybliżeń wynikających z dużej liczby klas, to maksymalizowalibyśmy następujące wyrażenie:
S(P,, P,,..., P
=-X 7h (z ju I p, -08-D))P ADP j=0
j=l
które po zróżniczkowaniu, prowadzi natychmiast do równania
d -_S(P, P,,..., P)=-mP-ln( OP,
!(n — i)! FO n!
)-a-ai=0, i=0,1,...,n,
o rozwiązaniu zadanym przez rozkład dwumianowy n!
B(i|n,p, W) =———--p'd — p) ,
ICEDI
n-i
p=—-. A
n
Aby przybliżyć zasadę maksymalnej entropii, zilustrujmy jej sens następującym rozważaniem. Przypuśćmy, że przeprowadzamy pewien eksperyment, w wyniku którego możemy otrzymać n różnych wielkości x,, gdzie i = 1,2,3,...,n. Jeśli eksperyment
ten powtórzymy N razy, to każda z wartości x, pojawi się m; razy, natomiast liczba możliwych rezultatów (historii, mikrostanów) wyrażonych ciągiem wyników x; będzie wynosiła n*. W zadanym ciągu wyników układ krotności mi, ma, ... , m, możemy otrzymać na tyle sposobów, na ile sposobów możemy uporządkować m; elementów Xx1, mą elementów x» itd. Łączną liczbę 42 sposobów (prawdopodobieństwo termodyna-
608
9. Stopień racjonalnego zaufania
miczne) dla takiego zagadnienia znaleźliśmy już w przykładzie 5.1.5 1 wynosi ona £2 =
N! m;!m!...m,!
Tamże pokazaliśmy, wzór (5.6), że
—
M;
m,
In2QZ-NYy n 2. —]l1 yn (7). (gy Widzimy teraz, że poszukując maksymalnej wartości entropii, poszukujemy takiego układu rezultatów x;, aby liczba 62 była maksymalna, a tym samym układ ten pojawił się na największą liczbę sposobów. Ekstremum (które w istocie okazuje się wartością maksymalną, czego nie będziemy tu dowodzili) prawdopodobieństwa termodynamicznego, uwzględniające jednocześnie warunek normalizacji i więzów (9.92), dostarcza
wartości częstości P; = m;/N. Nie oznacza to, że rozwiązaliśmy problem i znaleźliśmy
prawdziwe wartości częstości P; — do tego potrzebowalibyśmy więcej informacji, np. liczba m równań więzów musiałaby być o jeden mniejsza od liczby n możliwych wyników pojedynczego eksperymentu. Pustkę spowodowaną brakiem n — m — 1 równań
staramy się jedynie uzupełnić racjonalną zasadą, która podpowiada nam, że powinniśmy
wybrać taki układ krotności m,, który występuje najczęściej.
Można by sądzić, że twierdzenie Shannona (9.91) możemy uogólnić na wielkość x przyjmującą wartości ciągłe -
ste) = — | sGIW)insoiw)dz. gdzie g(x|W) jest poszukiwaną funkcją rozkładu. Niestety, wyrażenie to nie jest niezmiennicze względem zamiany zmiennej x na dowolną inną, związaną z nią funkcyjnie operacją y = f(x). Niedostatek ten oznacza, że entropia informacyjna zależy od wyboru
zmiennej, a to prowadzi, w prostej linii, do niespójnej teorii. Aby nadrobić ten brak, musimy powrócić do dyskretnych prawdopodobieństw i rozważyć operację graniczną, w wyniku której z dyskretnej wielkości i otrzymujemy wielkość ciągłą x. Przykłady takiego postępowania widzieliśmy w punktach 5.5.1 oraz 5.5.4, gdzie poszukiwaliśmy
ciągłej wersji rozkładu dwumianowego,
a także w przykładzie 5.3.6, w którym uzy-
skaliśmy rozkład Erlanga jako ciągłą wersję ujemnego rozkładu dwumianowego. Dla uproszczenia przyjmijmy, że wielkość i przebiega skończony zakres wartości, np. od zera do n. Rozważmy receptę i=h(x,n),
za pomocą której zwiążemy wielkość dyskretną i z wielkością dyskretną x;, która w wyniku przejścia granicznego stanie się wielkością ciągłą x. Prawdopodobieństwo P, przy
takiej zamianie ulega przekształceniu na P,
=
P, Ai
gdzie Ai = 1 oraz Ax
która w granicy n —
=
P(i(x;)|n,
W)
Ah Ax;
AX;
=
g(x;|n,
W)Ax;,
(9.06)
= Xx, — X;, a Wielkość g(x;|n, W) jest poszukiwaną funkcją,
00, i >
oo stanie się funkcją gęstości g(x|W) ciągłej zmiennej x.
9,4. Prawdopodobieństwo bezpośrednie
Gdy wykonujemy
przejście graniczne n —
oo, we wnętrzu dowolnego,
609
skończonego
przedziału Ax pojawia się wzrastająca liczba punktów x,. Jeśli wybierzemy dwie dowolne wartości x oraz x + Ax, to w przedziale tym będziemy mieli liczbę dh Ai =h(x,n) —h(x + Ax,n) = q, A% x
takich punktów. Ich gęstość w(x|W)
możemy
sposób:
w(x|W)=
Ai =)
lim
00
zdefiniować w następujący, naturalny
d /h(x, — lim ( Ś m.
NA Ax
n>o dx
n
(9.97)
Jeśli za przedział Ax wybierzemy Ax; = x;4; — x;, przyjmując tym samym Ai = I, to otrzymujemy asymptotycznie poprawną (dla dużych wartości n) relację l
(9.98)
Ax, * ——--..
nw (x;|W)
Przykład 9.4.13
Przejście od zmiennej dyskretnej do ciągłej Rozważmy prosty przykład. Wybierzmy obcięty rozkład geometryczny
l -
P =
—q"
54, |
I=012...n
i przekształcenie
x i=n—,
T gdzie wielkość T jest ustalona i definiuje wymiar wielkości x,. Nie jesteśmy zobligowani do takiego traktowania parametru 7 i w dalszej części naszych rozważań uwolnimy się od tego ograniczenia, zezwalając na jego zmienność. Zamiana wiel-
kości i na x; prowadzi do rozkładu
P,
—
= =
l
—
l-q
q
[zgi
q
i__
l
——
p
(
4
nx,lng| T
e
ilnq
n
) q Ak
z
= g(x;|lq,n, T, WJAx;.
Wykonajmy teraz przejście graniczne, w którym liczby i oraz n są proporcjonalne i dążą jednocześnie do nieskończoności, dzięki czemu x, dąży do ustalonej
wartości x, a maksymalna wartość x, dąży do wielkości 7. Niech jednocześnie
parametr q dąży do jedności, ale w następujący, specjalny sposób:
n Inq
—
noo,
q>l1
—AT
=>
AT qf%exp (-7): Nn
gdzie wielkość A jest ustałona i ma wymiar dany odwrotnością wymiaru wielkości 7.
610
9, Stopień racjonalnego zaufania
Po podstawieniu do wyrażenia na funkcję g znajdujemy, że
Cz)
l —exp| CZECH
n, T,
w)
=
(
| —exp|
Wykonując przejścia graniczne n wykładniczy AT | exp —) n | —exp|
(
—
AT(n
)
T
exp(—Ax;).
n
©, i
,
otrzymujemy obcięty rozkład ,
—
xph)
-—————
n
L
-—————
— exp(-Ax;)
AT (n + -) T
n
————
nio
exp(—AX).
| —exp(-AT) exp(—22)
n
Łatwo znajdujemy postać funkcji w (x|W) dla tego przykładu:
5(x|W) = no lim
(7) n
dx
— n>odx lim (rż) - >: Mn T
która jest po prostu funkcją stałą.
Uwolnijmy się teraz od ograniczenia dla parametru 7 i pozwólmy mu się zmieniać. Uzyskana powyżej graniczna forma ciągłego rozkładu podpowiada nam, że parametr ten powinniśmy odsunąć do nieskończoności. Jak 1 poprzednio założymy,
m
nlnq
—
T
n,T>oo,
—A
q—1
©»
(
qX00
Konsekwencją tej własności jest
(
AT(n + -) n
Oraz Ah
=
a tym samym
T
Fm
OO,
AT l — exp (-7) n
i A,
Ww
, T,
—A
—
—
i
l=exp|-——— n
—
E(x|A, W) = Aexp(—Ax),
N,F,i>00
dochodzimy
do
rozkładu
wykładniczego
w (x|W) w tym przypadku znika
w(x|W) = lim T—oo
(7) n
=
na pełnej
półosi.
lim A (rż) T->00
dx
Gęstość
= lim (7) T—00
T
punktów =0.
9,4. Prawdopodobieństwo bezpośrednie
611
Rozkład wykładniczy otrzymaliśmy, definiując liniową zależność między in-
deksem i oraz wielkością x;. Gdybyśmy przyjęli zależność np. kwadratową ł =
X?
"T2
wtedy rezultatem przejść granicznych byłby rozkład, zwany rozkładem Rayleigha, określony na dodatniej półosi, o kształcie funkcji Gaussa (o wartości centralnej równej zeru) pomnożonym przez zmienną niezależną (rozkład ten opisuje rozkład
długości wektora prędkości w dwuwymiarowym rozkładzie Maxwella). Dobierając bardziej skomplikowane prototypy wiełkości ciągłej x, uzyskiwalibyśmy inne, bardziej złożone typy rozkładów.
T)
Podstawiając wyniki (9.96) oraz (9.98) do wyrazenia (9.87) na entropię dyskretnego rozkładu, znajdujemy
SB) = - | PnP 2-3 glin. W) ( i=l
i=l
Sn A |
seiWh
(Zaw)
g(x|W)
Sm = |
sein
(ŻE)
—_T = |
sewn(=C)
8 (Xi |n, m)
Ax,
nw (x,|W)
dx
s(x|W)
* +
s(xlW)
dx + Inn.
am
f
| seiwWa
—00
Jak widzimy, w wyniku przejścia granicznego entropia uzupełniona jest formalnie nieskończoną stałą. Jeśli tę stałą opuścimy, możemy zaproponować następującą postać en-
tropii informacyjnej dla rozkładu ciągłego:
wi) d sg =- | saiWn( —--. | dx. w (x|W)
—00
Granice całkowania zaznaczyliśmy symbolicznie. Wynikają one jednoznacznie z proce-
dury przejścia granicznego. Fundamentalną własnością tej postaci jest jej niezmienniczy charakter przy przekształceniu wielkości x, a to z uwagi na występowanie w niej funkcji gęstości punktów o(x|W), która przy takiej zamianie przekształca się, na mocy
konstrukcji (9.97), dokładnie według tego samego prawa, które obowiązuje dla funkcji rozkładu g(x|W).
612
9, Stopień racjonalnego zaufania
Możemy teraz dokonać stosownych uogólnień w (9.93) oraz (9.94). Jeśli wprowa-
dzimy nadzieje Hy, k =1,2,...,m, funkcji f,(x) rozkładu g(x|W) u =
|
fodgW)dx,
k=1,2,...,m,
to dla funkcji rozdziału Z (9.93) otrzymamy
ZQ) = J w (x|W) exp (- ao) oo
dx
k=|
a poszukiwaną funkcją rozkładu g będzie
sA, W) = ww) 20) o(-Żaia). Prawa strona powyższego związku wyrażona jest przez mnożniki Lagrange'a, ałe możemy je wyeliminować, rozwiązując układ równań lh =
0
TWA
k=1,2,...,m.
W przykładzie 9.4.13 widzieliśmy, że gęstość w (x|W), będąc wielkością dość intucyjną, jeśli otrzymujemy ją w procesie przejścia granicznego, jest w istocie obiektem nie tak prostym. W szczególności, dla rozkładu określonego na nieskończonym przedziale, przyjęła ona wartość równą zeru, co stawia pod znakiem zapytania znaczenie wyrażenia na entropię informacyjną. By bliżej zrozumieć tę trudność, rozważmy rozkład g(x|W) wielkości x, o której nie mamy
żadnych wstępnych informacji, nawet w postaci dys-
kretnego modelu, nad którym moglibyśmy wykonać przejście graniczne. Wiemy jedynie to, że jest ona zawarta między dwiema zadanymi wielkościami a oraz b. Otrzymujemy wtedy natychmiast, że
gtdlW) = PE J w(x|W)dx
Tak więc gęstość w(x|W), z dokładnością do stałego współczynnika, jest zacząt-
kiem opisującym naszą wstępną niewiedzę. Tym samym wróciliśmy, niczym bumerang,
do punktu wyjścia. Wyruszyliśmy na poszukiwanie prostej i zwięzłej zasady, która dostarczyłaby nam, także w odniesieniu do wielkości ciągłej, recepty na konstrukcję stopnia racjonalnego zaufania, a znaleźliśmy dość specyficzny obiekt — tzw. lewą miarę Haara w(x|W) — o którym niewiele, z wyjątkiem szczególnych sytuacji, potrafimy powiedzieć. Dopóki trudność ta nie zostanie rozwiązana, dopóty metoda maksymalnej entropii w odniesieniu do zmiennej ciągłej pozostanie jedynie generalną wskazówką przy poszukiwaniu prawdopodobieństwa bezpośredniego.
9.4, Prawdopodobieństwo bezpośrednie
——
Przykład 9.4.14
Rozkład Gaussa z zasady entropii Niech wielkości j4, zadają pierwszy i drugi moment rozkładu g(x|W) określonego na nieskończonym przedziale —00 < x < 0
u= | xsGlwyaz.
us = | 2gGW)az.
to znaczy funkcje f,(x) definiujemy przez f,(x) = x*. W naszych rozważaniach przyjmiemy, arbitralnie, że miara w (x|W) jest wielkością stałą i od razu położymy ją równą jedności. Funkcja rozdziału Z(A;, A) zadana jest przez 00
fm
Z(Ay, A>) = | exp(—A;x — Aax”) dx =
A
R exp (zz).
—00
Znajdziemy związek między nadziejami a mnożnikami Lagrange'a:
Inn Z(A,, , 22A2)
in (zWAX
7) CTH
= In
o u=-—
(2
2
lnu
(2
p—
lina, + 21—, 2007 4Ą;
zINn
/1 l A A |-nn-->lnly+—- | =——
3a,
29%,o
2l mx
=—IMNT—
4A,
Li A 207
—
—
+
n
ZA,
M 440) 2h —n—
|
ma
+
42M
—.
Ze związków tych otrzymujemy wyrażenia na mnożniki: Ay
|
=
—
L M — U?
=
iL o?
— —
A+
,
l 2(4—Hu)
=
=
l 20?
O
,
ZIĄ—W,
a w konsekwencji również funkcję gęstości AT
N
(xl, O,
W)
=
=
=
zw(-
„/2r0o 2
1
V2RG
Zano)
ex CX
u
———
P
b
20*
(
(x —
————
2o?
|; Y"—
Zz
—A
—
2”
)
na
©Xp
Ę
— A1X
— AX )
|?
—— AK
Żo?
.
Otrzymaliśmy rozkład normalny. To, co najbardziej zaskakuje w tym wyniku, to sformułowanie warunków niezbędnych do uzyskania tego rozkładu. W tradycyjnej teorii rozkład ten wiązany jest zawsze, w mniejszym lub większym stopniu, z centralnym twierdzeniem granicznym. Po to, byśmy mogli odwołać się do rozkładu normalnego, musimy, za każdym razem, szukać uzasadnienia w postaci dużej liczby losowych efektów zaburzających rezultat pomiaru. W praktyce oznacza to
613
614
9, Stopień racjonalnego zaufania
z reguły konstruowanie fizycznego modelu pomiaru i odwoływanie się do mechanizmów wprowadzających niekontrolowane fluktuacje, jak to uczyniliśmy w pod-
rozdziale 5.5.1, budując model Laplace'a małych błędów. Jeśli takiego obrazu pomiaru nie udaje się nam stworzyć, odczuwamy głęboki niepokój, że popełniamy
poważny błąd, który usuwa nam grunt spod nóg i stawia pod znakiem zapytania
całokształt naszych rozważań. W nowej teorii rozkład ten możemy zawsze zastosować w sytuacji, gdy dana jest nam wiedza o typowej wartości wielkości x i jej dyspersji. To wystarczy.
r
9.4.5. Metoda najmniejszych kwadratów Zajmiemy się teraz zastosowaniem dotychczas uzyskanych rezultatów do jednego z najbardziej typowych zagadnień, jakie spotykamy w praktyce: do zagadnienia dopasowania funkcji do danych doświadczalnych. Problem ten jest na tyle obszerny, że zapewne zasługiwałby na wyodrębnienie w oddzielnym rozdziale. Z, drugiej strony, stanowi ilustrację metod współczesnej teorii prawdopodobieństwa, dlatego rozpatrzymy go w tym miejscu, na zakończenie tej części naszych rozważań nad metodą bayesowską, traktując go jako
jeden wielki przykład.
W naszej analizie ograniczymy się do zagadnienia liniowego w nieznanych parametrach 6;, i = 1,2,...,m, tzn. przyjmiemy, że mierzymy n wielkości y;, określonych za
pomocą związku
6,91(X) + 629200) + *** + OnQPm(X),
(9.99)
przy n wartościach wielkości x;, gdzie Q;(x) są zadanymi, liniowo niezależnymi funk-
cjami. Dane y; są zakłócone przez zmienny komponent, „nieregularność, którą określimy symbolem e;,, a której nie potrafimy kontrolować. Przyczyna zaburzenia może nie być nam znana, a jeśli jest znana, to nie dysponujemy żadnymi danymi, które pozwoliłyby nam przewidzieć jego efekt. Zaburzenia tego nie powinniśmy mylić z kwestią losowego charakteru pomiaru. Szum, jaki zniekształca wynik pomiaru, ma dobrze okreŚloną, fizyczną przyczynę. Gdybyśmy tę przyczynę znali i potrafili ją ująć w równania, posiedlibyśmy pewną dodatkową wiedzę o badanym zjawisku, a to pomogłoby nam uściślić nasze wnioskowanie i zawęzić charakter końcowej niepewności. Przyjmiemy
też, że znane są nam
wielkości, które w konwencjonalnej
teorii na-
zywamy błędami wielkości y,. W podejściu bayesowskim wielkości te odnoszą się do zaburzeń i podają dyspersję. Ponieważ określona jest także wartość pomiaru, więc to wystarcza, na mocy przykładu 9.4.14, do stwierdzenia, że wielkości e; ej = y; — 6191(%;) — hP-2(Xx;) — :*: —
OnQn(ti),
podlegają rozkładowi Gaussa. Jeśli uogólnimy problem, wprowadzając korelacje między
zakłóceniami poszczególnych pomiarów, określone przez macierz V, to funkcja wiarogodności naszego problemu będzie zadana przez
LGl6,x,V, W) =
1 (/2n)"x/det V
PB (
-5 0 — 807V- ty — 00) )
(9.100)
9,4, Prawdopodobieństwo bezpośrednie
615
gdzie pozostałe oznaczenia zachowaliśmy z podrozdziału 7.3. Aby „przetworzyć” funkcję wiarogodności na prawdopodobieństwa wynikowe parametrów 6;, zastosujemy twierdzenie Bayesa, do którego potrzebujemy zaczątków parametrów. Te przyjmiemy jako
wzajemnie niezależne i nadamy im postać minimalnie informatywną, właściwą dla pa-
rametrów lokacji, czego uzasadnienie znajdzie Czytelnik parę linijek niżej: z(8,| W) = const,
i = ],2,...,m.
(9.101)
Otrzymujemy w ten sposób funkcję rozkładu wynikowego
l
w(6|y, x, V, W) x exp (-; (y — 66) V"! (y — 00)
(9.102)
Funkcja ta, jak należało oczekiwać, zadana jest rozkładem Gaussa. Zobaczymy to wyNajpierw wykładnik (bez współczynnika 5 i znaku „—”) rozwiniemy
R=(y-©96)'V'y-$0)=y'V'y-y'V'96-09'V'y+0'6'V '$6, a następnie wprowadzimy kwadratową, symetryczną macierz wymiaru m X m:
W'=$'V'$,
(9.103)
co pozwala zapisać wyrażenie na i
R=y'V'y—y'VIpWW"'8 -86W'WE'V
'y+6'W'6
=ylVviy—ylwrw”'9 —6W'Wwy+60W"!6, które jednocześnie wprowadza macierz
v=weg'v-.. Obie macierze W oraz W są tak samo zdefiniowane jak w podrozdziale 7.3. Zwiniemy następnie formę kwadratową R
R =(6 — Wy)” W” (6 — Wy) + y'V"'y — y”WoW”"Wy,
a po podstawieniu definicji macierzy W do ostatniego wyrazu, znajdujemy
R =(6-Wwy)' W” (6 — Wy) +y' Ry,
(9.104) |
gdzie wprowadziliśmy jeszcze jedną macierz:
A=V"'(V-ów$"')Vv"'. Konsekwencją tych manipulacji jest przekształcenie gęstości wynikowej (9.102) do
postaci (składnik z macierzą SŁ upraszcza się z powodu unormowania):
w(óly,x,V,W) =
1 exp (-; (6 — Wy) W"! (6 — vy) . (/2n)"A/det W
(9.105)
Widzimy, że najlepszej oceny poszukiwanych parametrów dostarcza nam nadzieja
(i jednocześnie wielowymiarowa moda) tego rozkładu dmoda =
(6)
=
Wy,
|
(9.106)
Ak
jedynych, które mogliśmy ustanowić, gdyż rozważamy bardzo ogólny model. W konkretnych przypadkach możemy dysponować pewną dodatkową wiedzą, która może zawęzić
klasę gęstości zaczątkowych. Jeśli np. zajmujemy się pomiarem przekroju czynnego o
na oddziaływanie neutrin niskich energii E (nie więcej niż kilka gigaelektronowoltów w układzie laboratoryjnym) z nukleonami, to przekrój ten możemy określić związkiem o =0E, a o parametrze O wiemy, że jest on dodatni. Ogranicza to jego gęstość zaczątkową do wartości większych od zera, co prowadzi do modyfikacji gęstości wynikowej (9.105) i pociąga za sobą uściślenie jego najlepszej wartości i zawężenie obszaru wiarogodności. Istotnie, rozważmy przykład zależności y = 6x, który dla zaczątku (9.101)
prowadzi do funkcji rozkładu wynikowego (9.105)
1 (8 — 065)? ao exp (-—-)
w(6|6g, o, W) = gdzie
natomiast wielkości o, określają dyspersje czynnika zaburzającego dla każdego z n pomiarów. Przypuśćmy, że w wyniku dopasowania otrzymaliśmy 6, = 1,0 oraz o = 0,7. Przedział wiarogodności odpowiadający 95% prawdopodobieństwa określony jest przez krańcowe wartości —0,372 oraz 2,372, a więc o całkowitej szerokości 2,744. Zwróćmy uwagę, że rozciąga się on na wartości ujemne. Narzucimy teraz warunek na parametr 0, wymagając, aby był dodatni. W ten sposób nasz mały przykład staje się jednocześnie ilustracją ogólnych metod bayesowskich stosowanych w przypadkach, gdy parametr, będący przedmiotem zainteresowania, podlega fizycznym ograniczeniom. Wynikowa funkcja gęstości przyjmie wtedy postać
w(0|0%, o, W) 0
„O,
z
ZĄ/2nO
a LĘ
P
(
6 —
——-——.
20?
)
6>0
|)
ZU,
(9.107) .
gdzie czynnik normujący Z wynosi Z =
1
f
—0)?
|ee(-—2210 20?
do.
0 Tym razem przedział wiarogodności odpowiadający 95% prawdopodobieństwa rozciąga
się od zera do wartości około 2,2, a więc jest krótszy. Oczywiście, wpływ obcięcia staje tym mniej istotny, im wielkość o jest mniejsza w stosunku do wartości centralnej 05.
A 21 ENNY EDP
Wyniki tu otrzymane są dokładnie takie same jak w podrozdziale 7.3, co nie powinno nas dziwić, gdyż są konsekwencją przyjętych przez nas gęstości zaczątkowych (9.101),
PNW
a łączny obszar wiarogodnych wartości tych parametrów określony jest macierzą W (9.103). Rozkład prawdopodobieństwa dla dowolnego z parametrów otrzymamy metodą marginalizacji, co także prowadzi do rozkładu Gaussa z wariancją określoną przez odpowiadający temu parametrowi wyraz stojący na diagonali macierzy W (patrz (5.75)).
so wia meentnaii mh mame Am Nm
aaa m m admi
maa
9. Stopień racjonalnego zaufania
EZEOE O Z PRZE NNOZER EE
616
9.4. Prawdopodobieństwo bezpośrednie
I tak, dla o = 0,3 czynnik normujący Podobny efekt dyspozycji bardziej
617
obcięcie przestaje już mieć nieomal jakiekolwiek znaczenie, gdyż Z jest wtedy praktycznie równy jedności. poprawy precyzji wnioskowania uzyskalibyśmy, gdybyśmy mieli do konkretną wiedzę na temat nieregularnych czynników e;.
r-—— Przykład 9.4.15 Masa antyneutrina — przedział wiarogodności Zastosujmy powyższy mechanizm ograniczania prawdopodobieństwem
zaczątko-
wym rozkładu poszukiwanego parametru do fizycznego obszaru w ocenie masy antyneutrina elektronowego, który to problem dyskutowaliśmy wcześniej w przykła-
dzie 2.7.2 oraz podrozdziale 7.4.5. Zakładając model rozkładu Gaussa dła pomiaru
nieznanej wielkości = m;, jej wynikowa funkcja gęstości prawdopodobieństwa jest dokładnie taka sama jak ta we wzorze (9.107): l w(m;|6,,0, W) =-———ex
j
gdzie 6, = —54 eV”,
Zy/2no
h
(m) — 85)” (-F-
,
żo?
> m,>0,
o = 30 eV”. Pełny rozkład oraz jego część ograniczona do
dodatnich wartości kwadratu masy antyneutrina, unormowany do jedności w tym obszarze, przedstawione są na wykresie 9.14. Z rozkładu tego znajdujemy dziewięćdziesięcioprocentowy przedział wiarogodności 0 < m; < 26,6 eV” dla kwadratu masy antyneutrina (przypomnijmy rezultat konwencjonalnej statystyki z podrozdziału 7.4.5: 0 < m? < 13,5 eV”). Jeśli przejdziemy od kwadratu masy do samej masy, przedział wiarogodności na tym samym poziomie zawiera się między
zerem a 5,2 eV.
Powyższe
obliczenia oparliśmy na zaczątku, który traktowany jako funkcja
kwadratowa masy jest stały. Postępowanie to nie ma uzasadnienia w żadnej z dotychczas przedstawionych zasad. Wynika ono tylko i wyłącznie z tradycji, wymu-
szonej, nota bene, prostotą matematyczną, jaka się utarła w odniesieniu do analizy
tego zagadnienia.
0,08 0,06
|
—150
MO
—100
NJ
-50
0
50
Rys. 9.14. Pełny rozkład Gaussa i jego część zawężona do dodatnich wartości ocenianego
parametru
r”
618
9. Stopień racjonalnego zaufania
Rozważmy teraz inną typową sytuację, kiedy macierz kowariancji V określona jest z dokładnością do czynnika skalującego o*
V=OoV,
(9.108)
gdzie macierz V jest znana. Postać (9.100) funkcji wiarogodności dla tego zagadnienia nie ulega zmianie, przekształcimy jedynie jej wykładnik (9.104) do postaci jawnie uwzględniającej czynnik skalujący:
R=
|
m
l
--
1 -
3 (6 — Wy)” V-"' (6 — Wy) + cz) NY = zd.
Macierz W pozostaje bez zmiany, ponieważ w jej definicji nieznany czynnik o ulega uproszczeniu
Wy= (97007!)
Bra ZY-ly = (87610)
GTV-!y,
pozostaje on jednak w macierzy kowariancji W
w= (870-010)
=? GÓR
= ow,
(9.109)
jak również w definicji macierzy Sł
Q=V'(V-6W$')V"'=
W” (Y — owa”) V' = Ś
Poniewaz jednocześnie mamy związek
detV = o”" detV, to dla funkcji wiarogodności otrzymujemy L(yl8,x,V, W) =
(
exp (- (6 — Wy)” W” (6 — Wy) ydy |
2Zn)rorv det V
202
Prowadzi to do gęstości wynikowej, warunkowanej także parametrem o, m l w(ó|o, y,x, V, W) x —exp| o"
—
(9.110)
(6 — Wy) W”! (6 — Wy) + m 202
Gdyby interesowała nas tylko ocena parametrów 6,, to parametr o w tej gęstości
byłby parametrem naprzykrzającym i moglibyśmy go usunąć procedurą marginalizacji. W niektórych zastosowaniach możemy być jednak zainteresowani jego wartością, dlatego postąpimy w bardziej ogólny sposób i zbudujemy łączną gęstość wynikową zarówno dla 0;, jak i o. Dla gęstości zaczątkowej parametrów 60; zachowamy postać (9.101), natomiast dla wielkości o wybierzemy postać Jeflreysa (9.74): 1
z(o|W)=—,
O
o>0,
9.4. Prawdopodobieństwo bezpośrednie
619
a otrzymamy łączną gęstość wynikową dla wszystkich poszukiwanych wielkości w(
6,
o|y
x
hyV,
4
)
s(-
l
—
Zg”"+1
8—WyTW-!(0—W p)” W-! (6 — Wy) 202
+y
TQ
)
(9.111)
gdzie Z jest czynnikiem normującym
1
z= |
l
ep
-
Ndo
——y! dy
o"
f
„|ee
20?
_(
o
6 — WyTW-! (6 — W )
202
y)
do.
—00 0 Całkowanie względem parametrów 6, dostarcza czynnika proporcjonalnego do o”
| ox (5 00
—
Wy)” Tęqyp-1 W-! (6
w
—
20?
19 — (Zn) m o" kier,z
—00
co prowadzi do całki normującej w postaci (patrz (9.76))
Z = (zz)
Yderw | 0
— (2x)
exp (-z577% 20?
o” m
) do o
Zaw ( yrŚy v/detW.
W związku tym może nas zaniepokoić fakt pierwiastka z wielkości yTRy,o której nie wiemy, czy jest dodatnia. Rozważmy wykładnik funkcji wiarogodności (9.110)
R=(06—Wwy)"W"'(6-Wwy) Hy $y. Jeśli podstawimy do niego rozwiązanie (9.106) konwencjonalnej metody najmniejszych kwadratów, wielkość ta przyjmie najmniejszą możliwą wartość, jaką ta metoda może wymusić na wielkości Ń:
R
h
—.
dihn=y Sy.
(9.112)
Stąd też wnioskujemy, że musi być ona dodatnia. Wyrażenie (9.111) dostarcza jednoczesnej oceny najlepszych (najbardziej prawdopodobnych) wartości parametrów 6; zgodnych z (9.106) oraz wartości wielkości o: ad
g
moda
YTY
+1
_
Śmin
n+1
Jeśli nie interesują nas parametry 6,, możemy je z łącznej funkcji rozkładu (9.111) usunąć, wykonując całkowanie: 00
w(oly,x,V, W) = J w(8,o|y,x, V, W)dó 7%
=
—
I
Zam (Yin) 07m!
exp
( >) |-——
2a
(9.113)
| -
620
9. Stopień racjonalnego zaufania
NAZWCZTAE
Rozkład ten charakteryzuje się nadzieją
_
=
Zm
(
n-m—l
Śnin
o
'a
(—>7)
2
nm
którą warto porównać z tradycyjnym wynikiem (7.47), jak również z
(o) =
l Znm
(y
— Śnin
J
f
o”
uar
Ńmin
SXP | 755
20?
0
0
do =
Znm+2 Zn_m
( (v
—
Śri
=
Sin
Mtmin
,
nm
(9.114)
Z. gęstości (9.113) wynika także inna, bo niezależna od parametrów 6;, ocena najbardziej prawdopodobnej wartości czynnika skalującego o Omoda
z
—
Śtmin
n=m+
1 .
Obu tych wielkości możemy użyć do oceny pełnej macierzy kowariancji (9.108) 1 (9.109).
W filozofii podejścia bayesowskiego zapewne lepsza z nich jest ta zadana przez modę
rozkładu, choć bardziej konwencjonalne rezultaty, jak się przekonamy o tym za chwilę, otrzymamy, stosując asymptotyczne przybliżenie w wyrażeniu na nadzieję (o) lub Ścisły
wynik (9.114) na (o”).
Spójrzmy teraz na postać rozkładu parametrów 0,, który uzyskamy z (9.111), cał-
kując względem czynnika skalującego o 00
w(óly,x,V, W) = | w(e.oly,x.%. W) do
ZMOWA 0
(6 — Wy) W-" (6 — „|
Rozkład ten jest rodzajem rozszerzenia rozkładu Studenta dla przypadku m zmien-
nych. Nadzieja, jak również wielowymiarowa moda tego rozkładu zadana jest tradycyjnym wyrażeniem (9.106), a obszary wiarogodności o zadanym prawdopodobieństwie
określone są hiperelipsoidami w m-wymiarowej przestrzeni. Z rozkładu tego mogą nas interesować dwie wielkości: rozkład pojedynczego, wybranego parametru 0, lub też
rozkład pełnej formy kwadratowej występującej w nawiasie kwadratowym.
Zacznijmy od rozkładu wybranego parametru. Rozkład ten będzie nam łatwiej określić, jeśli powrócimy do wyjściowej postaci (9.111), w której usuniemy, przez całko-
wanie, wszystkie parametry 6; z wyjątkiem wybranego parametru 6;. Wykorzystamy do tego znaną własność (5.75) wielowymiarowego rozkładu normalnego. Własność ta,
9.4. Prawdopodobieństwo bezpośrednie
621
odniesiona do rozkładu (9.111), dostarcza nam rozkładu wybranego parametru
w(6;,o|y,x, V, W)
ŚĘ.. U) —gaa2
p
| »(-
T qy-1
6—w
6-—w
DW
> dó, ... d6;_;d6;,,... dO,
—00
l
=
=
l
exp | -752
1
dj,
— (65)
2
yć
+ Rmin |
|»
gdzie, dla uproszczenia notacji, „wprowadziliśmy nadzieję (9; | z równania (9.106) oraz diagonalny element macierzy W oznaczyliśmy przez w,,. Ten związek, scałkowany
względem o:
OO
w(8;|y, x, V, W) = J w(6;,o|y, x, Vv, W) do
-0) +3 nin
r(ęni)
_—
2
—
|
— 3 (m—m-+1)
( +
_G- (6, TZ ) |
(n — m)tb,; (0?)
m)
NEC — m)tb,; (02) (
(po ostatnim znaku równości wykorzystaliśmy wyrażenie (9.114) dla nadziei (a*)), po podstawieniu 0, — (9.
= =) W; (0?)(02
—00 < tj < ©,
przechodzi w rozkład Studenta (5.86) o n—m stopniach swobody, jednakowy dla każdego
z parametrów 6,
r (——-) w(t,|n, m, W) =
xG=m)r
(=
p (
+
n-m
—1(n—m+1) )
.
622
9. Stopień racjonalnego zaufania
Zarysujemy teraz sposób na określenie rozkładu formy kwadratowej parametrów 0, z łącznej funkcji rozkładu (9.111), którą przepiszemy tutaj, rozbijając ją na iloczyn dwóch czynników: %
w(8,oly,x, V, W) =
— Źn=m
l
Śnin
exp (-=)
( So)
gnm+l
(V2x)
0
l
l
x
any/det Wą
x
exp (5:
20?
—
6 —wWwy'w" 0 - wy).
Drugi czynnik w tym wyrażeniu to m-wymiarowy rozkład normalny parametrów 65, o ile byłaby znana nam wielkość o. Oznacza to, że wielkość l
—
u = —o (6 — Wy) W” (6 — Wy) opisana jest rozkładem (5.77) x* o m stopniach swobody, dlatego łączny rozkład (9.111) możemy zastąpić rozkładem
w(u,oly,x, V, W) —
za (finjooa l 22) rgm
"03
exp (- >)
uż"! exp (->)
„Wyłuskamy” teraz z wielkości u zależność od o, definiując nową, większą od zera zmienną t£: U
=
t”
—
>
o
du
21
=
—3
o
dt ,
co pozwala zapisać funkcję rozkładu przez w(t,oly,x,V,
W) =
2
Zy_m (VS) (2)
r (im)o"* p exp (-
=
202
Teraz możemy wycałkować względem parametru o: m
w(ily,x,V,W)=2
m (y £2 + Si) (42)
Zn=m (VS)
gm!
5 (żm)
1
=2
—
I (zn)
—
r (>m) 2 jA (zn — m)) Y Hmin
(1 + —) min
m—l
(
-
min
)
Dokonamy w końcu podstawienia
2.
= |
ro (02)
(o?)
-
6 — Wy) W-! (6 — Wy).
.
9,4. Prawdopodobieństwo bezpośrednie
623
gdzie W
= (07)W,
jest naszą najlepszą macierzą kowariancji rozkładu parametrów 6,. Podstawienie to doprowadza nas do ostatecznej postaci rozkładu w(T|n,m,W)=2
m
A)
r(z)
—
(oe)
2
4773
R—M
rea
będącego wariantem rozkładu zwanego rozkładem Hotellinga. Gdy m = 1, otrzymujemy rozkład Studenta o n — 1 stopniach swobody. Właściwy rozkład Hotellinga w klasycznej statystyce występuje pod postacią
w(T;n,m) =2
czy r(g)e(e) (3)
2
1 określony jest dla statystyki
2
(0
T"'(1+
r
-
T>0,
T=(1-1)6-p)"V"'(x- p), gdzie macierz V to macierz estymatorów wariancji (4.5) i kowariancji (4.13). Służy on
do testu istotności łącznego odchylenia średnich x,, Xą,...,X„ hipotetycznego układu wartości oczekiwanych ui, Ma, ..., Lm.
z próbki od pewnego
Jeśli umiemy dopasować zależność teoretyczną do danych doświadczalnych, to na-
stępnym krokiem jest ustalenie, która z konkurujących zależności lepiej opisuje te dane. Dlatego rozważymy teraz problem weryfikacji modeli określonych różnymi zależno-
ściami. Najbardziej elementarny przykład potrzeby takiego rozstrzygnięcia pojawia się przy dopasowaniu wielomianu, kiedy to musimy podjąć decyzję co do jego stopnia. Za-
sadniczo procedura weryfikacji wygląda tu bardzo podobnie do tej, jaką rozpatrywaliśmy w podrozdziale 9.3.4. Z uwagi na techniczne komplikacje, spowodowane nieskończonym
zasięgiem dopuszczalnych, a priori, wartości zarówno parametrów 6;, jak i parametru o,
przeprowadzimy tu powtórnie stosowne obliczenia. Rozważymy przypadek pełnej znajomości macierzy kowariancji V. Funkcja wiarogodności modelu określonego przez m parametrów zadana jest wyrażeniem (9.100), do którego podstawimy przekształcenia (9.104) oraz (9.106):
C(6,x,V,W) =
(vzr)
Gp —— esp (-> (6 — (6) W, (6 — (8) + i) w det V 2 (9.115)
Do wielkości min oraz W dodaliśmy dodatkowy indeks (m), aby zaznaczyć, że pochodzi
ona z modelu zadanego wyrażeniem typu (9.99) i określonego przez m parametrów 6,. Abyśmy mogli znaleźć globalną wiarogodność P(D|M,„ A W) dla tego modelu — teza M(„, głosi: model z liczbą m parametrów jest słuszny — musimy wprowadzić
624
9, Stopień racjonalnego zaufania
gęstości zaczątkowe parametrów i scałkować względem nich. Przyjmiemy, że wszystkie zaczątki są jednorodne zł
6;16;,87, W |
ł
ł
)=
0;
—
—,
0;
0,
) x
(8 — (8)) W”! (6 — (0) + zw
|) do.
W następnym kroku przekształcimy wykładnik:
—o (6 — (6) W" (6 — (6)) + —07W-'9 5? —
02 +- 52
—
52
06 )
1
W"l0—-
52
0
g2
W”!
(0
(w ostatnim składniku włączyliśmy czynnik o* do macierzy W, dzięki czemu mogliśmy uniknąć nad jej symbolem znaku tyldy). Całkując względem uprzykrzających parame-
2
9. Stopień racjonalnego zaufania
a7
626
ii
ibn
trów 6;, znajdujemy
dat malima koala ae ke bee
P(DIó, Mm AW) m
(/2r)
7I
o o? + 63
/det V
e xp | ( —z (m o" | Vlmn +F 5 2 o” +6
(6) W"!
o ))
Nh
=
Ponieważ wielkość 6 jest z założenia znacznie większa od czynnika o , dlatego dokonamy
przybliżenia, zaniedbując o* w stosunku do 6”:
PN 5m/det V mp(-1(ar507W 0). 2
g”
P(DIó,
Mn)
A W)
=
(2x)
Musimy teraz zmarginalizować wprowadzony parametr 6. Dokonamy tego za pomocą właściwego zaczątku Jeffreysa (9.75): l
m
P(D,
Ó| Mm)
A
=
W)
n
A (/2r) 5m+1/det V
cXp
(-;
2
2
(Sta
+
—
6
o
(6)' w”
))
,
gdzie
aby następnie scałkować względem niego
P(D|Mqm, W)
k
=
gm
>
a(/2n) vdetV
exp | —
Ńmin | f 1
|
2
02
— exp | >=
ó”!
26?
(98)
mai „N dó W”
(6) | —.
0
min
Ufając, że nie popełniamy istotnego błędu, przesuniemy granice całkowania do zera oraz nieskończoności:
P(D|M,„, W)
3
m
A (42) /det V o" a(42a
-
:
ap (- min |) J(1— exp (-5 0 w” toy) —d 2
(
+/det V
exp | —
8
26
6
: 2
(42) „r ()ep (- az 2a (/2x) vdetV(418) W-' (6))
|
|
9,4. Prawdopodobieństwo bezpośrednie
627
Teraz już możemy utworzyć stawkę, w której upraszcza się czynnik normalizacyjny A
zaczątku Jefireysa, o ile każdy z modeli ma przynajmniej jeden parametr:
P(D|Mm AW) P(M„IW)
Qm)/tk) F
P(D|M%
A
W)
P(M%|W)
m
_1
2 min) P(MlW)
N—
= (42) GAMOWAE, »p( W ((8)
z
(6)) r () exp (-z%m. 2
2
min
PMW)
gdzie przy macierzach W oraz wielkościach Ytm;, umieściliśmy dodatkowy indeks, wskazujący na związek tych obiektów z określonym modelem. Pierwsze trzy czynniki to współczynnik Ockhama, natomiast stosunek funkcji wykładniczych to stosunek maksymalnych wartości funkcji wiarogodności, czyli poznany przez nas wcześniej w związku (9.59) czynnik Bayesa.
Podobnie obliczenia możemy wykonać również w przypadku, gdy pierwotna macierz
V znana jest z dokładnością do czynnika skalującego. Szczegółowe rachunki pozostawimy jednak do wykonania Czytelnikowi, jak również pozostawimy mu ocenę „ekwilibrystyki umysłowej”, jakiej tu dokonaliśmy.
Wyrażenie na stawkę przyjmuje prostszą postać, jeśli zdecydujemy się na zastosowanie wielomianów ortogonalnych, gdyż, jak wiemy z podrozdziału 7.3.2, macierz W jest wtedy jednostkowa. Jeśli, dodatkowo, pierwotna macierz V jest diagonalna, wtedy także wyrażenie na St; redukuje się do (patrz np. (9.112)) _
_
s
n
_
2
m
Nnin =) Ly =yVy-yV'G6'V'y=y'V"'y-(6) (6) =) 3-2 ,08)”. i=l
Ji
i
i=1
gdzie o; to i-ty element na diagonali macierzy V. Podstawiając te rezultaty do stawki Qimytk, otrzymujemy
k
(CZ
F
e
Q mh)
(8;) (aż) i m (Ż 0?) 2]
>
7
r(7
_ ( z)
Dł
k
(3)
Przyjmijmy, że m = k + 1, czyli rozważamy lomianu o jedność, wtedy
WA
Qt+1)/(h) = = k
ł
=|
(6,)”
exp (
F Zaj
3
2 i=k+1
w)
PM
|W)
P(M5|W)
słuszność podwyższenia stopnia wie-
(6.2 | TGE+D) "Tt kl
.
(1
N PMaqylW)
exp ( (8441) ) "PMolW)
*
i=l
W sytuacji, gdy nie mamy preferencji dla żadnego z rozważanych wielomianów, ostatni czynnik (stosunek prawdopodobieństw zaczątkowych modeli) możemy przyjąć jednost-
628
9, Stopień racjonalnego zaufania
kowy. Jeśli dodatkowy parametr (6,4) nie jest istotnie duży, wtedy dwa pierwsze czynniki mogą zadziałać jak brzytwa Ockhama i zaważyć na wartości stawki, gdyż stosunek funkcji gamma Eulera z dobrym przybliżeniem wynosi ,/k/2, a więc w wielu zastoso-
waniach jest niewiele większy od jedności.
—- 9.5. Prawdopodobieństwo personalne Zasadniczym jądrem przedstawionej dotychczas teorii prawdopodobieństwa jest kwestia uzasadnienia postaci rozkładu prawdopodobieństwa. Staraliśmy się pokazać, jakie prze-
słanki są niezbędne do odtworzenia wszystkich ważniejszych rozkładów, które pojawiają
się w klasycznej teorii. Wskazaliśmy także na dwa fundamentalne narzędzia: metodę
grupy transformacji i metodę maksymalnej entropii, za pomocą których przekształcamy posiadaną informację (bądź jej brak) na matematyczną formułę rozkładu. Nacisk na logiczny i dedukcyjny charakter związku między werbalną wiedzą a analityczną formułą
sprawia, że prawdopodobieństwo uzyskiwane na tej drodze zwane jest obiektywnym. Stosowany bywa także bardziej precyzyjny termin prawdopodobieństwo logiczne. Właśnie ten logiczny aspekt teorii chyba najbardziej przemawia do fizyka, gdyż zgodny jest z jego postrzeganiem procesu poznania naukowego. Dlatego też zapewne nie jest dziełem przy-
padku, że jego twórca — H. Jeffreys i najgorętszy orędownik — E. T. Jaynes, byli fizykami. Nie jest to jedyny sposób podejścia do kwestii prawdopodobieństwa. Czyż nie zdarzyło się Ci, Czytelniku, wygłosić albo usłyszeć zdanie, które miałoby sens: daję dwa
przeciwko jednemu, że następne wybory wygra X lub: moja drużyna wygra mecz z dru-
żyną Y. Takim stwierdzeniem dajesz nam do zrozumienia, że jesteś, Czytelniku, gotów
zaryzykować 2 zł, aby wygrać 1 zł. Jest to Twoja osobista miara oceny szansy, że obstawiane zdarzenie nastąpi z prawdopodobieństwem 2/3. Naprzeciw tak rozumianemu prawdopodobieństwu wychodzą instytucje totalizatora, a bookmacherzy żyją z niego, co
ukazuje na jego operacyjny, a więc praktyczny, charakter. Ponieważ taka definicja praw-
dopodobieństwa łączy się nierozerwalnie z Twoją wiedzą, prze-
konaniami, a może nawet uprzedzeniami (każdy kibic sportowy jest niepoprawnym optymistą w kwestii szans zwycięstwa jego
drużyny), prawdopodobieństwo to zwane jest subiektywnym lub jeszcze lepiej personalnym. Jeśli definicję tę uzupełnimy paroma postulatami, to otrzymamy ten sam zbiór reguł, jaki obowiązuje dla teorii Kołmogorowa i prawdopodobieństwa logicznego. Ojcem takiego podejścia był włoski matematyk B. de Fi-
netti, który swym artykułem „Le Prćvision: ses lois logiques,
ses sources subjectives”, opublikowanym w Ann. Inst. Poincarć 7, 1 (1937), dał początek całej serii prac i to tak skuteczny, że
B. de Finetti,
1906-1985
znakomita większość literatury dotyczącej współczesnej teorii prawdopodobieństwa odnosi się do tego . nurtu. o. o, Z nurtu tego wyrastają inne operacyjne definicje prawdopodobieństwa personalnego. Przypuśćmy, że chcemy uzyskać opi-
9.5, Prawdopodobieństwo personalne
nię eksperta w kwestii pewnej
decyzji, którą musimy
629
podjąć, a decyzja ta może być
trafna lub błędna, w zależności od dalszego biegu wypadków, którego nie umiemy przewidzieć. Umawiamy się ze specjalistą co do jego wynagrodzenia, a suma którą ustalamy,
będzie jednostką w dalszych rozważaniach. Domagamy się jednocześnie od eksperta, aby
wraz ze swoją opinią przekazał nam pewną liczbę x, zawartą między zerem a jednością, a następnie potrącamy mu z honorarium sumę (1 — x)? jednostek, jeśli jego sugestia
będzie trafna, lub x*, gdy nam doradzi źle. Zmusi to eksperta do rzetelnego rozważe-
nia możliwych wariantów dalszego rozwoju sytuacji. Jeśli ekspert chce zminimalizować stratę swojego zarobku, będzie musiał wybrać wielkość x jako równą prawdopodobieństwu p przebiegu zdarzeń prowadzących do trafnej decyzji. Istotnie, oczekiwana strata
eksperta wynosi
pl —x) + (4 — px” 1 przyjmuje wartość minimalną dla x = p. Trzecia, także operacyjna definicja prawdopodobieństwa odwołuje
się do loterii.
Przypuśćmy, że zainteresowany jesteś Czytelniku pewnym wydarzeniem A. Oznaczmy przez p Twój poziom przekonania o możliwości zajścia tego zdarzenia. Ocenę wielkości
p możemy uzyskać, stawiając Cię przed następującym wyborem: e Uzyskasz nagrodę w wysokości 10 zł, jeśli zdarzenie A nastąpi, lub też zostaniesz
pozbawiony tej nagrody (nie dostaniesz nic), gdy zdarzenie to nie nastąpi. e Weźmiesz udział w darmowej loterii, w której możesz wygrać 10 zł z prawdopodobieństwem p lub nie wygrać nic z prawdopodobieństwem 1 — p.
Jeśli dana jest Ci, Czytelniku, taka alternatywa i nie widzisz preferencji między opcjami,
to wielkość p mierzy Twój poziom wewnętrznego przekonania co do szansy wystąpienia zdarzenia A.
Od strony formalnej teorie prawdopodobieństwa logicznego i personalnego nie róż-
nią się. Obie stosują ten sam aparat, a jako narzędzie wnioskowania wykorzystują twierdzenie Bayesa wraz z jego całym arsenałem pojęć. Jednakże obok różnic interpretacyjnych, jakie znajdujemy w obu podejściach, występują różnice praktyczne. Zwolennik
podejścia logicznego ma spętane ręce: najpierw musi postawić się w roli kompletnego ignoranta, aby z symetrii problemu wydobyć nieinformatywny zaczątek lub też z wiedzy, jaką posiada, minimalnie informatywny zaczątek i dopiero na tym fundamencie budować gmach wiedzy z danych doświadczalnych. Nie jest to zadanie, które zostało do końca rozwiązane — wspomnieliśmy o zasadniczych trudnościach, jakie „gnębią” zasadę maksymalnej entropii w odniesieniu do zmiennej ciągłej. Także w odniesieniu do narzędzi, które już znamy i rozumiemy, jak np. grupa transformacji symetrii, nie zawsze i do końca potrafimy rozpoznać trafnie problem. Praktyk podejścia personalnego znajduje się w znacznie bardziej komfortowej sytu-
acji. Nie musi dbać o żelazną logikę i konsekwencję — stać go na wybór bardziej liberalnej postaci zaczątku, do konstrukcji którego może wprząc swoją wiedzę i doświadczenie zawodowe. Wystarczy, że jego zaczątek będzie „„wrozsądny”, a dane doświadczalne, dostatecznie
obfite, dokończą dzieła, redukując i wygładzając wszelkie niedokładności. Przykładem takich rozważań jest cały podrozdział 9.4.5 poświęcony metodzie najmniejszych kwadratów.
630
9, Stopień racjonalnego zaufania
Nie oznacza to, że zwolennik podejścia personalnego wolny jest od wewnętrznych
rozterek. W duszy jego ciągle Ścierają się dwa aspekty analizy danych: zależność uzyskanych wyników od zastosowanego zaczątku i łatwości interpretacji rezultatów. Ten
pierwszy każe mu problem komplikować i badać istotność zmian w wyniku końco-
wym, co nieuchronnie prowadzi go do praktycznych trudności z wykonaniem samych obliczeń, a ten drugi każe mu wykorzystywane narzędzia upraszczać. Zważywszy, że
typowe obliczenia we współczesnej teorii są bardziej skomplikowane niż ich odpowiedniki w klasycznym podejściu, zagadnienie wytworzenia w miarę elastycznych, a jedno-
cześnie praktycznie użytecznych modeli i prawdopodobieństw zaczątkowych ma swoje znaczenie. Widzieliśmy dwa przykłady takiego praktycznego podejścia. W podrozdziale 9.3.3,
gdy rozważaliśmy funkcję wiarogodności w postaci rozkładu dwumianowego, zaczątek zaproponowaliśmy w formie rozkładu beta (9.44), co doprowadziło nas do prawdopodo-
bieństwa wynikowego (9.45), także w postaci rozkładu beta. Podobny wynik otrzymamy także i dla funkcji wiarogodności zadanej modelem ujemnego rozkładu dwumianowego.
Atutem takiego sformułowania problemu jest podsumowanie wszystkich wcześniejszych
eksperymentów
za pomocą równoważnej
liczby przypadków, wyrażonej parametrami
tego rozkładu. Identyczna prostota i łatwość interpretacji występuje dla funkcji wiarogodności zadanej rozkładem Poissona i zaczątku w formie rozkładu gamma, na co
zwróciliśmy uwagę w przykładzie 9.4.4. Takie specjalne zaczątki, dobrane do postaci funkcji wiarogodności i dostarczające rozkładu wynikowego w postaci funkcyjnej identycznej z zaczątkiem, określane są mianem sprzężonych. Zaczątki sprzężone można podać i dla innych modeli pomiaru. Na przykład dla parametru 4 wartości centralnej
rozkładu Gaussa takim zaczątkiem jest również rozkład Gaussa, a dla parametru o” tego rozkładu rozkład gamma w zmiennej zadanej odwrotnością argumentu o”.
Gdy zaczątek i model zostaną wybrane, pozostaje przeprowadzenie analizy i wy-
ciągnięcie wniosków.
Wnioski te jednak będą właściwe Tobie, jeśli Ty zdecydowałeś
(zdecydowałaś) o założeniach. Jeśli Ty także ponosisz konsekwencje tej decyzji, to zapewne taka sytuacja jest akceptowalna. Trudniej jednak wygląda kwestia prezentacji wyników naukowego eksperymentu, gdyż łatwo można się narazić na zarzut subiekty-
wizmu. Wydaje się, że jedynym wyjściem z tego ambarasu jest dyskusja i „ucieranie” poglądów. Unikniemy w ten sposób, co prawda, krytyki, a rezultaty nabiorą intersubiek-
tywnego charakteru, usankcjonowanego w nauce powszechną praktyką, nie oznacza to jednak, że będą sobą reprezentowały prawdę obiektywną.
NAGRODA
Dwa są główne elementy nagrody: zaszczyt i użyteczność.
Unormowania terminologiczne
W 1993 roku, w wyniku współpracy szeregu instytucji międzynarodowych, w tym Mię-
dzynarodowej Unii Fizyki Teoretycznej i Stosowanej (International Union of Pure and Applied Physics — IUPAP), Międzynarodowa Organizacja Normalizacyjna (International Organization for Standardization — ISO) wydała zalecenia: Guide to the Expression of Uncertainty in Measurement dotyczące wyrażania niepewności w pomiarach. Wersja amerykańska publikacji ISO przyjęta w Stanach Zjednoczonych przez National Institute
of Standards and Technology (NIST) ma tę zaletę, że osiągalna jest w Internecie pod adresem: http://physics.nist.gov/Pubs/guidelines/outline.html. Istnieje polski odpowied-
nik tej publikacji, wydany w 1995 r przez Główny Urząd Miar (GUM), a zatytułowany
Wyrażanie niepewności pomiaru. Przewodnik. Informacje przedstawione niżej pochodzą
właśnie z tego wydawnictwa. Celem Przewodnika jest przede wszystkim uporządkowanie terminologii, jaka panuje w dziedzinie zastosowań statystyki matematycznej w nauce i technice. Służy temu wprowadzenie fundamentalnego i ogólnego terminu, jakim jest niepewność pomiaru, która ma wyrażać rozrzut wartości, jaki możemy przypisać wielkości zmierzonej, przy czym nie precyzuje się bliżej operacyjnej metody określania tej wielkości. Niniejszy wykład zasadniczo zgadza się z proponowaną nomenklaturą w zakresie bardziej precyzyjnych terminów: wariancja i kowariancja, korelacja i współczynnik korelacji, a także odchyle-
nie standardowe
eksperymentalne, zwane również niepewnością standardową. Drobna
różnica występuje w znaczeniu terminu odchylenie standardowe zmiennej losowej, które
my, z uwagi na wygodę, nazywamy dyspersją (patrz podrozdział 3.2), rezerwując frazę odchylenie standardowe dla estymatora tejże dyspersji. Jednakże niebagatelnie różni się niniejszy wykład od Przewodnika w kwestii zastosowania słowa błąd, które dla społeczności fizyków jest synonimem odchylenia standardowego. Słowo to w zamyśle autorów dokumentu ISO oznacza wielkość abstrakcyjną z punktu widzenia analizy danych, ponieważ e błąd pomiaru to różnica między wynikiem pomiaru a wartością rzeczywistą wielkości
mierzonej.
Podobnie jest z pochodnymi:
e błąd przypadkowy to różnica między wynikiem pomiaru a średnią z nieskończonej
634
Dodatek A. Unormowania terminologiczne
liczby pomiarów tej samej wielkości mierzonej, wykonanej w warunkach powtarzalności;
e błąd systematyczny to różnica między Średnią z nieskończonej liczby pomiarów wykonanych z zachowaniem powtarzalności a wartością rzeczywistą wielkości mierzonej. Powyższe definicje praktycznie eliminują ten tak popularny termin z praktyki fizyka doświadczalnika. W konsekwencji odchodzą w niebyt takie wyrażenia, jak błąd Średniej, który zastępowany jest niepewnością standardową Średniej; błąd względny, czyli
względna niepewność standardowa, a także błąd wielkości mierzonej pośrednio, czyli
złożona niepewność standardowa. Warto jeszcze wspomnieć o klasyfikacji niepewności, jaką wprowadza Przewodnik. Otóż rozróżniane są dwa jej typy:
e niepewność typu A — czyli taka, którą możemy poszukiwać metodami statystyki matematycznej, a więc stosując aparat przedstawiony w rozdziałach 1—8 niniejszego wykładu;
e niepewność typu B — czyli taka, którą szacujemy innymi sposobami niż statystyki matematycznej. Istotne tu mogę być informacje pochodzące od producenta np. w me-
tryczce urządzenia pomiarowego, różne certyfikaty i świadectwa materiałowe, dane literaturowe, a także własne doświadczenie
i wiedza użytkownika
oraz szczegółowa
znajomość zjawisk składających się na całość procesu pomiarowego. Warto zwrócić uwagę na to, że definicja tej niepewności to wyraźny ukłon w stronę bayesowskiego
podejścia do zagadnienia estymacji. Mamy wykorzystać wszelką dostępną wiedzę, aby z niej wydobyć rozkład prawdopodobieństwa, a z niego poszukiwaną niepewność. Innymi słowy, szacowanie niepewności typu B to bardziej sztuka doświadczalna niż rzemiosło. Na zakończenie warto przypomnieć dwie pomocnicze publikacje regulujące terminologię języka polskiego w dziedzinie statystyki matematycznej, teorii prawdopodobieństwa i metrologii. Są to: e Rachunek prawdopodobieństwa i statystyka matematyczna. Terminologia, Polska Nor-
ma PN—90/N—01051.
e Międzynarodowy słownik podstawowych i ogólnych terminów metrologii, Główny Urząd Miar, Warszawa 1996 (tłumaczenie International Vocabulary of Basic and General Terms in Metrology, ISO, 1993).
Uzupełnienie
W tej książce, a zwłaszcza w rozdziale 4, wielokrotnie pojawiała się konieczność znajdowania sum wartości oczekiwanych jednomianów o postaci 3
(GY;Z% . .),
i,j,k...
gdzie sumowanie rozciąga się na wszystkie elementy próbki, a sama próbka jest prosta. Wartość oczekiwana pojedynczego wyrazu sumy zależy od tego, czy indeksy występu-
jące w tym wyrazie są identyczne, czy też różne. Przykładem postępowania w takim
przypadku było obliczanie wariancji wartości średniej (podobna sytuacja wystąpiła przy obliczaniu wartości oczekiwanej kowariancji z próby), gdzie sumę iloczynów x;,x; rozbilliśmy na dwie: w jednej z nich wystąpiły kwadraty wielkości x,, które dają przyczynek do wariancji zmiennej losowej x, a w drugiej iloczyny mieszane o różnych wartościach
indeksów, co dało iloczyny wartości oczekiwanych. Podobne wyodrębnienie powtarzających się indeksów można przeprowadzić 1 dla bardziej skomplikowanych sum. Podamy tu wyniki dla jednomianów
złożonych z trzech i czterech czynników,
ponieważ takie
wzory wystarczają do rozwiązania przedstawionych w tym rozdziale przykładów. Powtórzymy, dla kompletu, wynik dla sumy jednomianów złożonych z dwóch czynników:
n
3
i=1 j=1
Ż ,%Yjzk = 2% i,j,k
).
XiYjZkim = )
i,j,k,m
+ 3 ij
XYJ
=
Z
>.
i=l, ji
RJE
+) GYszj + Myjzi + XYZ) + |Xi);Zk. ij
i,j,k
xYszik i
(Gyszit, + Xryszzt; + X YsZyt + XrYzzzt, + X Yzzyt, + X;Y;Zit, + X; Yjzytj)
+ >, (X YsZkEj + XyjZiłk H XrYjZkli + XiYjZyty PF XYGZKtk + XY;ZKtj) + 3 i.j.k
i,j,k,m
Xi YjZkim»
636
Dodatek B. Uzupełnienie
gdzie w sumach zaznaczonych po prawej stronie znaku wszystkich równości indeksy i, j,... przebiegają różne wartości, jak to jawnie zaznaczone zostało w pierwszym
wyrażeniu.
Powyższe wyniki pozwalają łatwo znaleźć wartość oczekiwaną np. następującego wyrażenia (dla próby prostej): (7
1)
= >
2000)
+
>
i,j,k
(GX;X; + X;X;X; + 199)
+
ij
>
1)
i,j,k
— (Z z + ię Pó) + > w =
b! +32
Gx) +), ogra) i,j,k
=
b! |+32_bi ) b) + >, 66) i,j,k
=n(x | + 3nn — 1) b gdzie w drugiej i trzeciej
| 09) + nn — 1)(m — 2) (x)”,
sumie przed ostatnią równością występujące
tam czynniki
mogliśmy rozdzielić wartością oczekiwaną, właśnie z uwagi na rozłączne wartości indeksów.
Po nieco bardziej skomplikowanych obliczeniach uzyskujemy także następujące re-
zultaty (również słuszne dla próby prostej)
l
E[8- 1] = zE[6- w]. 1
E|[E- nu] = zE[6-—w']+
wi
2 x ].
Prawo mnożenia sposobności
W tym dodatku zajmiemy się rozwiązaniem równania funkcyjnego, wyrażającego prawo łączności
JU, y),2) = f0, JQ,2)).
(C.1)
Bez wątpienia, najprostsza funkcja spełniająca to równanie to funkcja stała. Ponieważ mało ciekawa jest teoria, w której wszystko jest stałe (a teoria taka, w dodatku, pogwał-
ciłaby nasze wymaganie monotoniczności i zgodności ze zdrowym rozsądkiem), dlatego potrzebujemy nietrywialnego rozwiązania równania (C.1). Wprowadzimy, dla uproszcze-
nia, dwa oznaczenia: u = f(x,y) oraz v = f(y,z), w której to notacji (zmienne x, y
oraz z utrzymujemy jednak jako niezależne) związek (C.1) możemy przepisać w postaci f (x,v) = f(u,z). Zróżniczkujmy tę równość względem x oraz względem y:
9
9
x
0x
3,3 © V) = ZF U, 2) O
3,J
y
0 V) =
O
—
dy
f (u, z)
> >
hnlx,v) = filu,z)fi(x, y), px,v)fiOG.
z) = Ji lu, z) f(x,
Y);
gdzie indeksy określają numer pozycji argumentu funkcji f, względem którego ją różniczkujemy. Dzielenie stronami drugiego równania przez pierwsze daje
G(x, v) 17,2) = G(x,y),
gdzie
G(x, y) =
hl(x,y) J 1 (x
(C.2)
Y )
Ponieważ prawa strona zależy jedynie od x oraz y, lewa strona, mimo występującego jawnie oraz implicite argumentu z, nie może od tej wielkości zależeć. Mnożąc równość (C.2) przez G(y, z), otrzymujemy
G(x, v) fa(y, Z) = G(x, y)G(y, z).
(C.3)
Obliczymy teraz pochodną lewej strony (C.2), o której wiemy, że nie zależy od zmiennej z, względem tej zmiennej:
0 zz Św v) A0,2) = G>(x,v) A0,2)0,2) + GGQ,0) 207,2)
=0,
638
Dodatek C. Prawo mnożenia sposobności
a także pochodną lewej strony (C.3) względem y 0
3,
v)
ly, z)
=
G(x,
v) 107.
z) fl. z)
+ G(x,
v) fa1(Y; z).
Widzimy, że obie pochodne są sobie równe, a ponieważ pierwsza jest równa zeru, tak więc i druga musi być też równa zeru, co oznacza, że prawa strona (C.3) nie zależy od zmiennej y. Otrzymujemy w ten sposób fundamentalną własność funkcji G: pomnożona przez drugą taką samą funkcję, w której pierwszy argument jest identyczny z argumentem stojącym na drugiej pozycji w pierwszej funkcji, musi prowadzić do uproszczenia tego
argumentu. Najbardziej ogólna postać takiej funkcji zadana jest przez
G(x,y)=r
H(x)
HY)
gdzie wielkość r jest dowolną stałą. Ponieważ domagamy się monotoniczności funkcji f(x, y), co implikuje, że pochodne f, oraz f, są większe od zera, tym samym stała r musi być dodatnia, natomiast funkcja H nie może zmieniać znaku w zakresie zmienności swego argumentu. Skorzystamy teraz z tej postaci funkcji G i ze związków (C.2) oraz (C.3), które pozwalają znaleźć wyrażenia na pochodne cząstkowe funkcji f hO,z)
KY,2)
ZY,Z)
a z relacji
s
H (v)
=
HQ)
=r —
HC)”
dv = df(y, z) = (7,2) dy + fa(y, z) dz
otrzymujemy następującą formę różniczkową: dv
H(v)
=
dy
—
H(y)
|
dz
r—-—..
HQ)
Jeśli wprowadzimy funkcję g(x) związaną z funkcją H(x) związkiem dx
g(x) = exp ([ c) gdzie przez brak granic całkowania zaznaczyliśmy fakt, że w wykładniku znajduje się funkcja pierwotna wraz z dowolną stałą całkowania, naszą formę różniczkową możemy scałkować
sv) =g(/0,2)) =80)8 (2).
Biorąc funkcję g równości f(x, v) = f(u,z) i stosując prawo (C.4), otrzymujemy
g(f%,0)) =g(flu,2))
>
g(x%)g' W) = glu)g (2),
a wykorzystując ponownie (C.4) w stosunku do g(v), a także do g(u), znajdujemy
SWW
O)
WIO)
>
220808 0) =sg20)8' (08 0).
Jak stąd wynika, jedyna niesprzeczna i nietrywialna wartość stałej r to jedność.
(C.4)
Dodatek C. Prawo mnożenia sposobności
639
Powyższe wyprowadzenie ogólnej postaci prawa łączności działań zawdzięczamy R. T. Coxowi (Probability, Frequency and Reasonable Expectation, American Journal of Physics 14 (1946), 1). Opiera się ono na założeniu dwukrotnej różniczkowalności funkcji f. Istnieje (J. Aczel, Lectures on Functional Equations and their Applications,
Academic Press, New York 1966) rozwiązanie tego problemu bez wykorzystania faktu różniczkowalności. Funkcja g, zastosowana do relacji AAB|IW
= f(AIW,BIAAW)
dostarcza związku między sposobnościami A A B|W oraz A|IW iBJAAW: g(A AB|W)
= g(A|W)g(B|A AW).
PAM „A wie Ad” 2 Zk Aa a ARA
Prawo dodawania sposobności
W tym dodatku rozwiążemy równanie funkcyjne
„r(-9) x
=yF(->). y
(D.1)
dla funkcji F łączącej sposobności przeciwstawnych tez. Tożsamość
(D.1l) jest określona na kwadracie jednostkowym
0 < x,y
. =
I, znajdujemy poszukiwaną funkcję |
Fx)=(l-x")".
s
(D.6)
Widzimy, że warunek F(1) = O jest także spełniony, jak również prostym rachunkiem sprawdzamy, że funkcja ta jest odwrotna do siebie samej, a także spełnia (D.1).
Przedstawione wyżej wyprowadzenie pochodzi ze wspomnianej we wstępie publikacji E. T. Jaynesa i wykorzystuje fakt, że funkcja F' jest jednokrotnie różniczkowalna. Wzmiankowany w dodatku C artykuł R. T. Coxa zawiera alternatywne wyprowadzenie, zakładające dwukrotną różniczkowalność. Powtórzymy to wyprowadzenie teraz, ponie-
waż jest ono znacznie prostsze, a także „smakowite” matematycznie.
Dla uproszczenia notacji wprowadzimy oznaczenia u = F(y) /x oraz v = F(x)/y, otrzymując z (D.l) (D.7) x F(u) = yF(v).
Po zróżniczkowaniu tego związku względem x, względem y oraz względem obu zmiennych otrzymujemy następujące równości:
uF' (u) — F(u) = —F' (v)F' (x),
(D.8)
F'(u)F'Q) = —vF (v) + F(v),
(D.9)
-F'(u)F') = ;F"OF'a).
(D.10)
Mnożąc równanie (D.7) przez (D.10), usuwamy jednocześnie x oraz y, uzyskując uF'(u)Fl(u)F'y) =vF'(v)F(v)F (x). Z równania tego możemy wyeliminować F'(x) oraz F'(y), jeśli wykorzystamy równanie (D.8) oraz (D.9), co prowadzi nas do uF”(u)F (u)
(uF'(u) — F(u)) F'(u)
s
vF"(v)F(v)
(0F'(v) — F(v)) F'(v)
Dodatek D. Prawo dodawania sposobności
643
Ponieważ każda ze stron tego równania zależy od innej zmiennej, więc aby możliwe było, że obie strony są sobie równe, każda z tych stron może być tylko stałą. Oznaczając tę stałą przez k, otrzymujemy równanie różniczkowe na nieznaną funkcję F (u) uF' (u)F(u) =k (uF'(u) — F(u)) F' (u), które możemy przepisać w postaci dF _|
dF
du
F
uj)
F' co, po scałkowaniu, daje nam
F F' (u)
=A
(7)
u
k ,
gdzie A jest stałą całkowania. Ponieważ forma ta dopuszcza rozdzielenie zmiennych, więc możemy łatwo wykonać także i drugie całkowanie, z rezultatem F" (u) = Au” + B,
gdzie m = 1 —k. Podstawiając warunki brzegowe F(0) = 1 oraz F(1) = 0, otrzymujemy ponownie (D.6)
F"(u)+u"=L.
Jeśli do związku tego podstawimy sposobności g(A|W) oraz g(A|W), to otrzymamy
ostateczną postać zależności łączącej sposobności przeciwstawnych tez
g"(AIW) + g”(AIW)=1.
Twierdzenie Shannona
Przeprowadzimy dowód twierdzenia Shannona
S„(Pi, P,,..., P,) =) Zauważmy najpierw, że
1 1 50) = S, (gaz) n
1, ) =
—00 < I < ©,
,
n=l,2,...,
v[t] = —— dla n > 2. p =
y =0 dla n > 3
6
n > 4. dla
n-4
Gdy parametr n ma jednostkową wartość, rozkład ten nosi nazwę rozkładu Cauchy ego. Rozkład Breita-Wignera
JaQ;u T)=
r 2
a (5)+ 6 — 02)
—00
< X < W,
0),
o
—00 < X < O,
(X) =m, Rozkład Pareto
Xx
(x)
=
ab
1
, dl
aa >
3
0
dl
2.
Rozkład Weibulla f(x;a,a) =
(-) o No
a—l
a
xp (- (>) ). a
0)