Statystyka dla fizyków 8301137029


116 37 112KB

Polish Pages [657] Year 2002

Report DMCA / Copyright

DOWNLOAD PDF FILE

Table of contents :
Spis przykładów
Tytułem wstępu
Część I. DANE
1. Statystyka w fizyce
Część II. JĘZYK
2. Prawdopodobieństwo i jego rozkład
2.1. Pojęcie rozkładu prawdopodobieństwa
2.2. Układ pewników
2.3. Prawdopodobieństwo warunkowe
2.4. Zdarzenia niezależne
2.5. Dystrybuanta
2.6. Przekształcenia zmiennych losowych
2.7. Rozkłady warunkowe i randomizacja
2.8. Twierdzenie Bayesa
3. Parametry zmiennej losowej
3.1. Wartość oczekiwana
3.2. Momenty
3.3. Kowariancja i współczynnik korelacji
3.4. Momenty funkcji zmiennych losowych
3.5. Krzywe regreSji
3.6. Parametry pozycyjne
4. Momenty i statystyki pozycyjne z próby
4.1. Wartość średnia —— prawo wielkich liczb
4.2. Odchyłenie standardowe i wyższe momenty
4.3. Średnia ważona
4.4. Kowariancja
4.5. Efekty systematyczne i ich błędy
4.6. Statystyki pozycyjne z próby
Część III. MODELE
5. Niektóre rozkłady
5.1. Elementy analizy kombinatorycznej
5.2. Rozkład dwu- i wielomianowy
5.2.1. Rozkład dwumianowy — wyprowadzenie
5.2.2. Momenty rozkładu dwumianowego i ich estymatory
5.2.3. Postacie graniczne rozkładu dwumianowego
5.2.4. Rozkład wielomianowy — wyprowadzenie
5.2.5. Momenty rozkładu wielomianowego i ich estymatory
5.2.6. Postać graniczna rozkładu wielomianowego
5.3. Rozkład wykładniczy
5.3.1. Wyprowadzenie
5.3.2. Momenty i ich estymatory
5.3.3. „Brak pamięci”
5.3.4. Szeregi promieniotwórcze
5.4. Rozkład Poissona
5.4.1. Wyprowadzenie
5.4.2. Momenty
5.4.3. Postać graniczna rozkładu Poissona
5.4.4. Czas martwy
5.5. Rozkład Gaussa
5.5.1. Wyprowadzenie — modele Laplace'a i Herschela
5.5.2. Własności rozkładu Gaussa
5.5.3. Centralne twierdzenie graniczne
5.5.4. Binormalny i wielowymiarowy rozkład Gaussa
5.6. Rozkład chi^2
5.6.1. Wyprowadzenie
5.6.2. Własności rozkładu chi^2
5.6.3. Postać graniczna rozkładu chi^2
5.7. Rozkład Studenta
5.7.1. Wyprowadzenie
5.7.2. Własności rozkładu Studenta
5.7.3. Postać graniczna rozkładu Studenta
5.8. Rozkład F Fishera
5.8.1. Wyprowadzenie
5.8.2. Własności rozkładu F
5.8.3. Postać graniczna rozkładu F
5.9. Rozkład Breita-Wignera
5.10. Rozkład jednostajny
5.11. Podsumowanie. Związki między rozkładami
6. Metoda Monte Carlo
6.1. Idea symulacji komputerowej
6.2. Generatory liczb losowych
6.3. Metody generowania rozkładów prawdopodobieństwa
6.4. Typowe zastosowania technik Monte Carlo
Część IV. WNIOSKI
7. Estymacja parametryczna
7.1. Własności estymatorów
7.2.1. Zasada największej wiarogodności
7.2.2. Własności estymatorów największej wiarogodności
7.3. Metoda najmniejszych kwadratów
7.3.1. Zasada najmniejszych kwadratów
7.3.2. Przypadek liniowy
7.3.3. Przypadek liniowy z liniowymi równaniami więzów
7.3.4. Przypadek nieliniowy
7.3.5. Analiza regresji
7.4. Estymacja z ufnością
7.4.1. Metoda estymacji przedziałowej
7.4.2. Estymacja przedziałowa parametrów rozkładu Gaussa
7.4.3. Estymacja przedziałowa w metodzie największej wiarogodności
7.4.4. Estymacja przedziałowa w metodzie najmniejszych kwadratów
7.4.5. Ufność z ograniczeniami
8. Weryfikacja hipotez
8.1. Test istotności
8.2. Test zgodności
9. Stopień racjonalnego zaufania
9.1. Prawdopodobieństwo i statystyka
9.2. Sposobność i jej miara
9.2.1. Algebra Boole'a
9.2.2. Dezyderaty teorii
9.2.3. Prawa operowania stopniem racjonalnego zaufania
9.2.4. Ku prawdopodobieństwu
9.3. Wnioskowanie probabilistyczne
9.3.1. Twierdzenie Bayesa
9.3.2. Probabilistyczna indukcja
9.3.3. Estymacja parametrów z twierdzenia Bayesa
9.3.4. Weryfikacja hipotez z twierdzenia Bayesa
9.4. Prawdopodobieństwo bezpośrednie
9.4.1. Nieinformatywne zaczątki
9.4.2. Minimalnie informatywny zaczątek parametru skalującego
9.4.3. Minimalnie informatywny zaczątek parametru lokacji
9.4.4, Zasada maksymalnej entropii
9.4.5. Metoda najmniejszych kwadratów
9.5. Prawdopodobieństwo personalne
Część V. DODATKI
Dodatek A. Unormowania terminologiczne
Dodatek B. Uzupełnienie
Dodatek C. Prawo mnożenia sposobności
Dodatek D. Prawo dodawania sposobności
Dodatek E. Twierdzenie Shannona
Dodatek F. Rozkłady — podsumowanie
Podziękowania
Skorowidz
Recommend Papers

Statystyka dla fizyków
 8301137029

  • 0 0 0
  • Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up
File loading please wait...
Citation preview

WYDAWNICTWO NAUKOWE PWN WARSZAWA 2002

a k y t s y | Stat w ó k y z f a l d

1 Roman Nowak

Projekt okładki i stron tytułowych MARYNA WIŚNIEWSKA

Redaktor MAŁGORZATA KOPCZYŃSKA

Tytuł dotowany przez Ministra Edukacji Narodowej i Sportu

Copyright © by Wydawnictwo Naukowe PWN Warszawa 2002

Wydawnictwo Naukowe PWN SA

ul. Miodowa

10, 00-251

Warszawa

tel.: 69 54 321, e-mail: pwn©pwn.com.pl

www.pwn.pl

ISBN 83-01-13702-9

SA

BŁĄD

Człowiek jakoby w stroju podróżnym, z zawiązanymi oczami; kroczy macając przed sobą kijem, szuka bowiem drogi,

tak by była jak najpewniejsza. Ale niemal zawsze podąża on w Niewiedzy.

*Wszystkie alegorie i cytaty pochodzą z Ikonologii sporządzonej przez Cesarego Ripę, a wydanej przez Towarzystwo Autorów i Wydawców Prac Naukowych UNIVERSITAS,

Kraków 1998.

Spis treści

Spis przykładów

.................

Tytułem wstępu ..................

Część I. DANE ............... 1. Statystyka w fizyce

Część II.

............

JĘZYK ...........

m...

o...

3.

|...

o.

zr

e

BR

0

o

2

a...

|...

z...

m...

o...

ne

PE

o...

o...

i

o

2

Be.

R

A

R.

2

A.

2

0

ER

o

R

0

e

0

i.

R.

A

A

R



2

Ra

2

2

0

0

PM

0

0

4

23

3

O

2

A

e

2

21

2

22

23

+

P+

33

>

2

0

0

R

2

A

I

4

RA

A

A

2.

2

2

A

>

A

2

A

A

A

A

o

oe

A

BE

A

8

R.

a

2

13

2

35

aan zaniki 011 -weeae aaa aaa nana 2. Prawdopodobieństwo i jego rozkład ...........-

35

a zana n nana narnii: aaa aa ea aaauaeeaaeen 2.1. Pojęcie rozkładu prawdopodobieństwa.........

2.2. Układ pewników ...........

Że

2.3. Prawdopodobieństwo warunkowe 2.4. Zdarzenia niezależne........ 2.5. Dystrybuanta...............

0

0

e

R

2

A.

0.

0

o

A

20.

2

0

e

ne

3

2

2

3

e

2

52 56

e

>

68 88 104

2

+

11ł

2

111 116 124 128 134 136

na enea nart iii: aaaeaa aaa ana aaa nana .....uuereez dd...

z...

w...

2.

o...

e

o.

e

e

Ro

2...

BR o

A

o

0



R

BV

A

A

A

2

A

0

z

R

A

o

A

A

e

A

Pe: e

2

A Ba

aaa aaa naa i iii: aaa anna nana aaaaaa 2.6. Przekształcenia zmiennych losowych ......uuaeaaaa

ana az nn ia: enea nana za eeaa ..uea aaa 2.7. Rozkłady warunkowe i randomizacja .....

2.8. Twierdzenie Bayesa.........

3. Parametry zmiennej losowej ... 3.1. Wartość oczekiwana ........

3.2. 3.3. 3.4. 3.5. 3.6.

w...

e.

e

|...

2

0

a:

o.

|...

Po

z...

i

o

A

R

A

0

a

R

A

R

2

2.

0

2.

ża

o

2

0

A

M

O HE e

A

R

2

2

2

2

Het

A

o

2

A

i

ROB.

2



2

22:

Momenty ..........-1221--. az iii: aa aaa eee cana c nn .ueaea aaa aaa Kowariancja i współczynnik korełacji ...... nana n aa naaz naniaacia: eaeaaaa eee enea Momenty funkcji zmiennych losowych ......u Krzywe regreSji ............ Parametry pozycyjne........ m...

..

O.

w...

o...

0:

R.

i...

O

ORA

2.

BO

2

O

0

VO

PA

EE

A

M

OVO

2

e

2

8

R

O

0

PW

0

R

M

R

O

R

e

R

A

2

A

A

O

20

2

0.

A

2

OP

un

ŁA

2

2

5

O

>

e

z nania iii: aaa nana aaa eeea . Momenty i statystyki pozycyjne z próby ..........-eem

139

netii: aaa nawa a anawa nna ca aaa aaa ..uaa 4.1. Wartość średnia —— prawo wielkich liczb .....

140 144 153 157 160 167

4.2. 4.3. 4.4. 4.5. 4.6.

nan aaa niania ii: eee aaa na aaa -u.ea Odchyłenie standardowe i wyższe momenty....... Średnia ważona ............ Kowariancja ............... narnii 1: ana nana nanaaaa .ueaaa aa naaaaaaaaan Efekty systematyczne i ich błędy .....u Statystyki pozycyjne z próby o... w...

Że

A

0

B.B.

o

o

R

R

2

a

Ee

R

O

o

0.

2.

A

2

e

A

2

2

e:

2

2

o

0

0

PA

e

A.

A HE R

i

e

A

ee

HA

A

2

i

2

e

2

6

Spis treści

Część III.

MODELE

5. Niektóre rozkłady

5.1. 5.2.

...............................

...........muuuuueumeaaumaaaaa LLL aaiaiiiLL.

175

Elementy analizy kombinatorycznej..............uuuaaaaaaaaaaaaaaa ii LILII Rozkład dwu- i wielomianowy .......uuuuuuuaaauaaaaaaaaaazaaaiaa LL LLL ii

175 191

5.2.1. Rozkład dwumianowy — wyprowadzenie ..........uuuazaaaaai i LLLLLL. i 5.2.2. Momenty rozkładu dwumianowego i ich estymatory...............-...i.1i11.. 5.2.3. Postacie graniczne rozkładu dwumianowego ..........meuaaaaaaai LLL. aa

5.2.4. Rozkład wielomianowy — wyprowadzenie ............uzuaaaaaaaiLLL. L

5.3.

5.4.

5.5.

5.6.

5.2.5. Momenty rozkładu wielomianowego i ich estymatory ..............aaaaaaLL.... 5.2.6. Postać graniczna rozkładu wielomianowego............uuaaaaaaaiaa LLL. Rozkład wykładniczy .........muuaaa aaa aaaaaaanaaza LLLLJL 5.3.1. Wyprowadzenie .......uuuua aaa auaaaaaaaaa LIIL 5.3.2. Momenty i ich estymatory .........uuuaaaaaaaaaaaa LILII aaaii LL. 5.3.3. „Brak pamięci”.........uuu aaa aaauaaa aaa aaaaaaaa 5.3.4. Szeregi promieniotwórcze .......uuuaaaaaaaaa aaa. Rozkład POoiSSOna...... ..... aaa anawauuaaeaaaaaaa LLL 5.4.1. Wyprowadzenie ........zaa .uuu zazn aeaa a aaaaaLIJI 5.4.2. Momenty ........uuua zania aaaa aaa aaaaaza LL. 5.4.3. Postać graniczna rozkładu Poissona ...........umuaaaaaaaaaazaaaiiai LLL] 5.4.4. CZAS Martwy .......uuuuu aa azaaa aaaa aaa aaaaaaaa LLLL Rozkład Gaussa ......... aaa zaa uaa eaaiiiiiL iiaiia aawLLLL. aa 5.5.1. Wyprowadzenie — modele Laplace'a i Herschela .............u.aaazzLLiLL. 5.5.2. Własności rozkładu Gaussa ......uu aaa euaeuaaaa LLLL. 5.5.3. Centralne twierdzenie graniczne .............muuaa aaaaaaLILII] aaa aaa

5.5.4. Binormalny i wielowymiarowy rozkład Gaussa ...........uzuaaaaaaaiii LLL. Rozkład x? ......uuauaa aaa aaaaaaeaaaaa LLILLLLLaz LLL

5.6.1. Wyprowadzenie

.........uuuaaaazaaa zana aaaaaaaaa LLL

5.6.2. Własności rozkładu X*.....uuuuuueuaaaaaaaaaiii aaaaaazaiia LLLL I.

5.7.

173

5.6.3. Postać graniczna rozkładu X?........uu.uuaaaaaaaaaaaaia LLL.

191 199 203

207

208 214 216 216 222 231 235 243 243 261 275 276 295 295 300 309

313 323

323

324

331

Rozkład Studenta............aaa .uaaa aaaaiaizi aaaaa ii LL aaaaa LLLLLLL. a 5.7.1. Wyprowadzenie ........uuuuuueaaaan aaa aaaaaaaaa LLL. 5.7.2. Własności rozkładu Studenta .............muuuaaaaaaaaaaa iii azia LL LIL 5.7.3. Postać graniczna rozkładu Studenta ...........uuuuaaaaaaazaaaii LLL. 5.8. Rozkład F Fishera...........uuuuuuaaaaaaaaaaaaaaaaaanaaaaai LL LLLLLL. a 5.8.1. Wyprowadzenie ..........muuuaaaaaaaaa niania LII 5.8.2. Własności rozkładu F........muuueuuaaaaaaaaaaaaaaaanaa ai LLL iia 5.8.3. Postać graniczna rozkładu F...........muuuuuuaaaaaaaaaaaaiai LLL 5.9. Rozkład Breita-Wignera ........aaa ..uuueaueaaaa LLILL 5.10. Rozkład jednostajny ......muuuuuuauaauaaaaaaaaaa iii aaaaaaa LLL... aaiia 5.11. Podsumowanie. Związki między rozkładami ..........m.auaaaaaaaiiLLLLLLL.

333 333 337 338 341 341 342 343 344 347 352

6. Metoda Monte Carlo ............... aaa ..uuueuuueee LI

355

6.1. 6.2. 6.3. 6.4.

Idea symulacji komputerowej.............meuaaaaaaa ii aaazaai LLLLLLLLL. a Generatory liczb losowych ......uuuaaauaa aaa aaaaaaaaa LILII Metody generowania rozkładów prawdopodobieństwa .........muuaaaaiaaii LLL. Typowe zastosowania technik Monte Caflo ...........uuaaaaaaaaaaaaiia LLL.

Część IV.

355 359 363 365

WNIOSKI .............................. LL

369

7. Estymacja parametryczna............mu.meumeuaa aaaaaaLLLLLLLLL. i aaiai

371

7.1.

Własności estymatorów ........uuuauaaaaa aaaaaaaaaaaaaa LLL

372

Spis treści 7.2.1. Zasada największej wiarogodności ......uauaaaaaa aaa ana aaa nana anni c i 7.2.2. Własności estymatorów największej wiarogodnoŚci ..........-emaaeaaaaraniti0i1 ana aaa nana e nana cieni: 7.3. Metoda najmniejszych kwadratów.......umueaaeaeaneaaaaaena 7.3.1. Zasada najmniejszych kwadratów 7.3.2. Przypadek |MQoWy ...-auaaeaaana aa eaaaawaaaaana nana aaa ania aa cenia ara ea aaa ni cct: 7.3.3. Przypadek liniowy z liniowymi równaniami WIĘZÓW ......uuaaaa wana aaea anna aaa ne ena rena nai ii A 7.3.4. Przypadek nieliniowy .......uauaeaaeaea 7.3.5. Analiza regresji ini i: nan anaaaaaaananizaaa aan 7.4. Estymacja z ufnoŚcią .....aueeaaeaenaaaeaaa 7.4.1. Metoda estymacji przedziałowej 7.4.2. Estymacja przedziałowa parametrów rozkładu Gaussa 7.4.3. Estymacja przedziałowa w metodzie największej wiarogodnoŚci .................. 7.4.4. Estymacja przedziałowa w metodzie najmniejszych kwadratów ............-1..... ener ani ii aaa naa a arena 7.4.5. Ufność z ograniczeniami ........uuaa aaa aaa aaa o...

0

m...

o

o...

R.

a...

o

a...

o

ERA

A.

o.

p...

e

e

o

e

0.

a

e

|...

r

e

BE

O

R

R.

2

b

e

o

0

R

o

o

2

o...

|...

8. Weryfikacja hipotez

0

R.

O

0

Ł

2

a

Ba

O

R

2

oe

r.

e

o

R:

e

O

o

b

e

A

2

e

O

+

0

2

a

BA tt

że

+

7

A

Pet

a...

2

8.

0

R

e

A

e

Po i

ea aa kaza aaa z azaaaaana a nana LLLuuuuuz zazna 8.1. TesbAStobmoŚlł...L

8.2. Test zgodności

o...

9, Stopień racjonalnego zaufania

0

o...

o...

0

R

O

R

a

o.

i: o

Łe



o

0.

20

R

A

ne.

e

a

e

A

e

b

a

BA

0

e

+

+

9.1. Prawdopodobieństwo i statystyka ani ri: na nana znaa a naa aaa a aaneaaaaaaa 9.2. Sposobność i jej miara........eae nii 1: aaa nana aan a aaa aaa n ..uuuua nana aaaa aaa ....... 9.2.1. Algebra Boole'a m...

0

o

e

e...

p.

r

e

Pt

o

R

e

2a

a nana e near i c A nana nana naa nanaaaaaa aaa.-meu 9.2.2. Dezyderaty teorii .....

9.2.3. Prawa operowania stopniem racjonalnego zaufania cana naci: anawa aaa neea cnaaaaaa 9.2.4. Ku prawdopodobieństwu .......uuuueeaaa e nei c i: nna wana wana aaa aan eaza 9.3. Wnioskowanie probabilistyczne .......-m.uuaaaeae ni ii ii aana naa naaaaa aaa aa aaa nawa aaa BayeSa........emeaa 9.3.1. Twierdzenie a...

o

e

0

e

O

>

2

e

»

2

aaa cana nana n nic: nawa aaa a aaaeaaeaaana 9.3.2. Probabilistyczna indukcja........uu

ani 1 1 nana .eeeea aaa aaa 9.3.3. Estymacja parametrów z twierdzenia BayeSa ........ 9.3.4. Weryfikacja hipotez z twierdzenia Bayesa ..........

0...

o

e

e

0

RL

BU

EE

2

O

e

Rae i

a nana anni cia aaa aaa a eee 9.4. Prawdopodobieństwo bezpośrednie .........uuueaaeaaea 9.4.1. 9.4.2. 9.4.3. 9.4.4, 9.4.5.

aaaiii aa narnii aa nawa a nawe wana uuaaea Nieinformatywne zaczątki .....u Minimalnie informatywny zaczątek parametru skalującego .........-222:212-1111. Minimalnie informatywny zaczątek parametru lokacji...........eaasaeet2001. aiii: aaaaaa nana ana naenai aaa nawa .uaeaaa Zasada maksymalnej entropii ....... anni: nana a aan aan auaeaeaa aaa aaa Metoda najmniejszych kwadratów .......u

nania iii: znana nana nanaaaaaa 9.5. Prawdopodobieństwo personalne .........uuuaeaaeaaa

aaa

Część V. DODATKI............aaaae

c era rin iii: aaa nana aaa .eea Dodatek A. Unormowania terminologiczne ...........iii: c nan nnn a ana aaa aaa anna eeeaaaa Dodatek B. Uzupełnienie .............m

anawa nania aaa aaa aaa neeeaa Dodatek C. Prawo mnożenia sposobności ..........-uez za i aana anawa nana narnii uueeeeeza Dodatek D. Prawo dodawania sposobności .........naa anna nana wa aaanararai: aaa....-.eee aaa Dodatek E. Twierdzenie Shannona..........

aan t nii i: aaa ana c eeeea ......uu zana Dodatek F. Rozkłady — podsumowanie....

Podziękowania Skorowidz

o...

i...

e

i...

aoi

e

o

>

.

..

00

r

ne

ra

e.

o...

i

ne

o

a in

a

o

A

e

200

e

oe

no

e

2

e

Pt

e

o

e

e2

631 633 635 637 640 644 647 654 656

Spis przykładów

2.1.1. 2.1.2. 2.1.3. 2.2.1. 2.2.2. 2.2.3. 2.3.1. 2.4.1.

2.4.2. 2.4.3.

2.5.1. 2.5.2.

Normowanie rozkładu dyskretnego ..........uuumuuaaaaaaaaaaaazaziiiaiii LLL. Rozkład Benforda...........uumuuuaeaaaaaaaaaaaaaaaaa aaa LLL Straty energii na jonizację — rozkład Moyala ...........muauaaaaaaaaaai LLL LL. Przestrzeń zdarzeń elementarnych ............muauaaaaaaaaaaaaiaii LL. Prawdopodobieństwo geometryczne — definicja .............uuaaaaaaaaaaaaaii LLL. Paradoks Bertranda............umuueuuaaaaaaaaaaaaaaaaaaaiaa iiiaaiiii LLL I. Układ Kop...........Luuuzania aaaaaa iii aaaanaaaaaa L LL.

37 37 42 45 49 51 55

Żart Pauling. .......uuu aaa aaeaa aaa aa aaaaaa zizi aaaaaaaaa LLL LI

58

Dystrybuanta rozkładu grubości książek ..........mu..aaaaaaaaaaaaaaaiiaa LIIL] Odległość do sąsiada .........uuuaaaaaa aaa aaa aaaaaa iii aaa LILII

65 66

Efektywność detektora.......uuuuuuuuaaaaaaaa iii aaaaaaaaini LLL. Szansa detekcji Cząstki ........uuauaaaaaa aaa aaaaaaaa LLILI

61 63

2.5.3. 2.6.1.

Rozkład Maxwella .........uumuuaaaaaaaaazaaaaaaaaa ciaza L Odwracanie dystrybuanty .....uuuumuaaaaaaaaaaaaa ii aaaaaiaiza LL.

68 70

2.6.3.

Zamiana zmiennych — przypadek niejednoznaczny ............umaa aaaaaaaaa iL LLL.

74

2.6.2. 2.6.4. 2.6.5.

Rozkład energii produktu rozpadu ..........uu.uuuuuaaaaaaaaaaaaaaaiacizi LLL

Rozkład kąta emisji cząstki ......uuuu aa aaaaaaaaaan auaua aaiiiii aaaaa LLL. Rozkład sumy i różnicy zmiennych losowych..........uaaaaaaaaaaaaawaaii iii.

2.6.6. 2.6.7. 2.6.8. 2.7.1. 2.7.2. 2.7.3.

Rozkład iloczynu i ilorazu zmiennych losowych .........uuaaaaaaaaaaaaaiaiiiii LLL. Maksimum Jacobiego .......uuuaaaaaaaa aaa iaazaizii anaaaa iii aaa LLL. Rozkład podstawowych stałych fizycznych............uuaaaaaaazaazaiaii LLL.i Splatanie rozkładu wykładniczego .......muuaaaeauaaaaaaaaaaaaaaaaaiziia LLL I. Masa neutrina ...........uueaaaa aaa aaaia aiz eaaaaawaaza LL I. Profil Volgta.........muunana uaaaaa aaa aaaaaaaaaaaa LLLLLL.

2.8.1. 3.1.1. 3.1.2. 3.1.3.

Twierdzenie Bayesa Wartość oczekiwana Wartość oczekiwana Wartość oczekiwana

2.7.4.

Randomizacja — rozkład ładunku ........uuuuumuuaaaaaaaaaaaaaaazaii LL

71

74 79

79 80 81 92 94 97

102

— licznik Czerenkowa............uuaaaaaaaaaaai LLL. — bankier .............uu.uuuaaaaaaaaaaaaiaiai LLL. ii — rozkład Maxwella .............uuazaaaaaaaaaaaai LiLii LL. zmiennej losowej .............uuamaaaaaaaaaazazaia LLL LIL.

108 lil 112 114

3.2.1. 3.2.2. 3.4.1. 3.4.2. 3.4.3. 3.5.1.

Momenty rozkładu złożonego ........uuuuuaaaaaaaaaaaaaaaaaaanaiaiaii LLL. Momenty losowej sumy zmiennych losowych..........uuaaaaaaaaaaaiiaaizii LL LLLL. Korelacja między oporem i mocą.........uuuuuuuaaaaaaaaaaaaazaa LLiiii LLL. Efektywność detektora..............uaum aaa azaaaa i. aaaaaa nawa aaaaa a ca: Wariancja w ekstremum ......uuuuua a aaaana aaaaaia aizaaaaaa LLL aLL] Linia prosta regresji drugiego typu .......muuau aaa aaaaaaaaaa LIIL.

118 122 130 131 133 135

4.2.2.

Błąd nowicjusza .........uumuaaaaa wana aa ania aaaaaaanana LLL.

3.1.4.

4.2.1.

4.2.3. 5.1.1.

Rozkład pędowy partonów ........uuuuaaaeaz zaa awaaazaaaa iL I.

Zdolność rozdzielcza licznika — źródło ÓFe..........muuaaaaaaaaaaaLLL. aaia

Korełacja wartości średniej i odchylenia standardowego ...............eaaaaaaaiiaL... Wariacje z powtórzeniami — problem de Mórć...........uuauazaaaaaaaiizaiii LLL LL]

114

145

147

151 177

9

Spis przykładów

5.1.2. 5.1.3.

— 5,14.

5.1.5.

5.16. 5.2.1.

5.2.2.

5.2.3.

5.24. 5.3.1. 5.3.2. 5.3.3. 5.3.4. 5.3.5. 5.3.6. 5.3.7. 5.3.8. 54.1. 5.4.2.

5.4.3. 5.4.4. 5.4.5. 5.4.6. 5.4.7. 5.4.8. 5.4.9.

Permutacje — skojarzenia, czyli roztargniona sekretarka

..........

e.

2

o...

o...

.

a

o

pe

st

Wariacje bez powtórzeń — winda .......uuuuaaaaa aaa aaa a aaa n aaa naa znana ana cia: Szansa wygranej w totka

m...



2

0...

.

.

.

r

e

BR

BR

e

e

o.

e

3

R

i

ai

Kombinatoryka w fizyce statystycznej........uuaaaaaeaaa aaa aaa nana a aaaaa ana ai ich

Kombinacje z powtórzeniami...........uuuuaaeaaaaaaananana wana wanna nana nna niani iii

Układ komór wielodrutowych

o...

.

o

A

BO

BO.

2.

a

R:

o

A

e

Be

A

2

0

2

0

2

0

e

4

>

Obszar wykluczania ....-.uueeeaaaana wena naa a nana aaa nana n ana ana nanE Wir wodny Optymalna szerokość przedziału histogramowania Prawo zaniku jąder promieniotwórczych Obszar wykluczania ....-emaeeeaa aaa aa aaa ana w nana nawa ania aria narazie r ar iiaH Częstość przypadkowych koincydencji Oczekiwanie na przejazd samochodu — wykres kwantyli.........uuaeeeaa aa aaa a niic2 Obcięty rozkład wykładniczy w...

w...

e...

.

o

B.A

a.

R

a

o

0

e

0

R

A

R

O

........

w...

o...

|...

w...

.

o...

a...

nn...

o.

Rozkład dróg oddziaływania

o...

a...

m...

r.

r...

2

0

Łe

e

0

2.

2

a

e

a

e

o

e

Be

O

>

02

e

ho

o

a.

u

o

2...

e

o

e



2

a

o

a

e

Ba

8

e

O

>

2.

ret

00

0

e

i

Ba

s

st

toe

o

2

4

e

aaa rei

te 2

e

eo

a aaaaa

R...

o...

8

0...

Czasy przeliczania — rozkład Erlanga ........aea aaa aaa aaa ana Przeżywanie i rozkład Weibulla

2

2

O

02

0

e

ne

RO

nA

ee

iu

e

Liczba par jonów w detektorze gazowym Zagadnienie Erlanga........uueeeeaa aaa ea aaa nana nna aaa zazna na nana a nania c iii Rozkład czasów przeliczania z rozkładu Poissona........uaaaaaaa ea aaanaa nana nania ca Obszar wykluczania ......u.eeemawaaaa aaa aaa aa naa nana aaa a zazna naka a nei rich Odległość do najbliższego sąsiada ........uaaaaaaa aaa aaa aaa aaa n aaa nana aa nana acc h ASyMetnia ....Luaae eee eea aa aaa aaa naneanna naka a rana zina 0 A Błąd liczby przypadków w przedziale histogramowania.......uuuaaaaaa aaa aaa aa c ii: Reguła zatrzymania Optymalny czas pomiaru |...

0

|...

Pa.

e

BA

0...

O...

w...

a.

a...

e

e

BA

R

O

e

e

o

A

Ba

2

A

o.

Pt

9

R

2

e...

0

R.

0

2

BOR

2

a

o.

e

e

e

2

u

e

>.

0

A

+

A

e

a

Pe

naa aaaanaaaa nna aa nana anna nana ciii 5.4.10. Efektywność detektora.........uuuuuaeaa saa nana r aaa a znana naa aa ranach 5.4.11. Efektywność trygera drugiego stopnia..........uemaaa

5.5.1. 5.5.2.

5.5.3.

5.5.4. 5.5.5. 5.5.6. 5.5.7.

5.5.8. 5.5.9. 5.5.10. 5.6.1.

5.6.2. 5.7.1. 5.7.2. 5.7.3. 5.8.1. 5.10.1.

5.10.2. 510.3. 5.10.4. 5.10.5. 6.4.1. 6.4.2. 6.4.3. 6.4.4.

7.1.1. 7.1.2.

Rozkład Gaussa i pomiary ......umaeaaaaeeaa aan ana nazaaaka nana z aaa znana nar ch Błąd błędu Suma gaussowskich zmiennych losowych........uuuaaaaaaaaaaa aaa anaaara nara rcai Grubość książek — wykres kwantyli logarytmiczno-normalnych 2...

0.

e

ER

R

0

EE

o

2...

Be

0

O

A

O

Łe

A

2

0

R

A

ŁR.

2

|...

Rozkład graniczny sumy zmiennych dwumianowych

................

0

o

0

e

2

u

e

e

to

e.

Rae

nei

0

o

e

2

e

Rozkład graniczny sumy zmiennych poissonowskich Rozkład graniczny sumy zmiennych wykładniczych ......uuaaaaaaaaaaaaaanananecanccić Centralne twierdzenie graniczne — rozkład D'Agostiniego Rozkłady brzegowe, warunkowe i krzywe regresji dla rozkładu binormalnego ........... Rozkład współczynnika korelacji Rozkład estymatora wariancji i dyspersji .........umuaa aaa az anna a na naa naa nara ia: Rozkład x? dla różnych zmiennych gaussowskich ..........uueaaaaa aaa aaa wanna nai i1: Średnia arytmetyczna — rzetelność producenta cukru .......-..---.-eeaaa aaa aiai11 Statystyka Studenta dla dwóch Średnich arytmetycznych ......uuaaaaaa aaa aaa nana aaa cić Współczynnik korelacji z próby — profil wiązki..........aaaeaaa aaa aaa aaa aa nana cć Porównanie odchyleń standardowych........uuuauanaeaaaaaaaaananaanana nana nai ch Wykładnicza zmienna losowa Normalna zmienna losowa ........uueeeaaaaaaaawawanawaanawawakakia nana nana ia Skorelowane normalne zmienne losowe |...

e...

......|..|.....

|...

w...

w...

w...

o

o...

r...

.

a.

e

o

Że

z...

a...

e

eu

e.

e



e

A

ŁO

A

sa

b

O

zo.

e

ne

RO

>

2

02



a

8

>

e

2

Bu

2

0

A

ae

9

Łe

a.

A

2

a

Be

0

R

b

o

0

2.

00

>

a

o

i

e

Het

ot

b

tt

o

0

e

A

s

Sprawdzanie poprawności programów analizy danych Poprawki i ocena zanieczyszczeń .......uuuaaa aaa aa aaa aa wanna znana naa ti ani ii: Jaką metodę wybrać?.........uuuaeeaaanawawaanaaaana znana na anna na znani n ania i Stara teoria 1 „NOWA fizyka” L.LLuauaaaaeaa zaa zazna zana naa aan aan ze znika za kaaka aaa aria Odchylenie średnie ..........muuuaaaaa nana aaa anaaa anna nana zazna aaa naci: Minimalna wariancja estymatora wariancji — rozkład Gaussa 0

o

e

R

......d..|.............

o.

0

a.

03

tb

A

2

tO

ae

2

0

2

2

pi

Zmienna losowa x? Zmienna losowa z rozkładu Breita-Wignera........aaaaaaaaaaaaaa zana aaa aa nana ciii: m...

>

>

i

e

2

+

10 7.1.3. 7.1.4. 7.1.5. 7.2.1. 7.2.2. 7.2.3. 1.2.4. 7.2.5. 7.2.6. 7.2.7. 7.2.8. 7.2.9. 7.2.10. 7.2.11. 7.2.12. 7.3.1. 7.3.2. 7.3.3. 7.3.4. 7.3.5. 7.4.1. 7.4.2. 7.4.3. 7.4.4. 7.4.5. 7.4.6. 7.4.7. 7.4.8. 9.1.1. 9.1.2. 9.1.3. 9.1.4. 9.3.1. 9.3.2. 9.3.3. 9.3.4. 9.3.5. 9.3.6. 9.3.7. 9.3.8. 9.4.1. 9.4.2. 9.4.3. 9.4.4. 9.4.5. 9.4.6. 9.4.7. 9.4.8. 9.4.9. 9.4.10. 9.4.11. 9.4.12. 9.4.13. 9.4.14. 9.4.15.

Spis przykładów

Minimalna wariancja estymatora parametru rozkładu Poissona ..................1......

Najefektywniejszy estymator parametru rozkładu dwumianowego ...................... Estymatory dostateczne parametrów rozkładu normalnego ................aaaaaaaiii12 Pomiar sygnału w obecności tła — rozkład Poissona.............u.uaaaaaaaaaazaiii ii. Estymacja parametru rozkładu wykładniczego .........uuuuauuaaaa aaa L ada Estymacja parametrów rozkładu normalnego ........uuuaeaaaa aaa aaa iaiaaii LL Estymacja parametrów rozkładu Breita-Wignera................uaaaaaaaaaaaaa ida LA Wariancja estymatora parametru rozkładu wykładniczego ................a-.aaaa111. Wariancje estymatorów parametrów rozkładu normalnego ...............aaaaaaiiaii1. Ocena czasu życia — symulacja....-uuuauaaaaaaaaaaaaaa aaa aaa iii LI Ocena czasu życia i tła — symulacja ......uuuuuaaaaaaaa aaa aaa LiL Efektywność detektora.........uaeaaaaaaaaaaa aaa aaa ian ziiiii Projektowanie eksperymentu ......uuuaaaaaaaaaaaaaaaaaaa iii iii: Dane zgrupowane .........uuueuuaeaaaaaaaaaaaakaaa aaa naaiiiiaiiziaiiiiZ Poprawka Shepparda ..........uuuaeaaaaaawaaaaaaaakaaaaaa aaa ii LI Dopasowanie liniowe — pełna macierz kowariancji ..........uu.aa aaa aaa aaa LL]

Dopasowanie liniowe — skalowana macierz kowariancji...............-.aaaaaaaa iii 12 Dopasowanie z więzami — geodeta .........uuuaaaaaaaaa aaa nii iii,

382

383 385 388 391 392 394 397 397 401 404 406 409 411 413 424

434 438

Dane zgrupowane .........uuuueuaaaaaaaaaaaaaa kazania iii LL Analiza regresji — profil wiązki ......uuueaaaaa aaa aaa aaa niania ili LI Przedział ufności — wir Wodny ...L.uauaaaaaaazawawaa aaa aaa aaa z ina ia LI Przedział ufności — CZaS ŻYyCHa...-uauuauaaanaaaaa nana aaaaa ana iai iii LI Losowy charakter przedziału ufnoŚci.......uuuuzaaaaaaaaaaaaaaaa aan iaiai ii. Przedział ufności — rozkład PoiSSOnA .....uuuuuamaaaaa aa aaaaa zazna i ILE Przedział ufności dla czasu życia — rozkład Erlanga................-aaaaaaa aaa iii.

440 451 458 458 460 462 462

Przedział ufności — rozkład jednostajny .........u..uamaaaaaaaaaaaaaaaaaaaiaia dil iL] Kalibracja licznika germanowego — porównanie ............u.maaaaaaaa aaa iii LJ Estymator nieobciążony ....uuueaaaaaaaaazaaaaaaa nazi aai iza L LiL Metoda największej wiarogodności — nieefektywny licznik .............eaaaaaaa aaa aL. Estymacja przedziałowa — licznik z czasem martwym............m. aaa aaa iii i. Test istotności — reguła zatrzymania ......uueuuuaaaaaaaaaaaaaaiaaiaiaiaii iii L. Twierdzenie Bayesa — hipoteza zagłady ......uuuuauaa aaa aaa aan nna L Rozkład dwumianowy wg Bayesa .......uuuuaaaaaaaaaazaaaa aaa L LL Reguła następstw Laplace'a.........muuuauaaaaaaaaaanaaaanaa zaa iii LA Rozkład dwumianowy — obszar akceptacji ........muuuuuuaaaaaa aaa i iii LL. Efektywność detektora.........uuuaaeaaaaaaaaaaaazaa nania ii LI Estymacja stałej Natury.......umuuaaaaaaaaaaaazana znani LiL. Odplatanie wg Bayesa .........uueaaaaaaaaaaaaaananaaaaaa nana n aaa LA Prawdopodobieństwo profetyczne — rozkład beta dwumianowy........................ Rozkład wykładniczy wg Bayesa .......uuaaaaaaaaaaaaaaaaaa nana ana iaz ii L. Rozkład Poissona wg BayeSa.........uuueaaaaaaaaaaaaaaa aaa aaa iii L Rozkład Poissona — obszar akceptacji.......muuamuauaaaa aaa aan iaiaz iii Prawdopodobieństwo profetyczne — ujemny rozkład dwumianowy ..................... Najmniej informatywny zaczątek — dyspersja rozkładu Gaussa ............aaaaaaiiai.. Ocena czasu życia z jednego przypadku .....uuuuaauuaaaaaaaa aaa aaaaaaa nazi ai iii. Najmniej informatywny zaczątek — nadzieja rozkładu Gaussa ...............a-.aii22.. Najmniej informatywny zaczątek — estymacja parametrów rozkładu Gaussa ............

464 469 502 503 505 507 529 534 539 544 545 552 553 557 569 572 574 557 584 585 591 592

Przedział ufności — bogata próbka ......uuuuaaazaaaaaaaa aaa zaaa iii iii ii.

Najmniej informatywny zaczątek — rozkład Breita-Wignera .....................-11..

Błędy systematyczne wg Bayesa.......-ueaaauaaaaaaaaaaaaa aaa i.

Entropia informacyjna — rozkład geometryczny .........uuuuaaaaaaaaaaa aaa iii a i.

Entropia informacyjna — rozkład dyskretny z zadaną nadzieją ......................... Przejście od zmiennej dyskretnej do ciągłej ..........auu.m.auaaaaa aaa aaaaana ii iL. Rozkład Gaussa z zasady entropii .........auaaeaaaaaaaaaaa aa naa nana nai i ii ia. Masa antyneutrina — przedział wiarogodnoŚci .........umuuaaaaa aaa aaaaaa ciii

463

595

595

601

604 609 613 617

Dedykuję Rodzinie

STUDIUM

Maluje się go młodym, ponieważ wiek młodzieńczy dobrze znosi trudy studiów. Jest blady, ponieważ studia zwykle wyczerpują i przeszkadzają ciału ... Ubiera się skromnie, bo uczeni zwykli obywać się umiarkowaniem i surowością. ... Zapalona lampa mówi nam, że uczeni więcej konsumują oliwy niż wina.

Tytułem wstępu

... śmiertelnych — stu na stu. Liczba, która jak dotąd nie uległa zmianie. WISŁAWA SZYMBORSKA, PRZYCZYNEK DO STATYSTYKI

Tytuł książki zawiera w sobie pewien skrót myślowy. Zapewne słuszniejszy byłby tytuł

taki jak „Statystyka matematyczna dla fizyków” lub „Analiza statystyczna danych do-

świadczalnych... ”, lub „Metody analizy statystycznej... ”. Może należałoby uzupełnić

każdy z tych tytułów o słowo „wstęp” lub „elementy” albo „podstawy”, jako że w zadnym wypadku materiał tu prezentowany nie ma charakteru całościowego i nie jest to

monografia. Zadaniem tego podręcznika jest przedstawienie w szczegółach pewnych podstawowych pojęć i standardowych metod, jakich każdy fizyk doświadczalnik używa przy opracowywaniu swoich danych eksperymentalnych, jak również zarysowanie ich mozżliwych rozwinięć i uzupełnień, a także zasygnalizowanie (bez dowodów 1 uzasadnień) istnienia specjalnych wyników (pewne z nich to wręcz ciekawostki), które niekiedy są przydatne przy rozwiązywaniu szczególnych zagadnień. Ostatecznym celem tych wszystkich „zabiegów” jest jednak przekazanie Czytelnikowi umiejętności obliczenia czegoś, co powszechnie, choć niepoprawnie (patrz koniecznie dodatek A), nazywamy błędem

pomiaru. Dlaczego fizycy, a już na pewno ci spośród nich, którzy parają się fizyką jądra atomowego i cząstek elementarnych, opanowani są obsesją (bo tak to może wyglądać dla postronnego obserwatora) o nazwie błąd pomiaru? Najprostsza odpowiedź na to pyta-

nie brzmi: A czyż mogłoby być inaczej, jeśli w fizyce spotykamy się, z jednej strony, z przewidywaniem typu: moment magnetyczny elektronu wynosi (1,00115965220 + 0,00000000004) jednostek zwanych magnetonami Bohra (gdzie błąd w wartości to oszacowanie niepewności wynikającej z przybliżeń rachunkowych), a z drugiej — elemen-

tarne doświadczenie początkującego fizyka eksperymentatora podpowiada mu, że „tak naprawdę” nie jesteśmy w stanie „porządnie” mierzyć? Bez większego ryzyka można powiedzieć, że fizyka jest jedyną dziedziną wiedzy przyrodniczej, w której spotykamy absolutnie Ścisłe, a nie tylko modelowe przewidywania. Prognozy te dostarczają wyzwania, a sprostanie im wymaga stosownych narzędzi.

Narzędzia teoretyczne, takie jak pojęcie rozkładu prawdopodobieństwa, prawdopo-

dobieństwo warunkowe, niezależność statystyczna, dystrybuanta, operacje nad rozkładami, randomizacja i twierdzenie Bayesa znajdzie Czytelnik w rozdziale 2, który dostar-

cza reguł „gramatycznych”. Rozdział 3, o momentach zmiennej losowej, to podstawowy

14

Tytułem wstępu

słownik dziedziny. Terminy tam podane zawsze mamy pod ręką, gdy analizujemy dane.

Tłumaczenia słów ze słownika na język codzienny to treść rozdziału 4, czyli pierwszy kontakt ze statystyką, a raczej z tą jej częścią, która określana jest mianem opisowej.

Wyłliczone są tam najbardziej fundamentalne konstrukcje „frazeologiczne”: średnia, odchylenie standardowe, współczynnik korelacji i własności tych wielkości, czyli „chleb

powszedni” analizy danych. Zgodnie z tą lingwistyczną analogią, rozdział 5 to niemalże pełne zdania. Modelowe rozkłady — dwumianowy, Poissona, wykładniczy, Gaussa i jego

pochodne, tj. x*, Studenta i Fishera — są wygodnymi, gotowymi wzorcami, które upar-

cie pojawiają się w wielu problemach

statystycznych. Rozpoznanie któregoś z takich

schematów w zagadnieniu, nad którym pracujemy w danym momencie, pozwala nam na natychmiastowe wykorzystanie całego wachlarza gotowych wyników. Rozdział 6, poświęcony metodom symulacyjnym w elementarnym zakresie, omawia swoisty, meto-

dologiczny „synonim”. Wielokrotnie zdarza się, że choć teoretycznie wiemy, jak należy

rozwiązać napotkany problem, to nie potrafimy tego dokonać analitycznie z powodu piętrzących się trudności matematycznych w postaci sum, które nie mają prostej postaci, lub całek, które nie wyrażają się przez funkcje elementarne. Rozkładamy wtedy

zagadnienie na najprostsze elementy i do pracy, kolejno nad każdym z nich, zaprzęgamy komputer, który „syłabizując”, konstruuje „syntetyczną mowę”. W pełni rozwi-

nięta „mowa” konwencjonalnej metody statystycznej analizy danych to dwa następne rozdziały: rozdział 7 o estymacji parametrycznej, w tym o metodzie największej wia-

rogodności, najmniejszych kwadratów i estymacji przedziałowej, oraz rozdział 8 o weryfikacji hipotez, czyli testy istotności i test x? Pearsona. Stanowią one ukoronowanie

tej części wykładu. W końcu ostatni rozdział 9 to „nowy język”, nowe spojrzenie na

rachunek prawdopodobieństwa. Język ten dostarcza alternatywnej formy wyrażania treści probabilistycznych w stosunku do tej, która stanowi główny trzon wykładu. Dodat-

kowe informacje o tym rozdziale znajdzie Czytelnik poniżej. W

podsumowaniu

tym

został pominięty rozdział 1, który dostarcza widoku z lotu ptaka — ukazuje rozmaite typowe zagadnienia, jakie fizyk doświadczalny zajmujący się fizyką jądra atomowego

i cząstek elementarnych napotyka w codziennym trudzie statystycznym. Rozdział ten spełnia także funkcję specyficznego „elementarza”, jako że Czytelnik znajdzie w nim

wybrane, najbardziej fundamentalne pojęcia dziedziny, wyłożone metodą ilustrowania przykładami. Dostarczył on także autorowi pretekstu do zaprezentowania Czytelnikowi metod wizualizacji danych doświadczalnych. Pracę kończy kilka dodatków: pierwszy, wcześniej wspomniany, o unormowaniach terminologicznych. Drugi ukazuje szczegóły

techniki rachunkowej przydatnej przy określaniu własności pewnej klasy estymatorów.

Do następnych trzech przenieśliśmy niektóre dowody matematyczne,

a ostatni sumuje

najważniejsze wnioski matematyczne w odniesieniu do wszystkich omawianych (oraz

kilku dodatkowych) rozkładów. Jak wspomniano na wstępie, wykład

nie daje pełnego obrazu rachunku prawdo-

podobieństwa i statystyki matematycznej. Czytelnik nie znajdzie tu np. pojęcia funkcji tworzącej prawdopodobieństwa i funkcji charakterystycznej. Są to ważne narzędzia, ale są to narzędzia „tylko” teoretyczne. Funkcja charakterystyczna jest bardzo przydatna

np. w dowodzie centralnego twierdzenia granicznego i przy konstruowaniu momentów

Tytułem wstępu

15

zmiennej losowej, jednak celem wykładu nie jest konsekwentna, matematyczna prezenta-

cja całej dziedziny wiedzy wraz z jej aparatem formalnym. Do formalizmu odwołujemy się sporadycznie i dość liberalnie i raczej po to, by uwiarygodnić prezentowaną tezę, niż jej dowieść (w przeciwieństwie do przykładów, gdzie staramy się być dość szczegółowi). Podobnie, do treści wykładu nie zostały włączone klasyczne tematy, takie jak analiza sekwencyjna i analiza wariancji, procesy stochastyczne, ani też nowsze, jak teoria decyzji, a po macoszemu potraktowane zostało zagadnienie statystyk pozycyjnych. Z całej

gamy testów statystycznych ograniczamy się do jednego, najczęściej stosowanego testu

Pearsona, pomijając milczeniem pozostałe. W przekonaniu autora pojęcia te nie stanowią dla fizyka materiału „pierwszej potrzeby”. Autor ufa, że zrozumienie zagadnień ujętych

w treści wykładu da Czytelnikowi dobre podstawy do samodzielnego uzupełnienia wie-

dzy, gdyby taka potrzeba się pojawiła, jeśli tylko zechce on skorzystać z sugerowanej niżej literatury. Adresatem książki, jeśli chodzi o zakres stosowanych w nim narzędzi matematycz-

nych, jest osoba, która posiadła elementarne umiejętności różniczkowania i całkowania i dysponuje podstawowymi umiejętnościami z zakresu algebry liniowej. Podobnie przedstawia się kwestia niezbędnego poziomu merytorycznego Czytelnika w obszarze

umiejętności opracowywania danych doświadczalnych. Jako test rozważmy następujący przykład. Przypuśćmy, że pewien geodeta, używając teodolitu (lunetki), wymierza w terenie kąty w trójkącie, którego ramiona są rzędu kilometrów. W rezultacie swego pomiaru znalazł on, że kąty te wynoszą: 73”, 63” 1 52, przy czym błąd każdego z pomiarów wy-

nosi 2” (w rzeczywistości pomiary są znacznie bardziej precyzyjne, co nie zmienia istoty zagadnienia). Czytelnik, który analizując ten przykład dojdzie do wniosku, że pomiary

geodety dowodzą kulistości Ziemi, powinien raczej zaprzestać czytania prezentowanego tu materiału i rozpocząć od studiowania poniższej literatury:

e J. R. Taylor, Wstęp do analizy błędu pomiarowego, Wydawnictwo Naukowe PWN, Warszawa 2001.

e L. G. Squires, Praktyczna fizyka, Wydawnictwo Naukowe PWN, Warszawa 1992. e C. M. Grinstead i J. L. Snell, Introduction to Probability, Dartmouth College-AMS, 1997; książka zawiera bogactwo materiału z historii rozwoju rachunku prawdopodobieństwa i jest osiągalna w Internecie pod adresem: http://www.dartmouth.edu/ chance/ teaching_aids/books_articles/ probability _book/book.html. Alternatywnie, stosowny materiał można znaleźć w skrypcie autora: Podstawy rachunku

błędów (http://www.fuw.edu.pl/ rjn/PRB/ptb.zip). Czytelnik, który w konkluzji swego rozumowania

stwierdzi, że wynik uzyskany

przez geodetę jest w doskonałej zgodności z zasadami geometrii Euklidesa, może posiłkować się przy czytaniu niniejszego materiału następującą literaturą uzupełniającą:

e H. Abramowicz, Jak analizować wyniki pomiarów, Warszawa 1992.

Wydawnictwo

e S. Brandt, Analiza danych, Wydawnictwo

Naukowe

e W.

Wydawnictwo

Klonecki,

1999.

Statystyka

dla inżynierów,

PWN,

Naukowe

PWN,

Warszawa 2002.

Naukowe

PWN,

Warszawa

16

Tytułem wstępu

e T. Eadie, D. Drijard, F. E. James, M. Roos i B. Sadoulet, Metody statystyczne w fizyce

doświadczalnej, PWN, Warszawa 1989. e A. Strzałkowski i A. Sliżyński, Matematyczne metody opracowywania wyników pomiarów, PWN, Warszawa 1978. e W. I. Goldanski, A. W. Kucenko i M. I. Podgorecki, Statystyka pomiarów przy rejestracji promieniowania jądrowego, PWN, Warszawa 1963.

Gorąco polecane jest również studiowanie pełnego wydania kompendium Review of Particle Properties, wydawanego w cyklu dwuletnim przez grupę fizyków cząstek elementarnych

z CERN

1 Berkeley.

Są tam opisane podstawowe

i najczęściej spotykane

w codziennej praktyce procedury statystyczne. Kompendium to osiągalne jest również w Internecie pod adresem http://pdg.lbl.gov. Z opracowania tego pochodzą wszystkie cytowane w niniejszym wykładzie dane dotyczące własności cząstek elementarnych, o ile nie jest podane jawnie inne Źródło.

Inna interesująca, choć angielskojęzyczna literatura, to:

e P. R. Bevington i D. K. Robinson, Data Reduction and Error Analysis for Physical Sciences, McGraw-HiH,

New

York

1992.

e A. G. Frodesen, O. Skjeggestad i M. Tofte, Probability and Statistics in Particle

Physics, Universitetsforlaget, Bergen-Oslo-Tromsg 1979. e I. A. Bancroft i C.-P. Han, Szatistical Theory and Inference in Research, M. Dekker,

Inc., New York 1981.

e R. J. Barlow,

Statistics. A Guide

Sciences, Wiley, New

York

to the Use of Statistical Methods

in the Physical

1989.

e L. Lyons, Szafistics for Nuclear and Particle Physicists, Cambridge University Press,

Cambridge 1992.

e B. P. Roe, Probability and Statistics in Experimental Physics, Springer, New 1992. e B. R. Martin, SZzafistics for Physicists, Academic Press, London and New

York

York 1971.

e N. Arley i K. R. Buch, /ntroduction to the Theory of Probability and Statistics, Wiley,

New York 1956.

e D. J. Hudson, Szatistics — Lectures on Elementary Statistics and Probability, Geneva 1964. e W. Hamilton, Szatistics in Physical Science, New York

1964.

Natomiast „„amatorom” poszukującym bardzo ścisłego i szerokiego przedstawienia teorii

prawdopodobieństwa i/łub statystyki matematycznej możemy polecić książki: e W. Feller, Wstęp do rachunku prawdopodobieństwa t. I i II, PWN, Warszawa 1969.

e M. Fisz, Rachunek prawdopodobieństwa i statystyka matematyczna, PWN, Warszawa 1969. e H. Cramer, Metody matematyczne w statystyce, PWN, Warszawa 1958. e Z. Hellwig, Elementy rachunku prawdopodobieństwa i statystyki matematycznej, Wy-

dawnictwo Naukowe PWN, Warszawa 1995.

e L. Gajek i M. Kałuszka, Wnioskowanie statystyczne, WNT, Warszawa 2000. e A. Stuart i J. A. Ord, Kendall's Advanced Theory of Statistics, vol. 1, Distribution Theory, Hodder Headline Plc., London

1994.

Tytułem wstępu

17

e J. A. Ord, Kendall s Advanced Theory of Statistics, vol. ŻA, Classical Inference, Hodder Headline Plc., London 1999.

Niniejszy wykład uzupełnia wydany w odrębnym tomie wybór zadań (po części orygi-

nalnych) o różnym stopniu trudności, do rozwiązywania których autor gorąco Czytelnika zachęca.

e R. Nowak, Statystyka dla fizyków. Ćwiczenia, PWN, Warszawa 2002.

Na rynku wydawniczym można znaleźć również inne zbiory. Interesujący zestaw zadań z rachunku prawdopodobieństwa na poziomie elementarnym prezentowany jest w książce e W. Łeński i A. Patkowski, Rachunek prawdopodobieństwa dla leniwych, Wydawnictwo Naukowe PWN,

Warszawa—Poznań

1996.

Zbiory zadań o poważniejszym stopniu zaawansowania to: e W. Krysicki, J. Bartos, W. Dyczka, K. Królikowska i M. Wasilewski, Rachunek praw-

dopodobieństwa i statystyka matematyczna w zadaniach, część I i II, Wydawnictwo Naukowe PWN, Warszawa 2002. e A. Plucińska i E. Pluciński, Zadania z probabilistyki, PWN, Warszawa 1983. Parę interesujących zadań można także znaleźć w książce: J. Araminowicz, Zbiór zadań z fizyki jądrowej, PWN, Warszawa 1980. Niektóre z probłemów zamieszczonych w tych zbiorach, jak również wcześniej cy-

towanych podręcznikach, trafiły także do niniejszej pracy. Wykład, jaki niemal wszystkie powyższe książki, utrzymuje się w kręgu tradycyjnie rozumianego rachunku prawdopodobieństwai statystyki matematycznej. Wyjątkiem jest

tutaj praca autorstwa T. Eadie' go i innych, w której większość prezentowanego materiału także utrzymana jest w duchu „klasycznym”, jednakże Czytelnikowi dana jest również

możliwość posmakowania podejścia współczesnego, zwanego też bayesowskim. Niestety, jest to praktycznie jedyna taka pozycja na rynku w języku polskim. Dlatego Czytelnik zainteresowany alternatywnym ujęciem tematu skazany jest na literaturę obcojęzyczną, z której najważniejsze pozycje to: e D. S$. Sivia, Data Analysis — A Bayesian Tutorial, Oxford University Press 1997. e C. Howson i P. Urbach, Scientific Reasoning: The Bayesian Approach, Open Court, La Salle 1998.

e J. M. Bernardo i A. F, M. Smith, Bayesian Theory, Wiley, New York 1994.

e G. E. P. Box i G. C. Tiao, Bayesian Inference in Statistical Analysis, Wiley, New York

1992.

e S. J. Press, Bayesian Statistics: Principles, Models and Applications, Wiley 1994. e A. O' Hagan, Kendall's Advanced Theory of Statistics, vol. 2B, Bayesian Inference,

Hodder Headline Plc., London 1994.

e A. Gelman, J. B. Carlin, H. S$. Stern i D. B. Rubin, Bayesian Data Analysis, Chapmann

X Hall/CRC, London 2000. e H. Jefireys, Theory of Probability, Oxford University Press, 1961. e B. de Finetti, Theory of Probability, Wiley, New York 1989.

Należy jednak zaznaczyć, że o ile środowisko klasycznych statystyków jest właściwie bardzo homogenne w swym rozumieniu tematu, o tyle nie istnieje coś takiego jak jed-

18

Tytułem wstępu

nolita szkoła współczesnej teorii prawdopodobieństwa. Występują dość głębokie różnice między prezentacjami różnych autorów, do czego zresztą autorzy ci się przyznają. Jest to

oznaką bujnego rozwoju dziedziny, w której pojawia się wiele nowych pomysłów 1 ścierają się różne idee. Dodatkową trudnością, jaką trzeba niekiedy pokonać, czytając różne, a zwłaszcza mniej ambitne ujęcia, jest nieukrywany, lekceważący stosunek, jaki zwolennicy współczesnego podejścia żywią do „ortodoksów”. Ci, naturalnie, nie pozostają im dłużni. W konsekwencji praktykowanie tych czy innych metod statystycznych staje się bardziej demonstracją i aktem wyznania wiary niż elementem rzetelnego dociekania prawdy naukowej.

Mimo tych psychologicznych komplikacji i uprzedzeń stosowanie bayesowskiej metody analizy danych powoli toruje sobie drogę i zyskuje coraz to szersze grono zwo-

lenników, także wśród fizyków — dlatego też w rozdziale 9 przedstawione są niektóre

fundamentalne fakty z tej dziedziny. Prezentacja ta czerpie intensywnie z pisanej bardzo żywym i barwnym (żeby nie powiedzieć egzaltowanym) językiem wszechstronnej i bogatej publikacji: E. T. Jaynes, Probability Theory: The Logic of Science, która obecnie dostępna jest jedynie w nieco fragmentarycznej

formie na WWW,

pod adre-

sem http://bayes.wustl.edu/etj/prob.html, oraz z paru innych publikacji. Dwie z nich to

T. J. Loredo, The Promise of Bayesian Inference for lenges in Modern Astronomy, red. E. D. Feigelson i 1992 oraz From Laplace to Supernova SN 1987A — sics, w Maximum Entropy and Bayesian Methods, red. Publishers, Dordrecht 1990. Oba artykuły dostępne

Astrophysics, w Statistical ChalG. J. Babu, Springer, New York Bayesian Inference in AstrophyP. F. Fougere, Kluwer Academic są w sieci WWW pod adresem

http://astrosun.tn.cornell.edu/staff/loredo/bayes/tjl.html. Trzecią jest praca P. Sahy: Principles of Data Analysis, a można ją odnaleźć na WWW pod adresem http://www-astro.

physics.ox.ac.uk/ saha/pda.html. Czwarta publikacja to notatki z wykładu: G. D'Agostini, Bayesian Reasoning in HEP — Principles and Applications, CERN Report 99-03, osią-

galne pod adresem http://www.cern.ch/Training/ACAD/reglec_E.html. Teraz słowo o symbolice matematycznej. Chcemy zwrócić uwagę na dwa symbole, które występują w książce. Różnica między nimi jest dość umowna

z akcentu i chęci zwrócenia symbol to = i stosujemy go In(1 + x) = x dla wartości to %, który zastępuje frazę

i wynika raczej

uwagi na różny aspekt tego samego zagadnienia. Pierwszy do zaznaczenia przybliżonej równości, jak np. w wyrażeniu wielkości x bliskiej zera, lub też x = 3,14. Drugi symbol „zachowuje się jak”, jak np. w wyrażeniu: n(n + 1) %n*

dla dużych wartości wielkości n. Sporadycznie wykorzystywany jest też symbol toz-

samości == dla oznaczenia definicyjnej równoważności

występujących po jego lewej

i prawej stronie wielkości oraz symbol x dla określenia prostej proporcjonalności. Po-

nadto czcionką wytłuszczoną, np. x, konsekwentnie oznaczane są zespoły wielkości x;: Xx = (X, X9,..., X„) i tylko wspomnimy, że punktem naszego zainteresowania nie jest tu charakter wektorowy tych wielkości, choć będziemy wykorzystywać do nich aparat alge-

bry liniowej. Symbole opatrzone kreską „nad”, jak x, to wartości średnie, z wyjątkiem sytuacji, w których odwołujemy się do teorii zbiorów lub rachunku zdań, kiedy to kreska

nad symbolem określa zbiór dopełniający lub tezę przeciwną. Gruba czcionka prosta, szeryfowa, np. V, zarezerwowana jest dla macierzy. Symbol „daszka” ” jest używany do

Tytułem wstępu

19

oznaczenia estymatora lub estymaty wielkości, nad którym ten symbol występuje. Na specjalny symbol zasłużyły sobie zmienne losowe w treści niniejszego wykładu. Aby odróżnić je od zmiennych matematycznych przedstawionych wyżej, zmienne te są pi-

sane czcionką bezszeryfową, np. x, jeśli chcemy użyć zmiennej prostej, oraz pogrubioną X = (X,X,...,X„) dla wektora losowego.

Niektóre z rozkładów prawdopodobieństwa pojawiają się na tyle często, że warto

zarezerwować dla nich specjalną symbolikę, ukazaną w tabeli 1. Tabela 1. Oznaczenia rozkładów

B(n, p)

rozkład dwumianowy oraz p

dyskretnej zmiennej

losowej

k z parametrami n

G (p)

rozkład geometryczny dyskretnej zmiennej losowej k z parametrem p

Un, p)

rozkład ujemny dwumianowy dyskretnej zmiennej losowej k, opisującej liczbę prób, z parametrami n oraz p; stosujemy także wariant 24,(n, p), jeśli zmienna k opisuje liczbę porażek

H(N,K,n) Wk,...k; (n, Py,-.., Pj)

rozkład hipergeometryczny dyskretnej zmiennej losowej k z parametrami N, K oraz n

rozkład wiełomianowy j dyskretnych zmiennych losowych k;, ka,...

określony parametrami n, py,...

, k;,

, p;

P.(u)

rozkład Poissona dyskretnej zmiennej losowej k z parametrem

E(t; A)

rozkład wykładniczy ciągłej zmiennej losowej t z parametrem intensywności A; w przypadku gdy zamiast tego parametru używamy jego odwrot-

ności: T = A !, stosujemy oznaczenie €(t; T) N Q; u,o)

rozkład normalny (Gaussa) ciągłej zmiennej losowej x z parametrami u oraz o

XA, (x)

rozkład x? ciągłej zmiennej losowej x o n stopniach swobody

S,()

rozkład Studenta ciągłej zmiennej losowej t o n stopniach swobody

Fnm(2)

rozkład Fishera ciągłej zmiennej losowej x o (n, m) stopniach swobody

W rozdziale 9 indeksy odgrywające rolę zmiennej niezależnej promujemy do pełnoprawnych argumentów rozkładów przez umieszczenie ich w nawiasach, oddzielając je przy okazji pionową kreską | od parametrów. Z uwagi na rozmaitość symboli, jakie występują w literaturze dla określenia niepewności pomiaru, podamy także naszą definicję. Symbołem s, będziemy oznaczali wartość, jaką przyjmuje dla próbki danych pierwiastek kwadratowy z nieobciążonego estymatora

20

Tytułem wstępu

wariancji. W warunkach wielokrotnego pomiaru odpowiada to l n=1

Sx =

— 2

— x),

podczas gdy

= |„20: — 2.

N=

Popularny symbol o, o ile nie oznacza przekroju czynnego, rezerwujemy dla pierwiastka

kwadratowego z wariancji zmiennej losowej lub czynnika skalującego dla tej zmiennej. I jeszcze jedna uwaga. Aby w treści wykładu wyraźnie oddzielić prezentowane przykłady od głównego toku rozumowania,

stosowana jest mniejsza czcionka, a także

symbol II, kończący treść każdego przykładu. Autor dziękuje prof. A. K. Wróblewskiemu za życzłiwość, zachętę i wsparcie, jakie

otrzymywał od niego przez szereg lat, gdy przygotowywane były kolejne wersje tego wy-

kładu w formie skryptu dla studentów. Bez jego pomocy książka ta nigdy by nie powstała.

On także wskazał autorowi źródło wartości liczb x, /3 oraz e z dokładnością do miliona

cyfr. Autor jest wdzięczny prof. A. Majhoferowi oraz prof. J. Crittenedowi za iluminujące dyskusje, a prof. B. Murynowi za wiele cennych wskazówek i krytycznych uwag o manuskrypcie. Podziękowania kieruje także ku prof. Ch. Drostemu za udostępnienie mu danych o kalibracji licznika germanowego i widma, które posłużyło do ilustracji rozważań nad metodą najmniejszych kwadratów w problemie nieliniowym, jak również

dr. J. M. Pawlakowi za dane o czasie oczekiwania na przyjazd metra, prof. M. Kałuszce



za wskazanie źródła do zagadnienia oceny optymalnej szerokości przedziału histo-

gramowania, a dr. hab. A. F. Żarneckiemu — za wskazanie na typ eksperymentu, który

posłużył do uzasadnienia metody największej wiarogodności.

Nie bez znaczenia i wpływu na ostateczny kształt i treść wykładu były uwagi i dyskusje z wieloma studentami, które autor prowadził w trakcie wykładów i po nich. Wiele

z tych rozmów pozwoliło lepiej zrozumieć i docenić trudności, jakich doświadczają Ci,

którzy przystępując do rozwiązania konkretnego problemu, próbują go zidentyfikować jako zagadnienie z zakresu statystyki matematycznej i sformułować w języku tej dziedziny. Dzięki im za to.

Wyrazy wdzięczności należą się także Rodzinie, która zawsze z entuzjazmem śledziła postęp prac, zachęcała, pomagała, a przede wszystkim ze zrozumieniem odnosiła się do męża i ojca, gdy ten, przygotowując manuskrypt, spędzał godziny przed kompu-

terem, co bez wątpienia odbywało się kosztem obowiązków domowych. Na zakończenie autor pragnie zwrócić się z prośbą do Czytelnika i zachęcić go do przekazania mu wszelkich uwag, spostrzeżeń i komentarzy. Może pomogą one ulepszyć jeśli nie następne wydanie tej książki, to wykład dla studentów. Ponieważ w dzisiejszej dobie najsprawniejszą i najwygodniejszą formą komunikacji są media elektroniczne, © fuw.edu.pl. toteż autor pozostawia Czytelnikowi swój adres: Roman.Nowak

Roman J. Nowak

PRAKTYKA

Słowo Praktyka brzmi dla nas tak samo jak dla Greków, u których oznacza ona coś związanego z Teorią i coś przeciwnego.

O ile bowiem Teoria dotyczy racji i poruszeń intelektu, o tyle Praktyka obraca się wokół czynności i poruszeń rozsądku; pierwsza tedy ma związek ze spokojem kontemplacyjnym, będącym głównie dążeniem duszy, druga zaś wiąże się ze spokojem aktywnym, będącym głównie dążeniem rozsądku.

Statystyka w fizyce

Najprostszy przykład pomiaru to pomiar prostej wielkości fizycznej typu długości wybranej fali Światła, współczynnika lepkości, oporu lub przyspieszenia ziemskiego. Tę

ostatnią wielkość możemy znaleźć, np. mierząc czas staczania się walca z równi pochyłej, a rezultat takiego pomiaru (dane własne) zilustrowany jest na rys. 1.1. W odniesieniu do tego histogramu, jak również innych przedstawionych poniżej, często używany jest termin wykres częstości, choć nazwa ta, Ściśle rzecz biorąc, powinna być stosowana do rysunku, na którym prezentowana jest nie liczba pomiarów o określonej własności, lecz ułamek bądź procent takich pomiarów. Jeszcze częściej stosowana jest szersza nazwa:

rozkład (w tym przypadku eksperymentalny, jako że budując modele probabilistyczne różnych pomiarów, będziemy mieli również rozkłady teoretyczne lub modelowe), ściślej — rozkład wyników pomiarów przyspieszenia ziemskiego. W odniesieniu do wielkości mierzonej używamy terminu zmienna losowa i zmienne takie będziemy oznaczali czcionką prostą o kroju bezszeryfowym, np.: k, l, m,... „t,

20

T

15

TI

liczba pomiarów

25

900

940

980 1020 przyspieszenie [cm/s”]

1060

1100

Rys. 1.1. Rozkład rezultatów pomiaru przyspieszenia ziemskiego uzyskanych metodą pomiaru czasu staczania się walca z równi pochyłej

24

1. Statystyka w fizyce

X, y, ... , natomiast do wyników pomiarów oraz zwykłych zmiennych matematycznych

zastosujemy kursywę: k, I, m, ... „t, x, y,... . Niedostatkiem tej konwencji jest brak możliwości rozróżnienia w piśmie między zmienną losową a zmienną matematyczną dla

wielkości oznaczanych symbolami z alfabetu greckiego. Autor ufa jednak, że nim takie symbole się pojawią, Czytelnik na tyle będzie wprowadzony w temat, że będzie potrafił zorientować się z kontekstu, o którą z wielkości chodzi. Zbiór (skończony) wszystkich

wyników pomiarów to próbka. Pojęcie to wiążemy z jeszcze jednym, pochodzącym z nauk socjologicznych, terminem — populacja, czyli zbiorem wszystkich przedstawicieli naznaczonych wybraną cechą. Termin ten, choć używany będzie przez nas przy analizie statystycznej danych doświadczalnych, ma raczej charakter pomocniczy, ponieważ, jako żywo, nikomu jeszcze nie udało się wyczerpać pomiarami wszystkich możliwych wartości np. przyspieszenia ziemskiego.

Wszystkie proste pomiary pouczają nas o pewnej charakterystycznej własności każdego procesu pomiarowego: ze względu na wpływ, jak sądzimy, pewnej liczby różnorodnych i niekontrolowanych czynników zewnętrznych, rezultaty pomiarów dowolnej wielkości makroskopowej mają charakter statystyczny —

powtarzając pomiary, nie

otrzymujemy jednej i tej samej wartości. Rozrzut rezultatów, jak ten na histogramie pomiarów przyspieszenia ziemskiego, czyli coś co zwiemy fłuktuacją, wiążemy z procesem pomiarowym — brakiem absolutnej wierności w każdym akcie pomiarowym. Jakościowo inny problem napotykamy, badając np. izotop bizmutu o liczbie masowej

211, który rozpada się w około 65% na polon drogą przemiany 8: *3Bi > *34Po + e” + 0,, a w pozostałych 35% na tal w wyniku emisji cząstki a: 41Bi > "TI + He. Podobne zachowanie wykazuje wiele jąder wzbudzonych i cząstek elementarnych, przy

czym liczba możliwych sposobów, zwanych także kanałami, ich rozpadów jest niekiedy znaczna — np. dla ciężkich leptonów T dochodzi ona do kilkudziesięciu. Trudność w wyznaczaniu częstości takich rozpadów polega na tym, że biorąc próbki np. po sto jąder bizmutu, w jednym przypadku znajdziemy, że 65 z nich rozpadło się na drodze emisji B, w innym może to być tylko 60, a jeszcze w innym aż 80. Niedoskonałość powtórzeń w kolejnych kopiach pomiaru nie jest w tym przypadku związana z warunkami pomiaru

ani instrumentami (nawet jeśli nie są idealne), których używamy, ani z tym, że jedne sto jąder bizmutu ma inne własności niż jakieś inne sto jąder, lecz z naturą zjawiska, które usiłujemy zbadać — ono samo ma charakter statystyczny. Znaczenie statystycznego po-

dejścia jest tu znacznie głębsze niż w przykładzie z przyspieszeniem ziemskim, stąd też

dobre jego zrozumienie jest warunkiem wstępnym do poprawnej analizy eksperymentalnej i znalezienia błędu pomiarowego częstości rozpadu, w nomenklaturze fizycznej zwanej stosunkiem rozgałęzienia.

Inny przykład realizacji identycznego procesu statystycznego znajdujemy w analizie asymetrii. Ilustrację tego zagadnienia stanowi sytuacja, w której badamy polaryzację wyprodukowanej cząstki przez określenie kierunku lotu produktów jej rozpadu względem tzw. płaszczyzny reakcji, czyli płaszczyzny, w której znajdują się wektory pędu

padającego pocisku i wyprodukowanej

cząstki. Okazuje się, że wybrany produkt roz-

padu „chętniej” wybiega na jedną ze stron takiej płaszczyzny niż na drugą. Liczba cząstek nad płaszczyzną 1 pod płaszczyzną to analogia liczb rozpadów jądra bizmutu

1. Statystyka w fizyce

25

10 r

> PA

>s 78] .©

2 Ń

8

6lL

ł

SI

3 4)

4d

Ś

a

5

3 |-

+ —

ee

2 t

ł

+

LL

TASSO, 34,5 GeV |

0

-0,8

l

J

i

l

-0,6

-0,4

-0,2

0

l

0,2

l

l

|

0,4

0,6

0,8

cosi

Rys. 1.2. Rozkład kątowy leptonów u” emitowanych w reakcji anihilacji efe > UTuUT

na dwu drogach. Bardziej rozbudowana realizacja identycznego modelu statystycznego (rys. 1.2, za M. Althoff i inni, An Improved Measurement of Electroweak Couplings from ete —> ete” andete" > U*u', Z. Phys. C — Particles and Fields 22 (1984), 13), to asymetria w liczbie emitowanych leptonów u" w kierunku zgodnym bądź przeciwnym do kierunku lotu pozytonu w układzie środka masy w reakcji e*e > uu. Asymetria ta była jedną z pierwszych wskazówek bozonu pośredniczącego Z.

sugerujących istnienie neutralnego

Poszerzeniem opisywanych przykładów jest następujący eksperyment. Wyobraźmy sobie licznik, np. Geigera-Miillera, z umieszczoną w nim próbką jąder promieniotwórczych, który uruchamiamy wielokrotnie na pewien stały, zadany przedział czasu. W każdym z okresów pracy licznik zarejestruje różne liczby rozpadów. Możemy oczekiwać, że liczby te będą grupowały się około pewnej wartości określającej typową liczbę zliczeń. Spodziewamy się jednak, że od czasu do- czasu zarejestrujemy zarówno małe, jak i bardzo duże liczby rozpadów. Nic nie stoi na przeszkodzie, aby przyjąć model, w którym możliwa liczba rejestrowanych rozpadów to: 0, 1, 2,3,....

W powyższym przykładzie z rozpadem jądra bizmutu każdy indywidualny akt roz-

padu jądra był losowym wydarzeniem o gamie ściśle określonych wyników. Liczba tych wyników, może niekiedy duża — jak w przykładzie z leptonem T — a nawet przy odrobinie wyobraźni nieskończona, jest jednak przeliczałna. Poszczególne możliwości

możemy ponumerować i ustawić w konwencjonalnej lub naturalnej (z jakiegoś punktu widzenia) kolejności i w dalszym toku odwoływać się do numeru w (skończonym lub nieskończonym) szeregu. Do opisu takiej sytuacji wygodnie jest wprowadzić nowy termin — mówimy o dyskretnym charakterze danego procesu losowego lub zbiorze jego możliwych rezultatów, czyli o dyskretnej zmiennej losowej podlegającej dyskretnemu rozkładowi prawdopodobieństwa. Trochę inaczej wygląda następujący problem. Rozważmy przykład elastycznego rozpraszania np. elektronu o zadanym pędzie p na stacjonarnym protonie (patrz rys. 1.3).

W wyniku rozproszenia otrzymujemy elektron o pędzie k i proton o pędzie q. Czy mo-

26

1. Statystyka w fizyce

Rys. 1.3. Definicja zmiennych kinematycznych w procesie elastycz-

nego rozpraszania ep

żemy znaleźć wartości tych pędów? Wprowadzając oznaczenia jak na rysunku, możemy

wypisać zasady zachowania pędu i energii:

p=kcosog +qcosv, 0 =ksing

+qsin3,

myc” + ;/mżc* + p?c? = „/m2c* + k?c? + ,/mąc* +ą?c*, gdzie przez m, i m, oznaczyliśmy odpowiednio masy elektronu i protonu. Jest to układ

trzech równań na cztery niewiadome:

g, %, k oraz q, co oznacza, że możemy je roz-

wiązać, przyjmując jedną z nich, np. kąt pojedynczym akcie rozproszenia? O tej być ona zawarta w granicach od 0” do w każdym konkretnym przypadku i które

p, za znaną. Ale ile wynosi ten kąt w każdym wielkości wiemy a priori tylko tyle, że może 180? i nic nadto. To, ile ona będzie wynosiła wartości (małe, czy też duże kąty) będą prefe-

rowane, zadecyduje losowy proces uwarunkowany dynamiką rozpraszania. Mówimy, że

mamy tu do czynienia z ciągłą zmienną losową, ponieważ zbiór jej wartości przebiega nieprzeliczalną liczbę możliwości. Interesującym przykładem takiej sytuacji jest rys. 1.4 (S. Herb i inni, Phys. Rev. Let. 39 (1979), 252), gdzie przedstawiono wyniki eksperymentu, w którym badano masę niezmienniczą par

u "u* uzyskanych w procesie nieelastycznego rozpraszania protonów na

jądrach atomowych. Mimo że na osi rzędnych odłożona jest pewna forma różniczkowego przekroju czynnego, o wykresie takim też często mówimy luźno jako o rozkładzie. Wy-

niki takie jak ten dostarczyły swego czasu dowodu na istnienie rodziny cząstek ypsilon, będących stanem związanym kwarka b i jego antykwarka. Analiza statystyczna w całej swej krasie ujawnia się jednak dopiero na następnym wy-

kresie — rys. 1.5 — który uzyskano, usuwając z rys. 1.4 coś, co nazywamy tłem (zwróćmy

uwagę na zastosowanie na pierwotnym rysunku skali logarytmicznej, dzięki czemu nadmiar przypadków w okolicy 9-10 GeV

wybija się ponad „coś”, co wygląda jak linia

prosta) i dopasowano do otrzymanych punktów krzywe Breita-Wignera, które pozwoliły wyznaczyć masy nowych cząstek (G. Fliigge, w Proceedings of the EPS Conference on High Energy Physics, Geneva 1979, Geneva, CERN Scientific Information Service). Następna komplikacja, jaka pojawia się w związku ze zmienną ciągłą, to wielowymiarowość. Jeśli wrócimy do przykładu rozpraszania, tym razem nieelastycznego, w którym

powstaje n cząstek w stanie końcowym, to układ taki charakteryzujemy w pełni, podając 3n składowych pędu cząstek, o ile potrafimy zidentyfikować te cząstki. Równania zacho-

1. Statystyka w fizyce

27

24 ©

|

.

,

w 1035

L

do

»,

dmdy |,-, ., 7

——

, Pa,

6

He

la >

*

+

,



4

vo

9,

+

ł

107 |

O:

+ł | |

10?

|

6

7

8

9

10

11

|

12

13

masa [GeV]

Rys. 1.4. Podwójny różniczkowy przekrój czynny na produkcję par u". w procesie nieelastycznego rozpraszania protonów na jądrach jako funkcja masy niezmienniczej pary mionów

wania energii i pędu wyeliminują nam 4 z tych wielkości, a te, które pozostaną, w liczbie 3n — 4, staną się, w każdym indywidualnym akcie rozpraszania, zmiennymi losowymi.

Prosty, a zarazem bardzo pouczający jest dwuwymiarowy przykład na następnym wykresie — rys. 1.6 (dane własne), który przedstawia tzw. profil wiązki cząstek ele-

mentarnych wybiegających z akceleratora i docierających do pewnego detektora. Jest to rozkład punktów trafień tych cząstek w płaszczyznę prostopadłą do osi wiązki, a każdy z 386 punktów reprezentuje sobą jedną cząstkę. Ten chaotyczny, na pierwszy rzut oka,

układ ma jednak pewną strukturę. Widać, że punkty trafień układają się w obszarze elipsy, której dłuższa oś nachylona jest pod pewnym kątem do poziomej osi współrzędnych. Oznacza to, że jeśli cząstka wychyla się „w prawo”, to jednocześnie ma tendencję do odchylenia „w dół”. Zależność taka, nie mająca charakteru zależności matematycznej,

lecz statystycznej, określana jest mianem korelacji.

1. Statystyka w fizyce

liczba przypadków

28

i

| 8,50

9,00

9,50

10,00

10,50

masa niezmiennicza

Rys. 1.5. Rozkład — po odjęciu tła — masy niezmienniczej par u*u" uzyskanych w procesie nieelastycznego rozpraszania protonów na jądrach 100

r

50

|

,

.

:

2

Ę

0

—50

|

.

«

"

—200

*

WC.

1

**

ze

.

Ba

dą"

s.

,

sze”3

JOCK ,

.

"

.

|

-100

Z

-”

.

Z

.

,

e

l

0

i

,,

.

e

+

.

4.

„.

wo,

*

.-

,

.,

. -

, Ó

..

4

.

RJ

+



*

s"

.

.*., wa

.

|

*

—100

*

.

.

i

.

..

*

*

„..

. .„*.

A

"

,

.

4

,

*

.

".

.*

.

.

..

* .

.

. .

+

.

J

100

mm

Rys. 1.6. Rozkład punktów trafień wiązki w płaszczyznę detektora (dane własne)

Piękny przykład korelacji uwidoczniony jest na rys. 1.7 (S. Kopp, Dalitz Analysis of the Decay D > K'n*n', Eksperyment CLEO, http://arXiv.org/abs/hep-ex/ 0011065), na którym jest przedstawiony rozkład mas niezmienniczych par cząstek Kx" oraz n*n/, powstających w rozpadzie mezonu D” > K"n*n'. Jeśli przejdziemy do układu środka masy tych trzech cząstek, to zasada zachowania pędu ogranicza wszystkie ich możliwe pędy do płaszczyzny, co oznacza, że mamy 6 wielkości (po dwie składowe pędu każdej z cząstek), które charakteryzują taki rozpad. Dodatkowo ta sama zasada wraz z zasadą zachowania energii (razem trzy równania) eliminują 3 z tych wielkości, pozostawiając 3 wolne parametry. Jeśli nadto ustalimy kierunek lotu w tej płaszczyźnie jednej z cząstek (np. kaonu), pozostaną nam dwie wielkości, które w pełni opisują konfigurację przypadku. W omawianej pracy za owe dwie wielkości przyjęto kwadraty mas niezmienniczych kaonu i dodatniego pionu oraz obu pionów. Obrys obszaru wypełnionego punktami zadaje dozwolony zakres zmienności obu mas niezmienniczych.

1. Statystyka w fizyce T

T

T

T

3111100-011

wu

U

=

.

„pe

ł

w

R

SĄ:Se

wyga

z.

swe ",

+

e 41

p

.

7

7

. 4

ZPA

7" «wa +

4

,

.

+

»

>

- as Ta .

;

Ma

4

w

Sapąia 9 a BŚ AGIT

a

-

:

P tn

M(n' n ) (GeVc” )

——

2,0

29

Rys.

1.7.

Rozkład

masy

niezmienniczej

K-n* oraz n*n" z rozpadów mezonu D”

par

3

M(K n ) (GeVc

22

Gdybyśmy mieli do czynienia z absolutnie statystycznym charakterem zjawiska lub, jak to mówią fizycy, rozkład był zdeterminowany przez przestrzeń fazową procesu, punkty na wykresie powinny układać się jednorodnie we wnętrzu tego obszaru. Jak widzimy, para dwóch pionów i para złożona z kaonu i pionu preferuje, w części przypadków, pewne obszary wartości masy niezmienniczej, co uwidacznia się w postaci „wysp” większej gęstości punktów na wykresie. 8 -

]

2

j

Rys. 1.8. Rozkład energii poprzecznej dwóch dżetów

ZEUS

UCAL transverse energy

30

1. Statystyka w fizyce

Wykresy takie jak na rys. 1.7 służą do wizualizacji funkcji zależnej od dwóch zmiennych. Jeśli chcemy pokazać wartości tej funkcji, uciekamy się do tzw. wykresów lego, których przykład widzimy na rys. 1.8 (dane współpracy ZEUS). Oderwijmy się teraz na moment od fizyki i wróćmy do geodety, który wymierza

trzy kąty pewnego trójkąta w terenie. Nikt nie oczekuje, że suma tych kątów, z uwagi na

błędy pomiarowe, wyniesie równo 180”. Jeśli jednak nasz geodeta zamierza wykorzystywać zmierzone przez siebie trójkąty w dalszej pracy i stosować odpowiednie wzory trygonometryczne, to musi zmienić wartości tych kątów tak, aby ich suma wynosiła tyle, ile tego wymaga geometria euklidesowa. Podobny problem występuje przy pomiarach

pędów w rozpraszaniu np. elektronów na protonach. Mierząc pędy cząstek w tej reakcji, nie możemy oczekiwać, z uwagi na błędy pomiarowe, że wyniki naszych pomiarów będą spełniać ściśle zasady zachowania pędu i energii. Ale jednocześnie nie możemy dopuścić do tego, byśmy dałej pracowali z niespójnymi danymi. Musimy, w granicach dopuszczonych przez błędy poszczególnych pomiarów, zmodyfikować wartości mierzone, aby

podstawowe prawa Natury były spełnione. Służy do tego procedura zwana dopasowaniem kinematycznym, oparta na tzw. teście x*, o którym będziemy mówili w dalszej

części tego wykładu. 13 657

5 0

4.2

4.3

$.5

4,

.

TASSO

a RŃ

u

-

|

47

Rys. 1.9. Przykład rejestracji torów cząstek w wielodrutowej komorze dryfowej

Inny, klasyczny przykład dopasowania z zastosowaniem testu x* zaprezentowany

jest na rys. 1.9. Przedstawia on schematyczny, w przekroju poprzecznym, obraz umiesz-

czonej w polu magnetycznym wielodrutowej komory cylindrycznej, otaczającej punkt oddziaływania wiązek przeciwbieżnych (G. Wolf, Deutsches Elektronen Synchrotron Internal Report, DESY 81-086). Naładowane produkty reakcji rozbiegają się wzdłuż linii spiralnych ze środka rysunku i są rejestrowane za pomocą owych drutów. W wyniku

1. Statystyka w fizyce

31

otrzymujemy dyskretną informację o kształcie toru cząstki. Naszym zadaniem jest od-

tworzenie tego toru w przestrzeni i znalezienie jego parametrów, co pozwala określić

pęd cząstki. Na zakończenie przeglądu problemów, jakie typowo spotykamy w trakcie pracy eksperymentalnej, rozwaźmy następujące zagadnienie. Wiemy, że w przyrodzie obowiązuje (jak na razie) eksperymentalne prawo zachowania mionowej liczby leptonowej. Oznacza to, że np. przy obserwacji rozpadu leptonu u", wśród produktów znajdziemy zawsze cząstkę — w tym przypadku tzw. neutrino mionowe v,, — wynoszącą mionowy „ładunek” leptonowy. Wyobraźmy sobie, że wykonujemy doświadczenie, którego celem jest sprawdzenie tego prawa przez poszukiwanie np. rozpadu: u" > ee'e”, który jest z owym prawem sprzeczny (nawiasem mówiąc, jest on również sprzeczny z prawem zachowania elektronowej liczby leptonowej). Załóżmy, że zebraliśmy próbkę jednego

miliona rozpadów i nie znaleźliśmy ani jednego interesującego nas przypadku. W pierwszym momencie moglibyśmy powiedzieć, że prawo jest słuszne, a jeśli nie, to łamane jest co najwyżej raz na milion. Jest to jednak stwierdzenie zbyt kategoryczne. Jeśli

przypomnimy sobie nasze rozważania z początku rozdziału o liczniku Geigera-Miillera zliczającego rozpady jąder promieniotwórczych, zauważymy, że w naszym doświadczeniu mamy identyczny model probabilistyczny —— prawo może być istotnie łamane na

poziomie w okolicy jeden na milion lub nawet nieco silniej, lecz los spłatał nam figla i nie dał nam szansy jego wykrycia!

Dlatego też stwierdzenie, że badany rozpad

zachodzi rzadziej niż raz na milion to zbyt mało. Powinniśmy opatrzyć takie stwierdzenie oceną możliwości wystąpienia takiego zachowania. Tę ocenę nazywamy poziomem ufności. t

BP |

JON

jet aen

|

NS = 130 > 189GeV

m,, = 173,9GeVc

M,., susy = 1TeVc”

PES

10

|



|

||

—— mieszanie maksymalne „.. bez mieszania

|

|

4

|LĄ

*

hoM; - 4

m, < 20GeVc* _ wykluczany „© s

20

30

40

50

60

70

80

90

100

110

120

My, [Gevc ]

Rys. 1.10. Rezultat poszukiwania cząstki Higgsa — obszary wykluczonych wartości mas i parametru 8

32

1. Statystyka w fizyce

Bardziej wyrafinowana forma identycznego zagadnienia prezentowana jest na rys. 1.10 (patrz A. Hocker, http://arXiv.org/abs/hep-ex/9903024). Podsumowuje on pewien etap poszukiwania najbardziej nieuchwytnej cząstki elementarnej, jaką jest tzw. bozon Higgsa. W standardowym modelu oddziaływań cząstek elementarnych istnienie jednego takiego obiektu jest niezbędne. Mimo że do chwili obecnej nie udało się go odkryć, nie przeszkadza to fizykom teoretykom w spekulacjach odnoszących się do jeszcze bardziej finezyjnej teorii tzw. minimalnego supersymetrycznego modelu standardowego,

w którym kwarki i leptony traktowane są równorzędnie. Model ten prowadzi do jeszcze

bardziej skomplikowanego

układu tych bozonów,

gdyż przewiduje istnienie aż pięciu

takich cząstek, z których jedna, oznaczana symbolem h;, powinna być relatywnie lekka, choć model nie specyfikuje, ile jej masa wynosi. Zagadnienie komplikuje trudność, jaką

jest pewien

dodatkowy,

zupełnie nieznany

parametr modelu,

zaznaczony

na rysunku

symbolem 8, który ma wpływ na masę tej najlżejszej cząstki. Dlatego mierzenie masy bozonu Higgsa jest jednocześnie badaniem wartości nieznanego parametru. Ponieważ, jak na razie, w żadnym z eksperymentów bozon ten nie został wykryty, więc wyniki owych doświadczeń prezentowane są w formie „negatywnej” — obszarów wartości masy

i parametru 8 wykluczonych przez eksperyment przy zadanym poziomie ufności.

Na zakończenie tego rozdziału przyjrzyjmy się bliżej słowu statystyka. Używane jest ono w wielu znaczeniach. W języku potocznym, w zdaniu jak Statystyki opubliko-

wane przez GUS wskazują na ... jest ono synonimem słowa dane, rozumianego jako liczby, tabele, wykresy itp. W nazwie Główny Urząd Statystyczny poszerzamy warstwę znaczeniową o proces zbierania i przetwarzania tychże informacji, a także ich przechowywania. My będziemy używać tego słowa w innym znaczeniu, zdefiniowanym w podrozdziale 4.2: statystyka to funkcja zmiennych losowych, i właściwym dziedzinie nauki

zwanej statystyką matematyczną, czyli wiedzy o metodach uzyskiwania informacji z danych. Ta gałąź matematyki stosowanej, mimo że ma swój zestaw twierdzeń, związana

jest ze swej natury z wnioskowaniem indukcyjnym i przechodzeniem od szczegółu do ogółu, czego parę próbek przedstawiliśmy w tym rozdziale. Statystyka matematyczna rozwinęła się z dziedziny czystej matematyki: rachunku (teorii) prawdopodobieństwa, który jest jej podstawowym językiem. Dlatego teraz przejdziemy do przedstawienia paru

najbardziej fundamentalnych faktów tej dziedziny.

PRZYUCZENIE

Przyuczenie jest ćwiczeniem się

w nabywaniu zacnych nawyków i chwalebnych zalet za pośrednictwem głosu lub pisma, przedstawia się je w postaci wspaniałej, bo tylko dusze szlachetne łatwo naginają się do przykrości poprzedzających cnoty.

Prawdopodobieństwo i jego rozkład

—— 21. Pojęcie rozkładu prawdopodobieństwa Przypomnimy teraz przykład z licznikiem Geigera-Miillera z rozdziału 1 oraz zilustrujemy go historycznymi danymi Rutherforda i Geigera (E. Rutherford, H. Geiger i H. Bateman, Phil. Mag. 20 (1910), 698) z 1910 roku, kiedy to obserwowali oni liczbę cząstek

a emitowanych przez substancję promieniotwórczą w n = 2612 przedziałach czasowych po 7,5 s każdy. Rysunek 2.1 przedstawia częstości Nę

F,y=—, n

gdzie n, określa liczbę pomiarów (okresów pomiarowych po 7,5 s każdy), w których

uległo rozpadowi k jąder. Na przykład w około jednej pięćdziesiątej (2%) wszystkich

przedziałów czasowych nie obserwowali oni w ogóle rozpadów promieniotwórczych. Dokonajmy teraz myślowego przejścia do nieskończoności z liczbą n pomiarów wykonanych przez obu uczonych. Oczekujemy, że w granicznym przypadku z obserwowanych często-

0,25 r

0,15

|

0,10

1

częstość

0,20 |

0,05 0,00



A

de)

ŚĆ

SA



Ę

0

1

2

3

4

5

6

7

Łoś

ża

8

9

:

40

liczba k rozpadów Rys. 2.1. Rozkład liczby rozpadów obserwowanych przez Rutherforda i Geigera

11

12

36

2. Prawdopodobieństwo i jego rozkład

ści F, otrzymamy prawdopodobieństwa P,, że wielkość k, określająca liczbę rozpadów w wybranym przedziale czasowym, przyjmie wartości O, 1, 2,...:

F, = ki



Pk=R =P.

(2.1)

Na powyższe przejście graniczne należy patrzeć z dużą dozą ostrożności, gdyż nie ma

ono tego charakteru, do jakiego przywykliśmy w analizie matematycznej. Poza formalnie wypisaną zależnością od liczby pomiarów w mianowniku mamy jeszcze ukrytą, statystyczną zależność w liczniku. Intuicja i praktyka podpowiada nam, że wraz ze wzrostem

liczby pomiarów n wzrastać będzie także liczba n,. Z doświadczenia życiowego także

wynika, że będziemy obserwowali fluktuacje tej wielkości: jeśli np. liczbę n pomiarów zwiększymy dwukrotnie, to także dwukrotnie, ale tylko w przybliżeniu, wzrośnie liczba

nę. Nie spodziewamy się, że zależność ta będzie Ściśle proporcjonalna. Czasami wzrost

ten będzie więcej, a czasami mniej niż dwukrotny. Sądzimy jednak, że im większa będzie liczba n, tym dokładniej n, będzie do niej proporcjonalna. O wielkości k wiemy, że może ona przyjmować każdą dopuszczalną wartość ze

swego zakresu, dlatego określamy ją, jak w matematyce, jako zmienną. Ponieważ nie

my kontrolujemy wartości, jakie ona przyjmuje w każdym indywidualnym przypadku, dlatego uzupełniamy tę nazwę o słowo losowa, a skoro nasza zmienna losowa może

przyjmować tylko pewne wybrane wartości, mówimy o niej, że jest dyskretną zmienną losową.

Uzyskana w ten sposób zależność prawdopodobieństwa P, od zmiennej losowej k

zwana jest w terminologii rachunku prawdopodobieństwa rozkładem prawdopodobień-

stwa. Efektywnie, słowo rozkład zastępuje tu słowo funkcja. Do kompletu informacji powinniśmy dodać wiadomość, iż mamy do czynienia z dyskretnym rozkładem prawdopodobieństwa.

Wielkości P, spełniają, z warunków konstrukcji, tożsamość

3 P,=1,

(2.2)

k=0

zwaną warunkiem unormowania prawdopodobieństwa. Warunek ten odczytujemy jako gwarancję pojawienia się któregokolwiek ze wszystkich możliwych zdarzeń.

Definicja częstości pozwala rozwiązać pewien elementarny problem. Możemy znaleźć eksperymentalne oszacowanie szansy F'(i < k < m) wystąpienia zdarzeń, w których

wartość zmiennej k zawarta jest między wartościami i oraz m:

Fi pl4) (P(A) + P (Z')) + P(Z* + p|Z*)P(2*) =

JA>p(PA

+

Po)

+

fs>pP-:

Koncepcja prawdopodobieństwa warunkowego nie jest jednak w żaden organiczny

sposób związana z chronologią zdarzeń. Ilustruje to następujący, prosty przykład. Wspomniany wcześniej lepton T rozpada się na elektron lub na mion, w każdym z przypadków

z prawdopodobieństwem około 18%, oraz na stany hadronowe, bez udziału naładowanego leptonu, w pozostałych przypadkach. Pytanie o prawdopodobieństwo rozpadu leptonu Tt na elektron, jeśli wiadomo, że wśród cząstek stanu końcowego obserwowano

naładowany lepton, jest dobrym pytaniem o prawdopodobieństwo warunkowe i nie im-

plikuje ono żadnego uporządkowania czasowego zdarzeń. Zwykłe prawdopodobieństwo P(A) zdarzenia A jest także prawdopodobieństwem warunkowym P(A|£2), z tym, że warunkiem jest cała przestrzeń zdarzeń elementar-

nych 42:

P(A|2)

=

P(ANQ) PQ)

P(A) 1

= P(A).

Ten absolutny charakter zdarzenia warunkującego sprawia, że prawdopodobieństwa takie

jak P(A) nazywamy prawdopodobieństwami absolutnymi.

——

24. Zdarzenia niezależne

Wyobraźmy sobie dwa liczniki Geigera—Miillera, nazwijmy je A oraz B, ustawione na poziomej płaszczyźnie, w pewnej odległości od siebie i wystawione na promieniowanie kosmiczne. Przyjmijmy, że każdy z liczników, pracując samodzielnie, notuje typowe

częstości przechodzących promieni jako f4 oraz fg (różnice w wartościach częstości mogą wynikać z różnicy w budowie liczników, np. jeden może mieć większą pojem-

2.4. Zdarzenia niezależne

57

ność czynną niż drugi) i oczekujemy, że przybywanie promieni jest losowo rozrzucone w czasie. Oznacza to, że w pierwszym liczniku typowy odstęp czasu między dwiema

kolejnymi cząstkami promieniowania wynosi Tą = 1/fą4, a w drugim Tp = 1/fg. Przyjmijmy, że impuls wyjściowy każdego z liczników ma standardowy kształt prostokątny

o czasie trwania 74 1 Ig. O czasach tych założymy, że są one wielokrotnie krótsze od CZASÓW TĄ Oraz Tg. W następnym kroku standardowe impulsy wysyłane są na układ elektroniczny, zwany układem koincydencyjnym, który generuje impuls na swoim wyjściu tylko wtedy, gdy dwa standardowe impulsy wejściowe nałożą się na siebie, przy czym

przekrywanie czasowe nie musi być pełne, wystarczy, aby jeden impuls pokrywał się minimalnie z drugim. Przy tak skonstruowanym układzie oczekujemy, że od czasu do czasu zdarzy się przypadkowe nałożenie impulsów z liczników i układ koincydencyjny zarejestruje koincydencję przypadkową — jak to jest zilustrowane rys. 2.19. Jak często

wystąpi taka koincydencja, lub inaczej: jakie jest prawdopodobieństwo

P(A ) B) zda-

rzenia będącego iloczynem zdarzeń, z których jedno oznacza rejestrację promieniowania za pomocą licznika A, a drugie rejestrację innej cząstki za pomocą licznika B?

Licznik A czas czas Licznik B |

Koincydencja

5 8

czas

— ||

> > >

czas czas

>

Rys. 2.19. Orientacja czasowa impulsów, prowadząca do koincydencji przypadkowej i czas jej trwania

Na mocy prawa mnożenia prawdopodobieństw

(2.14), odpowiedź

na to pytanie

sprowadza się do odpowiedzi na następujące pytanie: jakie jest prawdopodobieństwo P(A |B) zarejestrowania cząstki promieniowania kosmicznego za pomocą licznika A, przy warunku, że jednocześnie zadziałał licznik B, lub: jakie jest prawdopodobieństwo

P(B|A) zarejestrowania cząstki promieniowania kosmicznego za pomocą licznika B,

przy warunku, że jednocześnie zadziałał licznik A? Jeśli założymy, że promienie kosmiczne przychodzą z zenitu pojedynczo i bez związku między sobą, to odpowiedź na

takie pytanie jest, z fizycznego punktu widzenia, oczywista: to, że zadziałał licznik A,

nie ma żadnego wpływu na to, czy zadziała, bądź nie zadziała licznik B i odwrotnie: działanie licznika B nie ma wpływu na licznik A. Innymi słowy, P(B | A) = P(B) oraz P(A|B) = P(A) i mówimy, że zdarzenie określone symbolem przed kreską pionową jest statystycznie niezależne (używany też bywa termin stochastycznie niezależne) od

58

2. Prawdopodobieństwo i jego rozkład

zdarzenia określonego symbolem stojącym po kresce pionowej. Zauważmy, że z równo-

ści (2.16) wynika, że jeśli zdarzenie A jest niezależne od zdarzenia B, to zdarzenie B jest niezależne od zdarzenia A. Jeśli wyrazenie P(A | B) = P(A) podstawimy do związku (2.14), to otrzymamy P(A AB) = P(A)P(B).

(2.17)

Słuszne jest także stwierdzenie odwrotne: jeśli zachodzi (2.17), to zdarzenia A oraz B

są statystycznie niezależne, dlatego związek ten możemy

potraktować nie tylko jako

przejaw statystycznej niezależności, ale także jako samodzielną definicję tego pojęcia.

—— Przykład 2.4.1 Żart Paulinga L. ©. Pauling podczas uroczystości wręczenia mu po raz drugi Nagrody Nobla za-

uważył, że niepotrzebnie wokół tej okoliczności czyni się tyle szumu. Przecież ży-

jących laureatów nagrody jest około setki, tak więc prawdopodobieństwo zdobycia tego wyróżnienia po raz wtóry wynosi raptem 1:100, podczas gdy wszystkich kan-

dydatów do pierwszej Nagrody Nobla na całym świecie jest przynajmniej miliard,

tu więc konkurencja jest znacznie większa. Naturalnie, żart badacza polegał na celowej zamianie miejscami dwóch pojęć. Jeśli przez N oznaczymy zdarzenie okre-

ślające zdobycie wyróżnienia, to słynny uczony pomieszał, rozumiane dość pokręt-

nie prawdopodobieństwo warunkowe — P(N | N) i absolutne — P(NNYN), które tylko z pewnym przybliżeniem możemy uznać za zadane iloczynem P(N)P(N) (w przypadku Paulinga można sądzić, że przybliżenie to jest lepiej uzasadnione,

jako że pierwszą nagrodę uzyskał on za osiągnięcia w chemii, podczas gdy druga była nagrodą pokojową, ale nie możemy wykluczyć, że tytuł noblisty z chemii ułatwił mu zdobycie drugiej).

T)

Wróćmy do naszego problemu i rozważmy dowolny, ale długi w porównaniu z czasami TĄ 1 TB przedział czasu r. W tym czasie licznik pierwszy zadziała T/Tą = Tfą razy,

a łączna długość przedziałów czasowych impulsów wytworzonych przez niego wynosić

będzie TfATĄ, co oznacza, że zajmą one ułamek (geometryczna definicja prawdopodobieństwa) Pą = f4TĄ czasu T. Innymi słowy, jeśli popatrzymy na wyjście naszego licznika w dowolnym momencie czasowym, wielkość P4 jest prawdopodobieństwem na-

potkania w tym momencie impulsu wytworzonego przez promień kosmiczny. Podobnie,

prawdopodobieństwo Pg napotkania impulsu promieniowania kosmicznego w drugim liczniku wynosi Pp = fpTp. Ponieważ „odpalenie” jednego licznika nie zależy od tego, co się dzieje w drugim, więc prawdopodobieństwo P przypadkowego nałożenia się przedziałów czasowych jest iloczynem obu prawdopodobieństw: P = PĄPg = fąTą fBTB. Z. prawdopodobieństwa koincydencji znajdziemy teraz jej częstość. Ponownie dokonujemy obserwacji przez długi przedział czasu r. Jeśli pomnożymy ten przedział

czasu przez prawdopodobieństwo koincydencji, to otrzymamy całkowity czas Pz trwa-

2.4. Zdarzenia niezależne

nia wszystkich koincydencji w czasie r. Gdybyśmy

59

znali czas T' trwania pojedynczej

koincydencji, moglibyśmy znaleźć liczbę tych koincydencji w czasie r, a zatem 1 ich częstość. Zauważmy jednak, że czasy trwania koincydencji są różne i zależą od wza-

jemnej konfiguracji impulsów. Jeśli jeden z impulsów jest zawarty we wnętrzu drugiego,

to czas T koincydencji jest równy czasowi trwania impulsu krótszego, natomiast jeśli impulsy pokrywają się tylko w części, to czas ten jest krótszy i równy części wspólnej.

Widzimy, że potrzebujemy pewnego typowego czasu T trwania pojedynczej koincydencji. Czas ten możemy określić z następującego rozumowania, w którym przyjmiemy,

EEE

dla ustalenia uwagi, że sygnały z licznika A są dłuższe niż sygnały z B: 74 > IB. Wyobraźmy sobie, że kręcimy film z ekranu oscyloskopu, na którym rejestrujemy wzajemne orientacje impulsów wyjściowych z obu liczników. Następnie przeglądamy ten film klatka po klatce i wyrzucamy z niego te klatki, na których nie wystąpiła koincydencja. W końcu porządkujemy klatki w taki sposób, abyśmy otrzymali ciągły obraz „przepływania” z lewa na prawo impulsu z licznika B od jednej skrajnej pozycji, w której jego prawa krawędź „właśnie” pokryła się z lewą krawędzią impulsu z licznika A, do pozycji, w której impuls z B „właśnie” opuszcza od prawej strony impuls z A (rys. 2.20).

Rys. 2.20. Ilustracja do wyznaczenia prawdopodobieństwa i częstości koincydencji przypadkowych

Ponieważ impulsy zdarzają się losowo, tak „sfabrykowany” film powinien zacho-

wać proporcje czasowe wszystkich możliwych konfiguracji. Spróbujmy teraz wypisać postać funkcji 7T (t), która będzie podawała nam czas koincydencji w zależności od tych

konfiguracji. Za zmienną niezależną tej funkcji przyjmiemy odstęp czasowy £ między prawą krawędzią impulsu z B a lewą krawędzią impulsu z A. Dla wartości ujemnych

60

2. Prawdopodobieństwo i jego rozkład

T(1) |

| I l

I I | I

T

4

—»

TTG

Rys. 2.21. Zależność czasu 7 trwania koincydencji od wzajem-

t

nej orientacji czasowej impulsów

zmiennej niezależnej oba impulsy się nie przekrywają i czas trwania koincydencji jest

równy zeru. Dla czasów 0 < t < Tg przekrywanie wynosi dokładnie t i tyleż samo

czas koincydencji. Dla czasów

Tp < t < TĄ impuls z B jest w pełni przekryty przez

impuls z A, tym samym czas koincydencji jest stały i równy Tp. Natomiast dla czasów IB k, to liczba kwadratów o powierzchni zawartej między

S„ a S$, jest równa n(F(x,) — F(x,)). Aby

uzyskać rozkład g, liczbę tę odniesiemy do całkowitej liczby n kwadratów i przedziału AS = Sp — Sk n (Fam) — Fx)

n(S„-S)

_ F (Sm)

— FOe(S2)) _ F (als + AS)) — F(x(Sz))

Sm — SŁ

me

AS

|

W wyrażeniu stojącym po ostatnim znaku równości rozpoznajemy iloraz różnicowy dla funkcji złożonej. Jeśli zastosujemy naszą standardową procedurę zwiększania liczby n

kwadratów i zawęzania przedziału

AS, to zauważymy,

że w granicy otrzymamy

po-

70

2. Prawdopodobieństwo i jego rozkład

chodną funkcji złożonej F(x(S$; + AS)) — FQx(Sz))

>

dF(x) z=x(5)

dx

n—>oo, AS-—>0

AS

dx

dx

—c dS =

J al

=g(0). S))— gl ) Wąs

Przeprowadźmy to rozumowanie jeszcze raz, ale tym razem całkiem formalnie. Niech będzie dana zmienna losowa x o gęstości f(x) oraz zmienna losowa y, związana z war-

tościami zmiennej losowej x jednoznacznym przekształceniem y = h(x). Jak mamy

znaleźć gęstość g(y) zmiennej losowej y? Ponieważ założyliśmy, że przekształcenie jest jednoznaczne, więc istnieje funkcja odwrotna x = h"'(y). Niech [x;; x ] będzie dowol-

nym przedziałem należącym do zbioru wartości zmiennej losowej x i niech y; = h(x) oraz yą = h(x2). Prawdopodobieństwo, że zmienna losowa x przyjmuje wartości zawarte między x; a x, jest równe całce z gęstości, przy czym twierdzenie o zamianie zmiennych całkowania mówi nam, że

x2

y2

P(X

)

M

N2TRO

l

1 -

[ exp |( —Af z — ——— ( z) e

0

—(t' —Aa2)

0

J

2o?

y”

exp ( ——z)

dt

|d y

—00

Ostatnią całkę możemy obliczyć jedynie numerycznie, a rezultat widzimy na rys. 2.31, gdzie dla ustalenia uwagi przyjęliśmy, że wartość parametru r jest jednostkowa, a parametrowi o nadano trzy wartości podane na wykresie. Grubsza linia ciągła przedstawia pierwotny rozkład (na osi rzędnych odłożono logarytm funkcji gęstości, dlatego niezdeformowany rozkład ma postać linii prostej), nato-

1,0

Tr=l

CZAS

Rys. 2.31. Przykłady randomizacji rozkładu wykładniczego rozkładem Gaussa; T = I

miast linie cieńsze to rozkłady po „pomiarze”. Widzimy, że jeśli precyzja pomiaru

czasu jest porównywalna z wielkością mierzoną, tj. wtedy, gdy T o, zniekształcenie uzyskiwanego spektrum jest bardzo silne. Zauważmy, że w wyniku splotu uzyskaliśmy również wartości ujemne. Przesłanie, jakie przynosi ten rysunek, polega na tym, że splatanie prowadzi zawsze do „wygładzenia rozkładu — różne

ostre struktury lub maksima zostają spłaszczone, minima przysypane, a wszelkie nachyłenia złagodzone. Stopień nasilenia tych efektów jest tym większy, im mniej precyzyjnie wykonujemy pomiary.

n

94 ——

2. Prawdopodobieństwo i jego rozkład

Przykład 2.7.2 Masa neutrina

Rozważmy następny przykład, w którym randomizacja może, potencjalnie, odgrywać bardzo poważną rolę. Jedną z metod pomiaru masy antyneutrina elektro-

nowego jest badanie rozkładu widma energii kinetycznej padu trytu: 'H >

*He + 8 +v,

w spoczynku.

E elektronów $8 z

roz-

Kształt h(E; Eg, m,) tego widma,

przedstawiony grubszą linią (dła m, = 0) na rys. 2.32 określony jest zależnością

(D. H. Perkins, Wstęp do fizyki wysokich energii, PWN, Warszawa 1989)

h(E; Eo, m,) = NF(v)(E, — E)VE/(E— E)?—m,

0 Po) dwóch zdarzeń, pierwszego, oznaczonego przez Pb i symbolizującego rozpad polonu

2.8. Twierdzenie Bayesa

105

218Po na ołów, a następnie tegoż na bizmut, oraz drugiego (Bi >

Po), opisującego rozpad bizmutu na końcowy izo-

top polonu ?*Po. Gdy w wyniku rozpadu izotopu *'*Po pojawi się astat, co określimy zdarzeniem At, układ zdarzeń, z uwagi na występujące tu rozgałęzienie, jest nieco bardziej skomplikowany. Dlatego najpierw wypiszemy po-

stać zdarzenia prowadzącego do powstania izotopu *'%Po

pod warunkiem, że wyruszamy z izotopu astatu. Uzyska-

nie izotopu ?!*Po jest wtedy określone przez alternatywę (At >

Rn) U(At >

Bi +

Po), gdzie pierwsze zdarzenie

opisuje ciąg rozpadów *$At > **Rn —> **Po, a sekwen-

cję (At > Bi % Po) możemy wyrazić przez koniunkcję (At > Bi) N (Bi + Po). Pełną postać zdarzenia opisują-

Thomas Bayes,

1702-1761

cego łańcuch rozpadów: 29Po — *8At — ?%Po otrzymamy po uzupełnieniu o zdarzenie At: At N [(A£ > Teraz już możemy 214pg:

Rn) U((At >

Bi)

(Bi >

Po))].

podać pełną postać zdarzenia opisującego pojawienie

się izotopu

[Pb N (Bi > Po)]UfAtN[(AŁ > Rn) U((At > Bi) A (Bi > Po))]), gdzie dodaliśmy nawiasy zwykłe, kwadratowe i klamrowe dla przejrzystości i uwypuklenia relacji między różnymi zdarzeniami. Poszukiwanie prawdopodobieństw takich złożonych zdarzeń opiera się na wykorzy-

staniu praw (2.11) rozdzielności względem dodawania i mnożenia oraz wielokrotnym

Rys. 2.38. Fragment szeregu promieniotwórczego ilustrujący rozgałęzienie w rozpadzie izotopów polonu, astatu i bizmutu

106

2. Prawdopodobieństwo i jego rozkład

stosowaniu związku (2.9). Wymaga to jednak pewnej ostrożności, gdyż przy ich lekkomyślnym użyciu możemy popełnić błąd następującej natury. Otóż, dla dwóch zdarzeń

niezależnych A oraz B mamy oczywiście spełniony związek P(A M B) = P(A)P(B), ale jeśli A = B, to P(AN A) = P(A), a nie P(ANA) = P(A)P(A), gdyż zdarze-

nie A nie jest niezależne statystycznie od siebie, co wynika ze związku P(A|A) = 1, a ponadto obowiązuje ANA=A.

Z prawa (2.9) otrzymujemy, że prawdopodobieństwo P(*'%Po) wynosi

PCĆ"Po) = P(Pb N (Bi > Po))+P(At M [(At-> Rn) U ((At > Bi) M (Bi > Po)))) — P(PbN (Bi

Po) N At N[(At> Rn) U ((At > Bi) N (Bi > Po))]).

Prawdopodobieństwo skomplikowanego zdarzenia Pb N (Bi >

Po) N AtN[(At >

Rn) U((At >

Bi) N (Bi +

Po))]

jest, w istocie, równe zeru, gdyż zdarzenie to ma postać PbNAtN(. --) i jego elementem jest koniunkcja PbNAŁ, która jest zdarzeniem niemożliwym: polon nie może się rozpaść

jednocześnie na ołów i na astat. A ponieważ ON(. - -) = ,, więc upraszcza to nieco nasz problem. Z niezależności statystycznej zdarzeń Pb oraz (Bi — Po) otrzymujemy

P(PbN (Bi > W zdarzeniu (At >

Po)) = P(Pb)P(Bi

Rn) U ((At >

Bi) N (Bi >

ności dodawania względem mnożenia: (At >

Rn) U((At >

Bi) N (Bi > = ((Af >

Ponieważ zdarzenie (At >

>

Po) = qyp3.

Po)) wykorzystamy prawo rozdziel-

Po)) Rn) U(At

Rn) U (At +

>

Bi)) N ((At >

Rn) U (Bi +

Po)).

Bi) jest zdarzeniem pewnym — astat może

się rozpaść tylko na radon lub na bizmut — więc (A! > Rn) U((At > Bi)

(Bi + Po)) = (At > Rn) U (Bi + Po),

(2.33)

a to prowadzi do At NO ((At > Rn) U((At + Bi) N (Bi + Po))) = At N((At > Rn) U (Bi + Po)). Tu ponownie zastosujemy prawo rozdzielności: At N((At > Rn) U (Bi + Po)) = (At

(At > Rn)) U(At N (Bi > Po)),

aby w końcu przejść do prawdopodobieństwa P(At NO [(At > Rn) U ((At > Bi) N (Bi > Po)))]) = P((At (At > Rn)) U(At M (Bi > Po))) = P(AtN (At > Rn)) + P(At N (Bi

Po)) — P(At£N (At > Rn) N (Bi + Po))

= P1P2 + P1P3 — P1P2P3 = PipP3 + P1P293.

2.8. Twierdzenie Bayesa Po uzupełnieniu tego rezultatu o prawdopodobieństwo otrzymujemy

zdarzenia

Pb i (Bi

107 +

Po),

P("'Po) = q1P3 + P1P3 + P1P243 = P3 + P1P243-

Słuszność tego wzoru możemy łatwo zweryfikować, jeśli uświadomimy sobie, że do

izotopu polonu *!'*Po dotrze wszystko, co nie „ucieknie” nam do izotopu talu *'*T1. Ten ostatni uzyskamy w ułamku q3 ze wszystkiego, co dotrze do izotopu bizmutu **Bi, a do bizmutu dotrze ułamek q; pierwotnej liczby jąder izotopu polonu *'*Po, które rozpadną

się na ołów *'*Pb oraz ułamek q» tych, które rozpadną się na izotop * "At. Razem daje to nam: P(*Po) = 1 — gz(q, + pig»), Co jest równoważnym rezultatem. Wynik tej wprawki w zakresie elementarnych metod rachunku prawdopodobieństwa

wykorzystamy do rozwiązania problemu, do którego potrzebujemy znajomości prawdo-

podobieństwa uzyskania astatu, które odczytujemy bezpośrednio z rysunku: P(7"At) = p, oraz prawdopodobieństwa P (?Po | SAt) uzyskania *'*Po pod warunkiem, że prze-

chodzimy przez astat. Ta ostatnia wielkość dana jest sumą prawdopodobieństw na nieza-

leżnych drogach przez radon i przez bizmut: P (**Po | "SAt) = p + qap3. Wynik ten łatwo odtwarzamy, obliczając prawdopodobieństwo zdarzenia (2.33). Jakie jest jednak

prawdopodobieństwo P (?8At | 7*Po) przejścia przez izotop **At, jeśli mamy już izotop

214Po? W podrozdziale 2.3 pokazaliśmy, że prawdopodobieństwa warunkowe spełniają

równość (2.16)

P(A|B)P(B) = P(A)P(B|A),

skąd znajdujemy, że P

("At

| *4Po)



P (At) P ("Po | *"At) _ py(pz + qap3)

P (214Po)

ps + PiPaq3

W przykładzie tym mamy elementarne zastosowanie w najprostszej postaci tzw. twier-

dzenia Bayesa, które teraz zaprezentujemy w ogólnej formie. Przepiszmy równanie łączące prawdopodobieństwa warunkowe w postaci

P(A|B)P(B

P(BIA) = PAIB)E (8) P(A)

(2.34)

i przypomnijmy oczywiste wyrażenie na prawdopodobieństwo P (A) z podrozdziału 2.3: P(A) =P(AN

QQ).

Rozłóżmy zbiór 62 na wykluczające się podzbiory B; (zdarzenie B w (2.34) to po prostu

jedno ze zdarzeń B;)

K9,

=

U

B;,

które mogą warunkować zdarzenie A. Daje to, po wykorzystaniu (2.11), wyrażenie na tzw. formułę pełnego prawdopodobieństwa dla P(A):

P(A) =P (. n (U 3)

=P (U AN »

=). P(A 0 B,) = >. P(A|B,)P(B,).

108

2. Prawdopodobieństwo i jego rozkład

Zastosowanie formuły pełnego prawdopodobieństwa widzieliśmy wcześniej, w przy-

kładzie 2.3.1, a cały podrozdział 2.7 jest oparty na wersji ciągłej tego prawidła.

Formuła na pełne prawdopodobieństwo pozwala zapisać związek (2.34) w formie określanej także mianem twierdzenia Bayesa P(B,|A) =

P(A|B,)P(B,) _ _ P(A|B,)P(B,) P(A) XP(AIB,)P(B,)'

(2.35)

J

gdzie w miejsce dowolnego zdarzenia B wstawiliśmy jedno ze zdarzeń B, (oczywiście niektóre ze zdarzeń B, mogą nie mieć wpływu na zdarzenie A lub nawet je wykluczać). Interpretacja tego twierdzenia jest następująca. Przypuśćmy, że zdarzenie A może

wystąpić pod warunkiem pojawienia się pewnej liczby wzajemnie wykluczających się zdarzeń B,. Każde z tych zdarzeń ma określone prawdopodobieństwo a priori P(B;).

Każde z nich może przyczynić się do wystąpienia zdarzenia A z prawdopodobieństwem

P(A|B;). Twierdzenie Bayesa pozwala „odwrócić” prawdopodobieństwa P(A|B;) i daje

nam warunkowe prawdopodobieństwa a posteriori P (B,|A) rozmaitych zdarzeń B;, gdy wiadomo, że zdarzenie A nastąpiło.

-——

Przykład 2.8.1 Twierdzenie Bayesa — licznik Czerenkowa Rozważmy (za G. D'Agostini, Bayesian Reasoning in HEP — Principles and Applications, CERN Report 99-03) detektor cząstek, np. licznik Czerenkowa, ustawiony

na wiązce składającej się z protonów i pionów, używany do wyzwalania (trygero-

wania) eksperymentu, w którym interesujące oddziaływania to te wywołane przez proton. Niech detektor ten ma efektywność detekcji protonu 95%, co oznacza, że prawdopodobieństwo zainicjowania zbierania danych (trygera T) przez proton wynosi P(T|p) = 0,95. Niech prawdopodobieństwo mylnego zidentyfikowania

pionu jako protonu, a tym samym prawdopodobieństwo uzyskania trygera wynosi: P(T|ax) = 0,02. Wiedząc, że wiązka składa się w 90% z pionów i 10% z protonów, obliczyć prawdopodobieństwo, że tryger zostanie faktycznie spowodowany przez proton Jeśli skorzystamy z twierdzenia Bayesa w formie (2.35), to prawdo-

podobieństwo pojawienia się trygera spowodowanego przez proton dane jest przez

P(T|p)P(p) P(p|T) = P(T|p)P(p ) + P(Tln)P(n)

0,95 - 0,1 0,95-0,1 +0,02-0,9 = 0,84.

Podobnie, prawdopodobieństwo uzyskania trygera w wyniku przejścia pionu wynosi

P(x|T) =

P(T|nx)P

U lm)E (r)

P(T|p)P(p) + P(T|x)P(Gr)

= 0,16.

2.8. Twierdzenie Bayesa

109

Znajdziemy także stosunek liczby prawdziwych trygerów do fałszywych, czyli stosunek sygnału do tła:

P(piD) _ PA|p) PD) 2

P(x|T)

P(Tln)P(n)

Wynik ten odzwierciedla znaną regułę pomiarową: w trudnych warunkach eksperyment musi być bardzo sełektywny. Ponieważ zanieczyszczenie wiązki jest duże — tylko co dziesiąta cząstka wiązki nas interesuje — musimy silnie dyskryminować szum, abyśmy w nim nie „utonęli”.

TI

Związek (2.35) powszechnie przypisywany jest anglikańskiemu pastorowi T. Bayesowi i kojarzony jest z jego pracą wydaną (pośmiertnie) w 1763 r., mimo że on nigdy tego twierdzenia nie napisał. Jako wniosek z (2.34) znany on już był wcześniej J. Bernoulliemu i A. de Moivre, ale P. $. de Laplace pierwszy dostrzegł jego ogólny charakter i potencjał możliwych zastosowań. Przypisanie rezultatu Bayesowi wynika z pewnego przyczynku, jaki ma on na swym o czym szerzej traktuje rozdział 9.

koncie w związku

z zastosowaniem

tej równości,

Postać twierdzenia Bayesa dla ciągłych zmiennych losowych x oraz y zapisujemy

jako

fFOlx) =

g(x|y)h(y)

|

J galy)h() dy Granice całkowania są zaznaczone symbolicznie i powinny uwzględniać zakres zmiennej losowej y, a także własności gęstości warunkowej g(x | y).

KONIECZNOŚĆ

Konieczność to taki sposób istnienia rzeczy, że nie mogą one istnieć inaczej.

|

Rozdział3

Parametry zmiennej losowej

Ze zmienną losową związane są pewne wielkości, zwane parametrami opisowymi

tej

zmiennej, odgrywające niezwykle ważną rolę w statystyce matematycznej. Parametrami zmiennej są momenty oraz tzw. parametry pozycyjne. Są to wielkości, które w zwięzły 1 uproszczony sposób opisują charakter zmiennej.

—-

3.1. Wartość oczekiwana

Rozpoczniemy

od definicji pojęcia wartości oczekiwanej. Jeśli h(k) jest losową funk-

cją dyskretnej zmiennej losowej k o rozkładzie prawdopodobieństwa P;, to wartością oczekiwaną funkcji h(k) nazywamy wielkość (patrz także komentarz po wzorze (3.3)):

€ [h(k)] = (h(k)) = ) h(k)PŹ,

(3.1)

k

gdzie sumowanie przebiega po całym zakresie zmiennej losowej.

-—

Przykład 3.1.1 Wartość oczekiwana — bankier Przypuśćmy,

że gramy

z drugą osobą, bankierem,

w następującą grę: rzucamy

rzetelną kostką sześcienną do gier planszowych 1 jeśli wypadnie parzysta liczba oczek, bankier płaci nam sumę złotych, jaką pokazuje liczba oczek na kostce. Jeśli wypadnie liczba nieparzysta, my płacimy bankierowi sumę złotych wskaza-

nych przez kostkę. Lepiej być bankierem, czy rzucającym kostką? Typowo raz na 6 rzutów zapłacimy bankierowi złotówkę lub 3 złote lub 5 złotych. Podobnie, raz na 6 rzutów dostaniemy 2 złote lub 4 złote lub 6 złotych. Typowo, po sześciu rzutach, rezultat netto takiej zabawy wynosi: 2+4+6—1—3—5 = 3 złote.

Tak więc w pojedynczym rzucie oczekujemy typowo wygranej 0,5 zł. Zauważmy, że to, czego tu dokonaliśmy, to znałezienie wartości oczekiwanej

(m) zmiennej

losowej m = (—1)kk, gdzie k jest zmienną losową o rozkładzie P, = 1/6 6

6

1

1

(m) = ) (-1)'kP, = ) —D'kz = ;(-1+2-3+4-5+6=0,5. Wartość oczekiwana odgrywa rolę stawki, jaką powinniśmy zapłacić bankierowi za przyjemność każdego rzutu kostką, jeśli zabawa ma być uczciwa. n

112

3. Parametry zmiennej losowej

Dla losowej funkcji h(X) ciągłej zmiennej losowej x, podlegającej rozkładowi f(x), wartością oczekiwaną funkcji h(x) nazywamy wielkość +00

€ [hQO] = (h(X)) = J h(x) f(x)dx,

(3.2)

gdzie przez nieskończone granice całkowania umownie zaznaczyliśmy cały zakres zmienności zmiennej losowej x. Przy obu definicjach, (3.1) oraz (3.2), powinniśmy dodać zastrzeżenie: o ile odpowiednia suma bądź całka istnieje. Zastrzeżenie to nie jest bez znaczenia, jako że w dalszej części wykładu poznamy rozkład (podrozdział 5.9), dla którego wartość oczekiwana nie istnieje. Jak zaznaczyliśmy, obok symbolu € [. : -] stosowany jest również symbol (: : -).

——

Przykład 3.1.2 Wartość oczekiwana — rozkład Maxwella Jako przykład znajdziemy wartość oczekiwaną energii kinetycznej

l

EA =

7”

(vż +v,

+ v>)

cząsteczki gazu doskonałego, w którym prędkości opisane są rozkładem Maxwella (przykład 2.5.3)

r

Ux,

v,)

z

Vy,

=

(= ki1 my ) a

MonkT/

PA

(-

-

2kT

(U; + v;v; + u:))



00

k+1l

(k) = ) „klogy k=1

ko


n=4, 0

0

a stąd

d(x) =5(1— x)”,

oraz

4

0 SI cov [x x; | s

— i,j=l

0x; I

X;J

(3.20)

Jeśli, dodatkowo, zmienne losowe nie są skorelowane (macierz V [x] jest diagonalna), to

w (3.20) pojawia się dalsze uproszczenie: h

3

WUEDS (37) i=1

0X;

2

vba].

(3.21)

Zauważmy, że dla funkcji f zadanej kombinacją liniową zmiennych x, wyrażenia (3.18) oraz (3.19) sprowadzają się do Ścisłych wyników (3.16) oraz (3.17).

132 -—-

3. Parametry zmiennej losowej

Przykład 3.4.2 Efektywność detektora Właściwym miejscem dla tego przykładu jest podrozdział 5.4, gdyż za chwilę wykorzystamy jedną z własności rozkładu Poissona, jednakże wzgląd dydaktyczny skłania nas do zaprezentowania go w tym miejscu. Otóż, rozważmy wariancję (3.19) szacunkowej liczby N (wzór (2.18))

=

(3.22)

cząstek użytych do wyznaczenia efektywności detektorów. Typowy błąd metodologiczny, jaki popełniany jest w takiej sytuacji, polega na potraktowaniu zmiennych losowych Ny, Ng i Nc jako statystycznie niezależnych i odwołaniu się do związku (3.21). Poprawny wynik uzyskamy, jeśli zauważymy, że do wielkości N, i Ng wnosi

wkład wielkość Ne, co indukuje korelacje nie tylko między N4 oraz Ne i Ng oraz N., ale także między N4 i Ng, a to wymaga zastosowania związku (3.20).

Od komplikacji związanej z istnieniem tych korelacji możemy się uwolnić, jeśli wielkość Na wyrazimy przez zmienną ną, określającą liczbę cząstek zareje-

strowanych tylko przez licznik A i zmienną Nec: NĄ = ną + Ne. Podobnie, dla

zmiennej Ng otrzymujemy Np = ng + Ne, gdzie ng jest zmienną losową, zadającą liczbę cząstek zarejestrowanych tylko przez licznik B. Przy takim wyborze nowych zmiennych losowych szacowana liczba N wynosi _ (na + Nc)(tg + N£) N N = i wyrażona jest przez wielkości statystycznie niezależne. Związek (3.18) prowadzi nas do rezultatu (3.22) na szacowaną liczbę cząstek, natomiast z (3.21) otrzymu-

jemy

NY?

Y[N] = (3) —N

(-

N

Vv [na] + (2) — Pa)

— PB)

YZ

+ )

3N

Y[nzżl + (c)



YT[NCJ

|

PAPB

gdzie za wariancje zmiennych losowych ną, ng i Nc podstawiliśmy wartości ocze-

kiwane ny, ng 1 Ne, O czym poucza nas podrozdział 5.4. Zwróćmy uwagę na to, że

wariancja ) [N] jest proporcjonalna do oczekiwanej liczby N przypadków. Natural-

nie w realnym eksperymencie za wielkości N4, Ng, Nc, N, pa 1 pB podstawiamy

oszacowane wartości.

|

Podobne rozumowanie prowadzi nas do wariancji efektywności p, = Nc/NB: Y [pa] = pa

| —

Pa)

która jest tym mniejsza, im większej liczby przypadków użyjemy w eksperymencie.

Analogiczny związek dla efektywności licznika B znajdziemy zamieniając indeksy. Pełne zrozumienie tych wyników działów 5.2 i 5.4.

Czytelnik uzyska po przeczytaniu podroz7

3.4. Momenty funkcji zmiennych łosowych

133

Istnieje interesujące rozszerzenie procedury wyznaczania przybliżonych momentów funkcji zmiennych losowych. Przy jej prezentacji ograniczymy się do jednej funkcji

f(x) jednej zmiennej x. Polega ona na rozwinięciu tej funkcji w szereg Taylora wokół

wartości oczekiwanej u zmiennej x do wyrazów kwadratowych:

0 = fW+

2

qq s X—

1) F> q3 s (C=

HL).

Jeśli obliczymy wartość oczekiwaną funkcji f(x), to otrzymamy

(00)

£=

FM)+

df



5 (K— 1) —

l df

+5>

5

l



>

u?)

=—

FU)+

l df

———| > 3

YI, Sa

(3.23) a więc dodatkową poprawkę do wartości funkcji w punkcie oczekiwanej wartości zmiennej losowej x. Żeby być konsekwentnym, do obliczenia wariancji wielkości mierzonej pośrednio musimy użyć trzeciego i czwartego momentu centralnego. Jeżeli przez f, f'

oraz f” oznaczymy wartość funkcji, jej pierwszej i drugiej pochodnej w punkcie x = m,

to znajdziemy, że następujące wyrażenie opisuje wariancję zmiennej losowej f:

1

1

Y1=(f- ()) 2 ( (Fo - U) + zf”(x— 1)? — U l = [VB + g67 (6-0) z7l — f7V

l

[x] + gf V

a

+

|

PM FP (= W)

[x] (7 + 2) + ff'D

[x] Y1:

Po ostatnim znaku równości skorzystaliśmy z definicji (3.10) i (3.11) współczynników

asymetrii y, 1 spłaszczenia ». Jeśli rozkład zmiennej losowej x jest symetryczny, to współczynnik asymetrii y; jest równy zeru i wyrażenie to upraszcza się do postaci VI] =/VBI]

1

+ j/7V

[x] (72 + 2),

natomiast gdy mamy do czynienia z rozkładem gaussowskim dla zmiennej x, wtedy, jak to znajdziemy w podrozdziale 5.5.2, związek (5.71), mamy dodatkową relację:

(«= 1)”) =3V*pq, prowadzącą do znikania współczynnika spłaszczenia )», co też ostatecznie daje nam |

VI] = f7VDJ + > FV BA.

(3.24)

Wynik ten może być przydatny wtedy, gdy aproksymacja liniowa dla funkcji f nie jest wystarczająca, a tym samym model małych błędów pomiarowych jest nieadekwatny, na przykład w okolicy ekstremum tej funkcji. W takiej sytuacji wyrażenie (3.21) reprezentowane we wzorze (3.24) przez pierwszy składnik zwraca dla wariancji wielkości złożonej wartość bliską zera (lub dokładnie zero, jeśli pomiar wypadł w punkcie eks-

tremalnym). Stosownej poprawki dostarcza wtedy wyraz zależny od drugiej pochodnej funkcji f.

134

3. Parametry zmiennej losowej

--—- Przykład 3.4.3 Wariancja w ekstremum Chcemy znałeźć dyspersję wartości przekroju czynnego Breita—Wignera pĄŻ o(E)

(3) ryż

= 00

(z) ——

(EK) —

opisanego

wyrażeniem

2

w maksimum, tzn. dla wartości energii równej wartości parametru „w. Obliczamy

pierwszą pochodną, która w punkcie E = „ wynosi zero, oraz drugą pochodną: do dE?

E=u

co pozwala nam, po podstawieniu do (3.24), wyprowadzić wyrażenie na dyspersję

1

[o(E = n)] 2=—— ||f

D[o(E =

44/20,

z

Y[E] =

VIET,

a także, z (3.23), wartość mierzonego przekroju czynnego o(E=n)żo która jest nieco mniejsza Możemy łatwo zrozumieć jest rozmyta, to faktycznie czynnego, lecz przekroju z rozkładem tejże energii.

(! —

7)

,

(3.25)

niż wartość wyrażenia Breita-Wignera w maksimum. ten wynik, jeśli zauważymy, że skoro wartość energii nasz pomiar nie jest pomiarem bezpośrednio przekroju czynnego splecionego, według reguł podrozdziału 2.7, Wskazaliśmy tam, że splatanie to łagodzi zachowanie

randomizowanej wielkości i powoduje obniżenie wartości w maksimum, czego właśnie jesteśmy Świadkami. Jeśli za model funkcji zdolności rozdzielczej eksperymentu przyjmiemy rozkład Gaussa, jak to uczyniliśmy w przykładzie 2.7.3,

to w granicy małych, w porównaniu z parametrem

/', wartości dyspersji tego

rozkładu dokładnie odtworzymy wynik (3.25).

7

—- 3.5. Krzywe regresji Powróćmy do definicji (2.29) rozkładów warunkowych: f,(y|x) oraz f,(x|y), podanych

w podrozdziale 2.7. Obliczymy teraz warunkową wartość oczekiwaną € [y|x] zmiennej

losowej y (patrz przykład 3.2.1):

OO

ebals40= o | yFObody= |o

|

OO

f(x)

Ray

(3.26)

oraz warunkową wartość oczekiwaną € [x|y] zmiennej losowej x Efdy]=m0)=

J xf(x|y)dx= | —00

—00

x

CY

dx,

(3.27)

3.5. Krzywe regresji

135

gdzie obydwie wartości oczekiwane j« oznaczyliśmy jako zależne od drugiej zmiennej,

jako że otrzymujemy pewną funkcję j4, argumentu x oraz „4, argumentu y. Otrzymane

zależności noszą nazwę krzywych regresji pierwszego typu zmiennej losowej x względem y dla u,(y) lub zmiennej y względem x dla uy(x). W ogólności, obie krzywe nie

pokrywają się na płaszczyźnie (x, y). Zauważmy, że nietrywialne wyrażenia uzyskujemy jedynie dla przypadku zależnych statystycznie zmiennych losowych, gdyż w przeciwnym razie, z uwagi na faktoryzację funkcji gęstości, wartości oczekiwane stają się stałymi niezależnymi od wartości drugiej zmiennej. Interesującą cechą krzywych regresji jest to, iż spełniają one następujące równania wariacyjne: 00 00

[eu] -| J G — WÓYYŻfG,y) dxdy= min(u,(7)) —00

—00

na nieznaną funkcję u,(y) oraz analogiczne wyrażenie na nieznaną funkcję Ly(X):

e[0-460)7]= | | 0-4607f0.))dxdy = minu, (w). przy zadanej funkcji rozkładu f(x, y), czego tu nie będziemy dowodzili. Na zakończenie wspomnimy o krzywych regresji drugiego typu. Mamy z nimi do

czynienia, gdy poszukujemy zadanej krzywej y = h(x;a,b,...) zależnej od nieznanych parametrów a, b,..., wymagając spełnienia warunku

J J (y — hlx;a,b,...))* f(x, y) dxdy = min(a,b,.. .)

(3.28)

ze względu na nieznane parametry. Podejście takie zwane jest metodą najmniejszych kwadratów. —-

Przykład 3.5.1

Linia prosta regresji drugiego typu Jako przykład rozważmy krzywą regresji drugiego typu w postaci linii prostej: h(x; a, b) =ax +b.

Po podstawieniu do funkcjonału minimalizującego (3.28) otrzymujemy

£E[v-ax-b)]=E|(Y-1) - au)+ my — au, — b) | 2

— 0y + a*o2 — 2acov [x,y] + (Hy — aux — b)” = oy + a*0j — 2a0x0yp + (Hy — any — b)” = min(a, b).

136

3. Parametry zmiennej losowej

Stosujemy, wykonując różniczkowanie, mum względem a oraz b:

0

zyk 0

35

standardowe metody poszukiwania mini-

[(y — ax — b)” | = 2a0; — 2Gx0yP — ŻLx(Hy — ai, — b) =0,

[vy — ax

b)”] = —2(u, — au, — b) =0.

Rozwiązanie tego układu daje o

a =p—, Ox

b = Hy

o

— a Ax = Hy — p— Hy, Ox

a stąd otrzymujemy poszukiwaną prostą regresji drugiego typu zmiennej y względem zmiennej x: Qy

Y —Hy=p—(x — A). Ox

Podobnie, możemy zmiennej y

znaleźć prostą regresji drugiego typu zmiennej

x względem

h(y; a, b) = ay +b,

która przyjmuje postać dx

X — Ux = P—(Y — Ly) dy

lub też Y) —Hy

=

o

——(

— Ly).

p ox Jak widzimy, obie proste regresji są identyczne tylko wtedy, gdy współczynnik korelacji p jest jednostkowy, czyli wtedy gdy, jak to pokazaliśmy w podrozdziale 3.3

(wyrażenie (3.15)), istnieje funkcyjna, matematyczna zależność o liniowym cha-

rakterze między zmiennymi.

r

-—— 3.6. Parametry pozycyjne Na zakończenie tego rozdziału wspomnimy o parametrach pozycyjnych zmiennej losowej, czyli wartościach szczególnych tej zmiennej. Najprostsza z nich, tzw. moda, zwana

także dominantą, to po prostu wartość najbardziej prawdopodobna, czyli taka wartość zmiennej losowej x, przy której funkcja gęstości bądź rozkład prawdopodobieństwa przyjmuje wartość maksymalną.

Naturalnie nic nie stoi na przeszkodzie, aby rozkład

miał kilka maksimów i w związku z tym kilka wartości lokalnie najbardziej prawdopodobnych.

Oprócz wartości najbardziej prawdopodobnych

zmiennych losowych napotykamy

często wielkości zwane kwantyłami. Kwantylem rzędu p zmiennej losowej x o dystry-

3.6. Parametry pozycyjne

Ff)

A

137

moda |

mediana

I

| | | wartość oczekiwana I

SI

ME tj oo|

Rys. 3.5. Relacja między modą, medianą a wartością ocze-

kiwaną

buancie F (x) nazywamy

|1

OLI

I

1] l

x

>

taką wartość x„, dla której spełniona jest równość

F(xp) = p.

(3.29)

Tym samym poniżej wartości x, zgromadzony jest ułamek p prawdopodobieństwa.

Punkt, który dzieli prawdopodobieństwo na połowę, czyli kwantyl rzędu 0,5, nazywamy medianą. Typową relację między modą, medianą a wartością oczekiwaną, dla

rozkładu asymetrycznego ze współczynnikiem asymetrii większym od zera, prezentuje rys. 3.5. Gdy skośność zmiennej jest przeciwna, relacje między parametrami ulegają odwróceniu. Dla rozkładu symetrycznego moda, mediana i wartość oczekiwana są Sobie równe. Kwantyle odznaczające 25% i 75% prawdopodobieństwa zwane są dolnym i górnym kwartylem. Obok wielkości, określających typową wartość zmiennej losowej, mamy również parametry pozycyjne opisujące rozrzut tej zmiennej. Najczęściej używany jest tzw. odstęp międzykwartylowy, zwany też ćwiartkowym, czyli różnica między górnym i dolnym kwartylem.

NIEZDECYDOWANIE CH SZ Ż ŻA

o ŻA) o c

ECYA

M1

DALA





Jk

A

A A i

LĄ NI

=

Czarna chusta wokó ł głowy oznacza omroczenie

i zamieszanie umysłu od natłoku my. Śli, które wtrącają go w niezdecydowanie.

Rozdział 4.

Momenty i statystyki pozycyjne z próby

W dotychczasowych rozważaniach rozdziału 2 oraz 3 przyjmowaliśmy, że rozkłady roz-

ważanych zmiennych losowych są nam znane. Takie podejście jest właściwe dla teorii prawdopodobieństwa, kiedy to podążamy metodą dedukcyjną od ogółu do szczegółu. Przy wykonywaniu pomiarów natomiast rozkład prawdopodobieństwa leżący u podstaw

badanej cechy nie jest nam z reguły znany, a celem analizy, w krańcowym przypadku, jest właśnie uzyskanie jego postaci. Zadaniem statystyki matematycznej jest wypraco-

wanie metod osiągnięcia tego celu. Najczęściej

zadowalamy

się (bądź musimy

się zadowolić) pewnymi

częściowymi

informacjami o rozkładzie. Informacje te wydobywamy z próbki i aby były one wiarygodne, próbka nasza musi być losowa. Nie będziemy tu ściśle definiować znaczenia tego słowa, gdyż jego definicja w sensie operacyjnym prawdopodobnie nie istnieje, odwołamy się jedynie do często, zwłaszcza w prasie, używanego synonimu, jakim jest próbka

reprezentatywna i do intuicyjnego zrozumienia tego terminu, który podpowiada nam, że próbka taka jest zminiaturyzowaną formą całej populacji, odzwierciedlającą wszelkie

cechy i relacje, jakie w niej występują. Rozważmy taki przykład. Przypuśćmy, że usiłu-

jemy zmierzyć typowy czas życia cząstki bądź jądra, która porusza się, przyjmijmy dla uproszczenia, z zadaną prędkością. Długość odcinka przebywanego przez badany obiekt przed rozpadem możemy przeliczyć na czas życia. Jeśli zbiór naszych przypadków ma

być reprezentatywny, musimy umieć zmierzyć każdą długość, nawet tę bardzo dużą, co

zakłada nieograniczoną objętość detektora. Tak więc w praktyce zawsze nasza próbka będzie miała w sobie niedomiar przypadków o dużych czasach życia. W takich sytuacjach

mówimy, że próbka jest obciążona. Próbki obciążone to raczej „chleb powszedni” fi-

zyki cząstek i jądra atomowego. Detektory, którymi obudowujemy punkt oddziaływania, nie pokrywają pełnego kąta bryłowego, ich wydajność zależy od liczby przechodzących

przez niego cząstek i parametrów geometrycznych torów, zakres dynamiczny układów elektronicznych jest skończony i niekoniecznie liniowy, metody trygerowania ekspery-

mentu mają swoje ograniczenia — wszystko to prowadzi do gubienia pewnych klas przypadków. Straty te musimy później wykryć i uwzględnić, dobierając odpowiednie metody analizy danych. I jeszcze jeden termin. Próbę nazywamy prostą, gdy wszystkie występujące w niej zmienne losowe są niezależne. Można wyobrazić sobie schematy losowania, w któ-

140

4. Momenty i statystyki pozycyjne z próby

rych prawdopodobieństwo wyboru następnego elementu załeży od wyników uzyskanych wcześniej. Przykładem takiego postępowania jest losowanie, ze skończonego zbioru, elementu, który następnie nie jest zwracany do populacji, co powoduje, że jej własności ulegają zmianie w trakcie pobierania próby. O takich metodach uzyskiwania próby mówimy, że są to schematy losowania zależnego, a uzyskana próba nie jest już wtedy

prosta.

Próbki złożone (nie proste) to raczej rzadkość w fizyce. W typowym eksperymencie analizujemy kolejne przypadki, jakich dostarcza nam akcelerator, źródło lub promienio-

wanie kosmiczne i taki bądź inny charakter jednego przypadku nie ma wpływu na to, co zaobserwujemy w następnym. Nie jest to jednak prawda w odniesieniu do różnego

rodzaju procesów kaskadowych, kiedy to specyficzny przebieg takiego procesu w jednej fazie może istotnie zdeterminować jego charakter w następnych etapach. O ile nie powiemy tego wyraźnie, całość naszych rozważań będzie odnosiła się do prób losowych prostych. Najprostszą informacją o badanej zmiennej, jaką możemy uzyskać z próbki, jest informacja o jej momentach.

—- 4.1. Wartość Średnia — prawo wielkich liczb Zarówno dla dyskretnej, jak i dla ciągłej zmiennej losowej x o wartościach x, w próbce losowej o liczebności n, uzyskanej z tego samego rozkładu charakteryzującego Się Wwar-

tością oczekiwaną (x) = pm, definiujemy średnią arytmetyczną x jako

xX



l

R



2,7

(4.1) 4.1

i

I oczekujemy od niej, że jest miarą wielkości, której dotyczy pomiar. Dlaczego? Przyj-

rzyjmy się sytuacji ze zmienną dyskretną. Bez zmniejszenia ogólności możemy przyjąć,

że zmienna ta przyjmuje wartości od jedności do nieskończoności. Wszystkie wartości x, z próby możemy uporządkować w niemalejący ciąg, który może przykładowo wyglądać w sposób następujący: 1, 1, 1, 2, 2, 3, 3, 3, 3, 4, 5, 5,... , a następnie pogrupować,

uzyskując krotności n,: n;, = 3, m = 2, nz =4,ną4 =l,... wystąpienia zmiennej k=1,2,3,4, ... Po takim przekształceniu danych wartość średnią możemy zapisać w innej, równoważnej formie

1 1=-1+1+1+2+2+3+3+3+3+4+:-)) 1

l

n

= — (ny + 2m + 3nz + 4n4 +*--) = — | kny =) k— =) kF, n H tI k=l o kal gdzie wprowadziliśmy eksperymentalne częstości F, występowania zmiennych losowych,

a sumowanie przebiega do maksymalnej wartości w próbce. Teraz już widzimy, że przy

zwiększaniu liczebności próbki częstości doświadczalne dążą, na mocy propozycji (2.1),

4.1. Wartość średnia — prawo wielkich liczb

141

do prawdopodobieństw P,, a ostatnia suma dąży do wartości oczekiwanej (3.3): =)

kF,

noo

) KP

=

u

kal Przypatrzmy się teraz, jak ta konstrukcja działa w odniesieniu do zmiennej losowej ciągłej. W tym przypadku nie mamy z góry narzuconych wartości, których krotność moglibyśmy

zliczać. Możemy jednak pogrupować

nych przedziałach

zmiennej:

[xq); xQ)),

dane x; w N arbitralnych, rozłącz-

[X0:xG)+.-.

» LXW); XN+1v), których długość

przyjmiemy, dla uproszczenia, stałą i równą A, a następnie znaleźć liczby nz określające, ile danych trafiło do k-tego przedziału. Wartość Średnią możenoy wtedy zapisać jako N

Xx = dE

= DELE

i=l

) sj

4 =

Z

k=l

gdzie xy. opisuje wybrany punkt z przedziału, np. jego Środek. Zwróćmy uwagę na wprowadzoną gęstość (2.4) doświadczalną f4. Jeśli będziemy zwiększali liczbę n danych doświadczalnych, to tak jak dyskutowaliśmy to w podrozdziale 2.1 przy wprowadzaniu pojęcia gęstości prawdopodobieństwa, będziemy mogli zawężać szerokość przedziału A,

a nasze przybliżenie będzie będzie dążyła, jak w (2.5), nas, że w takim przypadku, zbiega do definicji wartości l

n

coraz to bardziej dokładne, natomiast gęstość empiryczna do funkcji f(x) rozkładu. Analiza matematyczna poucza w granicznej sytuacji nieskończonej próbki, nasza formuła oczekiwanej (3.3): N

%

X = —n 2 Xx; = > x [k] fk A

— 20

J xf J (x) (x)dx = iL

Mamy także drugą relację, wskazującą na Ścisły związek między wartością średnią a oczekiwaną. Jeśli uświadomimy sobie fakt, że w kolejnych replikach tego samego

eksperymentu będziemy otrzymywali różne wartości średniej, a więc średnia traktowana

jako zależna od zmiennych losowych sama jest zmienną losową albo jeszcze lepiej: statystyką — czyli funkcją zmiennych losowych —

co stanowi definicję tego pojęcia,

to możemy zastanowić się nad wartością oczekiwaną tej statystyki: _

=(,2,%)5,2,%0=,2,00=,2,/=« l

n

i=l

14

l

e€)

0x

n

przy czym równość zachodzi dla o, = O, a więc i ten estymator jest gorszy od estymatora danego średnią.

Teraz wróćmy do wielkości (SX):

(S;) =V[x] — Lytz] = A LY[x]. n n Widać, że wybrana przez nas „próbna” vY[x], a jedynie dąży do niego dla n asymptotycznie nieobciążone.

statystyka (4.5) nie spełnia warunku (S>) = oo. O takich estymatorach mówimy, że są

Jeśli na estymator kwadratu odchylenia standardowego

(błędu pojedynczego po-

miaru) wybierzemy wyrażenie

s; = o 2,6—%), i=|

(4.7)

to jego wartość oczekiwana będzie równa pożądanej wariancji zmiennej losowej x. Poprawka wynikająca z dzielenia przez n — 1 zamiast przez n zwana jest poprawką Bessela.

r-—

Przykład 4.2.2 Błąd nowicjusza Autor był kiedyś świadkiem prezentacji wykresu, którego główne cechy odtwo-

rzone są schematycznie na rys. 4.2. Przedstawia on serię dwudziestu kolejnych

i niezależnych pomiarów tej samej wielkości fizycznej. Numer pomiaru znajduje

się na osi odciętych, a wartości odpowiada rzut punktu na oś rzędnych. Błąd każdego indywidualnego pomiaru reprezentowany jest przez połowę pionowego odcinka. Wykres ten jest wart krótkiego omówienia, gdyż z punktu widzenia staty-

styki matematycznej jest on wewnętrznie sprzeczny. Indywidualne punkty pomiarowe charakteryzują się pewnym rozrzutem wokół wartości średniej. Rozrzut ten, w sensie błędu pojedynczego pomiaru, wynosi około jednej jednostki i jest zdecydowanie mniejszy niż zaznaczone przez wykonawcę ramiona” błędu, które można

ocenić na około cztery jednostki. Druga, ekstremalna ewentualność ukazana jest

" 4. Momenty i statystyki pozycyjne z próby

14

T

12

I

wynik pomiaru

16

T

18

10

0

J

0

2

i

l

l

l

l

l

I

l

J

4

6

8

10

12

14

16

18

20

numer pomiaru Rys. 4.2. Przykład niespójnych wyników pomiarowych: błąd indywidualnego rezultatu jest istotnie większy niż rozrzut miedzy wynikami kolejnych pomiarów

20p

15 |

|

wynik pomiaru

148

l

0

2

4

6

8

l

10

l

12

.

14

l

16

l

18

20

numer pomiaru

Rys. 4.3. Przykład niespójnych wyników pomiarowych: błąd indywidualnego rezultatu jest istotnie mniejszy niż rozrzut między wynikami kolejnych pomiarów

na rys. 4.3, kiedy to rozrzut poszczególnych wyników pomiaru jest istotnie większy niż ukazana wartość błędu dła każde go z nich. Wyniki takie powinny nas zawsze skłonić do ponownego rozważenia metod,

jakie zastosowaliśmy do uzyskania wartości centralnych oraz błędów.

r

4.2. Odchylenie standardowe i wyższe momenty

0,25

149

p

0,20

0,15 1030 0,10

0,05

0,00 średnie

dane

980

Rys. 4.4. Porównanie rozkładu wszystkich wyników pomiarów i dziesięciokrotnie mniejszej próbki wartości średnich, każdej obliczonej z dziesięciu pomiarów

Ze związków (4.6) oraz (4.7) otrzymujemy wyrażenie na błąd Średniej arytme-

tycznej (odchylenie standardowe dla średniej arytmetycznej): Sz

2__542 = na

_ 1) =D

= X

—_

x)

z)2

(4.8)

i mówimy o nim, że jest on statystyczny, mając na myśli fakt, że wynika on z zastosowania metod rachunku prawdopodobieństwa i że maleje ze wzrostem liczebności próbki.

Istotnie, wielkość s;, na mocy prawa wielkich liczb, dąży do wartości stałej: wariancji zmiennej losowej, a dzielnik n wykonuje „mokrą robotę”.

Specyfikę tego faktu demonstruje rys. 4.4. Przedstawia on (na pierwszym planie)

rozkład 1600 wyników pomiarów, w hektopaskałach, ciśnienia atmosferycznego (dane własne). Odchylenie standardowe dła tych danych wynosi 5,9 hPa. Drugi plan prezentuje rozkład 160 średnich arytmetycznych dla 160 podpróbek zbudowanych z kolejnych dzie-

siątek indywidualnych pomiarów. Odchylenie standardowe dla średnich wynosi 1,9 hPa i wyśmienicie zgadza się z prawem odwrotnego pierwiastka z liczby pomiarów — nie-

pewność średniej arytmetycznej istotnie maleje jak Ji

Powyższy wynik jest jednocześnie ilustracją dobrze znanej reguły pomiarowej: jeśli chcesz zmniejszyć błąd dwakroć, próbkę musisz powiększyć czterykroć,

a ci, którzy marzą o zmniejszeniu błędu o rząd wielkości, muszą się liczyć z tym, że

ich eksperyment potrwa sto razy dłużej!

150

4. Momenty i statystyki pozycyjne z próby

Wielkość s;, będąc funkcją zmiennych losowych, jest statystyką, a więc będzie pod-

legała pewnemu rozkładowi. Wartość oczekiwana tej statystyki, jak pokazaliśmy, wynosi

Y [x], a jaka jest jej wariancja? Aby ją znałeźć, musimy obliczyć, z definicji, następujące wyrażenie: > > NE 4 >

v[s] = (8 — (5) ) = (s) - V* bq.

Po odpowiednich obliczeniach, których wykonanie (np. z pomocą dodatku B) zalecamy Czytelnikowi, otrzymujemy związek l

n-3

2n

v[s| [5] ==-(a— > (6— (x))”) 00))- - ——)> > wzypy

wy —— M=„YPl(mt=7

4.9 (4.9)

określony przez współczynnik > spłaszczenia (3.11). Rezultat ten dostarcza nam wyrażenie na wariancję kwadratu błędu Średniej arytmetycznej 2

vy [s|= MOZE

—)

=

l

ba (m+

2

2).

Zauważmy, że obie wielkości maleją ze wzrostem liczebności próbki. Estymatorem wielkości Y |sĘ 4 jest kwadrat błędu kwadratuo 2

3

czyli wielkość sS2:

azaazy(e 2,0-3 l

==———— ' Y

n

3) 5

72 „(% (— x)

2) . sz)

Podobny związek, „wzbogacony” o dodatkowy dzielnik n*, otrzymujemy dla kwadratu błędu S> (autor ma nadzieję, że Czytelnik wybaczy mu to „monstrum notacyjne) kwadratu błędu Średniej arytmetycznej. Wyrażenia te mają swoje znaczenie w praktyce, gdyż

określają precyzję, z jaką powinniśmy zapisywać znalezione błędy, a więc i zmierzone

wartości. Istotnie, wiemy, że jeśli u = v*, to s, 2 (v) s,. Gdy za wielkość v podstawimy s,, to znajdziemy, że s.ż = 2s,5,, skąd otrzymujemy wyrażenie na błąd s., błędu s;:

x S$

X 25 Do tego zagadnienia powrócimy w przykładzie 5.5.2, a tu tylko zwrócimy uwagę Czytelnika na fakt, ze wielkość s. jest błędem statystycznym: ze wzrostem próbki maleje

on jak +/n.

W kontekście powyższych rezultatów dotyczących wartości średniej i odchylenia

standardowego z całą mocą należy podkreślić, że:

Jeśli fizyk widzi rezultat pomiaru w postaci: wynik + błąd, to implicite przyjmuje trzy założenia dotyczące tego wyniku: e wartość zmierzona estymuje wartość oczekiwaną, e błąd jest statystyczny i jego kwadrat estymuje wariancję, e rozkład prawdopodobieństwa wielkości mierzonej jest symetryczny. Gdy którykolwiek z tych warunków nie jest spełniony — wynik musi być opatrzony komentarzem!

4.2. Odchylenie standardowe i wyższe momenty

151

--—- Przykład 4.2.3

Korelacja wartości Średniej i odchylenia standardowego Czy wartość Średnia x jest skorelowana z estymatorem wariancji s;? Rachunki z wykorzystaniem wyników dodatku B przekonują nas, iż

(8-W (£-07)|= >E[G= m0]. Dla rozkładu symetrycznego trzeci moment centralny znika i badane zmienne lo-

sowe nie są skorelowane, co jednak w żaden sposób nie przesądza o ich statystycznej niezależności (patrz podrozdział 3.3).

T)

Na marginesie rozważań nad odchyleniem standardowym warto wspomnieć o zagadkowym dzielniku n — 1, jaki pojawia się w definicji tej wielkości. Pozostawimy Czytelnikowi przeprowadzenie dowodu, że jeśli wartość oczekiwana m rozkładu jest dana, to nieobciążony estymator wariancji ma postać zbliżoną do (4.5):

28 G — 2. n

(4.11)

i=l

Pomniejszanie liczby n punktów danych o jedność przy obliczaniu odchylenia standardowego przy nieznanej wartości oczekiwanej jest ceną, jaką płacimy za zastosowanie średniej arytmetycznej. Często w praktyce doświadczalnej stosujemy jeszcze jedną wielkość statystyczną —

błąd względny, zazwyczaj wyrażany w procentach, w literaturze określany też mianem współczynnika zmienności w próbie: s;/x. Pozwala on, za pomocą jednej liczby, opisać statystyczną jakość naszego wyniku pomiarowego. Pod względem formalnym nie jest to dobrze zdefiniowana wielkość statystyczna, jeśli rozkład, z którego pobierana jest próba, dopuszcza zerową wartość średniej arytmetycznej. Jeśli jednak rozkład ten jest określony jedynie dla dodatnich wartości zmiennej losowej lub wartość błędu względnego jest istotnie mniejsza od jedności, wtedy współczynnik zmienności jest asymptotycznie nieobciążonym estymatorem stosunku dyspersji i wartości oczekiwanej

o wariancji

Sz] _ A (4 — V*[X]) — 4AV [X] pa + 40 [X]

v[z]=

dnżusY [x]

+o(n

_

piw

[io

):

Dla próbki z rozkładu Gaussa N (x; a, o) wyrażenie to upraszcza się do postaci

v[>]- = (1+257) +0(wr

NIA

p

)

152

4. Momenty i statystyki pozycyjne z próby

o ile spełniony jest warunek wymagający, aby błąd standardowy średniej arytmetycznej

był istotnie mniejszy od wartości tej średniej. Wtedy bowiem możemy uważać, iż średnia

jest na tyle oddalona od wartości zero, że możliwość przyjęcia przez Średnią tej wartości jest praktycznie wykluczona. Jest to, oczywiście, przybliżenie. Jaką postać mają estymatory wyższych momentów centralnych? Ponieważ nieobciążony estymator trzeciego momentu centralnego 43 to A

Ham

GZDGZBi

0

-%*

więc wyrażenie na estymator współczynnika asymetrii (3.10) moglibyśmy zaproponować jako A

„_ Ma

=

_

n

2

n

X; —X

>(

s

1

Rdz



3

).

jednakże dość powszechnie przyjmowana jest następująca definicja: A

Yi =

1




(

Xi

— X

5,

)

j

.

gdzie 5, jest estymatorem (4.5) średniego błędu kwadratowego. Estymator j? jest jednak,

w ogólnym przypadku, tylko asymptotycznie nieobciążony:

(|=

+0 (17?)

h

z wyjątkiem próbki wylosowanej z rozkładu Gaussa, kiedy to wartość oczekiwana estymatora jest dokładnie równa współczynnikowi asymetrii y, (a ten współczynnik dla zmiennej z tego rozkładu wynosi zero). Chociaż dla czwartego momentu centralnego j14 także dysponujemy jego nieobcią-

żonym estymatorem

»

n(n> — 2n + 3)

|

8

HAT n=Dn=25n=3)n270%

_

n — 1)(2n — 3)

RE

;

3) ©

to jednak konwencjonalnie dla estymatora spłaszczenia (3.11) wybieramy definicję w postaci

hm

i=l

S

|

wykorzystującej estymator średniego błędu kwadratowego. Okazuje się jednak, że wiel-

kość ta jest tylko asymptotycznie nieobciążona, nawet gdy próbka pochodzi z rozkładu Gaussa:

(72) = Y+OÓ

(r 3).

Wart odnotowania jest fakt, że dla próbki gaussowskiej obciążenie to jest znane: 6

(7) = "nil

4.3. Średnia ważona

153

a powinniśmy pamiętać, że sam współczynnik », dla zmiennej z tego rozkładu jest równy zeru. Jest rzeczą interesującą, że dla obu estymatorów znana jest Ścisła postać ich wariancji, o ile elementy próby pochodzą z rozkładu Gaussa:

Y[Al=Geparh r a

6(n — 2)

6

(n+1)n +3)

n

[5 | _

24nn—2)n—3)

_ 24

2 (n+D?(n+3)m+5)

n

Dla innych rozkładów wiadomo tylko, że wariancje estymatorów obu współczynników,

przy wykorzystaniu dużych liczebnie prób, zgodne są z asymptotycznymi postaciami wariancji tychże współczynników dla próbki wylosowanej z rozkładu Gaussa, z dokład-

nością do wyrazów rzędu O(n'*/*).

W literaturze funkcjonuje wiele definicji obu współczynników, dlatego Czytelnik nie

powinien się dziwić, jeśli napotka np. podany wcześniej estymator j; oraz

e

n*(n + 1)



ks q=Da=Da=312(

sni) -3 s

(n — 1)?

(n — 2)(n — 3)”

gdzie skomplikowana postać współczynników zależnych od liczebności n próbki wynika z wykorzystania nieobciążonego estymatora czwartego momentu

centralnego i wyma-

gania braku obciążenia dla przypadku próbki gaussowskiej. Zwróćmy uwagę na to, że dla dużych prób oba alternatywne estymatory przyjmują asymptotyczną postać

ZE Aj

I

X;



X

hs;

1

(5)

/x-XV



ł

i=l

z) (7 n

n

i=l

Yu

3

i=l

—3Z—

(

-43

Sx

|

|

-3=,2(5) 1

/x=XN* ł

— 3,

w zgodzie z tym, czego byśmy oczekiwali.

——

43. Średnia ważona

W praktyce zdarza się, że musimy wyciągać wniosek co do wartości wielkości zmie-

rzonej w różnych eksperymentach, a więc z różnymi dokładnościami. Jeśli np. plano-

walibyśmy eksperyment, w którym znaczenie miałby rozpad 4X(lp) + yT(1s), to na pewno pomocna byłaby dla nas informacja o stosunku rozgałęzień dla tego rozpadu. Istnieją dwa pomiary tej wielkości, a wynoszą one: 0,32 + 0,06 oraz 0,47 -:0,18. Pierwszy z tych pomiarów jest bardziej precyzyjny, więc i jego wartość centralna jest

zapewne bliższa rzeczywistości. Czy w naszych pracach przygotowawczych do eksperymentu mamy użyć tylko wartości 0,32 i zapomnieć o drugim pomiarze? Czujemy,

154

4. Momenty i statystyki pozycyjne z próby

że nie byłoby to właściwe postępowanie — drugi z cytowanych wyników jest rezulta-

tem dobrego, niezależnego doświadczenia i gdybyśmy go odrzucili, to wyzbylibyśmy się

części informacji, co jest przecież karygodne. Jak możemy „uwspólnić” oba rezultaty? Czy poprawne jest obliczenie dla nich średniej? Średnia taka traktuje oba wyniki jako równocenne 1 dostarczyłaby wyniku „w połowie drogi”, podczas gdy pierwszy pomiar,

jako dokładniejszy, powinien silniej odznaczyć się na końcowym rezultacie. Kluczem do rozstrzygnięcia tych wątpliwości są właśnie niepewności obu pomia-

rów. Widzimy, że niepewność drugiego pomiaru jest 3 razy większa niż pierwszego.

Gdyby drugi eksperyment został powtórzony jeszcze 8 razy, to sądzimy, że w każdej z takich powtórek otrzymywalibyśmy wynik o zbliżonej niepewności, każda około 0, 18,

a wtedy sami moglibyśmy uśrednić te 9 rezultatów i otrzymać jedną liczbę obarczoną błędem porównywalnym z błędem pierwszego eksperymentu. Dopiero w odniesieniu do takich danych moglibyśmy zastosować średnią arytmetyczną. Widzimy, że pomiar pierwszej grupy fizyków jest wart dziewięciu pomiarom drugiej grupy. Wniosek ten pozwala zaproponować następującą metodę obliczania średniej: Stosunek t k rozgalęzień łęzień

=

l

9

149 - ———0,32 140 —— 0,47 +

= 0,335.

W formule tej współczynniki 1/10 oraz 9/10 ważą poszczególne pomiary, przechylając szalę w stronę tego, który jest dokładniejszy. Sformalizujmy to rozważanie. Niech będzie dana seria nieskorelowanych zmiennych losowych x,, każda o identycznej wartości oczekiwanej „ i różnych dyspersjach o;.

Utwórzmy statystykę:

x, = >. W;X;,

(4.12)

i=l

zwaną Średnią ważoną, gdzie wielkości w, to stałe, pozbawione własności statystycz-

nych, współczynniki. Aby średnia ważona x,„ była nieobciążonym estymatorem wielkości

U:

(Xw) = ) w,

i=l

(x) = > wia

i=l

=u) w,

i=l

= HL,

musimy zażądać, by >.

i=l

W;

=

l.

Wariancja o; średniej ważonej x„, na mocy ogólnych reguł — patrz (3.9) — WynoSI:

04 = V[Xw] = ) wło?. i=l

Czytelnik winien zwrócić uwagę na to, że powyższy wzór jest słuszny tylko wtedy, gdy

wielkości w; są pewnymi stałymi, a nie statystykami. W przeciwnym razie we wzorze tym musiałyby się pojawić (przynajmniej) momenty wielkości w,;. Współczynniki w,

4.3. Średnia ważona

155

znajdziemy, domagając się minimalnej wariancji n

)

i=l

przy warunku wiążącym

w?o/EO = min(w

Yu,

ly:::,

)

Wn),

=|l.

i=l

Jest to typowe zagadnienie minimalizacyjne z więzami, które rozwiązujemy metodą współczynników Lagrange'a, tzn. warunek więzów przepisujemy w postaci uj-1=0

i=l

i dodajemy go do minimalizowanej funkcji po pomnożeniu przez dowolną stałą A (współczynnik Lagrange a):

YU użo? +2 (> e ) = min(wi, i=l

i=l

10.)

wymagając minimum ze względu na wielkości w, oraz stałą A. Stosownie różniczkując, otrzymujemy układ równań 2w,0j +A=(0,

i

=1,2,...,A,

uj-1=0 i=l

do rozwiązania względem w; oraz A. Rozwiązując pierwsze z nich względem w; A Wi

=

———

20;

i podstawiając do drugiego, otrzymujemy wyrażenie na współczynnik Lagrange'a A:

l

A=—2

s

„2 i=l Si 1 a stąd na, jak to nazywamy, wagi w; l Ww;

0;

=

n

|

i=l

ł

233 Wariancja uzyskanej średniej ważonej wynosi: OŻ

=

Y [xw]



n

156

4. Momenty i statystyki pozycyjne z próby

Zauważmy,

że oba ostatnie wzory redukują się do wyrażeń

arytmetycznej

identyczne.

właściwych

dla średniej

(4.1) i jej wariancji (4.6), gdy dyspersje o, wszystkich zmiennych są

Ponownie zwróćmy uwagę na to, że powyższe wyprowadzenie jest słuszne, gdy niepewności wielkości mierzonych x; są zadane przez dyspersje, a nie przez ich estymatory.

W konsekwencji kwadrat błędu średniej ważonej jest stały w sensie statystycznym, a nie

statystyką podlegającą fluktuacjom. Jest to, naturalnie, idealna sytuacja, jakiej z reguły

nie spotykamy przy analizie statystycznej danych, dlatego zawsze powinniśmy pamiętać o przybliżonym charakterze naszych wyników, jeśli obliczając błąd średniej ważonej, stosujemy estymaty niepewności wielkości wchodzących do średniej.

Czy dysponując próbką wielkości x; oraz ich dyspersjami o;, możemy zaproponować

statystykę, która byłaby estymatorem wariancji średniej ważonej? Okazuje się, że tak.

Wielkość s, zdefiniowana jako

-

S„

=

M

)

l

(n — 1) ) — i=l i

2

,

=

Oi

ma wymagane własności — jej wartość oczekiwana dana jest wariancją średniej ważonej:

€|s,|=VXl =

l

w

Uzasadnienie tych związków Czytelnik znajdzie w przykładzie 5.6.2. W nomenklaturze statystycznej wielkość s„ nosi nazwę błędu zewnętrznego, w przeciwieństwie do

wielkości o„, o której mówi się, że jest błędem wewnętrznym. Błąd zewnętrzny ma swoje zastosowania przy badaniu zgodności danych. Jeśli oba

błędy różnią się znacznie od siebie, mamy prawo podejrzewać, że dane nie są spójne,

a ilustrację takiego braku spójności widzieliśmy w przykładzie 4.2.2. Sama rozbieżność między wartościami obu błędów nie rozstrzyga między nierzetelnością wartości zmie-

rzonych lub też ich błędów. Jednakże wartość oczekiwana sumy kwadratów w definicji statystyki s„ jest równa liczbie składników tej sumy pomniejszonej o jedność:

> (* 5) co pozwala na wyizolowanie

=n-l,

z całej próbki tych danych,

dla których przyczynki do

sumy są istotnie różne od jedności, a następnie poddanie krytycznej analizie metody pomiarowej, która doprowadziła do problematycznych wyników. Jest to, naturalnie, procedura wysoce arbitralna. Rezultaty w fizyce nie są osiągane metodami demokratycz-

nego majoryzowania mniejszości przez większość i historia fizyki dostarcza nam w tym zakresie wielu pouczających przykładów. Alternatywna procedura, stosowana przy określaniu „najlepszych” danych o własnościach cząstek elementarnych prezentowana we

wspomnianym we wstępie kompendium Review of Particle Properties, zakłada jednolite

4,4, Kowariancja

157

traktowanie wszystkich danych doświadczalnych. Polega ona na takim przeskalowaniu dyspersji o; wszystkich wielkości mierzonych przez wspólny czynnik korekcyjny S$, aby równość )

=p

1.

SO;

i=|

BT da a po a

w

spełniona była Ściśle. Nie zmienia to wartości średniej ważonej, powiększa jednak jej błąd wewnętrzny o, o tenże czynnik $ 1 prowadzi do zastąpienia błędu wewnętrznego

błędem zewnętrznym.

PEPE

TYTUSA JETTA R

AMY



i

—- 44. Kowariancja Niech będzie dana próbka prosta zbudowana z par (x;, y;) wylosowanych z łącznego roz-

kładu f(x, y). Spróbujmy znaleźć wyrażenie na estymator kowariancji. Z definicji (3.12) wiemy, że

cov [xy] =(6— AUY — 4,)) = Gy) — ty.

Rozważmy wielkość

R la = 2,6 _5y © (y; — V)

(4.13)

i obliczmy wartość oczekiwaną tej statystyki:

n(R)= (> b —X)(y; — ») = > % — MW -K- u) (y; - 4 — G — 20) i=l

i=l

=) (6-406; — 49) -n(8— 406 — 1) i=l

l

n

=n(6- LOU — y)) — 7 3 (GG — LOG; — 1%) i,j=l

1

ń

n

= ncov |x, y| — H (le

— LJ; — wy) + ).

iźij=1

=

(6 — ŁOly; — 29)

= nCOV [x. y| — Cov [x y | = (n — l)cov [x y] .

Jeśli definicję (4.13) nieco zmodyfikujemy i wybierzemy statystykę R w postaci R =

l n-l

SCEZYWEZY i=l

(4.14)

to jej wartość oczekiwana będzie równa kowariancji, czyli będzie to jej nieobciążony estymator. Wariancja tak zdefiniowanego estymatora ma postać l y[R] => l (6-176 — 47) + „a—pYBMAYP]-

nan 2 KRE -G=Dp"

158

4. Momenty i statystyki pozycyjne z próby

Z kolei nieobciążony estymator tej wariancji, czyli kwadrat błędu kowariancji z próbki, to

n

2 Sp

R

n* >) (% — X?ly, — 1) + (m — 3)(n — 1)sżs; — (n* — n* — 3)R i=l

=

(n — 2)(n* — 3n2 + 2n — 3)

Analogicznie do estymatora (4.10) wariancji kwadratu podać w przemawiającej do wyobraźni postaci 2 SR

1



IK

—————— G-DGZ3

i=l

dyspersji, wynik ten możemy

-

-09,-Y)-R). (6-36, -5) -R)

2

Powyższe rezultaty wykorzystamy do obliczenia estymaty R kowariancji dla profiłu

wiązki, o którym mówiliśmy w rozdziale 1: R = —(720 + 120) mm”. Jak widzimy, wielkość ta jest różna od zera i potwierdza wskazywany wcześniej statystyczny związek między zmiennymi losowymi. Oczywiście, z uwagi na normalizację, jaką wnoszą szerokości rozkładów zmiennych x oraz y, ciekawsze byłoby znalezienie współczynnika

korelacji r z próby, który możemy zdefiniować, za K. Pearsonem i w analogii do (3.14), w następujący sposób: R Y

=

SxSy

,

(4.15)

(otrzymując, nota bene, wartość r = O, 32) i jego błędu. Jednakże patrząc na tę definicję, uświadamiamy sobie łatwo, że nie mamy szans na wykazanie, że wartość oczekiwana tej wielkości jest w istocie równa współczynnikowi (3.14) korelacji p, nie mówiąc już o wykonaniu naszego programu poszukiwania estymatora błędu tej wielkości, tzn. zna-

lezienia wariancji wielkości

r, odgadnięcia estymatora tej wariancji

i w końcu sprawdzenia jego poprawności. Nasze metody matematyczne

są zbyt skromne i nie dają możliwości realizacji takiego zadania. Moglibyśmy jednak pokusić się o realizację innego zadania. Zakładając,

Karl Pearson,

NE

-

2

.

-.

>

4

4

że istotnie współczynnik (4.15) korelacji r z próby ma coś wspólnego

1857-1936

z parametrem p, możemy obliczyć wielkość 2 r= R SZSY

i znaleźć błąd tej wielkości, stosując przybliżone metody z podrozdziału 3.4 na błąd wielkości złożonej:

>

ar*

2

ar2

ar? ar

+2 (i

ar? 2

5

*

dr> dr?

2

21

dr70r?

0

gsz 0" [R”, s] + GRE Bzz” [R”, s/] + sz ds” [5;. s,] | -

Od razu jednak widać,

że jest to zaiste tytaniczna praca, jako że wymagałaby

znalezienia z próby trzech zaznaczonych

we wzorze

kowariancji, jak również

błędu

4.4. Kowariancja

159

wielkości R”. W tej sytuacji największą szansę praktycznego powodzenia ma program,

w którym współczynnik korelacji r z próby potraktujemy jako funkcję Żn zmiennych x, OrTAZ y;: r=r(Xxj,Xo,...; Xp, VI; Y2; ---, Yn) 1 Zastosujemy przybliżony wzór (3.20):

Sr



2

=

>

dr )

((

ą

S

2

+ |

(3, )

S$;



dy;

2 ”

Or dr

0X;

)

R

2——

+

,

dy;

gdzie oczywiście wszystkie błędy wielkości x; oraz y;, a także kowariancję R między owymi zmiennymi przyjęliśmy za identyczne (niezależne od indeksu i). Przy tym podejściu otrzymujemy: r = —0,32 + 0,05. Winniśmy jednak pamiętać, że tak otrzymane

wyniki mają jedynie przybliżony charakter. Więcej na temat własności i rozkładu współczynnika korelacji będziemy mieli do powiedzenia w podrozdziale 5.5.4 oraz w przykładzie 5.7.3. 34

8r 7 6] 5

|

3] >|

-

Pra

4|-

0

Log

7

am

TT

EPE

.

a

y

.

p

zx

* o

hm

l

/

©

/

.

h

8

/

/

ś

.

lp. 0 -

7

Le”

>

A

a

noz e

mt

2

Z

ET

3

J

4

|

5

l

6

J

x 7

Rys. 4.5. Przykład trzech układów punktów o tej samej wartości współczynnika korelacji

W podrozdziale 3.3, dyskutując własności współczynnika korelacji, wspomnieliśmy o jego słabości w relacji do rozkładów, w których dane nie wydają się układać w miarę regularną, owalną „chmurę”. Rysunek 4.5 podaje przykład trzech układów punktów, dła których współczynnik korelacji r z próby jest dokładnie taki sam i wynosi 0,840.

Tylko dla tych pierwszych gotowi bylibyśmy zaakceptować wartość współczynnika r jako naturalną miarę zależności statystycznej między współrzędnymi (x, y) określającymi

położenie pełnych punktów na płaszczyźnie. W pozostałych dwóch przypadkach miarę tę

uznalibyśmy za sztuczną i absolutnie nieadekwatną do opisu istniejącej współzależności. Istotnie, dodatkowa linia łącząca puste kwadraty i romby interpoluje postać funkcyjną

y x x”, w której potęga a została stosownie (dla każdego ze zbiorów) dobrana, aby uzyskać tę samą wartość współczynnika korelacji.

Skoro poznaliśmy pojęcia estymatora wariancji i kowariancji, wróćmy teraz na chwilę do zagadnienia momentów funkcji losowych, omawianego w podrozdziale 3.4. Pokazaliśmy tam, jak w wyniku linearyzacji badanych zależności funkcyjnych, otrzy-

mujemy macierz kowartancji, zadającą korelacje między zmiennymi losowymi określonymi przez te funkcje. Jeśli do tak uzyskanego wyrażenia na macierz kowariancji

160

4. Momenty i statystyki pozycyjne z próby

podstawimy wartości uzyskane w doświadczeniu, a więc estymaty wariancji poszczególnych pierwotnych zmiennych

losowych i estymaty kowariancji dla indywidualnych

par tych zmiennych, to otrzymujemy macierz V(f) liczb: estymat wariancji 1 kowariancji nowych zmiennych losowych. Macierz tę, jak również macierz V (x) estymatorów wariancji 1 kowariancji pierwotnych wielkości mierzonych, powszechnie określa się dość mylącym terminem macierz błędów, który sugeruje, że wśród jej elementów, np. na jej diagonali, występują błędy. Powinniśmy pamiętać, że w rzeczywistości mamy tam ich kwadraty, a poza przekątną estymaty kowariancji. Niestety, statystyka matematyczna nie wypracowała bardziej precyzyjnego specjalnego terminu dla takiego obiektu.

—— 4.5. Efekty systematyczne i ich błędy Zacznijmy od przykładu, który pozwoli wyjaśnić pewne pojęcia. Wyobraźmy sobie, że strumień © cząstek kierujemy na stacjonarną tarczę o liczbie p centrów rozpraszających na jednostkę objętości, a pod pewnym kątem © umieszczamy detektor pokrywający kąt

bryłowy AŚ2. Jeśli w wyniku eksperymentu zaobserwujemy w detektorze n cząstek, to

różniczkowy przekrój czynny wynosi:

Ao

n

AQ



Wynik ten będzie bez wątpienia poprawny, o ile poprawne będą wszystkie trzy występujące w nim wielkości: n, p oraz ©, ale przy pomiarze każdej z nich czyha na eksperymentatora wiełe zasadzek. Jeśli detektor nie jest w pełni efektywny, liczba n rozproszonych cząstek będzie zaniżona. Jeśli pomiar prowadzimy w Środowisku, w którym występuje dodatkowe tło, np. od promieniowania kosmicznego lub od wiązki, która „Ociera się” o elementy systemu jej transportu i nie zadbamy o eliminację tego tła, liczba zarejestrowanych rozproszeń będzie zawyżona. Gdy wiązka cząstek nie składa się tylko 1 wyłącznie z tych cząstek, które nas interesują, lecz ma domieszkę innych, będziemy mierzyć przekrój czynny uśredniony względem składu wiązki cząstek pocisków.

Jeśli gęstość masową tarczy wzięliśmy z tablic, to nie znajdziemy rzetelnej wartości liczby p centrów rozpraszających, gdyż nasza próbka może być zanieczyszczona innymi substancjami. Prowadzi to również do pewnego średniego, tym razem względem składu chemicznego tarczy, przekroju czynnego. Jeśli tarcza jest zbyt gruba, to ryzykujemy

wielokrotnym rozpraszaniem w jej wnętrzu, a tym samym staje pod znakiem zapytania poprawność wyznaczenia kąta © rozproszenia. Do podobnego efektu doprowadzi także

duży przekrój poprzeczny wiązki — różne elementy tarczy będą wtedy widziane przez licznik pod różnymi kątami bryłowymi. Podobnie zadziała brak precyzyjnej wiedzy na temat całej geometrii układu: pozycji detektora względem tarczy, odległości, rozmiarów 1 orientacji jego części czynnej. Strumień © mierzymy za pomocą specjalnych przyrządów umieszczonych w pewnym punkcie wiązki przed tarczą. Jeśli na ostatnim odcinku, do tarczy tracimy część wiązki, to faktyczny strumień cząstek padających na tarczę jest mniejszy, niż sądzimy.

4.5. Efekty systematyczne i ich błędy

161

Wszystkie wyliczone wyżej efekty, a kompetentny fizyk łatwo uzupełni tę listę wie-

loma innymi, mogą obrócić wniwecz cały nasz pomtar. Cechą tych efektów jest to, że

działają one metodycznie i z zaciętością — globalnie psują nasze zabiegi i trud oraz fałszują wynik. Jeśli nie zwrócimy na nie uwagi, nie sprawdzimy i ewentualnie nie

poprawimy naszego pomiaru, to popełnimy błąd. Nie jest to jednak ten typ błędu, o któ-

rym mówiliśmy do tej pory. Nie jest to także błąd systematyczny, z którym to terminem Czytelnik zapewne się już spotkał. Będzie do błąd sztuki, określany niekiedy mianem grubego, dyskwalifikujący pomiar.

Aby precyzyjniej wyjaśnić, co będziemy rozumieli przez pojęcie błędu systematycznego, rozpatrzmy, jako przykład, niektóre elementy analizy danych doświadczalnych, jaką spotyka się w fizyce wysokich energii. Celem tej analizy (G. Grzelak, Production

of Intermediate W and Z Bosons in ep Interactions at 300 GeV Centre of Mass Energy,

rozprawa doktorska, Instytut Fizyki Doświadczalnej, Uniwersytet Warszawski 1998) jest pomiar całkowitego przekroju czynnego na produkcję bozonów pośredniczących W oraz Z. W pomiarze takim całkowity przekrój czynny o określony jest związkiem O

n

_

Nef

_€L L

gdzie n jest liczbą znalezionych przypadków (bozonu W lub też Z), € jest wydajnoŚcią, z jaką te przypadki znaleziono, natomiast £ jest Świetlnością akceleratora wy-

korzystującego wiązki przeciwbieżne. Zauważmy,

że zarówno wielkość e, jak i £ są

swoistymi czynnikami skalującymi, pozwalającymi przeliczyć jedną wielkość fizyczną na drugą: faktyczną liczbę n przypadków na liczbę neg przypadków, jaka byłaby znaleziona, gdyby metoda poszukiwania tych przypadków była doskonała oraz, w drugim

kroku, tak poprawioną liczbę przypadków na przekrój czynny. Jest to jeden z fundamen-

talnych schematów metodologicznych, analogiczny do kalibracji przyrządu. Przyjrzyjmy się niebezpieczeństwom, jakie on stwarza w odniesieniu do rezultatu pomiaru takim przyrządem.

Surowy odczyt, np. liczba neg przypadków, ale także wskazanie strzałki woltomierza 1 amperomierza przy pomiarze oporu, musimy „poprawić”, dzieląc go (w omawianym przypadku) przez czynnik £, który także otrzymujemy w wyniku pomiaru wzorca tymże samym przyrządem, bądź w innym układzie doświadczalnym,

w sposób nieza-

leżny (w najprostszym przypadku) od pomiaru właściwego. Ponieważ szansa uzyskania dokładnie „prawdziwej” wartości czynnika skalującego jest równa zeru (przynajmniej w przypadku zmiennej ciągłej), musimy liczyć się z tym, że wszystkie następne pomiary

wykorzystujące tenże czynnik będą systematycznie zaniżone bądź zawyżone, w zależności od tego, co podarował nam los w trakcie procedury kalibracyjnej. Właśnie z uwagi na ów ustalony i uporczywy, zawsze działający w jedną stronę (przynajmniej do czasu następnej kalibracji) charakter obciążenia, mówimy o efektach systematycznych i ich wpływie na wynik pomiarowy. Najtrudniejszym aspektem analizy efektów statystycznych jest uświadomienie sobie faktu ich istnienia. Nieomal zawsze działają one w ukryciu i nie objawiają się w żaden spektakularny sposób — wynik końcowy wydaje się rozsądny, choć nie jest wart kartki papieru, na którym go zapisaliśmy. Pomocną w ich wykryciu może być tylko daleko

162

4, Momenty i statystyki pozycyjne z próby

posunięta rezerwa:

nie ufaj niczemu

(nawet liczbie x —

czy na pewno powinna się

ona pojawić w tym miejscu?), podejrzewaj metodę (ktoś kiedyś powiedział Ci, że to

można tak zrobić — zweryfikuj to teraz!) i sprzęt (zapewnij sobie narzędzia do monitorowania na bieżąco), sprawdzaj 1 kontroluj (zadbaj o nadmiar informacji — prowadzi to

w pierwszym momencie do zamieszania, ale pozwała za to na niezałeżne sprawdzenia 1 na kontrolę sprawdzeń), bądź krytyczny (lub tez pozwól się skrytykować kolegom).

Zmierz wszystko co się da i najłepiej jak się da. Jeśli dysponujesz jakąś wielkością:

masą cząstki lub stanu rezonansowego, poziomem energetycznym, czasem Życia, nawet

dystansem geometrycznym, który możesz zlustrować za pomocą swojej aparatury — zrób to! Niektóre z metod analizy statystycznej danych, np. metoda najmniejszych kwadratów, dostarczają narzędzi kontrolnych — skorzystaj z nich! Gdy już błyśnie Ci w głowie myśl, że Twój współczynnik kalibracyjny może być źródłem efektu systematycznego, sprawdź

go, tj. zgadnij, oszacuj, zmierz i znajdź niepewność jego wartości.

Tak długo, jak kwadrat niepewności sę ma charakter estymaty wariancji wielkości L£, możemy mówić o przyczynku s„. do całkowitej niepewności standardowej s, zmierzonego przekroju czynnego od niepewności standardowej sz czynnika kalibrującego.

Jeśli spełnione są założenia modelu małych błędów pomiarowych (podrozdział 3.4),

przyczynek ten możemy znaleźć z zależności

i mieć uzasadnioną nadzieję, że przedstawia on sobą estymator dyspersji przekroju czynnego przy ustalonej wartości liczby neg. Ponieważ błąd s,. szacuje nasze wyobrażenie o wpływie „mglistej” wartości czynnika systematycznego, utarło się określanie tego błędu jako błędu systematycznego, choć lepiej jest mówić o niepewności systematycznej i oba terminy są skrótem myśłowym dla sformułowania: niepewność oceny wpływu efektu systematycznego. W ten sposób dochodzimy do definicji tego, co będziemy okre-

ślali błędem systematycznym: każda wielkość, która ma wpływ na końcowy wynik, a którą znamy ze skończoną dokładnością, jest źródłem niepewności tego wyniku, a nie-

pewność ta to właśnie błąd systematyczny.

Dalsze przyczynki do pełnego błędu przekroju czynnego są oczywiście związane

z niepewnością pomiarową liczby neg. Tu jednakże sytuacja jest z reguły nieporównanie

bardziej skomplikowana. Jej jedyny łatwy fragment, to ten związany z obserwowaną liczbą n przypadków. Ocena s, niepewności tej wielkości nałeży (w najprostszym przypadku)

do klasycznych

zagadnień

statystyki matematycznej

i wyprzedzając

nieco tok

wykładu, odwołamy się do rezultatów punktu 5.4.2, gdzie pokazujemy, że niepewność

ta ma, jak mówimy, charakter poissonowski i zadana jest pierwiastkiem kwadratowym

z obserwowanej liczby przypadków: s, = „/n. Dlatego też Sp Z

l nn Sh 5 z — el ELn

© „4n

= —— Z Sat.

Zwróćmy uwagę na to, że przyczynek ten maleje wraz ze wzrostem liczby przypadków w próbce i dlatego błąd ten, jak wskazywaliśmy na to w podrozdziale 4.2, jest błędem

4.5. Efekty systematyczne i ich błędy

163

statystycznym. Jest to jego kluczowa cecha, odróżniająca go od błędu systematycznego,

dlatego błąd systematyczny niekiedy zdefiniujemy jako ten, którego nie możemy się wyzbyć metodą wzbogacania próbki. Jego pomniejszenie wymaga niezależnych prac,

rozprasza nasz wysiłek i odciąga od zasadniczego kierunku naszego badania. Jeśli inte-

resuje nas przekrój czynny na produkcję bozonu Z, a bozon ten identyfikujemy w naszym eksperymencie przez wykrywanie powstającego z niego elektronu, to liczbę wszystkich bozonów otrzymamy, dzieląc liczbę zidentyfikowanych przez stosowną częstość rozpadu.

Jeśli częstość tę znamy z błędem, to żadna liczba bozonów zidentyfikowanych w kanale elektronowym nie uwolni nas od niepewności co do liczby wszystkich wyprodukowanych (a nie tylko zarejestrowanych) bozonów w eksperymencie. Wyzbyć się jej (pomniejszyć jej udział) możemy tylko na jednej drodze: musimy wymyślić, zbudować i przeprowadzić niezależny eksperyment poświęcony temu zagadnieniu. Zasadnicza część analizy niepewności wartości zmierzonego przekroju czynnego ukryta jest w ocenie niepewności s. wydajności e detekcji. Typowo, ocenę efektywnoŚci detektora uzyskujemy na drodze identycznej analizy dwóch próbek: tej znalezionej

w doświadczeniu oraz sztucznej próbki, nazwijmy ją „teoretyczną”, uzyskanej na drodze

symulacji numerycznej, zwanej metodą Monte Carlo, wykorzystującej całość teoretycz-

nej wiedzy o przebiegu zjawiska fizycznego i o detektorze. Na obie nakładamy identyczne cięcia geometryczne i kinematyczne, których zadaniem jest oczyszczenie próbki z przypadków pochodzących z procesów zanieczyszczających dane doświadczalne, jak np. oddziaływania na resztkowym gazie w rurze akceleracyjnej lub ściankach tejże rury, oddziaływania nie zachodzące w nominalnym obszarze czasowym i przestrzennym przecięcia wiązek, oddziaływania wywołane przez halo wiązki itp. Potem przychodzi kolej na cięcia, zadaniem których jest amplifikacja poszukiwanego

sygnału (autor nie musi

w tym miejscu mówić, że rasowego fizyka, jego kunszt i umiejętności, można poznać właśnie po tym, jak dobiera te cięcia). Cięcia te zawsze pozbawiają nas części inte-

resujących przypadków, a to, co z nich zostaje, odniesione do pierwotnej ich liczby, definiuje wydajność e. Wydajność tę możemy określić niezależnie, badając, jaki ułamek interesujących przypadków pozostał w próbce teoretycznej, o której mamy pełną

wiedzę. Ponieważ omówienie metody Monte Carlo „odroczyliśmy” do jednego z dalszych rozdziałów,

wyjaśnijmy

powyższe

rozważania

przykładem

analitycznym,

czyli

wykonajmy na papierze dokładnie to, co symulacja numeryczna realizuje w pamięci komputera.

Przypuśćmy, że liczbę ney interesujących przypadków próbujemy ocenić, konstruując doświadczalny odpowiednik teoretycznego rozkładu f(E;a), na przykład energii

E mierzonej w kalorymetrze. Postać funkcyjna rozkładu jest nam znana, jak również wiadoma jest nam, z wcześniejszych analiz, wartość występującego w nim parametru a, jednak z dokładnością s,. Nasz kalorymetr, jak każdy, charakteryzuje się pewnym szumem, tzn. w stanie jałowym, bez padających na niego cząstek, mierzy on określoną, różną od zera, energię. Dlatego też musimy wprowadzić cięcie odrzucające przypadki o energii E mniejszej niż pewna wartość E. Potrzeba takiego cięcia może również wynikać z charakteru danych, jakimi dysponujemy, np. układ wyzwalający eksperymentu miał w sobie celowo zakodowany warunek usuwający przypadki o zbyt niskiej energii

164

4. Momenty i statystyki pozycyjne z próby

zdeponowanej w kalorymetrze. W rezultacie do dalszej analizy przechodzi część €

€=P(E>E)= J f(E';a)dE' E wszystkich danych. Skoro parametr a znany jest nam z określoną precyzją, jego niepewność dostarczy przyczynku s„, do całkowitego błędu w przekroju czynnym

"a

n

|0€

2_£

|a|

=

o

— €

0€E

da

Sa.

W realnej sytuacji wskazana całka ma najczęściej charakter wielowymiarowy i uwzględnia zarówno wielkości kinematyczne, jak i geometryczne, a 1 parametrów a jest od kilku do kilkunastu, jeśli nie kilkudziesięciu. Ich typowymi przykładami są wspomniane wcze-

Śniej stosunki rozgałęzień, ale możemy je także znaleźć w modelowych uproszczeniach

występujących w konstrukcji funkcji f. Wtedy wystarczy, że dokonamy podstawienia 0€

[5

>



0€

i j=1

da;

dE

2, 330V [ai a;] z: dj

o ile znana jest nam pełna postać macierzy błędów. Zwróćmy

uwagę, że przyczynek

ten, niezależnie od liczby „występującnych” parametrów, tak jak przyczynek s„., opisuje niepewność efektu systematycznego 1 niepewność ta jest równa pierwiastkowi kwadra-

towemu z estymaty wariancji. Przed chwilą wspomnieliśmy, że błąd systematyczny cechuje się niezależnością od

wielkości zgromadzonej próbki danych. Jest to jego dość niezła charakterystyka, jednak nie do końca prawdziwa. Niekiedy wpływ systematycznych czynników możemy doprecyzować, dysponując bogatszą próbką. Przykładem takiego błędu systematycznego jest właśnie omawiana wyżej efektywność detektora. Przystępując do eksperymentu, znamy ją z różnego rodzaju testów i symulacji, ale jej dokładny charakter poznajemy w trakcie eksperymentu, kiedy to zbieramy coraz to większą liczbę przypadków

w różnych

obszarach detektora i budujemy coraz to bardziej precyzyjną „„mapę” jego własności. W jaki sposób, dysponując trzema przyczynkami: sę,, Sa, OraZ s, do niepewności

przekroju czynnego, mamy wyrazić pełną i ostateczną niepewność zmierzonej wartości? Powszechnie utarła się pewna podstawowa i dobra praktyka. Polega ona na tym, że w żadnym przypadku nie łączymy błędu statystycznego s,, z innymi błędami — ten błąd cytujemy na zasadzie równorzędności z samym wynikiem pomiaru. Jest on miarą jakości statystycznej naszej pracy badawczej, a następcom pozwoli uzyskać wgląd w to, co ich czeka, gdy podejmą ten sam wysiłek w warunkach próbki o zbliżonej liczebności i przy

wykorzystaniu analogicznej metody analizy. A co mamy zrobić z błędami systematycz-

nymi? Przede wszystkim powinniśmy je wszystkie wyliczyć i podać każdy oddzielnie

oraz opisać procedury, które posłużyły do ich otrzymania. W szczególności, z owego

opisu powinno jasno wynikać, jaka jest interpretacja statystyczna kazdego z nich. Wtedy, gdy mają one charakter odchyleń standardowych, możemy złożyć je w kwadratach (o ile są statystycznie niezałeżne, w przeciwnym razie czeka nas jeszcze trud określenia pełnej

4.5. Efekty systematyczne i ich błędy

165

macierzy błędów) do ostatecznej niepewności systematycznej: —

Ssyst =

2

2

V Soc + Sza”

a końcowy wynik pomiaru zapisujemy w formie: o

=

n

EL

-E Sstat E Ssyst*

W ten sposób naszym sukcesorom wskażemy

główny kierunek natarcia: powiększanie

próbki, gdy błąd statystyczny jest większy niż systematyczny, czy też poprawa procedur i ulepszanie detektora, gdy relacja między błędami jest odwrotna.

Problem efektów systematycznych ulega zaostrzeniu, jeśli funkcja f(E; a) ma kon-

kurentów. W opisywanej analizie Grzelaka rolę takiej funkcji odgrywają różne generatory Monte Carlo, a także algorytmy definiujące obiekt zwany dżetem, na który nie ma precyzyjnego przepisu, oraz, w mniejszym stopniu, procedury identyfikacji elektronu. Zastosowanie

różnych podejść

prowadzi

do różnych

ostatecznych

wartości

przekroju

czynnego. Nawet gdybyśmy określili całą tabelkę możliwych wariantów analizy danych

i określili przekrój czynny dla wszystkich możliwych algorytmów i procedur, to takiego

zbioru rezultatów nie moglibyśmy rozpatrywać pod względem własności statystycznych: nie istnieje przecież przestrzeń zdarzeń elementarnych, np. produkcji bozonu W, realizowana przez różne opisy teoretyczne, a co za tym idzie, uzyskana kolekcja liczb

nie stanowiłaby reprezentatywnej próbki wyników pomiaru, której własności możemy

podsumować, obliczając wartość średnią arytmetyczną i jej błąd. Szczególnie jaskrawo problem ten pojawia się w momencie, gdy przechodzimy do bardziej szczegółowych

pytań fizycznych, takich jak np. ekskluzywna produkcja pewnych typów cząstek. Tu, za-

zwyczaj, opisy teoretyczne, poszukując rozmaitych rozwiązań, stają się coraz to bardziej

modelowe, pojawiają się nie wyspecyfikowane parametry, a różnice w przewidywaniach mogą być znaczne. Oznacza to, niestety, że nie mamy żadnego narzędzia, które pozwoliłoby nam na probabilistyczną interpretację takich wyników i inkorporowanie ich rozrzutu w osta-

teczną formę niepewności. Rozwiązanie takiego problemu wykracza poza dziedzinę statystyki matematycznej. Jedynym wyjściem w takiej sytuacji jest polepszenie jakości i ilości danych — zadaniem fizyka doświadczalnika staje się wtedy rozstrzygnięcie między konkurującymi modelami. Do momentu nim to nastąpi, możemy jedynie podać wynik uzyskany w ramach jednego modelu (najbardziej popularnego, konwencjonalnie stosowanego, możliwie najlepiej zdającego sprawę z sytuacji) oraz zapoznać Czytelnika

z alternatywnymi rozwiązaniami. Do podobnej klasy problemów możemy zaliczyć wpływ wspomnianych wyżej cięć. To, że wybraliśmy taką bądź inną ich wartość, ma najczęściej dobre umotywowanie fizyczne. Naszym obowiązkiem jest jednak zbadanie ich wpływu na ostateczny rezultat. Gdy zmiany wartości mierzonej, indukowane przez cięcia nawet radykalnie różne od nominalnych, mają charakter fluktuacji mieszczących się w granicach błędów statystycznych, wtedy zasadniczo nie powinniśmy się martwić. Możemy zastosować procedurę polegającą na przesunięciu cięcia o jedno standardowe odchylenie, a uzyskaną zmianę

166

4, Momenty i statystyki pozycyjne z próby

w wielkości końcowej potraktować jako jej odchylenie standardowe. Jeśli jednak zmiany

w cięciach prowadzą do drastycznych różnic i nadają końcowemu wynikowi ewidentny trend, to wskazują one na głębszą trudność, wymagającą zrozumienia, a do tego po-

trzebujemy niezależnych i szczegółowych badań — wszak rozbieżności te mogą być sygnałem następnych efektów systematycznych. Nie byłoby dorzeczne postępowanie,

w którym ustalilibyśmy „rozsądny” zakres zmian w wyborze cięcia, a przedział sys-

tematycznych zmian wartości końcowej określilibyśmy mianem błędu systematycznego 1 usiłowali dodać go w kwadratach do pozostałych, gdyż sugerowałoby to standardową interpretację statystyczną tego przedziału w terminach estymaty dyspersji. Statystyka matematyczna nie dysponuje aparatem formalnym, pozwalającym przetłumaczyć znaczenie terminu „rozsądny przedział” na prawdopodobieństwo skojarzone z takim przedziałem.

Często, wykorzystując wyniki doświadczalne, dla których podany jest zarówno błąd

statystyczny, jak i systematyczny, stajemy wobec dylematu: jak potraktować błąd syste-

matyczny — czy wolno nam go złożyć, w kwadratach, z błędem statystycznym? W przekonaniu autora procedura taka jest dopuszczalna, ale tylko w jednym przypadku: gdy zarówno niepewność statystyczna, jak i systematyczna mają charakter odchyleń standardowych (gdyby to przekonanie zakwestionować, to autor nie byłby w stanie zrozumieć,

jak dysponując niepewnością pomiaru napięcia i natężenia prądu płynącego przez opornik, można znaleźć błąd oporu). Wynika to wprost i bezpośrednio z samej definicji wariancji. Z reguły, zadając takie pytanie, mamy

również na myśli pewne konkretne

zastosowanie dla tak złożonej w jedną całość niepewności. Chcemy ją wykorzystać w różnego rodzaju procedurach statystycznych omawianych w dalszych rozdziałach, np. wyznaczyć przedział ufności, zastosować w dopasowaniu lub użyć w teście statystycz-

nym. Z każdą z tych operacji wiąże się pewna interpretacja probabilistyczna jej konkluzji.

Musimy pamiętać, że tę interpretację uzyskamy jedynie wtedy, gdy rygorystycznie potraktujemy wymogi tychże procedur, a im skrupulatniej się do nich zastosujemy, tym bardziej wiarygodne będą nasze wnioski.

Rozważymy teraz jedną z konsekwencji efektów systematycznych. W świetle wyników podrozdziału 3.4 jest ona dość oczywista, ale warta jest uświadomienia Czytelnikowi raz jeszcze. Przypuśćmy,

że badamy

np. różniczkowy przekrój czynny lub też

całkowity przekrój czynny przy różnych wartościach energii i surowe liczby x;, znane z dokładnością s;, mnożymy przez wspólny i niezależny statystycznie od wielkości x,

czynnik korekcyjny f, znany z błędem sę. W ten sposób otrzymujemy skorygowane wartości przekroju 6;,. Dla uproszenia przyjmiemy także, że pierwotne zmienne losowe x; nie są skorelowane: ) [x;, xx] = V[x;]6;4. Proste obliczenie, odwołujące się do definicji (3.12) kowariancji, mówi nam, że wszystkie rezultaty ó, będą skorelowane, a ich

macierz kowariancji przyjmie postać

v [6,6] = bbaf) — (x) af) = bog) (F) — 60) ba) (F)? = ba, x] + 66) 60) (FF + 7) — 6a) ba) (F)? = (x) (6) V[f] + V Ba, xx] (7 [F] + (2) = (x) 2%) Vf] £Vba] (PFF] + (07) 8x Z zs? + s; (sę + f7) Bmw.

4.6. Statystyki pozycyjne z próby

167

Powinniśmy o tym wyniku pamiętać, gdy np. do naszych danych doświadczalnych będziemy dopasowywać model teoretyczny.

Fizyka fachowca można poznać po tym, jak wykonuje pomiar, a fizyka artystę —

jak znajduje i eliminuje, a jeśli nie może wyeliminować, to ocenia efekty systematyczne, poprawia je, a swoją resztkową niepewność przemienia na niepewność wartości wyniku pomiaru. Niestety, nie mamy równoległej do statystyki matematycznej dziedziny wiedzy o nazwie: systematyka matematyczna, czyli rachunek błędów systematycznych, która pozwo-

liłaby zautomatyzować procedury poszukiwania efektów systematycznych 1 poskromić ich wpływ. Efekty te są specyficzne dla każdego problemu fizycznego, który chcemy

rozwiązać, dlatego możemy tylko być czujni, podejrzewać i poszukiwać ich oraz uczyć

się na doświadczeniach własnych i innych. Powoduje to, że słuszniejsze byłoby zalicze-

nie umiejętności wykrywania i usuwania takich efektów do sztuki doświadczalnej, a nie

do rzemiosła.

—— 4,6. Statystyki pozycyjne z próby W podrozdziale 3.6 wprowadziliśmy pojęcie parametrów pozycyjnych, w tym mody i kwantyli, opisujących własności zmiennej. Podamy teraz parę uwag dotyczących estymowania tych wielkości, czyli statystyk pozycyjnych. Moda rozkładu znajduje dość powszechne zastosowania w analizie danych z ekspe-

rymentów fizycznych. Bardzo często potrzebujemy znać położenie maksimum rozkładu

takiego jak masa niezmiennicza układu cząstek, co daje nam pozycję rezonansu lub roz-

kład energii kwantów gamma powstałych w wyniku specyficznej reakcji jądrowej, jako że kwanty te niosą wiadomość o poziomach wzbudzonych jądra. Jednak w sytuacjach takich nie próbujemy mody wyznaczyć bezpośrednio z danych. Zazwyczaj dopasowu-

jemy do danych model teoretyczny i z parametrów tego modelu pochodzi znajomość tej wielkości.

Bezpośrednie oceny wartości mody z rozkładu spotykamy najczęściej w badaniach

medycznych,

biologicznych,

socjologicznych

i ekonomicznych,

gdzie

często

trudno

o wiarygodny model badanej cechy. Stosowanie mody ma wtedy pewne ograniczenia: wymaga ona dość bogatych próbek danych, tak aby histogram tych wielkości był stabilny

względem zmian szerokości przedziału i jego lewego skraju. Także dokładność, z jaką

możemy określić modę, jest ograniczona do szerokości przedziału histogramowania, dlatego też większą użyteczność ma to pojęcie w zastosowaniu do rozkładów teoretycznych. Operacyjny sposób określenia pozycji dominanty wynika z rys. 4.6, gdzie schematycznie przedstawiony jest histogram oraz dwie krzyżujące się linie. Odcięta punktu ich przecięcia podaje położenie mody z próby. Wyznaczenie kwantyla (3.29) rzędu p z próby wymaga wprowadzenia pojęcia empirycznej dystrybuanty, na którą to natknęliśmy się już w przykładzie 2.5.1. Niech będzie dana próbka x;, (i = 1,2,...,n) zrozkładu f(x) o dystrybuancie F(x), uporządkowana

niemalejąco: x; < X

£ **: < x,. O tak uporządkowanej

próbce mówimy,

że tworzy

168

4. Momenty i statystyki pozycyjne z próby

moda

Rys. 4.6. Operacyjna definicja mody w danych doświadczalnych

ona szereg pozycyjny. W przypadku próbki bardzo dużej, teoretycznie nieskończonej,

dystrybuanta F(x) określa ułamek danych w próbce, dla których zachodzi x < x. Jeśli wprowadzimy n + 1 przedziałów: (00; x,), [X1; x2), [X2; X3),..., [Xn-q; x„), [X,; 00), to

możemy oczekiwać, że na każdy przedział przypada ułamek 1/(n + 1) całości próby, tzn. 1/(n + 1) jest estymatą F(x,), 2/(n + 1) jest estymatą F (2x2) itd., aż do n/(n + 1), co jest estymatą F(x„). W ten sposób określiliśmy empiryczną dystrybuantę w postaci schodkowej funkcji, wzrastającej o 1/(n + 1) w punkcie, w którym mamy daną doświad-

czalną:

0

X

X > X.

LO r 0,9 | 0,8 0,7 0,6 0,5 F 0,4 | 0,3 | 0,2 | 0,1 F 0,0

0

i

I

0,5

1

x

1,5

Rys. 4.7. Definicja dystrybuanty empirycznej i procedura wyznaczania kwantyla x, rzędu p

2

4.6. Statystyki pozycyjne z próby

169

Kwantyle z próby znajdujemy z wykresu takiej funkcji metodą interpolacji liniowej, tak jak to zademonstrowane jest na rys. 4.7. Kwantyle, które są wielokrotnością 1/10 to tzw. decyle, a wielokrotności 1/100 to centyle, zwane też percentylami. Naturalnie, mamy także kwartyle, czyli kwantyle rzędu 0,25 (dolny) i 0,75 (górny). Przy okazji: co

autorzy artykułu (Rzeczpospolita, 28 listopada 1996), mieli na myśli, używając terminu kwintyl (tak — kwintyl, a nie: kwantyl) w następującym cytacie? We wspomnianych

latach rewolucji Reaganowskiej (...), aż 86% tych, którzy w roku 1979 znajdowali się na dole drabiny dochodów, tj. wśród 20% pracowników o najniższych dochodach, po-

wędrowało w górę tejże drabiny do czterech wyższych kwintyli, z czego 15% dotarło aż do najwyższej grupy, tj. 20% pracowników o najwyższych dochodach. Sposób wprowadzenia empirycznej dystrybuanty skłania nas do wniosku, że kwan-

tyle g, badanego rozkładu, określone równaniem:

F(q,) = i zmierzone wielkości x;, powinny

i

El

łączyć się związkiem liniowym, jeśli poprawnie

odgadniemy postać dystrybuanty F. Własność ta jest wykorzystywana w tzw. wykresach kwantyli, zwanych także wykresami prawdopodobieństwa, które pozwalają dokonać

wstępnego sprawdzenia słuszności założeń o kształcie rozkładu. Przykłady zastosowania tych diagramów przedstawiamy w rozdziale omawiającym rozkład wykładniczy (przykład 5.3.4 oraz 5.3.7) 1 Gaussa (podrozdział 5.5.2), a także w przykładzie 7.3.1. Musimy

pamiętać, że wykresy takie są jednak tylko jakościowym narzędziem, choć nieocenionym w zagadnieniach z małą liczbą danych, gdyż jak wspomnieliśmy, dystrybuanta empiryczna podlega fłuktuacjom i tym lepiej oddaje rzeczywisty kształt rozkładu, im badana próbka jest liczniejsza. Z kolei, dysponując liczną próbą, możemy

uruchomić

regularne narzędzia analizy rozkładu, o których będziemy mówili w rozdziale 8. Wspomnimy także o pewnej interesującej własności, jaką ma kwantyl rzędu 0,5, czyli mediana, a której to własności pozbawiona jest wartość oczekiwana, a tym samym

1 średnia arytmetyczna. Otóż, jeśli interesuje nas pewna funkcja h(x) zmiennej losowej x o rozkładzie f(x), to wartość oczekiwana (h(x)) tej funkcji nie jest, w ogólności —

z wyjątkiem funkcji liniowej — funkcją h((x)) wartości oczekiwanej. Tak więc pierwszy

moment rozkładu charakteryzuje się brakiem zgodności pod względem operacji zamiany zmiennej. Spójrzmy na kwantyl x, dowolnego rzędu p. Określony jest on warunkiem p = F(x,), gdzie F jest dystrybuantą rozkładu f(x). Jeśli dokonamy zamiany zmiennej: x

y=h(x),

przy założeniu, że funkcja h jest ściśle monotoniczna, to Xp

h(xp)

p

p= J fQ)dx = J FaG)zydy = | s) dy, d

a więc kwantyl dowolnego rzędu zadany jest, po zamianie zmiennej, wartością funkcji przekształcającej h(x) do nowej zmiennej y. Dlatego też stosowanie mediany jako miary

centralności rozkładu, zamiast wartości oczekiwanej, jest w pewnym eleganckie pod względem matematycznym.

sensie bardziej

170

4. Momenty i statystyki pozycyjne z próby

Jest jeszcze drugi aspekt czyniący z mediany atrakcyjne narzędzie opisu własności zmiennej losowej. Otóż wartość oczekiwaną możemy zdefiniować jako taką liczbę a, która prowadzi do najmniejszej wartości wariancji obliczanej jako drugi moment rozkładu względem tej liczby:

E|x-a)”]=€[x'] — ać [x] +a*” =mina)

+

a=€fx].

Jeśli rozkład jest wysoce asymetryczny, wtedy jedno ze skrzydeł rozkładu ma istotny wpływ na jego środek ciężkości, który będzie silnie przesunięty w kierunku tego skrzydła. Już Laplace zaproponował, że lepsza w takim przypadku może być wielkość m,

która minimalizuje absolutne odchylenie, a nie jego kwadrat:

(x- mj) = J z-mfajd=| m-»)fodx+ | G-m/fG)dx = mintm) Wykonując różniczkowanie: d

OO

m

zzm K-m=

| rod

|

rodr=o. m

znajdujemy, że poszukiwana wielkość to mediana. Ponieważ mediana mierzy odstępstwa zmiennej losowej na skali liniowej, a nie kwadratowej, jak wartość oczekiwana, tym samym powinna ona być mniej czuła na asymetrię rozkładu. Jeśli wyobrazimy sobie wieś, w której mamy wielu biedaków i jednego bogacza, to mediana rozkładu zasobności mieszkańców wierniej będzie oddawać poziom ubóstwa ludności tej wsi, wskazując na jednego z biedaków, niż średnia arytmetyczna, która przesunięta będzie w stronę dochodów bogacza. Taką cechę estymatora nazywamy solidnością (ang. robustness) względem fluktuacji na krańcach rozkładu. Podobną własnością charakteryzują się także kwantyle rozkładu, w szczególności wspomniany w podrozdziale 3.6 odstęp międzykwartylowy

jako miara rozproszenia zmiennej losowej.

Rozkład g(x1, x, ... ,x„) statystyk pozycyjnych dla próbki prostej łatwo znajdziemy, jeśli tylko uświadomimy sobie, że stanowią one uporządkowany ciąg zmiennych losowych x, £< X £::: < x,, każda o tym samym rozkładzie f(x): 803,

X,

...

X)



n! f(x)

f 02)

.:

J (Xn);

X]




kn;,.

k=l

Pozostaje nam wypisanie wyrażenia na liczbę sposobów, na jaki możemy rozłożyć n, cząstek między g, stanów. Zadanie sprowadza się do określenia liczby sposobów wyboru krotności n,, spośród g, możliwości. Tę wielkość już znamy. Wynosi ona gi! ————-No! R!

.. np!

co daje natychmiast liczbę sposobów rozkładu n = n, +m+-::+n, między m stanów

Zadanie nasze sprowadza względem liczb n,

się do znalezienia maksimum m

In2

=

3 i=l

logarytmu tej wielkości

P

(s:



mn) k=l

=

cząstek

max(n;),

5,1. Elementy analizy kombinatorycznej

przy dodatkowych warunkach wiążących na degenerację, całkowitą liczbę cząstek i całkowitą energię: p

Ś: —

m

)

Nik»

n=

m

>

k=0

n, =

i=l

p

)

)

i=|l

k=l

m

knik,

E =

)

p

m

E,h; =

i=l

>

)

i=l

k=l

kE;nik.

Wyrażenie, które mamy maksymalizować, nie zależy do liczb n, cząstek, lecz od krotności n;;. Nie jest to utrudnienie matematyczne, gdyż prosta suma wielkości

n,. daje nam liczby n,, więc maksimum względem krotności da nam jednocześnie maksimum względem liczb cząstek. Ponieważ wielkości n,, nie są niezależne, zastosujemy metodę współczynników Lagrange'a, dodając do logarytmu prawdopodobieństwa termodynamicznego trzy dodatkowe człony wyrażające równania wię-

zów pomnożone przez nieznane liczby (mnożniki Lagrange a): 3

(

(>

i=l

m

)



Sin

k=l

0)

+

a

(>

k=l

+ B (>

YU ken

— e)

+Y

(>

k=l

i=l

I

i=l

Knyy



)

k=l

Nik — .)

= max(n;4, ©, B, Y).

k=0

Różniczkując powyższe wyrażenie względem n.,,, otrzymujemy, po wykorzystaniu wzoru Stirlinga (5.5), uwzgłędniającego jedynie wyraz wiodący w wykładniku, równania na nieznane krotności:

in Ś +ak+fBke,ty=0, Nik

a stąd ny = giexply + k(a + Be,)] = g,e explk(a + Be;)] = gie” x*, gdzie

x =exp(a + Pe,). Współczynnik y Lagrangea możemy wyeliminować przez powiązanie stopnia de-

generacji z sumą krotności, Pp

p

kz=Q)

k= 0

l

xP!

=) ,nx=ge ) x =gie (l+x+...+ x”) = gie —



>

e

A

co daje nam Nik = Si

lx

,

— qprl zpet

b)

po wykorzystaniu szkolnego wzoru na sumę szeregu geometrycznego ltxtx”

X

+...

+x

naa

_1=x"

=

l-x

1-x

—..l xP

189

190

5. Niektóre rozkłady

Liczbę n, cząstek w i-tym stanie uzyskamy, wykonując sumowanie

ź

nh, = 2*ra

s

(

l-x

= Sisi zp

2

l

p+ 1

"lep(e+fe)-1

expllP+1)(a+8e)]-1)

)

Występującą w tym wyrażeniu sumę znajdujemy następującą metodą: yw

=a)

ji =w)

dt

D_*

—= «z

(7). 1-—x

Nieznane wielkości © oraz 8 wyznaczane są z całkowitej liczby cząstek i cał-

kowitej energii układu. Pozostawimy Czytelnikowi wykazanie, że dla p = 1 odzyskujemy z tego wyrażenia rozkład Fermiego-Diraca, a dla p * 00 rozkład Bosego—Einsteina. Parastatystyki pozostają do chwili obecnej „zabawką” teoretyczną, gdyż nie odkryto w przyrodzie cząstek, które by im podlegały. n

Rys. 5.1. Cztery typy relacji kombinatorycznych

Podsumowanie czterech pojęć: wariacji i kombinacji w wersji z powtórzeniami i bez, podane jest na rys 5.1. Umieszczona jest na nim także, uzupełniająca naszą krzyżową klasyfikację, dotychczas niewyspecyfikowana możliwość określająca liczbę k-wyrazowych kombinacji z powtórzeniami ze zbioru n-elementowego:

(0%

)=(

n

0,

—Kk-1

)=

JJ

Gr

nik-1D!

Spotkaliśmy to pojęcie w przykładzie 5.1.5, gdy rozważaliśmy liczbę rozwiązań równania n; + na +*:: + ny =n dla nieujemnych i całkowitych liczb n;.

5.2, Rozkład dwu- i wiełomianowy —-

191

Przykład 5.1.6

Kombinacje z powtórzeniami Pojęcie kombinacji z powtórzeniami jest bardzo rzadko spotykane w fizyce, dłatego zilustrujemy je klasycznym zagadnieniem z kostkami do gry. Jeśli rzucamy

dwie różne, np. różnych kolorów, kostki, to liczba możliwych konfiguracji wyników określona jest przez iloczyn liczb konfiguracji każdej z kostek i zadaje 36 możliwości, przy czym układ: szóstka na kostce czerwonej i jedynka na kostce zielonej, to różny układ od układu: szóstka na kostce zielonej i jedynka na kostce czerwonej. Jeśli jednak kostki zechcemy potraktować jako identyczne, to oba układy są nierozróżnialne, a to oznacza jedynie

(30,) k-1

L (6, 6—1

_ (2) 5

ZY

różnych możliwości określonych przez następujące pary:

(1,1), 2, 1), G, 1), (4, 1), 6, 1), (6, 1), (2, 2), (3, 2), (4, 2), 6, 2), (6, 2), (3, 3), (4, 3), (5, 3), (6, 3), (4, 4), 5,4), (6, 4), (5, 5), (6, 5), (6, 6). Podobnie, rzucając pięć monet, otrzymamy sześć następujących układów: OOO0OQ, ROOOO, RROOO, RRROO, RRRRO, RRRRR. TI

—— 5.2. Rozkład dwu- i wielomianowy 5.2.1. Rozkład dwumianowy — wyprowadzenie Rozważmy następujący przykład. Stańmy przed lokalnym sklepem i notujmy płeć wchodzącej osoby. Mamy jedynie dwie możliwości: wchodząca osoba może być kobietą bądź mężczyzną. Autor zebrał próbkę 1000 takich przypadków, w której znalazły się 683 kobiety i 317 mężczyzn. Podzielmy teraz tę próbkę chronologicznie na kolejne dziesiątki,

będziemy mieli wtedy n = 100 podpróbek, a w każdej z nich liczba k kobiet może być a priori równa 0, 1,2,...,10. Znajdźmy następnie liczby ny określające liczby podpróbek, w których były właśnie takie liczby kobiet. Możemy teraz określić częstości pojawiania się k kobiet w dziesięcioosobowych grupach wchodzących do sklepu. Wykres tych częstości przedstawiony jest na rys. 5.2 w postaci szarego histogramu. Tak wykonane doświadczenie nie różni się w swej treści formalnej od doświadczalnego badania sposobów rozpadu jądra promieniotwórczego bizmutu, o którym wspomi-

namy w rozdziale 1. W jednym i w drugim przypadku dokonujemy serii niezależnych

192

5. Niektóre rozkłady

częstość

0,35 0,30

-

0,25

|-

0,20

|

0,15

+

0.10 0,05

-

0,00

L

i

0

1

e_1

2

e

3

4 5 6 liczba k kobiet

7

Rys. 5.2. Rozkład liczby kobiet w grupach dziesięcioosobowych w próbce 1000 osób

prób, oczekując w każdej z nich jednej z dwu możliwości: kobiety lub mężczyzny, lub, jak w przypadku rozpadu promieniotwórczego: przemiany a lub 8. Przyjmijmy na potrzeby dałszej dyskusji, że w każdym z takich dychotomicznych doświadczeń pierwsza możliwość reprezentuje sukces, a druga porażkę w danym losowaniu. Sukcesowi możemy przypisać umownie wartość jeden, a porażce wartość zero. W każdej z prób mamy pewne (w naszym przypadku nieznane, co nie zmienia istoty

rzeczy) prawdopodobieństwo p sukcesu i prawdopodobieństwo porażki q = Możemy podać zwarte wyrażenie na tak zadany rozkład prawdopodobieństwa:

PDD=pP'l-p)'*, zwany dwupunktowym

dla

1 — p.

k=Ql,

lub Bernoulliego, o momentach

€[k]l=p

oraz

Y[k] = p(l — p).

Jeśli w kolejnych losowaniach prawdopodobieństwo

p

nie ulega zmianie, to zarysowane postępowanie tak często

trafia się w życiu statystycznym, że zasłużyło sobie na spe-

cjalną nazwę: schemat Bernoulliego. Naszym zadaniem jest

określenie prawdopodobieństwa 5,(n, p) uzyskania k sukcesów w n próbach Bernoulliego, czyli próbach przeprowadzonych według tego schematu. Formalnie moglibyśmy to zrobić, tworząc sumę n zmiennych k,, każda z rozkładu Bernoulliego:

k=l+kh+:''-+kn .

Jacob Bernoulli,

1654-1705

(5.9)

i znaleźć rozkład prawdopodobieństwa zmiennej .

.

=

.

-

k. Postą.

pimy jednak bardziej poglądowo i zaczniemy od pytania o prawdopodobieństwo uzyskania, np. przy obserwacji ko-

5.2. Rozkład dwu- i wielomianowy

193

biet w grupach dziesięcioosobowych, następującej sekwencji osób wchodzących do sklepu: KKMKKMKMMK,czyli sześciu kobiet i czterech mężczyzn. Ponieważ wy-

nik każdej obserwacji osoby wchodzącej jest niezależny od wyniku innej obserwacji,

więc to prawdopodobieństwo musi być iloczynem prawdopodobieństw

sukcesów i po-

rażek w każdej z prób: pp(l — p)ppd — p)pl — pO — p)p = p*(l — p)* lub

ogólnie: p*(1 — p)”*. Jednak to co nas interesuje najczęściej, to nie prawdopodobień-

stwo specyficznej sekwencji rezultatów (czyli uporządkowanie, choć i to bywa czasami przedmiotem badań), lecz prawdopodobieństwo uzyskania po prostu k sukcesów, nie-

zależnie od kolejności, w jakiej się one pojawiają. Z, podrozdziału 5.1 znamy liczbę sposobów ustawienia liter K oraz M w ciągu o długości n tak, aby litera K wystąpiła dokładnie

k razy,

a litera M

dokładnie

n — k razy. Wiemy

również,

że na

mocy niezałeżności każdej z prób, każda sekwencja ma identyczne prawdopodobieństwo, co oznacza, że owe prawdopodobieństwa musimy zsumować, a otrzymamy rozkład

Bl, P) = grą pi U - P"*

(5.10)

zwany dwumianowym, prawdopodobieństwa uzyskania k sukcesów w n próbach przeprowadzonych wg schematu Bernoulliego, czyli wtedy, gdy poszczególne próby są niezależne, a prawdopodobieństwo sukcesu w każdej z prób jest stałe 1 wynosi p. Zauważmy, że parametry n i p są pewnymi zadanymi wielkościami, natomiast zmienną losową jest liczba k sukcesów. Rozkład ten, dla n = 20 i kilku wartości parametru p podany

jest na wykresie 5.3 za pomocą punktów (linia ciągła jest bez znaczenia, ma jedynie „poprowadzić oko” Czytelnika). 0,40

0,30

p=0,05

1

0,35 -

0,25

p=0,25

0,20 -

p=0,75

p=05

0,15 0,10 0,05 0,00

+

0

2

ę

4

©

4

6

©


0,05, zawężamy zakres możliwych wartości parametru p do przedziału od zera do Po = 3,0-107*. Jeśli jesteśmy ostrożni, powinniśmy się raczej zdecydować na u = 0,01, a może nawet na 0,001. Gdy gotowi jesteśmy zaryzykować, możemy zgodzić

197

5.2. Rozkład dwu- i wielomianowy

się naa = 0,10. Zauważmy jednak, że wielkość I —a określa prawdopodobieństwo P(k > l;n, p) znalezienia przynajmniej jednego przypadku:

l-a=P(k>l;n,p)=)

k=|

Bln,p) =1— Boln, p),

(5.11)

co pozwala przeprowadzić następujące rozumowanie: jeśli parametr p spełnia nie-

równość p > py = 3,0 -: 107%, to prawdopodobieństwo zaobserwowania jednego lub więcej przypadków jest wtedy większe od I — a = 0,95. Skoro jednak nie widzimy przypadków w ogóle, więc możemy wykluczyć tę właśnie wartość parametru, a także i większe wartości, czyniąc z liczby po = 3,0 : 107* dolną granicę (kres dolny) przedziału [po; I] wykluczonych przez eksperyment wartości parametru p. Wykluczanie to występuje jednak z pewną wiarygodnością, określoną właśnie liczbą 0,95. Wielkość I — x, mnożona często przez 100 i wyrażana w pro-

centach, zwana jest poziomem ufności.

Ah

t-a

=



3

B(n,p)

| I ! ! | I

|

ł

4

| |

ł

u I

Rys. 5.6. Ilustracja problemu wyklu-

czania na zadanym poziomie ufnoŚCi

-€ +



]

" "e 4

|

k

>

Wyniki naszego eksperymentu możemy podsumować w następujący sposób: brak obserwacji, spośród miliona przypadków, rozpadu leptonu i w kanale e e*e” wyklucza, na poziomie ufności 95%, wartość współczynnika rozgałęzienia większą niż 3,0 : 107”. Wypowiedzmy to zdanie jeszcze raz, wyjaśniając jego sens proba-

bilistyczny. Gdyby współczynnik rozgałęzienia był większy niż 3,0 - 107*, wtedy

w olbrzymiej liczbie eksperymentów — teoretycznie nieskończonej — każdy po

jednym milionie przypadków rozpadów leptonów, przynajmniej w 95% takich eksperymentów zaobserwowalibyśmy co najmniej jeden poszukiwany rozpad, a co

najwyżej 5% spośród nich nie napotkałoby żadnego rozpadu. W języku potocznym bardzo często mówimy w takich sytuacjach o stu eksperymentach, z których przynajmniej 95 zaobserwowałoby co najmniej jeden rozpad, a co najwyżej 5 nie znalazłoby żadnego. Jest to oczywiście skrót myślowy, jako że w stu eksperymentach, z uwagi na statystyczny charakter rozpadu, mogłaby pojawić się sytuacja, w której np. 94 widziałoby przynajmniej jeden rozpad, a 6 żadnego. Tak długo

jednak, jak przez liczbę 100 będziemy rozumieli przejście graniczne z klasycznej definicji prawdopodobieństwa,

taką interpretacyjną parafrazę będziemy

uznawali

za dopuszczalną. Czy wykluczając na poziomie ufności dziewięćdziesięciu pięciu procent wartości parametru p większe od pę = 3,0 -: 107” zaakceptowaliśmy na tym samym

198

5. Niektóre rozkłady

poziomie ufności wartości tego parametru mniejsze niż py? Oczywiście nie. JeŚli parametr p jest równy po, to zerową liczbę przypadków znajdziemy w pięciu procentach doświadczeń. Jeśli wielkość p jest mniejsza niż py, wtedy ułamek eks-

perymentów z zerową liczbą przypadków będzie większy niż 5%. Oznacza to, że

wykluczanie na poziomie 95% oznacza dopuszczanie możliwości, że p < pę na poziomie ufności nie mniejszym niż 5%. Dlatego czasami, w języku potocznym, mówimy o parametrze p, jako o górnej granicy (górnym kresie) dopuszczonych przez eksperyment wartości wielkości p.

r

Schemat Bernoulliego możemy także zastosować do innego zagadnienia. Otóż, wykonując kolejne próby, możemy zapytać o prawdopodobieństwo pierwszego sukcesu w pierwszej, drugiej, trzeciej, ... próbie. Jeśli przez S oznaczymy sukces, a przez P porażkę, to przestrzeń zdarzeń elementarnych dla tego zagadnienia składa się z następujących, rozłącznych zdarzeń: S$, PS, PPS, PPPS itd. Prawdopodobieństwo uzyskania sukcesu w k-tej próbie wynosi

Gl(p)=pd-p)*"!,

k=1,2,3,....

(5.12)

Łatwo sprawdzamy, że rozkład ten jest poprawnie unormowany. Nosi on nazwę rozkładu geometrycznego. Uogólnieniem tego rozkładu jest rozkład sumy zadanej liczby n składników, każdy z rozkładu geometrycznego. Opisuje on prawdopodobieństwo przeprowadzenia k prób, w trakcie których uzyskano zadaną liczbę n < k sukcesów, przy czym ostatnia próba zakończona jest sukcesem. Ponieważ prawdopodobieństwo n sukcesów dane jest przez p”, a prawdopodobieństwo k — n porażek to (1 — p)*"", więc

rozkład ten jest opisany wyrażeniem: ua,

p =(

n-l

jra

pr".

n=1,2,...,

k=nn+l,n+2,...,

(5.13)

gdzie czynnik kombinatoryczny wynika z rozmieszczenia n — 1 sukcesów pośród k — 1

prób (ostatnia próba zakończona jest sukcesem).

Rozkład ten

zwany jest w literaturze rozkładem ujemnym dwumianowym lub też rozkładem Pascala. Poprawność unormowania tego rozkładu wynika z rozwinięcia Taylora: —

(k-1

X (-1)7'

(1



p)

kn _.

—_

/m+n—-1

ry( „n

PD

nh

"d-q"

gdzie podstawiliśmy m = k—n,q

Blaise Pascal, 1623-1662

n-1 Je

m

L,

= l — p. Ujemny rozkład

dwumianowy występuje niekiedy w postaci (4„(n, p), zadającej liczbę m = k — n porażek przed wystąpieniem sukcesu o numerze n:

5.2. Rozkład dwu- i wielomianowy

in, p = (

n+m—l



n=l,2,...,

pra

199

ma p)”,

m=0,1,2,....

(5.14)

5.2.2. Momenty rozkładu dwumianowego i ich estymatory Najpierw znajdziemy wartość oczekiwaną:

a=pi""7 P k) = 2_kq k=0 —

k(1

on

=

n

ki

n!



Dia=pi = 2w= k=l —_

=)

=

__

"77

ga =i" U __

n=k

=P)

(m — 1):

DRIN"

=p

kr

ni



n=k __

k—1/1

07

e

(n

.

__

nk

p)

1)!

R=DIu=BI" „ln-1)-(k—1)

_

k—1g4

0

nk

P)

|

Jeśli w ostatniej sumie dokonamy zamiany zmiennej: m = k — 1, to nl

— |D!



ln—1,p) =np. = n- „i A - p)” »" =np)_B m=0

= "p > czyli ostatecznie

€ [k] = np.

(5.15)

By obliczyć wariancję zmiennej, znajdziemy najpierw (k*

|= > -_

=hn

IG gi?

kn

PH

k

- m$ m _

| —

U-P)

nk

k-1 (1 — p) -D-(k-1 DG D

(a — 1)!

k-DKu-D=k=D)" -|

(n — 1)!

| ma zD=mi

m

7

1



P)

p

(n—1)—m

n—l

= np ) | (m + 1)B„(n — 1. p) = np (m + 1) = np((n — 1)p + I). m=0

gdzie m =k — 1. Odejmując kwadrat wartości oczekiwanej, otrzymujemy

V[k] = npq = npl — p).

(5.16)

200

5. Niektóre rozkłady

Oba wyniki: (5.15) 1 (5.16), są dość oczywiste w świetle związków (3.16) i (3.9) i faktu, że rozkład dwumianowy opisuje rozkład sumy (5.9) n niezależnych statystycznie zmiennych losowych z rozkładu dwupunktowego.

Wynik dla wariancji zmiennej k podpowiada nam, że v B n

= —Y [kl = —npq - A n n n

(5.17)

Zajmiemy się teraz estymatorem p wielkości p, jeśli w wyniku eksperymentu powtórzonego n razy uzyskaliśmy k sukcesów. Spróbujmy: „ k p=— n

(5.18)

1 obliczmy wartość oczekiwaną tej wielkości: » k l l =(7)=;60=7mw=p Tym samym wielkość p jest nieobciążonym estymatorem parametru p. Poszukajmy także estymatora s; wariancji zmiennej losowej k, wyrażając go, na próbę, przez k

k

np(l-p)=n-|l--|=k n n A

A

n=k

n

l,

=k—=k. n

Biorąc wartość oczekiwaną tego wyrażenia, znajdujemy, iż l

l

(k) — — (k*) = np — "pln — 1)p + 1) = (n — 1)pq. Widzimy, że powinniśmy raczej wybrać wielkość 2 _

ko

n-l

np(l — p),

(5.19)

co da nieobciążony estymator. Podobnie dla estymatora s; wariancji wielkości p otrzymujemy

| s;2 = ——-p(l —D). Pn-l

Powróćmy

(5.20)

do naszych obserwacji liczby kobiet czyniących zakupy. Estymata p, dana

wyrażeniem (5.18), wartości prawdopodobieństwa p zaobserwowania kobiety jako osoby wchodzącej do sklepu, a także jej niepewność (5.20), możemy określić z danych doświadczalnych: p = 0,683 + 0,015. Wykorzystując tę wielkość, na wykresie 5.2 dorysowane zostały, w postaci kropek, wartości prawdopodobieństwa B,(10,

0,683). Oczywiście, po-

zostaje otwarty problem zgodności między obserwowanymi częstościami a obliczonymi prawdopodobieństwami, które, nawiasem mówiąc, są obarczone niepewnością, jako że do ich znalezienia wykorzystaliśmy estymatę p.

5.2. Rozkład dwu- i wiełomianowy

"--

Przykład 5.2.3 Wir wodny Dawno temu autor natknął się w jednym z czasopism na rewelacyjną informację. Pewien dziennikarz, relacjonując swój pobyt na półkuli południowej, twierdził, że

kierunek wiru, jaki powstaje w wannie przy spuszczaniu z niej wody po kąpieli

jest po tamtej stronie równika inny niż w naszej części Świata. Dziennikarz ten podawał nawet wytłumaczenie tego zjawiska, czyniąc zań odpowiedzialną siłę Coriolisa. Przygotowanie niniejszego wykładu stało się pretekstem do zweryfikowania

tej hipotezy, a Ściślej, sprawdzenia, czy istotnie spływająca woda preferuje pewien

kierunek obrotu. W wyniku eksperymentu powtórzonego 100 razy o różnych porach dnia i roku autor ustalił, że wytworzony wir w 43 przypadkach powodował obrót masy wody w kierunku zgodnym z kierunkiem ruchu wskazówek zegara,

a w pozostałych 57 przypadkach obrót miał kierunek przeciwny.

Znając wyrażenia (5.18) i (5.20) na estymatory, możemy pokusić się o weryfikację hipotezy o tym, że wir nie wykazuje uprzywilejowanego kierunku. Gdyby tak było, to wartość prawdopodobieństwa p sukcesu (obrót wiru w kierunku ruchu

wskazówek zegara) w pojedynczej próbie powinna wynosić 1/2, podczas gdy my,

podstawiając do wzorów na estymatory, obserwujemy: b = 0,43 + 0,05. natywnie, możemy powiedzieć, że winniśmy oczekiwać 50 wirów w jedną i 50 wirów w drugą, podczas gdy doświadczenie daje w wyniku: 43 + 5. wowane odchylenie liczby wirów od wartości oczekiwanej jest większe niż

Alterstronę Obsertypowa

fluktuacja. Nie oznacza to jeszcze, że mamy do czynienia z sytuacją, która definitywnie wskazuje na preferowany kierunek obrotu wody. Wniosek ten wynika

z następującego rozumowania. Przyjmijmy chwilowo słuszność hipotezy o braku preferencji, wtedy w próbce 100 pomiarów oczekujemy, że fluktuacje liczby wirów wokół wartości 50 będą wynosiły:

VM = ampl

= 10-5-(1-5)=25=5: 2

2

Jak często będą zdarzały się odchylenia o co najwyżej obserwowaną liczbę siedmiu wirów od wartości oczekiwanej? Czyli: jaka jest szansa na to, by liczba wirów była zawarta między 43 a 57? Szansa ta jest dana przez: 57

P(43

sf-zjs-2-I(x) x

1667-1754

otrzymujemy

(k — np)” 2npq

—————

=

Ń

(zachowując

l /2no

eX

?

wyrazy

najniższego

(k— n)” ) , 20?

—_0_|-

(5.26)

gdzie o? = npq oraz u = np. Jest to poszukiwana postać graniczna rozkładu dwumianowego dla dużej wartości liczby n prób, zwana rozkładem Gaussa. Fakt istnienia związku między tymi rozkładami określany jest mianem lokalnego twierdzenia de Moivre—Laplace'a. Porównanie formy granicznej i postaci Ścisłej zamieszczone jest na rys. 5.8, gdzie punkty odpowiadają rozkładowi dwumianowemu, a linia ciągła to rozkład Gaussa, który jak widać jest nieco przesunięty w prawo, przynajmniej dla mniejszych wartości liczby prób. Aby zniwelować ten efekt, stosuje się niekiedy zmodyfikowaną formę związku (5.26):

"DS

I

/Zmpą ? (

(k — (np — 3))

2npq

B,(n, p) £ —p1

—np Pa npa(l — a)

... **:

—NDP;-1P1

—NDpPj;-1P2

..

|

.

|

—np1P;-1 —npaPj-1

sa

np;_1(1

(5.34)

— Pi-1)

Ta ogólna postać

W... M, P1,---, Dj) FE

l

(8) "fa

1 exp (-; (k — (kj) V"' (k — Y

to postać wielowymiarowego rozkładu Gaussa.

—-- 8.3. Rozkład wykładniczy 5.3.1. Wyprowadzenie Autor, przystępując do pisania tego rozdziału, wykonał następujący eksperyment: zmierzył wielokrotnie czas oczekiwania na przejazd koło niego jakiegokolwiek samochodu na jednej z ulic Ursynowa. Rezultat tego pomiaru przedstawia unormowany do jedności histogram 5.10, będący eksperymentalną gęstością prawdopodobieństwa przejazdu samochodu w czasie kolejnych sekund, tzn. wysokość „słupka” umieszczonego na wybranym przedziale czasu, pomnożona przez odpowiadający mu przedział czasowy (w tym przypadku jedną sekundę) daje eksperymentalne prawdopodobieństwo przejazdu samochodu w trakcie tego przedziału czasu. Na przykład prawdopodobieństwo, że w czasie pierwszej sekundy przejedzie koło nas samochód, wynosi około 18%. Znaczenie dodatkowej linii ciągłej oraz formuły matematycznej wyjaśnimy w dalszej części rozważań.

Ze swej konstrukcji suma wysokości „słupków” histogramu pomnożonych przez związany z każdym z nich przedział czasowy daje jedność. Powinniśmy zwrócić uwagę na

to, że czas jest zmienną ciągłą, my — przez grupowanie danych — opisujemy zjawisko w zmiennej o charakterze dyskretnym. Ta „dyskretyzacja” pozwoli nam, wykorzystując dotychczasowe informacje, zbudować model znalezionej zależności. | Z, podrozdziału 5.2 wiemy, że prawdopodobieństwo B;(n, p) zanotowania k sukcesów w n próbach, jeśli prawdopodobieństwo odnotowania sukcesu w pojedynczej próbie

wynosi p, dane jest rozkładem dwumianowym (5.10). Zadajmy teraz pytanie o prawdo-

podobieństwo Q, = Bę(n, p) braku sukcesu we wszystkich kolejnych n próbach (czeka-

nie to właśnie uporczywy brak sukcesu). Warunkiem takiego zdarzenia jest brak sukcesu w każdej z kolejnych prób, a prawdopodobieństwo takiego zdarzenia, na mocy własności rozkładu dwumianowego, to Q, = (1 — p)”. Ponieważ będziemy chcieli przejść do rozkładu ciągłego, pojedynczy czas t oczekiwania na przejazd samochodu, konstytuujący jeden przypadek na naszym histogramie, podzielimy na n równych przedziałów o długości Aż, przy czym liczba n jest bardzo duża, a w ostatecznym wyrażeniu przejdziemy

z jej wartością do nieskończoności. Ważne jest uświadomienie sobie, że przedział At

gęstość [1/s]

5,3. Rozkład wykładniczy

0,20 0,18 ks. 0,16 0,14 0,12 0,10 0,08 0,06 0,04

y= 0,193 exp(-0,1931)

0,02 ż

0,00

0

217

1

e

BE

5

10

15 20 czas oczekiwania [s]

25

30

Rys. 5.10. Rozkład czasu oczekiwania na przejazd samochodu na ulicy

nie ma żadnego związku z przedziałami histogramowania. Powinniśmy raczej sobie wyobrazić, że stajemy przy ulicy, włączamy stoper i czekamy na pierwszy nadjeżdżający

samochód i ten czas oczekiwania — choćby nawet był bardzo krótki — dzielimy w myśli na bardzo dużą liczbę bardzo małych odcinków czasowych Aż, a oczekiwanie w każ-

dym takim odcinku to właśnie jedna próba ze schematu Bernoulliego. W każdej z takich

prób mamy pewne prawdopodobieństwo p przejazdu samochodu. Jeśli przyjmiemy, że wielkość ta jest stała w każdej z prób, to rezultat przejścia granicznego n — oo nie

będzie imponujący — otrzymujemy po prostu zero

Q,=(1-p)'



Nn—>OO

0,

o ile wielkość p nie jest równa zeru, co jawnie stoi w sprzeczności z danymi doświadczalnymi. Dlatego też wielkość p musimy uzależnić od przedziału czasowego, w którym

w danej chwili się znajdujemy, czekając na samochód. Najprostszej możliwości dostarcza model, w którym wielkość p nie zależy od numeru przedziału, choć jest ona proporcjonalna do wielkości tego przedziału: p x At, co też zapisujemy jako At p=AAt=—, (5.35) n gdzie wielkość A, zwana często intensywnością, jest już prawdziwie stałą liczbą o wymiarze odwrotności czasu. Jej interpretację znajdujemy z (5.35) i wartości oczekiwanej

(5.15) rozkładu dwumianowego:

|

WH

niani

n

n

z4= e

(5.36)

Widzimy, że wielkość ta określa typową liczbę zdarzeń na jednostkę czasu. Podstawiając (5.35) do wyrażenia na prawdopodobieństwo braku sukcesu, otrzymujemy Q, = (

— =



Nn—>0O

Q(t; A) =exp(-At).

218

5. Niektóre rozkłady

Teraz możemy już znaleźć dystrybuantę (2.19), czyli prawdopodobieństwo P(0 < t < t; A) = F(t; A) sukcesu w przedziale czasu od zera do t, jako uzupełnienie porażki: Ft;A)=1—

a po

zróżniczkowaniu,

w chwili £:

dF(t:A E(t; A) = a

funkcję

QQG;A) =1 — exp(—At),

gęstości

prawdopodobieństwa

= Aexp(=At)

dla

)00

k )

de". ©

Wyprowadzenie to uzasadnia inną, bardzo udatną, nazwę rozkładu geometrycznego: rozkład dyskretnych czasów oczekiwania. ——

Przykład 5.3.2 Obszar wykluczania

Rozważmy eksperyment poszukujący rozpadu nukłeonu. Wyobraźmy sobie wypełniony wodą pojemnik o rozmiarach 10 m x 10 m x 10 m, a więc zawierający

1000 ton wody, czyli około n = 6 - 10? nukleonów. Ciągła obserwacja tej objętości

wody przez jeden rok jest równoważna (patrz niżej) obserwowaniu pojedynczego

nukleonu przez T = 6 - 10% lat. Podobnie jak w przykładzie 5.2.2, możemy

tutaj zapytać o długość czasu £ obserwacji, aby przy zadanym oczekiwanym czasie życia r nukleonu prawdopodobieństwo P(t < t; T) zaobserwowania rozpadu przynajmniej jednego nukleonu wynosiło przynajmniej B:

P(ft

—zln(l

— 8).

> B,

220

5. Niektóre rozkłady

Przyjmijmy na t>3-107 lat, poradzić, gdyż Przyjmijmy

przykład 8 = 0,95 oraz r = 10? lat, wtedy czas oczekiwania co wydaje się wielkością, z jaką nasz detektor może sobie jeszcze wymaga to tylko pół roku jego ciągłej pracy. teraz, że w wyniku obserwacji przez czas t = lrok nie udało

się nam znaleźć ani jednego przypadku rozpadu nukleonu. Prawdopodobieństwo

p =P(t £t;T) rozpadu pojedynczego nukleonu w czasie jednego roku dane jest

związkiem

£

p=l

-ap(-2).

T

Z. rozkładu dwumianowego wiemy, iż prawdopodobieństwo a, że żaden z n nukleonów nie ulegnie rozpadowi, to a = Bn, p) = (l — p)” = exp (-7)

= exp (-7)

.

Tu widzimy, dłaczego jednoczesna obserwacja n nukleonów przez czas £ jest rów-

noważna obserwacji jednego nukleonu przez czas T = nt — powrócimy jeszcze do tego zagadnienia w podrozdziale 5.3.3. Gdyby parametr t był istotnie mniejszy

od wartości 7, to prawdopodobieństwo a byłoby bardzo małe, np. dla r = 0,017

otrzymujemy a = 4.107* i byłoby zdumiewające, że nie zaobserwowaliśmy żad-

nego rozpadu, skoro jego prawdopodobieństwo wynosiło 1 — 4. 107%. Oznacza to, że tego typu wartości parametru r, jak również mniejsze, możemy odrzucić. Czy

możemy odrzucić np. wartość r = T? Dla niej prawdopodobieństwo a wynosi około 0,37, a więc gdyby wartość parametru z była porównywalna z czasem obserwacji T', to typowo w co trzecim eksperymencie nie obserwowalibyśmy żadnego rozpadu i powinniśmy się liczyć z tym, że nasz eksperyment jest tym „trzecim”. Jaką wartość « powinniśmy w takim razie wybrać? To zależy od tego, jak często gotowi jesteśmy zaakceptować możliwość, że zostaniemy zlekceważeni przez los.

Jeśli za graniczną wartość w przyjmiemy 0,05 (patrz rys. 5.11), to dla para-

metru T otrzymamy wartość ry = 0,3357 = 2. 10? lat. Jednocześnie, ponieważ 1 r

©

Ol

NN

SN 5

0,05

Nu

Ho

RR



Ó

001 p——--——— z 0,001 -----

0,0001

I

010

ł

015

1

0,20

|

i

|

!

i

"

|

||

!

|

|

|

I

I

|

10,145

|

| 0,22 0,25

i

|

| 0,33

! 0,43

ł

I

030

1

0,35

|

1

0,40

0,45

parametr T/7

Rys. 5.11. Prawdopodobieństwo braku rozpadu nukleonu jako funkcja r/T

|

0,50

5.3. Rozkład wykładniczy

221

| — a to prawdopodobieństwo rozpadu nukleonu T

l

l-a=P(O)

42

A

—= dx

n(n + 1)

= ————.,

0» A

n

w zgodzie z momentami dla zmiennej z rozkładu wykładniczego, czyli dla n = 1,

jak również faktem, że wartość oczekiwana sumy (5.41) niezależnych zmiennych losowych jest sumą wartości oczekiwanych, a wariancja — sumą wariancji tych

zmiennych (patrz (3.9)). Wynik ten pokazuje, że im większa jest wartość współ-

czynnika przeliczania n, tym mamy wania na n-te zdarzenie:

DE]

mniejsze fluktuacje względne czasu oczeki-

|na_

Et] Wan

4Jn

Powyższy rezultat stanowi podstawę wykorzystywania tzw. rejestrów przesuwnych (ang. pipe line) do buforowania informacji o nadchodzących zdarzeniach w ją-

drowych i cząstkowych eksperymentach z zastosowaniem technik elektronicznych odczytu i gromadzenia danych. W takich eksperymentach zdarzenia, na których

rejestrację nastawiony jest detektor, pojawiają się (zazwyczaj) zgodnie z rozkła-

dem wykładniczym £(t; r) z pewnym typowym odstępem czasowym T = A”!. Jeśli czas potrzebny na analizę jednego przypadku, w celu podjęcia decyzji o jego zapisie lub odrzuceniu, wynosi T, to faktycznie czas ten jest okresem martwym

w pracy eksperymentu, jako że jeśli nawet detektor przyjmie nowy przypadek,

towarzyszące detektorowi procesory nie są w stanie go przeanalizować. Jeśli czas T jest znacznie krótszy od czasu r, to praktyczne straty przypadków są zaniedbywalne, natomiast jeśli oba czasy są porównywalne, to eksperyment zacznie gubić istotną część interesujących przypadków. I tak, jeśli T = t/2,

wtedy prawdopodobieństwo pojawienia się przynajmniej jednego nowego zdarze-

nia, w czasie kiedy procesory analizują poprzednie, wynosi r/2

l

P (: < >) = - | 2

T

0

t

(-:)

T

df=l-e"'=0,39,

co oznacza stratę ponad 1/3 statystyki (słowo statystyka tu użyte, to klasyczny eksperymentalny żargon; oznacza ono dokładnie tyle co próbka, dane). Wystarczy

jednak, abyśmy wprowadzili dodatkową pamięć (bufor) przechowującą informację o kolejnych n zdarzeniach, z której to pamięci procesory pobierają przypadki na

zasadzie: pierwszy wchodzi, pierwszy wychodzi (FIFO — first in, first out), a wtedy w najgorszym razie stracimy wszystkie, z wyjątkiem pierwszych n, jeśli pojawią się

227

ZŁO

5. Niektóre rozkłady

one w czasie T krótszym niż nr/2. Szansa takiego zdarzenia dana jest następującą

całką (| = x):

nt/2

ne/2

| €,„(t; T) dt = l

TJ

0

GD

n/2

nl

el dź -|

n-N!

0

A

nl

e "dt.

(n — 1)!

0

Jeśli za „głębokość” rejestru FIFO przyjmiemy wartości: n = 2,4, 8 oraz 16, to szansa utraty tych przypadków przyjmie wartości: 0,26, 0,14, 0,05 oraz 0,008.

Rejestr FIFO łagodzi fluktuacje w czasach pojawiania się kolejnych przypadków,

przekazując je do dalszej analizy w bardziej wyrównanym rytmie.

Zwróćmy uwagę na to, że jeśli czas T analizy pojedynczego przypadku jest równy czasowi t lub od niego dłuższy, to rejestr taki, bez względu na swoją głę-

bokość, nie jest w stanie nam pomóc. Musimy poszukiwać szybszych algorytmów

analizy danych lub dane te poddawać równoległemu przetwarzaniu (patrz przy-

kład 5.4.2). Kształt rozkładu czasów oczekiwania na n zdarzeń: ć,

(u)

=

m

(nu)""

— Dio

_

,

d gdzie

i

u

=

t

Ste]

——

Z

At >

—,

podany jest na rys. 5.13 dla wartości parametru n = 1, 2,4, 6,8, 10. 1,4

r

1,2 1,0 0,8 0,6

0,4 0,2 0,0

0,0

0,8

1,0

1,2

1,4

1,6

18

20

znormalizowany czas u

Rys. 5.13. Rozkład Erlanga jako funkcja u = t/€ [t]

Rozkład ten również ma tę własność, że dla dużych wartości współczynnika

przeliczania n przechodzi w rozkład Gaussa. Pokażemy to, wprowadzając zmienną standaryzowaną Ee a £ —

dla której rozkład przyjmuje postać

DŁ]

t—n

yn"

/n(zy/n+n)

6,(X) =

(n — 1)!

exp (-x/n — n).

5.3. Rozkład wykładniczy

229

Wykorzystując wzór Stirlinga (5.5) dla funkcji silnia

E,(x) ©

1

/n(xy/n+ ny

/2n

(n— 1)" żer!

e(—x

n—n),

a następnie wciągając wszystkie czynniki, z wyjątkiem pierwiastka z 2n, do funkcji wykładniczej l

6,(x) £

ezp( — VB +

zlnn + (

(eee)

/2n

Lh

l

— 1)ln(x/n +n)

l

a dalej porządkując i upraszczając, otrzymujemy

E,(x) %

o

2x

ex

(-=

+m-Dmfr+

s - (n-)m(1- 2)

2

n

x —)-1).

Dokonujemy teraz rozwinięcia obu logarytmów

co, po podstawieniu, uporządkowaniu i odrzuceniu wyrazów rzędu n"' i mniejszych, a więc w warunkach asymptotycznych, daje standaryzowany rozkład Gaussa 2

€„(x)

—>

Ntaiu=0,0=D=—=ap(-5).

Wykorzystajmy rozkład Erlanga do znalezienia oceny intensywności A. Konwen-

cjonalnie problem taki rozwiązujemy

w ten sposób, że przez zadany przedział czasu

mierzymy liczbę zdarzeń. Tak znaleziona liczba zdarzeń jest zmienną losową. Nie jesteśmy jeszcze przygotowani teoretycznie do rozpatrzenia tego problemu z punktu widzenia statystyki matematycznej, gdyż wymaga on zrozumienia rozkładu Poissona, który

jest przedmiotem następnego rozdziału. Możemy jednak wyobrazić sobie eksperyment, w pewnym sensie, odwrotny: zadajemy liczbę n zdarzeń i czekamy tak długo, aż ta liczba

zdarzeń się pojawi, a wtedy natychmiast przerywamy pomiar. W tak postawionym problemie zmienną losową jest czas t pomiaru. Na nieobciążony estymator intensywności

230

5. Niektóre rozkłady

możemy zaproponować wielkość

2 nl A= — |

(5.43)

która, jak to łatwo sprawdzić, istotnie spełnia swoją rolę: 00

of]

(2) =A(n

20 — l)! e "dt=A t(n

x

(n — 2)!

0

e*”dx=A

|

gdzie podstawiliśmy x = At. Zajmiemy się teraz wariancją tego estymatora:

,

1

e[-]=2n- 12 | 52 0

Qr1 )

t2 (n — 1)!

eH dr = 22

-1

n-2

skąd

v[s] = a

n=2

Żel

n-2

y2

Proste obliczenia wskazują, że nieobciążonym estymatorem tej wariancji jest wielkość a

Ta

ba ==

l

n-l

_

i.

Zastanówmy się nad kwestią estymacji parametru r rozkładu wykładniczego. Łatwo sprawdzamy, że średnia arytmetyczna t = 7 jest nieobciążonym estymatorem:

B-(,

Ż: -

2,60=„0r=r

Wariancja estymatora parametru r wynosi

-



l





-v|2|-9|2s|-z7ym=



22

!

=-T.

o ile próbka jest prosta i widzimy tu, ponadto, bezpośrednią realizację relacji (4.6). Wynik ten podpowiada nam, że estymatora s; wariancji V [7] powinniśmy szukać w postaci proporcjonalnej do kwadratu Średniej. Aby ułatwić sobie to zadanie, wróćmy do przykładu 5.3.6, w którym pokazaliśmy, że kwadrat sumy (5.41) ma wartość oczekiwaną € [t'| = n(n + DT”, a tym samym

e|e]="—r,

skąd łatwo odgadujemy postać nieobciążonego estymatora wariancji

5.3. Rozkład wykładniczy

Widzimy, że wyrażenia na nieobciążone estymatory parametrów

231

Tt oraz A, a także ich

_wariancje, nie są identyczne (po dokonaniu odpowiednich podstawień), choć występuje między nimi duży stopień „pokrewieństwa. Czytelnik powinien odebrać to jako ostrzeżenie przed przyjmowaniem za oczywisty fakt, że momenty funkcji estymatora są równe

funkcjom momentów: jeśli 8 jest estymatorem parametru 0 rozkładu, a © =h(0) funkcją tego estymatora, to w ogólności: © + h(0) oraz na pewno Só z h(s;). 5.3.3. „Brak pamięci” W podrozdziale 5.3.1 pokazaliśmy, że prawdopodobieństwo przeżycia jądra promieniotwórczego przez czas t* dane jest wyrażeniem

Q() = exp(—At'). Zapytajmy o prawdopodobieństwo obserwacji, w której jądro promieniotwórcze przeżyje dodatkowo czas t, jeśli już „zdołało” przeżyć czas t'. Jest to pytanie o prawdopodobieństwo warunkowe (2.15):

Q(t|t) =

Q(, t)

Qt)

Licznik ułamka to prawdopodobieństwo przeżycia czasu łącznego t' +- t, które w tym przypadku jest równe prawdopodobieństwu

Q(t' + t), co w efekcie daje nam

O(n) = SO = SBexp(—Af') (r)

= exp(-At) =| Q(0).

Wynik jest absolutnie niezależny od czasu £'! Mówimy, że rozkład wykładniczy charak-

teryzuje się niezależnością od obecnego wieku — pozostały czas życia nie zależy od przeszłości i ma ten sam rozkład co całkowita długość życia. Można wykazać, że ten brak starzenia się, dający się faktycznie ująć wzorem

Q(t+t)=Q60)OU), jest cechą tylko i wyłącznie rozkładu wykładniczego i funkcji tożsamościowo równej

zeru lub jedności (faktu tego dowodzi się przez różniczkowanie powyższego związku

względem t', aby następnie położyć w nim tę wielkość równą zeru — w wyniku otrzymujemy proste równanie różniczkowe). Dopiero w świetle powyższej cechy rozkładu wykładniczego można w pełni zrozumieć opinię wyrażoną w przykładzie 5.3.2 o równoważności ciągłej, rocznej obserwacji

liczby 6 - 103? nukleonów i obserwacji pojedynczego nukleonu przez 6 - 10 lat. Istotnie, jeśli wielkość t oznacza okres obserwacji n nukleonów, to prawdopodobieństwo braku rozpadu pojedynczego nukleonu zadane jest wielkością Q(t) = exp(—At). Prawdopodobieństwo przeżycia czasu t przez wszystkie nukleony, na mocy niezależności statystycznej między rozpadami różnych nukleonów, dane jest iloczynem n czynników: O(t)O() ::: O(t). Z kolei to wyrażenie, na mocy własności braku zależności przyszło-

ści od historii, wynosi

Q(nt) = exp(—Ant) i wyraża prawdopodobieństwo przeżycia

jednego nukleonu przez czas nt.

232

5. Niektóre rozkłady

Ta własność „braku pamięci” zawarta w rozkładzie wykładniczym sprawia, że jest,

mimo prostoty matematycznej formy, trudny do intelektualnego przyswojenia, gdyż jest

to obce naszemu doświadczeniu życiowemu: ludzie umierają z reguły, osiągnąwszy pewien wiek, a nie w losowych momentach swojego życia. Podobnie jest z różnego rodzaju urządzeniami, które na co dzień wykorzystujemy, jak np. samochód: nowy raczej jeździ,

a zaczyna się psuć dopiero po paru latach. ——

Przykład 5.3.7 Przeżywanie i rozkład Weibulla W tabeli 5.1 (za: Trwanie życia i umieralność wg przyczyn w 1997 r, GUS, Warszawa 1998) przedstawiona jest przewidywana liczba osób, jaka pozostanie

z początkowej liczby 100000 osób urodzonych w 1997 r., po zadanej liczbie lat. Zbadajmy, czy i jakie odstępstwa od wykładniczego charakteru występują w tych danych. Model rozkładu wykładniczego podpowiada nam, że z początkowej liczby N4 osób liczba N(t) = Nyexp(—At)

osób dożyje wieku £. Nie znamy parametru A w tym wyrażeniu, ale jeśli je zloga-

rytmujemy, to otrzymamy zależność liniową logarytmu liczby osób, które dożyły wieku t, od tego wieku In N(t) = In N, — At. Tabela 5.1. Przewidywana śmiertelność osób urodzonych w 1997 r.

0

100000

100000

55

82377

92878

5

98741

98932

60

75045

89755

10

98624

98835

65

65373

85099

15

98492

98755

70

53498

77808

20

98056

98597

75

40045

66611

25

97391

98435

80

26082

50579

30

96621

98235

85

13558

31092

35

95601

97948

90

5243

13665

40

94012

97432

95

1295

3522

45

91498

96542

100

168

403

50

87731

95078

5.3. Rozkład wykładniczy

Wykres 5.14, na którym oś rzędnych przedstawiona jest w skali logarytmicznej, prezentuje relację, jaka występuje w danych. Wynika z niego absolutnie wyraźnie, że do ludzkiego życia nie stosuje się prawo wykładniczego zaniku. Przez bardzo długi okres czasu — do wieku około pięćdziesięciu lat — zależność wydaje się stała, tak jakby współczynnik A był równy zeru. Zmiany pojawiają się dopiero po tym wieku i są bardzo gwałtowne, zanik jest bez wątpienia silniejszy niż liniowy. 100 000

+

©

o

©

©

0

o

0.0

©

o

©

9

o

o

10000 |

e

1000 | 100

« mężczyźni o kobiety

,

|-

10 r l

0

l

_L

10

20

l

l

l

l

l

l

l

30

40

50

60

70

80

90

100

wiek

Rys. 5.14. Wykres przeżywalności — liczba osób dożywających danego wieku

Czy moglibyśmy wymodelować takie zachowanie wykresu przeżywalności?

Przypomnijmy — rozkład wykładniczy uzyskaliśmy przy założeniu, że prawdopodobieństwo p sukcesu w pojedynczej próbie Bernoulliego przyjęliśmy jako proporcjonalne do czasu Az trwania tej próby 1 niezależne od numeru próby. Złagodzimy

teraz to ostatnie wymaganie i przyjmiemy, że prawdopodobieństwo p, w i-tej próbie wynosi

p; = A,AŁ,

antycypując, że wielkości A, ulegają zwiększeniu

(czas

życia skróceniu) w wyniku wyczerpywania się potencjału życiowego („zużywania się”) organizmu. Prawdopodobieństwo

tym razem przez

Q, braku sukcesu w n próbach zadane jest n

Q,=d-p)A-p)---A-p)=|[Q- 243). i=l

Naszym zadaniem jest znalezienie granicy tego wyrażenia, gdy liczba n prób dąży do nieskończoności, a jednocześnie przedział Aż do zera. Obliczmy w tym celu logarytm obu stron InQ,=

S7in(l — A,At) = — DU AAŁ i=l

i=l t



n—>oo,At>0

Usuwając logarytm

z J X(t)dt =—A(t) = InQ(t). 0

Q(t) = exp(-A(t))

233

234

5. Niektóre rozkłady

i przechodząc do dystrybuanty

FG) = 1 — exp(-A(1)), znajdujemy yP poszukiwaną, modelową funkcję rozkładu d

Jl) = q” © = At) exp(—A(1)), gdzie

d A(t)(6) ==—A(1). 40)

W szczególności, jeśli funkcja A(t) nie zależy od czasu, odzysku-

Wallodi Weibull, 1887-1979

jemy rozkład wykładniczy, natomiast dla zależności A(t)

x t*

otrzymujemy tzw. rozkład Weibulla (W. Weibull, A Statistical Distribution Function of Wide Applicability, Journal of Applied Mechanics, 1951). W następnym kroku powinniśmy poszukać ta-

kiej postaci funkcji A(t) (łub też A(t)), która w miarę wiernie odtwarzałaby dane. Uzyskany analityczny opis ucieszyłby, bez wątpienia, wszystkie firmy ubezpieczeniowe, które zajmują się wystawianiem polis na życie.

Rozkład Weibulla, definiowany dwuparametrycznym wyrażeniem

o dystrybuancie

goia0=$ (2) as(-(2)) FQ2) =l—=exp (- (>))

>

znajduje powszechne zastosowanie w szeroko pojętych zagadnieniach niezawodności. Szansa Q(x), że układ nie zawiedzie, mimo że wartość zmiennej losowej x opisującej pewną własność układu przekroczy wartość x, wynosi

Q(x) = 1— F(x) = exp (- (=) ) x

a

Obliczając podwójny logarytm In (— n(O(x))) =alnx

—alno,

widzimy, że na wykresie zależności In(— In(Q(x))) od Inx powinniśmy otrzymać linię prostą. Sposób ten można wykorzystać, jeśli dysponujemy sporą liczbą danych,

na tyle dużą, abyśmy mogli utworzyć ich histogram. Jeśli danych mamy mniej, możemy posłużyć się wykresem kwantyli. W tym celu wystarczy, że dopełniające

prawdopodobieństwo Q(x;) odpowiadające punktowi pomiarowemu x, zastąpimy przez 1 — i/(n + 1), a otrzymamy In (-1

(-

| )) n+1

=alnx,

—alno,

5.3. Rozkład wykładniczy

235

a tym samym zestaw par punktów (In(— In(1 —1/(n+1))), In x;) powinien układać

się wzdłuż linii prostej. Wykres 5.15 to właśnie wykres kwantyli dla trzydziestu próbek krzemowych

jako

funkcja

tów

(dane

logarytmu

naprężenia

x,

megapaskalach),

(w

przy

którym

nastę-

puje pęknięcie próbki. Widzimy, że układ punktów dość dobrze podąża wzdłuż odręcznie naniesionej linii prostej, być może z wyjątkiem pierwszych paru punkza:

S.

F.

Duffy

i E.

H.

Weibull

Baker,

Estimation,

Parameter

http: //www.crtechnologies.com/EngDiv/mechanics/ weibull/ theory /theory.html).

Możemy nawet z wykresu oszacować wartości nieznanych parametrów a oraz o.

logarytm naprężenia [MPa]

Rys. 5.15. Wykres kwantyli rozkładu Weibulla dla próbek krzemowych poddanych naprę-

żeniom

|

TI

5.3.4. Szeregi promieniotwórcze Rozważmy równoległe rozgałęzienie w szeregu promieniotwórczym: AI

— J >

A2

+, Ak



Ji, >

Ja, Jk

w którym jądro J może się rozpaść, z intensywnością A,;, na jedno z jąder J;. Musimy określić dla takiej sytuacji prawdopodobieństwo sukcesu w pojedynczej próbie schematu Bernoulliego. Ponieważ dla każdego jądra J mamy k + 1 możliwości: może się ono rozpaść na jedno z jąder J,, ale także może pozostać w stanie początkowym, więc naturalnym schematem probabilistycznym będzie rozkład wielomianowy (5.27) określony

236

5. Niektóre rozkłady

przez układ parametrów pg, py, P2,..., py takich, że ,

SLEJ

gdzie

Pi

=

hi

t

I=|1,2,...,k,

a parametr po opisuje prawdopodobieństwo braku rozpadu jądra J w pojedynczym, ele-

mentarnym akcie obserwacji. Z, własności (5.28) rozkładu wielomianowego (jego rozkłady brzegowe określone są rozkładem wielomianowym ze zmniejszoną liczbą zmiennych losowych) wiemy, że prawdopodobieństwo braku rozpadu opisane jest rozkładem dwumianowym z parametrem

k £ P=l-),p=1l--) i=1

k

=

k

£

l

mA,

gdzie

i=l

A= i

=]

Aj.

Wcześniejsze wyniki niniejszego rozdziału natychmiast prowadzą nas do wniosku, że

prawdopodobieństwo braku rozpadu w przedziale czasu [0; £] dane jest wyrażeniem

Q() = exp(—At). Oznacza to, że jeśli za No przyjmiemy liczbę jąder typu J w chwili t = 0, to po czasie

t zostanie ich

N(t) = Noexp(—At). Te, które się rozpadły, a liczba ich wynosi No — Noexp(—At)

= No (1 — exp(—At)),

przeobrażą się w jądra J; z prawdopodobieństwami danymi przez stosunki Pi

Aj

k

A;

——

A

k

2,Pi

Dh:

i=l

i=l

intensywności przejść do danego kanału i całkowitej intensywności, co daje liczby N,

jąder J;

A;

N, (1) = No (l — exp(—A1)). Zauważmy, że liczby N, jąder spełniają następujące równania różniczkowe:

dN;

gp = MN.

dła

i=12....,k,

|

gdzie

N() = No— 2 - NiC).

Należy zwrócić uwagę na jedną zasadzkę, jaka czyha na każdego, kto pierwszy raz spotyka się z tego typu problemem. Otóż w pierwszym odruchu chciałoby się powiedzieć, że prawdopodobieństwo przejścia J — J; określone jest przez intensywność A; I — exp(—A;t).

5.3. Rozkład wykładniczy

237

Gdyby to była prawda, to w żaden sposób nie moglibyśmy odtworzyć liczby jąder J,

które zniknęły, z liczb jąder J;: k

k

i=l

i=l

> Nil) =No)

(l — exp(-A,t)) £ No (1 — exp(—Ar)).

Oznaczałoby to ponadto, że jądro atomowe ma wiele czasów życia i czas ten zależy od

tego, do jakiego kanału się ono rozpadnie. Nie jest to prawda. Czas życia T = A""! jądra atomowego lub cząstki elementarnej możemy wyznaczyć z danych odnoszących się do

dowolnego, wybranego kanału rozpadu i nie potrzebujemy do tego znajomości stosunku rozgałęzień bądź intensywności A,. Wielkość ta będzie decydowała jedynie o tym, jaki ułamek wszystkich rozpadów trafi do naszej analizy. Można, dokonując pewnej personifikacji, powiedzieć, że jądro atomowe najpierw w ogóle decyduje się na rozpad, co mu

zabiera typowo czas T, a dopiero potem, w ostatniej chwili, podejmuje decyzję o tym, na co ma się rozpaść, przy czym każdą z ewentualności waży prawdopodobieństwem

A,/A. Wracając do przykładu z przejeżdżającymi samochodami z początku niniejszego rozdziału, sytuacja wygląda tak, że najpierw rejestrujemy fakt przejazdu koło nas samochodu, a dopiero później klasyfikujemy go jako osobowy, autobus, bądź karawan

pogrzebowy.

——

Przykład 5.3.8 Rozkład dróg oddziaływania Analogiczne rozważania odnoszą się do zjawiska rozproszenia cząstki podróżującej przez ośrodek. Tutaj, zamiast czasu życia Tr, mamy drogę swobodną A

A=—, on

zadaną przez całkowity przekrój czynny o na jakiekolwiek oddziaływanie w ośrodku o liczbie n centrów rozpraszających na jednostkę objętości. W wyniku rozpraszania cząstki ubywają z wiązki i po przebyciu drogi x pozostaje ich typowo

NG) = Noexp(->),

natomiast liczba cząstek rozpraszających się na i-ty sposób określona jest przez x

Ni(a) = No (l- exp(->)).

gdzie o, to cząstkowy przekrój czynny na reakcję przejścia do i-tego kanału.

.

Rozważmy

szeregowy

P

łańcuch

.

>

promieniotwórczy:

M

A2

J;,— Jj——+

T)

Ak—1

::: —

Jk — Ję+1, gdzie ostatni element szeregu jest stabilny. Przyjmijmy, że dysponujemy pojedynczym jądrem izotopu J;. Czas t oczekiwania na rozpad tego jądra dany jest

rozkładem

fl) =€(;A,) =he"".

238

5. Niektóre rozkłady

Czas t oczekiwania na rozpad jądra J» jest sumą czasów: t, oczekiwania na rozpad jądra

J, i czasu tę oczekiwania na rozpad izotopu J>, przy czym ten ostatni czas liczymy od

momentu rozpadu jądra J;. Dlatego rozkład f,(t) dany jest splotem t

t

Pl) = J filt — JE; hy) dt = Mn J e ul-ę-ef dt = 0

0

Aha

(e

A— ha

—e").

Analogiczną sumą trzech czasów ty, tą i tz zadany jest czas t oczekiwania na rozpad jądra Ją, dlatego rozkład fz(t) tego czasu znajdujemy także ze splotu funkcji wykładniczej z funkcją f(t): £

BG)

a

dała a

(1 (m

e

p,

36

__

e

At

(



)

boy

——|—ÓóÓó.(ę

„2%

(

Ast

-

_

©

At

,

)

W sytuacji, w której wszystkie stałe rozpadu są identyczne, z rozkładów tych powinniśmy

otrzymać stosowne rozkłady Erlanga, co istotnie występuje. Podobnym rekurencyjnym związkiem określony jest rozkład f;,,(t) czasu t oczekiwania na rozpad jądra J; 1: ft

t

fa) = J FMJEG —F; ka) dY = kge" J fiGe*" dr. 0

0

Rozkład f(t) czasu oczekiwania na rozpad dowolnego z jąder J, dany jest sumą rozkładów dla wszystkich rozpadów: k

IOEDZEIO i=l

i rozkład ten unormowany jest do liczby k niestabilnych izotopów w szeregu:

| rod=k 0

gdyż jedno jądro izotopu J; prowadzi do obserwacji k rozpadów.

Zajmiemy się teraz aktywnościami poszczególnych izotopów w próbce. Aktywnością

nazywamy aktualną szybkość, z jaką dokonuje się rozpad; opisuje ona liczbę aktów rozpadu jąder wybranego izotopu w jednostce czasu. Liczbę An;(t) rozpadów izotopu J; w przedziale czasu Aż otrzymujemy, mnożąc prawdopodobieństwo /f;(ż)A£ rozpadu

jądra tego izotopu przez liczbę No wszystkich jąder w próbce: An; (t) = Nof; G)AŁ, co wyznacza aktywność A; (£)

A,() = dn, Ę — Nofi(t).

- 5.3. Rozkład wykładniczy

239

Z aktywności możemy uzyskać liczby N;(t) jąder każdego z izotopów w próbce w chwili

t. Zacznijmy od izotopu J;, którego może tylko ubywać z próbki, jako że jest on pierwszy w szeregu. Obserwowana liczba A;(ż)A£ jego rozpadów w czasie Aż powoduje zmianę —AN|(t) liczby jego jąder w próbce, skąd t

|

d

= -A;()=-Mfit)

gw

N(t)=N—-

*%

|

M

dt — Noe *",

AO

0

gdzie na równanie różniczkowe nałożyliśmy warunek początkowy N/;(t — 0) =M. Dla izotopu Ją pełna zmiana ANo(t) liczby jąder składa się z dwóch elementów: w czasie Aż zmniejsza się ich liczba o Aa(ż)At jąder z powodu rozpadu i przybywa ich

liczba A;(ż)At z rozpadów jąder macierzystych: ANa(t) = A;(1)AŁ — Az(t)At

d

©

q 20)

= A,(t) — Ao(t) = Nof)

— Nofalt).

Scałkujemy to równanie z oczywistym warunkiem początkowym N>(t = 0) =0: |

£

N,(t) = No

£

J f() dt — J f(t) dr

|

0

0 t

=

No

r

t

|

(t')

dt

— A» J

0

e łał

Ja

0

(t')e

dt” |

dt

0

Zmienimy kołejność całkowania w całce podwójnej: t

je 0

t'

t

t

| | ear] ||0 moOear|ar=|0 roo" |

ar

t

t

= J fi'yes" (e! — ea") gr” 1



2

H

0 t

l

,

t

l

dt + — J N(G)dr J file" =-—0* Aa | A 0

1 podstawimy N,(t) = Ny

J ft)dr

+e 77 J f(t)e>? dr — | ft) dr

0

0 t

=

Ne *7

Ja 0

0

(t)e*? dr'.

0

240

5. Niektóre rozkłady

Ponieważ jednocześnie zachodzi

Nofi(t) = Nohue *" = AN, (1),

więc

t

N,(t)

=

A1e77

J

dt.

0

Obowiązują także związki: At)

N,(t e"

= NM)

= AN (1),

A>(t) = Nofa(t) = None ** J ft)e* dt = XąNa(t), 0 dlatego równanie rządzące zachowaniem się liczby jąder izotopu Ją ma postać d q, 020)

= ArNy(t) —

2 N(t).

Analogiczne równania otrzymujemy i dla liczb N;(t) jąder następnych, niestabilnych izotopów: d d

iH1(6) =A,N;(t) — Ara Nię1(t),

: i=1,2,...,k—1.

Równanie to będzie słuszne także i dla ostatniego, stabilnego izotopu, jeśli tylko przyj-

miemy, że jego czas życia jest nieskończony, a tym samym intensywność A;,,, dla niego

jest równa zeru. Sposób, w jaki rozwiązaliśmy problem liczby jąder izotopu Ją, podpowiada nam, że ogólne rozwiązanie ma rekurencyjną postać: t

Ni+1(£)

= Aje *+"

J

N;(t e"

dt,

Il=l,2,..

„k — l,

0

z tym, że

Nel) =

ł

J NC) dr,

0 co wynika bezpośrednio z równania określającego liczbę jąder tego izotopu lub podstawienia A,,j =O. Podamy teraz jawne

postaci

wzorów

na liczby jąder dla najprostszego

A —% B —> C, w którym izotop C jest stabilny: N4(t) = Nyexp(—Aą4t),

Ns(t) = NO NCQ)

= Na

A AĄ

(



—— AB (exp(—Agt) — exp(-Aat)), 1 —

—A4t at)

EE A

_ exp( —Apt) z

— aż A

4B

—A_t m).

szeregu

5.3. Rozkład wykładniczy

241

1 odpowiadające im rozkłady dla poszczególnych izotopów:

Ja(t) = Aa exp(-Aat), A AA B

fB(t) = ———

AA — AB

(exp(—Agt) — exp(—Aat)).

Rozważymy teraz otrzymane wyniki w przypadku dwóch skrajnych relacji między stałymi rozpadu. Pierwsza to ta, gdy Aą K Ap, czyli gdy czas życia jądra A jest znacznie dłuższy od czasu życia jądra B. Liczba jąder B po czasie £ to R or AA AĄ Ng(t) = No —— exp(—A4t) = —NA4(t) AB

lub inaczej

AB

Np(t)Ag = Ny(t)AĄ.

Widzimy, że obfitość Npg(t) jąder B jest proporcjonalna do liczby jąder A. O szeregu,

który zachowuje się w ten sposób, mówimy, że znajduje się w równowadze promienio-

twórczej, zwanej też wiekową. Sytuacja taka powstaje np. w przypadku rozpadu uranu o czasie życia 1, 4: 10'” lat, którego jednym z produktów rozpadu jest rad o czasie życia

5.107 lat. Z warunku równowagi wiekowej wynika, że w 1 gramie uranu znajduje się 3,4.1077 gramów radu, co tłumaczy, dlaczego małżeństwo Maria i Piotr Curie musiało

I



©

a

*

szybkość rozpadu

przerobić dobre parę ton rudy uranowej, aby wydobyć z niej jeden gram radu.

0,01

0,001

| czas £

Rys. 5.16. Ilustracja równowagi wiekowej — jądro macierzyste ma znacznie dłuższy czas życia niż jądro potomne

Ilustracja równowagi wiekowej przedstawiona jest na wykresie 5.16, gdzie przyjęto, że Aą = 0,05, natomiast Ag = 1 i wykreślone są Ścisłe postacie zależności aktywności

od czasu. I tak krzywa a przedstawia aktywność substancji A, krzywa b — samoistną aktywność substancji B, krzywa c to aktywność substancji B w próbce, natomiast krzywa

d to łączna aktywność próbki, czyli suma krzywych a oraz c. Widzimy, że dla cza-

242

5. Niektóre rozkłady

sów powyżej dwóch jednostek krzywe a oraz c, a tym samym 1d, stają się do siebie

równoległe. Rozważmy teraz przypadek, gdy A4 >> Ap, czyli gdy czas życia jądra A jest znacz-

nie krótszy od czasu życia jądra B. Oznacza to, że wyjściowy izotop A rozpada się znacznie szybciej niż powstały z niego produkt. Układ taki jest rządzony w przybliżeniu równaniem Ng(t) = N,exp(—ABt), przy czym

NA(t) = Noexp(-A4t) K Npg(t). Popatrzmy na rys 5.17, na którym przyjęto Aąq =

I, natomiast Ag

= 0,05 i gdzie

krzywa a to aktywność substancji A, która bardzo szybko zanika, krzywa b to samoistna

aktywność substancji B, krzywa c to aktywność substancji B w próbce, a krzywa d to pełna aktywność próbki, czyli suma krzywych a oraz c. Widzimy, że po paru jednostkach czasu życia krótkożyciowej substancji mamy praktycznie w próbce jedynie substancję B, która decyduje o aktywności próbki, tak jak dla krótkich czasów obserwacji aktywność

P>

szybkość rozpadu

próbki jest praktycznie określona przez aktywność substancji A.

0,01

0,001 czas £

Rys. 5.17. Ilustracja relacji obfitości jąder izotopów w przypadku, gdy jądro macierzyste ma znacznie

krótszy czas życia niż jądro potomne

Powyższe rozważania, mimo

problemami

że ilustrowane szeregami promieniotwórczymi, czyli

w pełni rozwiązanymi przez A. H. Becquerela, małżonków

Curie i im

współczesnych, wcale nie tracą na aktualności, jako że mają swoje istotne zastosowania

w rozpadach cząstek elementarnych i w wielu reakcjach jądrowych, w których powstają jądra wzbudzone, które następnie kaskadują do stanu podstawowego przez szereg stanów pośrednich. Wyniki zarysowane w tym rozdziałe stanowią częstokroć podstawowe, startowe wzory w dziedzinie spektroskopii jądrowej, przy analizie takich stanów wzbudzonych.

5.4. Rozkład Poissona

——

243

54. Rozkład Poissona

5.4.1. Wyprowadzenie Rozważmy proces probabilistyczny, polegający na pojawianiu się zdarzeń losowych, takich jak wjazd samochodu na rynek miejski lub rozpad wzbudzonego jądra, czyli podlegających rozkładowi wykładniczemu. Jak pokazaliśmy w podrozdziale 5.3.3, rozkład wykładniczy nie ma pamięci, więc po każdym sygnale historia powtarza się od nowa,

dokładnie tak, jakbyśmy zaczynali oczekiwanie na pierwsze zdarzenie, czyli pierwszy

sygnał. Niech £ będzie zadanym, całkowitym czasem obserwacji, w którym może się pojawić k(t) =0, 1,2,... sygnałów. Jakie jest prawdopodobieństwo każdej z tych moż-

liwości? Wprowadźmy oznaczenie: Ty = ty; + b + '*: + tę dla wielkości określającej moment przybycia k-tego sygnału. Zdarzenie k(t) = k wystąpi wtedy i tylko wtedy, gdy T4 < t oraz jednocześnie [,,;, > t, a więc jest określone przez prawdopodobieństwo P(T < t; [hs; > t). Aby to prawdopodobieństwo znaleźć, musimy określić łączną funkcję gęstości prawdopodobieństwa obu zmiennych losowych [4 oraz [;,,. Z przykładu 5.3.6 wiemy, że zmienna losowa T, opisana jest rozkładem Erlanga (5.42) Gx(T%;

,

A)

=

(AT)! tk DIŚ

—AT

Wiemy również, że [,,, = Ty + ty,,. Łatwo możemy wypisać łączną funkcję gęstości dla zmiennych T, oraz ty+;, jako że zmienne te są niezależne. Jest ona iloczynem funkcji

€4(T4; A) oraz rozkładu wykładniczego:

AT)"

—AL exp( —AT)A k)A exP(ZAK1)

k-D!

AT)"

=4A

(k- DI

exp(—AT;1).

Ponieważ jakobian przejścia od zmiennych (T;, t4+1) do zmiennych (T4, 14,4) jest jednostkowy, więc ostateczna postać poszukiwanego rozkładu to (AT,)*"!

fG, Tra; X) = RI

exp(-AT)

dla

0 £):

t

P(k

= k;

At)

=

P(T;

t) =

J

|

ra.

Tę;

A) dThi

d7;

0 ,

=)

(AT,

ye"!

(k z DI d7; 0

00

|DZACA

_

t

Otrzymaliśmy w ten sposób (przy oznaczeniu

COW k!

|

i. = At) rozkład Poissona k

P,(1) = qi” a w podrozdziale 5.2.3 pokazaliśmy, że jest on poprawnie unormowany.

(5.44)

244

5. Niektóre rozkłady

0,35 r 0,30 0,25 | ż 2 N

0,20 |0,15 0,10

0,05 GW

0,00

0.1

2

3

4

5

EN

6

liczba k samochodów

7

8

9 00

Rys. 5.18. Rozkład Poissona (punkty) i częstość występowania liczby k samochodów w dziesięciosekun-

dowych przedziałach czasu

Ilustracji powyższych rozważań dostarczają dane, które posłużyły do wykreślenia rozkładu 5.10 czasów oczekiwania na samochody w podrozdziale 5.3. Jeśli policzymy liczbę mijających nas samochodów w np. dziesięciosekundowych przedziałach czasu 1 wykreślimy krotności zaobserwowania zerowej liczby samochodów, jednego, dwóch itd. w takim obszarze czasowym, to uzyskamy wynik przedstawiony na histogramie 5.18. Punkty na wykresie odpowiadają rozkładowi Poissona z parametrem A = £ ' = 0,193 s”! dla £ = 10 s. Widzimy, że zgodność danych z modelem jest bardzo dobra. ——

Przykład 5.4.1 Liczba par jonów w detektorze gazowym Detekcja cząstki naładowanej w liczniku gazowym odbywa się na zasadzie rejestracji sygnału spowodowanego spływającymi do elektrody elektronami powstałymi

w wyniku jonizacji cząsteczek mieszanki gazowej. Proces tej jonizacji ma charakter statystyczny w tym sensie, że liczba par elektron-jon, wytworzonych przez pierwotną cząstkę, podlega rozkładowi Poissona z pewnym nieznanym parametrem ji, którego wartość, jak to wynika z formy tego rozkładu, określa w przybliżeniu modę tego rozkładu. Oznacza to, że im większa jest jego wartość, tym, typowo,

powstanie więcej par elektron-jon, licznik będzie miał większą wydajność, a my

wydamy mniej pieniędzy na wzmocnienie sygnału. Dlatego też przy jego konstrukcji ważna jest znajomość tego parametru. Przypuśćmy, że dysponujemy układem

doświadczalnym, w którym potrafimy określić liczbę n cząstek przechodzących przez licznik. Liczba k cząstek zarejestrowanych nie musi być jednak równa tej liczbie, gdyż z powodu fluktuacji statystycznej niektóre z cząstek mogą przejść przez licznik bez wytworzenia pary elektron-jon. Przypuśćmy także, że elektro-

nika, którą dysponujemy, jest w stanie dostarczyć nam jedynie informacji o samym fakcie przejścia cząstki przez licznik, bez żadnych bliższych danych, np. o całkowitym zdeponowanym ładunku, który byłby miarą liczby k owych par.

5,4. Rozkład Poissona

Przy zadanej liczbie n wszystkich cząstek przechodzących przez licznik, liczba k zarejestrowanych cząstek określona jest rozkładem dwumianowym (5.10), któ-

rego parametr p podaje nam szansę zarejestrowania cząstki w pojedynczej próbie Bernoulliego. Z drugiej strony, szansa, że cząstka nie zostanie w takiej próbie zarejestrowana przez licznik, określona jest przez pierwszy wyraz rozkładu Poissona: l-p=e". Pozwala to nam określić estymatę parametru u przez estymatę parametru p roz-

kładu dwumianowego: l-p=e*

=>

r

KL=—ln(l — p), A

gdzie

A

p=—.

.

a

k

ńn

Przybliżoną niepewność tak zadanej estymaty znajdujemy ze wzorów (3.19) oraz

(5.20):

>

a

$$

d nA — 5) |

(ab

Si





= |

>

s?

e

Błąd względny tej estymaty to:

=

l

I. 1-5)

a-pbin-1

m_A]A. Bo i Aafn-10-5

,



————---—

7



l

p

n=10-5)

—___—_

,

|explij-1_ |Aen-1l) Jn-l

6 5

=R 41



31

2

+

!

-

o

0

l

0,0

0,5

l

i

l

1,0

1,5

2,0

L

2,5

|

3,0

l

3,5

I

4,0

x

Rys. 5.19. Zależność niepewności względnej estymaty parametru m rozkładu Poissona od wartości tego parametru

Wykres

funkcji

f(x)

podany jest na rys. 5.19. Jej przybliżoną,

minimalną

A

L

[12

wartość 1,24 znajdujemy dla argumentu ji = 1,6, a stąd minimalna niepewność względna A 1,24 n-l

Oczywiście wielkości parametru u jesteśmy w stanie kontrolować tylko w pewnych granicach. Wynik powyższy oznacza, że jeśli zbudujemy detektor, w którym

parametr ten wynosi około 1,6, to nasza metoda pomiaru znajdzie go z najmniej-

szym błędem. Taka specjałna wartość parametru u nie musi być jednak korzystna z punktu widzenia zastosowań detektora. r

245

246

5. Niektóre rozkłady

W podrozdziale 5.3 otrzymaliśmy rozkład wykładniczy z rozkładu dwumianowego, rozważając prawdopodobieństwo braku zdarzenia. Zapytajmy się teraz o prawdopodobieństwo wystąpienia dokładnie k zdarzeń w przedziale czasu [0; t]. Prawdopodobieństwo to zadane jest rozkładem dwumianowym (5.10): 1 BG. P) = grypy U - PT" = gra

Dln 2)--0-k+p'd- py".

!!

Tak jak i przy wyprowadzeniu rozkładu wykładniczego w podrozdziale 5.3, podzielimy

cały przedział czasowy t na bardzo dużą liczbę n bardzo małych odcinków czasu Ać i wybierzemy prawdopodobieństwo sukcesu w pojedynczej próbie w formie (5.35):

At n

p=—,

a uzyskamy

1

B,m, p) =—nln k!

—1):::(n-k+1)|

ArY*

— n

AŁYT*

1-—

n

-r0()(E7)er(-2)(-2)

Dokonując przejścia granicznego z liczbą n prób do nieskończoności, zachowując jed-

nocześnie stałą wartość k, otrzymamy B,(n, p)

2

P,(At) =

Porównanie obu rozkładów prezentuje wykres 5.9.

COREY k!

|

(5.45)

Wyprowadzenie to przedstawił po raz pierwszy francuski naukowiec Simeon De-

nis Poisson w 1837 roku w swym dziele Recherches sur la Probabilitć des Jugements en Matićre Criminelle et en Matiere Civile, Próćcćdóes des Regeles Gćnerales du Calcul des Probabilitćs. Rezultat ten został jednak zapomniany i dopiero w 1898 roku przypomniany pracą Das Gesetz der kleinen Zahlen L. Bortkiewicza, który wykorzystał go do analizy liczby śmiertelnych przypadków spowodo-

wanych kopnięciem przez konie, jakie pojawiły się w ciągu dwudziestu lat w czternastu korpusach kawalerii armii pruskiej.

Jak widzimy, rozkład Poissona jest Ściśle związany z rozkładem wykładniczym — oba powstają z tych samych założeń.

W szczególności, dla specjalnej wartości k = O zmiennej loso-

wej z rozkładu dwumianowego otrzymujemy wyrażenie, z którego wywiedliśmy rozkład wykładniczy.

Obliczenia prowadzące do (5.44) i wyprowadzenie (5.45)

Simeon Denis Poisson,

1781-1840

podpowiadają nam zastosowania uzyskanego rozkładu: wszędzie tam, gdzie zjawiska pojawiają się losowo w czasie, a czas oczekiwania na nie określony jest rozkładem wykładniczym, liczba tych zjawisk w zadanym przedziale czasowym podleA . o. , o gać będzie rozkładowi Poissona. Dodatkowo, ponieważ rozkład Poissona jest rozkładem granicznym dla rozkładu dwumiano-

5,4. Rozkład Poissona

wego, gdy prawdopodobieństwo

247

sukcesu w pojedynczej próbie jest znikome, oczeku-

jemy, że rozkład Poissona znajdzie również zastosowanie do opisu rzadkich zdarzeń. Istotnie, rozkład ten wydaje się dobrze opisywać takie zjawiska, jak liczbę samobójstw, katastrof i burz w ciągu roku,

a także liczbę błędów

drukarskich

na stronie, liczbę

sprzedanych sztuk danego towaru w sklepie w tygodniu (z dokładnością do sezonowych wyprzedaży i okresów Świątecznej gorączki) i liczbę rozpadów jądrowych obserwowanych przez Rutherforda i Geigera w ich doświadczeniu.

Jako ciekawostkę wyprowadzimy rozkład Poissona z rozkładu ujemnego dwumianowego (5.14). W tym celu zapiszemy rozkład ten w postaci n--m—l

U„(n, p) = ( =

n-l

|

0 +1)

(n+m—

1)!

pra — p)" = mazpr? +2):

,

477

—1+ m)p'(l— p)”,

a następnie wprowadzimy parametr j« zdefiniowany wartością oczekiwaną (5.22): A=R

l-p po”

Ze związku tego obliczymy wielkość p i podstawimy ją do rozkładu, a wtedy u" U„(n,

p)

=

n

n+ln+2

min+un+un+

m (1

u

n+pu

LL

)

n+uj)

Jeśli wykonamy przejście graniczne z liczbą n prób do nieskończoności i jednocześnie z parametrem p prawdopodobieństwa sukcesu w pojedynczej próbie do jedności, ale w taki sposób, by wartość parametru w była ustalona, to przy ustalonej wartości zmiennej m znajdziemy

m

U„(n, p)

— n>00

P,(L)

=

Heh, m!

Wyprowadzenie to jest o tyle interesujące, że jest ono komplementarne do przejścia granicznego (5.45) — gdy „zalewają” nas sukcesy, wtedy porażki zaczynają być zdarzeniami

godnymi odnotowania. Relację między rozkładem Poissona a ujemnym dwumianowym przedstawia wykres 5.20, na którym dobrze widać dyskutowaną zbieżność. Pouczające jest wyprowadzenie rozkładu Poissona jeszcze inną techniką. Niech P;(t) oznacza prawdopodobieństwo zarejestrowania k zdarzeń w przedziałe czasu [0; £]. Wydłużmy ten przedział o krótki odstęp czasowy Az i zapytajmy o prawdopodobieństwo P,(t + At). Aby w tym przedziale czasu wystąpiło k zdarzeń, warunkiem koniecznym i dostatecznym jest, aby został spełniony jeden z następujących warunków: w przedziale

[0,żt]

nastąpiło

w przedziale

[0,4]

nastąpiło

w przedziale

[0,£]

w przedziale

[0,t]

k

zdarzeń,

w przedziale Aż

żadne,

k—1 _

zdarzeń,

w przedziale Aż

jedno,

nastąpiło

k—2

zdarzeń,

w przedziale Aż

dwa,

nastąpiło

0

zdarzeń,

w przedziale At

k zdarzeń.

248

5. Niektóre rozkłady

0,14 p 0,12 0,10 0,08 0,06 0,04 0,02 0,00 liczba m porażek Rys. 5.20. Porównanie rozkładu Poissona (słupki) i ujemnego dwumianowego (punkty)

Ponieważ powyższe wydarzenia wykluczają się i są niezależne, poszukiwane prawdopodobieństwo możemy przedstawić jako sumę

F.(t+At) = P,(t) Po(At)+ Pi_; (1) P,(At)+ Pi-2(t) P>(At)+: - + Po(t) P.(At). (5.46) Wzorem naszego pierwotnego rozumowania (5.35) przyjmiemy, że P, (At) =AAt, gdzie A jest pewnym współczynnikiem proporcjonalności, co daje

dla

P,(At) = a, AAt)'

i=2,3,4,...,

(5.47)

gdzie a, to pewne nieznane, czysto liczbowe współczynniki proporcjonalności, nieza-

leżne od przedziału czasu i od intensywności A.

Rozważmy przypadek k = 0. Prawdopodobieństwo

nienie jedności:

Po(At) uzyskamy jako dopeł-

Po(A1) =1-AAt-aQAL) — az(AAt) — :--.

Równość ta wyznacza jednocześnie warunek początkowy Py(0) = 1. Niezależne rozumowanie przekonuje nas, że abyśmy nie mieli zdarzeń w przedziale od zera do t + At,

nie może nastąpić żadne zdarzenie od chwili zero do chwili £, jak i od chwili £ do chwili £t + At:

Py(t + At) = Py(t) Po(At) = Po(t) (1 — AAt — a, AAL)” — ---) lub

Po(t + At) — Py(t) = — Pot) (AAt + (AA) + ---),

a po podzieleniu obu stron równania przez At i przejściu do zera z tą wielkością do-

chodzimy do równania

dPo(t) dt

=

—AFo(t),

5,4. Rozkład Poissona

249

którego rozwiązanie, spełniające zadany warunek początkowy Py(0) = 1, ma postać

Plt)=e"*. Wróćmy teraz do wyższych wartości zmiennej losowej k. Dla wartości początkowej prawdopodobieństw P,(0) dla k > I otrzymujemy P,(0) =0. Jak dla przypadku k =0, odejmiemy od obu stron równania (5.46) prawdopodobieństwo P;(ż):

P,(t + At) — P(t) = Pilne"! + P_4(MAAŁ + :-- + Poltjaz(AAL)* — P;(t)

= -P(t) (1 —e74') + P_(COAAŁ +:*: + PoltrazAAL)*, a następnie podzielimy obie strony równości przez Aż i przejdziemy do granicy, w wyniku czego otrzymamy układ równań różniczkowych, zwanych równaniami kinetycznymi:

dP;(t)

= —AP(t) + AP;

dt

(1).

(5.48)

Jeśli do równania tego podstawimy

P,(©) = fe(tje"*, to otrzymamy

gdzie

i = Afki(0), pO=L

a ponadto wiemy,

f(0=0

(5.49)

da

k=1,2,3,...,

że

fltj=l. Przedstawimy teraz pewną technikę rozwiązywania równania różniczkowo-różnico-

wego (5.49). Technika ta, zwana metodą funkcji tworzącej, polega na pomnożeniu tego

równania obustronnie przez wielkość z*: zł df(t)

= Aż fe—1(1) = Azz*"' fe_1(1)



i zsumowaniu wszystkich tych równań względem indeksu k: 00

d

3 z” ae k=l

0

= Aż 3 zł fk-1(0).

(5.50)

k=l

Wprowadzimy teraz funkcję tworzącą

UDEDZEGSOEDZEŁIO! k=l

k=0

(5.51)

250

5, Niektóre rozkłady

Funkcja ta spełnia warunek początkowy H (z, t =0) =1 i pozwala zapisać lewą stronę równania (5.50) w postaci e

a

Ź

=): a

RE

DYR

k=l

Jx()

k=0

=

25

(z TO)

k=0

Joz FG) = He 1), 0 *

gdyż funkcja fo jest stała, co ostatecznie daje nam nową postać równania (5.50)

|

d —H j (2,Hz: t) 1) ==AzH(Z, AZH

Rozwiązanie tego równania,

jest przez

(2,1) t).

spełniające warunek początkowy

H(z,t

= 0) =

I, dane

H (z, t) = explazt).

Z definicji (5.51) funkcji tworzącej otrzymujemy, że l dź

10 = g zz EEO| =p

(At)*

Składając wszystkie wyniki razem, otrzymujemy ponownie rozkład Poissona. -——

Przykład 5.4.2 Zagadnienie Erlanga Aby przekonać Czytelnika, że równania kinetyczne nie służą wyłącznie kolejnemu wyprowadzeniu rozkładu Poissona, zastosujemy je do praktycznego zagadnienia

równoległego przetwarzania danych w czasie rzeczywistym. W przykładzie 5.3.6 wskazaliśmy, że jeśli czas analizy pojedynczego przypadku stanowi istotny ułamek odstępu czasowego

między

momentami

nadchodzenia tych przypadków, to

nieuchronnie czekają nas duże straty. Wyjściem jest wtedy buforowanie nadcho-

dzących danych, a w skrajnym przypadku równoległe przetwarzanie. Rozważymy teraz szczegółowo tę drugą możliwość. Przyjmiemy następujący model zagadnienia. Sygnały nadchodzą w czasie z rozkładem wykładniczym charakteryzowanym parametrem intensywności A.

Czas analizy każdego sygnału także podlega rozkładowi wykładniczemu z pa-

rametrem intensywności 7 i dysponujemy dwoma identycznymi urządzeniami do analizy sygnałów. Założenie o dwóch urządzeniach jest uproszczeniem, od którego

Czytelnik potrafi odstąpić, jeśli zrozumie detale mniej skomplikowanego układu. Symbolami po(t), p;(t), pa(t) oznaczymy prawdopodobieństwo, że w chwili £ żadne, jedno lub też oba urządzenia są zajęte obsługą sygnałów. Rozważymy moment czasu £ + Aż, przy czym przedział czasu At jest na tyle

krótki, że w jego trakcie może, co najwyżej, nastąpić zakończenie analizy sygnału

lub pojawić się nowy sygnał. W chwili £ + Aż żadne z urządzeń nie będzie zajęte,

jeśli nastąpi jedno z trzech możliwych zdarzeń:

5,4. Rozkład Poissona

Oba urządzenia w chwili ż były wolne i w przedziale czasu Aż nie nadszedł żaden sygnał; prawdopodobieństwo takiego zdarzenia wynosi

«

Poll) Po>o(At) = Po(t)Po(AAŁ) = po(t)e ** £ po(t)(1 — AA). Jedno z urządzeń w chwili t było zajęte, ale w przedziale czasu

e

At zakoń-

czyło pracę, a także nie pojawił się nowy sygnał; prawdopodobieństwo takiego zdarzenia wynosi

POP-o(At) = pit) (1-e”*) PAAŁ) E piKONAŁ(1 — AAL).

Oba urządzenia w chwili £ były zajęte, lecz w przedziale czasu At oba ukoń-

e

czyły pracę i nie pojawił się nowy sygnał; prawdopodobieństwo takiego zda-

rzenia wynosi

POPo(AD) = Pl) (I - 273) PAAN E PONAD — AA).

Prawdopodobieństwo, że w chwili £ + Aż żadne z urządzeń nie będzie zajęte, jest

sumą owych trzech prawdopodobieństw:

Polt + At) = po(t)Po>o(A£) + pi) Pi>o(At) + Pa(£) Pa_>o( At)

2 pO

— AMAN) + prMOMNAŁQ —AAK) + PONAŁA

— AAL).

Odejmując od obu stron równości prawdopodobieństwo py(t), dzieląc przez At i przechodząc z tą wielkością do zera, otrzymujemy równanie różniczkowe

d

ŁA

= —Apo(t) + np. (4).

Zwróćmy uwagę na brak składnika z prawdopodobieństwem p,(t) w otrzymanym równaniu różniczkowym. Szansa wystąpienia dwóch zdarzeń w przedziale czasu

At jest małą wyższego rzędu (tu zadaną kwadratem czasu At) 1 przy przejściu granicznym znika. Dlatego np. w pierwszym punkcie naszego wyliczenia nie mu-

sieliśmy się martwić o zdarzenie następującego typu: oba urządzenia w chwili t były wolne, a w przedziale czasu At pojawiły się dwa sygnały, których analiza została ukończona przed upływem tego czasu. Prawdopodobieństwo takiego

zdarzenia byłoby rzędu (A£)* i nie dostarczyłoby ono w granicy przyczynku do pochodnej prawdopodobieństwa py(t) (zachowanie to zaobserwowaliśmy już przy wyprowadzaniu

równania (5.48)). To tłumaczy nasze zastrzeżenie:

czas At jest

na tyle krótki, że w jego trakcie może, co najwyżej, nastąpić zakończenie analizy

sygnału lub pojawienie się nowego sygnału. Oznacza to także, że przy dalszych rozważaniach możemy liberalnie traktować zdarzenia wielokrotne — nawet jeśli je uwzględnimy, to nie będą one miały wpływu na ostateczny rezultat.

Dokonajmy identycznej analizy prawdopodobieństwa p,(t). W momencie £ +At jedno z urządzeń będzie analizowało sygnał, jeśli wystąpi jedna z następujących możliwości: e

Oba urządzenia w chwili £ były wolne i w przedziale czasu Aż nadszedł jeden

sygnał; prawdopodobieństwo takiego zdarzenia wynosi

Pot) Poi (At) = poltH)P,AAM) = poltjAAte"**" e

po(DAAŁ(1 — AAL).

Jedno z urządzeń w chwili £ było zajęte i w przedziale czasu Af nie zakończyło

swej pracy, a także nie pojawił się nowy sygnał; prawdopodobieństwo takiego

251

252

5. Niektóre rozkłady

zdarzenia wynosi

P+) p-1(AL) = piltje ""P,AAt)

e

p;(K)A — (9 + A)AL),

Oba urządzenia w chwili t były zajęte, lecz w przedziale czasu A jedno z nich

ukończyło pracę i nie pojawił się nowy zdarzenia wynosi

sygnał; prawdopodobieństwo takiego

P20_)P2>1(At) = p(t) (2(1—e7"*) PAN)

£ Zp(HNAŁ(I — AAJ),

a czynnik 2 pojawia się z uwagi na to, że mamy dwa urządzenia.

Prawdopodobieństwo, że w chwili ż + At jedno z urządzeń nie będzie zajęte, jest sumą owych trzech prawdopodobieństw: P:(t + At) = po(t) Po>(At) + piG) PCA) = Po(OAAŁ(1 — AA) + pCO

+ PG) P2_(At)

— (7 + A)JAL) + Zpr(K)NAŁ( — AAt).

Tak jak poprzednio, otrzymujemy równanie różniczkowe dla prawdopodobieństwa P1(t):

d PO

= APo(t) — (n + A) p;(t) + 2np(t).

W końcu przeprowadźmy analizę prawdopodobieństwa p>(t). W momencie t-+ Ar oba urządzenia będą analizowały sygnały, jeśli wystąpi jedna z następujących

możliwości: e Oba urządzenia w chwili t były wolne i w przedziale czasu A: nadeszły dwa sygnały; prawdopodobieństwo takiego zdarzenia wynosi e

e

Po(t) Po-2(At) = po(t)P,AAŁ) =; pot) AAL)?e** 2; py(YAAD?A — AMG).

Jedno z urządzeń w chwili £ było zajęte i było zajęte przez cały przedział czasu At, kiedy to pojawił się nowy sygnał; prawdopodobieństwo takiego zdarzenia wynosi

P()P2(Al) = pilDe"*"P,AAL) £ p, OAAŁ(A — AAND( — nat).

Oba urządzenia były zajęte przez cały przedział czasu At i pojawiła się dowolna

liczba (w tym zero) nowych sygnałów; prawdopodobieństwo takiego zdarzenia wynosi

P(OP>-z(AT) = py(t) (ET) £ p(D)( — ZNAŁ).

Dla prawdopodobieństwa p,(t) w chwili t + At otrzymujemy wyrażenie Pz(t + At) = po(t) Po>a(At) + pr) Pr>2(At) + Pa(t) P>_>(At) 1

= z PoOJAATYI — AAt) + PQAAŁQ

— AAL)(I — NAt) + pa(t)(1 — ZNAŁ)

i równanie różniczkowe d g;P2 (t) =Ap;(t) — Żnpa(t).

5,4. Rozkład Poissona

Doskonałej kontroli naszego rozumowania dostarczają następujące równości:

Po>o(At) + Po>1(At) + Po2(A1) =1+0 ((Ań)”), Pi>o(At) + pi>i(AD) + pr2(At) 1+0

((An)”),

P>o(At) + P>i(At) + Po(At) =1+0((An)7), które zapewniają nas, że bez względu na to, w jakim stanie w danej chwili £ się

znajdujemy, w jakimś stanie w chwili £ + Aż będziemy się musieli znaleźć: szansa przejścia do jakiegokolwiek stanu jest gwarantowana. Jest to oczywisty warunek

normalizacyjny, jaki muszą spełniać prawdopodobieństwa przejścia p,.,;. Warunki

te gwarantują nam, że suma prawdopodobieństw po(t), p;(t) oraz p»(t) jest stała

w czasie, dzięki czemu możemy je unormować do jedności, czego potwierdzenie znajdujemy po dodaniu stronami wszystkich trzech równań różniczkowych: d

d

d

—q, Pol Po(t) ) ++ —j, 7:0) + —q, po(t Pl ) = —Apo(t) + np,(t) + Apo(t) — (7 + A)p1(t) + Znpa(t) + Ap; (t) — 2npa(t) =0O. Stoimy przed problemem rozwiązania układu trzech liniowych jednorodnych równań różniczkowych pierwszego rzędu. Jest to standardowe zadanie, omawiane

w każdym podręczniku analizy matematycznej, więc nie będziemy tutaj demonstrowali techniki postępowania. Zwrócimy jedynie uwagę Czytelnika na fakt, że warunek nietrywialnych rozwiązań tego układu prowadzi do wartości własnych macierzy układu równań, z których jedna jest równa zeru, a tym samym

każde

z prawdopodobieństw py(t), p,(t) oraz p(t), oprócz części zanikającej wykładniczo, będzie miało część niezależną od czasu. Oznacza to, że po początkowym uruchomieniu układu, którego dalsza ewolucja podyktowana jest zestawem warunków

początkowych, układ przejdzie w stan stacjonarny o rozwiązaniach niezależnych od owych warunków początkowych:

1,0 09 0,8 |

PX?

07 -| pó” 0,6 |

0,5 04 0,3 0,2

0,1

0,0

| | | -

2

pó”

PP

o

-

po

nA x=Afq

Rys. 5.21. Asymptotyczny kształt prawdopodobieństw p, (00) lub oba urządzenia będą zajęte, jako funkcja stosunku A/7

(k=0,1,2), że żadne, jedno

253

254

5. Niektóre rozkłady

A

1

(oo) __



(00) __

qq

2

A?

n

(00) __

24?

2n2Ą n

2y

Przedstawione są one (krzywe pociągnięte grubszą linią) na wykresie jako funkcje stosunku x = A/n.

5.21

Ogólna postać prawdopodobieństwa asymptotycznego dla układu n urządzeń

równolegle analizujących nadchodzące sygnały zadana jest przez 1a (00)

*

_

k!

nk

k=0,1,2,...,n.

1a"

To iz=()

l.

n

Przetwarzanie równolegle może być kosztowne z uwagi na budowę dodat-

kowego urządzenia analizującego. Tańsza może się okazać metoda buforowania sygnałów, choć nie musi to być oczywiste — jeśli buforowanie będzie mało efektywne, wtedy wydłuży się czas trwania eksperymentu, a to pociągnie za sobą inne koszta. Rozważmy przypadek jednego procesora i jednego bufora, który przechowuje

sygnał do czasu zakończenia analizy poprzedniego, a gdy procesor jest wolny

w chwili nadejścia sygnału, bufor działa „,przezroczyście, przekazując mu ten sygnał niezwłocznie. Rozumowanie analogiczne do tego, jakie przeprowadziliśmy dla tandemu procesorów, prowadzi do następującego układu równań:

dP

4

= —AP

dP

gp = AP dP,

dr

A+ MPI +1,

= AP, — nP,

o asymptotycznych rozwiązaniach

A n

1 Py”

=

A A2 l+-+= nn

+ nP,,

Pi?

=

A A 2” l+—+= nn

A” n2 P2”

A> A 2” l+-+—= n 4

gdzie P/* opisuje prawdopodobieństwo, że żadne z urządzeń — ani procesor, ani bufor — nie są zajęte, P|*”) oznacza prawdopodobieństwo, że zajęty jest procesor, ale bufor jest wolny, a P;** podaje nam szansę, że zarówno procesor, jak i bufor

nie są dostępne. W ogólnym przypadku, gdy dysponujemy układem n buforów, rozwiązania asymptotyczne są następujące:

"5,4. Rozkład Poissona

PÓ=—L-

255

k=0,1,2,...,n.

Kształt rozwiązań P;* dla układu z jednym buforem przedstawiony jest na wykresie 5.21 (cieńsza krzywa). Widzimy, że choć zachowanie układu z buforem jest gorsze, zysk z zastosowania dodatkowego procesora nie jest dramatyczny. Prawdopodobieństwa P;* i py?” mogą być interesujące z powodów czysto

utylitarnych: jeśli są zbyt duże, to układy są zbyt intensywnie wykorzystywane,

a to będzie rzutowało na ich niezawodność. To, co interesuje fizyka przy rozważaniu obu wariantów analizy, to ich efektywność — jaka jest szansa utraty danych?

Jest to problem dość skomplikowany, nawet wtedy, gdy używamy jednego procesora o ustalonym czasie działania i bez dodatkowych buforów, czego przykład przedstawiamy w podrozdziale 5.4.4. Gdy interesuje nas układ z większą liczbą procesorów lub procesorów i buforów, wzory anałityczne stają się na tyle złożone, że z reguły prościej jest rozwiązać taki problem metodą Monte Carlo.

TT

Metoda równań kinetycznych poddaje się pewnemu uogólnieniu, polegającemu na tym, że wielkość A nie musi być wielkością stałą, lecz może być dowolną funkcją czasu A(t). Równania (5.48) definiujące prawdopodobieństwa P,(t) zachowują swoją moc, gdyż przy ich wprowadzaniu nie dokonywaliśmy ani operacji różniczkowania, ani całkowania, traktując wszędzie wielkość A jako mnożnik. Popatrzmy na równanie dP

a = AO P;(),

dła którego łatwo znajdujemy całkę spełniającą warunek początkowy: £

Pą(t) = exp

- | 0

dt | =exp(-A(t)).

0

Równanie

dP;,(t)

di

= —A(t)P;(t) + A(1) Px_i(£)

rozwiązujemy tą samą techniką jak poprzednio, dokonując podstawienia

P.(t) = fi(tje"*"*, co ostatecznie daje nam ponownie rozkład Poissona, tym razem w formie P,(t) =

(AG)at k!

|

Jest możliwe jeszcze inne uogólnienie rozkładu Poissona.

Przy wyprowadzaniu

rów-

nań kinetycznych założyliśmy, że prawdopodobieństwa pojawienia się wielu impulsów

256

5. Niektóre rozkłady

jednocześnie (w przedziale czasu Aż) są proporcjonalne do stosownych potęg prawdopodobieństwa pojawienia się jednego impulsu w tym przedziale czasu. W granicy A£ > 0 przyczynki od tych prawdopodobieństw znikają, co faktycznie oznacza, że nie dopuszczamy możliwości pojawiania się „wielokrotnych” zdarzeń. Gdybyśmy od tego założenia odstąpili i wprowadzili funkcje A; określające prawdopodobieństwo P;(A£) = A,AŁ, otrzymalibyśmy jeszcze inny rozkład, w którym zdarzenia pojawiają się nie tylko pojedynczo, ale parami, trójkami, .... Nie będziemy jednak prowadzili tu dalszego rozumowania w tym kierunku, a jedynie zachęcamy Czytelnika do samodzielnych obliczeń. Na zakończenie kwestii wyprowadzenia rozkładu Poissona rozważymy jeszcze jedno

zagadnienie. Wypisując wyrażenie (5.47) na P;(At), czyli prawdopodobieństwo wystąpienia liczby i zdarzeń w bardzo krótkim przedziale czasu Aż, powiedzieliśmy, że wielkości a; są pewnymi czysto liczbowymi współczynnikami niezależnymi od intensywności A. Obecnie widzimy, że współczynniki te to odwrotności funkcji silnia liczby zdarzeń. Czy możemy ten wynik zrozumieć? Przecież podstawowe prawa rachunku prawdopodobieństwa mówią, że jeśli prawdopodobieństwo wystąpienia zdarzenia określone

jest przez AAt, to szansa k-krotnego pojawienia się, dla przypadku zdarzeń niezależnych, zadana jest przez (AAt)*. Właśnie kluczem do rozwiązania tego problemu jest

zagadnienie niezależności. Prawdą jest, że kolejne zdarzenia występują niezależnie od siebie, niemniej pojawiają się one w określonej sekwencji czasowej. Jeśli prawdopodo-

bieństwo (5.35) zaistnienia zdarzenia w bardzo krótkim przedziale czasu jest proporcjonalne do tego przedziału czasu, to funkcja gęstości tego prawdopodobieństwa jest stała w czasie i w naszym przypadku zadana przez intensywność A. Zapytajmy wobec tego

o prawdopodobieństwo wystąpienia zdarzeń w zadanej kolejności. Jeśli przez ty, tą, ...,

t, oznaczymy kolejne chwile, w których pojawiły się zdarzenia, to będzie nas interesowało prawdopodobieństwo P,(0 £ WA - (1 + nA) = u(l — (1 +3n)A) + O(A”).

5,4. Rozkład Poissona

289

W warunkach długiego czasu obserwacji £, czyli dużej, w porównaniu z jednością, oczekiwanej liczby 4 padających cząstek, wynik ten możemy uprościć:

V[KI £ u(1 — ZNA) + O(A”) =At(1l — 3AT) +O(A”). Widzimy, że rezultat ten odtwarza liniową część związku (5.64) w wielkości AT. Jeśli przypatrzymy się bliżej formule (5.64), to zauważymy,

że zaniedbując w niej odwrot-

ności wielkości Aż w stosunku do jedności, związek ten przedstawia pierwsze wyrazy

rozwinięcia funkcji

1

(5.68)

v[k] = A+AT)3

względem argumentu A7, w obszarze asymptotycznie dużych wartości argumentu At. Matematyczna

technika rozwinięć

asymptotycznych

pozwala

znaleźć

(J. W.

Mueller,

Nucl. Instr. Methods 117 (1974), 401) przybliżone, ale uwzględniające wyrazy wyższego rzędu, wyrażenia na wartość oczekiwaną i wariancję:

+ AM (AT)? (k) — 1I+AT ( + 2(1 nz)” y[k] =

At a+ar> |

(AT)? (18 + 4AT + (AT)”) * 12At(1 + AT)

|

Przejdziemy teraz do dyskusji wyników dla wartości oczekiwanej i wariancji liczby sygnałów zarejestrowanych z użyciem układu charakteryzującego się czasem martwym. W analizie naszej przyjmiemy, że w eksperymencie mamy do czynienia z małymi obciążeniami i długim czasem pomiaru, a więc do opisu wystarczą uproszczone wyrażenia (5.66), (5.67) oraz (5.68). Przede wszystkim zwróćmy uwagę na fakt, że niepewność względna

Dk]

k

/At

A+ATVI+FAT

1+AT

l

A

> JAJYI+FAT

mniejszej,

w obecności

1

AL

mniejsza jest od tej, jaką otrzymujemy dla rozkładu Poissona. Źródła tego efektu należy upatrywać

w dyskutowanej

wcześniej

czasu martwego,

fluk-

tuacji liczby zarejestrowanych cząstek, niż ta, jaka wynika z rozkładu Poissona. Jeśli wyobrazimy sobie skrajny przypadek dużego strumienia cząstek padających na licznik, to w momencie jego wysycenia, czyłi nieomal regularnej, na podobieństwo zegara, re-

jestracji cząstki po każdym okresie czasu martwego, rozwinięcie fluktuacji.

nie ma już wolnego miejsca na

Czas martwy charakteryzuje się jeszcze jedną ciekawą konsekwencją. Jeśli ustalimy

liczbę n cząstek padających na licznik w zadanym przedziale czasu £ 1 rozważymy relację

między liczbami k;, i ką rejestrowanych cząstek w dwóch rozłącznych, lecz następujących

po sobie przedziałach czasowych £, + ty = t, to znajdziemy, że relacja ta, która w przy-

padku licznika bez czasu martwego ma charakter matematycznej zależności liniowej, ulega istotnej zmianie. Dla rozkładu dwumianowego korelacja taka wynosi ((ki — (k;)) (ką — (ka))) = (n =k, + ka] = ((ki — (kq1))00 — ky — (n — k,))) = — ((ki — (k;)) (ką — (k1))) = —P[kil,

290

5. Niektóre rozkłady

co implikuje ujemny, jednostkowy współczynnik korelacji. Gdy występuje czas martwy, prosty związek n = k, + ką przestaje funkcjonować, gdyż pojawia się pewna losowa liczba m impulsów zgubionych n = k;, + ką + m, a korelacja między liczbami zarejestrowanych sygnałów wynosi

((kr — (kq)) (ka — (ka))) = ((kq — (k1))0m — ki — m — (n — k; — m))) = — ((kq — (k1)) (ki — (ki)+ m — (m))) —Y [k,] — ((ki — (k1))(m — (m))).

Kowariancja wyrażona przez ostatni składnik jest nie tylko różna od zera, ale na pewno

ujemna, gdyż im mniejsza będzie liczba zarejestrowanych sygnałów, tym większa będzie liczba utraconych. W efekcie wariancja sumy zliczeń nie jest sumą wariancji zliczeń w poszczególnych przedziałach czasowych. Wniosek ten ma jednak bardzo lokalny charakter w czasie i jest słuszny jedynie w odniesieniu do bardzo krótkich odstępów czasowych, porównywalnych z długością czasu martwego. W warunkach asymptotycznych, kiedy możemy użyć wyrażenia (5.68) dla wariancji liczby zliczeń, znajdujemy bezpośrednim rachunkiem, iż

Y[k] =

At

n

I+ATŻ

A(t

+ b)

_

(Q+ATŻ

Aly

+

(QG+ATY

Ab

-Yy

[ki] + Y [ke],

G+ATY

co oznacza, że w tym przybliżeniu zmienne losowe k, i ką nie są statystycznie skorelo-

wane, choć nie przesądza to o ich statystycznej niezależności. Zwróciliśmy już uwagę, że im czas martwy jest większy, tym mniejsza jest niepewność zarejestrowanej liczby zliczeń. Nie oznacza to jednak, że powinniśmy w eksperymencie używać układów detekcyjnych z dużym czasem martwym — raczej powinniśmy postępować odwrotnie. Dysponując liczbą k zarejestrowanych przypadków, chcielibyśmy znać rzeczywistą liczbę n przypadków, estymującą wielkość Ar. Estymatę tę możemy znaleźć ze wzoru (5.66)

a jej niepewność wynosi =

sa

(z) l

TĄ”

y[k]

=

(ew) 1

At

TY" G+AT)3

Jeśli w wyrażeniu na wariancję ) [k] wyeliminujemy wielkość 1 + AT za pomocą

wyrażenia na wartość oczekiwaną (5.67), to otrzymamy

v[k] =

At

U+AT)Ż

(k)”

(5.69)

(An

a oczekiwaną liczbę At padających cząstek wyeliminujemy z tego samego związku, zamieniając w nim liczbę k zliczeń na jej wartość oczekiwaną (k), to znajdziemy następujące wyrażenie na wariancję: | 2

Y [k] = (k) (1 — (k) 7) £

= (k)(1- |x

1

i=l

1

m

m

=. 3 k;, i=l

_

s; 2 =—— m1 Yo2! (kk).) 2 Ponieważ wielkość s; jest estymatą wariancji (5.70), więc A s;ZNĄZ Z AK(1-KT)

rpry2

>

o

T

EOl

Sk

RJĄŻ

=

A

ASk



k

Trudniej obliczyć błąd czasu martwego. Aby to zrobić Ściśle, potrzebowalibyśmy do tego wyrażeń na wyższe momenty rozkładu (5.61). Aby tego uniknąć, wykonamy obliczenia przybliżone, stosowne dla przypadku małych obciążeń. Skorzystamy z wyników

podrozdziału 3.4:



(of

af af

sz = (s)

of

,

v [kl + 23% gz" [k, sę| + (33)

v[s].

związku (4.6) miedzy D |k| i D[k] oraz wyniku przykładu 4.2.3: _

l

l

cov[k,k,s| sę] =—€|(k—u)”| - [km] =—D*fk]y. m [kl gdzie y, jest współczynnikiem asymetrii, oraz związku (4.9):

Y[EJ=

2 5) + (m 71a

Po podstawieniu znajdujemy ię

„2 z AVIKI

mk

4(-725)

[W

2Y%8)

+

h

WA

(- za) + (

2900)

AU

+

m)

m-1)]'

294

5. Niektóre rozkłady

W warunkach niewielkiego obciążenia obowiązuje V[k] próbki są liczne, czyli (k) 4 I, to

2

To

A?

l

2m(k)”

2mk>

=

(k), a jeśli m >> 1 oraz

Widzimy, że rezultat zależy od liczby m zgromadzonych próbek, tak więc pomiar czasu martwego możemy przeprowadzić z dowolną, niemalże, precyzją. Naszą dyskusję zjawiska czasu martwego 1 efektów, do jakich on prowadzi, oparliśmy na rozkładzie (5.61), który uzyskaliśmy, zakładając, że zliczenia zaczynamy obserwować

od chwili, w której licznik jest dostępny, czyli jest w stanie zarejestrować cząstkę, a tym samym rozkład czasu oczekiwania na pierwszy sygnał zadany jest zwykłym rozkładem wykładniczym (5.37). Inna typowa sytuacja doświadczalna to taka, w której zaczynamy

pomiar od pewnego losowo wybranego sygnału. Oznacza to, że czas oczekiwania nie tylko na następne, ale i na pierwszy sygnał określony jest rozkładem (5.59). Przy takim wyborze początkowego momentu liczenia czasu otrzymalibyśmy rozkład liczby zarejestrowanych sygnałów różny od zadanego wzorem (5.61), gdyż efektywny czas pomiaru

wynosiłby £ — 7. W końcu istnieje jeszcze trzecia możliwość wyboru chwili startu obserwacji. Jest nią zdanie się na łaskę losu i wybór początku obserwacji na chybił-trafił.

Chwila ta może wypaść w momencie, kiedy licznik jest zablokowany i będzie się znaj-

dował w tym stanie jeszcze przez pewien losowy przedział czasu (nie większy niż 7) albo trafimy na licznik gotowy do zarejestrowania cząstki. Stosowne złożenie rozkładów odpowiadających tym dwóm możliwościom doprowadza do jeszcze innego rozkładu prawdopodobieństwa. Nie będziemy tu prezentowali wyników obrazujących te rozliczne możliwości. Czytelnik zapewne jednak zgodzi się z sugestią, że w warunkach asympto-

tycznych, określonych przez At >> 1 1 przy małym obciążeniu, czyli wtedy gdyAT X 1,

konkluzje wysnute z tych rozkładów, a odnoszące się do wielkości, które potrzebujemy znać w praktyce, czyli oczekiwanej liczby zliczeń i liczby cząstek, jakie padły na licznik oraz ich dyspersji, różnią się marginalnie.

Na zakończenie tego punktu wspomnimy, że świat liczników z czasem martwym zasiedlony jest przez jeszcze jeden specjalny gatunek liczników z tzw. przedłużającym się czasem martwym. Liczniki takie charakteryzują się tym, że jeśli układ jest zabloko-

wany przez jakiś sygnał i w momencie ź£ liczonym od chwili, w której pojawił się ten

sygnał, zaistnieje następny, to czas martwy tego urządzenia zostaje przedłużony 1 trwa do momentu ż + 7. Własność taka jest raczej cechą układów elektronicznych, zwłaszcza dzisiaj, w dobie układów cyfrowych, niż fizycznie samych liczników. Szerszą klasę

takich urządzeń zaprezentowaliśmy w przykładzie 5.4.11, gdzie czas analizy Tp ulegał

fluktuacjom. Nie będziemy tu rozwijali opisu statystycznego takich układów. Zainteresowanego Czytelnika odsyłamy do wspomnianej we wstępie książki W. I. Goldanskiego i innych, która ujmuje te zagadnienia (a także zwyczajny

czas martwy)

w klasyczny

sposób. Współczesny i alternatywny, a przede wszystkim naturalny opis zjawisk związanych z czasem martwym, znajduje swoje ramy w teorii procesów stochastycznych i taki

też opis można znaleźć w drugim tomie monografii W. Fellera, również wymienionej

w spisie literatury we wstępie.

5.5. Rozkład Gaussa



295

5,5, Rozkład Gaussa

Historia rozkładu Gaussa, zwanego też rozkładem normalnym, sięga 1733 roku i wiązana jest z nazwiskiem francuskiego matematyka Abrahama de Moivre'a, który pierw-

szy dostrzegł ten rozkład jako graniczną formę rozkładu dwumianowego, jednakże bez związku z gęstością i ze zmienną ciągłą. Właściwe zrozumienie roli tego rozkładu

przypisuje się Gaussowi i Laplace'owi, przy czym to Laplace, niezależnie odkrywając rozkład, powiązał go z centralnym twierdzeniem granicznym. Właśnie dzięki temu twierdzeniu tak wielkie jest znaczenie tego rozkładu w statystyce matematycznej.

RE

Carl Friedrich Gauss,

Pierre Simon de Laplace,

1777-1855

1749—1827

5.5.1. Wyprowadzenie — modele Laplace'a i Herschela Rozważmy sytuację, w której usiłujemy zmierzyć wielkość, którą oznaczymy symbolem L, jednakże pomiar nasz jest zaburzany przez n losowych efektów o wielkości e każdy, działających z prawdopodobieństwem p = 0,5 zarówno w kierunku zmniejszającym, jak i zwiększającym wartość wielkości mierzonej. Doświadczalną realizację takiego układu zaproponował matematyk angielski F. Galton, budując tzw. quincunx, czyli deskę Gal-

tona, której schemat przedstawia rys. 5.28.

W wyniku pomiaru zamiast wielkości 4 otrzymamy jedną z wielkości x; określonych równaniem k=0,1,2,...,n—2,n—l,n. x =u+ (—n + 2k)e,

Prawdopodobieństwo każdej z tych wartości jest zadane przez rozkład dwumianowy

(5.10)

BPO)

n!

1y”

= jan =hi (3) |

296

5. Niektóre rozkłady

Rys. 5.28. Deska Galtona

Zwróćmy uwagę, że wartość oczekiwana zmiennej losowej x, dana jest przez p, nato-

miast jej wariancja wynosi

v bę] =Y[u + (2k — ne] = 4eV[k| = 4e*np(l — p) =ne". Wiemy z podrozdziału 5.2, że dla dużych wartości liczby n prawdopodobieństwo to

ma zachowanie graniczne

l R —-0©% /żnnpq P (

26 /2n

(

/n€

P

Sz —--—--. | 2npq

=

2

2nn

©

_(k- zn)

p

25n

(X — c) 2ne 2

|

gdzie podstawiliśmy k = **" + 3. Gdybyśmy

chcieli zmniejszyć wartość e do zera, przy zachowaniu pozycji x, to

aby uzyskać sensowną granicę, musielibyśmy zażądać, aby wielkości n oraz k dążyły do nieskończoności oraz aby wariancja ne” dążyła do wartości stałej: ne” > a”. Pozostanie jednakże czynnik Że przed funkcją wykładniczą, który „zepsuje” całe przejście graniczne. Uświadamiamy sobie jednak, że przejście z wartością zaburzenia e do zera oznacza przejście do zmiennej ciągłej, a więc zamiast prawdopodobieństw B;(n, p) powinniśmy używać gęstości prawdopodobieństwa. Zauważmy równocześnie, że poszcze-

gólne wielkości x, oddzielone są od siebie o Że, stąd w naturalny sposób można wprowadzić gęstość, dzieląc prawdopodobieństwo B;(n, p) przez ów przedział 2e, „rozmazując” niejako prawdopodobieństwo skojarzone z punktem k po całym takim przedziale:

Bim D=05) 2E€

|||

n>00, e>0

wa:uoj= z

/2no

xp

P

(GM 20?

|

Jak należało się spodziewać, otrzymaliśmy rozkład Gaussa ciągłej zmiennej losowej x.

5.5, Rozkład Gaussa

Powyższy

sposób

wyprowadzenia

rozkładu

Gaussa

określany jest modelem

297

La-

place'a błędów pomiarowych i jest uwspółcześnioną wersją rozważań tego uczonego z przełomu XVIII i XIX wieku. Inny sposób, bardziej bezpośredni —

bez odwoływania

się do postaci granicznej

rozkładu dwumianowego — polega na zbudowaniu ilorazu różnicowego: B,, — B

p

l

n!

n!

= 2 (EDGE DI 1

1Y”

BGB) (3)

n!(n — k)

n!

Ly”

- 2e (a> Dn=k)! kin 5) _A1(n=k

- 2e

n!

(k+1

kiln=k!(2)

I)

(3)

_ln-k-15

2e

k+l

*

który, po wyeliminowaniu z niego przez podstawienie Xk — JL

k=

n

— ŻE + 2 zależności od wielkości k, doprowadza nas do równania

AH A" Ax

1

De ŻE X. %k — Hal

2€

ko

Oz —_ me + ne* 2 + ŻE 2%

2

Aby pracować z funkcją gęstości, podzielimy obie strony równości przez 2e. Następnie dokonamy przejścia granicznego n — oo z liczbą czynników zaburzających, przy jedno-

czesnym przejściu do zera z wartością e, ale przy warunku stałości wariancji: ne” > o” i utrzymaniu stałej wartości położenia x, = x. Lewa strona dąży do pochodnej funkcji gęstości, a całość przyjmuje postać równania różniczkowego

LN dx

(u, 0) = —

x-u g2

N (x; n,o).

Rozwiązanie tego równania, ze stałą całkowania spełniającą warunek unormowania, daje

rozkład Gaussa. -—

Przykład 5.5.1 Rozkład Gaussa i pomiary Kompendium Review of Particle Properties, wymienione we wstępie, zawiera bogactwo rezultatów pomiarowych. Czy moglibyśmy jakoś sprawdzić, czy przedsta-

wione tam wyniki pomiarów istotnie układają się zgodnie z rozkładem Gaussa?

Byłoby to łatwe, gdybyśmy znali prawdziwe wartości wielkości, które są bohate-

rami tej publikacji. Ponieważ tak nie jest, możemy próbować rozwiązać problem inaczej. Zajrzyjmy do tegoż dzieła, ale sprzed paru laty i wybierzmy z niego te wyniki x, wraz z błędami s,, dla których błędy w najświeższym wydaniu uległy istotnej redukcji. Te najnowsze wyniki możemy potraktować jako „prawdziwe” wartości j4,. Dla tak wyselekcjonowanej próbki zbudujmy wielkości

5. Niektóre rozkłady

—10

—12

Rys. 5.29. Rozkład stałych z kompendium Review of Particle Properties

0,08 r 0,07 0,06 gęstość [hPa *]

298

0,05 0,04 0,03 0,02

0,01 0,00

980 ciśnienie [hPa]

Rys. 5.30. Rozkład wyników pomiarów ciśnienia atmosferycznego

5.5. Rozkład Gaussa

6, =

299

16; — | Si

i z nich utwórzmy histogram. Histogram taki, a Ściślej, logarytm eksperymentalnej funkcji gęstości przedstawiony jest na wykresie 5.29 (za: A. P. Bukhvostov, On the

Probability Distribution of the Experimental Results, http://arXiv.org/abs/hep-ph/

9705387) linią ciągłą, łamaną. Linia przerywana nakreśla krzywą Gaussa, a linia prosta to funkcja gęstości odpowiadająca rozkładowi wykładniczemu z jednostkowym parametrem. Rzeczą najbardziej zdumiewającą, jaką unaocznia ten wykres,

jest zdecydowane odstępstwo wyników doświadczalnych od tego, czego oczeki-

walibyśmy, czyli rozkładu Gaussa. Wynik ten jest chyba najbardziej naocznym dowodem tezy, dobrze znanej praktykom statystycznym, że nie należy zbyt wiele oczekiwać od rozkładu Gaussa. Jest on bardzo dobrym modelem, jeśli chcemy

opisać główny „trzon” danych, w zakresie jednego lub dwóch odchyleń standardowych. Skrzydła rozkładu z reguły już mu nie podlegają i są zazwyczaj bardziej

obsadzone, niż to przepowiada ten uświęcony tradycją rozkład. Jak widzimy z wykresu, prosty model wykładniczy wydaje się o wiele lepiej opisywać rezultaty procedur stosowanych przez fizyków.

Nie zawsze jednak jest tak źle. Na wykresie 5.30 przedstawiona jest empi-

ryczna funkcja gęstości 1600 pomiarów wcześniej,

ciśnienia atmosferycznego,

w podrozdziale 4.2, wraz z rozkładem

jest ewidentna.

Gaussa.

Tym

omawianych

razem

zgodność

T'

Interesujące jest przytoczenie jeszcze jednego, pochodzącego z roku 1850 i wiąza-

nego z nazwiskiem angielskiego astronoma J. Herschela, sposobu wyprowadzenia rozkładu normalnego. Wyprowadzenie to łączy się z pewnym twierdzeniem, które mówi, że jeśli w jakimś układzie współrzędnych para (x, y) przedstawia niezależne zmienne losowe i istnieje choćby jeden inny, obrócony, układ współrzędnych, o tym samym początku i para (X,y') otrzymana z par (x,y) po jej przetransformowaniu przedstawia w tym układzie również niezależne zmienne losowe, to każda ze zmiennych x i y może być tylko zmienną losową podlegającą rozkładowi normalnemu. Naszkicujemy tu dowód

tego twierdzenia, odwołując się do „artyleryjskiego” przykładu strzelania do wybranego punktu, który będzie naszym początkiem układu (x, y) (w rzeczywistości Herschel rozważał zagadnienie pomiaru pozycji kątowej gwiazdy na niebie). Prawdopodobieństwo

trafienia w mały obszar o powierzchni As wokół punktu (x, y) jest proporcjonalne do

tej powierzchni. Jeśli wybierzemy obszar o trochę innym kształcie, ale tej samej powierzchni wokół tego samego punktu, to prawdopodobieństwo trafienia w ten obszar

będzie, z dokładnością do wyrazów kwadratowych względem wielkości As, identyczne

z prawdopodobieństwem trafienia w obszar pierwotny. Wybierzemy obszar As w kształcie prostokąta o środku w punkcie M (x, y) i bokach Ax oraz Ay. Na mocy niezależności statystycznej zmiennych losowych x i y prawdopodobieństwo AP (M) trafienia w obszar As wokół punktu M(x, y) dane jest iloczynem

AP(M) =N

(X)N (7) As + O(As”).

300

5. Niektóre rozkłady

Jeśli jako drugi układ odniesienia przyjmiemy układ (x', y') obrócony względem pierwszego o pewien kąt, to prawdopodobieństwo A P'(M) trafienia w prostokąt As = Ax'Ay' będzie niemalże równe prawdopodobieństwu AP(M):

AP(M) =N (x)N (y) As + O (As*) = N(x'))N (y') As + O' (As?) = AP'((M).

Jeśli podzielimy obie strony środkowej równości przez As oraz przejdziemy z wartością As do zera, to

NON)

=N(x')N(y).

Jeśli dobierzemy układ x', y' tak, że oś x' przechodzi przez punkt M, to:

N(X)N(GY) NGN (0) =kNfr), r=yx+y, k=N(0). Zróżniczkujemy obie strony tej równości względem x oraz względem y:

GA

©) ry)

_3N0

dx

N Gy A

_ NX

0x

dr

r

dy

dr

r

_ ANM _;Wlny

d

Dzieląc równania przez siebie, otrzymujemy l

dN(x)

xN(x)

dx

_

1

yN(y)

dN())

dy

|

Ponieważ lewa strona jest jedynie funkcją argumentu x, a prawa strona jedynie funkcją argumentu

y, więc aby taka równość

każdego y, każda ze stron musi być liczbą:

l

xN (x)

mogła być prawdziwa

dla każdego x oraz

dN(x) dx

2 N (x) = Aexp (>)

lub też

O wielkości c nie potrafimy niczego powiedzieć poza tym, że jeśli chcemy, aby funkcja

była całkowalna, wielkość ta musi być ujemna i możemy ją wybrać w wygodnej postaci

c = —l/o*. Stałą całkowania A otrzymujemy z warunku unormowania, co prowadzi

ponownie do rozkładu normalnego:

N(;u=0,0)= Warto

przypomnieć,

że w

1860 roku fizyk J. C. Maxwell

wyprowadził

rozkład

prędkości cząsteczek gazu doskonałego, zwany dziś rozkładem Maxwella, odwołując się do tego samego założenia o braku zależności dowolnej ze składowych wektora prędkości cząsteczki od wartości innych składowych. 5.5.2. Własności rozkładu Gaussa Krzywa Gaussa ma charakterystyczną postać „dzwonu”, którego maksimum wypada w punkcie x = ju, a dwa punkty przegięcia rozłożone są symetrycznie wokół maksimum

5.5. Rozkład Gaussa

301

0,9 r 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0

Rys. 5.31. Rozkład Gaussa dla trzech wartości parametru o

w odległości o od niego (rys. 5.31). Wymiary obu parametrów są takie same jak wymiar

zmiennej losowej x, a wymiar funkcji gęstości rozkładu jest odwrotnością wymiaru tej zmiennej. Wartość oczekiwana zmiennej wynosi OO

1

€ [x] = dz6

| xa»

(x — w)”

(>)

dx=u,

—O0©

a jej wariancja to

1

Yh] = Zza]

f

(x — w)?

(x — 4)” exp (-—-)a

=0o..

Ogólnie, wszystkie nieparzyste momenty centralne znikają z uwagi na symetrię rozkładu, natomiast parzyste przyjmują wartości

2k)!

(6 W) = air 0

(5.71)

co dla k = 2 czyni ((x — )*) = 3o*, skąd, w szczególności, dla współczynników asymetrii 1 spłaszczenia otrzymujemy zerowe wartości. ——

Przykład 5.5.2

Błąd błędu Przypomnijmy wyrażenie (4.90) na wariancję estymatora określającego kwadrat błędu pojedynczego pomiaru: l

v [5] = — (6

9) - — _

—3 zn”

2

[x] .

302

5. Niektóre rozkłady

Gdy rozkład, z którego czerpiemy próbkę, jest rozkładem normalnym, wtedy wy-

korzystując (5.71), otrzymujemy Dis|=

[5x]

3

|-g4—

(że

n-3

——

2

gi! =

nn=Do

n=l

2

Jeśli wielkość s; potraktujemy jako kwadrat błędu, wtedy (przypomnijmy: jeśli u=v?, to s, £ 2(v) sy) D [s; | = 20,D [sx],

lub

pis] 1 |--o? xl = — 241 _= 20;

2o4n-—1

0;

0

=

———=—— Oy,

/2(n—1)

(5.72) .

co daje wyrażenie na błąd błędu i determinuje dokładność, z jaką powinniśmy zapi-

sywać wartość błędu pomiaru, a tym samym i wynik pomiaru. Wynik (5.72) stosuje się także do błędu średniej arytmetycznej, jeśli wielkość oż zastąpimy przez ot.

Rozważmy prosty przykład. Przypuśćmy, że wykonaliśmy serię n pomiarów wielkości x, i obliczona przez nas Średnia arytmetyczna (4.1) wynosi 9.87654321..., natomiast odchylenie standardowe (4.8) tej średniej to

1,23456789.... Jak mamy te wyniki zapisać? Czy wystarczy:

10 + 1, czy też

może 9,9 + 1,2, a może nawet 9,88 + 1,23? Niech liczba pomiarów, z których

obliczyliśmy średnią, wynosi 5. Błąd względny znalezionego odchylenia standardowego na mocy (5.72) wynosi D [sz]

x

u

D [sz]

z

06,

1

/2(n=l1)

co dla pięciu danych pomiarowych daje około 35%. Oznacza to, że wartość odchylenia standardowego 1,23456789... znamy z dokładnością 0,4. Tym samym nie ma sensu zapisywać tej niepewności z uwzględnieniem drugiej cyfry znaczącej

(pierwszej po przecinku), gdyż ta jest po prostu szumem statystycznym. Wystarczy

pierwsza jedynka i ostateczny wynik powinniśmy podać w pierwszej z sugerowa-

nych postaci: 10 + 1. Jeśli jednak liczba pomiarów, z których wydobyliśmy Śred-

nią, wynosi np. 50, wtedy identyczny błąd względny dla odchyłenia standardowego otrzymujemy na poziomie 10%. Oznacza to, że druga cyfra znacząca w zapisie

odchyłenia standardowego jest co prawda dość niepewna: może to być zarówno jedność, jak i trójka, warto jednak w takiej sytuacji podać ostateczny rezultat w postaci: 9,9-+1,2. Przy wzrastającej liczbie pomiarów „odsłaniać” się nam będą kolejne cyfry znaczące. Abyśmy ostateczny rezultat mogli podać z dokładnością

do trzech cyfr znaczących, niepewność względna powinna wynosić przynajmniej 1%. Oznacza to, że próbka naszych pomiarów powinna liczyć przynajmniej kilka tysięcy liczb. Naturalnie, wskazane wyżej relacje będą wygłądały trochę inaczej,

jeśli pierwsza cyfra niepewności standardowej nie będzie jedynką, ale np. ósemką.

Wtedy wynik: 98,87654321...-+8,7654321... dla próbki liczącej 5 pomiarów powinniśmy zapisać jako: 100+ 10, dla pięćdziesięciu pomiarów jako: 99-F9, a dla pięciu tysięcy pomiarów jako 98,9 = 8,8. W przypadku, gdy dane nie pochodzą z rozkładu Gaussa, przydatna może być formuła (4.10), uzupełniona o dodatkowy czynnik n**, wyrażający przejście od odchyłenia standardowego dla zmiennej losowej do odchylenia standardowego średniej arytmetycznej.

n

5.5. Rozkład Gaussa

303

--- Przykład 5.5.3 Suma gaussowskich zmiennych losowych Dane są dwie niezależne zmienne losowe: x oraz y, obie z rozkładu gaussowskiego o tej samej wartości oczekiwanej „4 i dyspersji o. Jaki jest rozkład zmiennej losowej z będącej sumą obu zmiennych? Ponieważ rozkład sumy dany jest splotem (2.27), więc ł

2na?

|

ex

,

-

_Z-u-t)

ex

2o?

b

_(6—

ny”

dt

20?

I

==———-—-—-——--.

w/2n(v/20) P (

z a|

——

2(/20)?

=

A (

:2u,v2

s Y20)

.

Stąd łatwo otrzymujemy, że suma n niezależnych zmiennych losowych gaussowskich ma rozkład Gaussa (mówimy, że rozkład Gaussa jest zamknięty względem operacji dodawania), o wartości oczekiwanej nw i wariancji no”, a Średnia arytmetyczna X —

rozkład Gaussa

o wartości oczekiwanej

j„ i wariancji

n-krotnie mniejszej od wariancji pojedynczej zmiennej losowej.

(4.6)

r

Rozkład Gaussa jest silnie „skoncentrowany” wokół swego maksimum. Możemy to zilustrować, obliczając prawdopodobieństwo P

(ui—no



x


1-9

>

4MK "(M+K)2

Łączny rozkład zmiennych losowych m oraz k dany jest iloczynem rozkładów dwu-

mianowych B„(M, p = 0,5) oraz B,(K, p =0,5), z których każdy, dla dużych wartości parametrów M oraz K, na mocy lokalnego twierdzenia de Moivre—Laplace'a (5.26) przyjmuje postać gaussowską, dlatego też

B„(M, p=0,5)B,(K, p=0,5) = P„.(M,K)

R

2

2nM

exp | —

(m-IM)] 2- 4 M

2

/2nK

exp

(k—;K) |-————2: zK

|.

5.5. Rozkład Gaussa

Jeśli z rozkładu tego wyeliminujemy zmienne m oraz k na korzyść xx m

k

=

=

1

4€óm,k (x „k

1

de

Xm

Hx A ) +

"kad —

X

)



l

na 48 (y Umko„k (Ly)

14

48 mk m



OrAZ y,, i:

1

M, 2

+

+ lk 5017 4

s

to po zastosowaniu wyrażeń na współczynnik p i wariancje zmiennych Xx otrzymamy BE0 P„x(M,

x

exp |

K)



A

2nD EH l

24-05)

D [ymx] yl-

(Xm,k



Vf]

u)”

=

2p

p”

315

OrAZ yk»

X

(Xm.k

U)

mk



D [xe] P lynx]

+

Ly)

(Ym.k

a ay)”

Vlyme| J)

Abyśmy mogli przejść do ciągłych zmiennych x oraz y, musimy zmniejszać wartości

zaburzeń e oraz 6, zwiększając jednocześnie liczby M oraz K, ale w taki sposób, by współczynnik korelacji p, a także dyspersje obu zmiennych losowych były skończone:

D|xm] > 06 Dyk] —> 0y. Tak jak w przypadku jednowymiarowym musimy także m

przejść do gęstości, a więc „rozmazać” uzyskane prawdopodobieństwo zmiennych oraz k po jednostkowym obszarze skojarzonym ze zmiennymi Xx

OTAZ yk:

Rys. 5.39. Elementarna powierzchnia Ax, zAymk Wyznaczona przez zmianę Am =liAk=l

Naszym

X

>

zadaniem teraz będzie wyznaczenie powierzchni tego jednostkowego ob-

szaru. Na płaszczyźnie (m, k) dozwolone wartości tych zmiennych wyznaczają kratow-

nicę punktów zawartych wewnątrz prostokąta o bokach M oraz K. Przekształcenie pro-

wadzące do zmiennych x;„ oraz y;„ to translacja połączona z obrotem 1 skalowaniem, która zamienia elementarny

kwadrat o wierzchołkach

i (m + 1,k + 1) w przestrzeni

(m,k),

(m,k),

w równoległobok

(m + 1,k),

o wierzchołkach

(m,k + 1)

(Xx, Ym.k):

(Xmk + 2E, Ymk + 26), (mk + 2E Ymk — 28) 1 (Xmk + 2€, Ymk) w przestrzeni (x, y).

Z rysunku 5.39 znajdujemy, że powierzchnia tego równoległoboku wynosi 8e6, a więc

316

5. Niektóre rozkłady

dokładnie jest równa współczynnikowi mnożącemu prawdopodobieństwo. Cały ten rachunek moglibyśmy wykonać w znacznie prostszy sposób, odwołując się do własności jakobianu przejścia od jednych zmiennych do drugich. Jakobian taki wyznacza właśnie poszukiwaną elementarną powierzchnię: ó(m,k)

Onkrymk)

1

1

4€

45

4e

48

|1

z

l

1] 8e8'

Dzieląc wyrazenie na prawdopodobieństwo przez połe elementarnej powierzchni (bądź mnożąc przez moduł jakobianu), znajdujemy ostateczne wyrażenie na dwuwymiarowy

rozkład normalny, zwany też rozkładem binormalnym:

N (x, Y; x, ky, 0x,0,, p) = 1

x

Xx — Hy

-so(-zr>5

((

0x

*

)

XA —

-z(

HM

My

dx

(

dy

-

)-(

My

dy

)))

Własności rozkładu binormalnego to € [x] = € [y]

=”

x,

v [x]

=

Ż,

hy,

Ylyl

=oy.

Dodatkowo, ponieważ mamy dwie zmienne losowe, możemy znaleźć ich kowariancję cov [x, y] = gxOyp,

która wyraża się przez parametr p rozkładu, będący jednocześnie współczynnikiem korelacji (3.14). Jeśli współczynnik ten jest równy zeru, rozkład binormalny staje się iloczynem rozkładów obu zmiennych, które tym samym uzyskują statystyczną niezależ-

ność. Jest to specyficzna własność rozkładu Gaussa, jako że w ogólnym przypadku brak korelacji nie implikuje niezależności statystycznej (patrz podrozdział 3.3).



Przykład 5.5.9 Rozkłady brzegowe, warunkowe i krzywe regresji dla rozkładu binormalnego Prostym, choć żmudnym rachunkiem można wykazać, że rozkłady brzegowe (2.24)

dla normalnego rozkładu dwuwymiarowego są rozkładami Gaussa: ICE

Ax; Hy, Gy, Gy, p)

co pozostaje słuszne i dla drugiej zmiennej.

dy

=N

(x; Hx, 0x),

5.5. Rozkład Gaussa

317

Rozkład warunkowy (2.29) zmiennej losowej y przy zadanej wartości zmiennej x dany jest wyrażeniem

N (x, Y; x, My, 0x, Gy, p)

IO) =

N (x; x, 0%)

2

i

(-pża

"V2moxyl=ee

|

- m)

2(awi=p7)

Rozkład ten dostarcza krzywej regresji € [y|x] pierwszego typu zmiennej y wzglę-

dem zmiennej x w postaci

€ [yk = x] = 4y(%) = Hy FP

dy X

(X — Mo).

Podobną krzywą regresji otrzymujemy dla zmiennej. x względem zmiennej y x

€ xly=y| =m0) =m + PO — Ly). y

Są to, jak widzimy, linie proste. Zwróćmy uwagę, że na płaszczyźnie (x, y) proste

te pokrywają się jedynie wtedy, gdy współczynnik korelacji między zmiennymi

jest równy jedności. Dla kompletu informacji o dwuwymiarowym rozkładzie normalnym podamy także postać wariancji warunkowej zmiennej y:

b=

2

= £|((-w-PEG-n0)

| = oy (l- p”).

Aby lepiej sobie wyobrazić kształt rozkładu binormalnego, rozważmy na płaszczyź-

nie (x, y) linie stałych wartości tego rozkładu. Przebiegają one tam, gdzie wykładnik

funkcji wykładniczej przyjmuje stałą wartość C”, a więc wzdłuż krzywej określonej

równaniem

l l-

A — Hy p

2

+

2

Y-My

e

— 20

A — Hx

Y — Hy

|

dy

Dy

lub też, jeśli wprowadzimy zmienne standaryzowane X —

u =

0;

Mx

,

v=

>

Hy

Oy

,

to wzdłuż krzywej l 1l=p*

(u? + v” — Zpuv) =C-.



(2

318

5. Niektóre rozkłady

1,0

0,6

0,4

-2

3 3 Rys. 5.40. Obraz dwuwymiarowego rozkładu Gaussa

Jeśli dokonamy obrotu układu o kąt o w kierunku dodatnim, transformując zmienne wg reguły

U =u' CosQ—v Sing,

v=u' Sing+vV cosy,

to równanie krzywej przejdzie na l

zl

2

(1

,

in

2

— psn

29) +

2

v'(1l

1

in

+ psin29g)

2



2

1

Żpuv

cos

2

z

p) =

C-

.

Wybierając kąt p = 45", otrzymujemy

GG) + (>) $©

Tym samym transformacja postaci

l+p

1-p

l+p U

=

2

l=p 56

+

2

Ć,

przekształca elipsę w zmiennych (u, v), na której gęstość binormalna jest stała, na okrąg o promieniu € w zmiennych ($,£). Postać taka prowadzi do faktoryzacji w nowych

5.5, Rozkład Gaussa

319

Rys. 5.41. Przykłady elips kowariancji dla kilku wartości współczynnika korelacji p

zmiennych, co równocześnie wykazuje ich statystyczną niezależność. W ogólnym przypadku poziomice rozkładu binormalnego to tzw. elipsy kowariancji. Ich wspólny środek

usytuowany jest w punkcie (x, £ty). Półosie i kąty nachylenia tych półosi zadane są

przez dyspersje i współczynnik korelacji.

Przykład takich elips, dla których wartość pełnego wykładnika funkcji wykładni-

czej wynosi

1/2 (czyli wtedy, gdy

€ =

1), wartości o, =

2 oraz o, =

1 oraz dla

wartości centralnych „a, i u, równych zeru, a także różnych wartości współczynnika korelacji p, przedstawione są na wykresie 5.41. Należy zwrócić uwagę na to, że bez względu na wartość współczynnika korelacji, wszystkie elipsy zawarte są w prostokącie

o połówkach boków równych wartościom dyspersji. Gdybyśmy wybrali wartość wykładnika 2 (C€ = 2), otrzymalibyśmy prostokąt o połówkach boków będących podwójnymi

wartościami dyspersji, a dla wykładnika 4,5 (C = 3), byłyby to trzykrotne wartości dyspersji. Ilość prawdopodobieństwa zawarta pod rozkładem Gaussa w obszarze płaszczyzny (x, y) ograniczonej takimi elipsami jest niezależna od wartości współczynnika

korelacji i podana jest w tabeli 5.4.

Jak widzimy, prawdopodobieństwa te są różne od tych, jakie otrzymujemy dla rozkładu jednowymiarowego. W zastosowaniach wykorzystywane są często elipsy kowaTabela 5.4. Własności dwuwymiarowego rozkładu Gaussa

0,5 (C=1)

l

39,3%

2,0 (C=2) 4,5 (C=3)

2 3

86,5% 98,9%

320

5. Niektóre rozkłady

prosta regresji x względem y

prosta regresji y | względem x

x

>

Rys. 5.42. Relacja między półosiami elipsy kowariancji a prostymi regresji pierwszego rodzaju

riancji odpowiadające innym wartościom prawdopodobieństwa, a mianowicie: 90%, 95% lub 99%. Patrząc na elipsy kowariancji, warto uświadomić sobie, że proste regresji (przykład 5.5.9) nie powinny być utożsamiane z żadną z osi elipsy kowariancji. Proste regresji

łączą przeciwległe punkty styczności elipsy z prostokątem, jak ten na rys. 5.42, w który wpisują się wszystkie elipsy kowariancji, podczas gdy kąt a nachylenia dłuższej osi elipsy do osi x jest określony równaniem tg 2a = -—-

200,0

> - =

O£ — Oy

Przykład 5.5.10

Rozkład współczynnika korelacji W rozdziale 4 pokazaliśmy, w jaki sposób dla próby losowej (x,, y;) z rozkładu dwóch zależnych zmiennych losowych x oraz y skonstruować pięć estymatorów:

wartości średnie Xx, y, odchylenia standardowe sx, sy oraz kowariancję R. Zaproponowaliśmy tam również postać współczynnika r korelacji z próby. Okazuje się, że dła próby z rozkładu binormalnego można podać łączny rozkład tych pięciu statystyk. Ma on formę iloczynu dwóch czynników J

(x,

y,

SX»

Sy;

r;

Hx,

Hy,

Ox,

dy,

p)

O. =N

XV;

x,

Hy, y

0.

——, /n

——,9 /n

g(Sx,

Sy, y

TF;

Ox,

Gy, y

P),

gdzie pierwszy czynnik to binormalny rozkład Średnich arytmetycznych, a drugi

g(5x, Sy, T; 0x, Gy, P) = n-l

4

Jy0y

l-p*

o

(5x5,)|

) ee

- ryżem»

nI (n — 2)

_

n-l

2(1-p)

BEZZGI

(la

JxOy

Oy

5,5, Rozkład Gaussa

daje łączny rozkład obu odchyleń standardowych i współczynnika korelacji z próby. Ważną cechą łącznego rozkładu wszystkich pięciu statystyk jest niezależność Średnich od pozostałych wielkości. Niestety, ogólna postać rozkładu brzegowego wielkości r jest dość skomplikowana, z wyjątkiem przypadku p = 0, kiedy to

r (zn — 1)

_

Jar gazo) 7)

fr) =

Lajżłn-4

i nie będziemy jej tu przedstawiać. Ograniczymy się jedynie do prezentacji graficznej na rys. 5.43, gdzie rozkład ten ukazany jest dla dwóch wartości współczynnika

=

KR

©

R

M

O

1

00

O

©



p=0,75

-|

—0,75

—0,5

—0(,25

0

0,25

0,5

0,75

I

Rys. 5.43. Rozkład współczynnika korelacji z próby

p oraz trzech wartości liczebności n próbki. Podamy także, że współczynnik korela-

cji z próby jest asymptotycznie nieobciążonym estymatorem parametru p rozkładu próbkowanego, jako że dla dużych liczebności próbki wartość oczekiwana tego estymatora zachowuje się jak

A

r* (zn)

A

|-p-

0a z LGD l

Y[r]

„ (U — p”)

2

-1

(21009).

,

a rozkład współczynnika r korelacji z próby dąży asymptotycznie do rozkładu normalnego o wartości centralnej i wariancji jak wyżej. Warto także nadmienić,

że znana jest (I. Olkin oraz J. Pratt, Ann. Math. Statist. 29 (1958), 201) taka funkcja u(r) współczynnika korelacji z próby u(r)=rF

l

ln-2

22

-(uez

n —

no

2

2(n—2)

„l=r

+3(

> 1-2)

+00).

8n(n — 2)

321

322

5. Niektóre rozkłady

gdzie F' jest funkcją hipergeometryczną: F(a,b,c;x)

I (c) 3 Ti +a)T(n +b) x" n! I (n +c) I (a)T' b) n=0

=

że jej wartość oczekiwana jest dokładnie równa współczynnikowi korelacji p: (u(r)) = p. A już tylko jako ciekawostkę zacytujemy, że (arcsin r) = arcsin p.

Wyrażenia na wariancje i kowariancję, ujęte we wspólną macierz, pozwalają zapisać postać rozkładu binormalnego w zwartej formie

N (x; a, V) =

1 exp (-ze — AV (x — w)

1 2nx/ det V

gdzie górny indeks T oznacza transpozycję, natomiast o; 2 Ox0yP

V_ oraz

0% 0yD Oy

detV = ogo, (1—p*),

a pozostałe oznaczenia przyjęte zostały w zgodzie z duchem notacji wektorowej podrozdziału 3.4. Uzyskany rozkład dwuwymiarowy uogólnia się na normalny rozkład n-wymiarowy: N (x; u, V) =

I

;

(/2r) „/det V

l 2

exp (-za

— nV "(x — w)

,

(5.74)

gdzie w macierzy V na diagonali mamy wariancje kolejnych zmiennych losowych, a elementy pozadiagonalne dane są kowariancjami poszczególnych par. Algebra liniowa poucza nas, że macierz taka jest dodatnio określona, a więc możemy ją zdiagonalizować, a tym samym wprowadzić taki układ zmiennych, w których wykładnik rozkładu wielonormalnego przyjmuje postać sumy kwadratów (bez wyrazów mieszanych), co prowadzi do niezależności statystycznej nowych zmiennych. Inną ważną cechą rozkładu wielowymiarowego jest fakt normalnych rozkładów brze-

gowych, jakie otrzymujemy z (5.74) po wycałkowaniu względem wszystkich, z wyjąt-

kiem jednej, wybranej zmiennej x;:

f N (x;

u, V) dx; dx

... dx;

dx,

... dx, =

exp

( — w)?

| —————

|.

5.75 gdzie V;, to j-ty diagonalny element macierzy kowariancji V. 073) W dalszych rozważaniach przydatne nam będzie jeszcze jedno spostrzeżenie. Zauważmy, że wielowymiarowy rozkład normalny jest niezmienniczy, co do swej formy,

5.6. Rozkład x?

323

przy liniowych transformacjach zmiennych losowych. Istotnie, wprowadzając układ nowych zmiennych y = Rx, otrzymujemy dla formy kwadratowej w wykładniku rozkładu wielowymiarowego:

x- NTV (x -p=(R"y-u) V"'(R"'y— a)

= (R"'y - RW) V"' (R"'y — Rh) = (y — Aa)” [R"'] V'R"' U — An) = (y — un) [RT] VR"

(5.76)

— An)

= (y — un)! [RVR"] ' 0 — An) = (7 — Un) (VRI' (Y — R):

co powoduje, że nowe zmienne y mają rozkład

N (y; ln, VR) =

;

(s 2n

1

,/det VR

1 exp (-50 — in)" [VR] 0 — u)

,

przy czym HR Oraz



RL,

Va



RVR"

det Vp = det V

dla transformacji ortogonalnych. Wiele lat pracy matematyków nad rozkładem normalnym zaowocowało

bogactwem wyników dotyczących własności tego rozkładu. Obecnie przejdziemy do przedstawienia niektórych, wybierając trzy z nich: rozkład X, Studenta i F Fishera, które mają związek z zagadnieniem testowania hipotez.

—-

56. Rozkład x*

5.6.1. Wyprowadzenie Niech zmienna losowa x ma rozkład Gaussa o znanej wartości oczekiwanej j4 1 znanej dyspersji o. Znajdziemy rozkład zmiennej losowej 2 x — [l u= ,

cz

W pierwszym kroku, standaryzując gaussowską zmienną x X

x—

Z=

o

,

otrzymujemy standaryzowany rozkład normalny (5.73) 1

N (z; 0, 1) = Só



KP (-5)

,

324

5. Niektóre rozkłady

Wykorzystując wyniki przykładu 2.6.3, możemy podać funkcję rozkładu zmiennej u X (u)=

5 7%

(- >):

Weźmy teraz dwie niezależne zmienne gaussowskie x; i x z tego samego rozkładu

1 zbadajmy rozkład zmiennej losowej

=(57) + (757). x1=mV o

x — WYŻ o

Rozkład takiej zmiennej to po prostu rozkład sumy dwu zmiennych u; i u», który otrzymamy, splatając, zgodnie z (2.27), dwa rozkłady A) (u): A> (u)

=



(u — t)

X)

l

(t) dt =

z

p

( ——AJ= czna

1

exp

u

(>).

Zwróćmy uwagę na to, że otrzymaliśmy rozkład wykładniczy. Postępując tak dalej, otrzymujemy rozkład dla sumy n kwadratów standaryzowanych gaussowskich zmiennych

losowych:

X, (u) = (2)

r(7)*

5-1 'exp

(

exp(-*>)

,

n>0,

u>0,

(5.77)

co można wykazać np. indukcyjnie. Rozkład (5.77) opisywany funkcją X, (u), należącą do rodziny rozkładów gamma (5.42), nazywany jest rozkładem x*. Rozkłady te numerowane są indeksem n, który nazywamy liczbą stopni swobody. Przy parzystej liczbie stopni swobody rozkład ten jest rozkładem Erlanga w zmiennej t = u/2.

5.6.2. Własności rozkładu x? Przykłady tego rozkładu dla kilku wartości liczby stopni swobody zilustrowane są na wykresie 5.44. Widzimy, że jeśli zwiększamy liczbę stopni swobody, maksimum tego rozkładu przesuwa się ku większym wartościom zmiennej, jak również rozkład staje się coraz to szerszy i bardziej symetryczny. Podamy teraz jego wartość oczekiwaną:

€[u]=n

(5.78)

V [u] = 2n,

(5.79)

1 wariancję:

bez wdawania się w szczegółowe obliczenia, jako że całki, jakie musimy tu obliczyć, są elementarne i sprowadzają się do funkcji I” Eulera. Fakt, że wartość oczekiwana zmiennej losowej typu x” jest równa liczbie stopni

swobody, wykorzystywana jest często w praktyce statystycznej, przez podawanie wartości

5.6. Rozkład x? 0,5

325

n=l

0,4

|-

0,3

|-

n=2

0,1 0,0

Rys. 5.44. Przykłady rozkładów x? dla kilku wartości liczby n stopni swobody

tej zmiennej podzielonej przez liczbę stopni swobody. Warto wtedy pamiętać, że tak wyrażona wielkość losowa, mając wartość oczekiwaną równą jedności, ma jednocześnie dyspersję

Zauważmy również, że moda rozkładu x? przypada w punkcie u =n —2.

-—-

Przykład 5.6.1 Rozkład estymatora wariancji i dyspersji Dotychczasowe

rozważania

zakładały,

że

wartość

oczekiwana

rozkładu

Gaussa

jest znana. Jak zmieni się nasz rezultat, gdy standaryzując każdą ze zmiennych

gaussowskich, użyjemy średniej arytmetycznej zamiast wartości oczekiwanej? Jest

to pytanie o rozkład zmiennej u postaci =

-12

(*

*)

4

-S

(*

o

-

2

+4...+

o

-4

(*

2

)

,

(5.80)

o

Powyższą sumę możemy zapisać inaczej: l Ę u= Gi 2%

—X)

l = 5ż

— (2%

- 1)

.

_

(5.81)

i=l

Zmienne losowe x; mają łączny rozkład będący iloczynem n rozkładów normal-

nych:

326

5. Niektóre rozkłady

ex (-

N (x; 4,0)= =

a

1

MN

(

2n o)

(Xx; — a)

P

CXp

202

(

pe

A

2

0

2

9)

(5.82) 3

gdzie wykorzystaliśmy notację podrozdziałów 5.2.6 1 5.5.4. Do zmiennych x; w powyższym rozkładzie zastosujemy tzw. przekształcenie Helmerta: yy

I

=

(x

1

2

zzz

a =

Y

l

1.2

l

1



X), 2

1 Fa — 2%),

zę 1 FX Fa — 3%),

1 Z—-—(1+%+%3+4+:'':+X,-1 — (N— 1)X,), (n-1l):n

1 _ y, —0,+%+x3 +x4+''"+X,) =4nX, /n co inaczej zapiszemy jako y=Rx.

Istotną cechą tego przekształcenia jest to, że jest ono ortogonalne, czyli R'R=RR'

=l|L,

co, po wykorzystaniu (5.76), pozwala zapisać rozkład (5.82) w formie

(Y— UR) (Y — p

N (x; HR, 0) =

=

sj" „(s Żpi- bog)

jako że wszystkie zmienne y;,y>,...,y„_, mają wartość oczekiwaną równą zeru, a wartość oczekiwana zmiennej y, jest ,/n razy większa niż wartość oczekiwana pojedynczej zmiennej losowej. Zauważmy, że wprowadzając zmienną X =

Yn R”

5.6. Rozkład x?

rozkład możemy przepisać w postaci N

(i,

222

Yn-1s X;

AL,

o)

l

(X — a)

„Ak n

TE= JE

(Siio)

w której rozkład zmiennej losowej x jest odseparowany od pozostałych zmiennych,

co jednocześnie wykazuje nam, że średnia jest od nich statystycznie niezależna. Zauważmy, że w zgodzie z ogólnymi wynikami podrozdziału 4.2, Średnia arytmetyczna ma wartość oczekiwaną równą wartości oczekiwanej zmiennej losowej,

a wariancja średniej arytmetycznej jest n razy mniejsza od wariancji pojedynczej zmiennej gaussowskiej.

Wróćmy teraz do zmiennej losowej u (5.81). Ponieważ przekształcenie R jest ortogonalne, więc

2 ; =x".x=(R'y) - (R'y) =y'RR'y=y' -y l

— Dy:

n=l

— Sy

i=1

+Y;,

2 J_Y:

i=l

Lnx.

i=l

Podstawiając ten rezultat do wyrażenia (5.81), otrzymujemy 1 u

czyli dokładnie

=

n

wykładnik

>



1

pierwszej

nl

>

DZ

=

-„e

(2:

52

funkcji wykładniczej

w funkcji gęstości

(5.83). Ponieważ jest to suma n — 1 niezależnych zmiennych losowych (rozkład w zmiennych y, faktoryzuje się), więc rozkład wielkości u jest rozkładem x* o n—1

stopniach swobody (porównaj z (5.77))

X-1 (U) n-1

4)

=

-

(2) r(7) 1

n

—|l

1 -1exp(->

U

€Xp

|

(->)

.

Z rozkładu zmiennej losowej u natychmiast otrzymujemy, że wielkość ń

l

v=$=——u=—-

V(x -3*

dostarczająca estymatora wariancji zmiennej rozkładu Gaussa, podlega rozkładowi n-l

f(v;o,n) =

(2)

n—l a”

r (

n-l >

)

(

(n — l)v

o?

"z!

M

(n — 1)v

exp (z) 20?

i, co jest bardzo ważne, jest statystycznie niezależna od zmiennej losowej, jaką jest

średnia arytmetyczna (widzieliśmy to już w przykładzie 5.5.10). Z powyższego A na wartość oczekiwaną estymatora wariancji rozkładu otrzymujemy

eg]=>7

——2 - (a — ) = o?

327

328

5. Niektóre rozkłady

tl (e) () 200

1 wariancję tego estymatora 2

2

2

2

tak jak to już raz znaleźliśmy w przykładzie 5.5.2. Podobna

(sprawdź (4.8))

analiza

prowadzi

nas

również

do

2

wniosku,

że

zmienna

losowa

_ nin NM ——1) 1) 2 o?

x)

jest statystyką Xx” o n — 1 stopniach swobody. Skoro dysponujemy nieobciążonym estymatorem sź wariancji o? zmiennej rozkładu Gaussai znamy rozkład tego estymatora, możemy pokusić się o sprawdzenie własności statystycznych estymatora s„. Zacznijmy od wartości oczekiwanej: 00

o

O

nl (42) n

n

"(2)rG) n—1

-1(V/2)

-1(92)

r

n-l

ja

7471

A

(sx) = ——- (Vu) =

p

u

' exp (->) du

8 ( 2 ) ”

raz

__

n-l

( 2 )

n

r

76)

"

nl]

( 2 )

która ukazuje na jego obciążony, choć nie asymptotycznie, charakter:

(5) =

—__"()

—r(7)

o

"Wn-l

O

— 0.

n>o

2

Zajmijmy się teraz wariancją estymatora s,. Ponieważ wartość oczekiwana jego kwadratu to o”, więc V[sx]=o* — (s) =o*|1—

Lo

2

"re

2

(3)

(2)

50_

"(z)r(7)

Jeśli dokonamy asymptotycznego rozwinięcia, wg wzoru Stirlinga (5.5), wszystkich występujących tu funkcji /' Eulera, to otrzymamy ń

ME) r()r(Z) 2

R eX

Pn)

=|]

m

5,6. Rozkład x?

329

co prowadzi do wyrażenia na wariancję

l

(5.84)

v [sx] Z o”, 2n i jej estymator (kwadrat błędu błędu) A l > V[Ssx] = 2n *

stosowany w przykładzie 5.5.2.

T)

Powyższy przykład nie powinien w Czytelniku wzbudzić mniemania, że dysponując

próbką doświadczalną normalnych danych x;,, możemy dla tej próbki obliczyć wartość zmiennej losowej x*, wykorzystując Średnią arytmetyczną, jako że pozostaje problem mianownika w każdym ze składników sumy

(5.80), czyli problem dyspersji rozkładu

Gaussa. Wielkość ta przy pobieraniu próby z reguły nie jest znana, a pobieranie próby ma właśnie na celu najczęściej określenie zarówno estymaty wielkości oczekiwanej, jak i estymaty dyspersji. Moglibyśmy co prawda użyć tej ostatniej do określenia wartości zmiennej losowej (5.80), która wyglądałaby jak zmienna x*, ale w najlepszym razie mo-

głaby ona ją aproksymować, przy czym aproksymacja ta byłaby tym lepsza, im estymata dyspersji obarczona byłaby mniejszym błędem. O tym zastrzeżeniu należy zawsze pamiętać, ilekroć oglądamy wyniki eksperymentalne interpretowane w terminach rozkładu X”, jako że właśnie regułą jest, iż zamiast Ściśle określonego parametru rozkładu normalnego, jakim jest jego dyspersja, stosowana bywa jej estymata. Tę, zdawałoby się, słabość zmiennej z rozkładu x* często obraca się w jej atut i wykorzystuje w procesie analizy

danych doświadczalnych do określenia nieznanego błędu pomiarowego. Metoda ta jest powszechnie stosowana w procedurach kalibracji detektorów, kiedy to wykorzystujemy pewne znane wielkości np. geometryczne, znajdowane w dokładnych pomiarach geode-

zyjnych przeprowadzanych w momencie budowy detektorów lub też np. masy cząstek elementarnych lub rezonansów jądrowych. -—-

Przykład 5.6.2 Rozkład x* dla różnych zmiennych gaussowskich Rozważmy n gaussowskich zmiennych łosowych x, (i = 1,...,n), każda pochodząca z rozkładu normalnego W (x;; 4,o;) o wspólnej wartości centralnej. Dla

- (2) (2) (2)

próbki tej zdefiniujemy zmienną losową

x-AV 0)

(%-HV 07

x AV O,

Ponieważ każdy ze składników tej sumy podlega rozkładowi x? o jednym stopniu swobody, więc suma jest zmienną losową o rozkładzie x* o n stopniach swobody. Identyczny rezultat otrzymujemy także i dla zmiennych z rozkładów Gaussa zadanych różnymi wartościami oczekiwanymi ,,.

330

5. Niektóre rozkłady

Przykład ten podnosi kwestię wykorzystania średniej ważonej Xx„ zamiast wartości oczekiwanej j4 w konstrukcji zmiennej X*: -

2

Xi — Xy j

01

-(

)



2

X2 — Xw 07

+(

)

-

Xp

2

Kw On

++(

|

|

Rozumowanie przebiega tu tym samym torem co w przykładzie 5.6.1. Musimy jedynie zmodyfikować przekształcenie Helmerta. W tym celu wprowadzimy najpierw

zmienne

a z nich skonstruujemy zmienne l

Zi

l

Ę — 9;

"= 270 (a, 205) Y 2 =

ŁŻ"]) 03 'Q+0:;

1

Yn=1

=

dn

+ 74) — 0

nl

NA ——— Q,-10

(5:



O

O3Z3 27323

)

|,

Z,

— —

GnónZn

)



gdzie

Przekształcenie to jest ortogonalne, dzięki czemu z” :z = y':y, a wszystkie zmienne y, mają jednostkową wariancję i zerową wartość oczekiwaną, z wyjątkiem zmiennej y,, dla której wynosi ona m/ Q,„. Ponieważ

rę0. = Sz 2002 +o. =P(->) 2-2) n

i=l

-

2

i

n

n

i=l

i=|l

n

FE

i=l

n

n

n—

nl

i=1

i=l

i=1

i=l

=),4—QX, =) y; — Q,X, = Sy +y— QŹ =) y; więc

(uj=n—- l

1 to niezależnie od rozkładu, z którego wywodzą się zmienne x,. Wynik ten uzasadnia postać błędu zewnętrznego, jaką wprowadziliśmy w podrozdziale 4.3.

W szczególnym przypadku, gdy zmienne x, pochodzą z rozkładów normalnych, wszystkie o identycznej wartości oczekiwanej m, lecz różnych dyspersjach o;, Wówczas zmienne z, podlegają rozkładowi

5.6. Rozkład x*

n

N

l

331

1

, u) = [l YŻm

exp (-50

— u?

Wykładnik tego rozkładu przekształcimy do postaci zależnej od zmiennych y;

e - u) = z -2Y) pz, + SU

i=l

1

i=l

i=l

= Sy; — 2uQ,x, + Qu i=l

n-l

=) ly; + Q,X, — 2uQ,X + Qu” i=l

nl

= )y; + Q,(% — u)”, i=l

co prowadzi do rozkładu tych zmiennych

N (112 Yn-1 wi IŁ) n-l

=

_

GE

oo

ep (536)

|

z

2

Utwierdza to nas w przekonaniu, że zmienna u ma istotnie rozkład x* o n — 1 7 stopniach swobody.

5.6.3. Postać graniczna rozkładu x* Wykres 5.44 rozkładu x? sugeruje, że dla dużej liczby stopni swobody rozkład ten staje się symetryczny. Nauczeni doświadczeniem z badania postaci granicznych innych rozkładów, wprowadzimy standaryzowaną zmienną z, zdefiniowaną wyrażeniem z

=

u-ć[u]

u=n

Dluj

42n

>

u=v2nz+h,

charakteryzującą się rozkładem postaci

Jn(z)

=

V2n (Wz tn)

ca r) 7

ń

!

"CEC +3)

exp | —z

w/2nz

+n)/.

Rozkład ten przedstawiony jest na rys. 5.45 dla trzech wartości liczby n = 5,101 20 stopni swobody (linie cienkie) wraz ze standaryzowanym rozkładem normalnym. Widać, że rozkład x? upodabnia się do rozkładu Gaussa dla dużych wartości parametru n. Wykażemy to formalnie, wykorzystując przejście graniczne n — oo. Skorzystamy z rozwinięcia Stirlinga (5.5)

332

5. Niektóre rozkłady n=5

0,5

p

rozkład Gaussa

i

—3

-—2

-]

0

l

2

3

zmienna standaryzowana Rys. 5.45. Porównanie rozkładu x* dla trzech wartości liczby n stopni swobody z rozkładem Gaussa

(2) Sz8($-1) ee NI

f(z) *

w/2n („/2nz + n

1] exp (-;

(2nz

+ 9)

,

(Go) -(-086-3-)

a po wprowadzeniu wszystkich elementów wzoru (z wyjątkiem czynnika X 2n) do wy-

kładnika i dokonaniu odpowiednich redukcji, otrzymujemy

J„(z) *

Wykorzystamy teraz rozwinięcia logarytmów:

a otrzymamy Jnl2)(z) R© pol

xp

2> _

J-541 zd — „||

Zachowując dominujący, pierwszy człon w wykładniku, otrzymujemy standaryzowany rozkład Gaussa

2

fnlz)



n> 00

| /27

xp ( 2- )

Z rysunku widzimy, że zbieżność rozkładu x* do rozkładu normalnego jest dość wolna. W praktycznych obliczeniach rozkład graniczny stosuje się dla n > 30.

5.7. Rozkład Studenta

—-

333

5.7. Rozkład Studenta

5.7.1. Wyprowadzenie W podrozdziale 5.6.2 wspomnieliśmy, że użycie estymaty dyspersji rozkładu normalnego przy konstruowaniu zmiennej typu x* może dać nam co najwyżej tę zmienną losową w przybliżeniu. Dlatego właściwsze byłoby rozważenie rozkładu statystyki postaci

x—H b

Sx

zwanej statystyką Studenta. Ponieważ błąd średniej arytmetycznej s; wiąże się ze zmien-

ną typu x” zależnością

g2 Sz = nn=l)

więc statystykę Studenta możemy wyrazić w ogółnej postaci

x— u o

x Sx

X-a -

2

nn=l1'

4n m

u

n—

l

W mianowniku licznika znajduje się dyspersja o/,/n wartości średniej, a w mianowniku pod pierwiastkiem liczba n — 1 stopni swobody zmiennej u typu x”. Oba obiekty pojawiają się tutaj z uwagi na to, że wyszliśmy od pewnej konkretnej zmiennej losowej, tj. Średniej arytmetycznej. Aby nasze rozważania uogólnić, zajmiemy się rozkładem

zmiennej losowej zdefiniowanej wyrażeniem

x— U t=—o—

(5.85)

gdzie wielkość x jest zmienną losową pochodzącą z rozkładu normalnego o parametrach A oraz o , natomiast zmienna u podlega rozkładowi x* z n stopniami swobody, przy czym zmienne x oraz u są statystycznie niezależne (tak jak to jest dla średniej arytmetycznej

i jej niepewności standardowej).

Postać rozkładu zmienną losową

zmiennej

t wyprowadzimy,

standaryzując

najpierw

gaussowską

x— HL t=—

u

n

>

z

t=—,

U

n

a następnie wypisując postać łącznej funkcji rozkładu dla zmiennych z oraz u

334

5, Niektóre rozkłady

2

oraz odwołując się do wyników podrozdziału 2.6. Pokazaliśmy tam, że funkcja gęstości dwóch zmiennych losowych przy ich przekształceniu podlega zamianie wg przepisu (2.26): glłt,v) =h(z(t,v),u(t, v)) |J(t, v)|.

Jeśli dokonamy przekształcenia

|

= v=u

z

———



+=

>

/ujn

0z

y

a |_|; t

J=|s

+

u=v

dz

807]





dt

z7gl-

m

2%

0

dv

1

=|

[e

to łączna funkcja gęstości zmiennych t oraz v przyjmie postać Snlf,

6) V)

1 r Jze »( v 5) = == —— ni V — ©xp|-—5 — 57 V2NT

r (>)R

(42)

1

my Y

= / nn (42)

n

2

nżl_q

v

2n

t>

%P|-z(IF7)|-

r (>)

Ponieważ jesteśmy zainteresowani rozkładem brzegowym zmiennej t, więc wycałkujemy £„(t, v) względem zmiennej v: 00

S,() n

=

J

00

(t,v)d V)dU

gnU,

=

I

PNY

ant

śm(43) r(3)

J

v2

ap6 (

73

»(142))a "

v.

Jeśli w całce dokonamy zamiany zmiennej:

"z n

to sprowadzi się ona do całki normalizacyjnej z rozkładu x? z n+1 stopniami swobody, którą możemy łatwo obliczyć, otrzymując ostatecznie w wyniku 40

T(i(n+1

= TE)

„/nn T' (zn)

n=l,2,...,

2y

(147)

n

736640)

,

(5.86)

—00 < I < ©,

czyli rozkład Studenta o n stopniach swobody, podany przez angielskiego statystyka W. S$. Gosseta (Student, The Probable Error on the Mean, Biometrika 6 (1908),

William S. Gosset,

1876-1937

1), który swoje

prace naukowe publikował pod pseudonimem Student, gdyż . . . jego pracodawca, znana firma browarnicza Guiness, zabronił mu w kontrakcie używania własnego nazwiska.

5.7. Rozkład Studenta

Przykład 5.7.1

Średnia arytmetyczna — rzetelność producenta cukru Przyczynę, dla której interesujemy się rozkładem Studenta, wskazaliśmy we wstępie do tego podrozdziału. Stosując zmienną Studenta:

X-H

t=

o/4/n

(n — 1)sż JE /a-1

_X-u =

ss//no|

=

X-H

(5.87)

sz

o n— 1 stopniach swobody, unikamy trudności, która „gnębi” statystykę y* — nieznana dyspersja rozkładu Gaussa kasuje się i otrzymujemy zmienną zdefiniowaną

w całości przez dane doświadczalne. Umożliwia to testowanie hipotez o wartości oczekiwanej rozkładu Gaussa. Zauważmy także, że zmienna t mierzy odchylenie uzyskanego wyniku od wartości oczekiwanej w jednostkach błędu standardowego. Rozważmy następujący przykład. Przypuśćmy, że chcemy sprawdzić rzetelność, z jaką producent cukru rozsypuje go do toreb, których waga netto powinna wynosić 1 kilogram. Zakupujemy w tym celu 5 toreb i ważymy ich zawartość.

Obliczamy średnią wagę, która wynosi 960 gramów i znajdujemy odchylenie stan-

dardowe tej wielkości jako np. 10 gramów. W świetle reguły trzech odchyleń standardowych (patrz przykład 5.2.3) gotowi jesteśmy posądzić producenta o nieuczci-

wość, jako że w tym przypadku średnia waga odbiega od nominalnej aż o cztery standardowe odchylenia. Czy jednak nasz wniosek nie jest zbyt pochopny? Reguła trzech standardowych odchyleń odniesiona do rozkładu Gaussa implikuje prawdopodobieństwo 99,73% znalezienia zmiennej losowej wokół wartości oczekiwanej. W naszym przypadku wartość statystyki Studenta wynosi £ = —4. Jakie jest prawdopodobieństwo, że średnia waga otrzymana z próbki liczącej 5 pomiarów będzie zawarta między 960 g a 1040 g, czyli jakie jest prawdopodobieństwo, że zmienna

1 l

©



DV

©

RM

nn

O

M

0606

©



losowa Studenta t o czterech stopniach swobody będzie mniejsza, co do wartości bezwzgłędnej, od czterech? Stosowne obliczenia dają P(—4 < t < 4) = 0), 9839. Widzimy, że jest to prawdopodobieństwo mniejsze niż to, jakie znajdujemy dla

liczba odchyleń

r-—

0

„LL.

i

10

20

l

30

l

40

]

S0

stopnie swobody Rys. 5.46. Graniczna wartość statystyki t Studenta,

jako funkcja liczby stopni swobody

dla której

P(—t

< t < t) = 0,9973,

335

336

5. Niektóre rozkłady

rozkładu Gaussa. Gdybyśmy

chcieli wyciągać konkluzje na tym samym pozio-

mie prawdopodobieństwa, na jakim to czynimy w przypadku rozkładu Gaussa i reguły trzech standardowych odchyleń, graniczna średnia waga netto musiałaby

odbiegać od wagi nominalnej o przynajmniej 66 gramów, ponieważ dopiero wtedy P(=6,6 < t < 6,6) = 0,9973.

Jak powinniśmy się zachować, gdy nasza próbka jest bardziej obfita? Na rysunku 5.46 prezentujemy zależność granicznej wartości statystyki Studenta, wy-

czerpującą tę samą ilość prawdopodobieństwa (99,73%) jako funkcję liczby stopni swobody. Jak widzimy, dopiero dla liczby stopni swobody na poziomie kilkudzie-

sięciu uzyskujemy wartość £ zbliżoną do tego, co daje nam rozkład Gaussa, czyli

trzy odchylenia. Wynik ten jest zrozumiały, jeśli przypomnimy sobie rezultat (4.9) podrozdziału 4.2, który pokazuje, że dla próbki o rosnącej liczebności fluktuacje estymatora wariancji z próby maleją, a tym samym estymator ten w coraz to większym stopniu przybliża parametr rozkładu Gaussa. Dla mniejszych liczb stopni

swobody, liczba odchyleń może być bardzo duża; np. dla liczby stopni swobody kolejno: 5, 6 i 7, liczba ta wynosi około: 5, 5 i w końcu 45.

T)

—-

Przykład 5.7.2

Statystyka Studenta dla dwóch średnich arytmetycznych Rozważmy teraz dwa ciągi x; (i = 1,2,...,n)orazy,

(Jj=l, 2,...,'m) gaussow-

skich niezależnych zmiennych losowych pochodzących z rozkładu o tych samych

parametrach /4 oraz o. Skonstruujemy następujące niezależne statystyki: |

L —_ X =



n

2__ Ss, =

Xi,

-_lq

2,

J=QW

l

3-

n-l—=i=l



(G



=;2 X) ,

22

| Y=nT > (y;— 1) .

Wiemy, że obie średnie arytmetyczne podlegają rozkładom Gaussa o wartości ocze-

kiwanej u i dyspersjach o /,/n oraz o/4/m. Różnica obu średnich, a nawet ogólniej, wyrażenie X— 4, — (y — Ly) ma również rozkład normalny z wartością oczekiwaną równą zeru i wariancją

o 2 o 2 m+n o, — + — = o.

n

Statystyki

m

c

u, = (n — 1),

nm

y

uy = (m — 1)—;

mają natomiast rozkłady x? o n — 1 oraz m — 1 stopniach swobody. Z. podrozdziału 5.6.1 wiemy, że suma dwóch zmiennych losowych o rozkładzie x*, jedna on — 1, druga o m — 1 stopniach swobody, jest również zmienną losową o rozkładzie x? o liczbie n + m — 2 stopni swobody. Możemy wobec tego utworzyć zmienną Studenta

5.7. Rozkład Studenta

337

X ay — (Y — my) n +m nm



Ux H Uy

y

NT

n+m— 2

x-T-(u y

n+m

p

n+m-2V

(1x

m



My)

ę+ ż

*

n

5

(5.88)

Cz

o"

o rozkładzie Studenta z liczbą n + m — 2 stopni swobody. Zmienna ta ma zastosowanie przy testowaniu hipotez o równości wartości oczekiwanych dla dwóch

populacji gaussowskich o tej samej wartości dyspersji. Tak jak w przykładzie 5.7.1,

tu zmienna Studenta (5.88) także mierzy różnicę między wartościami średnimi (dla x = Hy) w jednostkach odchylenia standardowego dla tej różnicy, ale dzieje się to jedynie wtedy, gdy liczebności próbek są duże i porównywałne ze sobą:



x-y y

x-y Tę

pę+

n+m

n=m

lsż

+ s;

n+m-2Y m n o " W przeciwnym razie dochodzą, jak to widzimy, czynniki korekcyjne.

n

5.7.2. Własności rozkładu Studenta Dla parametru n = 1 rozkład Studenta przechodzi w tzw. rozkład Cauchy'ego 1 1 SG) =— , —00 () —

—00 < £ < OO,

(5.90)

+ (€ — 4) £



—00 < JL < OO,

T> 0.

Parametr I' zwany jest szerokością linii. Do rozkładu tego po-

wrócimy w podrozdziale 5.9.

Zauważmy, że rozkład Studenta ma tyłko skończoną liczbę momentów. Jeśli liczba stopni swobody jest większa od jedno-

ści, to wartość oczekiwana znika: € [t] =0,

n>l,

natomiast wariancja istnieje dla liczby stopni swobody większej od dwóch:

YKM=——, n-2

n>2

(5.91)

Kształt rozkładu Studenta, dla kilku wartości liczby stopni swo-

body, podany jest na rys. 5.47.

Augustin Louis Cauchy,

1789-1857

e

]

5. Niektóre rozkłady th

338

rozkład Gaussa n=lo

Rys. 5.47. Kształt rozkładu Studenta dla kilku wartości liczby stopni swobody

5.7.3. Postać graniczna rozkładu Studenta Na rysunku 5.47 ilustrującym rozkład Studenta przedstawiony został również, dla porównania, standaryzowany rozkład Gaussa. Widzimy, jak dla dużej liczby stopni swobody

rozkład Studenta zbliża się kształtem do rozkładu normalnego. Tym zagadnieniem zajmiemy się obecnie. Tak jak i w poprzednich przypadkach, rozwiniemy, korzystając ze wzoru Stirlinga (5.5), obie funkcje I' występujące w definicji (5.86) rozkładu:

5,0) z

EGP)

„/nnx/2n (zn — 1)

1,1

NI

—_ayżn

9 CE

3)

2 exp (—>n + 1

24 —Ż

n+|

(+7) H

|

a następnie wciągniemy wszystkie czynniki (z wyjątkiem x 2n) do wykładnika:

302 zęee(50(1-3)7377z7"(71)l

„(t) =

n 1 | —n|l—-—|--—

n-l

n|l—-|

2



1 rozwiniemy logarytmy:

1.

I

2), n

2 n

n|l--|=-—-,

n|l--j=—-, n n

72 "(*7))

n+1

In | 1

t

KAWIE. n n

n(1+—|=—,

otrzymując

SZ „M )

*



w2n

2

( 7 — CXP]z AE

n

z



n



n>oo

I

„/2n

( 3

exp | -—

AE

|,

jak oczekiwaliśmy, rozkład Gaussa. W praktyce rozkład graniczny jest używany zamiast rozkładu Studenta, jeśli liczba stopni swobody przekroczy 30.

5.7. Rozkład Studenta

--

Przykład 5.7.3 Współczynnik korełacji z próby — profil wiązki Powróćmy do przykładu 5.5.10 i łącznej postaci funkcji rozkładu błędów standar-

dowych i współczynnika korelacji z próby: g(Sx,

Sy;

r)



nl

(osy) UP)" nT'(n — 2)

n- | sz EN] X w( no 2(1—5p>) ĄD (>) Najczęściej

zdarza się, że potrzebujemy

9

-

p”

prszS sy ZY A , Ox0y " (2) ))

sprawdzić zgodność uzyskanego współ-

czynnika korelacji z próby z wartością zero, czyli z założeniem p = 0, niezależnie

od rozkładu wartości błędów standardowych sy, oraz sy. W takim przypadku funkcja

rozkładu brzegowego dla współczynnika korelacji z próby przyjmuje postać

Jr)

_

p (zm = 1))

VAT 10 -2))

(1 s OW

.

Jeśli w tym rozkładzie dokonamy zamiany zmiennej pna

r/n —2

to otrzymamy

Ś„-2(t)=

o

r Gw

D)

/nln-2T (3(n — 2))

(>)

n=2

|

—00 < £< ©.

Widzimy, że rozkład zmiennej t jest rozkładem Studenta o n —2 stopniach swobody. Wartość tej zmiennej dla przykładu z profilem wiązki z rozdziału 1 wynosi 0,324/ 386 — 2 f=——————)

"

1

" (S2) r(3)

który w następnym kroku zamienimy na rozkład zmiennej Jeśli dokonamy przekształcenia

DU n w,

F =

=>

v=u



UL

U =v

n

JU

yy

=>

J

=

to łączna funkcja gęstości przyjmie postać $nm(F,v)

=

(42)

|

wim

I

a (—F)

TGnT(im)" "

dv su

OF

dv

M2

U)?) 2-1

e

xp (>)U2

i

,

F, stosując metodę (2.26).

Jur

3F a

zh 1

(

oM2

1

yż m1

n

—v |M

=

0

exp (->

—F| Mm l

(—F

m

=

n

—y,

m

+ 1)) ,

Eliminując zmienną v przez scałkowanie (całka jest z klasy całek rozkładu x”), otrzymujemy rozkład Fnm(F)

=

r (;(0+m))

ni"m?" Fa"!

n,m> O,

'A (żn) A (żm) (m + nF)żttm

F>0Q,

zwany rozkładem F Fishera z (n, m) stopniami swobody. Należy wspomnieć o pewnym

zamieszaniu, jakie panuje w literaturze w kwestii nazwy tego rozkładu. Jeśli zajrzymy do

książek ze statystyki adresowanych do fizyków, spotkamy nazwy: F Snedecora—Fishera lub po prostu F Fishera. Klasyczne podręczniki statystyki matematycznej dość jedno-

myślnie określają go jednak mianem rozkładu F Snedecora lub po prostu rozkładem F.

W dziełach tych termin rozkład Fishera, zarezerwowany jest dla rozkładu zmiennej, konwencjonalnie oznaczanej literą z, zdefiniowanej wyrażeniem z = > lnF,

—00

< Z < W,

1 określany jest precyzującą nazwą rozkład z Fishera z (n, m) stopniami swobody. Zaletą rozkładu wielkości z jest to, że jest on bardziej zbliżony do rozkładu normalnego.

W tej książce będziemy stosowali terminologię, jaka utarła się wśród fizyków, a więc

używali nazwy rozkład F Fishera dla rozkładu zmiennej losowej (5.92) proporcjonalnej

do stosunku dwóch zmiennych, każda o rozkładzie x*.

342

5. Niektóre rozkłady

George W. Snedecor,

Sir Ronald A. Fisher,

1882-1974

1890-1962

r—

Przykład 5.8.1 Porównanie odchyleń standardowych Wiemy,

że każda ze statystyk u, oraz uy, wykorzystująca estymatory sz oraz Sy

wariancji o? dła dwóch prostych próbek, statystycznie niezależnych od siebie i wylosowanych z popa U, =

nl

=

normalnej o tej samej dyspersji o:

>

(w - X),

ml

uy =

55

lIĘ

sy = 2

)

_

(y—Y);

i=l

ma rozkład x? oodpowiednio n — I oraz m — 1 stopniach swobody. Z wielkości tych możemy zbudować zmienną F Fishera: Ux

nl,



Sx

g2

Sy

_ nl n=l _S% == mol, $ m— l

(5.93)

m—l

która będzie podlegała rozkładowi F o (n — 1, m — 1) stopniach swobody. Przykład ten jest ważny, ponieważ dostarcza on narzędzia do testowania hipotezy o równości wariancji w dwu próbach prostych wylosowanych z rozkładu normalnego.

n"

5.8.2. Własności rozkładu F

Przykłady rozkładu F dla niektórych wartości par stopni swobody zilustrowane są na

rys. 5.49. Rozkład F jest monotonicznie malejący dla n < 2 oraz ma modę dla n > 2 w punkcie

Kaz MA—2 n(m +2)

1.

5.8. Rozkład F Fishera 1,0

r

(n,m) = (1,1)

08 | 0,6

343

(n,m) = (5,1)

|

0,4 |

3

02 L

(n,m) = (10,5) (m, m) = (5,10)

0,0

l

0,0

0,5

l

L

J

1.0

1,5

2,0

Rys. 5.49. Przykłady rozkładu F

Wartość oczekiwana dana jest wyrażeniem €[F]=-—,

m >2

m —2

1 jest zawsze większa od jedności, natomiast wariancja określona jest przez 2m*(n + m — 2

Y[F] =

r ) n(m — 2)2(m — 4)

m > 4.

Dla jednostkowej wartości pierwszego ze stopni swobody otrzymujemy rozkład F w po-

staci:

_ Tlm+D)

która po podstawieniu zamienia się na

TOGM+D)

1"

p

PY O

1,

t=F, Ir

(i(m +1

1 Gm+D)

,/ nm I (>m)

1

(1 +

m

0)

zD

t>0,

czyli rozkład Studenta o liczbie m stopni swobody, określony na dodatniej półosi.

5.8.3. Postać graniczna rozkładu F Interesujące zachowanie objawia rozkład F przy przejściach granicznych dla liczby stopni

swobody. Przy ustalonej wartości parametru n, przy przejściu granicznym m

otrzymujemy

F„(F) Kok

— mM—>0o

n 22"

(>n.)

(nF)r" exp (-znF) 2





00

344

5, Niektóre rozkłady

czyli rozkład x* w zmiennej nF, o n stopniach swobody. Dowód przebiega analogicznie

do dowodów postaci granicznej dla innych rozkładów. Dokonujemy przybliżenia funkcji I' w części, w której występuje stopień swobody m, za pomocą wzoru Stirlinga (5.5) (o

ile dotychczas utrzymywaliśmy bardzo uważnie wszystkie stałe składniki typu jedności lub połowy, to tym razem zaniedbamy je w stosunku do wielkości m; ufamy, że Czytelnik po tylu przykładach powtórzy nasz rachunek bez przybliżeń): niż” E2n-1

Fnm(F) 3

(ż(n

D(zn) |

+ m))*"""

(2)

- zer 9)

=——--—---gyp

+ m))

mie(tm)*" exp(—1m)

_n (nF)2""!

_ n(nF)ż"!

exp(—1(n

n

n y ż(r+m)

2

m

=—— 0% | 23" T' (żn)

n

—— + 2

m

(22) n

n(14 2) n — | —

n+mn 2

n pp"

y-zbtm)

m

+ | ——

_ n(nF)z"!

(

— — m

n+mn 2

=

In (14 --P) n -

—F m

n(nF):""! n MAD (I In? 1 (14 ©)np). 22" T' (zn)

2m

2

m

Znak przybliżonej równości wprowadziliśmy z uwagi na rozwinięcie funkcji logarytm. Dła m — oo ostateczne wyrażenie zbiega do rozkładu x? w zmiennej nF, jak to podaliśmy wyżej. Ponieważ rozkład x” przy liczbie jego stopni swobody dążącej do nieskończoności dąży do rozkładu normalnego, więc jednoczesne przejście w rozkładzie F z parametrami n oraz m do nieskończoności prowadzi nas również do rozkładu Gaussa. Dowód przebiega analogicznie, należy jedynie wprowadzić zmienną standaryzowaną. W przeciwieństwie do przejścia m — oo przy ustalonym indeksie n, przejście n — oo przy ustalonym indeksie m nie doprowadza do żadnego nowego rezultatu, co

więcej, nie doprowadza do żadnego rozkładu.

—-

5.9. Rozkład Breita-Wignera

Rozkład (5.90) Breita—Wignera (zwany też rozkładem Cauchy ego) S(x

4

1

T)=——



DT

"(ZT) +G-n)

7”

—00

< X < ©,

—00

< JL < OO,

T>0,

spotkaliśmy w podrozdziale 5.7.2 jako szczególny przypadek rozkładu Studenta, gdy

ten ma tylko jeden stopień swobody. Znaczenie tego rozkładu w

fizyce jądra atomowego

1 cząstek elementarnych wynika z faktu, że opisuje on kształt jądrowych poziomów wzbudzonych i rezonansów cząstkowych. Jest on również nie bez znaczenia z punktu widzenia statystyki matematycznej z uwagi na swoje specyficzne własności. Polegają

5.9. Rozkład Breita-Wignera

345

one na tym, że rozkład ten nie ma określonej wartości oczekiwanej, a wyższe momenty zwykle są bądź nieskończone (parzyste), bądź nie istnieją (nieparzyste). Spowodowane jest to tym, że rozkład Cauchy'ego zbyt wolno zbiega do zera dla dużych wartości argumentu.

Gaussa.

Ilustracją tego faktu jest rys. 5.50, porównujący ten rozkład z rozkładem

0,5 p 0,4 0,3

rozkład Gaussa

0,2 F rozkład

0,1

Cauchy'ego

-4

-3

-2

-|

0

l

2

3

4

Rys. 5.50. Porównanie rozkładu Cauchy'ego i Gaussa

W konsekwencji dla rozkładu Breita-Wignera nie są spełnione założenia centralnego

twierdzenia granicznego i wartość Średnia z prostej próbki zmiennych tego rozkładu nie podlega, w granicy, rozkładowi normalnemu. Pokażemy to, wyprowadzając rozkład sumy

X = x; + x» dwóch zmiennych losowych x; oraz x, każda o rozkładzie Cauchy'ego. Jak to wynika z podrozdziału 2.6, rozkład sumy jest zadany splotem (2.27):

fa => on

|

NI

00

du

(1+2:-0v)7)(1+v0)

13

mwq+(lx)

—00

gdzie całkę obliczamy, rozkładając funkcję podcałkową na ułamki proste. Jeśli zamiast sumy zmiennych losowych weźmiemy Średnią arytmetyczną, to otrzymamy

1

fG) = —1

1



ponownie rozkład Cauchy'ego. Składając podobnie dowolną liczbę zmiennych, otrzymamy zawsze dla średniej arytmetycznej rozkład Cauchy ego.

Własność ta uniemożliwia zastosowanie standardowych metod oceny parametrów rozkładu Breita-Wignera. Jeśli próbka jest liczna, wtedy zazwyczaj uciekamy się do metody najmniejszych kwadratów. Jeśli danych jest niewiele, a próbka nie jest zanieczyszczona, wtedy możemy

przywołać na pomoc modę i zastosować metody podroz-

działu 4.6 lub jeszcze lepiej wykorzystać metodę wykresu kwantyli. Sposobem na „uleczenie” tego rozkładu jest obcięcie go do pewnego zakresu zmiennej wokół wartości modalnej:

346

5, Niektóre rozkłady

J 06; M, La, Ly, T')

l

Lip

(GT) +e-w>

(GT) +2- u)?

2

Ib

( Ha

2

a

dx



arctg | 2 b)

r

TY + 6 — w)?

—_

j

arctg | 2 bah

a

dla 1, < x < jm, co dla wartości oczekiwanej daje

l

T

Ep]l=u+—

„AG

a

M" +T"

_„2+ŁT2

BE) +

4 arctg (287 *)

— arctg (275 »

Wielkość ta jest równa wartości ji tylko wtedy, gdy obcięcie jest symetryczne wokół mody rozkładu.

Specyficzny charakter rozkładu Breita-Wignera objawia się również w niezmiernie

często spotykanym w praktyce laboratoryjnej przypadku obliczania wartości błędu ilorazu z = x/y dwóch niezależnych zmiennych losowych rozłożonych wg rozkładu normal-

nego z parametrami p, i o, Oraz ay i oy. Stosujemy tu zazwyczaj metodę przedstawioną w podrozdziale 3.4 i przedstawiamy błąd wielkości z jako s2

s2

|

s;=z (5 + 3

(5.94)

gdzie wielkości sy i sy to estymaty wariancji obu rozkładów. Przyjrzyjmy się bliżej

temu zagadnieniu. Jak to wynika z przykładu 2.6.6, zmienna losowa z określona jest

rozkładem

fGQ) =

1



210 xy

|

f

(-=

bie

—n)Ż 1x)

20?

(W=

8 (V — ))

u)? ja:

2o;

który, po rozbiciu zakresu całkowania na dwa: od minus nieskończoności do zera i od zera do plus nieskończoności (w celu usunięcia modułu pod znakiem całki), rozwinięciu

kwadratów w wykładnikach, wydobyciu przed znak całki części niezależnych od zmien-

nej całkowania, dokonaniu zamiany zmiennej i uporządkowaniu, można przedstawić jako

J (z)



1

noo,

1

1 R z? w( o; 2

o; 2

1/fuż

M

——> (>|5xę©)J| + aż

1

+ g(z) exp

8” (2)

>

g(z)

jes 0

——t2 | dr|,

5.410. Rozkład jednostajny

347

gdzie

g(z) = ————. o

x

l

z”

2 Oy | g2 0;

Zauważmy, że jeśli zmienne x oraz y pochodzą ze standaryzowanego rozkładu normalnego, natychmiast otrzymujemy, że rozkład f(z) redukuje się do rozkładu Cauchy'ego. Jak widzimy,

pełny rozkład dła dużych

wartości zmiennej

z zachowuje

się

identycznie z rozkładem Breita-Wignera (funkcja g(z) dąży do stałej dla z + oo), tak więc wariancja zmiennej z tego rozkładu jest również nieokreślona. Wynik ten stawia pod

znakiem zapytania sensowność, w odniesieniu do zmiennych gaussowskich, obliczania błędu stosunku dwu takich zmiennych, jako że błąd takiej wielkości jest nieokreślony, a tym samym wielkość ta pozostaje dowolna między plus a minus nieskończonością. Wielkości losowe określone takimi stosunkami są, z punktu widzenia statystyki matematycznej, źle zdefiniowanymi obiektami. Powinniśmy po prostu unikać formułowania za-

gadnień w ten sposób. Na przykład nigdy nie formułujemy zagadnienia polegającego na

obliczeniu stosunku dwu zmiennych, każda o rozkładzie dwumianowym, poniewaz w takim przypadku mielibyśmy niezerowe prawdopodobieństwo pojawienia się wyrażenia, w którym mianownik znika, co daje nam nieokreśloną operację matematyczną. Zamiast tego stosunku obliczamy wielkości typu stosunku rozgałęzień, w których w mianowniku

występuje zawsze dobrze określona wielkość. Mimo tych zastrzeżeń postępowanie wykorzystujące wzór (5.94) ma wielokrotnie sens, choć nie zawsze zdajemy sobie z tego sprawę. Jeśli wielkości x oraz y są np. dodatnie z mocy operacyjnej procedury pomiaru, co dzieje się np. przy wykorzystaniu twierdzenia Pitagorasa do pomiaru odległości między punktem produkcji a punktem rozpadu niestabilnej cząstki elementarnej, to nie mają

one znaczenia wielkości losowych o charakterze gaussowskim. Modelowych przykładów takich wielkości dostarczają nam rozkłady x*, Studenta lub Fishera, dla których wartość i błąd stosunku są dobrze określone, przynajmniej dla pewnych zakresów parametrów

tych rozkładów. Wtedy nasze rozważania powyżej nie mają zastosowania i możemy mieć

dobrze uzasadnioną nadzieję na słuszność prostego, laboratoryjnego wzoru.

—— 510. Rozkład jednostajny Z rozkładem tym spotkaliśmy się już w przykładzie 2.6.1. Ogólnie, rozkład jednostajny, zwany też jednorodnym, równomiernym lub płaskim, zadany jest wyrażeniem J(x;a,b)

=

——,

ba

—00

—...—2lnx,

=—2lnQqx>...X,).

Dla rozkładu x* o nieparzystej liczbie 2n + 1 stopni swobody wystarczy, jeśli utworzymy zmienną u

u=

—2InOqX>...X,„) + z”,

gdzie wielkości x; mają rozkład jednostajny z przedziału [0; 1], a zmienna z pochodzi ze standaryzowanego rozkładu Gaussa.

T)

5.10. Rozkład jednostajny r —

351

Przykład 5.10.5 Zmienna losowa z rozkładu Breita-Wignera Ponieważ dla rozkładu Cauchy'ego (5.89) dystrybuanta określona jest związkiem — T

|

dt

-( , = —(arc I + t* T 2

+5) —|, 2

—00

więc zmienna losowa

ma rozkład Breita-Wignera o parametrach j4 oraz I”, jeśli zmienna x ma rozkład jednostajny z przedziału [0; 1]. r

Dyskretny wariant rozkładu jednostajnego to P.(n) = L. k=1,2,...,n. n Wartość oczekiwana i wariancja dla tego rozkładu wynoszą n+1

ć [k] =

n —1

*

VIkl=—7—:

0,1010 r 0,1005

|-

0,1000

|-

0,0995 |0,0990 | 0,0985 0,0980

|

0

1

2

3

4

5

6

7

8

9

Rys. 5.51. Rozkład cyfr w liczbie r

Jako ciekawostkę można podać, że matematycy

w swych zmaganiach

z liczbą n

obliczyli wiele milionów cyfr znaczących po przecinku i badania statystyczne nie doprowadziły do zdyskwalifikowania tego ciągu jako ciągu liczb losowych o rozkładzie płaskim. Histogram 5.51 przedstawia częstości, wraz z błędami, występowania cyfr 0,1,...,9

dla pierwszych

I 254539

cyfr ludolfiny. Dane

(za: H. Scott, Project Gu-

tenberg, http://promo.net/pg/index.html) pochodzą z tabeli 5.5 zadającej krotność każ-

352

5. Niektóre rozkłady Tabela 5.5. Krotność cyfr w rozwinięciu liczby n

dej z cyfr. Zauważmy,

górne 2%. Rozważmy

0

125 505

5

125 880

1

125 083

6

124 796

2

125 594

7

125452

3

125 792

8

125 376

4

125372

9

125 689

że histogram przedstawia jedynie „wierzchołek” rozkładu, czyli

dwie najprostsze wielkości statystyczne, jakie możemy

tabeli. Dla jednostajnej dyskretnej zmiennej losowej o rozkładzie P,=-—,



wydobyć z tej

k=0,1,2,...,n—l,

wartość oczekiwana wynosi

1 w naszym przypadku jest to 4,5. Z, danych znajdujemy, że średnia arytmetyczna dla

wszystkich cyfr wynosi 4,5002, a jej niepewność to 0,0026. Dla wariancji otrzymujemy Yy[k] =

nż — |]

12

1 oczekujemy, że będzie ona wynosiła 8,25. Estymata tej wielkości to 8,2504.

—- 5.11. Podsumowanie. Związki między rozkładami Wzajemne relacje między poszczególnymi rozkładami przedstawionymi w tym rozdziale

możemy podsumować na rys. 5.52 (idea za: T. Eadie i inni, Metody statystyczne w fizyce

doświadczalnej, PWN, Warszawa 1989; symbole n, m, k oraz p, A i i mają znaczenie, w jakim są one używane w odpowiednich podrozdziałach). Wskazuje on na centralną rolę,

jaką odgrywa rozkład normalny, będąc granicznym rozkładem dla wszystkich dyskutowanych przez nas rozkładów, przy spełnieniu zaznaczonych na rysunku warunków. Na schemacie zaznaczony również został schemat Bernoulliego, z którego niejako wywodzą się pozostałe rozkłady. Obok relacji ukazanych na rysunku, istnieje także związek między rozkładem Erlanga a rozkładem Poissona. Związek ten jest treścią podrozdziału 5.4.1, gdzie rozkład Poissona wyprowadzony był z rozkładu Erlanga, i treścią przykładu 5.4.3,

gdzie przeprowadzona jest operacja odwrotna — rozkład Erlanga uzyskany jest z roz-

5.11. Podsumowanie. Związki między rozkładami

kładu Poissona. Sam rozkład wykładniczy wywiedliśmy

353

także z rozkładu dwumiano-

wego w podrozdziale 5.3.1, jednak wyprowadzenie to nie jest takie bezpośrednie (tak samo jak i wyprowadzenie rozkładu Poissona z rozkładu Erlanga i odwrotnie), jako że

prowadzi od zmiennej dyskretnej do zmiennej ciągłej.

Powinniśmy także pamiętać, że oprócz zależności granicznych między rozkładami normalnym, Studenta, x? oraz Fishera F zaznaczonymi na rysunku, istnieje między nimi Ścisły związek, wynikający ze stosownej zamiany zmiennych.

schemat

Bernoulliego

dwumianowy (wielomianowy)

geometryczny (Pascala)

> 0 p—>0

np > At

L) m(l

p) >At

m— w

wykładniczy

p>l

n — 00 k>©o

|

n(l -p) >u p—>l

nw

p-—>0 np-—>u fp-ż%

M —> 00

n> ©

Poissona

(Erlanga)

A> © (wielo)normalny

1h ©

Breita-Wignera M —

©

n =const

Rys. 5.52. Związki między rozkładami i ich formy graniczne

TEORIA

Niewiasta odziana w szaty o kolorach pomieszanych, w prawej dłoni trzymająca złotą koronę i pełny mieszek, w lewej sznur.

Złota korona i stryczek to znaki mówiące, że zrządzeniem losu jednemu pisane jest szczęście, drugiemu — nieszczęście.

— Rozdział 6

Metoda Monte Carlo

—- 6.1. Idea symulacji komputerowej Metodę Monte Carlo wytłumaczymy na następującym przykładzie. Przypuśćmy, że interesuje nas kwestia równowagi gatunkowej między królikami i wilkami na pewnym obszarze. Zbudujmy następujący model. Wyobraźmy sobie wyspę, na której panuje

wieczne, łagodne lato ze stosowną ilością opadów, które zapewniają niewyczerpane zasoby trawy, stanowiącej podstawę pożywienia królików. Króliki żyją w parach. Samice co trzy miesiące (12 tygodni) rodzą młode, których liczba waha się między pięcioma a czternastoma, przy czym kazda z tych możliwości występuje z identycznym prawdo-

podobieństwem wynoszącym 0,1. Każde młode z równym prawdopodobieństwem może być zarówno samczykiem, jak i samiczką. Młode dorastają bardzo szybko, a po trzech

miesiącach dojrzewają, łączą się w pary i kontynuują samodzielny żywot na innej łące.

Założymy także, że króliki nie są wybredne i łączą się w parę z pierwszym napotka-

nym przedstawicielem płci przeciwnej. Rasa królików, która zadomowiła się na naszej

wyspie, różni się od dobrze znanych nam królików tym, że nie są one zbyt towarzyskie 1 rozmieszczają się dość losowo po terytorium wyspy. Normalna długość życia królika

wynosi 5 lat (60 miesięcy) i osobnik, który dożył do tego wieku, znika z łąk naszej

wyspy. W tak sprzyjających warunkach naturalnych liczba królików rozrosła się do tego

stopnia, że na całej powierzchni wyspy liczącej 100 kiców kwadratowych (kic jest jednostką długości, jaką będziemy stosowali w naszych rozważaniach) można było znaleźć ich aż 9600 sztuk (4800 par). Ta obfita populacja królików zaczęła zagrażać uprawom i dlatego ludzie zdecydowali

się wprowadzić do środowiska naturalnego wroga królików, który utrzymałby ich liczbę

pod kontrolą. Wybór padł na wilka. Te jednak są bardzo drogie na rynkach okolicznych wysp, toteż lokalny samorząd zdołał, po długotrwałej kampanii zbiórek publicznych,

zgromadzić fundusze i zakupił tylko jedną wilczą parę. Każdy wilk, aby utrzymać się

przy życiu, musi przynajmniej raz na tydzień upolować królika. Przyjmiemy,

że wilk

w poszukiwaniu swojej ofiary może w ciągu jednego dnia przebiec dystans jednego kica, a w trakcie łowów jest on w stanie wyczuć królika w promieniu 0,005 kiców. Jeśli

wilk trafi na królika, ten ma szansę 0,2, aby mu się wymknąć, o ile wilk w poprzednim

356

6. Metoda Monte Carlo

tygodniu najadł się do syta. Jeśli tak nie było, to z każdym tygodniem szansa królika

wzrasta o kolejne 20%, co sprawia, że po czterech tygodniach postu wilk odchodzi do

innej, wiecznej, krainy łowów. Jeśli polowanie zakończy się sukcesem, to wilk wraca do sił i do końca bieżącego tygodnia leni się, o ile nie ma obowiązków rodzinnych, o których

za chwilę opowiemy. Wilki żyją w parach i wilczyca co 6 miesięcy w miocie wydaje na świat od czterech do ośmiu młodych, z prawdopodobieństwem 0,2 dla kazdej możliwości. I tu, jak dla królików, szansa każdej z płci jest równa. W czasie ciąży, która trwa dwa miesiące (8 tygodni), jak również przez następny miesiąc, kiedy to wilczyca opiekuje się małymi, tata-wilk musi łowić przynajmniej dwa króliki na tydzień. Jeśli mu się połów uda, to, z racji swego wilczego apetytu, pierwszy królik jest dla niego, a dopiero drugi dla wiłczycy i potomstwa. Po tym czasie wilczyca również może ruszyć na polowanie, ale przez kolejne dwa miesiące dorastające wilczki wymagają zwiększonej ilości jadła i wilcza para musi w tym czasie łowić przynajmniej 3 króliki tygodniowo. Zarówno wilk, jak i wilczyca są egoistyczni. Pierwsza upolowana sztuka przypada myśliwemu, druga

jest dla dzieci, a dopiero trzecia dła współmałżonka. Przez te trzy miesiące, kiedy młode

są pod opieką i nie potrafią samodzielnie polować, każde 3 tygodnie bez pożywienia

eliminują je z dalszych rozważań. Także jeśli któryś z wilków z pary nie przeżyje tego okresu, drugi działa od tego momentu do końca życia jako samotny wdowiec (lub wdowa). Młode, po trzech miesiącach od urodzenia, stają się samodzielne i ruszają na

polowanie. W sześć miesięcy po urodzeniu dojrzewają, łączą się w pary i odchodzą do własnych rejonów łowieckich. Wilki nie mają wrogów, chyba że ich liczba przekroczy 10 sztuk na kic kwadratowy. Wtedy wkracza do akcji człowiek, co czyni, że szansa przeżycia przez wilka pojedynczego tygodnia spada do 99%. W normalnych warunkach wilk dożywa wieku dziesięciu lat (stu dwudziestu miesięcy).

Jak będzie się kształtowała populacja wilków i królików na wyspie? Jaka ustali się

równowaga i jaką liczbę wilków i królików ona wyznacza? Pomysł uzyskania analitycz-

nej odpowiedzi na pytanie dotyczące populacji królików i wilków jest absurdalny. Przy takiej liczbie precyzujących warunków jest to niemożliwe. Możliwe jest jednak prześledzenie rozwoju sytuacji na wyspie, jeśli skorzystamy z komputera, który dostarczać nam będzie liczb losowych z rozkładu jednostajnego na przedziale [0; 1], za pomocą których

rozstrzygniemy o każdej probabilistycznej sekwencji wydarzeń. Musimy najpierw dopre-

cyzować warunki początkowe naszego problemu. Wiemy, że na wyspie znajduje się 4800 króliczych par. Utwórzmy listę wszystkich królików. Przyjmiemy, że są to wszystko doro-

słe pary, dlatego musimy określić, w jakim wieku się one znajdują. Ponieważ króliki żyją

5 lat, tzn. 240 tygodni, przyporządkujmy wszystkim kolejnym czterdziestkom królików ten sam wiek — pierwsza czterdziestka ma 1 tydzień, druga 2 tygodnie itd. W ten sposób

utworzymy trochę par królików, które formalnie nie będą jeszcze dostatecznie dojrzałe, aby mieć potomstwo, ałe będzie to niewielki ułamek całej populacji, który nie powinien istotnie zafałszować ogólnego obrazu sytuacji. Podobnie, każdej kolejnej parze króliczej

przypiszmy kolejny tydzień, w jakim znajduje się samiczka w ciąży. Oba zabiegi pozwa-

lają na równomierne rozrzucenie w czasie przyszłych momentów narodzin i naturalnej śmierci w całej populacji. Nasz algorytm mógłby wyglądać w następujący sposób. Zacznijmy, a będziemy to robić po upływie każdego tygodnia, od bilansu. Przegłądamy

6.1. Idea symulacji komputerowej

357

listę wszystkich królików. Jeśli natkniemy się w niej na królika, który osiągnął wiek pię-

ciu lat, skreślamy go z listy. Natomiast gdy natrafimy na parę, dla której przyszła pora mieć potomstwo, losujemy liczbę z przedziału [0; 1]. Jeśli liczba ta należy do przedziału

[0; 0,1), to królicza para ma piątkę potomstwa, jeśli liczba ta znajduje się w przedziale

[0, 1; 0,2), to mamy szóstkę itd., aż do liczby zawartej między 0,9 a 1,0, która oznacza 14

małych puszystych króliczków. Dla każdego nowego królika tworzymy miejsce na naszej

liście, notujemy numer tygodnia, w którym się urodził, oraz wybieramy losowo dla niego płeć. Jeśli na naszej liście znajdziemy parę króliczą zdolną do podjęcia samodzielnego

życia, to łączymy ją w parę. Obliczamy łączną liczbę wszystkich królików i znajdujemy

ich gęstość n na jednostkę powierzchni. Liczba ta przyda się nam za moment. Teraz pora zająć się wilkami. Najpierw tworzymy listę wszystkich wilków i stadeł,

jakie one stanowią. W liście tej zapisujemy wiek każdego z nich, tydzień, w którym

on jadł ostatnio, jak również odnotowujemy, kiedy ostatni raz wilcza rodzina uległa powiększeniu. Jak mamy rozwiązać problem polowania? Jeśli wilk może wyczuć królika w promieniu 0,005 kiców, to oznacza to, że biegnąc, wilk penetruje węchem pas o szerokości 0,01 kica. Liczba ta określa „przekrój czynny” o na natrafienie na królika. Znając gęstość n królików na jednostkę powierzchni, możemy obliczyć „typową drogę swobodną” A = (no)”', jaką wilk musi pokonać, aby napotkać królika. Ponieważ zarówno siedziby wilków, jak i same króliki są rozrzucone losowo po terytorium wyspy, więc gęstość prawdopodobieństwa napotkania królika przez wilka po przebyciu drogi s

zadana jest rozkładem wykładniczym € (s; A) = A”' exp(—s/A). Przykład 5.10.1 podpowiada nam, jak dysponując liczbą losową x z przedziału [0; 1], znaleźć liczbę losową s podlegającą rozkładowi wykładniczemu z parametrem A: s = —Alnx. Gdy znaleziona

przez nas liczba s jest większa niż dystans jednego kica, jaki wilk może przebiec w ciągu jednego dnia, to wilk tego dnia będzie musiał zacisnąć pasa i głodować. W przeciwnym razie wilkowi udało się znaleźć królika. Teraz go jeszcze musi upolować. Pobieramy w tym celu ponownie liczbę losową. Jeśli jest ona mniejsza niż 0,8, to polowanie kończy się sukcesem i z listy królików skreślamy np. pierwszego. Jeśli w poprzednim tygodniu wilk głodował, to liczba ta może wynosić co najwyżej 0,6, przy dwutygodniowej gło-

dówce —

0,4, a przy trzytygodniowej —

0,2. Jeśli polowanie się nie powiedzie lub

wilk ma obowiązki rodzinne, to wyrusza na polowanie także każdego następnego dnia

tygodnia, dopóki nie zaspokoi swego głodu i nie wywiąże się ze swych obowiązków.

Po tygodniu dokonujemy bilansu królików i wilków. Sprawdzamy, czy wilki przeżyły i czy nie nadeszła już pora na powiększenie wilczej rodziny. Problem ten rozwiązujemy

tak samo jak dla królików. Łączymy również dojrzałych osobników w pary. Jeśli liczba

polujących wilków przekroczy krytyczną wartość dziesięciu na jeden kic kwadratowy, dla każdego z nich dokonujemy jeszcze jednego losowania, które zdecyduje o tym, czy nie stanie się on w nadchodzącym tygodniu myśliwskim trofeum. Wystarczy, że otrzy-

mamy liczbę większą od 0,99, a skończy on jako skóra przed kominkiem w salonie myśliwego.

Algorytm ten powinniśmy powtarzać tydzień po tygodniu. W ten sposób możemy prześledzić rozwój króliczej i wilczej populacji na wyspie. Jeśli nabierzemy przekonania, że osiągnęliśmy stan ustalony, możemy zakończyć procedurę. Przeprowadzona przez nas

358

6. Metoda Monte Carlo

analiza nie będzie jednak ostatecznym rozwiązaniem problemu, gdyż otrzymany wynik będzie pewną losową realizacją założonego modelu. Dlatego całą symulację musimy

powtórzyć wielokrotnie, np. kilkaset razy, a uzyskane rezultaty uśrednić. Dopiero wtedy

otrzymamy typowy obraz rozwoju sytuacji. Inne zagadnienie, już z zakresu fizyki, to problem rozwoju kaskady elektronów, pozytonów i kwantów gamma zainicjowanej np. pojedynczym elektronem przelatującym przez detektor zbudowany np. z naprzemiennie ułożonych warstw ołowiu i scyntylatora,

czyli tzw. kalorymetr. Ołów w takim detektorze służy do budowania lawiny, natomiast

scyntylator do jej mierzenia. Całkowity sygnał odczytany ze scyntylatorów jest miarą energii zdeponowanej w kalorymetrze i jeśli tenże jest na tyle długi, że pomieści w sobie

całą lawinę i nic nie „wycieknie” na zewnątrz, sygnał ten również stanowi miarę ener-

gii pierwotnego elektronu. Typowym problemem przy projektowaniu takiego detektora jest dobranie geometrii poszczególnych warstw, głównie ich grubości. Gdy ołów jest zbyt gruby, nie mamy dobrego pomiaru energii pierwotnego elektronu, gdyż większość

energii umyka nam, pozostając w ołowiu. Gdy natomiast mamy zbyt wiele scyntylatora,

słabo postępuje rozwój lawiny i „rozdrobnienie” energii, gdyż główne procesy odpo-

wiedzialne za mnożenie cząstek w lawinie, tj. kreacja par i promieniowanie hamowania

(Bremsstrahlung), zależą od liczby atomowej ośrodka. W rezultacie kalorymetr taki byłby nietolerowalnie długi. Możemy próbować zoptymalizować rozmiary kalorymetru przez

odpowiedni dobór grubości warstw, zapewniając sobie jednocześnie dostateczną jakość pomiaru energii pierwotnej cząstki. Operację taką najłatwiej jest przeprowadzić właśnie

drogą symulowania rozwoju kaskad w kalorymetrach o różnych parametrach geometrycznych. Oczywiście procedura taka wymaga dobrej znajomości składu chemicznego

ośrodków, przez które wędrują elektrony, pozytony i fotony, oraz przekrojów czynnych

na wspomniane wyżej procesy, jak również procesy rozpraszania Comptona, efektu fotoelektrycznego, nieelastycznego rozpraszania na elektronach powłok atomowych z wybiciem szybkich elektronów, wielokrotnego rozpraszania, rozpraszania na jądrach ato-

mowych oraz anihilacji i to jako funkcji zarówno kąta, jak i energii, dla całego zakresu

energii od zera do wartości energii padającego elektronu. Naturalnie, niezbędny jest również do tego celu potężny komputer, abyśmy nie strawili wieczności na symulowanie pojedynczej kaskady. W wielkim uproszczeniu symulacja taka przebiega w następujący sposób. Znając energię padającego elektronu i całkowity przekrój czynny na jego oddzia-

ływanie, a także gęstość ośrodka, w którym się on porusza, możemy znaleźć (patrz przy-

kład 5.3.8) typową drogę swobodną na oddziaływanie. Rzeczywista droga, jaką elektron przebiega, podlega rozkładowi wykładniczemu, a więc możemy ją wylosować metodą opisaną w przykładzie 5.10.1. Gdy elektron dotrze do miejsca swego przeznaczenia,

losujemy charakter jego oddziaływania, znając proporcje różnych przekrojów czynnych. Jeśli jest to np. proces typu Bremsstrahlung, losujemy zgodnie z przekrojem czynnym

parametry kinematyczne emitowanego kwantu gamma i wyłaniającego się z reakcji elek-

tronu. Od tego momentu mamy już dwie cząstki, których los musimy dałej śledzić. Na-

turalnie, występują pewne komplikacje: pierwotny elektron podróżując przez ośrodek, traci energię na wzbudzenia otaczających go atomów, a więc zmienia się jego przekrój czynny, a tym samym zmienia się szansa na oddziaływanie. Elektron w swej wędrówce

6.2. Generatory liczb losowych

359

podlega nieustannym, tzw. wielokrotnym rozproszeniom, które

również zmieniają jego aktualny kierunek ruchu. W końcu, gdy energia elektronu spadnie poniżej pewnej wartości, zaczyna on faktycznie błądzić przypadkowo — powinniśmy zaprzestać

jego śledzenia. Wszystkie takie efekty musimy uwzględnić, jeŚli chcemy, by nasze wyniki miały jakieś odniesienie do rzeczywistości. Gdy śledzone przez nas cząstki znajdą się we wnętrzu scyntylatora, pojawiają się nowe efekty: wzbudzenia i deekscy-

tacje atomów wraz z emisją fotonów. Musimy określić ich drogę

w ośrodku scyntylacyjnym oraz ich pochłanianie i ucieczkę. Ostatecznie, gdy fotony dotrą do fotopowielacza, musimy wysymulować jego odpowiedź. Stąd też powstały wszechstronnie doGeorge pracowane, za cenę szybkości i wielkości, specjalne programy komputerowe, uwzględniające cały stan wiedzy o procesach elektromagnetycznych. Jeden z nich, najczęściej spotykany i stosowany, czyli Electron-Gamma Shower. Metoda Monte Carlo nie została bynajmniej odkryta przez fizyków się w momencie, kiedy komputer stał się nieodzownym narzędziem w ich duchowego tej metody powszechnie uznawany jest francuski przyrodnik,

L. Bufton, 1707-1788

to tzw. EGS, i nie pojawiła pracy. Za ojca G. L. Buffon.

W 1777 roku zastanawiał się on nad uczciwą stawką, jaką powinien zapłacić przystę-

pujący do popularnej wśród paryskich robotników gry, w której rzucano bagietkę na podłogę z desek. Grający obstawiali zdarzenie polegające na przecięciu się bagietki ze szparą między dwiema sąsiednimi, równolegle ułożonymi deskami. Buffon podał poprawne wyrażenie na prawdopodobieństwo takiego zdarzenia. W rozwiązaniu tym występuje liczba w, co zrodziło popularny problem „igły Buffona”, a w późniejszych wiekach zainspirowało wielu amatorów do rzucania tej igły tysiące razy na liniowany papier, w celu eksperymentalnego wyznaczenia ważnej stałej matematycznej. William Gosset badał swój rozkład (Studenta), używając trzech tysięcy liczb losowych właśnie opubli-

kowanych w najbardziej prestiżowym czasopiśmie statystycznym Biometrika. Pierwsze znaczniejsze wykorzystanie metody symułacyjnej w fizyce zainicjowane zostało przez

Stanisława Ulama i rozwijane dalej wspólnie z Johnem von Neumannem, a związane było z budową broni atomowej i dotyczyło spowalniania neutronów. Zadanie to, jak zresztą

cały projekt Manhattan, było tajne, więc musiało zostać ukryte pod kryptonimem. Ulam zaproponował nazwę Monte Carlo, która przetrwała po dzień dzisiejszy.

—- 6.2. Generatory liczb losowych Jak widać z powyższych przykładów, kluczowy dła powodzenia każdej symulacji jest dostęp do dużej liczby liczb losowych, przy czym wystarczą do tego celu liczby z rozkładu jednostajnego z przedziału [0; 1], jako że materiał podrozdziału 5.10 pokazuje nam, jak uzyskać liczby losowe podlegające innym, przynajmniej tym najprostszym rozkładom. Metody symulacji nabrały skrzydeł w momencie upowszechnienia się komputerów

i opracowania algorytmów generowania liczb losowych. Wcześniej wykorzystywano do

360

6. Metoda Monte Carlo

ich otrzymywania naturalne zjawiska. W jednym z takich przypadków liczby losowe uzyskiwano, wprawiając w -ruch obrotowy cylinder zaopatrzony w strzałkę wirującą

nad skalą z kolejnymi liczbami naturalnymi. Cylinder ten zatrzymywany był przez licz-

nik typu Geigera-Miillera odnotowujący przejście cząstki promieniowania kosmicznego. Inny

sposób

to obserwowanie

preparatu

promieniotwórczego

przez zadany

przedział

czasu i zliczanie rozpadów. Przy nieparzystej ich liczbie zapisujemy jedynkę, przy pa-

rzystej — zero. Powtórzenie m-krotne takiej procedury daje w wyniku m bitową liczbę

losową w układzie dwójkowym. Obecnie liczby losowe, a ściślej pseudolosowe, generowane są w komputerach za pomocą liniowych rekurencyjnych algorytmów postaci Xn+l © AQXp F GyXp1 +'** rayX„x tb

(mod M),

gdzie startowe wartości (,ziarno”) pierwszych k + 1 liczb całkowitych x, pobierane są

np. z daty i czasu systemowego. Parametry a, ...,a4, b oraz M dobierane są w zależ-

ności od architektury komputera (długości jego słowa). Operacja „„mod” oznacza branie

reszty z dzielenia przez liczbę M. Liczbę pseudolosową z przedziału [0; 1) otrzymujemy,

dzieląc x„+,, przez M. I tak, dla przykładu, program STATISTICA* firmy STATSOFT*,

przeznaczony dla komputerów osobistych, używa następującej procedury:

Xan = 742938285x,

(mod(2?*! — 1)).

Wspólną cechą takich algorytmów rekurencyjnych jest okresowość uzyskanego szeregu liczb, tzn. po obliczeniu pewnej liczby x i podstawieniu jej do wzoru w celu wykonania następnej iteracji otrzymujemy ponownie pierwszą liczbę z szeregu. Dla przykładu

rozważmy prosty wzór

Xp

= llx,

(mod 32).

Dla xp = 1 otrzymujemy następujący ciąg liczb: 1, 11, 25, 19, 17, 27, 9,3, 1,... o okresie 8. Dlatego ważny jest odpowiedni dobór parametrów ag, ..., ax, b oraz M, aby ten ciąg był jak najdłuższy. Ich pochopny dobór może doprowadzić do tego, że pewne liczby

w ciągu będą występowały częściej niż inne, a więc faktycznie nie będziemy generowali rozkładu jednostajnego. Łatwo jest również uzyskać sytuację, w której dwie kolejne liczby będą ze sobą skorelowane. Znane są w historii fizyki cząstek elementarnych

fakty zdyskredytowania „markowych” generatorów liczb losowych dostarczanych przez szacowne firmy komputerowe. Właśnie z uwagi na te pułapki, przed wykorzystaniem

„firmowego” generatora warto poświęcić mu trochę uwagi i: e

Sprawdzić, czy liczby, które nam są oferowane, pochodzą z rozkładu z przedziału [0; 1], czy też może z przedziału [0; 65 535] albo np. [—1; 1]. Jeśli nie jest to prze-

dział [0; 1], to przez odpowiednią transformację liniową możemy je przekształcić do e

wymaganego zakresu.

Sprawdzić, czy liczby te istotnie mają charakter losowy, a więc przynajmniej powinny być jednorodnie rozłożone w swoim przedziale, a pary nie powinny wykazywać korelacji.

6.2. Generatory liczb losowych e

361

Rozważyć, jak długiego ciągu liczb będziemy potrzebowali i sprawdzić, czy w tym

zakresie nasz generator nie powtarza swojego cyklu. Gdy jakiś szczegółny problem wymaga tak dużej liczby liczb losowych, że przebiegniemy pełny zakres generatora,

wtedy cała podstawa metody Monte Carlo staje pod znakiem zapytania i pojawia się

wyraźna groźba, że nasze wyniki będą pozbawione wartości. Zazwyczaj generatory, których używamy, umożliwiają kontrolowanie wartości star-

towej. Warto z tej opcji skorzystać w sytuacji, gdy pracujemy nad programem, 1 rozpoczynać generację od tego samego „ziarna”, ponieważ może to ułatwić śledzenie błędów

w kodzie programu. Jeśli natomiast zbieramy próbkę przypadków z Monte Carlo, wtedy należy rozpoczynać program od następnej liczby losowej po tej, która kończyła poprzednie uruchomienie programu, a uzyskane próbki połączyć w jedną, przez co uzyskamy

lepszą statystyczną dokładność w naszym symulacyjnym opisie. 0,052

0,051

0,050

0,049

ia

0,048

0,0

0,1

0,2

0,3

Rys. 6.1. Rozkład 200000 pięciocyfrowych miliona cyfr, pierwiastka z trzech

0,4

0,5

liczb z przedziału

0,6

0,7

0,8

[0; 1], utworzonych

0,9 z rozwinięcia,

do

Spójrzmy na przykład wykorzystania cyfr, jakich dostarcza rozwinięcie 4/3 i zbudujmy z nich liczby losowe. Milion cyfr rozwinięcia tej stałej matematycznej (za: Nemi-

roff, R., Project Gutenberg, http://promo.net/pg/index.html) zostało pogrupowane w ko-

lejne piątki i metodą dzielenia przez 100000 znormalizowane do przedziału [0; 1) co dało 200000 kandydatów na liczby losowe. Histogram częstości, wraz z błędami, tak uzyskanych liczb przedstawiony jest na rys. 6.1 (zwracamy uwagę na tzw. odcięcie zera na osi rzędnych — gdybyśmy tego nie zrobili, nie moglibyśmy ukazać rozmiaru nie-

pewności częstości występowania liczb w każdej z klas). Rozkład wydaje się dobrze zgodny z rozkładem jednostajnym — fluktuacje są ograniczone i wartości częstości nie oddalają się o więcej niż dwa odchylenia standardowe od wartości 0,05, jaka wynika z wybranej liczby przedziałów histogramu. Oczekujemy, że wartość Średnia naszych

362

6. Metoda Monte Carlo

kandydatów na liczby łosowe powinna być bliska wartości oczekiwanej dla zmiennej

z rozkładu jednostajnego, która, jak wiemy, wynosi 0,5. Dla naszej próbki 200 000 liczb

znajdujemy x = 0,4991 + 0,0007. Możemy także obliczyć wariancję z próbki, która wynosi 0,083 31, podczas gdy oczekujemy wartości 1/12 = 0,083 33. 1,0

| 006

0,9

|

0,7

3

.

.

Pa

a e,

«e

.

p

0,5

0,4 le

.

0,3

|.

*

.

,

%

*

0,1

|

0,0

0,0

.

-

.

. .*

a.

0,1

*

a

*

.

.*

1,2

0,2

Ę

*

.

..e

,

„ „*

.

*

RE

+

.

"

.,

e

k

.

."

*

2

.

+

ad

0,3

0,4

"

*,

.

.

_*

.

*

*

".

e

0,5

*.

.

*

.

+

.

+

,

.



s

.

.

0,6

.

+

-

L"a

0,7

:

.

.

* 20

. RA

.

.

,

.

.» .

. .

Ak .

.

. .

..

.*

| 2

:

.

+

. .

..

*,

+



3%

.

*

„. e?

.

. e

. *

..

.

.

*

.

.

+

.

«a

*

e

. .

.

*.

,

e

*

*

*

. ,

*

..

,

.

,

©

.

*«»

*

.,

.

.

z

8

© ..

h

.

...

..



.

.

.

*.

*

B

0,2

.

.

.

tg

.

.

» 0,6

e

.. .

Pe

0,8

*.*

1

.

.

*

:

e

„.*

*

|

0,9

©

e.

.

J

1,0

Rys. 6.2. Rozkład pięciuset pięciocyfrowych par liczb utworzonych z rozwinięcia, do miliona cyfr, pierwiastka z trzech

Zastanówmy się teraz na kolejnymi parami. Wykres punktowy na rys. 6.2 przedstawia pierwsze 500 ze stu tysięcy par. Widzimy, że rozkład punktów jest dość równomierny.

Możemy obliczyć współczynnik korelacji dla pełnego układu par. Znajdujemy, że wynosi

on —0,003 i powinniśmy wynik ten porównać z wartością zero, jakiej spodziewamy się dla zmiennych nieskorelowanych. Mimo że rezultaty te napawają optymizmem, nie oznacza to jeszcze, że uzyskaliśmy

dobry zestaw liczb losowych. Testowanie generatora liczb losowych to właściwie zada-

nie, które nie ma nigdy końca i zależy od pomysłowości sprawdzającego. Stosowane bywają rozmaite testy statystyczne, głównie polegające na konstruowaniu z tych liczb

wielkości, których rozkłady są znane, i sprawdzaniu zgodności tak uzyskanej próbki

z tymi rozkładami. Interesującym testem jest wykorzystanie liczb losowych do rozwiązania problemów, dla których znamy odpowiedź. Jednym z takich zagadnień jest obliczanie objętości V,,

kuli o jednostkowym promieniu w m-wymiarowej przestrzeni. Objętość ta, jak wiemy, wynosi p zy "m

(zm)

Metoda polega na sprawdzeniu związku x + dla układów

+''+x,

D[k] = >nz (1-2) z =. [A] n [k| nV4 4 /n

Jeśli zastosujemy te związki do liczb uzyskanych z rozwinięcia +/3, to znajdujemy N = 3,152 + (0, 005, co wskazuje na dobrą zgodność. Podobnie, dla przypadku trójwy-

miarowego uzyskana estymata liczby n wynosi 3,16-0,01. Zwróćmy uwagę na skromną

efektywność takiej metody szacowania liczby rr — mimo ogromu danych, w przypadku trójwymiarowym uzyskaliśmy precyzję na poziomie 0,3%.

——- 6.3. Metody generowania rozkładów prawdopodobieństwa Metoda

odwracania

dystrybuanty

przedstawiona

w

przykładzie

2.6.1

i zastosowana

w podrozdziale 5.10 jest najprostsza i najbardziej przemawia do wyobraźni, lecz daje

się wykorzystać jedynie w sytuacjach, gdy odwrócenie zależności matematycznej można przeprowadzić metodami analitycznymi. W bardziej skomplikowanych przypadkach mu-

simy się uciekać do innych sposobów.

/(2x)

A

c

Rys. 6.3. Ilustracja metody eliminacji przy generowaniu liczb losowych z ograniczonego rozkładu

J (x)

Jednym z nich jest tzw. metoda eliminacji. Jej algorytm dla funkcji gęstości praw-

dopodobieństwa f(x) ograniczonej od góry przez pewną wartość c < oo oraz jej dziedziny (zbiór argumentów x) zawartej między dwiema

liczbami

oo

CYTOWIACZACO sr) ar(7) ń

Elul=€|/5|=

ee

fs"

dS=———_—

(5)

)

O.

Jak widzimy, wielkość u jest obciążonym estymatorem dyspersji rozkładu, jeśli jednak wprowadzimy zmienną S



n

n

1

S$,

25

to usuniemy to obciążenie. Obliczymy teraz wariancję zmiennej s:

nr” (>)

£”[s] = NL

v[s] =

za)

= zzć

Xx

+

—0”

3

=

ze |

c | m |-

o”

NE

iźk,k=l]

= zi: (eta +) Stetin) i=l

iźk,k=l

n

2

= z, m (no? + zna

— Do?) - a

>,

=

01-22 7

Znaleźliśmy w ten sposób dwie statystyki: s oraz d, przy czym obie są zgodne i nieobciążone, toteż obie mogą posłużyć do oceny dyspersji w rozkładzie z wartością oczekiwaną równą zeru. Którą mamy wybrać? Zbadajmy stosunek f ich wariancji: n 2

= VBI _

nr (3)

vy [d]

|

are (>)

2n

nr-2

2 Zilustrowany jest on na wykresie 7.2 jako funkcja liczebności użytej próby.

Można pokazać, wykorzystując rozwinięcie Stirlinga (5.5), że stosunek ten dąży, dla wzrastającej

liczebności próby,

do około

0,876.

Widzimy,

że dla dowolnej

liczebności próby estymator s charakteryzuje się mniejszą wariancją, a tym samym dostarcza ocen dyspersji o mniej rozproszonych wokół wartości prawdziwej estymator d.

niż

10 r L 0,876 0,8 |-

0,6 |-

0,4

i

376

0,2 | 0,0

0

l

l

l

l

]

10

20

30

40

S0

liczebność n próby Rys. 7.2. Zależność stosunku wariancji błędu i wariancji odchylenia średniego jako funkcja liczebności użytej próby n

7.1. Własności estymatorów Cechę

estymatora

opisującą jego koncentrowanie

się na poszukiwanym

377 parame-

trze nazywamy efektywnością estymatora. Jest to niewątpliwie bardzo ważna i nie do pogardzenia cecha, jako że estymator wyposażony we własność małych fluktuacji dostarcza potężnego 1 kosztów.

narzędzia oceny „poszukiwanego

parametru,

ujmując

nam

pracy

Czy możemy skonstruować, przy skończonej liczebności próby, estymator o dowolnie

dużej efektywności? Niestety, nie. Okazuje się, że istnieje pewna minimalna graniczna wariancja Vin dla wszystkich możliwych estymatorów, jakie moglibyśmy wymyślić do

oceny poszukiwanego parametru. Aby sformułować postać tej granicznej wartości, wprowadzimy najpierw tzw. funkcję wiarogodności. Niech będzie dana próba losowa prosta x; o liczebności n z rozkładu f(x;0), gdzie x jest zmienną losową, a © parametrem określającym rozkład. Funkcją wiarogodności £ (x;0) dla próby x; nazywamy wielkość

£(x;6) =| | /0x:0).

(7.3)

i=l

Należy zwrócić uwagę na to, że formalnie funkcja wiarogodności wygląda jak łączna funkcja gęstości rozkładu. I taką łączną funkcją gęstości jest ona tak długo, jak

długo wielkości x; w wyrażeniu (7.3) są zmiennymi losowymi. Wielokrotnie w dalszej części wykładu spotkamy się z sytuacjami, gdy wielkości x, to faktycznie wyniki pomiaru, a więc Ściśle określone liczby, a nie zmienne. Wtedy wielkość £ nie jest funkcją gęstości zmiennych losowych — jest to zwykła, matematyczna funkcja zależna tylko i wyłącznie od parametru 8. W literaturze statystycznej utarła się i bardzo głęboko zakorzeniła się tradycja wymiennego stosowania terminu funkcja wiarogodności dla obu tych sytuacji. Dlatego, abyśmy mieli jasność, o której z tych dwóch

funkcji mówimy w danym momencie, będziemy stosowali oznaczenie L dla łącznej funkcji gęstości zmiennych losowych oraz £ dla funkcji parametru 6 (lub parametrów).

Wyprowadzimy

teraz wyrażenie

na postać wspomnianego

ograniczenia Vin.

ZA-

czniemy od formalnej definicji pojęcia obciążenia estymatora. Jeśli dysponujemy statystyką © (x) estymującą funkcję (6) parametru 0 rozkładu, to obciążeniem b estymatora

funkcji $ nazwiemy wielkość b(8) zadaną związkiem OO

J O©(x)L (x;0)dx = 3(0) + b(0). —00

W całości naszych dalszych rozważań przyjmiemy, że funkcja rozkładu f(x; 6) spełnia

wymagania niezbędne do tego, abyśmy parametru, obie pochodne — pierwsza wane, a zakres zmienności argumentu x spełniony np. dla rozkładu jednostajnego własność umożliwia przechodzenie, bez

mogli ją różniczkować dwukrotnie względem i druga — mają skończone wartości oczekinie zależy od parametru (warunek ten nie jest określonego na przedziale [0; 6]). Ta ostatnia komplikacji, ze znakiem różniczkowania pod

znak całki. Najpierw zróżniczkujemy powyższy związek względem parametru:

378

7. Estymacja parametryczna 00

38

O(x)L (x;8)dx

= Jewto

m

-

5

8) dx

lnL(x;8),

= | ow

"7

|

_ d8(6)

L(x;0)dx

=

19

„|-

db(6)

(7.4)

je

Następnie skorzystamy z faktu, że skoro funkcja Ł jest gęstością 1 jest unormowana, 00

| L(x;8)dx=l, to przy założeniu, że granice całkowania nie zależą od parametru, zachodzi 0 =

8 [ L(x;8)dx= |f —— In L ————L(x;8)dx=€|———|. (1:0) 9 In Ł (x;6) 06 (e:5)dx = | 30 3 0)dr = £ | 30 |

7.5

2)

Jeśli ten ostatni związek pomnożymy przez funkcję % (6), a wynik odejmiemy od (7.4), to znajdziemy, że

[00-00

(x; 0)

dó(8) , db(8)

8GĘE2

(x; 6) dx = ——— +9:

a podnosząc obustronnie do kwadratui stosując nierówność Schwarza do lewej strony,

otrzymujemy nierówność OO

[e ©)

jcew

— 8(8))ŻL (x; 0)dx

J(3

2

In L (x; o

L (x; 8)dx

00 2 (7 "da

+ 0) do

2

(7.6) |

która przepisana w postaci

v[0()] = J (O(x) — 8.(0))2L (x; 0) dx > Vy, [56 | (w do —

DO

J

A)

OD

+

2) dO 2

( do =

L (x;8)dx

+ mo) do

3

2

| (pnrao)

prowadzi nas do tzw. twierdzenia Cramera-Rao, czyli nierówności określającej minimalną wariancję V/min [5% | dla dowolnego estymatora funkcji v (6) parametru.

7.1. Własności estymatorów

379

Niekiedy bardziej przydatna jest alternatywna postać wyrażenia stojącego w mia-

nowniku. Otóż, różniczkując powtórnie związek (7.5) względem parametru 0, otrzymu-

jemy

f

9ln L(x;8)N”

(757)

|

Ló)dx

=

|

—00

f 9?1n L(x;6)

|

og

L:0)dz.

—00

co możemy także zapisać jako

€ |(5

9

* WACE o) | -—€

|

92

nL (x; o |

(7.7)

Twierdzenie Cramera-Rao ma szczególnie prostą postać, jeśli za funkcję » (0) przyj-

miemy sam parametr 6, a estymator 6(x) jest nieobciążony, ponieważ wtedy A

A

v|ó|>Vx|ó|=

= —T—

l

€ (5

ln Z (c; o) |

E |

(7.8)

|

l

L (x; o)

W dalszych naszych rozważaniach będziemy rozpatrywali, dla uproszczenia, tylko

estymatory nieobciążone. Zwarte i dość złożone formuły na minimalną wariancję Vmin

uprościmy teraz do postaci przydatniejszych w praktyce. Podstawimy, przede wszystkim, jawną postać logarytmu funkcji wiarogodności: Vmin

A

[6|



-

l

on

J L (x; 0) (ws)

2

=

dx

l

s

J

fi

(f12) (7)

gdzie, dla uproszczenia, wprowadziliśmy notację f; = f(x,;0)

2

,

dx

oraz f, = 36 J 0; 0).

Rozwijając kwadrat sumy pod całką, otrzymujemy dwa typy wyrażeń. Pierwszy z nich, dostarczający n składników, to kwadraty pochodnych logarytmu

C E J C O L S 8 7) ( I(s) —00

a drugi typ to wyrazy mieszane

nn) dz,

—%0

J(M)że- | saas=|([ ras) (| an)

które znikają, gdyż z warunku normalizacji | = J f(x;8)dx

380

7. Estymacja parametryczna

po zróżniczkowaniu go względem parametru O wynika, iż

_= „| | £ | 9ln f6G8) [636)dx 0 0=_[05/0:0dx _= | [ 8ln f(x:6) —00

J

(7.9)

—00

przy założeniu wspomnianej wyżej regularności funkcji gęstości. Przy spełnieniu tego warunku nierówność Cramera-Rao dla ciągłej zmiennej losowej przyjmuje postać

A

A

v|0] > min a

o

0

l

o

n | f(x;0) (51a J (x; o)

l

a

dx

n€ IG

J 0% s)

|| (7.10)

Ponowne wykorzystanie regularności funkcji gęstości pozwala przedstawić mianownik

w powyższym związku w innej postaci. Po zróżniczkowaniu (7.9) względem parametru 8

ZIIOESIOZSIOZ --[(7)]--[6)]

otrzymujemy twierdzenie Cramera—Rao w równoważnej związkowi (7.10) formie

v [ó] > Vo [5] =— nJ

|

0 f(x; 0)55z I f(x;0)dx



- —!

d n€ FL

(7.11) f OG Ą

wyrażonej przez formalne oznaczenia i bez skrótów. Dla rozkładu dyskretnego P,(0) i zbioru k; zmierzonych wartości: k = (k;,...,k,), funkcję wiarogodności definiujemy analogicznie

£ (k; 8) = | | P,(6),

(7.12)

i=l

a nierówność

Cramera—Ra0

to

6] >v.f]-

55

ky ,ką,...,kę

Ł(k;6) (zy ntt o)

>.

gdzie zaznaczone sumy w mianownikach przebiegają pełne zakresy zmienności. Rozumowanie podobne do tego, jakie przeprowadziliśmy dla zmiennej ciągłej, pozwala tę nierówność wyrazić przez

v[6| > %|6|=

n€

a

(35 In Pio)

*



0

ne |

—!

In P;(6)

|

(7.13)

7.1. Własności estymatorów Estymator,

dla którego

wariancja

osiąga ową minimalną

wartość,

381

nazywany jest

estymatorem najefektywniejszym. Dostarcza on wygodnej „miarki” do oceny jakości estymatorów.

-——

Przykład 7.1.2 Minimalna wariancja estymatora wariancji — rozkład Gaussa Znajdziemy minimalną wariancję estymatora parametru o” (wariancji) rozkładu Gaussa. Logarytm tego rozkładu wynosi | nA

(x;

,

4,0)

=

—>

l

In2n



l

2

z Ino

(x wa n)

202

7

Jego pierwsza i druga pochodna to (o?)

| ( x ; 4 , 0 ) = —>— (3 4,0) 20?

N NN

a? ——— InN (ao?)

n

(x

(2; u,0) H

o)

+

ł

=

x-Hu) +=, 2(o0*)?

-

2(07)?

(x — p) (a*)3

Podstawiając do twierdzenia Cramera-Rao (7.11), otrzymujemy Vin

[6]

l

=

—n [NG

u,o)

z

=

5 MN

2

—o*.

65 u.0) dx

Natomiast najefektywniejszy estymator dyspersji o (a nie wariancji o*) rozkładu Gaussa W (x; 4, o) powinien się charakteryzować wariancją

Va [6] =

308 o?

ok z (2-

/2RO

ex

p

_G-m 20?

dx

=

2

2a

1 jak widzimy, nie zależy ona od wartości oczekiwanej „w. Wyznacza to efektywność odchylenia średniego d z przykładu 7.1.1: o

—L-

on-2 n

n-2

= (0,876,

2

a dla estymatora s z tego przykładu znajdujemy, że jego efektywność dąży do

jedności wraz ze wzrostem liczebności próby. Stwierdzamy również, odwołując się

do przykładu 5.6.1, że błąd s, należy do klasy asymptotycznie najefektywniejszych.

TI

382 ——

7. Estymacja parametryczna

Przykład 7.1.3

Minimalna wariancja estymatora parametru rozkładu Poissona Rozważmy próbę złożoną z n elementów z rozkładu Poissona o wartości oczekiwa-

nej 4. Z podrozdziału 5.4.2 wiemy, że zarówno wartość oczekiwana, jak i wariancja

rozkładu Poissona są równe parametrowi ji. Dlatego też możemy rozważyć, który z estymatorów: wartości Średniej czy też kwadratu błędu jest bardziej efektywny.

Zacznijmy od minimalnej wariancji (7.13). Logarytmujemy rozkład Poissona

n — exp(- 1) =ilnp — p — Ini! i obliczamy jego pochodną

i!

0 i i — —(inu-u-hnih=—-1=—

0,

SEE i=l1

17 )n-2 ( — > ) i=]

nie zależy od parametrów ju oraz o, a jedynie od wielkości t. Zwróćmy uwagę, że jeśli znana jest nam wartość parametru ja, to statystyka t wyrażona przez para-

metr « zamiast średniej arytmetycznej x, jest dostateczna dla parametru o, a jeśli znany jest parametr o, to statystyka x jest dostateczna dla parametru „w. Gdy oba parametry rozkładu nie są znane, wówczas obie statystyki są łącznie dostatecznie

dla obu parametrów.

7

Inne rozkłady dopuszczające estymatory dostateczne dla swych parametrów to: dwu-

mianowy, ujemny dwumianowy, wykładniczy, Erlanga 1 Poissona.

Liczba statystyk dostatecznych nie musi oczywiście zgadzać się z liczbą nieznanych

parametrów. Jeśli badany rozkład ma postać fQ; 1,0) =

>

l

24/2r(1+1)o

ex

?

(-—-)

o

J'

7.2. Metoda największej wiarogodności

387

to funkcję wiarogodności możemy zapisać w formie

Lana)

1

I

ag

4 =w0)

ZG

wyznaczającej cztery łącznie dostateczne statystyki n

y=) x,

k=1,2,3,4

i=l

dla parametrów ja oraz o. Gdy parametr j4 jest znany, wtedy jedyną dostateczną staty-

styką dla parametru o jest wielkość

n

t=)6— M)", i=l

natomiast przy znanym parametrze o do oceny parametru j4 potrzebujemy aż trzech statystyk: t;, tę Oraz tz. Podobna sytuacja występuje dla rozkładu binormalnego, określonego przez 5 parametrów, dla których mamy 5 łącznie dostatecznych statystyk. Jeśli znane są wszystkie

parametry tego rozkładu, z wyjątkiem np. jednej z wartości centralnych, wtedy do oceny

tej wielkości dostateczną statystyką jest wartość Średnia. Jeśli jednak nie znamy tylko

współczynnika korelacji, to do jego oceny potrzebujemy dwóch łącznie dostatecznych statystyk

1

|

Uu=—7 3 (% — 1)” + — ) (yi — Hy)”, 0x i=l Oy i=l 1

b=

OxQy

n

36% — Moly; — My). i=-]

—- 7.2. Metoda największej wiarogodności 7.2.1. Zasada największej wiarogodności W podrozdziale 7.1 wprowadziliśmy funkcję wiarogodności (7.3) i (7.12):

L(x;6)=[ [ /(%;;0),

(7.18)

i=l jako funkcję gęstości, w której w miejsce zmiennych losowych x; podstawiamy wartości x, uzyskane w wyniku pobierania próby prostej z rozkładu f(x;8). Zakładamy, że postać matematyczna funkcji gęstości f jest znana, nie znamy jednak wartości parametru 0. W takiej sytuacji funkcja wiarogodności staje się funkcją tego parametru. Zgodnie z zasadą największej wiarogodności za estymatę nieznanego parametru © powinniśmy wybrać taką liczbę 0, dla której funkcja wiarogodności osiąga maksimum: AR

L (z; 6)

= max.

388

7. Estymacja parametryczna

Jedynym uzasadnieniem takiego postępowania jest jego racjonalność: tak dobieramy wartość parametru, żeby wyniki pomiarów były najbardziej prawdopodobne, ufając, ze Natura nie znosi ekscesów i obdarza nas danymi, o których można powiedzieć, że są typowe. Jeśli strumień promieniowania kosmicznego docierający do nas z góry przynosi nam w ciągu każdej sekundy około 180 cząstek na metr kwadratowy, to jesteśmy przekonani, że z dokładnością do efektywności licznika, dokonując wielokrotnie pomiaru takiego strumienia przez jedną sekundę, będziemy otrzymywali liczby zliczeń rozłożone w zgodzie z rozkładem Poissona i ulokowane właśnie w okolicy tej wartości, a nie systematycznie niższe bądź też systematycznie wyższe.

(——

Przykład 7.2.1 Pomiar sygnału w obecności tła — rozkład Poissona Rozważmy

sytuację, w której dokonujemy pomiaru intensywności źródła promie-

niotwórczego o bardzo długim czasie życia w warunkach, w których występuje

tło, np. kosmiczne, zakłócające ów pomiar. Zarówno liczba s przypadków sygnału,

jak i liczba b przypadków tła są rozłożone zgodnie z rozkładem Poissona, przy czym nieznany parametr „4; definiuje ten rozkład dla sygnału, a nieznany parametr Lg dla tła. Wiemy, że łączna liczba m przypadków sygnału i tła jest określona rozkładem Poissona P„(u) z parametrem 4 zadanym sumą „45 +

p. Przypuśćmy,

że w eksperymencie zaobserwowaliśmy łącznie m = 8 przypadków sygnału i tła, a wykonany niezależnie, przez taki sam przedział czasu, pomiar tła dostarczył b =3 przypadki. Jakie są najlepsze oceny wartości obu nieznanych parametrów?

Wypiszmy łączny rozkład P„ „(i Ls) zmiennych m oraz b, który z uwagi na nie-

zależność metod zastosowanych do ich uzyskania będzie zadany iloczynem obu rozkładów Poissona:

P,„ (U, Lp) = P„(U)P,(LB)

A” Up p

= —r ky Ś

m! b!

Skonstruujmy funkcję wiarogodności

,3

8

a

L(m=8,b=3; s, Hg) =

EE,

Jęz,

Kontury tej funkcji przedstawia wykres na rys. 7.3. Widzimy, że maksimum funk-

cji wiarogodności występuje w punkcie (jis, ts) = (5,3), co dobrze zgadza się z naszą wiedzą o estymatorach parametru rozkładu Poissona.

Posiadłszy tę wiedzę, chcielibyśmy poznać rozkład nieznanej liczby s = m—b przypadków sygnału w eksperymentalnej próbce. Rozkład P,(4, j45) liczby s sy-

gnałów znajdziemy, sumując łączny rozkład względem wszystkich wartości zmiennych b oraz m, żądając jednak, by ich różnica miała zadaną wartość s = m —b, co sprowadza się do podstawienia wyrażenia s + b w miejsce argumentu m: P.(i,

W, ka?

wu — "HB

ROM

Hp LB

> G+bIbi

uu _ | "HB

*

NO

(Ukta) A

> s + b)!b!

Jeśli skorzystamy z definicji zmodyfikowanej funkcji Bessela 7,(x) rzędu s

(3)

(x) = ŚDEZZ 2) —(i+s)li!

s=0.1,2,...,

7.2. Metoda największej wiarogodności

=

10 Rys. 7.3. Kontury funkcji wiarogodności dla pomiaru intensywności sygnału w obecności tła

o własności /_,(x) = /,(x) 1 dokonamy wyboru x

q

HK

%

x= Ż/ ILILB,

to poszukiwane prawdopodobieństwo P,(it, LB) zapiszemy w postaci P;(iL,

Poprawność Bessela:

LL)

=

(

2) B

unormowania

e"

"EJ,

rozkładu :

(24

Aus)

wynika |

,

S

= 0,

l,

+2,

....

z postaci funkcji tworzącej do

exp (5 ( + ;)) =)

funkcji

eI,(x).

S=—00

Charakter rozkładu P,(ii = 8, Lp = 3) ukazuje rys 7.4. Widzimy, że rozkład

ten przybiera maksymalną wartość w punkcie s = 5. Wybór estymat jż; i fig jako tych wartości parametrów, które maksymalizują funkcję wiarogodności, jest sposobem na uczynienie danych najbardziej prawdopodobnymi, czyniąc, tym samym,

parametry najbardziej wiarogodnymi.

Zwróćmy uwagę, że zmienna losowa s, będąc różnicą zmiennych losowych przebiegających wartości dodatnie lub zero, przyjmuje wartości określone wszyst-

kimi liczbami całkowitymi z zakresu od minus do plus nieskończoności. Jest to rezultat pozbawiony wszelkiej treści fizycznej, gdyż nie jesteśmy w stanie wyobrazić sobie np. —3 przypadków sygnału w próbce, choć statystyka matematyczna skazuje nas na takie horrendum. Nie byłoby poprawne obcięcie rozkładu P,(u, Lg)

do wartości s > 0 i stosowne jego unormowanie,

gdyż oznaczałoby to, że np.

389

0,14

1

7. Estymacja parametryczna

0,12

|

0,10 |

P,(u5=5,4p=3)

3%0

0,08 | 0,06 | 0,04 |0,02 |

0,00 ez liczba s sygnałów Rys. 7.4. Kształt rozkładu liczby s sygnałów w obecności tła, dla parametrów sygnału i tła określonych metodą największej wiarogodności

w eksperymencie mierzącym tło w zadanym przedziale czasu potrafimy kontrolować liczbę b sygnałów tak, aby nie była ona większa niż liczba m przypadków

sygnału i tła. Próba ustanowienia takiej kontroli byłaby sprzeczna z warunkiem poissonowskiego charakteru takiego pomiaru, a w dodatku musiałaby pogwałcić

niezależny charakter obu eksperymentów, czyniąc wyrażenie na prawdopodobieństwo P,„(/L, Lg), zadane iloczynem dwóch rozkładów Poissona, nieadekwatnym

wobec ustanowionego przez nas modelu obu pomiarów. Jeśli kiedykolwiek przytrafi się nam eksperyment, w którym liczba sygnałów będzie ujemna, staniemy się, ni mniej, ni więcej, tylko bezradną ofiarą pecha zesłanego na naszą głowę

przez statystykę matematyczną, a rozwiązania tej trudności będziemy musieli po-

szukać w zmianie podejścia do zagadnienia i odwołaniu się do metody estymacji przedziałowej, czym zajmiemy się w podrozdziale 7.4.

T)

Estymatory, jakie uzyskujemy z funkcji wiarogodności, nazywamy estymatorami metody największej wiarogodności. Wymaganie maksymalnej wartości funkcji wiarogodności sprowadza się do żądania znalezienia pierwiastka 6 równania 0

35 7 (x;,0) =0,

przy warunku

L (x;0) |_g

i =



natomiast jego pochodna, a stąd estymata parametru A mi

—-

392

7. Estymacja parametryczna

Tym samym widzimy, że

+=5(6).

1=$()=

czyli dla tego specyficznego rozkładu estymator jest niezmienniczy względem transformacji »(x)

=

1/x parametru.

O ile estymator parametru Tr uzyskaliśmy

w formie nieobciążonej, o tyle wynik dla parametru A, w świetle (5.43), jest obażONY. ciążony. r

r——

Przykład 7.2.3 Estymacja parametrów rozkładu normalnego Znajdziemy estymatę wartości oczekiwanej „ i wariancji o” metodą największej wiarogodności z próbki x, o liczebności n wylosowanej z rozkładu Gaussa

N (x; a, o). Funkcja wiarogodności (7.18) tej próbki to

l

L (x; 4,0) = ————€Xxp (CZ

o)

l

2a? 2

(x; — w

natomiast jej logarytm wynosi In £ = -z n2n Biorąc

e

jA L= 0

352 ML=

— > Ina” —

względem wartości pa

06-60 >

2.

= — 1)

0

— u).2

5

i wariancji, otrzymujemy

>

fi=- 2]

— z: = 0

>

A2__

o

«2

l



AS2

= S;=,2,0- 60

Widzimy, że estymata wartości oczekiwanej to wartość Średnia, jednak estymata wariancji, będąc tożsama z (4.5), różni się współczynnikiem przed znakiem sumy od uzyskanego w podrozdziale 4.2 i konsekwentnie stosowanego w niniejszym wykładzie estymatora sź (4.7). Tym samym estymator wariancji rozkładu normalnego

z metody największej wiarogodności jest obciążony, a obciążenie to wynosi S2) Xx

_ g2 —

n= l n

_52_7—1 X

i znika dopiero dla n —

n

2

gto x

12

2

n

_12 n

oo. Ten asymptotyczny brak obciążenia to dość po-

wszechna cecha estymatorów największej wiarogodności. Jaką wariancją charakteryzuje się uzyskany estymator S; ? Z przykładu 5.5.2 wiemy, że

1 „|= 1o| 1 _(h=-1l y[5:]=v| - s|-( (n-l- )>el-( - |2

4

ot

_„h-L1,

7.2. Metoda największej wiarogodności

co oznacza, że usunięcie obciążenia, czyli przejście od estymatora S$, do estymatora s>, zwiększa wariancję nieobciążonego estymatora s; w stosunku do obciążonego

S; o wartość

PIS] - PIS] =P| s: |- PIS] = (> -1) PIS] n

=

l n-l

p[S;] =

l

2

n-l

nl

o

n*



o”

=—

2

nyNn=l

.

Czynnik o*/n stojący przed pierwiastkiem po ostatnim znaku równości to wartość

obciążenia. Widzimy, że im liczba n jest większa od trzech, tym w mniej szym stopniu zwiększona jest dyspersja D [s; | estymatora nieobciążonego s; i jednocześnie jest ona mniejsza od samego obciążenia. Istnieje interesujące odwrócenie rezultatu tego przykładu. Otóż jeśli średnia arytmetyczna X, z liczbą składników większą niż 2, jest estymatorem największej wiarogodności parametru ji funkcji gęstości postaci f(x — u), określonej na całej osi rzeczywistej, to jedyną funkcją spełniającą takie warunki jest rozkład Gaussa.

Istotnie, niech estymator parametru u będzie zadany przez Średnią arytmetyczną i spełniony niech będzie wymóg metody największej wiarogodności, tzn. 7-5 J 06—x x)

fQG-3) Wprowadźmy,

dla uproszczenia notacji, oznaczenia J =2X,—X,

g(%)=

J 0) JO.)

|

wtedy

a także

Rozważmy przypadek n = 2, kiedy to

0) + 802) =0 a ponieważ y, = —y,, więc

s)

= —801);

co mówi nam tylko, że funkcja g musi być antysymetryczna. Więcej informacji uzyskamy, rozważając n = 3. Eliminując wielkość y;, otrzymujemy 20) + 802) +g(-Vi

—))=0

Zróżniczkujmy ten rezultat względem y»:

g 02) — g Z) — a) 50,

393

7. Estymacja parametryczna

a poniewaz jest to wielkość dowolna, połóżmy ją równą zeru

g 0) =g(-y). Oznacza to, że pochodna funkcji g jest stałą, co prowadzi nas do stwierdzenia, że

sama funkcja g jest liniowa w swym argumencie, a w konsekwencji funkcja f ma postać rozkładu Gaussa. Identyczne wnioski wynikają z rozważenia przypadków,

kiedy liczba składników w średniej arytmetycznej jest większa od trzech.

r

Przykład 7.2.4 Estymacja parametrów rozkładu Breita-Wignera Uzyskanie analitycznej postaci estymatorów udaje się, niestety, tylko w klasycznych

1 najprostszych przypadkach. Zazwyczaj zasada największej wiarogodności doprowadza do równań, które nie dają się tak łatwo rozwiązać. Mamy często dodatkowe komplikacje. Przykład takiej sytuacji znajdujemy przy określaniu parametrów rozkładu Breita-Wignera (5.90). Logarytm funkcji wiarogodności (7.18) dla próbki o liczebności n ma postać

In £

=

—h

nn + nn ——

2



97in

I

2

2



+(

X;



H )”

co daje nam równanie np. na parametr 4

jj m

"

=2)

(7

_E

+ (6 — p)?

0.

Przy znanej wartości parametru 7” jest to wielomian stopnia 2n — 1, a więc

musimy wybrać jeden z jego pierwiastków, czyli w takiej sytuacji dysponować

dodatkowymi kryteriami. Przykład tego, co się może zdarzyć, przedstawiony jest

na dwóch wykresach: na rys. 7.5, ukazującym rozkład 1000 liczb wylosowanych

70

i

80 r

60 |50 | 40 r 30

I

20 "©



394

Rys. 7.5. Symulacja rozkładu Breita-Wignera

7.2. Metoda największej wiarogodności

395

-18 Rys. 7.6. Kształt funkcji wiarogodności dla rozkładu z rys. 7.5

metodą Monte Carlo z rozkładu Cauchy ego (5.89) (patrz też przykład 5.10.5) oraz

na rys. 7.6, pokazującym

logarytm funkcji wiarogodności

dla rozkładu Breita—

Wignera jako funkcji parametru a, przy ustalonym parametrze I' = 2.

r

7.2.2. Własności estymatorów największej wiarogodności Metoda największej wiarogodności cieszy się uznaniem z uwagi na własności estymatorów, jakich dostarcza.

Wskazówki

dotyczącej jednej

z tych własności,

a mianowi-

cie niezmienniczości względem transformacji estymowanego parametru, dostarczył nam przykład 7.2.2. Jest to bardzo pożądana cecha estymatorów, ponieważ w praktyce jest niekiedy rzeczą arbitralną, jaką funkcję poszukiwanego parametru wybierzemy. Możemy łatwo pokazać, że postać tej funkcji jest bez znaczenia. Istotnie, jeśli 6 jest estymatorem największej wiarogodności parametru 6, a nas interesuje pewna funkcja tego parametru, powiedzmy: © = 9 (0), to z równania

_0L

08

_ 0L060

86 80"

przy założeniu, że pochodna funkcji © względem parametru © nie znika, wynika, że

nowy parametr © również spełnia równanie będące warunkiem koniecznym istnienia estymaty tego parametru

AL

30

0.

Stąd mamy ową niezmienniczość względem transformacji parametru:

0 -5(0) =2(). Wynik ten rzuca światło na kwestię obciążenia estymatorów największej wiarogodności. Musimy się spodziewać, że są one, ogólnie rzecz biorąc, obciążone, jako że nie

39%6

7. Estymacja parametryczna

ma oczywistej recepty na wybór funkcji parametru rozkładu, którą mamy estymować. I nawet jeśli estymator parametru 6 nie jest obciążony, to ponieważ

e|o6)| ź o (€ [5 |) z wyjątkiem przekształcenia liniowego, estymator O funkcji » tego parametru z reguły będzie obciążony. Estymatory największej wiarogodności charakteryzują się jeszcze innymi, bardzo ważnymi własnościami, które wyliczymy tu w formie twierdzeń, niekoniecznie podając szczegółowe

dowody.

Przy zachowaniu pewnych

warunków

regularności funkcji roz-

kładu (niezależność zakresu zmiennej losowej od parametrów rozkładu, dwukrotna różniczkowałność względem parametru i istnienie wartości oczekiwanej pierwszej i drugiej pochodnej względem parametru), jedno z tych twierdzeń to: Twierdzenie 1. Estymatory największej wiarogodności są zgodne.

Zastanówmy się nad wariancją estymatora. Jeśli funkcję wiarogodności (7.18)

L (x;6) =| [ /(%:0) i=l

potraktujemy jako funkcję łącznego rozkładu prawdopodobieństwa zmiennych x; i dokonamy zamiany zmiennych

|

0 Y;

=

a;(X1,X2,

...,

Xn),

i

=|1,2,...,.n-l,

to funkcję L możemy zawsze przepisać w postaci

L(x;6) =L(x6,y):6)1J| = L(6,y:0), zależnej

od estymatora i zmiennych

losowych

znajdujemy rozkład brzegowy dla wielkości 6

y,. Całkując

względem

zmiennych

y;,

2:0) = J L (6. y:0) dy. z którego możemy określić wariancję estymatora 6

v [6] z | (6 — (8))?g(6; 6) dó. Wynik ten ma raczej teoretyczne znaczenie, ponieważ niezmiernie rzadko udaje się przeprowadzić taki program z sukcesem do końca. Oczywiste jest jednak to, że wynik ten jest równoważny następującemu rezultatowi:

v [6 | — | (6 (x) — (6))?L (x; 6)dx,

(7.19)

7.2. Metoda największej wiarogodności

397

który uzyskujemy, „cofając” przekształcenie x — (6,y). Wariancja (7.19) przyjmuje postać funkcji ocenianego parametru 8 — jeśli chcemy znaleźć jej wartość liczbową,

zmuszeni jesteśmy do podstawienia za ów parametr wartości estymaty, co naturalnie jest

tylko przybliżeniem. -——

Przykład 7.2.5 Wariancja estymatora parametru rozkładu wykładniczego Wykorzystajmy rezultat (7.19) do obliczenia wariancji estymatora czasu życia T, zadanego średnią (patrz podrozdział 5.3.2), dla rozkładu wykładniczego: a>

1

00

vE]-

0

= —

0) ot,

G=I

[lzeo(-*)dt...

i=l

T"

N

2

| (72:-7)

l

=-

n

00

i=l

2

1
[l

t,

exp | —— »(

)

T*

|dt,...dt,—T* =—. "

n

Nie podajemy szczegółowych obliczeń, gdyż przebiegają one standardowo, jeśli przypomnimy sobie elementarne całki dla rozkładu wykładniczego (wartość oczekiwana, wariancja) i technikę rozkładania jednomianów na wyrażenia z nie powtarzającymi się indeksami (patrz dodatek B). h

Rozważmy teraz przypadek wielu, np. k parametrów opisujących badany rozkład. Proste rozumowanie, będące rozszerzeniem przypadku jednowymiarowego, prowadzi nas do rezultatu

r——

v (6,6, |= J (6x) — (876,02) — (6;))L (x; 6)dx.

Przykład 7.2.6

Wariancje estymatorów parametrów rozkładu normalnego Rozważmy jednoczesną estymację dwóch parametrów:

w i o rozkładu Gaussa.

W przykładzie 7.2.3 pokazaliśmy, że ich estymatory największej wiarogodności to k=

2x

=

06-607

(7.20)

398

7. Estymacja parametryczna

Zgodnie ze wzorem (7.20) wariancja estymatora wartości oczekiwanej „w dana jest przez

y[a] =

1

zz);

00



(2-2)

2

CJE

GM] 92

)

_o?

= —.

Szczegółowych obliczeń nie przytaczamy z uwagi na ich prostotę. Rachunki dla wariancji estymatora o* są bardziej skomplikowane, choć można je wykonać, korzystając z uwag z dodatku B:

BT

I (r 20; --10-0) [ [eo(--5 z a dx

_ 201 n-

Zwróćmy uwagę na to, że wynik ten różni się od otrzymanego w przykładzie 5.5.2 oraz przykładzie 5.6.1, a to z powodu obciążonego charakteru estymatora największej wiarogodności wariancji rozkładu normalnego. Łatwo zauważyć, że dokonując zamiany

usuwającej obciążenie, odzyskujemy nasze wcześniejsze rezultaty.

Obliczenie, z wykorzystaniem (7.20), kowariancji między obydwoma estymatorami również nie jest skomplikowane i dlatego pozwalamy sobie zostawić je Czytelnikowi, a tu podamy jedynie ostateczny rezultat

cov [1, 6?]

1czy! 5)

(G$--)(720-P'-0 o|fleo(- SB)

= (), w zgodzie z wynikami przykładu 4.2.3 oraz przykładu 5.6.1.

Podany wyżej ogólny wynik (7.19) lub też (7.20) na postać wariancji daje się wykorzystać jedynie w najprostszych przypadkach. W sytuacjach bardziej skomplikowanych zmuszeni jesteśmy uciekać się do metod numerycznych albo przybliżonych. Pewne ułatwienie przynosi sytuacja, w której badana próbka jest duża, ponieważ wtedy zachodzi:

7.2. Metoda największej wiarogodności

399

Twierdzenie 2.

Gęstość rozkładu prawdopodobieństwa estymatorów największej wiarogodności dąży, przy liczebności próby dążącej do nieskończoności, do rozkładu normalnego, a estymatory największej wiarogodności są asymptotycznie nieobciążone i dążą do klasy najefektywniejszych. Dowód tego twierdzenia opiera się na rozwinięciu pierwszej pochodnej logarytmu funkcji największej

wiarogodności

względem

parametru,

obliczonej

przez estymator, wokół prawdziwej wartości 6 tego parametru 0 —

0 ln L (x; 0) 30

_3mL(G:6) — 9-5 30

w punkcie

zadanym

| 9? ln Z (x; 0) 6 —0), 302 „og, )

(0.21)

7.21

o której to wielkości wiemy, że jest ona równa zeru, co zaznaczyliśmy po lewej stronie

równości. Wielkość 6* jest wartością parametru 6 zapewniającą poprawność rozwinięcia

(drugi wyraz jest po prostu jedną z wielu postaci reszt, jakie wykorzystywane są w roz-

winięciu Taylora). Wartość oczekiwana pierwszego składnika sumy, na mocy (7.5), jest równa zeru, co oznacza, że wariancja pochodnej logarytmu funkcji wiarogodności wynosi

0lnLGG6)]|

„|(0lnLGG6)N" | „[

8mLQGG8)]

1

|Pege -]-e|(e©) |= =(=] = zz] gdzie wykorzystaliśmy (7.7). Ponieważ pierwsza pochodna logarytmu funkcji wiarogodności jest zadana sumą niezależnych składników:

Hm L(x:0)6) dlatego też, w warunkach

4h

asymptotycznych,

centralnego twierdzenia granicznego wielkość O ln ZŁ (x; 0)

-

06

z p nz



przy dużej

p, [5] 072056)

> = Din 10]

30

liczebności próby,

36

na mocy

0.22)

zachowuje się jak standaryzowana zmienna losowa o rozkładzie normalnym.

Spójrzmy teraz na drugą pochodną względem parametru w związku (7.21). Wielkość

ta również dana jest sumą niezależnych statystycznie składników, którą w asymptotycznym reżimie możemy także wyrazić przez minimalną wariancję:

82 In L (x;6) 392

0=0*

o—

no 321n f(x,,6)

3

i=1

00

2

, [ 821n f(x,6) 362

8=8*

2%

f (x,0)dx

(7.23)

400

7, Estymacja parametryczna

gdyż na mocy twierdzenia 1 o zgodności estymatorów największej wiarogodności wielkość 8* musi zbiegać do prawdziwej wartości © parametru. Podstawiając uzyskane wyniki (7.22) oraz (7.23) do wyjściowego wyrażenia (7.21), otrzymujemy

u Din

—_] [5 |

Vmi

(6—0)

=

U=_|_

[6]

Din

6-0)

(7.24)

[6 |

co dowodzi asymptotycznie normalnego charakteru estymatora największej wiarogodności i jego minimalnej wariancji. Zacytujmy jeszcze jedno twierdzenie odnoszące się do estymatorów największej wiarogodności: Twierdzenie 3.

Jeśli istnieje dostateczny estymator parametru, to jest on funkcją estymatora naj-

większej wiarogodności.

Nim przejdziemy do przykładów ilustrujących zastosowanie powyższych twierdzeń, rozważymy także postać asymptotyczną funkcji £ największej wiarogodności jako funkcji parametru 6 (ograniczymy się do przypadku jednego parametru) w okolicy wartości tego parametru określonej jego estymatą. Rozwiniemy w tym celu logarytm funkcji wiarogodności w szereg Taylora do wyrazów drugiego rzędu włącznie: A A 1 0 InL(6) 2 0 ln £ (6) ———— 0—8)+> ———— 8—8)* o (6-67). in £ (6) = In £ (6)+ 39 4 )+z 92 „4 J+o(( ) Pierwszy wyraz tego rozwinięcia to wartość maksymalna Lgax funkcji wiarogodności,

a drugi wyraz jest dokładnie równy zeru na mocy definicji estymaty największej wiarogodności. Jeśli wykorzystamy wynik (7.23), to w warunkach asymptotycznych całość możemy przepisać jako

InL (6) £ In Lyyx — (8 — 6)? +0 (te — 6”) | 2 [6

Usuwając funkcję logarytm i zaniedbując wyrazy wyższego rzędu, znajdujemy gaussowski kształt

L (0) © Lax xP

(6 — 6)

2V min

(7.25)

[6 |

funkcji wiarogodności w okolicy maksimum. Musimy tu z całą siłą zaznaczyć, że otrzymana zależność nie reprezentuje sobą ani funkcji gęstości rozkładu estymatora parametru

0, ani tym bardziej rozkładu samego parametru (to ostatnie byłoby, co najmniej, absurdalną propozycją), mimo formalnej zbieżności tego wyniku z wnioskami wynikającymi ze związku (7.24). Powyższy wynik opisuje asymptotyczny kształt funkcji wiarogodności jako funkcji parametru 0, w okolicy wartości zadanej estymatą tego parametru, a więc przy ustalonych wartościach punktów pomiarowych x,. W ramach klasycznej statystyki matematycznej, którą się tutaj paramy, parametr 8 jest pewną ściśle określoną, choć nieznaną, liczbą, a nie jest zmienną losową. Funkcja (7.25) jest zwykłą matema-

7.2. Metoda największej wiarogodności

401

tyczną funkcją argumentu 0, która ma tylko kształt krzywej Gaussa, wyzutej ze wszelkiej

probabilistycznej interpretacji. Studenci przedmiotu często o tym zapominają. Rezultat (7.25) jest bardzo ważny w praktyce. Kreśląc kształt funkcji wiarogodności jako funkcji parametru, bezpośrednio z rysunku możemy odczytać nie tylko wartość estymaty, ale także wartość błędu poszukiwanego parametru, gdyż na mocy twierdzenia 2, kwadrat tego błędu jest zadany minimalną wariancją, a ta jednocześnie definiuje

asymptotyczną postać funkcji wiarogodności. Jednakże w praktyce nie dysponujemy nieskończoną liczbą przypadków, więc dla wariancji estymatora parametru 6 otrzymujemy,

co najwyżej, pewne przybliżenie

A

[a

p|ó|=-

,

9% In £

) , 6=6 Dla przypadku wielu parametrów mamy natychmiastowe uogólnienie: A

[A

(

08?

a

|

9?In £

Y(6,6,) = |

(7.26)

——

00,00,

8—6

|

,

(7.27)

gdzie przez nawias kwadratowy zaznaczyliśmy macierz drugich pochodnych, którą mu-

simy odwrócić, aby uzyskać macierz kowariancji, a raczej jej estymatę, czyli macierz błędów, gdyż zamiast parametrów używamy ich estymat.

—-

Przykład 7.2.7 Ocena czasu życia — symulacja Opiszemy teraz przykładową próbę określenia parametru, jakim jest oczekiwany

czas życia r cząstki elementarnej lub wzbudzonego jądra atomowego w sytuacji pomiaru indywidualnych czasów życia przy użyciu detektora o skończonych roz-

miarach (porównaj przykład 5.3.5). Zazwyczaj sytuacja wygląda tak, że czas życia (pamiętajmy o dylatacji!) cząstki określamy z odcinka wyznaczonego przez punkt produkcji oraz punkt rozpadu, a więc o znanej długości i ze znanej prędkości cząstki, którą to prędkość znajdujemy z pędów produktów rozpadu. Dla cząstki poruszającej się w zadanym kierunku w detektorze istnieje pewien maksymalny

odcinek, na którym może dojść do obserwacji rozpadu. Odcinek ten wyznacza dla tej cząstki pewien maksymalny czas życia t/*%*. Gdyby cząstka żyła dłużej, jej rozpad nastąpiłby poza obszarem detektora i takich rozpadów nigdy nie rejestrujemy

w próbce. Dodatkowo, gdy odległość między punktem produkcji i rozpadu jest zbyt mała, nasze metody identyfikacji takich cząstek często są nieefektywne, co

prowadzi do strat w próbce, w związku z czym wprowadzamy dodatkowe obcięcie na mierzone czasy Życia od dołu, definiując pewien minimalny czas ż””, powyżej

którego, w naszym mniemaniu, efektywność detekcji rozpadów jest satysfakcjo-

nująca. Przy tak postawionym

problemie

rozkład czasów

życia obserwowanych

cząstek jest różny od zera jedynie dla przedziału wartości czasów od tj" do tP*. Oznacza to, że funkcja gęstości dla pojedynczej cząstki przyjmuje postać T

Jlt;T)=

gin

exp (-

7

(>) T

) — exp (-

gnax

-

*

402

7. Estymacja parametryczna

Funkcję wiarogodności (7.18) możemy zapisać w postaci InlL

=—nl







£;

*



l



jp





gprax

,

skąd otrzymujemy równanie na estymatę parametru T

nC£ OT

=

1.

T?

Mi

no T

Tt

Llqa*

min

i=1

ap (

_

fp

ex

z

i

L_ g Max

>)



i ap (

in

z

fi

jmax

z

e),

i

T

T

Jak widzimy, równanie to nie daje się rozwiązać przez funkcje elementarne i mu-

simy się uciec do metod numerycznych. Możemy jednak przekształcić je do postaci t

Z

T=fl—n

2

ty” exp(-

i=l

C€xp

(

min

— ) —t

tpm —— T

)



cXp

exp((

——

max —

-

a

) |

T

gdzie pierwszy wyraz po prawej stronie równości to średnia arytmetyczna obserwowanych czasów życia, a suma to poprawka. Wyrażenie to nadaje się wyśmienicie do obliczeń iteracyjnych. 120

100 g0 | 60

40 | 20 | 00

05

10

15

20

25 T

30

35

40

45

50

Rys. 7.7. Kształt wygenerowanego rozkładu wykładniczego z jednostkowym parametrem

Dla ilustracji wykorzystaliśmy metodę Monte Carlo 1 wygenerowaliśmy 500 przypadków z czasem życia Tr = 1. Rozkład ten przedstawiony jest na rys. 7.7. Dla celów dalszej demonstracji, a także dla uproszczenia przyjęliśmy, że wszystkie czasy £;/”” są identyczne i wynoszą 0,25, natomiast czasy t/*%* także dane są tą

samą wielkością 2,0. Odrzucenie danych, które nie spełniają warunków nałożonych

przez obcięcia t”" oraz ty*%, pozostawia w próbce 335 przypadków. lteracyjne wyrażenie na estymator parametru T już po paru „obrotach” dostarcza rezultatu T = 0,889 = 0,89. Przyjmując, że liczba 335 przypadków jest „duża”, skorzystamy

z wyrażenia (7.26) na estymatę wariancji, uzyskując D [£ | = (0,038 = 0,04.

7.2. Metoda największej wiarogodności

parametr T 0,95

1,00

1,05

log funkcji wiarogodności —— 335 liczb

0,90

Rys. 7.8. Kształt logarytmu funkcji wiarogodności £ dla przypadków z rys. 7.7 jako funkcja oczekiwanego czasu życia T

Powyższe

rozważania możemy

zilustrować

wykresem

z rys. 7.8 logarytmu

funkcji wiarogodności zależnej od argumentu r. Widzimy, że wartość maksymalną funkcja ta uzyskuje przy wartości parametru około 0,89, co dobrze zgadza się z ob-

liczeniami numerycznymi (na wykresie unormowaliśmy krzywą przez odejmowanie tak, aby jej wartość w maksimum była równa zeru). Kształt tej funkcji jest istotnie bardzo zbliżony do kształtu paraboli, jak tego powinniśmy się spodziewać dla kształtu Gaussa (7.25), ponieważ In£ =

Ż

CG

ŻVmin

2

+- const.

[7]

Z tego samego związku (7.25) wynika, że jeśli zmienimy parametr r o jedno odchylenie standardowe, to logarytm funkcji wiarogodności ulegnie zmianie o 1/2. Poziom —1/2 oznaczyliśmy za pomocą linii, która po przecięciu z ramionami

paraboli wyznacza dwie wartości parametru r, jedną w okolicy 0,852, a drugą około 0,925. Różnica między tymi liczbami to dwukrotne odchylenie standardowe,

które szacowane tą drogą daje nam wynik 0,036, co jest w wyśmienitej zgodności z obliczeniami numerycznymi. Podobne oszacowania możemy

przeprowadzić dla

dwóch lub trzech standardowych odchyleń, przesuwając tak wartość parametru T, aby logarytm funkcji wiarogodności uległ zmianie odpowiednio o dwie lub o cztery

i pół jednostki. Zaznaczyliśmy je na wykresie stosownymi liniami. Odczytując liczby z wykresu, otrzymujemy dwa dalsze oszacowania odchylenia standardowego o zbliżonych wartościach. Jest jednak interesujące, że o ile odległość od maksimum na lewo do punktu przecięcia naszej funkcji z prostą na poziomie 4,5 wynosi trochę więcej niż 0,1, to ta sama odległość na prawo jest równa 0,12. Świadczy to o odstępstwach od para-

bolicznego charakteru logarytmu funkcji wiarogodności. Te odstępstwa nasilają się przy zmniejszonej liczebności próbki. Dla ilustracji przedstawiamy na rys. 7.9 wy-

kres tej samej funkcji logarytmu wiarogodności, ale dla pierwszych pięćdziesięciu

wygenerowanych liczb. Nasze kryteria wyboru usunęły z niej 5 przypadków, zostawiając 45, a więc próbkę około 8 razy mniejszą niż pierwotna. Przez statystyczny

403

7. Estymacja parametryczna

parametr T

0,9

0, log funkcji wiarogodności — 45 liczb

404

—(,5

—1,0

—1,5

-20

Rys. 7.9. Kształt logarytmu funkcji £ wiarogodności dła ubogiej próbki przypadków jako funkcja oczekiwanego czasu życia T

kaprys, owe 45 przypadków daje bardzo zbliżoną wartość czasu życia £ = 0,875.

Tu już wyraźnie daje się zauważyć odstępstwo od parabolicznego charakteru krzywej. Potwierdzamy to, odczytując z wykresu wartości odchyleń standardowych: na

lewo około 0,095, natomiast na prawo około 0,105. Rachunek błędu wykorzystujący

formułę z drugą pochodną logarytmu funkcji wiarogodności daje wartość 0,102,

który to błąd jest oczywiście symetryczny (nota bene, zauważmy ładną zgodność odchyleń standardowych dla obu próbek: zmiana liczebności o czynnik 8 powo-

dująca zwiększenie błędu o czynnik V8 — 2,8, daje błąd 0,036 - 2,8 = 0,102 w zgodności z naszymi rezultatami „graficznymi).

r

Przykład 7.2.8 Ocena czasu życia i tła — symulacja Rozpatrzymy teraz przypadek, gdy występują w rozkładzie dwa nieznane parame-

try. Jako przykład rozważymy obserwację czasów rozpadu izotopu o intensywności

A w warunkach stałego w czasie tła, przez ustalony w czasie okres T. Przykład ten jest równoważny sytuacji, w której dokonujemy obserwacji zaniku izotopu, powstającego w szeregu z innego źródła promieniotwórczego o znacznie dłuższym czasie

życia. Gęstość prawdopodobieństwa dla takiej sytuacji określona jest wyrażeniem

fGA,T,p) = p

A exp(—At)

l

expCAT) * U-P7:

gdzie wielkość 1 — p określa domieszkę tła w znalezionej próbce. Dla ilustracji,

ponownie skorzystaliśmy z metody Monte Carlo i wylosowaliśmy 5000 przypadków z powyższego rozkładu z parametrem A = 1 i p = 0,5 dla czasu obserwacji

T = 5. Otrzymany rozkład przedstawiony jest na wykresie 7.10. Następnie zmaksymalizowaliśmy logarytm funkcji największej wiarogodności. Ponieważ tym razem mamy dwa parametry, więc konwencjonalnie rezultat takiej operacji przedstawiamy

7.2, Metoda największej wiarogodności

350 300 | 250 | 200 150 100 50

CczaS

parametr tła p

Rys. 7.10. Wygenerowany rozkład czasów życia w obecności tła

0,55 0,54 0,53 0,52 0,51 0,50 0,49 0,48 0,47 0,46 0,45 0,44 0,43 0,42 |0,41 | 0,40 0,80

! 0,85

090

i

l

I.

i

i

0,95

100

105

110

115

120

intensywność A Rys. 7.11. Kontur funkcji wiarogodności parametrów p oraz A dła rozkładu prezentowanego na rys. 7.10

w postaci konturów badanej funkcji (samą funkcję zazwyczaj normalizujemy, przez odjęcie od niej jej wartości w maksimum). Otrzymany wynik prezentowany jest na wykresie 7.11, gdzie kontury są po-

prowadzone co 0,5 jednostki od wartości —0,5 do wartości —4,5. Warto, aby Czytelnik zwrócił uwagę na odbiegające od eliptycznego kształtu krzywe poziomic, co wskazuje na niegaussowską postać funkcji wiarogodności, a tym samym

405

406

7. Estymacja parametryczna

przybliżony charakter wariancji obliczanej ze związku (7.27). Wartość maksymalną znajdujemy w punkcie A = 0,99 + 0,07 oraz p = 0,48 + 0,05, a więc wiernie

odtworzyliśmy wartości pierwotne, niestety, nie bez skorelowania parametrów między sobą. Ich współczynnik korelacji otrzymaliśmy jako r = —0,32. Odczytanie

tych samych błędów pomiaru z wykresu, jak to czyniliśmy w podrozdziale 5.5.4, jest nieco bardziej skomplikowane od tego, jakie wykonywaliśmy w przypadku jednowymiarowym. Teraz już nie wystarczy wybrać jednowymiarowy „przekrój ” funkcji wiarogodności w maksimum i odliczyć pół jednostki wartości tejże funkcji, aby otrzymać wartość błędu parametru. Musimy wyrysować pełny, dwuwymiarowy kontur funkcji wiarogodności, odpowiadający zmianie jej wartości o 1/2 1 z punk-

tów przecięcia z osiami parametrów prostych stycznych do konturu i równoległych do obu osi odczytać błędy. Wartość współczynnika korelacji możemy odzyskać, mierząc kąt © nachylenia większej półosi elipsy do osi x (intensywności A) i zastosować elementarny wzór

2poyO a . o£ — Gy

tg 2a =

Przykład 7.2.9

Efektywność detektora W przykładzie 5.4.10 zaproponowaliśmy modelowy opis doświadczenia Poissona,

którego celem jest pomiar wydajności dwóch liczników. Model ten określony jest przez trzy definiujące go parametry: dwie efektywności pą oraz pg i liczbę jt cząstek i zadany jest iloczynem czterech rozkładów Poissona Pza.np.Ncn (PA:

dla czterech zmiennych

PB:

u)

=

losowych

Pr

(LPA) Ps

na, ne, Nc

(LPB)Pu

(upc)Plup)

oraz n. Ponieważ

ostatnia z tych

zmiennych nie jest dostępna eksperymentalnie, więc usuniemy ją metodą przejścia do rozkładu brzegowego P, np.NC (Pas PB. M) = P., (UPA) P,, (UPB)PN. (Hpc).

Prawdopodobieństwo P,, ».v- (PA» PB. 4), przy znalezionych z eksperymentu liczbach ną, ng oraz N,, staje się funkcją wiarogodności L (pa, PB, ii), która posłuży do oceny nieznanych parametrów. Stosujemy standardową procedurę: ob-

liczamy logarytm £ i różniczkujemy względem poszukiwanych parametrów, uzyskując następujący układ równań: 0

N,

0 nl= AE OpA

00 nl ODB 0

PA

N ETC

PB

na+nz.+N

OB

(l — pp) =0,

MA

A - pa) =0.

lI-PM-A

| — DB

—n£L=-——”.

Nieznane parametry znajdujemy, minimalizując względem parametrów 8: In £ (68) = >. n, ln P,(6) + const, k=l|

gdzie const ukrywa w sobie wielkości niezależne od poszukiwanych parametrów. Gdy źródłem histogramu jest eksperyment Poissona o oczekiwanej liczbie

przypadków, wtedy liczby n, przypadków w każdym przedziale podlegają rozkładowi Poissona

Pn

(Ux)

Hk



m,

ny.

ę "*k

t

1

Ly = UP,(0),

a w konsekwencji, temu samemu rozkładowi podlega także całkowita liczba N przypadków w histogramie. Funkcja wiarogodności wynosi n

L (68) = [ [7 k=]

(Uk) = [I ti k=l

''k*

e,

i wiemy z przykładu 5.4.6, że jest to równoważne L (6)

=

=

u

N

NIŻ

_

e *

N!

P'"'... Pp",

min,

H

=

n

Żla

,

Przy poszukiwaniu maksimum tej funkcji istotna jest tylko część określona rozkładem wielomianowym, a więc estymatory metody największej wiarogodności nie zależą od decyzji odnoszącej się do sposobu zakończenia eksperymentu. Jeśli liczby n, przypadków w każdym z przedziałów histogramu są duże, to wiemy, że rozkład Poissona dąży do rozkładu normalnego, a wielomianowy — do normalnego wielowymiarowego (patrz podrozdział 8.2). Jeśli, dodatkowo, liczba n

przedziałów histogramowania jest również duża, co pozwala zastosować znane nam z przykładu 5.4.7 przybliżenie V[n.] =aP(1

— P,) Z nP, =n,

to efektywnie, zarówno w przypadku eksperymentu Bernoulliego, jak i Poissona, maksymalizujemy następujące wyrażenie: 1L/n=mV 1 £(0)x-5)( * e)

=

——

1

2

>

i=]

———n

(

+ const

may >

4/Nę

4-

const.

Do własności statystycznych tej wielkości wrócimy w przykładzie 7.3.4.

7.2. Metoda największej wiarogodności

-—-

413

Przykład 7.2.12 Poprawka Shepparda Niech przedziały grupowania, w liczbie n, będą identycznej długości A, ich Środek niech leży w punkcie x, = xy+kA,k=|1,2,...,n,

natomiast liczba danych okre-

ślająca liczby zmierzonych wartości, które należą do przedziału [x, — A/2; x + A/2], wynosi n,. Niech także liczebność próbki, czyli suma wszystkich krotności

n, wynosi N, a cecha, którą badamy, podlega rozkładowi Gaussa N (x; u, o). Obliczmy prawdopodobieństwo P, znalezienia zmiennej losowej wewnątrz przedziału o środku x, (y = x — x): |

P,b= =

xx +A/2

Bao

J

|

ap (

———(x-—u) >: W w)

x >A/2

=

NN

AZANY

A/2 exp P |

/2no

— 202 (x,k —

-A/2

__|1

A/2

| se(W2RTO

y

y

dy

20? AJ2

_m—m)

/2RO

L

72)

—Aj2

Eo

|d Xx

P



20?

_%%m-W0 PY); P

—Aj/2

20*

>.

Ponieważ zakładamy, że przedziały są istotnie mniejsze od dyspersji o rozkładu, więc funkcję wykładniczą pod całką rozwiniemy, wyrazów kwadratowych włącznie: C€Xp

2y(% — M) ŁY?

= |] —

Ży(x% — u) + y 20?

X — g2

—1 + 2

—A/2

2y(%

> MW+ŁY?

ee(-"F—

dy

/2yQ% — m) + y”

l (3 — 1) —— g2 — | -| +z(

Pozwoli to nam obliczyć, w przybliżeniu, całkę

|

całkowania y, do

777020200

= |-

A/2

w zmiennej

* +

207

2 >+

O

O (7)3 .

3 U

)

414

7. Estymacja parametryczna

Wynik ten, z dokładnością do wyrazów rzędu A*, możemy zamienić ponownie na funkcję wykładniczą:

4 (

l

l

(X

w

+ 240? (

u)

2

l

—1/|4A|]=A

o?

2P

(Xk

(240?

o

u)

2

—1)A|,

o?

a w konsekwencji, z tą samą dokładnością, otrzymujemy wyrażenie na prawdopodobieństwo P,

A

P, Z

/ 21 o

A

=

/2Ra

0w-u)

exp | — ex

202

A.

+

4

(oG— Nu)

2402

o?

1N

—— | 240% 2a?

P

(% — kk

„-

—|

4

,

2402

a stąd pełną postać funkcji wiarogodności n

=[|P* =

c=||7

A

(

N

5)

—_—

UE

za:

w

Rozważymy teraz sumę występującą w wykładniku:

2 mala — u? =D) mog —2u) nx +Nu =NS+ NG — u), k=l

k=l

gdzie wprowadziliśmy definicje Średniej arytmetycznej x oraz średniego odchylenia kwadratowego $ dla danych zgrupowanych, zadanego związkiem (4.5) (zauważmy, że w definicji tej ostatniej wielkości dzielimy przez całkowitą liczebność próbki)

W następnym kroku podstawiamy obie wielkości do funkcji wiarogodności

e

z

(

A

W

3

xp (

N

A?

1

——__|(8+G-

E-

53)

+G-u))

NA?

m?) -

Sa

,

obliczamy jej logarytm nCZ-Nmo+N(

A”

l

240%

2) 20

2

(S* + ( —

ny) sa 240? -- const,

i pochodne względem nieznanych parametrów: 0 —a n£=

a — do

nl=0

3% >

1 NZZACK) — A (6:A -—|=0 53) N AŻ ——+N(7" ( 665

| $* + (% — WZĘ -0. )( +6-60)+ 4:

7.2. Metoda największej wiarogodności

415

Z, pierwszego równania otrzymujemy estymatę wartości oczekiwanej, jako zdefiniowaną wyżej Średnią arytmetyczną zgrupowanych danych

Wynik ten upraszcza nieco drugie równanie, które po przekształceniach przyjmuje postać

A?

AS

4 — 62 | 574 — - o( +1)"

6

= 0.

Rozwiązania tego równania dwukwadratowego to A2

—_

1272|7 Właściwe

rozwiązanie

l

S2

A?

ua

71

+

j(

S2

A

uk

* 5)

to rozwiązanie ze znakiem

2

=



3

„+,

4252

gdyż dla szerokości

A

przedziału grupowania dążącej do zera powinniśmy odzyskać estymatę S*, tożsamą z estymatą 6? z przykładu 7.2.3. Ponieważ wszystkie obliczenia prowadzimy

z dokładnością do wyrazów

O(4A*), więc i tym razem rozwiniemy pierwiastek,

zachowując tę samą dokładność

|(>+5) -żes- (845) |1- 6SAŃŻ

2

2)

A?

(fa,

A?

24282

1

AS

2

(5+)

|,

4

4

Podstawiając do rozwiązania, otrzymujemy ostateczną postać estymaty wariancji

rozkładu Gaussa

Uzyskana poprawka do wyrażenia na kwadrat odchylenia standardowego S* obli-

czanego ze zgrupowanych danych nosi w literaturze nazwę poprawki Shepparda.

Zasada największej wiarogodności jest jedną z najpotężniejszych i najbardziej owoc-

nych metod statystyki matematycznej. Jest rzeczą zdumiewającą, że nie ma ona żadnego uzasadnienia na gruncie teorii prawdopodobieństwa, ani nie wynika z głębszych przesłanek. Jest ona „włożona” do statystyki z zewnątrz i jej jedyne uzasadnienie ma charakter a posteriori: będąc niezwykle

wszechstronną,

dostarcza (zazwyczaj;

zaintrygowanego

Czytelnika odsyłamy do przykładu 9.1.2) rozsądnych rezultatów o pożądanych właściwościach.

416

7. Estymacja parametryczna

—- 7.3. Metoda najmniejszych kwadratów 7.3.1. Zasada najmniejszych kwadratów W podrozdziale 3.5 rozważaliśmy krzywe regresji drugiego typu, zdefiniowane związ-

kiem (3.28), dla znanej postaci łącznej funkcji rozkładu. Sytuacja taka jest raczej wyjąt-

kiem w praktyce statystycznej — krzywe regresji musimy zazwyczaj określać z próbki

dyskretnych danych. Dlatego przyjmijmy, że mamy wyrażenie zależne od pewnej wiel-

kości x, którą będziemy nazywali wielkością kontrolowaną lub objaśniającą, a także od pewnej wielkości y, zwanej wielkością objaśnianą, 1 zbioru m parametrów 6, (i = 1,2,...,m), co możemy

zapisać jako R(x,

y:04,...,6m)

=

(0,

gdzie R jest pewną zadaną co do kształtu funkcją z nieznanymi parametrami 6;. Gdy mamy n wartości par (x;, y;), których jest więcej niż nieznanych parametrów 6;,, wtedy

układ równań na te parametry

R(x;,y;;0,,...,8,)

=0,

J=l1,2,...,n,

NR>M

jest co najmniej zależny, a w ogólnym przypadku sprzeczny. Zasada najmniejszych kwadratów (3.28) w wersji dla dyskretnego zbioru punktów danych orzeka, że wielkości 0, mamy tak dobrać, by spełniały one warunek NR

=

j=l

R*Q;,

y;; By, ...,

8m)

=

min(6,,...,6,),

co jest równoważne układowi m równań na m nieznanych wielkości 6; OR

3

i

=1,2,...,m.

Parametry, które minimalizują wielkość ŚR, oznaczać będziemy przez 0, i zwać estymatorami metody najmniejszych kwadratów. Należy zwrócić uwagę na to, że o ile w metodzie największej wiarogodności rozpatrywaliśmy funkcję gęstości rozkładu o nie-

znanych parametrach, o tyle tutaj wielkość R nie określa rozkładu, a jest dowolną funkcją podyktowaną przez np. teoretyczny model opisujący relację między wielkościami x oraz

y lub też może być wybrana arbitralnie jako wygodna, aproksymująca formuła do użytku

w innych obliczeniach. W wielu zastosowaniach praktycznych powyższą zasadę formułujemy w następujący

sposób: dany jest zestaw n punktów kontrolowanych x,, a dla każdego z nich dana jest wielkość objaśniana, czyli wartość mierzona y;, której prawdziwa wartość 7;

nm= NR =

(a) = meta e

Yk

H

=

.

,

k=l

Rozwiązaniem tego problemu jest średnia ważona (4.12). Gdy wielkości y, są skorelowane macierzą kowariancji V (y), wtedy problem określenia średniej ważonej poddaje się naturalnemu uogólnieniu

R=)>

k,j=l

O+-W[V" W], O; — M) = min(u).

Sformułowanie to sugeruje, abyśmy macierz Q w resztkowej sumie kwadratów (7.30) zdefiniowali jako odwrotność macierzy kowariancji: Q = V"' (y). Taki wybór ma ładną interpretację geometryczną, którą łatwo zauważymy, jeśli macierz błędów jest diagonalna i określona przez błędy s; poszczególnych wielkości y;, ponieważ wtedy minimalizujemy wyrażenie

R= 2

(|

PeE0),

(7.31)

określające odstępstwa, w jednostkach błędu s;, wielkości mierzonej od domniemanej (patrz rys. 7.13).

Istotnym elementem zasady najmniejszych kwadratów jest brak jakichkolwiek za-

łożeń co do charakteru rozkładu, z którego pomiary y, się wywodzą — można powiedzieć, że zasada najmniejszych kwadratów jest niezależna od postaci rozkładu. Jeśli jednak chcemy dokonać probabilistycznej interpretacji uzyskanych wyników, musimy wiedzieć, z jakiego rozkładu pochodzą wielkości mierzone. To jednak nie wystarcza. Równanie (7.31), a przez domniemanie również (7.30), sformułowaliśmy, wykorzystu-

jąc macierz błędów. Istotnie, zazwyczaj w praktyce dysponujemy jedynie statystykami określającymi wariancje i kowariancje. Taka sytuacja czyni problem na tyle skomplikowanym matematycznie, że jego aspekt probabilistyczny staje się praktycznie nierozwiązywalny na drodze analitycznej. Głębszy wgląd w naturę statystyczną uzyskanych

418

7. Estymacja parametryczna

1

F(x:0)

Rys. 7.13. Odstępstwa e, wielkości mierzonej od domniemanej

wyników można otrzymać dopiero wtedy, gdy przez macierz V (y) będziemy rozumieli

macierz kowariancji, a więc wielkości zbudowanej z elementów, które są stałe pod wzglę-

dem statystycznym. Takie też ograniczenie przyjmiemy we wszystkich naszych dalszych

rozważaniach metody najmniejszych kwadratów, a niniejszy akapit niechaj będzie dla Czytelnika ostrzeżeniem, że to, co tu robimy, to są faktycznie pewne rozważania modelowe, które nie zawsze muszą przystawać do rzeczywistości i stanowią najwyżej przy-

bliżenie realnej sytuacji. Przybliżenie to oczywiście będzie tym lepsze, im dysponujemy precyzyjniejszymi wartościami błędów i estymat kowariancji.

Należy podkreślić, że w całym sformułowaniu zasady najmniejszych kwadratów, jak

to jest przedstawione wyżej, nigdzie nie występuje pojęcie dokładności, z jaką znamy wielkości kontrolowane x,. Założeniem jest, że są one nam znane absolutnie dokład-

nie. Oczywiście, tak wyidealizowana sytuacja nigdy nie pojawia się w praktyce, dlatego też najczęściej zastosowania tej metody ograniczają się do przypadków, gdy dyspersje punktów x, są na tyle małe, że praktycznie nie modyfikują one wielkości dyspersji

o;. Istnieje możliwość rozszerzenia zasady najmniejszych kwadratów tak, by dyspersje wielkości x, były jawnie uwzględnione w formalizmie. Nie będziemy jednak tego robili, ufając, że Czytelnik będzie potrafił sam tego dokonać po opanowaniu całości materiału przedstawionego niżej. Autor jest również przekonany, że zrozumienie metody

najmniejszych kwadratów w wersji, w której występuje jedna tylko wielkość kontrolowana x, pozwoli Czytelnikowi łatwo dokonać uogólnienia na zagadnienie wielu takich zmiennych.

Na zakończenie tego punktu rozważmy przypadek specjalny, a mianowicie niech

wielkości mierzone

y;, pochodzą z rozkładu normalnego.

Wtedy

wielkość (7.30) jest

(z dokładnością do czynnika 1/2 i znaku „„—*) wykładnikiem, jaki pojawia się w łącz-

nej funkcji gęstości (5.74) rozkładu tych zmiennych. Tym samym minimalizacja wielko-

ści St jest równoważna poszukiwaniu maksimum funkcji wiarogodności, a więc metoda

najmniejszych kwadratów jest tożsama z metodą największej wiarogodności.

7.3. Metoda najmniejszych kwadratów

419

7.3.2. Przypadek liniowy Pod względem matematycznym najprostszą sytuację mamy wtedy, gdy związek (7.29) między parametrami 6; a wielkością mierzoną 7 przyjmuje postać liniową

1(x) = f2,9) = 1(1)9; + 2(1)6> + *** + Pm(X)0m, gdzie wielkości g;(x)

są zadanymi,

liniowo niezależnymi

funkcjami

kolejne potęgi wielkości kontrolowanej x, ale tez np. wielomiany

(7.32) —

są to często

Legendre'a, które

występują w wyrażeniu na różniczkowy przekrój czynny lub specjalne wielomiany or-

togonalne, do których jeszcze powrócimy w dalszej części wykładu. Poniżej podane są najprostsze przykłady zależności funkcyjnych, które przez odpowiednią zamianę zmien-

nych można sprowadzić do wymaganej zależności liniowej: x

7

|

a+bx

l

z

z =ab” z =ae”

n=lnz n=lnz

z=ax?

q = Inz

>

n=aL

= =>

n=lna+xlnb=a +bx, qn=lna+bx =a +bx,

>

tb,

qn=lna+blnx=a +blnx,

niestety, najczęściej kosztem przekształcenia poszukiwanych parametrów do pewnej po-

staci funkcyjnej. Dla n wartości wielkości x, otrzymujemy n związków dla n wartości wielkości 7; odpowiadających wielkościom mierzonym y;: M = 91(21)6, + PO)

+ **: + Pm (X1)0m,

M = 91(%2)6, + P2(02)0 + *** + Pm (X2)8m,

Mn

=

(I (Xn)01

+

92(X,)0

+

:::

+

Pm (Xn)Om -

Powyższe równania możemy zapisać zwarcie w formie macierzowej q =dQ0,

(7.33)

gdzie 91 Ą

=

9a .

Nn

P(X) s

©



P1(%) .

Pln)

(01)

PO)

PaXln)

*::

*:: ,

***

Pm()

Pm(X2) .

01 ,

0

=

Pm(Xn)

6,

,

Om

a samą zasadę najmniejszych kwadratów (7.30) jako

R = (y — 96) Q(y — %6) =(y' —8'%')Q(y — %0) = min(6). Zdefiniowaną przez nas macierz © określa się mianem macierzy konstrukcyjnej.

(7.34)

420

7. Estymacja parametryczna

Aby znaleźć minimum wielkości Ot, wypiszemy jawną postać związku (7.34), bez

wykorzystania notacji macierzowej: n

R =

3

ij=1

= >,

i,j=l

(» —

wwa)

Q;; (» — Żaaya)

k=1

[=]

Qi);— 3 2 p) Qyy; — PY yi Qyoilt)6, i,j=l

k=

Lj=l

l=l

+) ). ge(x;)8k Qijo1(2;)6,. i, j=l k.I=1

Jeśli w trzecim składniku dokonamy zamiany indeksu I na k oraz wymienimy między

sobą nazwy indeksów i oraz j, a następnie wykorzystamy fakt, że macierz Q jest symetryczna — jako odwrotność symetrycznej macierzy kowariancji V — to całość możemy zapisać jako

R= > y Qyy; — 2 3 ) 040300404; + 3 2 0x()8; Q;;pi(t;)8. ij=lkl=

i,j=l k=

ij=

Różniczkujemy teraz względem parametru 6, 3% 39.

— 2

n

m

3

M.

i,j=l k=l

Pp

Pe(Xi)Bkp QijY

n

m

+ ),

3

i, j=1 k,I=1

Pi; )Ókp QijP1(2;)0)

3 0x(%)86 Qi (08, 3 k,l=1 + i,j=t =—2

>

OACDIUTRZ

+

3

i,j=l

) 06000068)

i=

+

y

)

i,j=l

k=

0404064010)

gdzie wykorzystaliśmy fakt, iż

08

8,

©

_]bo

]0

"=J

iźj.

Dokonując identycznej z poprzednią manipulacji indeksami, otrzymujemy układ m równań

03R

an

06,

=

2)

976600,

+2) i,j=l

)0000,m(0)0 k=l

= (,

p

=

1,2,...,m.

(7.35)

Przypatrzmy się teraz pierwszemu wyrazowi, zadanemu przez podwójną sumę. Mamy w nim macierz Q mnożoną od prawej przez wektor y, a od lewej przez kolumnę o indeksie p macierzy konstrukcyjnej %. Jeśli wprowadzimy macierz %', transponowaną

7.3. Metoda najmniejszych kwadratów

421

w stosunku do macierzy konstrukcyjnej, to podwójna suma jest p-tym elementem wek-

tora $'Qy

2 66) Qyy; =).i,j=l (BI) Qyy; = (W'Qy),.

i j=l

Podobnie dla sumy potrójnej

2900004)

i,j=l k=

=

_(60),0, 0,6,= (6TQG8) .

ij=lk=

p

Pozwala to zapisać uzyskane równania na parametry 6; w postaci macierzowego układu równań liniowych, zwanych normalnymi

P'Qd08 = $'Qy

(7.36)

o rozwiązaniach 6 liniowo zależnych od mierzonych wielkości y;

6=(87Q6) GTQy=(4'V'9) GTV'y=W$'V'y=Wy,

(7.37)

gdzie zdefiniowaliśmy dodatkowe dwie macierze

W=(4e'V"'6)| oraz W=Wg'Vv"..

Zabawne jest, że całej tej skomplikowanej algebry można było uniknąć, dokonując formalnego różniczkowania względem parametru 6': OR

0

391 = zgr | —68)V' 0 - 60) =-G'V"' (y - 06) =0, co jest inną formą równania (7.36).

Zauważmy, że aby uzyskać rozwiązania (7.37), nie musimy znać absolutnej postaci macierzy wag Q, a tym samym pełnej postaci macierzy kowariancji V: wystarczy, jeśli określimy ją z dokładnością do pewnego współczynnika. Jest to często wykorzystywana w praktyce własność, kiedy to dla nieskorelowanych pomiarów, czego przykła-

dem jest (7.31) (przypadek najczęściej pojawiający się w praktyce), wybieramy macierz wag jako jednostkową. Jednakże, ponieważ wielkości mierzone wchodzą do wyrażeń na estymatory, niepewności w wielkościach mierzonych znajdą swoje odbicie w nie-

pewnościach parametrów. Istotnie, jeśli pomiary nie są obciążone, wartość oczekiwana

rozwiązania (7.37) dana jest przez

e|6|=ENvy]=VElyl =Wy, co pozwala nam znaleźć macierz kowariancji estymatorów, wykorzystując (3.19), bądź

422

7. Estymacja parametryczna

wychodząc wprost z definicji takiej macierzy

v(6) = los

-

|

Vv"(6)| =>" ij

2 00,00;

(

7.39

)

Przy jego wyprowadzeniu należy wykorzystać związek między macierzą kowariancji V

a macierzą wag Q oraz fakt, że obie macierze są symetryczne. Jak widzimy, znajdując rozwiązania układu (7.36) równań normalnych, znajdujemy jednocześnie macierz

ich kowariancji, jeśli macierz wag, a co za tym idzie i macierz kowariancji wielkości mierzonych znamy absolutnie.

Przydatnego narzędzia do oceny jakości wysiłku eksperymentalnego dostarcza reszt-

kowa różnica Ep =Y—4

W minimum. Zbadajmy jej wartość oczekiwaną. Przyjmijmy,

za (7.28), że wielkości mierzone są nieobciążone, a wtedy

€ [5 = WóTV-'E [yj= W4TV'y=Wó4"V"'96 =6, czyli estymatory parametrów są także nieobciążone. Pozwala to stwierdzić, iż

E lemnl = € [y- 4] =€vy]-€[5]=1-€|v0|=n-V0=qn-1=0. Rozważmy także wariancję wektora reszt

Y Em) =

(68-—y)'V'$=0.

7.3. Metoda najmniejszych kwadratów

433

Pozostałą część resztkowej sumy (7.43) zapiszemy jako

a = (” z 667) —

y' Vy

V-ly=yTV-ly — ÓTgTV-!y

z

Ww

'We'V

'y



yV'y

=

w”"'6,

(7.44)

gdzie w drugim wyrazie wyeliminowaliśmy, wykorzystując rozwiązanie (7.37) równań normalnych, jawną zależność od wielkości pomiarowych. Jeśli skorzystamy z równa-

nia (7.33), to wyrażenie (7.44) możemy zapisać jako

Rain = 7'V7y -87W”'6 = (7 — g)'V"'(y — 1) — (6 —6)'W”'(6—6).

(7.45)

Znajdziemy teraz wartość oczekiwaną tej resztkowej sumy kwadratów:

E Bial =mp]| =Tr(V"'V) =TrO) =n. Podobne rozumowanie odniesione do drugiego wyrazu w wyrażeniu (7.46) na war-

tość oczekiwaną daje nam w ostatecznym wyniku

a



|

ZTaTG-1A

E [Rmin] =€[87'V"'8|= —ć Baa

=n=m

o niezależnie od charakteru rozkładu wielkości mierzonych y,. Obserwacja ta pozwala wyznaczyć nieobciążony i niezależny od rozkładu wielkości mierzonych estymator pa-

rametru skalującego o?

2,

O

=

8TWTIB n-m

.

(7.47)

W konsekwencji otrzymujemy pełną postać zarówno estymatorów macierzy kowariancji mierzonych wielkości, jak i estymowanych parametrów

=, A

W=Q? GÓR

=6W.

-—-

7. Estymacja parametryczna

Przykład 7.3.2

Dopasowanie liniowe — skałowana macierz kowariancji Przypatrzmy się zastosowaniu powyższych wyników do analizy danych (własnych), uzyskanych z kalibracji przepływomierza, czyli urządzenia służącego do pomiaru szybkości, np. liczby litrów na godzinę, przepływającego gazu. Obecnie niemal we wszystkich eksperymentach fizyki jądra atomowego i cząstek elementarnych stosowane są detektory drutowe, które wymagają płukania gazem. Za pomocą prze-

pływomierza możemy mierzyć ilość gazu, która wpływa do detektora, jak również ilość gazu, która wypływa. Dzięki takim pomiarom możemy łatwo kontrolować szczelność. Aby jednak taki przyrząd używać, musimy go najpierw wykalibro-

wać, czyli przepuszczać przez niego gaz ze znaną szybkościąi odczytywać jego wskazania.

przepływ [1/h]

434

napięcie [V]

Rys. 7.17. Wynik kalibracji przepływomierza wraz z prostą najlepszego dopasowania i „korytarzem błędów”

Na rysunku 7.17 przedstawione są rezultaty takiej kalibracji. Nie jest ona, jak widać, zbyt precyzyjnie wykonana, gdyż rozrzut punktów pomiarowych — czarne

kółka (o dodatkowych liniach na wykresie mówimy niżej) — jest duży, choć wyraź-

nie układają się one wzdłuż pewnej linii, o której z dużą dozą prawdopodobieństwa możemy powiedzieć, że jest linią prostą. Istotną cechą danych przedstawionych na tym rysunku jest to, że nie znamy błędów na wartości przepływów dla żadnego punktu pomiarowego. Dla celów dalszej dyskusji przyjmiemy, że zależność między szybkością przepływu 7 a napięciem Y jest liniowa: h = a, + a,V oraz że kolejne pomiary nie są ze sobą skore-

lowane (każdy pomiar był wykonany niezależnie od innego), a także, że błędy wartości szybkości przepływu w każdym pomiarze są identyczne. Innymi słowy, założymy, że macierz błędów pomiarowych jest proporcjonalna do macierzy jednostkowej: V = o'"I, gdzie wielkość o? nie jest znana. Możemy teraz uruchomić

wyżej przedstawiony formalizm statystyczny, a otrzymamy © = —0,7 1/h oraz d, = 4,7 l/(h:V). Takie są właśnie parametry wykreślonej na rysunku prostej, pogrubionej linii.

7.3. Metoda najmniejszych kwadratów

Resztkowa suma kwadratów Ńtyi dla naszego dopasowania wynosi 6,61/07. Ponieważ mamy 10 punktów pomiarowych, więc oczekujemy, że suma ta w typowym pomiarze kalibracyjnym powinna wynosić 8, co daje nam nieobciążoną estymatę błędu pojedynczego pomiaru szybkości przepływu 6 = 0,9 l/h. Dys-

ponując wielkością 6, znajdujemy błędy na parametry: 4, = (—0,7 + 0,6) 1/h, a, = (4,7 £ 0,2) l/(h:V), a także współczynnik korelacji między parametrami p = —0,98 (który, jak wiemy, jest niezależny od parametru o). Musimy jednak z całą mocą podkreślić, że chociaż znamy estymator pełnej macierzy kowarian-

cji dopasowanych parametrów, nie potrafimy podać interpretacji probabilistycznej

estymatorów samych parametrów. Nie znamy rozkładu, z jakiego pochodzą pomiary, więc nie znamy rozkładu, jakiemu podlegają znalezione współczynniki — określenie go jako dwuwymiarowego gaussowskiego wyrazi jedynie nasze nadzieje 1 pozostanie tylko przybliżeniem realnej sytuacji. Jednakże niezależnie od charakteru tego rozkładu możemy uprościć postać domniemanej krzywej kalibracji. Widzimy, że wartość wyrazu wolnego jest zgodna z zerem, dlatego moglibyśmy zaproponować prostszą formułę: n = a,V, przeprowadzić nowe dopasowanie współczynnika a, i znaleźć jego błąd. Zachęcamy Czytelnika do takiego postępowania z własnymi danymi, ilekroć nadarzy się ku temu okazja. Uzasadnienie leży tu nie tylko w zgodności procedury z zasadami statystyki matematycznej. Jest i wzgląd praktyczny. W przypadku naszych danych

unikniemy dzięki temu kłopotliwej sytuacji, w której ze wzoru liniowego z wyrazem wolnym mniejszym od zera otrzymamy ujemną wartość szybkości przepływu, gdy zmierzone napięcie będzie dostatecznie niskie. Jak dokładnie możemy wyznaczać wartość szybkości przepływu z naszej krzy-

wej kalibracji, w sytuacji gdy stosujemy ją do interpolacji lub ekstrapolacji? Oceny takiej dokładności dostarczają dwie dodatkowe krzywe na rysunku: nad i pod krzywą kalibracji. Dają one zależność wielkości jednego odchylenia standardowego (w górę lub w dół) od wartości centralnej (w żargonie mówimy, że wyznaczają one „korytarz błędów ). Zauważmy, że obszar wyznaczony przez jedno standar-

dowe odchylenie jest najwęższy w środkowej części wykresu, natomiast ulega poszerzeniu, gdy zbliżamy się ku obu końcom danych. Oznacza to, że najbardziej bezpieczna jest interpolacja w środku obszaru danych, a ekstrapolacja może być

zdradliwa.

Jako podsumowanie przykładu podamy pełną postać wzorów na współczyn-

niki linii prostej: Ą = ay +a,x

i postać ich macierzy błędu w przypadku, gdy

poszczególne pomiary y, nie są ze sobą skorelowane, natomiast błędy wielkości mierzonych znane są z dokładnością do wspólnego czynnika proporcjonalności: S$; = ou,. Jeśli zdefiniujemy wielkości:

I

e

v[a,] = U6*8,

Dodatkowo, gdy pomiary określone są przez rozkład normalny, wtedy dla każdego

z parametrów możemy zbudować statystyki =

0%

|

t=

Id

G+/U,,0

64/U6

,

się jak zmienna (5.85) z rozkładu Studenta

a każda z nich będzie zachowywać o n — 2 stopniach swobody.

Gdy zależność jest proporcjonalna: 7 = a,x, wtedy »

ad, =

U,, Ux

6

+ w

22

,

0

=

87V'8 n

U



1

,

Dla pomiarów gaussowskich wielkość adi

t=— v

a

Ux

podlega rozkładowi Studenta z n — 1 stopniami swobody.

Zbadamy

teraz własności

statystyczne niektórych wielkości występujących w po-

wyższych rozważaniach, przy założeniu, że każda z wielkości pomiarowych pochodzi z rozkładu normalnego. Wspomnieliśmy, że w takiej sytuacji, o ile znana jest pełna macierz kowariancji wielkości mierzonych, a nie macierz ich estymat, ważona minimalna suma kwadratów reszt (7.45) ma rozkład wielkości x* o n — m stopniach swobody. Ponieważ

wielkość

podlega rozkładowi wielkość

(CEDRACET) x?

o n stopniach

swobody,

to na mocy

x2 = (6 — 6)7W”'(6 — 6)

będzie podlegała rozkładowi x* o m stopniach swobody.

własności rozkładu

X,

(7.49)

7.3. Metoda najmniejszych kwadratów

437

Przyjrzyjmy się teraz estymatorowi (7.47) parametru o”

2 6” =

8/V!8 CZA SA = 8—8= nm n=m o

0” nm

„q

a zauważymy, że jego rozkład zadany jest rozkładem zmiennej 2

o

2

Kn=m

a —M

*

Rozważmy także rozkład statystyczny formy kwadratowej

(6 — 077W”'6 — 6), zbudowanej z estymatora macierzy kowariancji znalezionych parametrów, gdy nie jest nam znany: współczynnik skalujący o”. Statystykę tę przekształcimy do postaci

2 róą 6-07W'6-0 =—6—-6) W (6 — 0) = 2:6 —07W-!6 — 0): 2

—|

2

g2

o

widzimy, że w rozkładzie wielkości 2

l

nm

Paz — M

— M

Kn=m

n-—m

a

A

_6-0'Ww'6-60)

;.

A

= — (6 — 0)0W”'(6 — 0)

Ty!

m

(7.50)

n=-m

kasuje się parametr o”, a całość to zmienna F rozkładu Fishera o (m, n — m) stopniach swobody.

7.3.3. Przypadek liniowy z liniowymi równaniami więzów Niekiedy

zdarza się, że o dopasowywanych

parametrach

6,, i =

1,2,...,m,

mamy

pewne dodatkowe informacje w postaci k liniowych równań (k < m) wiążących parametry między sobą:

),Cyój=Z,

1=1,2,...,k,

j=l

co zapiszemy w postaci macierzowej

C6 =Z. Formalnie rzecz biorąc, moglibyśmy rozwiązać te równania, to jest wyznaczyć k parametrów jako funkcje pozostałych i podstawić je do równań (7.32), co zostawiłoby m — k parametrów swobodnych. Wadą tego podejścia jest to, że wyeliminowane parametry

nie pojawią się nam w macierzy błędów, a niekiedy chcielibyśmy mieć właśnie pełną informację o wszystkich poszukiwanych parametrach. Dlatego do rozwiązania tak po-

stawionego problemu lepiej jest wykorzystać metodę współczynników Lagrange'a, czyli

minimalizować następującą wielkość:

R =(y” — 6767) V"'(y — *0) + (67'C' —Z')A,

(7.51)

438

7. Estymacja parametryczna

gdzie wprowadziliśmy dodatkowy człon, który formalnie jest równy zeru, a wielkość A = (Ay, Aa, ..., A)

to właśnie układ współczynników

Lagrange'a, które powinniśmy

również otrzymać z procedury minimalizacyjnej. Warunek minimalizacji daje nam tym

razem następujące równania: OR

397

=

OR

_g'V"





a

zą = ŚĆ -Z7=0 gdzie przez 0.

oznaczyliśmy

2

oó,

+

CA



0,

ą

(68.-Z=0,

>

rozwiązania tych równań.

Jeśli przypomnimy

sobie, że

wielkość 6 jest rozwiązaniem zagadnienia (7.36) bez więzów, to pierwsze równanie możemy przepisać w postaci

w” (6-6) =C'A.

W następnym kroku pomnóżmy to równanie od lewej przez CW

Có — C6. = CWC'A. Jeśli skorzystamy teraz z drugiego równania na minimum i wyeliminujemy wielkości 6,, to znajdziemy wyrażenie na nieznane współczynniki Lagrange'a

A =(cwc')”"' (c — z). a stąd znajdujemy bez trudności, że

6, =6-wc'(cwc')"' (có- z).

(7.52)

Dalej, już standardowymi metodami, możemy znaleźć macierz kowariancji W, parametrów 6.

W =W-wWC'

1

(CWC')

2

CW.

(7.53)

Gdy wartości mierzone podlegają rozkładowi Gaussa, a macierz ich kowariancji jest znana, wtedy estymatory parametrów (7.52) także podlegają temu rozkładowi, z macierzą kowariancji (7.53). Dodatkowo, minimalna, ważona resztkowa suma kwadratów (7.51)

zachowuje się jak zmienna z rozkładu x* o liczbie n — m +-k stopni swobody (zauważmy, że równania więzów zwiększają liczbę stopni swobody, ponieważ za ich pomocą możemy

faktycznie wyeliminować k spośród m nieznanych parametrów), więc możemy dokonać oceny jakości naszego dopasowania, tak jak to dyskutowaliśmy w przykładzie 7.3.1. -—-

Przykład 7.3.3

Dopasowanie z więzami — geodeta Rozważmy przykład z pomiarem kątów trójkąta w terenie, który podaliśmy we wstępie do książki. Mieliśmy tam dane trzy kąty: u = 73, B =63iy =52,

każdy z błędem o = 2”, które sumują się do 1889. Jeśli chcielibyśmy wykorzystać

te pomiary do dalszej pracy, np. znając jeden z boków trójkąta, chcielibyśmy obliczyć pozostałe, to fakt, że suma kątów nie przyjmuje wartości, jakiej wymaga geo-

439

7.3. Metoda najmniejszych kwadratów

metria euklidesowa, niewątpliwie wprowadza nas w pewien dyskomfort psychiczny. Jak poprawić nasze wyniki, aby suma tych kątów była właściwa? Otóż powinniśmy wprowadzić trzy nieznane nowe kąty: t, B oraz y, od których będziemy wymagali, aby » _ a



a,

B



B,

Y

=

Y;

przy warunku wiążącym

G+B+y

= 180.

Macierz konstrukcyjna ©, wektor parametrów 6., wektor pomiarów 0 (będący jednocześnie rozwiązaniem zagadnienia bez więzów), macierz błędów V dla punktów pomiarowych, macierz więzów C i macierz Z (która jest liczbą) przyjmują postaci:

100 10], 00 1

C=[1,1,1],

Tó 6=|8|, $ R

6=-|0

Z=

Ta 6=|g|, y

V=o'|0

100 1 0|, 0.0 1

180,

gdzie o = 2. Z uwagi na prostotę powyższych poszukiwane parametry to

związków,

w tym

V

=

NOENOOACZEJEFZAH Ta

l

IN"

1[

ly

I

1

3 |—a — 8 + 2y + 1805

703 = | 603 [494 Jak widzimy,

nadmiar

8” został równo

rozdzielony

oTl,

20-8-y+180

i odjęty od wszystkich po-

miarów. Gdyby macierz błędów wielkości pomiarowych nie była proporcjonalna do macierzy jednostkowej, wtedy mniej odejmowalibyśmy od wartości obarczonej mniejszym błędem.

Przejdźmy teraz do macierzy błędów

W. = o*l— o'IC' (Co*IC')' Col =o*(1-C' (CC') 'C) 2 | 2 =——|-1 3|-21

-1 21

2

zr 1] 2

Błędy dopasowanych kątów są mniejsze (o czynnik /2/3

= 0,8) niż kątów zmie-

rzonych, ale za cenę korelacji między nimi. Wartość wielkości Ń w minimum wynosi, w przybliżeniu, 2,3 i jeśli przyjmiemy, że wielkości pomiarowe pochodzą

z rozkładu normalnego, to wielkość ta ma charakter liczby wylosowanej z rozkładu

X o liczbie stopni swobody równej I (trzy pomiary, trzy niewiadome i jedno równanie więzów), a prawdopodobieństwo uzyskania wartości x* większej niż ta, którą otrzymaliśmy, wynosi 0,13, co niewątpliwie jest sensownym rezultatem.

O dopasowaniu, w którym liczba pomiarów jest równa liczbie dopasowywa-

nych parametrów, na które nałożonych jest k równań więzów, mówi się w żargonie

fizyków, że jest ono typu k C (z angielskiego: constraint). Tak więc nasze dopasowanie kątów jest typu 1 C.

n

440

7. Estymacja parametryczna

Rozważmy teraz resztkową sumę (7.51), jaka powstaje po rozwiązaniu problemu z liniowymi więzami. Możemy ją, podobnie jak w wyrażeniu (7.45), rozłożyć do postaci A

Ay T

A

A

nn = £PV2, = (7-4) V"' (4) +(6.-6) w"'(6.-6), | (1.54) gdzie

_

h

n

Eci ZY — Mei

A

—J/(0,0),

n

1 = 90.

Pierwszy wyraz to resztkowa suma kwadratów (7.45) dla problemu bez więzów, drugi to przyczynek wynikający z uwzględnienia zmian w poszukiwanych parametrach z powodu więzów. Rozumując analogicznie do tego, jak to robiliśmy dla zagadnienia bez więzów, możemy pokazać, że wartość oczekiwana tej sumy to E [ihnlzsz—m+k.

Dla macierzy kowariancji wielkości pomiarowych znanej z dokładnością do współ-

czynnika o”,

s

V=oV,

współczynnik ten, w sposób nieobciążony i niezależnie od rozkładu, z którego pochodzą punkty pomiarowe, możemy określić z danych:

2

Oj

8VTI8,

= ————,, n=>m+k

a przy założeniu słuszności formy dopasowywanej zależności, także pozwala dokończyć

dzieła oceny macierzy kowariancji pomiarów i poszukiwanych parametrów: m

(.=6%, A

m

m

m

W.=ć? (w — WC" (cwc') A

-|

m

cw) |

7.3.4. Przypadek nieliniowy Z sytuacją taką stykamy

się wtedy,

gdy funkcja

f(x,6;,...,8„)

wiążąca wielkości

pomiarowe i nieznane parametry nie zależy liniowo od tych parametrów. Klasyczny przykład to zagadnienie określenia parametrów linii spiralnej, po której porusza się naładowana cząstka w polu magnetycznym, co pozwala znaleźć jej pęd, jeśli dysponujemy współrzędnymi x;,y; oraz z, Serii punktów na jej torze. r-—

Przykład 7.3.4

Dane zgrupowane Wykres na rys. 7.18 (Ch. Droste, informacja prywatna) to doświadczalne widmo kwantów gamma zmierzonych za pomocą omawianego wcześniej detektora germanowego wraz z dopasowanym do tego widma układem czterech linii widmowych, każda o profilu gaussowskim, oraz liniowego tła. Dopasowana krzywa ma w tym przypadku postać

7.3. Metoda najmniejszych kwadratów

JG, „hu

10)

=

0x

+)

z

(x — 1)”

exp

202

s

i opisana jest czternastoma nieznanymi parametrami, gdzie wielkość x to zmienna

opisana na wykresie jako numer kanału, wielkości ji, podają pozycje czterech linii, o, ich szerokości, natomiast parametry a, to intensywności tych linii, czyli liczby

przypadków każdego ze stanów wzbudzonych. Rozważmy, w jaki sposób moglibyśmy taką krzywą dopasować do danych. Oznaczmy, zbiorczo i dla uproszczenia,

symbolem 6 wszystkie nieznane parametry w liczbie m. Przypuśćmy, że całkowita

10000

|

liczba zliczeń

1000

100

10

0

.

l

2140

i

2180

i

numer kanału

i

2220

l

>

2260

Rys. 7.18. Widmo kwantów gamma

liczba przypadków w histogramie wynosi N, liczba przedziałów histogramu to n, liczba przypadków w każdym z nich wynosi n,, Środki tych przedziałów wypadają w punktach x,, a wielkości A, zadają szerokości przedziałów. Jeśli szerokości

te są na tyle małe, że dopasowywana funkcja f(x, 6) może być uznana za stałą wewnątrz

każdego

z nich, wtedy

zapewne

nieznane parametry wyznaczymy z warunku =

2

nę NA —— JG, 0)Ax 8)4; V

Gdy

nie popełnimy

J (Xk,

istotnego błędu, jeśli

.

= min(6).

8)4,

stałość funkcji może nie być dobrym przybliżeniem, wówczas

powinniśmy

postępować ostrożniej. Właściwsze jest wtedy wprowadzenie teoretycznej krotności

442

7. Estymacja parametryczna

N, przypadków w k-tym przedziale histogramu az ŁAŁ/2

N,(6) =

J

f(x;8)dx,

k=12,...,n.

xx -Ax/2

Dla danych n, oraz krotności N, możemy

skonstruować, aby następnie zminima-

lizować względem nieznanych parametrów, taką oto miarę odchylenia krzywej od danych:

n, — N,(6)

"= > (ar VN,(0)

)

jeśli nasz eksperyment modełowany jest na wzór doświadczenia Poissona, gdyż

w takim podejściu brak jest korelacji między zawartościami przedziałów histogramu, a wariancja | [n,] liczby przypadków w każdym przedziale wynosi N;(6). Żargonowo mówimy wówczas o dopasowaniu bez normalizacji, gdyż znaleziona

zależność f(x; 0) nie musi całkować się do pełnej liczby N przypadków w hi-

stogramie. Jeśli parametry 6 są z góry znane, wtedy resztkowa suma kwadratów R zachowuje się asymptotycznie, ze wzrostem liczb ną przypadków w przedziałach histogramu, jak zmienna z rozkładu x? o n stopniach swobody. Wynika to

z gaussowskiego przybliżenia dla rozkładu Poissona i statystycznej niezależności zmiennych losowych n;,. Gdy doświadczenie prowadzimy na wzór eksperymentu Bernoulliego, a więc liczba N jest ustalona, wtedy korzystamy z procedury dopasowania z normalizacją, wprowadzającej prawdopodobieństwa P,(6) xx tAk/2

N P,(0) =

|

f(x;68)dx,

k=1,2,...,A,

x4—A4/2

unormowane do jedności, co redukuje o jeden liczbę m niezależnych parametrów w wyrażeniu na funkcję f(x; 6) i wymaga minimalizowania następującej wielkoŚci: n, — NP,(6)

wą > (WEG /NP,(6)

) |

Gdy wszystkie parametry 6 znane są nam skądinąd, wielkość ta, asymptotycznie, ze wzrostem liczby N, nabiera kształtu zmiennej losowej x* o n — I stopniach swobody. Pomniejszenie liczby stopni swobody wynika z faktu, iż zmienne losowe n, podlegają „n-mianowemu” rozkładowi, który w granicy przechodzi w n — 1 wielowymiarowy

dziale 8.2.

Zarówno

rozkład normalny, czego dowód Czytelnik znajdzie w podroz-

dla eksperymentu

Bernoulliego, jak i Poissona,

własności

staty-

styczne wielkości R, którą otrzymujemy w wyniku estymacji parametrów 6 metodą najmniejszych kwadratów, nie są już tak proste, gdy liczby n, są niewiel-

kie. Statystyka R,

nie podlega rozkładowi x”, gdyż estymowana funkcja f(x; 6)

7.3. Metoda najmniejszych kwadratów

nie spełnia warunku

( f(x; 6) = f(x;6), a to prowadzi do niezerowej

wartości

oczekiwanej reszt. Okazuje się jednak, że estymatory 0 mają wiele pożądanych własności: są zgodne i są asymptotycznie zarówno normalne, jak i najefektywniej-

sze.

| Znalezienie parametrów 6 nawet w najprostszych sytuacjach nie jest zadaniem

łatwym, gdyż, w przypadku eksperymentu Bernoulliego, musimy rozwiązać układ m — 1 nieliniowych równań a=

2

2 06,

k=1

R

ZN)

0P,

2NPĘ

06,

PR

=0.

Cramer (H. Cramer, Metody matematyczne w statystyce, PWN, Warszawa 1958) twierdzi, że wpływ drugiego składnika pod znakiem sumy jest w reżimie asympto-

tycznym zaniedbywalny, a wtedy rozwiązywany układ równań można przekształcić (wykorzystując unormowanie prawdopodobieństw P,) do postaci ——

1 0R

2 36,

A

k k=l

(

n,

NP,

P,

$G,__m.

OP,

) 08, ———

=

ś

n,

OP,

2—P,00, —

m

Z

0

>

26 2_mulnP. m

l

!

P

= (0,

k=l

która, w istocie, jest warunkiem na ekstremum funkcji największej wiarogodno-

ści dla zgrupowanych danych, co omawialiśmy

w przykładzie 7.2.11. Okazuje

się (patrz podrozdział 8.2), że przy tym uproszczeniu statystyka R,,, odzyskuje

charakter zmiennej losowej z rozkładu x”, a jej liczba stopni swobody wynosi n — 1 — (m — 1) =n—m.

Odejmowanie pierwszej jedynki w tym związku przy-

pomina nam o tym, że nasz eksperyment jest typu Bernoulliego, a druga jedynka wynika z ogólnej postaci funkcji f(x; 6), na jaką zdecydowaliśmy się na początku

tego przykładu i na którą nie nałożyliśmy warunku unormowania do pełnej liczby przypadków w histogramie (m = 14 dła funkcji, jaka pojawia się na wstępie naszego przykładu, a warunek unormowania redukuje tę liczbę do trzynastu). Dokładnie tę samą liczbę n — m stopni swobody ma statystyka 9t,;, w przypadku eksperymentu Poissona. Z, powodów praktycznych często stosowana jest uproszczona wersja

R

CZEARAA, >( NR m

m0)

wyrażenia na resztkową sumę kwadratów. Jednakże niezależnie od przyjętej postaci minimalizowanego wyrażenia, estymatory parametrów są zgodne, asymptotycznie normalne i asymptotycznie najefektywniejsze. Różnice występują jedynie

w szybkości, ze wzrostem liczb n;, dochodzenia do tych własności: uproszczona forma osiąga je wolniej, a najbardziej ekonomiczna jest metoda największej wia-

rogodności dla danych zgrupowanych, dyskutowana w przykładzie 7.2.11 i zadana warunkiem In £ (6) =

BL k=1

ln P, (6) = max(0).

443

444

7. Estymacja parametryczna

Niekiedy równania więzów również mogą mieć nieliniowy charakter. Przykład takiej

sytuacji odnajdujemy w zagadnieniu, w którym dysponujemy już uzyskanymi z pomiaru

pędami cząstek biorących udział w reakcji, ale chcemy nałożyć na nie zasady zachowania pędu i energii.

Do rozwiązywania takich problemów istnieją specjalne programy komputerowe, wykorzystujące rozmaite strategie poszukiwania minimum. Jest to wiedza z dziedziny tech-

nik numerycznych sama w sobie i nie będziemy jej tutaj prezentowali. Aby jednak przybliżyć to zagadnienie, przedstawimy, pokrótce, najprostszą z metod, dającą się zastosować jedynie w niektórych uproszczonych sytuacjach (działa ona skutecznie wtedy, gdy już jesteśmy blisko minimum). Idea tej metody polega na tym, że znane jest pewne,

poszukiwanego rozwiązania i chcemy znaleźć jego

lepsze lub gorsze, przybliżenie 00

ulepszoną postać 60*) ze zlinearyzowanych równań dla wielkości mierzonych

|

= ;=f(lx,0

uj (

> ()

)

+)

— —— 0f (0;,0)

m

06,



0—60

Jeśli wprowadzimy wielkości oraz

>

() (+1) 807—80)=f

(6

|)=v

(1)

0f (x;,0) + ———

80

jo

> (+1) A80.

An =m= fi PY() _=

of (X; , 8)

06;

8=60

,

to układ n takich równań możemy zapisać jako Aq

= BOAT,

a więc jak w problemie liniowym, z jedyną różnicą, że zamiast minimalizowanej sumy resztkowej kwadratów w postaci (7.34), tym razem będziemy minimalizowali wielkość

RO = (Ay — 60 A6+0) Q (Ay) — GOAG0), gdzie

Ay =y= l

Jeśli w zagadnieniu są więzy w liczbie k, określone równaniami to te także możemy przybliżyć:

Z, zg, (60) + 3 980) 86; j=l

8=60

(369 —0P)I = g, (60) + 780) 00

AGD. 0=60

a w konsekwencji przepisać je w postaci takiej, jaka występuje w problemie liniowym COA0WD

gdzie wprowadziliśmy

= AZO,

AZ? = Z, — g; (60)

7.3. Metoda najmniejszych kwadratów

445

Oraz

* 06; |ęóv | Tak sformułowany problem możemy rozwiązać poznanymi metodami, tzn. znaleźć po-

prawkę A6T+D, a stąd nową wartość 6"*V. Postępowanie to możemy iterować, aż zostaną spełnione zadane kryteria zbieżności, dotyczące zmiany wielkości R i zmiany

wartości parametrów w kolejnych krokach. Gdy uznamy, że uzyskaliśmy satysfakcjonujące wyniki, niepewności parametrów znajdujemy tak jak dla zagadnienia liniowego,

wykorzystując np. rezultat (7.39). W zagadnieniach nieliniowych musimy pamiętać, że statystyczna interpretacja otrzymanych rezultatów wymaga ostrożności, nawet w przypadku, gdy wielkości pomiarowe mają rozkład normalny. Nie mamy tu żadnych twierdzeń, z wyjątkiem sytuacji asymptotycznej omówionej w przykładzie 7.3.4, które orzekałyby o charakterze rozkładu dla znalezionej np. resztkowej sumy kwadratów, ani dla uzyskanych estymatorów parametrów. Wszelkie stwierdzenia w tym względzie mają zawsze jedynie przybliżony charakter.

7.3.5. Analiza regresji W podrozdziale 3.5 zdefiniowaliśmy pojęcie krzywej regresji pierwszego typu jako warunkową wartość oczekiwaną (3.26) i (3.27). Wprowadziliśmy tam również pojęcie krzywej regresji drugiego typu, jako swoistą, w zadanej klasie, krzywą najlepszego dopasowania, minimalizującą funkcjonał (3.28). Tamże, w przykładzie 3.5.1, pokazaliśmy, że dla układu dwóch zmiennych taka krzywa regresji, z klasy funkcji liniowych, zadana przez Efylx=x|=n(x)

=

+aqx

(7.55)

minimalizuje ten funkcjonał, jeśli nieznane współczynniki ag oraz a, wybierzemy w poStaci

O.

O.

q=P—,O

M9EHy— PHR E Hy — Aly. o,

W szczególnym przypadku, jeśli zmienne losowe określone są przez dwuwymiarowy

rozkład Gaussa, to, jak to wynika z przykładu 5.5.9, krzywe regresji drugiego typu są

jednocześnie krzywymi regresji pierwszego typu.

Najprostsze zagadnienie regresji, zwane liniową jednokrotną

lub też jednoraką,

a także jednowymiarową, polega na znalezieniu estymatorów współczynników ay oraz a,, a także rozkładów tych estymatorów, z próby prostej n par zmiennych (4q,y,), i = 1,2,...,n. Jeśli zmiennych mamy więcej niż dwie, np. m + 1 i określone są przez losowy wektor (x, x2, ..., Xm, y), mówimy

też wielowymiarowej regresji liniowej:

wtedy o wielokrotnej bądź wielorakiej, lub m

€ [ylx

=

Xi,X

=

M2,

..., X

=

Xp]

=

n(x)

=

9

+

) | aiti. i=l

Współczynniki a, (z wyjątkiem ag) zwane są cząstkowymi współczynnikami regresji.

Jeśli któryś z nich jest statystycznie istotnie różny od zera, określa on znaczenie wpływu

446

7. Estymacja parametryczna

skojarzonej z nim zmiennej x; na zmienną y. Należy pamiętać, że to co w matematycz-

nym wyrażeniu na krzywą regresji nazywamy zmienną zależną i niezależną, w analizie statystycznej danych jest wysoce umowne. Wybór zmiennej zależnej, zwanej też zmienną objaśnianą i zmiennej niezależnej, czyli zmiennej objaśniającej, jest podyktowany intencją badacza. Jeśli badamy korelację między temperaturą na Śnieżce i na Kasprowym,

jest rzeczą absolutnie arbitralną, którą z temperatur przyjmiemy za zmienną objaśnia-

jącą. Sytuacja jest zapewne bardziej klarowna, jeśli poszukujemy relacji między liczbą

ubytków w zębach a zawartością fluoru w wodzie pitnej, ale jak mamy dokonać wyboru między zmiennymi, gdy interesuje nas relacja między wzrostem a wagą ludzi? Formalna

analiza danych z wykorzystaniem metod statystyki matematycznej nigdy nie jest w stanie określić związku przyczynowego, co uzasadniałoby — w sposób nie budzący wątpliwości — użycie pojęć zmiennej zależnej i niezależnej, a może jedynie określić powiązania

między badanymi cechami. Niech ostrzeżeniem przed próbą przyczynowej interpretacji wyników analizy regresji będzie następujący przykład. Przypuśćmy, że zebraliśmy dane

na temat pożarów: jedna dana to liczba jednostek straży pożarnej biorących udział w akcji gaszenia, a druga dana to strata materialna, w złotych, odniesiona z powodu pożaru.

Bez wątpienia znajdziemy w danych tendencję wskazującą na to, że im więcej strażaków

brało udział w gaszeniu pożaru, tym większą stratę odnotowano w jego wyniku. Przyczynowa interpretacja takiego związku zakazałaby nam w ogóle wysyłania strażaków do

następnego pożaru, w nadziei, że strat również nie będzie. Analiza regresji jest metodą ilościowej oceny, za pomocą współczynników regresji,

domniemanej relacji między własnościami elementów danej populacji. Metoda ta została wprowadzona do statystyki matematycznej pod koniec XIX w. przez angielskiego matematyka F. Galtona. Zajmował się on badaniem korelacji między wzrostem rodziców i ich dzieci. Zauważył on tendencję, że synowie wyższych ojców mają większy wzrost niż synowie niższych ojców. W wyniku ewolucji powinno to prowadzić do rozbicia populacji ludzkiej na dwie grupy: karłów i wielkoludów, a przecież rozkład wysokości wszystkich dorosłych osób płci męskiej jest bardzo dobrze opisany przez rozkład normalny (o czym dobrze wiedzą wszystkie komisje poborowe). Galton zauważył, że choć synowie wyższych ojców są raczej wyżsi,

to nie tak wysocy, średnio rzecz biorąc, jak ojcowie. Wzrost

synów, jak to ujął Galton, uległ regresji. Termin ten się przyjął i używany jest do dziś. Odwrotnie rzecz się ma ze wzrostem

synów niskich ojców: ci z kolei nie są tak niscy jak ich ojcowie.

Poniżej ograniczymy się, dla uproszczenia, do prezentacji jednorakiej regresji liniowej (7.55), zakładając, że dana jest nam normalna próba prosta w postaci serii n par zmierzo-

nych wielkości (x,, y;). Aby znaleźć regresję cechy y wzglę-

dem cechy x, powinniśmy, w zasadzie, przy ustalonej wartości

zmiennej x określić wartość Średnią y, zmiennej y, a następ-

Sir Francis Galton,

1822-1911

nie dla owych par wartości (x, y,) znaleźć wspólne równanie yy = do + a,x. Ponieważ w danych doświadczalnych nie dysponujemy możliwością płynnego regulowania” wartości

7.3. Metoda najmniejszych kwadratów

447

zmiennej objaśniającej, dlatego też możemy jedynie pogrupować wielkości x, w klasy xpp] o zbliżonych wartościach i dla nich określić średnie wartości yy.) zmiennej objaśnianej,

a następnie wyprowadzić dla tych wielkości wspólny liniowy związek. Ponieważ wszelkie

grupowanie danych oznacza stratę informacji, dlatego naturalne jest zastosowanie metody

najmniejszych kwadratów do wszystkich par (x;, y;) i taki dobór parametrów ag oraz ay, by resztkowa suma kwadratów

R=)M

i=l

(yi - m — ayx,)? = min(a, a,)

(7.56)

była minimalna. Należy podkreślić, że o ile w metodzie najmniejszych kwadratów, tak jak była ona

przedstawiona w poprzednich punktach tego rozdziału, wielkość x była zmienną niezależną w wyrażeniu funkcyjnym i mogliśmy ją dowolnie kontrolować, o tyle teraz wielkość ta jest w istocie statystyczną zmienną losową, a jej wartości wykorzystujemy jako zadane i ustalone, tak jak tego wymaga interpretacja pojęcia oczekiwanej wartości warunkowej (3.26). Poprzednio poszukiwaliśmy, podyktowanej np. modelem teoretycznym, zależności funkcyjnej między zmienną x a wielkością 7 (którą mierzyliśmy jako y), teraz poszukujemy krzywej regresji wyrażającej oczekiwaną wartość warunkową zmien-

nej losowej y względem zmiennej losowej x. W celu bliższego uświadomienia sobie tej różnicy, przypomnijmy przykład z rozdziału 1 dotyczący profilu wiązki. W przykładzie tym mamy układ par współrzędnych punktów trafień cząstek wiązki z akceleratora na

płaszczyźnie detektora usytuowanego prostopadle do osi wiązki. Punkty trafień obejmują tutaj cały obszar powierzchni detektora i wskazują one na przestrzenny rozrzut torów

poszczególnych cząstek. Tym, co nas interesuje w zagadnieniu regresji dla tego przypadku, jest informacja o tym, jaka jest typowa wartość współrzędnej y, jeśli ustalimy

wartość współrzędnej x. Niedorzeczne byłoby przypuszczenie, że w płaszczyźnie detektora cząstki układają się wzdłuż pewnej prostej, nachylonej np. pod katem 45? do osi x, a dokładnie tak właśnie postępowalibyśmy, gdybyśmy wyrażenie (7.56) na wielkość $t

oraz związek (7.55) interpretowali za pomocą metody najmniejszych kwadratów, tak jak ją dotychczas poznaliśmy i stosowaliśmy. Adeptom zastosowań metod statystyki matematycznej do analizy danych zdarza się często takie właśnie mieszanie sensu metody

najmmiejszych kwadratów zastosowanej do wyznaczania nieznanych parametrów funkcji i wyznaczania krzywej regresji. Wyrażenia na estymatory współczynników ag oraz a, prostej regresji minimalizujące

wielkość Yt już znamy, wskazaliśmy je w przykładach 7.3.1 oraz 7.3.2, toteż nie będziemy powtarzali tu obliczeń, a jedynie zacytujemy, w trochę innej notacji, ostateczne wyniki: h Spo a | -a> aj

—T—,

Sx

a0 ZY—ajiX,

gdzie wykorzystaliśmy definicję (4.7) odchyleń standardowych s, i s, i definicję (4.15)

współczynnika korelacji r z próby. Widzimy także, że prosta operacja translacji początku układu (x, y) do punktu zadanego środkiem ciężkości (x, y) prowadzi do eliminacji estymatora współczynnika ag, co wyjaśnia jego „kinematyczną” naturę i powoduje, że

nie zaliczamy go do grona współczynników regresji.

448

7. Estymacja parametryczna

Spójrzmy na resztkową sumę kwadratów (7.56) w minimum, która, jak wiemy, służy do oceny wariancji tych estymatorów: Mimin = 3

(y; —Y

— a; (Xx; — x))

i=l

= ))0s-5)7 -24) 6-303 -9D+4))w-2) i=l

i=l

(7.37)

i=l

= (n — 1) (s; — 26,R + aysz) = (n — sy(1 — r"), gdzie wykorzystaliśmy definicję (4.14) kowariancji R z próby. Jeśli uświadomimy sobie, że wariancja warunkowa V [y|x = x] dla rozkładu binormalnego wynosi oy (1—p”) (patrz przykład 5.5.9), to widzimy, że (nieomalże) każdy z wyrazów sumy resztkowej (7.57) w minimum dostarcza oszacowania tej wielkości. Stąd nieobciążony estymator wariancji warunkowej, zwany wariancją resztkową, wynosi AJ

O

M min

7

=

n-l

„zl

2 l=r), 2 r)

7.58 (7.58)

gdzie dzielnik n — 2 wynika z faktu szacowania dwóch parametrów prostej regresji z danych lub też z faktu, że resztkowa suma kwadratów (7.56) wyraża się jedynie przez n — 2 niezależne składniki, gdyż obowiązują dwa równania więzów zadane równaniami normalnymi. Potwierdzenie tego faktu znajdujemy w związku

Bqin) = (r — Jo2(d — p”), który możemy otrzymać niezależnie z rozkładu g(Sx, Sy, f; 0x, gy, p) zademonstrowanego

w przykładzie 5.5.10. Za pomocą wariancji resztkowej oraz związków (7.48) możemy skonstruować nieobciążone estymaty wariancji estymatorów parametrów prostej regresji nl,

(l —r")sy

Ta

Ar

(l —r")s;

(m 5+7) PEl= Gone

*B]- Gz A,

>

KOWECEZYH A

A

A

(1



r

JS

(7.59)

_

Zwróćmy uwagę na to, że estymatory parametrów prostej regresji nie będą skorelowane, jeśli wszystkie współrzędne x; przesuniemy do ich środka ciężkości. Powróćmy

jeszcze

do wyrażenia

(7.58) na wariancję resztkową i występującego

tam interesującego związku między jakością dopasowania, wyrażoną przez tę wariancję, a stopniem skorelowania danych, określonym przez współczynnik korelacji Pearsona r. Rozważmy kwadrat odchylenia standardowego sy zmiennej losowej y, który przedstawimy w postaci:

7.3. Metoda najmniejszych kwadratów

I

+

_

449

» = zo12%-9=„— 2(06-06-60)a l

n

i=l

=>

m i (> (V: — 01)” + 0 i=1 i=1

— v*)

jako że suma wyrazów mieszanych znika tożsamościowo: n

3

(Vi —MO

— fi) =4

>.

i=|

(y: —y — d(x; — x)) (Xi — X)

i=l

= 4, ) x;(y; — ) — ly(4; — 3) — 4, ) (y —5 — 4,4, —2))=0 i=]

i=l

na mocy równań normalnych (7.36) (każda z sum to jedno z tych równań). Pierwsza

suma w ostatecznym wyrażeniu na kwadrat odchylenia standardowego sy to resztkowa suma kwadratów Śimin. Mówimy, że w analizie regresji całkowita wariancja zmiennej losowej y rozkłada się na dwie części: część określoną przez wariancję resztkową, czyli odchylenia od linii regresji

i=l

i=l

Stosunek tej pierwszej do kwadratu odchylenia standardowego s, określa kwadrat współczynnika zgodności o (zbieżności)

natomiast

stosunek drugiej

części do kwadratu

odchylenia

standardowego

kwadrat współczynnika korelacji jednorakiej (wskaźnika korelacyjnego) o

sy określa

Obie wielkości: go oraz g, zwane w literaturze także stosunkami korelacyjnymi, są mia-

rami jakości, jakie typowo stosuje się do globalnego opisu rezultatów analizy regresji. Przypatrzmy się teraz estymowanej warunkowej wartości oczekiwanej w ustalonym punkcie x (X) = 89 + 41x = 41(X —X) +y 1 znajdźmy wariancję tej wielkości: y [0) |

=

(Go

+

ajX

— dy —

a,x)')

=) [30]

+ 2xV

[30,

a]

+ xV

[31]

.

450

7. Estymacja parametryczna

Jeśli za elementy macierzy kowariancji podstawimy ich estymaty (7.59), to otrzymamy

to] U (0-09) h

1



ŻY

c2

—1

Dwie krzywe określone wyrażeniem

4x — 2) +) £D[4()] dostarczają jednego standardowego odchylenia od warunkowej wartości oczekiwanej. Zajmiemy

parametrów

estymatorów

się teraz rozkładem

a; i ag prostej regresji.

Znany jest (przykłady 5.5.10 oraz 5.7.3) pełen rozkład trzech statystyk: odchyleń standardowych s, i sy obu zmiennych losowych x oraz y, a także współczynnika korelacji r Pearsona z próby. Jeśli z rozkładu tego wyeliminujemy współczynnik korelacji za pomocą wyrażenia na współczynnik regresji a,, a następnie scałkujemy względem zmien-

nych s, i sy, to otrzymamy rozkład brzegowy dla estymatora współczynnika regresji. Jest rzeczą interesującą, że program ten można wykonać do końca 1 znaleźć poszukiwany rozkład w formie zamkniętej:

A.

J (a;:

Oxy,

gdzie —00

dy,

m

r (zn)

p) = /xT(

!(n—1))

(

/

dy

Max

Gy

m

-7)

s2U-8

2

) +

A

dy

(4-07)

AE

,

< dy < oo. Jeśli zamiast zmiennej losowej, jaką jest estymator a, współ-

czynnika regresji, wprowadzimy zmienną

oA/N — I (

t=———=——yy

1— p*

3)

|(|a-p_

0x

|;

to znajdziemy, że wielkość ta podlega rozkładowi Studenta (5.86) z liczbą n — 1 stopni

swobody, dlatego z łatwością otrzymujemy

e[5] = =p. , o v[E]= >>l 20 -/). Statystyka t byłaby bardzo wygodnym narzędziem do sprawdzania hipotezy o wartości

współczynnika regresji, gdyby parametry ją definiujące były znane. W normalnych warunkach znamy tylko estymaty tych wielkości. Ponieważ jednak znamy estymator (7.59) błędu współczynnika regresji, więc możemy utworzyć statystykę

= ZE a

-

m ŻA 5 (3 — ay), x



2

A

(7.60)

wyrażoną przez znane wielkości i mającą, jak się okazuje, rozkład Studenta o n — 2

7.3. Metoda najmniejszych kwadratów

451

stopniach swobody. Podobnym rozkładem opisana jest statystyka A

ag — 40

to=————M..

[0,41] = —

= 3)oz"

Przykład 7.3.5

Analiza regresji — profil wiązki Zalustrujemy powyższe rozważania przykładem o profilu wiązki z rozdziału Prosta regresji dla tych danych ma postać n(x) = (—0,15 = 0,02)x + (—0,001 + 1,835),

|.

PlAo, 41) = —0,01,

1 zilustrowana jest na rys. 7.19 za pomocą grubszej linii, otoczonej dwiema cieńszymi, określającymi obszar jednego standardowego odchylenia. Z wykresu tego

widzimy wyraźnie, że prosta regresji nie powinna być, w żadnym przypadku, utożsamiana z którąś z osi elipsy kowariancji — dłuższa oś elipsy przebiega bardziej diagonalnie niż prosta warunkowej wartości oczekiwanej. Gdybyśmy chcieli uzyskać równania na oś elipsy, powinniśmy wykonać analizę regresji, w której mini-

malizowalibyśmy odległości punktów od prostej. Regresję taką nazywa się ortogonalną i określona jest ona równaniem

452

7. Estymacja parametryczna

l

n

N =14

a? 2 (a, + a1x — y;)” = min(ag, a),

do wyprowadzenia i rozwiązania którego zachęcamy Czytelnika.

Tak jak w przykładzie 5.7.3, gdzie pokazaliśmy, że współczynnik Pearsona korelacji między obiema zmiennymi jest istotnie różny od zera, tak i tym razem widzimy, że współczynnik regresji jest także definitywnie różny od zera. Spójrzmy jeszcze raz na ten rezultat, tym razem obliczając wartość statystyki Studenta (7.60): £1

(A, — a) = —6,62, Syyl=—r x

=

— 2

A

gdzie za domniemaną wartość współczynnika regresji a, podstawiliśmy wartość zero. Ponieważ

dysponujemy

olbrzymią liczbą stopni swobody:

384, więc uza-

sadnione będzie zastosowanie rozkładu granicznego dla rozkładu Studenta, czyli rozkładu Gaussa, który w tym przypadku określony jest zerową wartością oczekiwaną i (praktycznie) jednostkową wariancją. Jeszcze raz widzimy, że otrzymany współczynnik regresji jest różny od zera na poziomie więcej niż sześciu dyspersji. Zwróćmy jednak uwagę na fakt, że powyższa analiza nie wnosi nic nowego .

100 y

.

.

.

.

, .

e

e

,

.

..

..,

.,

ć

.

|

+

.

. *

..

=

e Po

.,*

e

*

*



|

*

h

.”

"

*

.*

a

.-

H

%

..

..*

* te .

«e

.

4%

«

...

e

.

...

+

x *

0100 „** "e.

.

*

.



©

.

.

.

.

ÓM

2* 200 ©

..„*.%.22 ,

*

. *

.

.

o

|e

.

.

.

"e.

*

.

*

4

th. m

0%,GE=

e

..

.

.,” .*

| %

e

*

„*

24 + eje ,

„4%

©

.

9%

0

.

20

e

.

Ez.

*

*

.

.. „ * „.” 4

-100 43%, .

.

„3 |

*

nJ

*

A

.,

...

d.

3

.

. .

.

*

.

—200

e

e

*

. LJ

.

*

—100 -

Rys. 7.19. Profil wiązki — rozkład punktów trafień cząstek w detektor i prosta regresji

w stosunku do tej, jaką przeprowadziliśmy w przykładzie 5.7.3. W przypadku gdy sprawdzana wartość a, = 0, wtedy i

=—-——0

=———

>> >2oL-



Z

co tłumaczy identyczność wartości statystyki Studenta w obu sytuacjach, jako że otrzymujemy dokładnie to samo wyrażenie, które w przykładzie 5.7.3 zastosowaliśmy do oceny istotności współczynnika korelacji Pearsona. r

7.4. Estymacja z ufnością

453

—— 74. Estymacja z ufnością Nasze dotychczasowe metody oceny wartości parametrów koncentrowały się na znalezieniu estymatora poszukiwanego parametru, a wszelką niepewność co do jego wartości

przedstawialiśmy za pomocą odchylenia standardowego. Taka procedura nosi w statystyce matematycznej nazwę estymacji punktowej. Dotychczas nie zastanawialiśmy się,

z wyjątkiem niektórych przykładów,

nad treścią probabilistyczną, jaką niosą ze sobą

znalezione estymatory. Ba, ambicją naszą, np. w rozdziale 4, było zbudowanie takich procedur, które w odniesieniu do momentów zmiennej losowej wręcz nie wymagałyby znajomości postaci rozkładu. Ten niedostatek zamierzamy teraz nadrobić. Jeśli znany

jest rozkład, z którego losujemy próbę, postępowanie estymacyjne można przeprowa-

dzić alternatywną metodą, która jest innym, bogatszym, językiem do wyrażenia tych

samych treści.

7.4.1. Metoda estymacji przedziałowej Niech będzie dany eksperyment, w którym znana liczba N cząstek padła na tarczę o zna-

nej grubości x i znanej liczbie n centrów rozpraszających na jednostkę objętości, dając w rezultacie k interesujących nas oddziaływań. Z przykładu 5.3.8 wiemy, że przekrój

czynny o na taki proces możemy wyrazić wzorem o

l - Nxn

k,

(wynik ten uzyskujemy, rozwijając funkcję wykładniczą do wyrazów liniowych w gru-

bości tarczy, co zazwyczaj jest wręcz doskonałą aproksymacją). Załóżmy także, że pozostałe wielkości występujące w wyrażeniu na przekrój czynny są znane absolutnie dokładnie, tym samym błąd na przekrój czynny będzie zdeterminowany przez niepewność obserwowanej liczby k oddziaływań, a ta podlega rozkładowi Poissona P,(u) z pewnym parametrem u. W celu wyostrzenia problemu przyjmijmy, że znaleziona liczba zdarzeń wynosi 3. Tak mała liczba przypadków prowadzi do dużej niepewności dla zmierzonego przekroju czynnego, który w tym przypadku będziemy znali z precyzją około 60%, jeśli utożsamimy obserwowaną liczbę k zdarzeń z parametrem ji rozkładu Poissona. Świadomi

jesteśmy faktu niedoskonałości takiej operacji, jako że łatwo sobie wyobrażamy, iż przy

tak małej liczbie obserwowanych przypadków fluktuacje tej liczby są istotne. Innymi słowy, jeśli przeprowadzimy następny eksperyment, zachowując warunki pierwszego, możemy łatwo zaobserwować np. jedno lub pięć interesujących nas oddziaływań. Wydaje się nam, że jeśli nawet obserwacja sześciu bądź nawet ośmiu zdarzeń jest możliwa, to już trudniej nam uwierzyć, że znajdziemy np. dziesięć, a tym bardziej piętnaście takich zdarzeń. Naszym zadaniem jest określenie praktycznego zakresu wartości rezultatów, a stąd wiarygodnego zakresu wartości parametru „e rozkładu. Minimalna i maksymalna

wartość skojarzona z przedziałem, który pomieści oceniany z próby parametr, zwane są granicami ufności, a sam przedział zwiemy przedziałem ufności, natomiast procedura

454

7. Estymacja parametryczna

dochodzenia do tych wartości określana jest mianem estymacji przedziałowej. Ilustracje takiego postępowania podane były w przykładach 5.2.2, 5.3.2 oraz 5.4.4 dla szczególnej sytuacji, kiedy wynik przeprowadzanego przez nas doświadczenia był negatywny. Dotknęliśmy również tego zagadnienia w przykładzie 5.2.3, gdzie eksperyment „coŚ”

dostarczył. Skoncentrujmy się na przykładzie z rozkładem Poissona 1 zastanówmy się nad zna-

czeniem frazy o „wiarogodnym” zasięgu wartości parametru /4. Jeśli wartość tego parametru wynosi „4 = 5, to na ile wielkość k = 3 lub mniejsza jest możliwa? Prawdopodobieństwo

P(k < 3; i = 5) takiego zdarzenia to

l

0

P(k 43 >pP-,N= 100) p

=

3 (+) Zk

p — (l

"

p P- )"9* ==V,0,025

,

znajdujemy, że p_ = 0,332 oraz p, — 0, 533. Przedział ten, jak należało oczeki-

wać, zawiera w sobie wartość p = 0, 5, a więc nie preferującą żadnego z kierunków obrotu wiru. n

(—

Przykład 7.4.2 Przedział ufności — czas życia

Popatrzmy również na przykład 5.3.2, przyjmując, że nasz eksperyment poszukujący rozpadu protonu znalazł jeden przypadek o czasie życia t. Nasze równania (7.61) do rozwiązania tym razem to P(ft £t;T,)=—

1

T+

t J exp (->)

T4

dt = 0,025,

459

7.4. Estymacja z ufnością

skąd

£

=——-_———-

Te

oraz

7 1n(d — 0,025) !

00

2 39 St, „

P(t>t;T_)=— J exp (--) T. T_

dt = 0,025,

T=—————0,2ft. In 0,025

Ponownie zauważmy gigantyczną szerokość znalezionego przedziału. Wspomnieliśmy już o tym w podrozdziale 5.3.2, mówiąc, że rozkład wykładniczy charak-

teryzuje się dużymi fluktuacjami. Ponieważ dla tego przykładu mamy analityczną postać rozwiązań na granice przedziału ufności, możemy pokusić się o znalezienie

minimalnego przedziału ufności (7.62). W tym celu musimy znaleźć taką wartość f, aby różnica

+=! była minimalna lub stosunek

(wa

1

— fa)

1

ln(l — 5)

T_

in(l — fa)

zr,

ln((l — f)a) | 0,010

1200 p

1000 p

| 0,009

|

| 0,008

|

-

l

5R

"O

-

_

|

stosunek

ł

gg

| I

6007,

400

!

— 0

00

01

0,2

m naa--____

L

l

03

04

05

06

=

| 0,005

5O

| 0,004

|

|

0,002

|

-| 0,001

| 0,003

|

200 |

2

| I

_

| 0006



a=

07

08

09

Z

7

0,000

1,0

parametr f

Rys. 7.23. Zależność stosunku i różnicy krańców przedziału ufności od parametru f

był najbliższy jedności. Na rysunku 7.23 przedstawione są obie te wielkości dla przypadku, gdy « = 0,05. Stosunek zbliża się najbardziej do jedności dla f = 0,84, przy której to wartości granice przedziału ufności znajdujemy jako T_ =

0,2: oraz tr, = 23,3r. Różnica osiąga minimalną wartość dła f = 1 i dostarcza rozwiązań T. = 0 oraz r, = 19,5t, co jest niewątpliwym ulepszeniem, choć niezwykle problematycznym: dolna wartość granicy ufności dopuszcza zerowy r czas życia, co nie ma fizycznego sensu.

460

7. Estymacja parametryczna

Wyniki ostatniego przykładu łatwo poddają się pewnemu przekształceniu, którego wynik, będąc wygodnym skrótem myślowym, kolosalnie gmatwa zrozumienie sensu przedziałów ufności. Równania na dolną i górną granicę przedziału ufności, w wersji centralnej (7.61), są w istocie równaniami na kwantyle rzędu 0,025 oraz 0,975 dla rozkładu wykładniczego:

to,025 = —T ln 0,975 = 0,0253T,

to.915 = —T ln 0,025 = 3,6897,

co wyrażamy jako stwierdzenie o prawdopodobieństwie rejestracji zmiennej losowej t: P(0,0253T < t < 3,6891) = 0,95. Możemy, rozwiązując podwójną nierówność nik przepisać w postaci P(0,0253T

1

2

0,001

0,001

2,6

Suma

2612

1,000

1,000

2612,0

zmiennej losowej k, obejmującej wartości od zera do jedenastu, wynoszą k

P = P,(1) = pie"

k=0,1,2,...,11,

natomiast dla ostatniej klasy, trzynastej, prawdopodobieństwo to przyjmuje postać 00

— 12;n)=e u 2

—_

.

Ph = P(k>

n—

A

k

ki

11



7 l-=e

_

_ HL 2

k —

ki

Wyrażenia te budują logarytm funkcji wiarogodności 11 In £ (u)

=

)

k=0

u m

In (e”)

+ nią ln (

—e*

11

u*

3

3

k=0

,

który maksymalizujemy numerycznie, otrzymując ji = 3,88, w wyśmienitej zgodności

z rezułtatem uzyskanym w podrozdziale 5.4.2, gdzie obliczyliśmy po prostu Średnią arytmetyczną. Dysponując estymatą parametru rozkładu, możemy obliczyć estymaty ph

prawdopodobieństw P, przedstawione właśnie w czwartej kolumnie tabeli 8.1, a w piątej

mamy estymaty Np, spodziewanych krotności NP,. Do testu hipotezy potrzebujemy jeszcze statystyki testowej.

Ponieważ mamy do czynienia z rozkładem eksperymentalnym, a więc nie mamy przewidywania na liczbową wartość N sumy wielkości n,, dlatego musimy narzucić na

8.2. Test zgodności

489

model normalizację zadaną doświadczeniem. Rozkład zmiennych losowych ną między

poszczególne klasy, przy zadanych prawdopodobieństwach P; trafienia do danej klasy, określony jest rozkładem wielomianowym (5.27) W,

==

Wynn.

n„

Py,

(N,

Pi,

N!

=

P

Pą,...,

"TI

r

ś

SLEŁE

LET

[[7.

ny! k=0

k=0

k=0

(8.1)

Do wszystkich funkcji silnia zastosujemy przybliżenie Stirlinga (5.5) I

N!'=xy2nN" "ze", oraz m

L

k=0

k=0

[ [re! *

nit

KZT

e" = (J2n)

n+l

-

e" | [m

ny+2

k=0

2,

skąd

W, =

1

(

/

2x)

[I

p

Pi: nat;



k=0

R

*

U

DT

(42 n) | [I Nh

Ji (w

N P,

)

z

(8.2)

Wartość oczekiwana każdej ze zmiennych losowych ną wynosi NP%, a wariancja określona jest przez NP,(1 — P,) = NP, toteż, dla dalszej wygody, wprowadzimy związek łączący obserwowane wartości n, z wartościami oczekiwanymi ny

=

N P,

+

Bk,

(8.3)

gdzie wielkości 8,, z warunku ustalonej sumy ny, spełniają związek

3,8 =0.

(8.4)

k=0

Podstawiając (8.3) do (8.2), otrzymujemy W,

/N

1

We) LR ho

(1 BO)

h

NPi+Br+Z

k

Zajmiemy się teraz wyrażeniem

[(+yz) Ł-0 N PX n

NP,+Bk+"3

(8.5)

w którym oczekujemy, że

| w stosunku do NP; w pierwszym czynniku. Podstawiając, znajdujemy

l

n

Br

l

Npę+Bk+3

=

(F(+;% k=0

n

1



B;

(TZN) k=0

—_

1

n



224NB

|

k=0

ponieważ suma wielkości 8; znika na mocy (8.4). W następnym kroku, po wyeliminowaniu wielkości B; za pomocą związku (8.3), otrzymujemy

n [(+) Ł=0 NP

NPx+Br+3 2

l n Są). — NP 2 tap(Z 2% NP,

Tym samym asymptotyczna postać rozkładu wielomianowego przedstawia się jako n

YNN

PR

(w 2n)

[l

exp (-3 1IĘ< 3 4 NP,

2 —

U

— NP)? k) ) . NP;

k=0

Jak widzimy, przybliżenie to ma postać zbliżoną do (n + 1)-wymiarowego rozkładu Gaussa, a wielkość R =

—_

(nę — NP)”

> ————+,,, NE,

(8.7) 8.7

wprowadzona przez K. Pearsona jeszcze w 1900 roku, odgrywa rolę statystyki x*: jest to suma kwadratów standaryzowanych zmiennych, każda określająca odchylenie wielkości losowej ną od wartości oczekiwanej NP, i podzielona przez wielkość +/N P, o charak-

terze dyspersji wielkości losowej.

Wielkość Ńt określona związkiem (8.7) ma istotnie własność zmiennej x? z dokładnością do dokonanych przez nas przybliżeń, tzn. liczby ną przypadków muszą być

na tyle duże, aby sprawiedliwe było przybliżenie Stirlinga dla ich funkcji silnia i dla całkowitej liczby N przypadków oraz by słuszna była relacja (8.6). Jak wiemy z pod-

rozdziału 5.1, dwa pierwsze warunki

są łatwe do spełnienia, gdyż przybliżenie Stir-

linga pracuje wyśmienicie nawet dla małych wartości argumentu funkcji silnia. Trudniej przedstawia się kwestia związku (8.6), warunkującego poprawność rozwinięcia funkcji logarytm. Sytuację komplikuje fakt zastosowania metody największej wiarogodności do estymacji nieznanych parametrów rozkładu i wykorzystania tych estymat do obliczenia

8.2. Test zgodności

491

wielkości py, których w praktyce używamy zamiast wielkości P, w związku (8.7). Jak wiemy, metoda ta dostarcza estymatorów, które są tylko asymptotycznie nieobciążone

i dlatego nie możemy oczekiwać, że związek (nę) = NP, będzie spełniony ściśle, a jedynie asymptotycznie. Statystycy poświęcili wiele wysiłku badaniom szybkości, z jaką

wielkość R nabiera cech zmiennej losowej rozkładu granicznego, czyli rozkładu 4”. Zwyczajowo przyjmuje się propozycję samego K. Pearsona, aby wielkości ną wynosiły

przynajmniej 5, a jeśli liczba składników w (8.7) nie jest mała (większa niż kilka) to może się pojawić pojedyncza wielkość nę nawet mniejsza od tej wartości. Dodatkowo,

zaleca się taki sposób grupowania danych, aby ich liczba w każdej z klas była zbliżona. Musimy jeszcze określić liczbę stopni swobody uzyskanej statystyki. Jeśli wielkości prawdopodobieństw

P, są znane, czyli wtedy, gdy hipoteza jest w pełni określona

przez podanie postaci rozkładu i nie musimy wydobywać estymat parametrów rozkładu z próbki, to natychmiast zauważamy, że statystyka JR asymptotycznie charakteryzuje się liczbą stopni swobody o jeden mniejszą od liczby składników w sumie (8.7). Wynika to z faktu, że na wielkości n, narzucony jest warunek więzów, wymagający, aby suma tych wielkości była równa N, co czyni je matematycznie zależnymi. Istotnie, rozkład wielomianowy zapisany w symetrycznej formie (8.1) charakteryzuje się macierzą kowariancji

N Pę(1 — Po) —N P,Po V

(n)



—N PoP) NP,L—P,)

.

... :::

.

—N P,„ Po

—N PoP, —NP,P,

.

—NP,„P,

.

-:

,

(8.8)

NP,(l— P,)

która jest osobliwa, o czym łatwo się przekonujemy, dodając wszystkie kolumny do ostatniej. Dlatego odchodząc od symetrycznej postaci, odrzucimy ostatnią zmienną n,, czyniąc pozostałe matematycznie niezależnymi, co jednocześnie oznacza wyrugowanie ostatniej kolumny i ostatniego wiersza z macierzy kowariancji i prowadzi do macierzy V (patrz (5.34)). Bezpośrednim rachunkiem sprawdzamy, że macierz

1 4 Po

,

1

P,

V-! (n) = —

N

LL

1

1

P,

l

P,

1 P,

1

]

.

.

i

i

P,

P,

=

P,

P,

P,

-

.

.

1

I N

Ts

|omo P

P,

1

Pn_i

P,

jest odwrotna do macierzy V (8.8) „odartej” z ostatniej kolumny 1 ostatniego wiersza. Wykładnik wyrażenia aproksymującego gaussowsko rozkład wielomianowy ma tym samym postać

8

(n-NP)'V'!(n-NP)=

1

5-1

M

3

Śóm

(n, — NP) (5

k,m=0



m

(nę —

NP)” P

k=0

1

+ 5) (n, — NP)

NP

,

492

8. Weryfikacja hipotez

w zgodzie z (8.7). Tę własność dotyczącą liczby stopni swobody łatwo możemy sprawdzić, obliczając wartość oczekiwaną wielkości R:

E[R]I=> [R]

nh

l

nh

—€E|n-NP)/|=> NB [m — NP,)?]

l

——NPAU-P)=)> NB | - P,) = >

(1—P,)=n.

Wynik uzyskaliśmy, wykorzystując wyrażenie (5.29) na wariancje zmiennych z rozkładu wielomianowego. Zauważmy, że liczba składników w sumie wynosi n + 1, a wartość oczekiwana jest o jeden mniejsza od tej liczby. W podobny, choć nieco bardziej skomplikowany, sposób można obliczyć wariancję wielkości ŚR: YB

=204

która asymptotycznie, dla N > stopniach swobody.

1

(Z

[+1

-l0+07

2).

oo, zbiega do wariancji zmiennej z rozkładu xX* on

Rozważmy teraz modyfikacje, jakie musimy wprowadzić, jeśli hipotetyczny rozkład jest wyrażony przez m parametrów 6,, których nie znamy. Jeśli do ich oceny wykorzystamy funkcję największej wiarogodności w postaci (patrz przykład 7.2.11) In £ (6) = 3

n, ln P, (6) + const,

k=l

to warunek na estymatory Pa

z M £(6) =

om

rozkładu P G

_P. (6) =0.

06,

i=1L2,...,m,

jest w istocie dodatkowym układem m liniowych równań więzów łączących liczby n, przypadków w przedziałach histogramu. Oznacza to, że w macierzy (8.8) już nie wystarcza odrzucenie jednej kolumny i jednego wiersza, ale musimy odrzucić dodatkowo m takich wierszy i kolumn, aby przestała ona być osobliwa. Prowadzi to do dalszego zmniejszenia liczby stopni swobody o liczbę m nieznanych parametrów.

Oznacza to, że w naszym przypadku, dysponując liczbą trzynastu klas i wyznaczając jeden parametr rozkładu, otrzymamy 11 stopni swobody. Dla wielkości R znajdujemy:

Ńmin = 10,8. Jeśli przyjmiemy, że poziom zgodności testu wynosi 0,05, to wartość krytyczną dla rozkładu x* o jedenastu stopniach swobody znajdziemy jako 19,7, a więc

większą niż uzyskana przez nas wartość Mty;„. Zmusza nas to do stwierdzenia, że nie

mamy

statystycznych podstaw do odrzucenia hipotezy o poissonowskim rozkładzie ob-

serwowanych przez Rutherforda i Geigera liczb rozpadów. Opisaną tu procedurę nazywamy testem x* zgodności Pearsona. Określony jest on następującą, roboczą receptą: e zgrupuj dane doświadczalne o liczebności N w n rozłącznych klasach, tak aby w każdej klasie liczba ny, k=1,2,3,...,n przypadków była nie mniejsza niż 5, a liczby przypadków w klasach były zrównoważone, e zdefiniuj hipotezę, podając domniemaną postać rozkładu,

8.2. Test zgodności

493

e określ poziom zgodności testu,

e jeśli zdecydujesz się na ocenę parametrów rozkładu z próbki, zrób to metodą funkcji wiarogodności dla danych zgrupowanych, maksymalizując wyrażenie: n

nl

=

ny ln P, (0,,6,...,

6),

M

+bx+c (© — 30.9) , Dane doświadczalne przedstawione na histogramie z rys. 8.3 to właśnie unormowana do jedności gęstość rozkładu, gdzie w każdym przedziale naniesiony jest stosunek liczby

przypadków w tej klasie do całkowitej liczby przypadków, podzielony przez szerokość

przedziału histogramowania. Dane te pochodzą z tabeli 8.2, gdzie pierwsza kolumna to klasa, czyli przedział histogramu, druga — to liczba przypadków w danej klasie, trzecia — doświadczalna częstość, a czwarta — to doświadczalna gęstość, czyli szary histogram na wykresie. W piątej kolumnie umieszczona została ocena p, teoretycznego prawdopodobieństwa P, — czyli częstość rejestrowania przypadku w danej klasie — obliczona przy wartościach parametrów b oraz c określonych metodą największej wiarogodności

494

8. Weryfikacja hipotez

1,2 1,0 0,8 0,6 0,4 0,2

—0,9

—0,6

—0,3

0

0,3

0,6

0,9

cos U

Rys. 8.3. Rozkład kątowy leptonów w rozpadzie bozonu Z

Tabela 8.2. Rozkład kątowy w rozpadzie bozonu Z

(—0,9)-(—0,6)

7

0,2121

0,7071

0,2131

7,0

(—0,6)-(—0,3)

4

0,1212

0,4040

0,1416

4,7

(—0,3)-0

5

0,1515

0,5051

0,1098

3,6

0-0,3

3

0,0909

0,3030

0,1177

3,9

0,3-0,6

5

0,1515

0,5051

0,1652

5,5

0,6-0,9

9

0,2728

0,9091

0,2526

8,3

Suma

33

1,0000

3,3334

1,0000

33,0

dla zgrupowanych danych, czego zaraz dokonamy, i w końcu szósta kolumna — to ocena oczekiwanej liczby przypadków w danej klasie.

Musimy teraz określić dwa nieznane parametry rozkładu. Potrzebne będą nam do tego prawdopodobieństwa P,: x +A

p, = J f(x; b,c)dx, gdzie k = 0,1,2,...,5,

jak poprzednio:

xg = —0,9 oraz A = 0,3. Funkcję wiarogodności zbudujemy 5

5

k=0

=(0

nC=ln|[P"*=)_ nlnP,,

8.2. Test zgodności

495

a maksymalizując ją znajdujemy, że b £ 0,087, natomiast ć Z 0,734. Mając te wyniki,

możemy wykreślić rozkład teoretyczny (linia paraboliczna na wykresie), a także obliczyć wartość statystyki testowej Atys, == 0,91. Wartość krytyczna zmiennej x? dla poziomu

zgodności 0,05 przy trzech stopniach swobody (sześć klas danych doświadczalnych minus dwa oceniane parametry minus jedność) wynosi 7,81, co oznacza, że nie mamy podstaw statystycznych do odrzucenia hipotezy o jednostkowym spinie bozonu Z.

Sytuacja nie jest jednak tak prosta. Można postawić przecież „szaloną”, bo nie popartą żadnym modelem, hipotezę o zerowym spinie tego nośnika sił. Obliczenia są

bardzo proste, bo rozkład wtedy powinien być jednostajny na poziomie 5/9 (daje to normalizacja do jedności na przedziale od —0,9 do 0,9) co w pełni określa hipotezę. Jako wartość statystyki Pearsona otrzymujemy ) = 4,27 przy wartości krytycznej 11,07 dla pięciu stopni swobody. Tak więc i tej hipotezy nie możemy odrzucić na podstawie posiadanych danych doświadczalnych. W kwestii ostatniego przykładu autor jest winien Czytelnikowi wyjaśnienie. Przedstawione dane doświadczalne pochodzą z bardzo wczesnego etapu badań własności bozonu Z, kiedy to ilość danych doświadczalnych zebranych na temat tej cząstki była bardzo skromna. Obecnie dane te są na tyle bogate, że nie pozostawiają najmniejszej wątpliwości co do wektorowego charakteru bozonu Z. Intencją autora było nie tyle wzbudzenie w Czytelniku niepewności co do własności tej cząstki, ile uświadomienie mu, że jakość danych jest zawsze kluczem do rozstrzygnięcia hipotezy. Jest jeszcze i drugi aspekt zagadnienia. O ile w 1987 roku istotą analizy było pytanie o spin cząstki, o tyle dziś możemy rozważyć inny problem. Jeśli nie dysponujemy silnym argumentem teoretycznym, przemawiającym

za jedną z hipotez, to którą z nich mamy

wybrać?

Czy

możemy do procesu podejmowania decyzji wprząc kryterium estetyczne, np. prostoty hipotezy? W odniesieniu do testu x* dla zmiennej ciągłej, naturalne jest postawienie pytania o celowość wywodu estymat parametrów rozkładu z „wielomianowej” postaci funkcji wiarogodności dla danych zgrupowanych w n klas, skoro często dysponujemy indywidualnymi pomiarami. Grupowanie danych prowadzi niechybnie do utraty informacji

1 zapewne otrzymalibyśmy efektywniejszą i precyzyjniejszą ocenę parametrów, stosując pełną funkcję wiarogodności. Okazuje się, że takie podejście prowadzi do częściowego odzyskania stopni swobody, a rozkład resztkowej sumy kwadratów opisany jest przez rozkład x? o pośredniej liczbie Oszacowanie efektywnej liczby problemu, jaki rozwiązujemy. rogodności „w pełnej krasie”,

stopni swobody, zawartej między n — m — 1 oraz n — 1. stopni swobody nie jest zadaniem trywialnym i zależy od Dlatego, jeśli wykorzystujemy metodę największej wiawartość statystyki testowej powinniśmy skonfrontować

z wartościami krytycznymi wynikającymi z obu rozkładów X*.

Zza

ZEK)

Ó

7

O

R

ŻA

ZO?ZZ © ZŁ

GG AKRANY,

Obliczenia arytmetyczne widnieją tam dlatego, że za pomocą tej sztuki, dowodzącej prawdziwości rzeczy, kalkuluje się racje rozumowe.

Stopień racjonalnego zaufania

—— 9.1. Prawdopodobieństwo i statystyka W podrozdziale 2.2 podaliśmy, sformułowaną przez A. N. Kołmogorowa, aksjomatykę teorii prawdopodobieństwa. Wskazaliśmy tam również, że sformalizowana teoria nie odpowiada na pytanie, jak określać prawdopodobieństwo — ten aspekt wychodzi poza jej ramy — a przecież jest on kluczowy w każdym praktycznym przypadku. Podobnie, teoria prawdopodobieństwa nie zajmuje się określaniem zbioru zdarzeń elementarnych. Po to, by stosować reguły rachunku prawdopodobieństwa, musimy najpierw zbiór ten, w kazdym konkretnym zagadnieniu, zadać, a także znaleźć pierwotne, „wejściowe” wartości prawdopodobieństw jego elementów. To, jak tego dokonać, jest kwestią określonego przepisu operacyjnego, czyli definicji. W podrozdziale 2.1 podaliśmy definicję częstoŚciową zdarzenia A, zadaną wyrażeniem P(A) = lm

gdzie wielkość m(n)

P,(A) = lim

n>o.

m(n) , /h

(9.1)

to liczba zdarzeń obdarzonych badaną cechą A, jaka pojawiła

się wśród wszystkich zdarzeń n. Ponadto, w podrozdziale 2.2, określiliśmy prawdopo-

dobieństwo geometryczne jako stosunek miar zbiorów, natomiast prawdopodobieństwo kombinatoryczne, właściwe dla sytuacji, w której występuje skończona liczba możliwych

rezultatów eksperymentu, dyskutowaliśmy w podrozdziale 5.1. Wszystkie te definicje do-

czekały się w dziejach rozwoju rachunku prawdopodobieństwa bardzo poważnej krytyki, którą teraz postaramy się pokrótce zrelacjonować. Zaczniemy od definicji kombinatorycznej, związanej z nazwiskami J. Bernoulliego

(Ars Conjectandi, 1713), A. de Moivre'a (Doctrine of Chances, 1738) i P. S. Laplace a

(Thćorie Analytique des Probabilitćs, 1812). W klasycznym sformułowaniu Laplace'a brzmi ona (w wolnym tłumaczeniu) następująco: prawdopodobieństwo zdarzenia jest

zadane stosunkiem liczby m zdarzeń sprzyjających temu zdarzeniu do liczby n wszystkich możliwych zdarzeń, w sytuacji gdy nie mamy podstaw do podejrzeń, że niektóre z tych zdarzeń powinny pojawiać się częściej niż inne, co czyni je równie możliwymi. Okre-

498

9, Stopień racjonalnego zaufania

ślenie odnosi się implicite do sytuacji, w której całkowita liczba zdarzeń jest skończona, a definicja (9.1) jest dość oczywistym

uogólnieniem. Problem z definicją Laplace'a polega na tym, że ona niczego nie definiuje, gdyż jest tautologią: w jej treści występuje pojęcie równych możliwości, które jest synonimem frazy równe prawdopodobieństwa. Abyśmy mogli tej definicji użyć,

ktoś musi nam zdefiniować to ostatnie pojęcie, czego, jak na ra-

zie, nikomu się nie udało (przynajmniej w ramach klasycznego podejścia), gdyż nie jest oczywiste, jak tego dokonać. Niech jako ostrzeżenie posłużą historyczne przykłady. Włoski matematyk G. Cardano, żyjący w XVI w., był pierwszym, który Geronimo Cardano,

w swej książce Liber de Ludo Aleae, dyskutując matematyczne

1501-1576

kwestie hazardu, uważał, że przy jednoczesnym rzucie dwóch

kostek do gry mamy 36 elementarnych możliwych par, a nie 21 (patrz przykład 5.1.6). Jeśli rzucimy jedną monetą dwa razy, to łączna liczba orłów

w tych rzutach może wynosić 0, 1 lub 2. Jeszcze w XVIII wieku francuski matematyk J. dAlembert utrzymywał, że te trzy możliwości stanowią zbiór zdarzeń elementarnych, a każda z tych możliwości powinna być traktowana równoprawnie, a więc prawdopodobieństwo każdej z nich wynosi 1/3.

Określenie kombinatoryczne prawdopodobieństwa ma jeszcze jeden ciekawy aspekt. Niech będą dane dwie urny: w jednej umieszczono jedną kułę czarną i jedną kulę białą, natomiast w drugiej trzy kule czarne i jedną białą. Jakie jest prawdopodobieństwo, że wybierając z dowolnej urny dowolną kulę, wylosujemy kulę białą? Niech U, zdarzeniem polegającym na wyborze urny pierwszej, z dwiema kulami, P(U,) prawdopodobieństwem wyboru tej urny, natomiast U> to zdarzenie polegające na rze urny drugiej, a P(U>) to prawdopodobieństwo wyboru tej urny. Przyjmiemy,

będzie będzie wyboże oba

prawdopodobieństwa są sobie równe i wynoszą 1/2 każde. Niech P(B) będzie prawdopodobieństwem pojawienia się zdarzenia B, czyli wylosowania białej kuli. Z, faktu, że zdarzenia U, i U; są rozłączne i wyczerpują wszystkie możliwości, otrzymujemy P(B) = P(BN(U,

UU;)) = P((BNU,)U(BNU)

=P(BNU,)

+ PBNU;),

a z definicji (2.14) prawdopodobieństwa warunkowego znajdujemy

P(B) = PBUWYPU) + POBIUJPW) = 3-z+5-3=. Jest interesujące, że wyniku

tego, w żadnym

wypadku,

nie da się wytłumaczyć,

odwołując się do stosunku liczby zdarzeń sprzyjających do wszystkich zdarzeń (stosunku liczby wszystkich białych kul do liczby wszystkich kul w urnach). Tego typu spostrzeżenia doprowadziły jednego

z twórców

współczesnej

teorii prawdopodobień-

stwa do stwierdzenia, że Ci, którzy nauczają tej definicji, nigdy jej sami nie praktykują

(H. Jeffreys, Theory of Probability, Oxford University Press 1961). Podobne, fundamentalne trudności, związane z jej tautologicznym charakterem przypadły w udziale także definicji geometrycznej, która a priori przypisuje równe prawdo-

9.1. Prawdopodobieństwo i statystyka

499

podobieństwa wszystkim punktom leżącym wewnątrz odcinka pro-

stej, figury na płaszczyźnie czy też objętości bryły w przestrzeni. Ponieważ liczba punktów nawet w najmniejszym takim obiekcie geometrycznym jest nieskończona,

więc

aby uniknąć

trudności

związanych z obliczaniem stosunku dwóch nieskończonych liczb, zamiast tego stosunku brany jest stosunek miar obiektów geometrycznych. Zarzut, jaki niekiedy jest podnoszony w tym kontek-

ście, to arbitralny wybór tej miary. Jeśli ograniczymy się do osi

rzeczywistej, to miarą dowolnego zbioru zadanego przez odcinek na tej osi jest dowolna, dodatnia i monotoniczna funkcja np. różnicy krańców

tego zbioru. Klasyczna definicja wybiera spośród

nieskończonej liczby możliwych miar jedną i czyni to bez uzasadnienia, z wyjątkiem być może tego, że ta specyficzna miara

Sir Harald Jeffreys, 1891-1989

nie stoi w sprzeczności z postulatami teorii prawdopodobieństwa. Ale nawet i ta jedyna miara przestaje odgrywać jakąkolwiek rolę w sytuacji, gdy przyj-

muje ona wartości nieskończone, tzn. wtedy, gdy mamy do czynienia z np. całą osią rzeczywistą. Nieco inaczej przedstawia się kwestia określenia prawdopodobieństwa za pomocą

wyrażenia (9.1). Nie mamy tu już trudności z tautologią, ale w zamian za to pojawia się granica nieskończonego ciągu. Powoduje to, że nawet jeśli definicja ma jakiś sens, do dyskusji czego przejdziemy za chwilę, to jej znaczenie operacyjne jest żadne. Nikt nigdy

nie znalazł prawdopodobieństwa za pomocą tej definicji, ani nikt nigdy w przyszłości

go nie określi, ponieważ nie możemy wykonać nieskończonej liczby doświadczeń, aby wymaganą granicę obliczyć. Definicja ta może co najwyżej posłużyć do oceny poszu-

kiwanego prawdopodobieństwa, ale tylko z pewną precyzją. Przypomnijmy nierówność Czebyszewa (3.7)

P (x

wl

PZ

2 6) £ G. €

W skończonej liczbie n prób i przy liczbie m sukcesów estymator parametru p prawdopodobieństwa sukcesu w pojedynczej próbie zadany jest wyrażeniem (5.18) „ m P=—, n a jego wariancja wynosi (patrz (5.17))

|_PAd—p)

[5]=——

Y|pl=>——. Jeśli podstawimy ten wynik do nierówności Czebyszewa, to otrzymamy m n

) < Ipd-p) €

n

Prawdopodobieństwo, że estymata będzie różniła się od wartości parametru p o wartość większą niż dowolnie mała liczba e, dąży do zera dla wzrastającej liczby prób:

P(=-»p n

> e) < „PP n



n—>0o

0

(9.2)

9. Stopień racjonałnego zaufania

parametr p

500

100 p 0,90 | 0,80 | 0,70 | 0,60 0,50 0,40 0,30 | 0,20 0,10 0,00

O

i

0

100

EO

l

200

l

300

k

400

l

i

500 600 numer próby

l

l

700

i

800

J

900

1000

Rys. 9.1. Symulacja tysiąca rzutów monetą i prawdopodobieństwo uzyskania reszki

Związek

ten zilustrowany jest na rys. 9.1, gdzie przedstawiony jest badany

stosunek

m/n, znaleziony w tysiącu prób Bernoulliego, każda z prawdopodobieństwem sukcesu p = 0,5, uzyskanych metodą symulacji Monte Carlo.

Wynik (9.2), na mocy lokalnego twierdzenia de Moivre—Laplace'a (5.26) z podroz-

działu 5.2.3, możemy zapisać w bardzo konkretnej postaci, jako

5 (0-7 f

np+en

m=np—en

m

|

yz;

[PA

=

_Ż „P

2

dz



h>>00

1 (9.3)

gdzie z = m/n. Uzyskany rezultat nazywa się całkowym twierdzeniem de Moivre— Laplace'a i należy do grupy twierdzeń określanych mianem praw wielkich liczb —

w tym przypadku jest to tzw. Bernoulliego prawo wielkich liczb. Prawo to daje nam 100% gwarancji, że estymata będzie równa parametrowi p, ale dopiero przy nieskończonej liczbie prób. Jeśli liczba ta jest skończona, mamy niezerową szansę na to, że

estymata będzie jednak różna. Mówimy, że wielkość m/n zbiega do parametru p, ale w sensie prawdopodobieństwa, a nie w sensie Cauchy ego, jaki jest wymagany w analizie matematycznej, abyśmy mogli mówić w sensowny sposób o granicy ciągu. Można

nawet pokazać (H. Jeffreys, ibid.), że granica taka nie istnieje, jeśli chcemy zachować losowość i niezależność w kolejnych próbach, których celem jest określenie prawdopo-

dobieństwa na mocy definicji (9.1). Rozważmy w tym celu pięć nieskończonych ciągów

obrazujących rzuty monetą, w których uzyskanie orła zaznaczyliśmy jedynką, a reszki zerem: a) 100110010100100111010.. b) 100100100100100100100... , c) O000000000000000000000... , d) 1111111111111111I1II1... , e) 10110000111111110000000000... .

9.1. Prawdopodobieństwo i statystyka

501

Pierwszy z tych ciągów otrzymano, wykonując rzeczywisty eksperyment z rzucaniem

monetą. Wartość stosunku m/n wydaje się w nim rzeczywiście fluktuować wokół liczby 0,5. Pozostałe cztery ciągi są sfabrykowane. Granica drugiego wynosi 1/3, trzeciego 0,

czwartego

I, a piątego oscyluje w nieskończoność między

1/3 a 2/3 (ciąg ten został

zbudowany tak, że bloki zer i jedynek następują po sobie na przemian i liczba każdej z cyfr w bloku jest zadana liczbą wszystkich cyfr występujących wcześniej), czyli nie istnieje. Problem z przykładami (b)-(e) polega na tym, że są one absolutnie legalnymi przykładami losowych ciągów, jakkolwiek niewiarogodnie mogą one wyglądać, które poten-

cjalnie możemy otrzymać, rzucając monetą (a Czytelnik na pewno sam będzie potrafił „wyprodukować” wiele innych przykładów). Na mocy niezależności każdej z prób Ber-

noulliego oraz ich losowego wyniku nie istnieje funkcyjny związek między wyrazem

F, a wyrazem P,+, nieskończonego ciągu w definicji (9.1). Oznacza to, że nie jesteśmy w stanie podać dowolnej liczby e i takiego indeksu N, że dla wszystkich indeksów n

większych od wartości N kolejne wyrazy ciągu P„ będą się różniły od hipotetycznej granicy P o mniej niż owa wartość e. Tym samym granica ciągu P, nie istnieje. Wynik

ten stawia nas w bardzo delikatnej sytuacji: granica ciągu P, nie istnieje, a prawdopodobieństwo takiego zdarzenia, na mocy Bernoulliego prawa wielkich liczb (9.3), jest

równe zeru. Wyjaśnienie tego paradoksu leży w zacytowanych przez nas przykładach

ciągów (b)-(e), których pośród wszystkich nieskończonych ciągów jest nieskończenie razy mniej niż ciągów reprezentowanych przez ciąg (a).

Wszystkie trzy „definicje”: kombinatoryczna, geometryczna i przez granicę ciągu są bezużyteczne — one niczego nie definiują. Dwie pierwsze są w najlepszym przypadku

tautologią, a o tej trzeciej można powiedzieć (H. Cramer, Metody matematyczne w sta-

tystyce, PWN, Warszawa 1958), że jest tak samo przydatna jak matematyczna definicja

punktu geometrycznego, który uzyskamy wtedy, gdy będziemy go rysować na tablicy kredą o grubości dążącej do zera. Jakie w takim razie są podstawy całej wiedzy prezentowanej we wszystkich wcześniejszych rozdziałach tej książki? Czy mamy do czynienia z kolosalną, intelektualną mistyfikacją? Rozwiązanie trudności leży, w pewnym sensie, w odwróceniu zagadnienia: nie definiujmy prawdopodobieństwa przez częstości, ale je interpretujmy jako częstości. Potraktujmy „definicje” jako pewne hipotezy orzekające

o własnościach opisywanego zjawiska i zamiast je stosować, poddajmy je raczej weryfikacji przez eksperymentalne badanie. I tak się rzeczywiście dzieje. Przez prawie 100

lat historii rachunku prawdopodobieństwa wypracowane zostały, głównie przez K. Pearsona, E. Pearsona, J. Neymana i R. A. Fishera, a także wielu, wielu innych, w miarę standardowe narzędzia do realizacji takiego programu. Narzędzia te są wyodrębnione

w oddzielną dziedzinę wiedzy — statystykę matematyczną.

Ścisły związek między prawdopodobieństwem a częstością wycisnął głębokie piętno

na procedurach i narzędziach tej dziedziny wiedzy. Gdy przystępujemy do badania jakiegoś zjawiska i mamy określoną hipotezę co do jego natury, wówczas na mocy logiki arystotelesowskiej nasza hipoteza może być tylko prawdziwa bądź tylko fałszywa. Po-

miar dostarczy nam pewnych informacji, które nie przesądzą definitywnie o słuszności

hipotezy, gdyż zawsze, w ramach częstościowej interpretacji prawdopodobieństwa, będą

502

9. Stopień racjonalnego zaufania

skażone przez proces losowego ich wyboru. Rozstrzygnięcie takie mogłoby nastąpić jedynie w skrajnym przypadku nieskończonej liczby pomiarów. Ponieważ sytuacja taka jednak nigdy się nie zdarza, pytanie, jakie zadaje badacz, występujący w roli statystyka, brzmi: zakładając słuszność postulowanej hipotezy, jaka jest szansa, że dane, jakie uzyskamy w wyniku pomiaru, wskażą na jej słuszność? Odpowiedź na to pytanie wymaga

konstrukcji rozmaitych narzędzi, wśród których poczesne miejsce zajmują estymatory i statystyki testowe.

Chociaż niniejszy podręcznik pełen jest przykładów wykorzystania takich narzędzi,

rozważmy jeszcze parę uzupełniających przykładów. Zaczniemy od pojęcia estymatora

nieobciążonego. r——

Przykład 9.1.1

Estymator nieobciążony Załóżmy, że mierzymy liczbę cząstek promieniowania kosmicznego przechodzącego przez nasz detektor. Wiemy,

że łiczba ta opisana jest rozkładem Poissona

zadanym przez nieznany parametr j4, który chcemy ocenić z danych. Jeśli w zadanym przedziale czasu znajdziemy, że nasza aparatura zarejestrowała k takich zdarzeń, to wiemy, że najlepsza wartość estymaty parametru /4 zadana jest przez k: (i =k. Przypuśćmy, że zamiast estymatora parametru ji jesteśmy raczej zainte-

resowani estymatorem pewnej funkcji f (4) parametru. Jak znaleźć jej estymator? Jeśli zażyczymy sobie, aby nie był on obciążony, to powinien on spełniać następujące równanie (patrz definicja (3.1) wartości oczekiwanej) 0O

k

gk)=e")ReKW=fW k=0

>

PFW=D

00

k=0

k

st)

Rozwijając iloczyn e* f (u) w szereg Taylora, znajdujemy k

g(k) = 2A (e* f(1))

u=0

Z konstrukcji wynika także, że jest to jednoznaczny wybór. Znajdźmy wobec tego estymator kwadratu parametru rozkładu: f(u) = „e. Dokonując odpowiednich obliczeń, otrzymujemy _

f(4) = k(k — 1),

(wynik ten możemy łatwo otrzymać, jeśli przypomnimy sobie wyrażenia na wartość oczekiwaną (5.53) i wariancję (5.54) rozkładu Poissona). Podobnie, jedyny nieobciążony estymator dla trzeciej potęgi parametru: f (u) = pi, jest równy

f(v) = k(k — 1)(k — 2). W ogólności, dla f(4) = u”

k! f(u) = k(k— 1)(k — 2) ---(k—m+ 1) = ——.. (km)!

Jeśli interesuje nas trzecia potęga estymatora, a doświadczenie dostarczy nam jedną lub dwie cząstki, to estymator sugeruje nam, byśmy jako najlepszą ocenę

9.1. Prawdopodobieństwo i statystyka

503

parametru rozkładu przyjęli wartość zerową. A przecież, przy u = 0, prawdopo-

dobieństwo, że otrzymamy jakąkolwiek liczbę cząstek, wynosi dokładnie zero!

Do podobnej trudności i niekonsekwencji prowadzi nieobciążony estymator

(5.43) parametru intensywności A rozkładu wykładniczego.

Przy obserwacji po-

jedynczego przypadku rozpadu jądra lub cząstki elementarnej estymator ten podpowiada, że dla parametru A powinniśmy wybrać wartość zero, choć estymator parametru r mamy wybrać różny od zera! Innego rodzaju trudność napotykamy przy ocenie wartości oczekiwanej

kwadratu ciągłej zmiennej losowej. Łatwo sprawdzamy, że wielkość

(x)”

X — s2 jest poszukiwanym, niezależnym od rozkładu, nieobciążonym estymatorem

(© — sz) =() — ($) =VER]+ (R

- VP] = (X).

Estymator ten jest jednak ułomny. Może się zdarzyć, np. dla rozkładu Gaussa, że przyjmie on wartość ujemną — jeśli średnia jest bliska zeru, a sam pomiar jest

mierny i rozrzut między indywidualnymi wynikami pomiarów duży — mimo że

wielkość (x)”, którą ocenia, musi być dodatnia.

m

Spójrzmy teraz na jedną z najważniejszych metod uzyskiwania estymatorów, jaką jest metoda największej wiarogodności. r——

Przykład 9.1.2

Metoda największej wiarogodności — nieefektywny licznik Zastanówmy się, w jaki sposób moglibyśmy ocenić faktyczną liczbę cząstek wiązki

z akceleratora, ale także cząstek promieniowania kosmicznego lub też cząstek ze

źródła promieniotwórczego, w sytuacji, gdy dysponujemy nieefektywnym liczni-

kiem tego promieniowania. Załóżmy, że efektywność licznika, tzn. prawdopodo-

bieństwo p zarejestrowania przez niego cząstki, jest nam doskonale (bezbłędnie)

znane z wcześniejszych badań i dla wyostrzenia problemu przyjmijmy, że p = 0,1.

Z rozkładu dwumianowego wiemy, że jeśli na licznik skierujemy n cząstek, to licznik ten zarejestruje k = O, 1, 2,...,n cząstek, przy czym każda z możliwości wystąpi z prawdopodobieństwem B(n, p) = (;)p'a

—p)"*,

k=0,1,2,...,n.

Załóżmy także, że znana jest nam oczekiwana liczba u = 100, będąca parametrem rozkładu Poissona n

P,(u)

=

e”*,

n=0,1,2,...,

określającego rozkład liczby n cząstek, jakie faktycznie docierają do nas z ak-

celeratora w zadanym przedziale czasu. Jakie jest prawdopodobieństwo P,(p, m)

504

9, Stopień racjonalnego zaufania

zarejestrowania liczby k cząstek, niezależnie od tego, ile cząstek padło na licznik? Aby odpowiedzieć na to pytanie, musimy skonstruować łączny rozkład prawdopodobieństwa P, „(p, ji) zdarzenia polegającego na dotarciu do licznika dokładnie n cząstek, z których k zostanie zarejestrowanych. Rozkład ten zadany jest, z definicji

prawdopodobieństwa warunkowego (2.14), iloczynem Px„(P;

L)



B.(n,

p)

P, (4)

n=0,1,...,

=

n

(;)p'a



p)"

M

n!

ęu

(9.4)

k=0,1,...,n.

Aby uzyskać poszukiwaną odpowiedź, tj. obliczyć brzegowy rozkład P,(p, 4) —

patrz (2.24) — musimy wykonać sumowanie względem zmiennej losowej n:

- Pe"

DO

P(P,W) = ) ,P(P,M) =), BA n=k

.

n=k

_ (pw

_„SZlUd=p)"*

_ (PL) k!

udp) _ (pu) k!

w miP2

nk)!

(pw

="a

_„q>

"2

(ll — p))”

m!

"=P(PL).

Otrzymaliśmy ponownie rozkład Poissona, ale z parametrem określonym przez iloczyn pji, co oznacza, że typowo nasz licznik będzie rejestrował 10 cząstek. Wykonajmy teraz jeden pomiar i niech liczba k zarejestrowanych przez licznik cząstek wynosi 15. Jaka liczba cząstek faktycznie przeszła przez licznik? Mimo że znamy globalną charakterystykę j« pierwotnego strumienia cząstek, faktyczna

liczba cząstek może być dla nas ważna, gdyż zajmujemy się np. wyznaczaniem

przekroju czynnego. Jeśli zechcemy do tego zagadnienia zastosować metodę największej wiarogod-

ności, to funkcja wiarogodności dla takiego problemu zadana jest przez rozkład dwumianowy

L(k=15;n)

= B_s(n, p=0,1)

= max(n).

Stosowne obliczenia doprowadzają nas do wniosku, że

h = k = 150. p

(9.5)

Wynik ten, bez wątpienia, jest bez sensu. Jeśli oczekiwana liczba j4 cząstek przechodzących przez licznik wynosi 100, a dyspersja tej liczby wynosi 10, to jeste-

śmy świadkami niewiarogodnej fluktuacji statystycznej, która po prostu niemalże

nie ma prawa się zdarzyć. Możemy to wyrazić jeszcze inaczej. Fluktuacje liczby zarejestrowanych przez licznik cząstek wynoszą:

D[k] = /pu = 3,2 i przenoszą się, z niezwykłym wzmocnieniem, na fluktuacje pierwotnego strumienia » l 3,2

pi] = -D[k]z= p

0,1

= 32,

podczas gdy my wiemy, że w istocie wynoszą one 10.

(9.6)

9.1. Prawdopodobieństwo i statystyka

Jest rzeczą niezwykle niepokojącą, że dla tego zagadnienia możemy

505

podać

alternatywne rozwiązanie, wywodzące się bezpośrednio z rachunku prawdopodo-

bieństwa. Możemy po prostu napisać twierdzenie Bayesa (2.34) w formie (2.16) dla zdarzeń losowych n oraz k

P.„(p, u) = Brln, p)P„(u) = P,(k, p, u) P(P. 1),

skąd

_

B,(n,

p)P„(u)

LEPR="RPu

jest poszukiwanym zmiennej wynosi:

rozkładem

00

zmiennej

m

0-5

losowej

(u(t — p)" "e *"P n. Wartość

oczekiwana dla tej

je

n n=ka-A(l-p ) = 2 nP,k,p0=2)_ _gikU-P)"'e"» 00

m

=

+

— (m=n—kh)

k

2,77 KU - p)"e""P =k+u(l — p)

1 jest to najlepsza ocena poszukiwanej liczby cząstek, które przeszły przez detektor. Jeśli podstawimy poprzednio podane liczby, znajdziemy, że (n) = 105, co jest

istotnie niezgodne z wynikiem (9.5) metody największej wiarogodności. Wariancja zmiennej losowej n wynosi

vin =) m=k- ud n=k

p))?P,(k, p, u) = ul — p).

Podstawiając wartości liczbowe, znajdujemy D [n] = V90 = 9,5, ponownie wynik

bardzo różny od (9.6), jaki podpowiada zasada największej wiarogodności.

T)

Rozważmy także metodę estymacji przedziałowej. ——

Przykład 9.1.3 Estymacja przedziałowa — licznik z czasem martwym Przypuśćmy, że dysponujemy licznikiem, który charakteryzuje się czasem martwym, tzn. po zarejestrowaniu pewnej cząstki musi on „odpocząć” przez pewien czas T, nim będzie mógł dokonać rejestracji następnej cząstki. Rozkład czasu t

oczekiwania na cząstkę promieniowania kosmicznego, w przybliżeniu niezależnych cząstek, zadany jest rozkładem wykładniczym z parametrem A, o którym założymy, że jest znany bezbłędnie i wynosi

1s”'. Rozkład

f(t; A, T) czasów oczekiwania,

jaki znajdziemy, stosując nasz licznik, będzie rozkładem wykładniczym, ale obciętym do czasów t większych niż wartość parametru 7:

flt;A,T) =Aexp(—A(t—T)),

T służących do oceny słuszności stwierdzenia A. Nie będziemy się jednak dręczyć badaniem sposobno-

Ści A| W; A W, jeśli przesłanki W, i W, są sprzeczne, gdyż z fałszywej tezy możemy wydedukować każdą konkluzję, o czym orzeka prawo Dunsa Szkota, a potwierdzenie

tego znajdujemy w wartości logicznej prawda zarówno dla zdania: (A A A) > A, jak i dla zdania: (A A A) > A.

Relacja sposobności nie musi istnieć między wszystkimi tezami. Jeśli naszą prze-

słanką W jest zdanie: światło z Księżyca biegnie do Ziemi przez jedną sekundę, a teza A to: Całkowita energia mechaniczna w polu siły zachowawczej jest stała, to nie mamy możliwości wypowiedzenia się co do sposobności A| W, gdyż nie ma najmniejszego logicznego związku między tymi dwoma stwierdzeniami. Stosując omówioną symbolikę, wprowadzimy drugi dezyderat teorii: Dezyderat 2: Jakościowa zgodność ze zdrowym rozsądkiem.

Przez ten postulat będziemy

na przykładzie. Przypuśćmy,

rozumieli

że usłyszeliśmy

następujące przesłanie, które wyjaśnimy

strzał i nieomal natychmiast potem wi-

dzimy następującą scenę: dwóch panów, X oraz Y, każdy z nich trzyma pistolet, a na ziemi

leży pan

Z.

Nasza

wiedza

W

to: pan

Z nie żyje,

a teza

A

brzmi:

strzelał

pan X. Oceniamy, że sposobność A|W jest taka sama jak sposobność tezy przeciw-

nej: A|W = strzelał pan Y |pan Z nie żyje. Jeśli jednak dostrzeżemy następujący fakt: W' = pistolet w ręku pana X dymi, to natychmiast stwierdzamy, że: A|W'AW

natomiast sposobność tezy przeciwnej do A maleje: A |W'AW

AJW,

Rozpatrzmy dodatkową tezę B: pan X miał porachunki z panem Z lub pan Y chciał zastrzelić pana X, a nawet panowie X, Y oraz Z spotkali się, aby pograć w brydza

z „dziadkiem”. Sposobność B|A A W tej tezy, zarówno w warunkach wiedzy W wraz

z informacją: strzelał pan X, jak również z dodatkową wiadomością o dymiącym pi-

516

9, Stopień racjonalnego zaufania

stolecie, czyli BIA A W' AW, są identyczne. Zdrowy rozsądek wymaga od nas byśmy uznali AABIWAW >AABIW.

W końcu trzeci i ostatni dezyderat, to dezyderat konsekwentnych, uczciwych i rzetelnych studiów zagadnienia: Dezyderat 3a: Jeśli konkluzję można wydedukować więcej niż jedną drogą, wszystkie metody muszą doprowadzić do tej samej wartości sposobności. Dezyderat 3b: Przy zgłębianiu problemu muszą być wzięte pod uwagę wszystkie istotne dla zagadnienia informacje, bez ich cenzurowania. Dezyderat 3c: Jeśli w dwóch lub więcej problemach stan wiedzy jest ten sam,

wszystkim tym problemom musi być przypisany ten sam poziom sposobności.

Te trzy dezyderaty będziemy określali łącznie mianem spójnego wnioskowania. Uzbrojeni w te przesłanki, przystąpimy do wyprowadzenia ilościowych praw rządzących rachunkiem stopnia racjonalnego zaufania.

9.2.3. Prawa operowania stopniem racjonalnego zaufania Na pierwszy ogień weźmiemy zagadnienie warunkowej sposobności A A B|W iloczynu tez A i B, w kontekście wiedzy W i związku tej sposobności ze sposobnościami każdej z tez oddzielnie. Proces decydowania o słuszności hipotezy A A B możemy wykonać w dwóch krokach: e decydujemy o słuszności tezy A, czemu odpowiada sposobność A|W,

e zaakceptowawszy ją, rozstrzygamy o słuszności tezy B i otrzymujemy sposobność BIAAW. Krok drugi wymaga komentarza z powodu przerzucenia tezy A do warunku. Moglibyśmy sądzić, że wystarczy sposobność uzyskaną w tym kroku zapisać w postaci B|W. Nie byłoby to słuszne, gdyż na to, by teza A A B była prawdziwa, oprócz tezy B musi być prawdziwa również teza A, co właśnie wyraża BIJA A W.

Rezultatem

tego rozumowania jest wniosek o tym, że sposobność

funkcją sposobności A|W oraz BIAAW: AAB|W=/f(AIW,BIAAW)=

f(x,y),

x=A|W,

A A B|W jest

y=B|AAW.

(9.9)

Gdybyśmy zamiast powyższej relacji zaproponowali

A ABIW = f(A|W, B|W),

nie byłoby to zgodne z dezyderatem jakościowej zgodności ze zdrowym rozsądkiem. Sposobność A|W może być istotna, jak i też sposobność B|W. Natomiast B|A A W

może być zarówno mała, jak i duża. Możemy się o tym przekonać, rozważając następu-

jący przykład. Możliwość, że następna spotkana osoba będzie miała błękitne oczy, na pewno nie jest mała. Podobnie, możliwość, że następna spotkana osoba będzie miała ciemne włosy, także nie jest znikoma. Również możliwość, że taka osoba będzie miała

i błękitne oczy, i ciemne włosy jest całkiem rozsądna. Natomiast z faktu dość istotnych

9.2. Sposobność i jej miara

517

sposobności, że następna spotkana osoba będzie miała prawe oko błękitne oraz następna

spotkana osoba będzie miała lewe oko kasztanowe nie wynika, że sposobność napotkania następnej osoby z prawym okiem błękitnym a lewym kasztanowym będzie również znacząca.

Badanie słuszności tezy A A B możemy przeprowadzić także w inny sposób: e decydujemy o słuszności tezy B, czemu odpowiada sposobność B|W,

e zaakceptowawszy ją, rozstrzygamy o słuszności tezy A i otrzymujemy sposobność A|BAW. Prowadzi nas to do wniosku, że zamiast (9.9) równie dobrze możemy napisać

A A B|W — f(BIW, A|B AW). Widzimy, że do określenia sposobności A A B|W

B|A NW, B|W oraz A|B A cjalnych funkcji. Okazuje się Pergamon Press, New York typu A=B A=W lub A

(9.10)

mamy

cztery wielkości: A|W,

W, z których możemy utworzyć łącznie jedenaście poten(M. Tribus, Rational Description, Decisions and Designs, 1969), że poddanie tych funkcji różnym skrajnym testom = B pozostawia tylko dwie z nich, właśnie (9.9) i (9.10)

jako rozsądnych kandydatów na sposobność A A B|W.

Co możemy powiedzieć o funkcji f(x, y)? Z dyskusji drugiego dezyderatu, a także

z propozycji ciągłości sposobności wynika, że funkcja ta musi być ciągłą, monotonicznie niemalejącą funkcją obu swych argumentów.

Włączymy teraz do naszych rozważań dezyderat 3a konsekwentnej spójności rozu-

mowania i zastosujemy go do sposobności A A BAC|W.

iloczyn trzech tez A A B AC

Na mocy prawa łączności,

rozważymy jako A A (BAC) 1

zastosujemy do niego

dwukrotnie prawo (9.9)

AAN(BAO)|W = f(BACIW,AJBACAW)

= J(f(CIW, BICAW),AJBACAW)= gdzie wprowadziliśmy oznaczenia: x =C|W,y=B|CAW

Jednakże iloczyn A A B AC

(f(x, 7), z),

orazz=A|BACAW.

możemy zapisać także jako (A A B) AC, co implikuje

związek (AAB)JAC|W=Jf(CIW,

AABICAW)

= f(C|W, f(BICAD,A|BACAW)

= f(x, f(y,2)).

Łącząc te dwa wyrażenia, otrzymujemy równanie funkcyjne, wyrażające prawo łączności w najbardziej ogólnej formie

IFG,y),2)

Fx, FV, 2)).

(9.11)

W dodatku C pokazujemy, że rozważenie tej równości funkcyjnej prowadzi do następującego związku między sposobnością A A B|W i sposobnościami A|W oraz BJAAW:

g(A A BIW) = g(A|W)g(B|A AW),

(9.12)

gdzie funkcja g jest dodatnia i może albo monotonicznie rosnąć, albo monotonicznie maleć.

Wymaganie jakościowej zgodności ze zdrowym rozsądkiem nakłada na funkcję g

pewne dodatkowe ograniczenia. Przypuśćmy, że w świetle wiedzy W propozycja B jest

518

9, Stopień racjonalnego zaufania

absolutnie pewna. Wtedy sposobność A A B|W musi być tożsama ze sposobnością A|W. Również wiedza AA W nie wnosi nic nowego w stosunku do wiedzy W przy roztrząsaniu

tezy B: B|LA AW

= B|W. Podstawiając do prawa (9.12)

g(AIW) = g(AIW)g(B|W), stwierdzamy, że jeśli tylko g(A|W) jest różne od zera, to dla tezy B gwarantowanej w warunkach W:

g(B|W)=l.

(9.13)

Przypuśćmy teraz, że opinia B pod warunkiem W jest absolutnym fałszem. Wtedy nie tylko A A B = B, ale również B|A AW = BJW, gdyż wszelka uzupełniająca wiedza A, o ile nie jest sprzeczna z W, nie może zmienić naszych konkluzji w stosunku do B. Sięgając ponownie do prawidła (9.12), znajdujemy warunek, który musi zawsze

obowiązywać, bez względu na wielkość g(A|W), o ile jest ona różna od jedności:

g(B|W) = g(A|W)g(B|W). Równość tę możemy

spełnić jedynie w dwóch przypadkach:

albo wielkość g(B|W)

jest równa zeru, albo jest ona równa nieskończoności. Jeśli przyjmiemy, że wynosi ona

zero, wtedy funkcja g rośnie monotonicznie od zera dla tezy absolutnie wykluczonej do

jedności dla tezy absolutnie pewnej. Jeśli przyjmiemy konwencję, że tezie nieprawdziwej

odpowiada nieskończona wartość g, to funkcja ta monotonicznie maleje do jedności dla tezy prawdziwej. Jest rzeczą konwencji, które z tych dwóch zachowań przyjmiemy. Umówimy się, że będziemy stosować pierwszą z tych możliwości, tzn. dla tezy B fałszywej w warunkach W:

g(B|W) =0,

(9.14)

ponieważ przy wyborze drugiej treść teorii pozostaje taka sama — wystarczy, że zamiast funkcji g przyjmiemy funkcję g, = 1/g, aby powrócić do pierwotnego wyboru.

Zajmiemy się teraz drugim prawem, rządzącym związkiem między sposobnością A|W a sposobnością tezy przeciwnej do A. Związek taki powinien istnieć, bo jeśli mało możliwa jest pewna sugestia, to sugestia do niej odwrotna powinna mieć duże szanse, że będzie prawdziwa. Zaproponujemy ten związek w formie

g(AIW) = F (g(A |W)).

(9.15)

Konwencje (9.13) i (9.14) wymuszają dość oczywiste ekstremalne wartości dla funkcji

F: F(0) = 1 oraz F(1) =0. Inną jej własność uzyskamy, stosując tę funkcję do obu

stron równania (9.15):

_

F (g(AIW)) = F(F (g(AIW))).

Na mocy wymagań stawianych funkcji F' prawa strona tego wyrażenia powinna zwrócić nam wewnętrzny argument g(A siebie samej

|W), co oznacza, że funkcja ta musi być odwrotna do

F (FQ2))=x.

(9.16)

Nie są to jednak wystarczające własności do określenia najbardziej ogólnej formy

funkcji F. Musi być ona także zgodna z prawem (9.12), które implikuje bardziej skomplikowaną postać równania funkcyjnego.

9.2. Sposobność i jej miara

519

Rozważmy prawo mnożenia sposobności (9.12) w odniesieniu do dwóch tez: A A B oraz A A B. Wykorzystując je, znajdujemy

g(AABIW) =g(A|W)g(B|A AW), g(A A B|W) = g(A|W)g(BJA AW).

(9.17) (9.18)

Stosując (9.15) do równania (9.17), możemy je zapisać w równoważnej

postaci

g(A A B|W) = g(A|W)F (g(BIA AW)), a wykorzystując (9.18), otrzymamy

g(A A BIW) g(A A BIW) = g(A|W)F (i g(AIW)

|

Ponieważ tezy A oraz B w (9.17) komutują, więc związek ten możemy równie dobrze

zapisać jako

g(A A BIW) = g(B|W)g(A|B AW),

a stąd

g(A A BIW) = g(B|W)F ( lub też

a)

AIW)F | ————

S(AW)

( g(AIW)

g(A A

2)

g(B|W)

(o)

1 =o(BIW)F | ——

SZT |

2(BIW)

1.

Ta równość musi być słuszna dla wszystkich A oraz B, w szczególności także dla B = AND, gdzie D jest dowolną nową sugestią. Jednakże, przy takim doborze tezy B, otrzymujemy A A B = B oraz, na mocy (9.8): BA A=A,

skąd

AWF (EG) g(AIW) = sewF (EG) g(BIW) >.

F (g(B|W)) I — ( g(AIW) )

AIW)E | ———

84AD

CLJ IW) ( g(BIW)

o(BIW)F | —————

lub wprowadzając oznaczenia x = g(A|W), y = g(B|W):

„F(-2) =>F(22). x y

(9.19)

Otrzymaliśmy równanie funkcyjne na nieznany związek F łączący sposobności prze-

ciwnych tez. W dodatku D pokazujemy, że rozwiązaniem tego równania jest funkcja F spełniająca związek F"(u)+tu"=l,

implikujący następującą zależność między sposobnościami A|W i A|W:

s" (AIW) + g"(AIW) =.

(9.20)

Sporządźmy bilans tego, co dotychczas udało się nam osiągnąć. Łączność iloczynu logicznego wymaga, aby pewna funkcja g(x) sposobności x = A|W spełniała równa-

520

9. Stopień racjonalnego zaufania

nie (9.12). Ta sama funkcja musi także spełniać prawo (9.20) dodawania sposobności. Jednakże prawo mnożenia, po podniesieniu stronami do m-tej potęgi, możemy zapisać w formie

g'(AAB|W)

=g"(A|W)g"(BIA AW)

1 widzimy, ze wartość wielkości m jest faktycznie nieistotna. Jakąkolwiek wartość byśmy wzięli, zawsze możemy wprowadzić funkcję

P(x) = g" (x), w terminach której nasze prawa przyjmą postać reguły mnożenia

P(AAB|W) oraz reguły dodawania

==P(A|W)P(BIAAW)

=P (B|W)P(A|BAW) _

P(A|W) + P(AI|W)=1.

(9.21)

(9.22)

Nie zmniejsza to ogólności rozważań, gdyż jedyny warunek, jaki nałożyliśmy na funk-

cję g(x), był warunkiem monotonicznego narastania od zera dla tezy niemożliwej do

jedności dla tezy pewnej. Własność ta zachowuje się dla funkcji P(x) przy dowolnej

wartości parametru m, o ile jest on większy od zera, co także jest spełnione. Czy te dwie reguły wystarczą do znalezienia sposobności dowolnego zdania? Znaj-

dziemy, jako przykład, sposobność tezy danej sumą logiczną tez A oraz B:

P(AVB|W) =P (A A B|w) =|—P(AAB|W)=l1

— P(AIW)P(BIA AW)

= | — P(AJW) (1 — P(BJA AW))

= |] — P(A|W) + P(A|W)P(B|IA A W) = P(AIW) + P(A ABIW) = P(A|W) + P(BIW)P(A|B AW)

= P(A|W) + P(B|W) (1 — P(A|B AW)) = P(A|W) + P(B|W) — P(B|W)P(A|B AW) = P(A|W) + P(B|W) — P(A A BIW) czyli ostatecznie

P(A v B|W) = P(AJW) + P(B|W) — P(A A B|W).

(9.23)

Jeśli badane tezy A oraz B są wzajemnie sprzeczne w świetle posiadanej wiedzy W, tzn. A A B

d

-

jest tezą fałszywą, wtedy na mocy konwencji (9.14) wynik ten upraszcza się

P(Av B|W) =P(A|W) + P(BIW).

(9.24)

W podrozdziale 9.2.1 powiedzieliśmy, że działania logiczne iloczynu i negacji wy-

starczają do skonstruowania wszelkich innych operacji logicznych. Tym samym dwa nasze prawa: mnożenia (9.21) i dodawania (9.22), wystarczają do określenia sposob-

ności dowolnej innej tezy, bez względu na stopień jej komplikacji. Wystarczy, że tezę złożoną z n zdań rozłożymy na 2” fundamentalnych tez, a stosując łańcuchowo regułę

9.2. Sposobność i jej miara

521

mnożenia, określimy sposobność każdej z nich. Ponieważ tezy fundamentalne są logicz-

nie rozłączne, więc po zbudowaniu badanego zdania z tych tez, znajdziemy sposobność tego zdania, stosując prawo dodawania. I tak, dla n = 5, mamy 2” = 32 elementarnych tez, których sposobność musimy

określić z przesłanki

W, a to pozwoli nam, metodą

prostej algebry, przypisać sposobność każdemu z 2** = 4294967 296 możliwych zdań,

jakie możemy skonstruować.

9.2.4. Ku prawdopodobieństwu Jakkolwiek postać uzyskanych przez nas praw (9.21) i (9.22) rządzących sposobnościami

może wydawać się znajoma, dwie okoliczności wskazują na to, że zadanie nasze nie jest jeszcze zakończone. Po pierwsze, chociaż nasze reguły ustalają ograniczenia na to, jakie relacje między funkcjami P sposobności tez są dopuszczalne, dostarczają one jednocześnie olbrzymiej swobody w wyborze funkcji g, a co za tym idzie, także funkcji P. Po drugie, nie możemy naszych reguł zastosować do żadnego praktycznego przypadku, gdyż reguły te nie mówią nic o tym, jak przetworzyć informacje zawarte w przesłance W na konkretne wartości wielkości P najprostszych tez, jakie pojawiają się na wstępie

każdego zagadnienia. Dopiero gdy takie liczby będziemy mieli, możemy odpowiadać na następne, bardziej skomplikowane pytania. Rozwiązanie tej trudności polega na odwołaniu się do dotychczas nie wykorzystanego przez nas dezyderatu 3c.

Rozważmy zagadnienie określenia sposobności A; V A> V Aa|W, że przynajmniej jedna z trzech tez jest słuszna. Możemy to wykonać, stosując prawo dodawania (9.23) dla tezy (A; V Aa) V A3

P(A, Y A> V A3| W) = P(A; V A>[ W) + P(A3| W) — P((A: V A>) A A3IW)

= P (Ay V Az] W) + P(A3| W) — P((A; A 43) V (Az A A3)| W) 1 ponownie to samo prawo dla tezy A; V A> oraz (A; A A3) V (A> A 43)

P(A, V AV Az| W) = P(A,|W) + P(Az| W) + P(Az|W) — P(A: A A>| W) — P(ArA Az| W) — P(Aa A A3l W) + P(A1 A A> A A3| W). Przypuśćmy, że informacje zawarte w W implikują, że tezy A; wzajemnie się wykluczają,

co oznacza, że każda teza postaci A; A A; jest fałszywa, jeśli tylko i £ j. Takie założenie powoduje, że cztery ostatnie wyrazy w powyższej sumie znikają, a wtedy

P(A: V A> V A3|W) = P(A;|W) + P(A»|W) + P(A3IW). Czytelnik łatwo się przekona, stosując metodę indukcji matematycznej, że dodając następne tezy A4, As,..., Ay, spełniające warunek wzajemnego wykluczania, powyższe wyrażenie uogólnia się do:

P(A,VA„V'--VA„|W)=) P(AGIW), k=|

1, A3,..., Ay różniący się od pierwszego jedynie tym, że dwie

pierwsze tezy są zamienione miejscami. Sposób przypisywania indeksów tezom jest oczywiście arbitralny, więc nie ma znaczenia, czy indeks l przypiszemy tezie pierwszej,

czy też drugiej. Jasne jest, że jakąkolwiek wiedzę posiadamy w odniesieniu do tezy A; w pierwszym problemie, co wyznacza dla niej wartość

P(A;|W),

to tę samą wiedzę

posiadamy w odniesieniu do tezy A>, co wyznacza dla niej wartość P' (A,|W), która musi być identyczna z wartością P(A,;|W). Podobnie musi obowiązywać

P(A>|W)

=

samym

w problemie

P'(A1|W), bez względu na to, jak realne bądź nierealne mogę być obie rozważane tezy. Załóżmy teraz, że wiedza W nie wprowadza rozróżnienia między obiema tezami A; 1 A>: jeśli mówi coś na temat jednej z nich, to mówi dokładnie to samo na temat drugiej, a tym stan naszej wiedzy o każdej z tez w zestawie A;, A>, A3,..., Ay

pierwszym jest dokładnie taki sam jak stan naszej wiedzy o każdej z tez w zestawie

Ai, A>, A3,..., Ay w problemie drugim. Przywołajmy dezyderat 3c rzetelnych studiów, który mówi, że jeśli w dwóch problemach stan naszej wiedzy jest taki sam, to obu problemom musi być przypisany ten sam poziom sposobności. Oznacza to, i tylko to, że musi obowiązywać P(A,|W) = P'(A,|W) dla wszystkich wartości indeksu i. Podstawiając ten wynik do równania P(Az|W) = P'(A,|W), znajdujemy, że wartości funkcji P dla tezy A;

oraz

A; muszą być identyczne:

P(A>|W)

=

P(A,|W).

Stąd już tylko

krok dzieli nas od stwierdzenia, że jeśli wprowadzimy trzeci problem, z tym samym

zestawem tez, ale ustawionych w dowolnej kolejności 1 wiedzą W, która nie wyróżnia

ani nie dyskryminuje żadnej z nich, to wartości funkcji P sposobności wszystkich tez

muszą być identyczne. Ponieważ tezy te jednocześnie wyczerpują wszystkie możliwości, więc z (9.26) mamy natychmiast P(A:IW) = Za Keynesem

l ,

i=1,2,...,N.

(9.27)

wynik ten zwany jest w literaturze zasadą nieistotności (Principle of

Indiffjerence), oczywiście ze wskazaniem na przesłankę W. Rozważymy

teraz jej konsekwencje.

Niech będzie dana urna, której zawartość to

N identycznych co do wielkości, koloru, wagi, temperatury, gładkości powierzchni, ...

ponumerowanych kul, z których K, o indeksach i, ip, ...,ik to kule białe, a reszta M =

N — K kul to czarne. Nie mamy również żadnej wiedzy co do tego kiedy, kto, w jakiej kolejności i w jaki sposób umieścił kule w urnie. Przywołujemy na pomoc sierotkę, która

9.2. Sposobność i jej miara

523

z zawiązanymi oczami wydobywa z urny jedną kulę. Zdefiniujmy tezę A„: wyciągnięto kulę o numerze m, gdzie m = 1,2,..., N. Nasza wiedza W, zawarta w drugim, trzecim

1 czwartym zdaniu akapitu, nie pozwala nam na preferencyjne traktowanie którejkolwiek

z owych N tez. Dlatego też wyrażenie (9.27) określa wartości funkcji P(A,|W) dla wszystkich tez. Zdefiniujmy teraz następną tezę B: z urny wydobyto kulę białą. Teza ta

jest logiczną sumą rozłącznych tez A„: B=A,VAĄ,V::: funkcji P(B|W)

znajdujemy z dodawania (9.25):

VA;,, ik» dlatego też wartość

K P(B|W) = P(A; V Az V-*-VAGIW) = ) , P(A,„[W) = y: K

(9.28)

m=l

Przykład ten rozwiązuje jednocześnie dwa postawione przez nas na wstępie pro-

blemy. Pokazuje, jak w jednym szczególnym przypadku, który możemy teraz uogólnić, informacja zawarta w przesłance W prowadzi nas do konkretnych wartości numerycz-

nych dla funkcji P, dzięki czemu możemy rozpatrywać praktyczne zagadnienia. Drugi wniosek jest dość oczywisty: wiedza i prawa dodawania i mnożenia, które zastosowaliśmy, doprowadziły nas do wartości dla ostatecznych funkcji P(A,|W), a nawet bardziej

skomplikowanej funkcji P(B|W), a nie pierwotnych sposobności A,|W czy też B|W. Oznacza to, że słuszniejsze będzie odwrócenie zagadnienia i powiedzenie, że to sposobności są dowolnymi, monotonicznymi funkcjami jednoznacznie wyznaczalnych wielkości P, a nie odwrotnie.

Widząc, że teoria stopnia racjonalnego zaufania może być całkowicie wyrażona za

pomocą wielkości P, możemy wprowadzić dla nich specjalny termin: od tego momentu wielkości te będziemy

nazywali prawdopodobieństwami,

a termin sposobność, jako

pomocniczy, usuniemy w niebyt i nie będziemy do niego więcej wracali. Zrekapitulujmy uzyskane rezultaty. Prawo (9.22) oraz (9.24) wraz z konwencjami

(9.13) i (9.14) to zestaw aksjomatów podrozdziału 2.2, które konstytuują teorię klasycznego rachunku prawdopodobieństwa. Tym samym nasza nowa teoria „dziedziczy” cały formalny dorobek teorii Kołmogorowa, przedstawiony w poprzednich rozdziałach.

Jednakże, w zagadnieniach praktycznych, nowa teoria nie odwołuje się w żaden sposób do częstoŚciowej interpretacji, a opiera się na logicznym wnioskowaniu z posiadanych

przesłanek. Gdy przesłanki te są dostatecznie bogate w informacje, może się zdarzyć, że będziemy mogli przesądzić o słuszności bądź fałszu badanej tezy. Gdy wiedza nasza nie

jest wystarczająca do definitywnego rozstrzygnięcia, o słuszności tezy możemy jedynie

wypowiedzieć się, określając jej poziom prawdziwości, czyli stopień racjonalnego zaufania. Prawdopodobieństwo, którym wtedy operujemy, nie ma żadnego związku z naturą badanego zjawiska, a przedstawia przetłumaczone na liczby nasze wewnętrzne przekonanie o stopniu słuszności każdej głoszonej tezy, do której zechcemy nową metodę

zastosować.

Zauważmy także, że wynik (9.28) to wspomniana w podrozdziale 9.1 klasyczna definicja prawdopodobieństwa, interpretowana przez późniejszych badaczy w duchu często-

Ściowym. Rezultat ten jest także zapowiedzią, że całą konwencjonalną teorię powinniśmy odnaleźć we współczesnej.

524

9. Stopień racjonalnego zaufania

—— 9.3. Wnioskowanie probabilistyczne Na silny logiczny związek między prawdopodobieństwem P(A|W)

tezy A a wiedzą W

wskazuje przykład podany przez wspomnianego wcześniej Jaynesa (E. T. Jaynes, Cle-

aring up Mysteries — The Original Goal, w Maximum-Entropy and Bayesian Methods, J. Skilling (red.), Kluwer, Dordrecht 1989). Rozważymy ponownie urnę wypełnioną identycznymi kulami w liczbie N, wśród których mamy K kul białych, a reszta to kule czarne. Wiedzę tę oznaczymy symbolem W. Szansa P(B;|W) wydobycia białej kuli w

pierwszym losowaniu określona jest związkiem (9.28). Jeśli losowanie prowadzimy bez zwracania, wylosowanie takiej lub innej kuli w pierwszy kroku ma, niewątpliwie, wpływ na szansę wylosowania białej kuli w powtórnym losowaniu. Analizując ten wpływ, nie

jest nam jednak łatwo oderwać się od sprawczego charakteru faktu fizycznego usunięcia

jednej kuli z urny. Aby uzyskać jaśniejszy wgląd w problem i wyzbyć się fałszywych tropów, odwróćmy zagadnienie. Wylosujmy pierwszą kulę i bez sprawdzania koloru odłó-

żymy ją do kieszeni. Sięgnijmy ponownie do urny i wydobądźmy z niej następną kulę. Przypuśćmy, że jest to kula biała. Ile wynosi prawdopodobieństwo P(B,|B A W), że w

naszej kieszeni schowaliśmy białą kulę? Tym razem, przy próbie sformułowania odpowiedzi, duszy naszej nie targają komplikacje związane z przyczynową relacją — wszak

wynik drugiego losowania nie może mieć fizycznego wpływu

na losowanie w pierw-

szym kroku! Brak relacji fizycznej nie uniemożliwia nam jednak uzyskania precyzyjnej odpowiedzi na postawione pytanie. Nie będziemy jej tu podawać w nadziei, że Czytelnik spróbuje ją uzyskać sam, a gdyby miał trudności, powinien powrócić tu po przeczytaniu podrozdziału 9.3.1. My rozpatrzymy jedynie szczegółny przypadek omawianej sytuacji. Jeśli wśród wszystkich kul w urnie tylko jedna jest biała, to z pełną odpowiedzialnością możemy

twierdzić, że kula spoczywająca w naszej kieszeni jest czarna! Przykład ten

z całą mocą ukazuje na dedukcyjny, a nie fizyczny (np. częstościowy) charakter pojęcia

prawdopodobieństwa. Nowa interpretacja pojęcia prawdopodobieństwa ma niezmiernie głębokie konsekwencje. Przede wszystkim, nie ma w nim miejsca na pojęcie „losowości”. Pod tym po-

jęciem, w mniemaniu nowej teorii, ukrywana jest, łagodnie mówiąc, zadufana ignorancja badacza. Zdanie: Nawet gdybyśmy próbowali zbudować maszynę, rzucającą monetą z do-

skonałą prawidłowością, nie moglibyśmy przewidzieć wyników indywidualnych rzutów (H. Cramer, ibid.) w nowej teorii jest przykładem tupetu i braku pokory — jeśli nie

potrafimy czegoś zrozumieć lub przewidzieć, to na Naturę zrzucamy odpowiedzialność

za naszą intelektualną ułomność, twierdząc, że taka jest właśnie natura zjawiska. Wraz z pojęciem „losowej natury zjawiska” znika „zmienna losowa” i cały statystyczny ansambl, z którego owa zmienna jest wybierana aktem eksperymentalnym. Stąd też przed

teorią odkrywają się nowe pola zastosowań. Uzasadnione staje się zadawanie pytań w rodzaju: jakie jest prawdopodobieństwo,

że gdzieś we Wszechświecie istnieje inny układ

planetarny? Rozważenie takiej kwestii w ramach konwencjonalnej teorii zawsze będzie

wysoce spekulatywne z formalnego punktu widzenia, gdyż musi myślowo dopuszczać istnienie nieskończonej liczby wszechświatów takich jak nasz, który z definicji obejmuje cały świat. Rezultatem zanegowania populacji” jest utrata racji bytu wielkości

9.3. Wnioskowanie probabilistyczne

525

statystycznej, jaką jest estymator z całą menażerią jego własności 1 statystyki testowe, co czyni bezprzedmiotowymi różne metody statystycznej oceny parametrów rozkładów,

czyli metody momentów, największej wiarogodności, w końcu metody testów i weryfikacji hipotez. Niewinna, z pozoru, zmiana koncepcji prawdopodobieństwa prowadzi

faktycznie do wielkiej rewolucji w dziedzinie zastosowań, a jednym z jej owoców jest anihilacja całej statystyki matematycznej. To narzędzie w ramach nowej teorii staje się

zbędne, przy zachowaniu, naturalnie, bogactwa wyników matematycznych, jakie w ramach tej dziedziny uzyskano w czasie stuletniego jej rozwoju. Nie oznacza to jednak,

że stajemy bezradni wobec kolosalnej liczby problemów, które dotychczas umieliśmy rozwiązać. Nowa teoria dostarcza nam nowych narzędzi do osiągnięcia tego celu.

9.3.1. Twierdzenie Bayesa Przystępując do oceny stopnia racjonalnego zaufania wobec tezy H, nigdy nie działamy w próżni. W praktyce naukowej mamy zazwyczaj jeszcze dwie dodatkowe informacje.

Są to: dane D uzyskane w wyniku eksperymentu oraz pewna nagromadzona wiedza

W o zagadnieniu, którego hipoteza H dotyczy (przez hipotezę H będziemy rozumieli zdanie stwierdzające słuszność tej hipotezy). Rozdział między danymi a wiedzą jest często podyktowany wygodą: wyniki z wcześniejszego eksperymentu możemy uznać

za element nagromadzonej wiedzy lub też połączyć z zestawem naszych danych. Samo sformułowanie osądu P(H|D A W) nie może jednak wybiórczo traktować żadnego

z warunków D lub W, gdyż byłoby to w sprzeczności z dezyderatem 3b spójnego wnioskowania. Głównym narzędziem takiego wnioskowania w ramach nowej teorii jest prawo (9.21)

mnożenia prawdopodobieństw

P(H A D|W) = P(H|W)P(DIH AW) = P(D|W)P(H|DAW), z którego wynika

P(H|DAW) = P(DIH AW)

P(H|W)

P(DIW)

(9.29)

Jeśli mamy więcej niż jedną hipotezę, a wszystkie one, w Świetle wiedzy W, wykluczają się wzajemnie, tzn. P(H, AH,|W)

=0,

i £J,

oraz wyczerpują wszystkie możliwości, czyli zdanie: H, V H;V...V H, ma wartość logiczną prawda, wtedy na mocy praw algebry Boole'a i prawa dodawania (9.22) możemy

rozwinąć mianownik wyrażenia (9.29):

P(DIW) = P(DA(H,VH>...H,)|W) = P((DAH)vV(DAH)V...(DAH>)|W)

= > P(DAH,|W) = | P(D|H; A W)P(H,|W), i=l

i=l

(9.30)

526

9, Stopień racjonalnego zaufania

co prezentuje Czytelnikowi zapowiadany wcześniej mechanizm równoważny z rozkładem na zdarzenia elementarne w teorii Kołmogorowa. W związku tym rozpoznajemy generalizację (wolną od ograniczenia wielkości H, do zdarzeń losowych) znanej nam formuły pełnego prawdopodobieństwa z podrozdziału 2.8. Rozumowanie prowadzone w przeciwną stronę, wiodące do usunięcia zależności od H,; i pozostawienia jedynie zależności od D, zwane jest, w języku nowej teorii, procedurą marginalizacji względem D. Wykorzystując ten wynik, otrzymujemy twierdzenia Bayesa

P(H,|DAW)

= P(D|H, AW)—

P(H,|W)

5, P(DIH, AW)P(H,|W) i=1

(9.31)

Rezultat ten jest dobrze znany konwencjonalnej teorii prawdopodobieństwa (patrz (2.35)), gdzie także występuje pod tym mianem. Jego znaczenie jest tam jednak marginalne, gdyż jego zastosowania są ograniczone do sytuacji, w której wielkości D oraz H są zdarzeniami losowymi. Nowa interpretacja prawdopodobieństwa poszerza wielce zakres zastosowań, gdyż

wielkość H może być np. zdaniem: we Wszechświecie są trzy rodziny neutrin. W klasycz-

nej teorii taka hipoteza nie jest dopuszczalna, z uwagi na to, że nie możemy prowadzić procesu losowania z populacji, w której byłyby różne liczby rodzin neutrin, aby następnie zbudować estymator tej wielkości i zastanawiać się nad np. jego wartością oczekiwaną. Wszechświat jest tylko jeden i jakakolwiek liczba rodzin neutrin by w nim była, liczba ta

jest raz na zawsze ustalona i nie podlega rozkładowi. Mówiąc swobodniejszym językiem, wielkości takie jak P(H|...)

opisują w klasycznym podejściu fluktuacje wielkości H,

a przy częstoŚciowej interpretacji prawdopodobieństwa istnieje pewna klasa wielkości,

które nie podlegają fluktuacjom. Do nich należy liczba rodzin neutrin we Wszechświe-

cie, czas życia r izotopu uranu **U, masa antyneutrina elektronowego i wiele, wiele innych, w tym długość strony pomiarowa, która zależy od wzdłuż następującej drogi. Z struowana jest wielkość s(D)

zawierającej niniejsze zdanie. Fluktuuje jednak wielkość liczby rodzin, dlatego konwencjonalna analiza postępuje danych D, traktowanych jako wielkość losowa D, konzwana statystyką. Następnie, przy założeniu słuszności

hipotezy H, ze znanego rozkładu f(D|H)

znajdowany jest rozkład g(s|H) tej staty-

styki. Ostatecznie obliczana jest wielkość s(D), jaką statystyka przybiera na uzyskanej próbce i ta liczba rozważana jest w kontekście wszystkich możliwych wartości, jakie

statystyka s może przybrać na wszystkich możliwych danych D przy założeniu słusz-

ności hipotezy H. W wyniku tej konfrontacji podejmowana jest decyzja o możliwości odrzucenia hipotezy. Rezultatem takiego postępowania są zdania takie jak: w świetle uzyskanych danych

nie ma podstaw do odrzucenia hipotezy H na takim to a takim poziomie zgodności lub istotności (w zależności od sytuacji), lub też: dla parametru teorii określiliśmy przedział

ufności na pewnym poziomie ufności, mając na myśli stwierdzenie, że przedział ten za-

wiera z zadanym prawdopodobieństwem poszukiwany parametr, co wcale nie oznacza, że określiliśmy prawdopodobieństwo znalezienia tego parametru w tym przedziale! Różnica między dwoma ostatnimi stwierdzeniami jest dla przeciętnego użytkownika staty-

9.3. Wnioskowanie probabilistyczne

527

styki matematycznej scholastyczna i dopiero dła głęboko szkolonych — fundamentalna.

Rasowy

fizyk, wyrwany

ze snu, oceni prawdopodobieństwo,

że masa bozonu Higgsa

jest większa niż 1 TeV, jako bardzo małe (zakładając, że w ogóle taki obiekt jak bozon

Higgsa istnieje), co w jego ustach będzie herezją, jeśli jest on ortodoksyjnym, praktykującym statystykiem. Procedury i język statystyki matematycznej są w głębokiej nie-

zgodzie z naszym prostym zdroworozsądkowym zrozumieniem zagadnienia, co dobrze

widać u każdego początkującego amatora tej dziedziny, któremu trudno jest przyjąć taką gimnastykę umysłową za swoją. Twierdzenie Bayesa (9.31) w nowym środowisku interpretacyjnym czyni, że nie tylko na stare, dobrze znane problemy możemy spojrzeć nowym okiem, ale także możemy rozpatrywać nowe. Twierdzenie to pozwala rozważać prawdopodobieństwo różnych liczb

rodzin neutrin we Wszechświecie, pozwala zadać pytanie o szansę, że masa bozonu Higgsa jest większa niż 1 TeV, a także wiele, wiele innych pytań, włącznie z tymi

najprostszymi, odnoszących się do rzutów monetą i wydobywania kul z urny. Abyśmy mogli obliczyć prawdopodobieństwo hipotezy występujące po lewej stronie twierdzenia (9.29) lub (9.31), musimy znać trzy wielkości występujące po prawej stronie równości. Najprostsza z nich to P(D|H AW), którą uzyskujemy, podstawiając dane D do rozkładu znalezionego przy założeniu słuszności hipotezy H, co daje nam dobrze znaną funkcję wiarogodności £ z podrozdziału 7.1. Następny czynnik to

P(H|W). Określa on prawdopodobieństwo hipotezy H w śŚwietle dotychczasowej wie-

dzy, a więc niezależnie od danych D. Zwolennicy klasycznej teorii określają go mianem prawdopodobieństwa a priori. W nowej teorii odchodzi się od tego nazewnictwa i w li-

teraturze angielskojęzycznej używany jest powszechnie termin prior probability lub po

prostu prior. W mniemaniu autora, udatnie sens tego terminu w kontekście twierdze-

nia Bayesa można oddać, mówiąc o prawdopodobieństwie zaczątkowym, zalążkowym, zawiązkowym bądź w końcu zarodkowym, przy czym pierwsze z tych określeń jest za-

pewne najzgrabniejsze. Jeśli będziemy chcieli użyć rzeczownika, powiemy po prostu o zaczątku P(H|W). Wielkość P(D|W) to, technicznie rzecz biorąc, zaczątkowe praw-

dopodobieństwo danych D, jakie znajdziemy w eksperymencie i prawdopodobieństwo to moglibyśmy określić na mocy wiedzy W, ale bez odwoływania się do hipotezy H.

Wielkość ta jednak nie jest istotna dla dalszych rozważań, jako że nie zależy ona od

H, 1 jest zwykłym czynnikiem normalizacyjnym, gwarantującym sumowanie się praw-

dopodobieństw P(H;|D A W) wszystkich hipotez do jedności. Wielkość P(H|D AW) także ma swoje własne imię. Klasycy mówią o nim jako o prawdopodobieństwie a posteriori, a dla zwolenników współczesnej teorii, aby uciec od skojarzeń, jest to, oczywiście

w języku angielskim, posterior probability lub też krótko i rzeczownikowo: posterior.

Autor chciałby tu zaoferować Czytelnikowi terminologię: prawdopodobieństwo wynikowe.

Wszystkie te terminy charakteryzuje pewna słabość, wynikająca z nieodłącznego poczucia sekwencji czasowej, jaką one implikują. Jeśli pozostajemy w kręgu zastosowań

do fizyki, odczucie to jest pogłębiane przez nieuniknioną dla naszych schematów myślowych potrzebę poszukiwania przyczynowości. Te koncepcje nie mają żadnego związku

z równością Bayesa. Skojarzenia czasowe oznaczają jedynie to, że pewne elementy wy-

528

9, Stopień racjonałnego zaufania

stępują wcześniej, a inne później w toku naszego rozumowania. Na twierdzenie to należy

patrzeć tylko i wyłącznie jak na związek logiczny między prawdopodobieństwem za-

czątkowym i wynikowym, czyli taki związek, jaki widzimy w dowolnym twierdzeniu matematycznym. Jeśli dowodzimy, że z podzielności liczby przez cztery wynika jej podzielność przez dwa, to nie wyczuwamy tu żadnej korelacji czasowej ani nie poszukujemy związku przyczynowego między tezą a założeniem. We wstępie do niniejszego podrozdziału wspomnieliśmy,

że podział między dane

i wiedzę jest arbitralny i pozostawiony do uznania badaczowi. Czy nie prowadzi to do różnych wniosków, w zależności od tego, jak ten podział przeprowadzimy? Aby sprawdzić, czy taka groźba może się pojawić, przypuśćmy, że dysponujemy danymi

D, które posłużyły nam do wysnucia konkluzji P(H|D A W), wynikającej z twierdzenia Bayesa i przyjętego zaczątku P(H|W). Ponieważ naszą ambicją jest ulepszenie tego rezultatu, wykonaliśmy

własny

eksperyment,

który dostarczył danych

D'. Aby-

śmy byli konsekwentni w naszej analizie nowych danych, musimy przyjąć, że wiedza W” tuż przed wykonywaniem eksperymentu składa się z oryginalnej wiedzy W 1 „starych” danych D: W ' = DAW,a zaczątek P(H|W') to prawdopodobieństwo wynikowe P(H|D wynik

AW).

Po zakończeniu eksperymentu

„ PH|W')

,

w!

A AW)=P(D|HANW)—————— P(H|ID P(D'|W')

zabieramy się do pracy 1 otrzymujemy

,

=P(D|H

W następnym kroku, w miejsce zaczątku P(H|DAW) dzenia Bayesa (9.29) P(D|HADAW)

POD AW)="PODIDAW)

P(H|DAW)

ADAW)——---—.

P(D'|DAW)

podstawiamy prawą stronę twier-

0?

P(H|W)

P(DIW)

a wykorzystując prawo (9.21) mnożenia prawdopodobieństw

P(D|H ADAW)P(DIH AW) = P(D' ADIJH AW) oraz

P(D'|DAW)P(DIW)

otrzymujemy

,

P(H|IDADAW)=P(D Widzimy,

że niezależnie

=P(D Aa DIW),

, AD|HAW)——————-.. P(H|W)

od tego, czy stare dane

czy też połączymy je z nowymi

P(D'A DIW)

D

włączymy

do zasobów

2”, wniosek będzie taki sam. Wynik

wiedzy,

ten ukazuje

twierdzenie Bayesa jako pozbawiony sprzeczności wewnętrznych schemat postępowania, będący jednocześnie solidnym narzędziem do konsolidowania danych i integrowania

wiedzy.

9,3, Wnioskowanie probabilistyczne

-—-

529

Przykład 9.3.1 Twierdzenie Bayesa — hipoteza zagłady Nim przejdziemy do szerszej dyskusji twierdzenia Bayesa, jego własności i wnio-

sków, do których ono prowadzi, a zwłaszcza zastosowań w fizyce, rozważymy przykład „lżejszego kalibru” (K. D. Olum, http://arXiv.org/abs/gr-qc/0009081). Istnieje pewna szansa P(K|W), ze ludzka rasa będzie trwała na Ziemi krótko (teza K), gdyż ulegnie unicestwieniu z powodu np. katastrofy nuklearnej, upadku planetoidy, wyczerpania zasobów naturalnych lub też skażenia środowiska. Naturalnie, jest do pomyślenia, że żadne z tych zdarzeń nie nastąpi, co zapewni, z prawdopodobieństwem P(K|W) = I — P(KIW), pomyślne trwanie ludzi na naszej planecie jeszcze przez wiele, wiele lat. Zastanówmy się nad prawdopodobieństwem P(K |n, W) naszego nagłego końca, świadomi faktu, ze zajmujemy n-tą pozycję w szeregu wszystkich ludzi urodzonych na przestrzeni ostatnich, po-

wiedzmy, 200 000 lat. Z twierdzenia Bayesa otrzymujemy P(K|n, W) =

P(n|K, W)P(KIW)

= = . P(n|K, W)P(K|W) + P(n|K, W)P(K|W)

Wielkości P(n|K, W) i P(n|K, W) określają prawdopodobieństwa urodzenia się jako n-ta osoba w obu scenariuszach. Ponieważ możemy urodzić się, równie dobrze, na początku, w środku, jak i na końcu ery człowieka na Ziemi, więc naturalne będzie przyjęcie, że prawdopodobieństwa te są zadane odwrotnością całkowitych liczb Ny lub Ng ludzi, którym dane jest żyć w obu przypadkach. Podstawiając do twierdzenia Bayesa, znajdujemy, że

P(Kin.W)= |

1 — P(K|W Nę (KIW) 1 l z gy, PKW) + „-P(KIW) K

K

_

Nk (-)

K

P(K|W) P(KIW) +

Nk K

Jeśli nie chcemy, by wkrótce po nas ludzkość dokończyła swego żywota, to ułamek Nx/Nę powinien być mały. Wtedy prawdopodobieństwo P(K |n, W) jest bardzo bliskie jedności, chyba że zaczątek P(K|W) jest zdumiewająco mały: znacząco

mniejszy niż stosunek Ny/N;ę. Pchnęło

to niektórych

(B. Carter, Philosophical

Transactions

of the Royal

Society of London A310 (1983), 347; J. Leslie, Bulletin of the Canadian Nuclear

Society, May 1985, 10; J. R. Gott, Nature 363 (1993), 315; H. B. Nielsen, Acta Physica Polonica B 20 (1989), 427) do wysunięcia hipotezy zagłady (doomsday argument): nasze rokowania są mizerne — koniec.

ludzkość skazana jest na swój rychły n

9.3.2. Probabilistyczna indukcja Podstawowa zasada logiki stwierdza, że zaprzeczenie dowolnej, prawdziwej tezy A daje

tezę A, która jest fałszywa. Dokładnie taki sam schemat rozumowania odnajdujemy

w naszym prawie dodawania prawdopodobieństw: P(A|W) + P(A|W) = 1. Jeśli teza A jest prawdziwa, to P(A|W) = I, a stąd P(A|W) = 0. Gdy nie mamy do czynienia z tak

530

9. Stopień racjonalnego zaufania

klarowną sytuacją, reguła dodawania prawdopodobieństw wydaje się dość naturalnym rozszerzeniem dla logiki arystotelesowskiej.

Metoda rozumowania polegająca na wyciąganiu wniosków z przesłanek to dedukcja. Opiera się ona na fundamentalnym sylogizmie: ((A > B) AA) = B, który mówi: wiadomo, iż A implikuje B oraz stwierdzamy fakt A, więc wnioskujemy, że obowią-

zuje B. Istnieje także reguła przeciwna: ((B => A) A B) = A. Przypatrzmy się, jak twierdzenie Bayesa plasuje się w tym schemacie. Niech nasza wiedza W oznacza zasadniczą przesłankę rozumowania dedukcyjnego, tzn. W jest identyczne ze stwierdzeniem, że implikacja A => B ma logiczną wartość prawda. Niechaj nasze dane D to prawdziwa teza A, natomiast hipoteza H to teza B. Przepisujemy twierdzenia Bayesa

P(BIAA(A + B)) =

P(A|B A (A > B))P(BIA > B) _ P(AAB|A > B) PQAJA 5 B)

-.

PAJA=B)

Jeśli prawdziwa jest implikacja A = B, to teza A A B ma tę samą wartość logiczną co teza A (demonstruje to tabela 9.3), a tym samym co daje nam

P(B|A Aa (A >

P(A a B|A >

B) = P(AJA > B),

B)) = |, czyli prawdziwość tezy B.

FAP=F

FNF=F

vy

PNF=F

PNP=P

NY

PAP=P

PNF=F

U

m

FANP=F

v "v

FNF=F

uv

(4 U M U

yu

U

9 "N

Tabela 9.3. Własności operacji implikacji i koniunkcji

Przyjmijmy teraz, że nasze dane to teza B, przez co chcemy powiedzieć, że prawdą jest, że teza B nie zachodzi, a wtedy twierdzenie Bayesa ma postać

P(A|B A(A 2 B)) =

P(B|AA (A > B))P(A|A > B) _ P(BAAJA > B) P (B|A + B) | P(BIA>B)

Ponownie, zakładając prawdziwość implikacji A > B, znajdujemy z tabeli 9.3, że war-

tość logiczna tezy A A B jest zawsze fałszywa (z definicji implikacji, jako równoważnej wartości logicznej zdania A v B wynika, że teza A A B jest prawdziwa tylko wtedy,

gdy implikacja jest fałszywa). Oznacza to, że P(A A BIJA => B)= 0, a tym samym teza A jest fałszywa: P(A|B A (A = B)) =0. Widzimy, jak reguła mnożenia odtwarza, w skrajnym przypadku, zasady dedukcji logicznej.

_ _ Pamiętając, że nie obowiązują reguły ((A > B) AB) => A oraz ((A > B)A A) >

B, ani też reguły do nich odwrotne ((B > A)AA) > B, ((B > A)AB) > A, rozważmy mniej klarowną sytuację. Niech dalej obowiązuje wiedza W zadana wartością

9,3. Wnioskowanie probabilistyczne

S31

logiczną prawda dla implikacji A = B i niechaj będzie prawdziwa teza B. Co możemy powiedzieć na temat tezy A? Zapiszmy twierdzenie Bayesa

AE AA

207

P(B|A A(A > B))P(A|A=> B) _ P(AJA > B)

P(BIA > B)

* P(BIA > B)

gdyż z naszej tabeli 9.3 wynika, że jeśli wartością logiczną tezy A A (A > B) jest prawda, to teza B też jest prawdziwa. Jednakże założenie prawdziwości samej implikacji A

=

B nie pociąga za sobą bezwzględnej

prawdziwości

tezy

B. Oznacza

to, że

P(B|A = B) jest mniejsze, a co najwyżej równe jedności, a tym samym mamy związek

P(A|B A (A > B)) > P(A|A = B), czyli stwierdziwszy prawdziwość tezy B, teza A staje się bardziej prawdopodobna, choć niekoniecznie pewna. Obserwujemy tutaj, jak fałszywa reguła wnioskowania ((A > B)AB) + A nabiera probabilistycznych rumieńców. Przyznajmy — akceptacja dowolnej teorii fizycznej A następuje w wyniku zgromadzenia faktów eksperymentalnych B, choć

te mogą wynikać z wielu innych teorii. A)

Bardzo podobny proces zachodzi dla fałszywego schematu logicznego ((A > B)A

=

B. Przyjmijmy, że słuszna jest implikacja A >

B i przyjmijmy, że prawdą jest

A. Co możemy powiedzieć na temat tezy B? Stosowny układ twierdzenia Bayesa dla

tej sytuacji, to

B))P(B|A > B) PBIAA(A > B)) = P(A|B A (A +

P (A|A > B)

Jednakże przed chwilą pokazaliśmy, że P(A|B a (A => B)) wynika P(A|B A (A + B)) < P(AJA = B), toteż

>

P(A|A

>

B), skąd

P(B|A A (A > B)) < P(B|A > B). Widzimy, że jeśli utrącimy założenia, przestajemy wierzyć w tezę, choć wcale nie mamy takiego obowiązku.

Twierdzenie Bayesa, opisując proces zdobywania wiedzy, odzwierciedla nasze Intu-

icyjne zasady indukcyjnego rozumowania.

Nie chodzi nam tutaj o pewien szczególny

rodzaj indukcji, jaki występuje w matematyce 1 zwany indukcją matematyczną, jako że ta, mimo swej nazwy, jest par excellence schematem dedukcyjnym. Chodzi nam o codzienne metody wnioskowania, kiedy to próbujemy uogólniać pewne fakty. Na przykład, obserwując przez całe życie różne gatunki ptaków, dochodzimy do wniosku, na

drodze nieznanego nam bliżej procesu fizjologicznego w mózgu, zwanego indukcją, że upierzony stwór ze skrzydłami i czterema nogami nie istnieje w przyrodzie. Twierdzenie Bayesa usiłuje te schematy myśłowe porządkować i formalizować, nadając im matematyczną formę. Przedstawia sobą narzędzie poszerzające zasady klasycznej logiki o elementy, które moglibyśmy nazwać probabilistyczną indukcją. Nie jest to oczywiŚcie metoda niezawodna. Kant zawsze utrzymywał, że łabędzie są tylko białe. Istotnie, w całej Europie łabędzie są białe. Zoolodzy potrzebowali aż podróży do Australii, aby stwierdzić, że bywają też czarne.

532

9. Stopień racjonalnego zaufania

9.3.3. Estymacja parametrów z twierdzenia Bayesa Rozważmy zastosowanie twierdzenia Bayesa do klasycznego przykładu. Rozszerzymy omawiane w podrozdziale 9.2.4 zagadnienie dotyczące losowania kuli z urny, zakładając, że wiedza W dostarcza następujących informacji:

urna zawiera znaną liczbę N absolutnie identycznych kul, z jedyną różnicą,

= N — K jest

PEER

że znana liczba K pośród nich jest białych, a reszta M

z

czarnych. Nie wiemy kto, kiedy i jak umieścił kule w urnie. Losowanie to odbywa się z zawiązanymi oczami i jest bez zwracania. Niech tezy B, oraz C, oznaczają: e B,: w i-tym losowaniu wydobyto z urny kulę białą,

e C,: w j-tym losowaniu wydobyto z urny kulę czarną. Rozważmy prawdopodobieństwo P(B; A B,|W), które na mocy prawa mnożenia

(9.21) znajdujemy jako

P(B, A B,|W) = P(B,|W)P(B>|B, AW). Pierwszy czynnik w tym wyrażeniu już znamy — dany jest on związkiem (9.28). Drugi wyprowadzamy w sposób analogiczny, gdyż dodatkowa przesłanka B, w warunku mówi

nam, że po wylosowaniu kuli białej w pierwszej turze, w urnie pozostaje już tylko N— 1 kul, z czego K — I to kule białe. Łącznie daje nam to

P(B; A B|W)= KK

37

NN-1

Kontynuując, znajdujemy, że prawdopodobieństwo P (B; ABzA: : -:ABz,|W) wylosowania k białych kul w pierwszych k ciągnieniach, wynosi

KK-1 K-k+1l KKUN...r,

byłby zapisem wyniku n-krotnego losowania za pomocą liczby w systemie, którego

podstawą jest liczba m (jeśli rzucamy sześcienną kostką do gry, to liczba 3405 oznaczałaby, w systemie szóstkowym, że wykonaliśmy cztery losowania, wynikiem pierwszego była „czwórka”, drugiego „piątka”, trzeciego „jedynka”, a czwar-

tego „szóstka). Takie sformułowanie problemu ma tę własność, że uciekamy na-

wet od pojęcia losowania i jego repetycji. Jedyne, czym dysponujemy, to układ

535

536

9. Stopień racjonalnego zaufania

n-cyfrowych liczb, których pełny nabór wynosi m”. W warunkach zasady nieistotności każda z tych możliwości ma jednakowe prawdopodobieństwo, zadane przez

m". Niechaj przedmiotem naszego zainteresowania będzie podzbiór $ owych m” wyników, złożony z s elementów. Jakie jest prawdopodobieństwo, że k spośród n znaków ryr...r„ trafi do podzbioru S? Łatwiej będzie odpowiedzieć na to py-

tanie, jeśli zaproponujemy pewien model. Niech m oznacza liczbę komórek, do których może trafić kulka w pojedynczym losowaniu. Wykonujemy n losowań,

czyli umieszczamy n kulek w m komórkach. Jakie jest prawdopodobieństwo, że k kulek trafi do grupy $ komórek? Musimy obliczyć liczbę sposobów, na które taką

sytuację możemy zrealizować. Liczbę k kulek spośród n możemy wybrać na (>) sposobów. Owe k kulek w wybranych s komórkach możemy ułożyć na s* sposo-

bów, a pozostałe n — k kulek możemy rozłożyć wśród pozostałych m — s komórek na (m — s)""* sposobów. Daje nam to poszukiwane prawdopodobieństwo:

1

/ny,

B(kls, m,n, W) W) =— - (4):

(m ——5)" s)

2

(nys* (m=s)"*

= (Z) — - ——|-—

ny,

m

= (Z) 8'(1—09)” (1—09)”-,

gdzie 0 = s/m.

Widzimy, że u podstaw rozkładu dwumianowego nie leży wcale fizyczna niezależność poszczególnych aktów losowania. Jest to rezultat czysto kombinatoryczny,

wynikający z symetrii problemu wyrażonej brakiem preferencji dla któregokolwiek z m” możliwych rezultatów. Wynik ten musi mieć głębokie konsekwencje dla interpretacji pozostałych, szeroko stosowanych rozkładów prawdopodobieństwa, takich

jak Poissona, wykładniczego, gaussowskiego 1 ich pochodnych, które, jak to pokazaliśmy w rozdziale 5, wywodzą się ze schematu Bernoulliego.

n

Rozkład (9.34) posłuży nam za pierwszy przykład wnioskowania probabilistycznego.

Przypuśćmy, że dokonaliśmy, wg opisanego modelu, n losowań, w wyniku których uzy-

skaliśmy k białych kul. Niechaj liczba K białych kul w urnie nie jest nam znana. Oznacza

to, że nasza obecna wiedza W jest uboższa od wiedzy przedstawionej na początku niniej-

szego podrozdziału właśnie o tę informację, ale jednocześnie bogatsza jest o informację o liczbie k wylosowanych białych kul i liczbie n losowań. Chcemy ocenić liczbę K.

Wykorzystamy do tego prawo mnożenia (9.21), które zapiszemy w postaci P(k, K|n, N, W) = P(kln, N, W)P(K|n, N,k, W) = P(K|n, N, W)H(k|N,K,n,

W)

i rozwiążemy je względem poszukiwanego prawdopodobieństwa P(K|n, N,k, W)

P(K|n,N,k, W) =H(KIN,K,n, W)

P(K|n,N, W) P(kln, N, W):

(9.35)

uzyskując twierdzenia Bayesa (9.29) „skrojone” do naszego problemu. W związku tym

wielkość H(k|N, K,n, W) to funkcja wiarogodności P(D|H A W) przy zadanej liczbie K, czyli rozkład hipergeometryczny, do którego podstawiamy uzyskaną daną eksperymentalną k. Czynnik normalizacyjny P(k|n, N, W), czyli P(D|W), określimy za

9,3. Wnioskowanie probabilistyczne

537

moment, gdyż najpierw musimy podjąć decyzję co do zaczątku P(K|n, N, W), oznaczo-

nego we wzorze (9.29) symbolem P(H|W). Przypomnijmy, wielkość ta określa prawdopodobieństwa różnych liczb K białych kul w urnie, w warunkach naszej wiedzy

o urnie. Ponieważ wiedza ta jest niedostateczna w treści, które pozwoliłyby rozstrzy-

gnąć o uprzywilejowaniu jakiejkolwiek z dopuszczalnej wartości K = 0,1,2,...,N, więc przyjmiemy, w zgodzie z zasadą nieistotności (9.27), następującą postać zaczątku:

1 P(K|n,N,W)=——, (K|n "NZ

K=0,1,2,...,N.

9.36 (9.36)

Takie równoprawne potraktowanie wszystkich możliwości pierwszy zaproponował

Bayes, a Laplace podniósł je do fundamentalnej zasady niedostateczności (Principle of

Insufficient Reason), zwanej dziś także postulatem Bayesa

jeśli nic nie jest nam wiadome a priori o poszczególnych możliwych hipote-

zach, prawdopodobieństwa tych hipotez powinniśmy przyjąć równe.

Za pomocą

(9.35)

związku

(5.3) znajdujemy

SE

czynnik

normujący

4)=(„21)



(wś

m

n+ 1

prawdopodobieństwo

,

a stąd pełną postać rozkładu liczby K białych kul w urnie

PiknNkW= (7)

-|

(90,3).

k

K=k

N+ŁN

KN/N-K

K+1-0(7)(-:)

"LP

(21)

2

/K+ŁIN/N-K (200,3)

k+1 —1=(N+2)—— — 1, (A+

nF2

gdzie ponownie wykorzystaliśmy związek (5.3). W sytuacji, gdy liczby N, n oraz k są duże, wynik ten różni się marginalnie od mody (9.38), co wskazuje na narastającą

symetrię prawdopodobieństwa wynikowego jako funkcji K. Jak możemy określić margines niepewności dla naszego oszacowania 6 ułamka bia-

łych kul w urnie? Jako stosowne narzędzie wybierzemy wariancję rozkładu wynikowego. Nie będziemy podawać szczegółowych obliczeń, odwołamy się jedynie do następującej

własności współczynników Newtona:

(K +2)(K + v(3) = (k+2D(k + v(; k+22).

która istotnie łagodzi trud obliczeń:

| k+1 k+1 Y[K]= ——— | 1 — |N+20(N —n). —riaęz( 3)! 2X ) Tak oto rozwiązaliśmy prosty problem probabilistyczny (w konwencjonalnej teorii określilibyśmy go mianem: statystyczny) znalezienia estymatora punktowego i przedzia-

łowego (używając języka statystyki matematycznej), wychodząc z jednego narzędzia —

twierdzenia Bayesa — i wykorzystując standardowe metody teorii prawdopodobieństwa. Na miejscu będzie tutaj jedna uwaga dotycząca wykorzystanych pojęć wartości oczekiwanej i wariancji, wywodzących się ze „starej” teorii. Zgodnie z tym, co powiedzieliśmy na temat różnic między konwencjonalną i nową, współczesną teorią prawdopodobieństwa, wielkości te nie opisują wielkości K jako zmiennej losowej, gdyż takie pojęcie w nowej teorii nie istnieje. To, co te wielkości opisują, odnosi się nie do ocenianej wielkości K, lecz do rozkładu prawdopodobieństwa tej wielkości. Dłatego (K) to nie wartość oczekiwana wielkości K, która miałaby się jakoby zmieniać w niekontrolowany sposób, a wartość oczekiwana prezentowałaby typową wartość tej wielkości, lecz jest to wartość oczekiwana rozkładu wynikowego P(K |n, N,k, W). Wielkość ta opisuje cechę

rozkładu,

a nie własność

K. Podobnie

ma się rzecz i z wariancją V[K|]. Wielkość

ta

nie podaje nam rozmiarów fluktuacji wielkości K, lecz szerokość rozkładu wynikowego.

Za pomocą dyspersji D[K]

oceniamy rozsądny obszar rozkładu, mierzony jego argu-

mentem, w którym jest on istotnie różny od zera, a przez to zakres możliwych wartości liczby białych kul, jakie mogą się znajdować w urnie. Interpretacja ta, wraz z odrzuceniem pojęcia zmiennej losowej tłumaczy, dlaczego odstąpiliśmy od specjalnej notacji (czcionka bezszeryfowa) dla argumentów w wielkościach oczekiwanych i wariancjach, jakie pojawiły się powyżej. Nowe zastosowanie starych wielkości jest przyczyną ucieczki od terminologii jednoznacznie kojarzonej z konwencjonalną teorią. W szczególności, dla wartości oczekiwanej

9.3. Wnioskowanie probabilistyczne

539

stosowany jest w literaturze angielskojęzycznej termin przewidywanie (prevision), który

autor chciałby zastąpić słowem nadzieja rozkładu lub po prostu nadzieja, przywracając teorii prawdopodobieństwa, jej stary, dawno zapomniany termin, dobrze oddający

sens dyskutowanej wielkości. Termin wariancja (a tym bardziej dyspersja) nie znalazł

jeszcze swego „współczesnego” zamiennika. -——

Przykład 9.3.3

Reguła następstw Laplace'a Z. uwagi na znaczenie historyczne, znajdziemy prawdopodobieństwo tezy B,.,, że po wyciągnięciu n kul z urny, wśród których było k kul koloru białego, następną

kulą, jaką wyciągniemy, będzie kula biała. Jeśli zdefiniujemy tezę Dz: w urnie znajduje się K białych kul, to teza Dy v D, v D, V::: v Dy jest bez wątpienia słuszna, dlatego też

N

P(B,„|W) = P(B,, A (DOY Di V...V Dy) |W) = | ,P(B,. A DklW) K=0

N

= > P(B,,.|Dx A W)P(Dk|W). K=0

Pierwszy czynnik pod znakiem sumy to prawdopodobieństwo wydobycia białej kuli przy następnym po n-tym losowaniu, przy założeniu, że w urnie pierwotnie znajdowało się K kul białych, dlatego też dane jest ono wyrażeniem typu (9.28)

K-k

P(B,„„|DkAW)=——,

N—n

natomiast drugi czynnik to rozkład wynikowy razem, otrzymujemy

(9.37). Składając obie informacje

raw) ERZE(O(Z5) K=

Posiłkując się wynikiem dla nadziei (K), znajdujemy

P(B,„|W)

k+l1

+2

(9.39)

Uzyskany rezultat zwany jest regułą następstw Laplace'a. Odegrała ona, bę-

dąc źródłem wielu kontrowersji, ważną rolę w historii rachunku prawdopodobień-

stwa. Za liczne nieporozumienia odpowiedzialny jest sam Laplace, który reklamował swą regułę, jak współczesny szef działu sprzedaży, twierdząc, że skoro Świat powstał 5000 lat temu (25 lutego w roku 3123 przed naszą erą), to gotów był on

dać 1826213 (5000.365, 2426 = 1826213) franków do jednego, że jutro wstanie

Słońce. Gdyby wziąć to rozumowanie za dobrą monetę, musielibyśmy uznać, że

szansa zachowania przez Słońce takich obyczajów przez następne 5000 lat wynosi niewiele więcej niż 1/3: 1 226

213

EL (; 826213 + )

1826213

= 0,368.

540

9. Stopień racjonalnego zaufania

Oczywiście, nie powinniśmy podejrzewać Laplace'a o taką naiwność. Uczony ten miał na swym koncie wiele istotnych osiągnięć z zakresu astronomii i dobrze

wiedział, że za wschody i zachody Słońca odpowiedzialne są znane i sprawdzone prawa fizyki Newtona, a nasza wiedza o zjawiskach astronomicznych nie sprowadza

się do prymitywnej alternatywy. Zapominało o tym jednak wielu jego następców, którzy z całą powagą, a przeciw posiadanej wiedzy, atakowali regułę następstw np. w następujący sposób: roczne dziecko ma szansę tylko 2/3 dotrwania do końca

drugiego roku swego życia, podczas gdy jego prapradziadek w wieku 98 lat ma szansę przeżycia następnego roku znacznie większą i bardzo bliską jedności, bo

równą 99/100.

TI

Rozważmy, jakiej zmianie będzie ulegał problem estymacji dyskretnego parametru K, jaki omówiliśmy wyżej, jeśli zarówno liczba K białych kul, jak i liczba N

wszystkich kul będzie bardzo duża. Gdybyśmy, zamiast hipotez o liczbie K rozważali

hipotezy dotyczące stosunku 6 = K/N, wtedy liczba możliwych hipotez na odcinku [0; 1] będzie bardzo „gęsta”, przy czym oczekujemy, że prawdopodobieństwa wynikowe dla hipotez, dla których wartości 6 będą zbliżone, będą niewiele różniły się od siebie. Naturalne stanie się wtedy pytanie nie o prawdopodobieństwo wynikowe konkretnej wartości 6, lecz o prawdopodobieństwo wynikowe, że wartość ta znajdzie się w pewnym przedziale A6 wokół wartości 6. W ten sposób problem przekształci się w zagadnienie oceny ciągłego parametru 0, zadanego przez granicę stosunku K/N, gdy zarówno

liczba K, jak i liczba N dążą do nieskończoności. Spójrzmy na twierdzenie Bayesa (9.31) P(H,|DAW)

=P(DIH,

AW)

P(H,|W)



>” P(D|H, A W)P(K,|W) i=|

1 zastanówmy się, jakiej ono ulega zmianie, jeśli liczba hipotez wzrasta do nieskończo-

ności, wypełniając „szczelnie” odcinek [0; 1]. Wielkość P(D|H;, A W), czyli funkcja wiarogodności nie stwarza specjalnych problemów, gdyż jest to granica wyrażenia na

prawdopodobieństwo tezy, nazwijmy ją BęyC„-k, określającej kolejność pojawiania się kul różnych kolorów, przy czym kul białych znaleziono łącznie k, a czarnych n — k, co

opisane jest wzorem (9.32). Jak to wynika z dyskusji wzoru (9.33), prawdopodobieństwo

wylosowania kuli białej w ciągnieniu o numerze i +- 1, jeśli wcześniej wylosowaliśmy już k takich kul oraz i — k kul czarnych, dane jest przez K-0o,K/N->8

N —i

natomiast prawdopodobieństwo wylosowania kuli czarnej N-K-(i-k) N —i

=

N N —i

_—

K+i—k N —i

— N>0%,K-—>00,K/N—>8

1-9.

9,3. Wnioskowanie probabilistyczne

541

Widzimy, że pierwsze losowanie daje nam funkcję wiarogodności jako 0 bądź

1 —9,

a kazde następne powoduje uzupełnienie jej o kolejne takie czynniki, prowadząc w rezultacie do ostatecznej postaci

P(DIH, AW) = P(BpC,-vlW)

NoE

EIN

L (k, nio, W) =0'(1—0)7"*.

Zauważmy, że taka analiza wyklucza trudności związane z decyzją o zakończenia eks-

perymentu, które były źródłem kłopotów w przykładzie 9.1.4. W konwencjonalnej teorii

liczba n losowań może być, decyzją eksperymentatora, umieszczona w warunku, podczas

gdy obecnie zalicza się ona do danych D, gdyż to dane właśnie określają tę wielkość, a nie przyjęta z góry reguła zatrzymania.

Oczywiście, możemy założyć, że dane będziemy zbierać tak długo, aż nazbieramy n przypadków. Wtedy funkcją wiarogodności jest P(D|n, H; AW). Jednakże, skoro w danych D mamy informację zarówno o liczbie n, jak i k przypadków, zatem P(D|n, H, AW)

= P(k,nlin, H;, AW)

= P(kin, H; AW)P(nln, H; AW)

= P(kln, H;, NW),

gdyz P(nln, H; AW) = 1. Oznacza to, że powtarzanie się jest bez znaczenia. Bez względu na to, czy w danych zawarta jest informacja, którą znamy z wiedzy wstępnej, czy też nie — funkcja wiarogodności pozostaje bez zmiany. Własność ta powoduje, że reguła zatrzymania w teorii bayesowskiej przestaje odgrywać jakąkolwiek rolę. Otóż z prawa mnożenia prawdopodobieństw otrzymujemy P(H,,n|DAW)

= P(H,;|n, DAW)P(n|DAW)=P(nlH;

a ponieważ P(n|D AW)

= 1, a także P(n|H; ADAW)=|1, P(H;|n, DAW)

Tym

samym

dowolne

kryterium

ADAW)P(H;|DAW), więc

= P(H,|IDAW).

określające

koniec

(9.40)

eksperymentu jest równie

i każde z nich doprowadzi nas do tej samej postaci rozkładu wynikowego. Zajmijmy

się teraz prawdopodobieństwem

wynikowym.

Wielkość

dobre

ta ma określać

prawdopodobieństwo, że ułamek 6 znajdzie się w przedziale d9 wokół wartości 6. Określa nam to P(H;|D AW) jako wielkość infinitezymalnie małą, proporcjonalną do prze-

działu dó. Współczynnik proporcjonalności to funkcja w(6|k, n, W) gęstości rozkładu wynikowego dla poszukiwanego parametru 6. Konsystencja matematyczna wymaga, by prawdopodobieństwo zaczątkowe także było dane wyrażeniem z(6|W) do, gdzie z(6|W) jest gęstością dla tego parametru. W konsekwencji suma w mianowniku po wszystkich hipotezach przeobraża się w całkę względem wartości tego parametru, dając ostatecznie

ciągłą wersję twierdzenia Bayesa

w(ólk, n, W) = - £(k, nić, W)z(61W)

J £(k,n|0, W)z(8|W) do 0

(9.41)

542

9. Stopień racjonalnego zaufania

Twierdzenie to łatwo możemy uogólnić dla przypadku, gdy zarówno poszukiwany

parametr O, jak i wielkości mierzone x przybierają wartości ciągłe z dowolnego obszaru:

w(6|x, W) =

CH DZEW)

f LQ, W)z(6|W)do

(9.42)

—00

Zastanówmy się teraz, jak zasadę nieistotności, wyrażoną przez (9.36) dla przypadku

dyskretnego, możemy zaadaptować do nowej sytuacji. Wiedza W podpowiada nam, że skoro każda z hipotez o wartości K jest równie prawdopodobna, więc liczba hipotez w przedziale AK wokół K jest taka sama dla każdej z wartości K i zależy jedynie od

szerokości przedziału AK. Stąd też liczba hipotez o wartości stosunku 8 w przedziale

A8 także będzie określona jedynie szerokością tego przedziału i nie będzie zależała od

samej wartości parametru 6. Wnioskujemy stąd, że w granicznym przypadku prawdopodobieństwo zaczątkowe z(6|W) parametru 6 powinno być zadane rozkładem jednostajnym w przedziale określonym przez zakres zmienności parametru, czyli na odcinku [0; 1]:

z(8|W)=l, Prawdopodobieństwo

zaczątkowe,

0.a _|_H(N (N + 1)2

_ 1

NĄ!

Cc

|N, , Ną, A: Ng, B; W)

Ng!

x

- No Nc!(NA — NC)! (Nz — NC)! y N=Nmin

1 N=NIN — NZ)! l N+1(N-N,—Nz+NQ)! (N+1)!

547

548

9. Stopień racjonalnego zaufania

gdzie jeden z czynników N +-1 włączyliśmy do funkcji N!, natomiast N,, = N, +

Ng — Nc, co wynika z faktu, że niewątpliwie liczba N wszystkich cząstek nie może być mniejsza od tej, jaką zarejestrowały nasze detektory. Asymptotycznie wyrazy

sumowanego szeregu zachowują się jak N""c"*, a ponieważ zazwyczaj liczba Ne

jest duża, więc są one bardzo szybko zbieżne do zera, dlatego też górną granicę sumy możemy bezpiecznie przesunąć do nieskończoności. Jeśli takie przybliżenie

będziemy także stosować we wszelkich obliczeniach, w których wystąpi sumowanie po N, to czynnik normujący możemy zapisać w uproszczonej postaci Ż =

NĄ! NZ! NC!(NA — NO)! (NB — NO)!

3 N=Npin

I (N-N!(NNZ)! l — N+1(N-N,=—Ns+N(N+ 1)! O)!

a o zaczątku P(N|W) zapomnieć, gdyż czynnik ł/N» uprości się za każdym razem 1 zniknie z dalszych wyrażeń. Dokonamy teraz paru podstawień: N="N—N"Ng+NO

ZN

—nyp,

NN=n+Ng—No=zn+ng,

N=—Ng=n+N,—Ncz=n-+ny,

NąB = Ną

hp + Nę = Nin;

które pozwolą zapisać wyrażenie na Z w nieco innej formie

- Ne!((Na — NO)! (Ns— NO)! żn+nys+tl I (N, + 137 (NZ + 1) FN + X

c —

(n+tnąp +1)!

ni

>

1)F'(n4 + 1)T' (ng + 1)

l Tn+n4 +1)T(n+n.+1) 1 n + nąp +1 T' (n + nyg +2) nt

Sumy tu podanej nie można obliczyć w sposób analityczny, jeśli nie dokonamy pewnego przybliżenia. Otóż, w warunkach każdego eksperymentu zajmującego się badaniem efektywności detektora, liczba n 45, przedstawiająca łączną liczbę cząstek widzianych przez oba liczniki, jest duża, dlatego też z wyśmienitym przybliżeniem ułamek (n + n4g + 1)! możemy zastąpić przez (n + nąp +2)" Z

2

F(N,

- PN

+

1)F' (NB

+ 1)

PF

(ną4B

+ 3)

X

+ DT mas +3) D' (na + 1) (ng +1)

x 2,—

in!

F(n + nap + 3)

1 wykorzystać definicję funkcji hipergeometrycznej F (a, b, c; x) F(a,b,c;x)

=

I (c)

3 Ir (n +a)T'(n +b) x"

rf0rtb 4

Tn+o)

nn

która ma tę szczęśliwą własność, że znamy jej zamkniętą postać dla jednostkowej wartości argumentu x

_ FP(o)F'(c —a —b)

F(a,b,cGl)=TCZArc=b)

549

9,3. Wnioskowanie probabilistyczne

Po podstawieniu 1 uproszczeniu otrzymujemy ostateczną postać czynnika normu-

jącego Z

„ TN, + DT (NZ + 1) =

TNOEDT(st3)

F(n,

74

+ l,ngp

+1, Nąp + 3, 1)

*

m

)

=

l

(NA + 1)(N5 + 1)

Dla kompletności zapiszmy jeszcze raz rozkład wynikowy, wyrażając go przez N, Ną, Ng OTAZ Nąp, Zachowując także tu i ówdzie, dla wygody, symbol No: w(n, Pą, Pelna, NB, Nap, W)

l

F'(n+nąg + 1)

"ZTN+ŁDTn,

bo

a+Nc

+DT(nz +1) n!?*

(= pa)

rea p "e(1— pzy"

Pozostawimy Czytelnikowi wykazanie, że wartości parametrów py, pp Oraz N, które maksymalizują ten rozkład, to znane nam oceny znalezione w przykładach

2.4.2, 5.4.10 oraz 7.2.9. Zajmiemy się obliczeniem innych ocen, zadanych nadziejami. Zaczniemy od

nadziei efektywności pą. Marginalizując względem p,, usuniemy najpierw zależność od efektywności pp: w(n,

ALTELTE

l

HAB;

w)

5 (n +nyąg

+

1)

"ZTN+DTn,+DT(n

—l

py: *"C(l



PA)”

X

+1) ni

l - |

BAC

(|



ps)" "A

dpp

0

1 T(N; +1) Ta+n,+D1 pa — p) "ZTN+DTn,+DTnz+D) ntnyatl ni” PA

n+ng

1 obliczymy nadzieję l

F(NZ + 1)

(pa) = 7 TNc+DTr+DTO+ D —

X >

[(n+n,y + 1) 1 |

0 ntnatl

nl

1

PA7

A+NC+1

( I — PA) =+eB d PA

0

_1

F(N, + 2)T (Nz + 1)

o

x

a )

Fn+n.a WE

I'(n

+)Fn+nzs+1) +

Nnąp

+ 3)

1 nt

Ponownie, sumy tej nie potrafimy obliczyć analitycznie, jeśli nie zastosujemy przy-

bliżenia analogicznego do tego, jakiego użyliśmy przy obliczaniu czynnika Z. Tym razem musimy w wyrażeniu n + n4g + 1 zastąpić jedynkę trójką

.

9. Stopień racjonalnego zaufania

(Pa)

[le

550

1 TNA +2)T(Nz + 1) Z

T(NC

y_

1)7' (nąB

+

+ 4)

FI (n,

+

1)7' (ng

F(n+n, + DFn+ng+1)



_

T (nas + 4)

-ZT(NC+DT(nas +4) _ (N4+ D(Nc +1) „Ne (Na +20(Ns +2)

F(n,

+

1)

L

I (n + nąp +4)

I PF(NA + 2)F (NZ + 1)

x

n! +

1, ng

+ 1,

Nąp

+4;

1)

Naj

Wynik ten jest w znakomitej zgodności z rezultatem konwencjonalnym. Opanowawszy technikę funkcji hipergeometrycznej, łatwo znajdziemy wyraże-

nie na wariancję efektywności detektora A. Nadzieja kwadratu efektywności tego

detektora wynosi 2

PA

„_ TNA +3)T (mas + 3)F(na + 1, ng + 1, nas F3; 1)

TOY DTGwE5FGat nat ln t3D

_ (Na + 1)(NC + 1)(Nc + 2)

— (Na Ł3)(N3 + 2)(N5 +3)

skąd otrzymujemy wariancję y [Pa]

s (NA + 1)(Nc + 1)(NC + 2) s (N + D(NC + 1)? x (pa) U — (PA) (NĄ + 3)(Np +2)(N5 +3) (N4 + 2)7(NB + 2)? Ng

Podobne rezultaty otrzymujemy dla efektywności detektora B, wystarczy jedynie indeks A zastąpić indeksem B (pz)

[>]

"8

Z

(NZ + 1)(NC + 1)

(N3+D(N1+2)

„Ne

Na

Z (Nz + 1)(VCc + 1)(NCc + 2) a (Nz + 1)Ż(NC + 1)? m (Ps) (l — (Pz))

(Nz + 3)(NA + 2)(N4, +3)

(Ns+27(N, + 2)?



Przejdziemy teraz do oceny całkowitej liczby N przypadków. Obliczamy

(N+ 1) = (n+ nag + 1)

_1 DI(N, + 1)T (NZ + 1) > Z T(Nc+1)F' (ny + 1)T' (ng + 1) z yo —

tras t 1Fn+ną N +n,B + 1

+I)Tn+ng.+1) 1

I' (n + nąp + 2)

n!

i widzimy, że nie musimy dokonywać żadnych przybliżeń:

(N+1)=

l T(N, + DT (NB + 1) x Z T(N,+1)T' (n4 + 1)T' (ng + 1)



rTn+tn,+UT(n+ng+1)

e

F' (n + nąp + 2)

93 _

| F(N4 + 1)F(NZ + 1)

"ZT(NC+ DT (nas +2)

I



n!

F (ną+ l, l,ng+ 1, 1, nąp + 2;1)= )

ZN. .

9.3. Wnioskowanie probabilistyczne

Po podstawieniu, otrzymujemy (N, + 1)(N3 + 1) _12

(N) 2

NANe

Nc



Zajmiemy się także wariancją. Obliczymy nadzieję kwadratu wielkości N + 1:

(N+ 1)

I'(N, + DT (Np + 1)

=—-

ZT(N

x

+ 1)T'(n, + 1)7 (ng + 1)

m T(n+n, (n +nąg + 1) > 48

_1

x

+DT(n +np+1) 1 — FT (n + nąpg + 2) n!

T(N, + DU(NZ + 1)

"ZT(N.+1)T (ną + 1)T' (ng +1)

>

y rn+n, +]Tn+n.+1) 1 0

I'(n + nąg + 1)

_1ITWA+DT(Nz+1) Z TN + DT (naz + 1) _d1 NaNB " Z(N—

n!

F(n, + 1,ng+ 1,nąp + 1; 1)

DNC

a w rezultacie

(N+1)7)2

N4(NA + 1)Np(NZ + 1)

(Nc — 1)Nc

|

Ponieważ dla wariancji obowiązuje załeżność Y [x + a] = Y[x], gdzie a jest dowolną stałą, toteż YTN]=

NANA + DNS(Ns +1)

(Na +1) (Nz + 1)” = (N) 1 — (pa) — (PB)

(Nc — 1)Nę

NC

(Pa) (PB)

Wynik ten jest jednak ułomny, gdyż dopuszcza ujemne wartości wariancji. Jest to artefakt przybliżenia zastosowanego przy obliczaniu czynnika normującego Z. Przybliżenie l 1 n+nągp+1

- n+Nąp +2

jest zbyt grube. Subtelniejsze będzie:

l

5

n+nąs+tl

l

l

n+nąs +2 * (n + nas +2)(n + nas +3).

W konsekwencji otrzymujemy nowy czynnik normujący

-

- (Na +1)(Nz + 1)

(+

75675)

(NA + 2)(N3 +2)/'

który asymptotycznie nie różni się od pierwotnego. Dostarcza on nowego wyrażenia dla nadziei liczby cząstek

551

552

9. Stopień racjonałnego zaufania

(N+ 1) = (N, + D(Ns +1)

MAJ

Ne

1 +



t

l



(NĄ + 2)(N5 + 2) 1 „zdrowego” matematycznie dla wariancji

(I = (PA) — (PB))

VIN]I=(N)

|

Przykład 9.3.6 Estymacja stałej Natury Wróćmy do przykładu 2.6.8 i rozważmy wpływ, jaki hipotetyczny rozkład (2.28) stałych Natury wywiera na wyniki uzyskiwane przez eksperymentatorów. ważmy pomiar x;, jeden spośród n, opisany modelem rozkładu Gaussa N

(x,10,

Oi,

Ww)

l

= 4)

gdzie

© jest poszukiwaną

wartością

wszystkich takich pomiarów wynosi L (x|8,0, W

x

21

0;

(

(x; —

P

i=1

Roz-

|

207

stałej Natury.

-mp|-57

Funkcja

|

wiarogodności

dla

57 — 6) )Fzszz 0;

Ponieważ znamy postać (2.28) prawdopodobieństwa zaczątkowego

z(8|W) x 4

(9.47)

możemy obliczyć prawdopodobieństwo wynikowe

vółe.0.W) a gap (-z7 0). —_PpYŻ

i==]

i

Wartość modalną możemy łatwo znałeźć, jeśli z prawdopodobieństwa wynikowego wyciągniemy logarytm, który różniczkowany względem parametru 6 dostarcza równania

a tł 41 — Inw(ó|x,o, W) = -5 +27 00

Po przekształceniu, uzyskujemy równanie kwadratowe

BY

pO

t1=0.

zz] 0;



o rozwiązaniu Omoda

=

NI

-——

(Pa) (PB)

(X +

/37 407),

9.3. Wnioskowanie probabilistyczne

gdzie

,

Xw

25m2 i=1

=

Oi

5

oraz

ń

i=1 0;

2

I

m

w

zi

—= 2

|

—. o?

Gi

Z dwóch dopuszczalnych rozwiązań wybieramy to ze znakiem „+, ponieważ drugie rozwiązanie opisuje minimum rozkładu wynikowego. W wielkości x, odnajdujemy średnią ważoną pomiarów, a o„ to jej wariancja (podrozdział 4.3). Jak to widzieliśmy już wcześniej, także i w tym przypadku duża liczba pomiarów prowadzi do konwencjonalnego

wyniku

Onoda £ xw. Jednakże

dla kazdej

skończonej

liczby

danych nasz wynik jest, co do wartości, mniejszy niż standardowa Średnia ważona.

Poprawka, jaką ustanawia nasz nowy wynik, wynika z monotonicznie malejącego przebiegu zaczątku, wskazującego na preferencję dla małych wartości stałej. Spójrzmy, jakiej zmiany w ocenianej wartości możemy się spodziewać, je-

Śli zastosujemy nową formułę. Kompendium Review of Particle Properties podaje dla czasów życia mezonu r” następujące cztery wartości (w jednostkach 1077 s): 8,97 + 0,28, 8,2 + 0,4, 5,6 + 0,6 oraz 9,0 + 0,68 i znajduje ich średnią ważoną: 8,4 + 0,6. Jeśli powtórzymy obliczenia wykonane przez autorów kompendium i zachowamy większą liczbę cyfr znaczących, wtedy dla Średniej otrzymamy

następujący wynik: (8,385 + 0,611) : 107''s. Zastosowanie nowej formuły prowa-

dzi do wartości 8,371 - 107''s. Widzimy, że różnica między dwoma podejściami

stanowi znikomy ułamek niepewności wartości mierzonej, nawet w sytuacji, gdy

dysponujemy jedynie czterema pomiarami. Istotniejszej poprawki moglibyśmy oczekiwać jedynie wtedy, gdy pomiarów jest bardzo mało — jeden lub dwa, a błędy indywidualnych pomiarów stanowią

istotny ułamek wartości mierzonej. Wtedy też powinniśmy być bardziej ostrożni w cytowaniu wartości tej stałej, o ile jesteśmy przekonani o słuszności tezy głoszącej istnienie uniwersalnego prawa określającego rozkład stałych Natury. Gdyby odkrywcy (J. K. Christenson, W. J. Cronin, V. L. Fitch i F. Turlay, Phys. Rev. Letters 13 (1964), 138), łamania symetrii parzystości kombinowanej CP ulegli ta-

kiemu poglądowi, wtedy zamiast wartości (2,0-E0,4) : 107” dla stosunku rozpadów mezonu K; na dwa piony do wszystkich kanałów rozpadu podaliby raczej wartość (1,9 + 0,4) : 107. Zauważmy jednak, że wynikowy rozkład w(60|x, o, W), z uwagi na osobliwość

w zerze, nie jest normowalny, tym samym nie możemy określić wariancji i nadziei

parametru 0, jeśli arbitralnie nie ograniczymy jego zakresu zmienności.

7

Przykład 9.3.7 Odplatanie wg Bayesa Dotychczas zajmowaliśmy się odzyskiwaniem parametrów rozkładu. Teraz wykorzystamy twierdzenie Bayesa do odzyskania całego rozkładu z danych doświad-

czalnych. Abyśmy byli bardziej konkretni w naszych rozważaniach, rozpatrzymy jednowymiarowy, teoretyczny rozkład z,(x|W) argumentu x. Może to być np. rozkład kątowy w reakcji nukleonów. niskiej energii z jądrem. Dobrego opisu takiej

554

9, Stopień racjonalnego zaufania

reakcji, przy energiach do kilkunastu MeV, dostarcza tzw. model optyczny. Z mo-

delu tego można wyprowadzić wyrażenie na różniczkowy przekrój czynny, czyli właśnie rozkład kątowy. Rozkład z,(x|W)

(indeks t ma właśnie oznaczać „teore-

tyczny”) jest przykładem zaczątku wyprowadzonego z posiadanej wiedzy. Podob-

nie, dysponując dodatkową wiedzą o detektorach użytych w eksperymencie, ich własnościach i zastosowanych procedurach, możemy pokusić się o ustanowienie zaczątkowego rozkładu zą4(y|W) danych, jakie uzyskamy w tymże eksperymencie.

Z formuły (9.30) pełnego prawdopodobieństwa wynika, że obie wielkości po-

łączone są ze sobą równaniem Fredholma (gdy znany jest zaczątek za stojący po lewej stronie równości, a poszukiwany jest zaczątek z,): 00

OW) = | role WzlslW)dz. gdzie funkcja r(y|x, W) zdolności rozdzielczej eksperymentu, odpowiedzialna za wędrówkę przypadków z przedziału Ax do przedziału Ay, odgrywa rolę funkcji wiarogodności i spełnia warunek unormowania je

| rot Wydy=l1 dla każdej

wartości parametru x. Warunek te wyraża zasadę zachowania liczby

przypadków: wszystkie, które znajdują się w obszarze Ax wokół punktu x, musimy odnaleźć w pełnym spektrum wartości y. Najprostszy sposób rozwiązania równania Fredholma polega na przekształcenia go do wersji dyskretnej i przekształcenia go w układ n równań na n niewiadomych gdzie:

P, = RP, P; = (P;(Q7),..., Pa(yn)) to zestaw oczekiwanych doświadczalnych czę-

stości rejestracji przypadków w przedziałach histogramu zmiennej doświadczalnej y, P, =

(P,(x,),..., P,(x,)) to zestaw poszukiwanych częstości w przedziałach

zmiennej x, natomiast macierz R to kwadratowa macierz wymiaru n x n elemen-

tów R(y,|x;) opisujących migrację przypadków. Rozwiązanie otrzymuje się metodą

algebraiczną, odwracając macierz R (patrz podrozdział 2.7). W podejściu bayesowskim (Ali Mohamad-Djafari, Bayesian Inference for Inverse Problems, http://arXiv.org/abs/physics/01 10093) wysiłek związany z rozwiązaniem równania Fredholma skierowany jest na wyprowadzenie rozkładu wynikowego w(x|y, W), warunkowanego wynikami eksperymentu:

w(x|y, W) a r(y|x, W)z,(x|W). Zobaczmy, jak to podejście funkcjonuje w prostej sytuacji, gdy mamy dwie, mieszające się między

sobą klasy przypadków.

Niech jako model posłuży problem

odzyskania ułamka p przypadków sygnału w warunkach pomiaru z zaburzającym tłem. Przyjmijmy, że w eksperymencie wyprodukowana została ogólna liczba n wszystkich przypadków, z których k to przypadki sygnału, a pozostałe są zanie-

czyszczeniem. Wiemy, że modelem dobrze oddającym takie zachowanie jest model rozkładu dwumianowego B(k|n, p, W), przy czym parametr p jest wielkością poszukiwaną. W procesie rejestracji, liczby k oraz n—k przypadków mieszają się mię-

dzy sobą, w wyniku czego znajdujemy pewną liczbę m przypadków sygnału oraz

9,3, Wnioskowanie probabilistyczne

n — m przypadków tła (przyjmiemy, że nasz eksperyment nie gubi przypadków). Zastanówmy się teraz nad modelem, który opisałby owo mieszanie. Przyjmijmy, że każdy z przypadków sygnału może być z pewnym prawdopodobieństwem © zarejestrowany poprawnie jako sygnał oraz z prawdopodobieństwem 1 — a jako tło, podczas gdy każdy z przypadków tła może zostać z prawdopodobieństwem 1 — 8 mylnie zaklasyfikowany jako sygnał oraz poprawnie jako tło z prawdopodobień-

stwem 8. Model ten determinuje związek między nadziejami (m) oraz (n — m) a liczbami wyprodukowanych przypadków sygnału i tła w formie liniowej relacji:

(wm)=hta

51)

=R(,-.).

którą, z uwagi na założenie o braku strat, możemy zastąpić jednym związkiem:

(m) = (a + B — 1)k + (1 — B)n. Tym samym funkcję zdolności rozdzielczej eksperymentu możemy opisać modelem dwumianowym r(m|n, k, W) = B(mln, n(k, a, B), W), gdzie

k

u(k, a, B) = (a + B — DFA

— B).

co prowadzi do rozkładu wynikowego

w(k|m, p, a, B, W) x B(mln, z (k, «, 8), W)B(kln, p, W). W

relacji tej parametr

p pozostaje nieznany,

z(p|W):

dlatego

opiszemy

go zaczątkiem

w(k, p|m, a, B, W) a B(mln, z (k, a, B), W)B(kln, p, W)z)p|W),

skąd już tylko krok do ostatecznego rozkładu: w(k|m, p,a, B, W) 1



Z,

m,a

n

8).

W)

2

Bnin.

(k,

a, B),

W)Btkln,

PD,

W)z(plW),

gdyż wielkość k, niedostępną eksperymentalnie, usuwamy procedurą marginalizacji. Współczynnik normujący wynosi:

1

Z(n, m, a, B), W) = 5, B(mln, r(k, a, B), W) J B(k|n, p, W)z(p|W)dp k=0

_

0

l

"n+1)),.,B(mlin, a(k,a,B), W)

Poziomice rozkładu ukazane są na rysunku 9.3 wraz z krzywą (pogrubioną) nadziei

(p), jako funkcji ułamka y = m/n opisującego obserwowaną frakcję przypadków sygnału oraz linią prostą kropkowaną: p

ko y n a«a+8-1

1-8 a«a+B8-1

555

556

9, Stopień racjonalnego zaufania

1,0 0,9

|

0,8

|

0,7 0,6 a

05 0,4 0,3 0,2 0,1 0,0

j

0,0

I

01

|

0,2

p

0,3

1

I

0,4

i

l

05

,

I

06

.

1

07

1

|

08

1

l

0,9

1

1,0

y=m/n Rys. 9.3. Poziomice rozkładu wynikowego w(p|m,ax, 8, W) na płaszczyźnie (y, p) dla przykładowych wartości n = 100, a = 0,8 oraz 8 = 0,7. Krzywa pogrubiona przedstawia zależność nadziei (p) od obserwowanego ułamka y przypadków sygnału, natomiast prosta kropkowana to rozwiązanie uzyskane z równania Py = RP,

reprezentującą rozwiązanie równania P, = RP,. Główną zaletą podejścia bayesowskiego jest uzyskanie oceny parametru p w sytuacji, w której konwencjonalne podejście doprowadza do niefizycznych rezultatów. Zauważmy, że dla osobliwej

macierzy R, tj. wtedy gdy a = 1 — 8, rozkład wynikowy w(p|m, «, B, W) sprowadza się do zaczątku z(p|W).

T)

Reguła następstw Laplace'a to narzędzie umożliwiające przewidywanie — jego war-

tości potrafimy obliczyć dopiero po wykonaniu eksperymentu, który dostarczył pary liczb n oraz k. Prawdopodobieństwo to należy do szerszej rodziny prawdopodobieństw, które moglibyśmy nazwać profetycznymi (predictive), a które konstruujemy w następujący sposób. Niech modeł zjawiska opisany będzie gęstością f (x|0, W) z nieznanym parametrem 6. Z danych doświadczalnych x, konstruujemy funkcję wiarogodności £ (x|6, W), a z twierdzenia Bayesa 1 z pomocą zaczątku z(8|W) otrzymujemy prawdopodobieństwo wynikowe w(6|x, W). Jeśli wykorzystamy prawo mnożenia prawdopodobieństw (9.21),

9.3. Wnioskowanie probabilistyczne

557

możemy usunąć zależność od parametru 8 OO

sGlx.W)= | fGo, Wywolx, W)do,

(9.48)

a otrzymamy rozkład w pełni określony przez znane wielkości. -—-

Przykład 9.3.8

Prawdopodobieństwo profetyczne — rozkład beta dwumianowy Niech model

zjawiska opisany będzie rozkładem dwumianowym

B(m|n, 6, W),

a zaczątek rozkładem beta (9.44). Zaczątek w takiej formie jest atrakcyjny, gdyż w jakimś sensie podsumowuje naszą dotychczasową wiedzę, prezentując ją w formie jednego, wielkiego eksperymentu, w którym znaleziono a + b — 2 przypadki, z których a — I okazały się sprzyjające. Tak sformułowany problem dostarcza prawdopodobieństwa wynikowego (9.45) także w postaci rozkładu beta, natomiast prawdopodobieństwo profetyczne (9.48) przyjmuje postać P(m|n,k,a,b, W) 1

=

ECO

W)w(6|n, k,a,b, W)do

0 —

1 n!

r(n

+

a

t b)

m!(n — m)! I (k +a)T'(n — k ++b)

F'(n + 1)

gmtera—l

(1

—_

0)

m+b-1

do

0

T'(n + a +b)

"Tm+DTu-=m+DTk+talrn=k+b) >

(2n —k—m I' (m +k+a )l+b)

Ten+a+b)

Jeśli wprowadzimy oznaczenia

a=a+k,

B=n+b—k,

to rozkład ten zapiszemy w konwencjonalnej formie P(m|n, a, B, W) =

'(n+1)T(a+8) T(m+a)T(n +8 —m) F'(n + a + B)T (a)T (8) T' (m + 1)T' (n—m +1)

przy czym m = 0, 1,2,...,n,

i określamy go mianem rozkładu beta dwumia-

nowego. Dla kompletu podajmy jego własności: € [m]

a =n=—5

Pim]= „Pn ta +8)

(a + B)”(a + 8+1)

W szczególności, jeśli zaczątek wybierzemy jednostajny, czyli dla a = b = 1, skąd « =k+1l, B=n—k+-1, to rozkład profetyczny będzie miał kształt

558

9. Stopień racjonalnego zaufania

P

(m|n

T'(n + 1)T'(n + 2)

)

Tk+DTm-k+DTQOn+2)

,k,W)=

r(m+k+1)T(2n-k-m+1) T(m +1)T'(n— m + 1)

o nadziei

,

m=0,1,2,...,n

kLl n

i wariancji

k+1

Y [m] lm] = 2

20

1-

k+lyn+l1

ró)nta

m

m

=2ne[]ln (1( -£|7])z):

Widzimy, że rozkład ten jest szerszy niż odpowiadający mu rozkład dwumianowy.

Przedstawia to rys. 9.4, porównujący kształt rozkładu beta dwumianowego (punkty)

określonego przez parametry n = 100 oraz k = 25, k = 50 i k =90 z kształtem rozkładu dwumianowego (słupki histogramu), określonego przez odpowiadające

parametrom k wartości parametru 6 równe 0,25, 0,5 oraz 0,9. rozkład dwumianowy (słupki) i beta dwumianowy (punkty), n = 100 0,14 r 012

|-

0,10 |

m=100 k=25 9=025

n=100 k=50 8=0,5

n=100 k=90 8=0,9

0,08 | 0,06 t 0,04 |0,02 |

0,00

0

ookżeoo 10

20

30

40

50

60

70

80

90

Rys. 9.4. Porównanie rozkładu dwumianowego (słupki) i beta dwumianowego n = 100

100

(punkty);

Rozkład beta dwumianowy stanowi interesującą alternatywę dla zwykłego roz-

kładu dwumianowego. Wyposażony jest w więcej parametrów, a więc zapewnia większą elastyczność przy dopasowywaniu do danych doświadczalnych.

Na zakończenie dyskusji elementarnych metod oceny wej teorii zwróćmy przede wszystkim uwagę na to, że taki sam, jaki otrzymalibyśmy, stosując konwencjonalne szej wiarogodności. Maksymalizując prawdopodobieństwo

T)

parametrów rozkładu w nowynik (9.38) jest dokładnie metody, tzn. zasadę najwiękwynikowe P(K|n, N,k, W),

9.3. Wnioskowanie probabilistyczne

559

maksymalizowaliśmy faktycznie wiarogodność H(k|N, K,n, W) pomnożoną przez zaczątek P(K|n, N, W), który przyjęliśmy w postaci (9.36), a więc bez jawnej załeżności od K. Gdyby nasza pierwotna wiedza W dyskryminowała pewne wartości K, a inne

faworyzowała, wynik naszego rozważania byłby różny od wyniku metody największej

wiarogodności. To zachowanie stwierdziliśmy także w wyniku (9.46), uzyskanym z maksymalizacji prawdopodobieństwa wynikowego (9.45) z zastosowaniem nieinformatywnego prawdopodobieństwa zaczątkowego (9.43). Jest to generalna cecha wnioskowania z użyciem twierdzenia Bayesa. Metody konwencjonalne to szczególny przypadek metody bayesowskiej stosowanej w sytuacji, gdy jesteśmy kompletnymi ignorantami. Wszelka dodatkowa informacja, np. z poprzedniego eksperymentu, pozwala nam uściślić wiedzę o przedmiocie, a twierdzenie Bayesa dostarcza naturalnego narzędzia do integrowania

tej wiedzy i wysnuwania ostatecznych wniosków.

I jeszcze słowo na temat własności ocen parametrów uzyskanych z zastosowaniem twierdzenia Bayesa z punktu widzenia klasycznej teorii. Przede wszystkim, estymatory bayesowskie są zgodne i asymptotycznie spełniają te same warunki co estymatory naj-

większej wiarogodności, a więc są: najefektywniejsze, mają rozkład normalny, a także są

funkcjami dostatecznych estymatorów i to niezależnie od wybranego prawdopodobień-

stwa zaczątkowego. Wynika to z faktu, że w wyrażeniu na logarytm prawdopodobieństwa wynikowego In w(0|D, W) = InL (Do, W) + Inz(0|W) + const,

pierwszy wyraz jest efektywnie n-krotnie większy niż drugi, który tym samym staje się asymptotycznie nieistotny dla dużej próby.

9.3.4. Weryfikacja hipotez z twierdzenia Bayesa Problem oceny parametrów dyskutowany w poprzednim podrozdziale prowadzony był

przy założeniu słuszności danego rozkładu. Często spotykamy znacznie poważniejsze za-

gadnienie, dotyczące oceny trafności analizowanego modelu. Jeśli model jest kwestionowany, to musi on być ulepszony bądź zastąpiony zupełnie nowym i musimy być w stanie dokonać ilościowej oceny funkcjonowania każdego z nich. Niekiedy dysponujemy kilkoma konkurującymi modelami i wskazane byłoby posiadanie narzędzia pozwalającego dokonać sądu i doprowadzić do rozstrzygnięcia. Przyjmijmy wobec tego, że do wyjaśnienia pewnego zjawiska opisywanego przez

informację D uzyskaną na drodze doświadczalnej pretenduje n różnych modeli, o których

założymy, że wykluczają się wzajemnie i wyczerpują wszystkie możliwości. To ostatnie założenie, o wyczerpywaniu, może wydawać się dość silnym ograniczeniem, jako że nigdy nie możemy przewidzieć, co geniusz jutrzejszego badacza chowa nam w zanadrzu.

Dobrym

przykładem mogą tu być wszystkie dziewiętnastowieczne próby wyjaśnienia

precesji Merkurego, które obracały się w kręgu teorii grawitacji Newtona. Jeśli jednak nie dysponujemy superteorią, to przyjmijmy postawę pozytywną i dokonajmy wyboru tego schematu, który na dzień dzisiejszy najlepiej zdaje sprawę ze stanu rzeczy. Jeśli 1 ten najlepszy model będzie miernie odtwarzał rezultaty eksperymentów, to przynajmniej będziemy mieli wskazówkę, sugerującą potrzebę dalszego wysiłku intelektualnego.

560

9, Stopień racjonalnego zaufania

Niechaj teza M; stanowi: model i jest słuszny. Rozumowanie, odniesione do układu tez M;, identyczne z tym, jakie doprowadziło nas do twierdzenia Bayesa (9.31), prowadzi do następującego, analogicznego rezultatu:

P(M,|W)

P(M,|D A W) = P(D|M,; AW)—

2, P(D|M, AW)P(M,|W)

|

(9.49)

i=l

W wyrażeniu tym, tak jak i w (9.31), mianownik to oczywisty czynnik normalizacyjny.

W

P(M;|W)

wielkości

rozpoznajemy prawdopodobieństwo zaczątkowe dla słuszności

modelu o numerze i, natomiast wielkość P(D|M; AW) zbliżona jest swym sensem do standardowej funkcji wiarogodności, jednakże z pewną różnicą. Otóż w części określa-

jącej warunki tej wielkości występuje założenie o słuszności danego modelu. Z reguły

modele zawierają w swoim sformułowaniu pewne dodatkowe wielkości, a mianowicie rozmaite parametry, których wartości mogą, lecz nie muszą być wyspecyfikowane. Wielkość P(D|M; AW) określa wiarogodność, zbiorczo, dla całego modelu, bez wdawania się w takie szczegóły techniczne i dlatego nazywana jest ona globalną wiarogodnością. Jak mamy postępować w sytuacji, gdy model nie jest do końca Ściśle określony? Przywołajmy na pomoc przykład. Niech będą nam dane wyniki doświadczenia,

w którym mierzono rozkład kątowy cząstek emitowanych z rozpadu A > a+-b. Przypu-

śćmy, że dysponujemy dwoma modelami opisującymi ten rozkład. Pierwszy z nich twierdzi, że rozkład ten powinien być izotropowy, a więc jednostajny w wielkości x = cos%: HOIW)

l = 7.

—l, (x

— u).

i=]

Wykorzystujemy zaczątek Jeffreysa i znajdujemy rozkład wynikowy dla parametru o

nSż

l

w(o|5,,n, W) =

Ż„(S.4/n)o"+! ©P (- 202

):

0)):

(9.76)

0

co też daje nam ostateczną postać rozkładu dla parametru a u(eiś.,n.W) 277

1

(

OWZAWE 3

)

zai

p

nS?

(55: )

0)=>u 20?

— x)52 ) ,

gdzie czynnik normujący wynika z przejścia granicznego

jesz) z. RE 2

_ ) n —— (UL —

o 20 —.

d

U]

Z. rozkładu tego znajdujemy, że najlepsza ocena parametru lokacji dana jest nadzieją (i jednocześnie modą)

u=(u)ED[u]=x+ Ai Wynik ten jest dokładnie taki sam, jak w konwencjonalnej teorii, jednak jakże

różna jest jego interpretacja. W tradycyjnej statystyce matematycznej powiedzielibyśmy, że statystyka ji = X podlega rozkładowi Gaussa -

O |

N (ża 5) =

/n

ąz 0 (

TE

2:

zĄ2

zy).

Wynik ten tłumaczymy na stwierdzenie, że najlepszą oceną parametru ju jest staty-

styka X, a niepewność tej statystyki wynosi o/4/n, co określamy prawdopodobień-

stwem P(u=o//n

z(u|W).

w formie minimalnie informatyw-

nej, a powtarzając rozumowanie, które doprowadziło nas do rozkładu wynikowego w(a|a, o,, W), docieramy do celu naszych rozważań

w(uly,o, W) =

|

/2n

exp (- (U — —)

o

20 2

|

Widzimy, że najlepszą oceną ji poszukiwanej wielkości „ jest poprawiony, o wynik

a kalibracji, pierwotny pomiar x: i = y = x+a, a ocena niepewności tego wyniku

to niepewność o, uzyskana przez dodanie, w kwadratach, niepewności pomiaru o, (błąd statystyczny) i kalibracji o, (błąd systematyczny). Procedurę oceny wpływu czynników systematycznych na poszukiwaną wiel-

kość ji metodą pomiaru x, o nadziei j4,, który następnie korygowany jest do wartości y o nadziei u, możemy

łatwo formalnie uogólnić na przypadek, gdy takich

czynników mamy n, a każdy z nich jest opisany wielkością a,. Chwilowo przyjmiemy ograniczające założenie, że oceny tych wielkości mają charakter czysto do-

świadczalny — są wynikiem specjałnego pomiaru, np. efektywności detektora lub parametru skali w kalibracji kalorymetru. Założenie to oznacza, że dysponujemy,

9.4. Prawdopodobieństwo bezpośrednie

wywiedzionym z wcześniejszego pomiaru a = (a;,...,a,), łącznym zaczątkiem z(a|a, W) wszystkich parametrów « = (a,,...,,). O wielkości a przyjmiemy,

że stanowi ona nadzieję (a) = a rozkładu z(a|a, W), a komplet znanych wielko-

Ści V [%,, x,] dostarcza macierzy kowariancji tego rozkładu. Rozporządzamy także

funkcją wiarogodności £ (x|u,, W) „surowego” pomiaru x, o którym założymy, że

jest równy nadziei: (j4,) = x, a niepewność o, zadaje dyspersję rozkładu wielkości ii,. Jeśli wyliczenie to uzupełnimy o zaczątek z(j4,|W), to wszystkie jego elementy możemy złożyć w całość i uzyskujemyć łączny rozkład wynikowy poszukiwanego

parametru j4, oraz układu wszystkich nieznanych czynników a, opisujących wpływ efektów systematycznych

l

w(u,,a|x,a, W) = zł (x|u,, W)z(ala, W)z(u.|W),

(9.84)

gdzie czynnik 1/Z dostarcza unormowania. Zauważmy, że rozkład ten ulega fak-

toryzacji na część zależną od j4, oraz część zależną od czynników «, wpływu. Jest to efekt naszego założenia, ukrytego w postaci zaczątku z(u,|W), o niezależności pomiaru zasadniczego, tj. wielkości „,, od pomiaru efektów systematycznych.

Gdy obiektem naszego zainteresowania jest poprawiona wielkość ju, znajdo-

wana wg recepty u = f(u,,a), wtedy w funkcji wiarogodności £ (x|ju,, W) dokonujemy zamiany parametru j4, na je, co też i prowadzi do nowej funkcji

wiarogodności £ (x|u, a, W) = £(x|f"'(u, a), W), a to, z kolei, umożliwia znalezienie łącznego rozkładu wynikowego l

w(u, x|x, a, W) = 77 (alk, w, W)z(a|a, W)z(ula, W), gdzie z(u|a, W) to zaczątek indukowany Rozkład ten, po marginalizacji:

1 w(u|x,a, W) = z | Solna

przez przekształcenie

u

=

f(u,,a).

W)z(a|a, W)z(uja, W)da,...da,,

(9.85)

jest źródłem wszelkiej informacji o wartości wielkości „e 1 jej niepewności.

Wynik analityczny, jak ten dotyczący przesunięcia skali, możemy uzyskać jedynie w najbardziej elementarnych sytuacjach — już nawet przekształcenie skalowania postaci a. = wi, nie poddaje się takiej analizie (o ile nie dobierzemy specjalnych rozkładów). Gdybyśmy potrafili wykonać wszystkie obliczenia do końca, z rozkładu (9.85) znaleźlibyśmy, niechybnie, najlepszą ocenę /4i poszukiwanej wielkości u jako pewną funkcję g(x, a) zmierzonych wartości x oraz a, czego przykład widzieliśmy powyżej, w zagadnieniu pomiaru przy użyciu przyrządu z przesunię-

tym zerem skali. Ponieważ funkcja ta nie jest nam znana, musimy zadowolić się

przybliżeniem 1 = f(x, a), wykorzystującym tę samą funkcję f, jaka łączy wartość „prawdziwą” w z wartościami „prawdziwymi” j4, oraz m. Aby ukazać Czytelnikowi, że postępowanie takie ma swoje uzasadnienie, rozważmy przez moment

przypadek, w którym zaczątek z(j4|W) wybieramy nieinformatywny, a zaczątek

z(a|a, W) nie zależy, jak to jawnie zapisaliśmy, od wielkości a, co w ogólności nie musi być prawdą (choć trudno byłoby sobie wyobrazić sytuację, w której taka

zależność by występowała). Przyjmijmy także, że nasze najlepsze oceny niezna-

nych wielkości to mody rozkładów wynikowych. Jeśli oceną parametru j4, jest moda x, to także najlepszą oceną parametru u = f(u,,a«) jest moda rozkładu w(u,a|x,a, W), a ta wynosi f(x, «), co wynika wprost z własności funkcji wiarogodności £ (x|;4,, W).

597

598

9, Stopień racjonalnego zaufania

Przyjmując przybliżenie £ = f(x,a), znajdziemy przybliżone wyrażenie na

dyspersję wielkości „w. Dokonamy tego, rozwijając w szereg, do wyrazów liniowych włącznie, zależność u = f(u,, x) względem m, oraz a, wokół punktu (x, a):

u= f(u,, a) = f(x,a) + f,(L. — x) + 3 fi (0; — a;), i=l

gdzie przez f, oraz f; oznaczyliśmy pochodne cząstkowe względem m, oraz «;, obliczone w punkcie (x, a). W przybliżeniu tym odzyskujemy naszą pierwotną propozycję: i = (u) = f(x,a). Dalej procedura przebiega jak w klasycznej statystyce matematycznej — konstruujemy różnicę u — (u) Z u — i, podnosimy

do kwadratu i obliczamy nadzieję rozkładu (9.84). W rezultacie otrzymujemy

Y[u] = (f,a0,) + Ż, fi Vla, ax] J;. i,k=l

Relacja ta, zastosowana np. do przekształcenia skalowania u = aji,, prowadzi do rezultatu

V [u] Z a”o) + x*o;,

co jest dość zabawne, gdyż wynik ten nie jest zgodny ze ścisłym obliczeniem

(at, — (a) (1,))?) = (a?) (uż) — (a)? (u)? = ozoż +ożx" +a'o?, które potrafimy wykonać, mimo że nie znamy funkcji g(x, x). Różnica spowodo-

wana jest składnikiem ożjo;, który, w warunkach uzasadniających liniową aprok-

symację związku u = aj,, jest po prostu małą mniejszego rzędu niż wielkość

ox” lub też a*”o*.

Droga, jaką dotarliśmy do wyniku (9.85), pozwala oderwać się od uprasz-

czającego założenia o doświadczalnym charakterze wartości a, wpływu

efektów

systematycznych. Często wielkości te nie pochodzą z bezpośredniego pomiaru,

lecz prezentują sobą założony w obliczeniach model opisu fizycznego zjawiska.

Dodatkowo sytuację może komplikować fakt, że w grę wchodzi parę konkurują-

cych modeli, a każdy z nich zawiera w sobie jeden lub więcej parametrów, przy czym nie wszystkie muszą być jednoznacznie określone. Niektóre z nich mogą

być rezultatem wcześniejszych dopasowań, a inne pozostawać nawet niezdefiniowane. Przypomnijmy, że problem oceny błędów systematycznych w takiej sytuacji

jest zadaniem, którego nie można rozwiązać w ramach klasycznej statystyki matematycznej. Ta nie może nam służyć pomocą dopóty, dopóki nie przeprowadzimy experimentum crucis i dokonamy wyboru poprawnego modelu. Zobaczmy, jak

„Sprawuje się” w takich warunkach teoria Bayesa.

Przyjmijmy, że dysponujemy liczbą m modeli M, (k = 1,2,...,m), przy czym z każdym z nich skojarzony jest zestaw parametrów a,, (i = 1,2,...,n,). Prowadzi to do układu m konkurencyjnych funkcji wiarogodności £ (x|j4,, My, a,, W)

rezultatu pomiarowego x, uzyskanego przy założeniu słuszności modelu M; wraz

z zestawem jego parametrów e,. Niech każdy z tych modeli realizuje się na poziomie P(M,|W) racjonalnego przekonania, a naszą ufność w słuszność specyficznych wartości właściwych mu parametrów opisuje zaczątek z(a,|M;, a,, W), gdzie wiel-

kości a, zadają najlepsze oceny parametrów a,. Wtedy każdy model przyczynia się w wymiarze

9.4. Prawdopodobieństwo bezpośrednie

w(x,

My,

a;|X,

a,

599

W) A

L

(x |£Lx,

M, OŁ,

W )z(a,|M;,

dz,

W)P(M,IW)z(iu,

|0t%,

Ww)

do rozkładu wynikowego w(u,|Xx,a;,...,a„, W) |

4"

=Z

3

je

(x|/Lx,

My,

Oy,

W )z(a,|M;,

a,

W)P(M,IW)z(u,

|ot,,

W)

da; |

Ż.. da; n,.

k=l

W ramach kazdego modelu znajdujemy wielkość u = f(i,, 4), reprezentującą poszukiwaną wielkość „w właściwą dla tegoż modelu. Rozwiązując tę równość

względem m, i podstawiając do funkcji wiarogodności, a także modyfikując sto-

sownie pierwotny zaczątek z(u,|a4, W), znajdujemy rozkład w(u|x, I

=

A;,...,

dm,

W)

m

>.

fetlu.

My,

Ok,

W )z(a,|M;,

dz,

W)P(M,|W)z(ula,

W)

da

1

...

dO

n,»

k=l

stanowiący fundamentalne narzędzie oceny wartości i niepewności wielkości ut.

Tr)

9.4.4. Zasada maksymalnej entropii Jak wspomnieliśmy wcześniej, reguły mnożenia i dodawania prawdopodobieństw to jedynie część teorii. Jej praktyczny rozwój wymaga dodatkowego, równie ważnego elementu składowego, jakim jest narzędzie przetwarzające naszą werbalną wiedzę na postać

rozkładu prawdopodobieństwa. Mamy tu na myśli nie tylko kwestię prawdopodobieństw zaczątkowych, ale także tę część twierdzenia Bayesa, w której występuje funkcja wiarogodności. Wielkość ta, w niektórych wyżej przedstawionych przykładach i rozważaniach

pojawiała się nieomalże na zasadzie królików wydobywanych przez iluzjonistę z kapelusza, a przecież pojęciowo nie ma różnicy między nieinformatywnym zaczątkiem z(6|W) dla parametru 6 a modelem Gaussa N (x|t, o, W) dla wyniku pomiaru x, wykorzysty-

wanym w funkcji wiarogodności. W tym drugim mamy tylko więcej informacji wydo-

bytych na zewnątrz z „czeluści” W. W jaki sposób konkretna wiedza o wielkościach

oraz o pozwala nam dojść do takiej a nie innej postaci tego rozkładu? Czy z wielkości

W nie powinniśmy wyłuskać jeszcze innych wskazówek i umieścić je po pionowej kre-

sce w symbolicznym zapisie rozkładu? Do tej pory „transmutację” wiedzy na rozkład potrafiliśmy wykonać w pewnych dość uproszczonych warunkach: wszystkie możliwe sytuacje wydawały się nam na tyle symetryczne, że nie odczuwaliśmy potrzeby wyróż-

niania żadnej z możliwych konfiguracji. Taką metodę postępowania uznaliśmy nawet za godną podniesienia do rangi pryncypialnej i stworzyliśmy dla niej zasadę nieistotności (podrozdział 9.2.4). Wariantem tego postępowania są rozważania podrozdziałów 9.4.2 1 9.4.3, gdzie warunki symetrii skłoniły nas do ustanowienia pewnych równań na funkcje zaczątków. Taki system dochodzenia do rozkładów moglibyśmy nazwać metodą grupy symetrii niezmienniczych transformacji.

600

9. Stopień racjonalnego zaufania

Jak jednak z informacji: typowa wartość wielkości x, która może przyjmować zarówno dodatnie, jak i ujemne wartości, wynosi u, a jej typowy rozrzut wynosi o, mamy utworzyć

rozkład tej wielkości? To, czym tu dysponujemy, to konkretne wartości liczbowe i możemy sobie wyobrazić bardzo wiele różnych rozkładów, które odtworzą zadane wartości, np. rozkład Gaussa, Studenta lub też logistyczny. Rozkłady te narzucają jednak dodatkowe warunki: wszystkie są symetryczne, a to pojęcie nie występuje w sformułowaniu

zagadnienia. Wykorzystując którykolwiek z nich, czynilibyśmy dodatkowe założenie, nie mając do tego stosownej legitymacji. Rozkład, którego poszukujemy, to rozkład, który

spełniałby warunki problemu, a jednocześnie pozostawiał nam maksymalną swobodę, czyli możliwie maksymalną niepewność w odniesieniu do innych elementów, jakie mogą

wchodzić w grę, a których nie wyspecyfikowaliśmy explicite. Rozwiązanie tak postawionego zagadnienia wymaga od nas zbudowania wielkości, która byłaby miarą niepewności, jaką reprezentuje sobą każdy rozkład prawdopodobieństwa. Okazuje się, że taką wielkość można jednoznacznie określić, nakładając na nią kilka (w miarę) prostych, warunków.

Przyjmiemy, że mamy

do czynienia z dyskretnym i skończonym układem praw-

dopodobieństw P;, gdzie indeks i przyjmuje wartości 1, 2,...,n. Miarę niepewności rozkładu P; oznaczymy przez $„(P+, P,..., P„). Opiszemy kilka własności, jakich od

tej wielkości będziemy wymagać. Założymy przede wszystkim, że jest ciągłą funkcją

swych argumentów. Jeśli wszystkie wielkości P;, z wyjątkiem jednej, są równe zeru, wtedy nie mamy żadnej niepewności i przyjmiemy, że

$,(1,0,...,0)=S„(0,1,...,0)=::-=S,(0,0,...,1)=0 W szczególności, jeśli mamy tylko jedną możliwość, to na pewno nie mamy najmniejszej

niepewności 1 dlatego $,(1) = 0. Jeśli mamy układ n Pa Op P, oraz n + 1 prawdopodobieństw P,; takich, że P;, = P; dlai = 1,2,...,n, natomiast P,,, = 0, to

S„(Py, ,..., P,) = S„u(Pi, P.,..., P/,0). Przyjmiemy także, że w warunkach najmniej określonych przez rozkład, tzn. wtedy,

gdy wszystkie prawdopodobieństwa są identyczne, niepewność jest maksymalna:

S(Py, P,...,P)

nn

1 l —..., n

S„(1/n,1/n,...,1/n)

= s(n).

Przypatrzmy się teraz sytuacji, w której mamy dwie tezy określone przez prawdopodobieństwa P;, oraz P> o jednostkowej sumie, lecz tezę drugą możemy rozłożyć na trzy

prostsze, rozłączne tezy o prawdopodobieństwach P>, P>» 1 P>z spełniających warunek P = Pą, + Py + Pa. Od wielkości S$ będziemy wtedy wymagali, aby



S4(Pi, Pą, Pa, Pa3)= $>(Py, P>) + PaS3 (7

Pra Paz

P,' P' P>

Prawdopodobieństwa

P>;/P>,

Pą/P>

1 Py3/ P, to znane nam prawdopodobieństwa

wa-

runkowe, określające szanse każdej z trzech dodatkowych subtez, przy założeniu, że teza druga jest słuszna. Całość możemy odczytać jako niepewność czterech możliwości, która dana jest niepewnością dwóch pierwotnych i trzech dodatkowych, ale te trzy dodatkowe,

9,4. Prawdopodobieństwo bezpośrednie

601

wywodząc się z rozbicia tezy drugiej, przyczyniają się do pełnej niepewności z łącznym

prawdopodobieństwem P>. Ostatni warunek możemy uogólnić w następujący sposób. Niech prawdopodobieństwa

P, odpowiadają pełnemu układowi n wzajemnie wykluczających się tez A;. Niepewność rozkładu P, określona jest przez S„(P,, P;,..., P„). Zamiast jednak podawać prawdo-

podobieństwa P; dla każdej tezy bezpośrednio, możemy zgrupować pierwsze k z nich i podać prawdopodobieństwo nm; = P, + P» + ::: + P, tezy Bi. =A,VAzV:::V 4%, następne m tez zgrupować w tezę B, = Az V Ap V*** V Az 1 Określić dla niej

prawdopodobieństwo r = Pi; + Pra +** * + Pkqm itd., aż dojdziemy do tezy B, okre-

ślającej sumę pewnej liczby pozostałych tez A;, której prawdopodobieństwo wynosi 7T,

i zadane jest sumą prawdopodobieństw tych tez. Dla takiego układu prawdopodobieństw

x; otrzymujemy niepewność S,(7y, Ta, ...,7r,). Następnie określamy prawdopodobień-

stwa warunkowe P,/my, P»/7,..., P,/rr, każdej ztez A;, A>,... „Az, co daje niepewność S+(P+/ru, Pe/ry,..., Pz/q1) z prawdopodobieństwem n;,. Podobny

zbiór prawdopodo-

bieństw warunkowych P,; /712, Pką2/702,. . . , Pkąm/7t2 Uzupełnia wyznaczenie łącznej niepewności S$, o składnik m+S,„(Pkx:/12, Pk+2/T02, .-., Pk+m/7T2) itd. Ostatecznie, niepew-

ność $„(P;, P;,..., P,) możemy wyrazić alternatywnie pod postacią skończonej sumy S„(P4,

Pa, ...,

P,)

=

Ś,(Ty,

02,

21, TTy)

LMS, (>= TT2

+

TY SK

Pa

P,

P

(>:



KIWA z

TT

day



>)

(9.86)

p.

TT

co stanowi ogólne równanie funkcyjne, jakie niepewność $ musi spełniać. Wyliczone powyżej własności i warunki pozwalają jednoznacznie określić postać funkcji niepewności rozkładu:

S„(P,, P,,..., P,) =— )(Pi InP,,

(9.87)

i=l

z dokładnością do ogólnej multiplikatywnej stałej, którą możemy ukryć pod postacią podstawy logarytmu. Wynik (9.87) znany jest pod nazwą twierdzenia Shannona

(C. E Shannon,

A Mathematical Theory

of Communication,

Bell System

Technical

Journal 27 (1948), 379). Dowód tego twierdzenia podajemy w dodatku E.

Wielkość S określona wzorem (9.87), kojarząc się z dobrze znaną z fizyki statystycznej wielkością (5.6), nosi nazwę entropii informacyjnej. Mierzy ona ilość niepewności,

jaka zawarta jest w rozkładzie prawdopodobieństwa P,. ———

|

Przykład 9.4.11 Entropia informacyjna — rozkład geometryczny Znajdziemy entropię rozkładu geometrycznego (5.12)

G (kip, W) = pą*,

q=l-p,

k=0,1,2,....

(9.88)

Jesteśmy tutaj w dość trudnej sytuacji, ponieważ nasza definicja entropii dotyczyła

rozkładów o skończonej liczbie prawdopodobieństw, podczas gdy rozkład geome-

9. Stopień racjonalnego zaufania

tryczny ma nieskończoną liczbę wyrazów.

Dlatego ograniczymy

liczby n + 1 pierwszych członów:

K=0l-n

=qogpmd> —_q*

P(k|p,n, W) = —ga

ten rozkład do

a po wykonaniu wszystkich obliczeń dokonamy przejścia granicznego z liczbą n

do nieskończoności. Dla takiego obciętego rozkładu entropia wynosi n

S(Po, ..., PJ)

l

n

l

=) PnP, = -7 ) q' ln (ze) k=0

k==( 1

n

(9.89)

n

-7 (-u Z) 3 ą' + (Inq) s k=0 k=0

,

Pierwsza suma w tym wyrażeniu sprowadza się do czynnika normującego Z, natomiast drugą sumę znajdujemy po odwołaniu się do zależności

SU ką? = k=0

kę = ązię (20) -« z (7) l-q

l —

(n

+

1)q”

+

nq”*!

(1—g)7

|

co dostarcza nam następującego rezultatu:

Dq" + ną +nq"*! na Sma(Bo.., ) = 3I (-ZmZ +ą 1- (n++ Da" (l-q)

=-h(

p

)-

1 — (m + l)q" + nq”*

04

05

06

l-q'*!

(l-qg)(1 —q7*')

entropia rozkładu geometrycznego

602

000

01

02

03

07

08

09

10

Rys. 9.13. Zależność entropii informacyjnej dla rozkładu geometrycznego w zależności od

wartości parametru p

9.4. Prawdopodobieństwo bezpośrednie

Dokonujemy przejścia granicznego n —

603

oo, uwzględniając fakt, że wyrazy typu

q” jak również nq” w takim przejściu znikają, i otrzymujemy Sn

(Po,

-..,

P„)



S$(p)

n—>00

=

—lnp



l-p In(1 — p).

(9.90)

Rezultat ten przedstawiony jest na rys. 9.13 jako funkcja parametru p roz-

kładu. Widzimy, że entropia jest tym większa (dąży do nieskończoności), im wartość parametru p jest bliższa zera. Przypomnijmy: jeśli parametr ten jest bardzo

mały, rozkład geometryczny charakteryzuje się bardzo wolnym zanikiem, co do pewnego stopnia symułuje sytuację, w której wszystkie prawdopodobieństwa są

sobie równe. Natomiast dla wartości parametru p bliskiej jedności, całe prawdopodobieństwo rozkładu jest praktycznie skupione na pierwszym wyrazie i dlatego entropia, zgodnie z postulowanymi własnościami, dąży do zera. Zauważmy, że wynik (9.90) jest dokładnie taki sam, jaki otrzymalibyśmy, gdybyśmy podstawili postać (9.88) rozkładu do wzoru (9.89) i od razu rozciągnęli

sumowanie do nieskończoności.

7

Zachęceni wynikiem powyższego przykładu, rozszerzymy definicję entropii na nieskończony układ prawdopodobieństw

P;, i = 1,2,...,

S(P,, P»,...) = -)P, In P..

(9.91)

i=l

Twierdzenie Shannona pozwała rozwiązać problem postawiony na wstępie niniejszego podrozdziału: jak określić rozkład prawdopodobieństwa P;, jeśli dysponujemy pewną liczbą informacji o jego specyficznych własnościach. Przyjmijmy, że te specyficzne własności to liczba m znanych nam nadziei j4, zadanych funkcji f4(i)

L=) _MGP,

k=1,2,...,m.

i=l

(9.92)

Optymalny rozkład prawdopodobieństw uzyskamy, jeśli zmaksymalizujemy

entro-

pię (9.91) wzgłędem prawdopodobieństw P;, uwzględniając więzy (9.92). Wymusimy w ten sposób spełnienie warunków określonych przez nadzieje, pozostawiając maksymalną, dopuszczalną swobodę — niepewność rozkładu pozostanie możliwie największa

— względem wszelkich innych możliwych jego elementów. Tak sformułowana procedura

postępowania zwana jest zasadą maksymalnej entropii. W praktyce zasadę wariacyjną maksymalnej entropii rozwiązujemy metodą mnożników Lagrange'a A = (Ay, A»,..., A„), tzn. maksymalizujemy następujące wyrażenie: —

3 i=l

P, In P; —Ag

(> i=l

P,



)-

Ak k=l

(>

Jx(i) P;



w)

=

max(P;,

P>,

Ż..% A0; A),

= i =]

gdzie uwzględniliśmy, za pomocą mnożnika Ag, także warunek unormowania rozkładu P,. Maksymalizowaną wielkość, dła dalszej wygody w obliczeniach, a bez straty ogól-

604

9, Stopień racjonalnego zaufania

ności, możemy także zapisać jako

-—),PilnP, — (49—1)) Pi) Ax) i=l

i=l1

k=l

fi(i)P; = max(P,, Pa,..., Ao, A),

i=l

gdyż dodawanie lub odejmowanie stałych wartości nie zmienia rozwiązania wariacyjnego. Wykonując różniczkowanie względem prawdopodobieństw P;, otrzymujemy

- mP —20-) 4f()=0 k=l

=>

Pi=exp (> - aso) k=l

Mnożnik Ag możemy wyeliminować z warunku unormowania 3

P, = ) exp

(>>

— Zano) k=1

= exp (—Avg) ) exp (i=]

Hana) k=1

= |.

Jeśli wprowadzimy funkcję rozdziału, zwaną w fizyce statystycznej sumą statystyczną

ZA) = ) exp (- >. i=l

k=l

0.

(9.93)

to poszukiwany rozkład otrzymamy jako

P = P(iA, W)= 20)eo(Korzystając z równań więzów (9.92), NS

lk = 2 J()P, = z 2>

ana).

(9.94)

wyeliminować mnożniki Lagrangea A;

Jx(i) exp (-

Haańoj.

co także możemy zapisać jako pochodną logarytmu funkcji rozdziału wzgłędem mnożników 3 Hk =——l|nZzQa 34, nZ(A),

k=1,2,...,m.m

Relacja ta jest dobrze znana w fizyce statystycznej, gdzie występuje pod nazwą przekształcenia Legendre'a. -——

Przykład 9.4.12 Entropia informacyjna — rozkład dyskretny z zadaną nadzieją Przyjmijmy, że wielkość i charakteryzuje się zadaną nadzieją u oraz podlega dyskretnemu rozkładowi prawdopodobieństwa określonemu na zbiorze liczb naturalnych. Jaki jest rozkład wielkości i? Obliczamy najpierw funkcję rozdziału Z (9.93)

Zł) = )expt- Ai) =) esp(-24) -

l

_1-

exp(—A)

| = Tzapc3) 7! 7 T=exp(-3)

9.4. Prawdopodobieństwo bezpośrednie

a z pochodnej jej logarytmu otrzymujemy związek między nadzieją /4 a mnożnikiem Lagrange'a A

—_4 —_4y( PO) _|_, ©xP—Ń)| = maa 70)7 r u (Eo |= 1+ TECH 5 skąd

- 1=exp(-X)

,

exp(—A) = 1 — —. LL Podstawiając do funkcji rozdziału, otrzymujemy Ż=u-—-l,

co daje nam rozkład (9.94) w postaci

|

exp(-Ai) =

Gu, W) ="

TEG

|

l

Ly

ul (! - z) (exp(-X))) = —

-( | =-|1--) u u Uzyskaliśmy dobrze nam znany rozkład geometryczny (5.12). Przypomnijmy, że w podrozdziale 5.2.1 otrzymaliśmy ten rozkład, rozważając prawdopodobieństwo pierwszego sukcesu w kolejnych losowaniach prowadzonych wg schematu

Bernoulliego, wymagającego absolutnej powtarzalności warunków każdego z losowań i ich niezależności. Tym razem żadne z takich obostrzeń nie występuje. Wystarcza jedyna informacja: nadzieja rozkładu dyskretnego, a wtedy najbardziej

ogólnym rozkładem prawdopodobieństwa, jaki spełnia to wymaganie, jest właśnie rozkład geometryczny. Możemy wyprowadzić także inny rozkład wielkości dyskretnej, przebiegającej nieskończony przedział i spełniający warunek zadanej nadziei. Rozważmy

model

czasu zmieniającego się dyskretnie. W każdym z przedziałów czasu może pojawić się pewne zjawisko. Jednostkę czasu wybierzmy na tyle małą, aby w każdym

z odcinków czasowych mogło nastąpić co najwyżej jedno zdarzenie. Niech łączna liczba takich przedziałów będzie n. Jeśli np. n = 3, to możliwe są następujące konfiguracje: 000, 00X, OXO, XOO, OXX, XOX, XXO, XXX, gdzie symbol „o” obrazuje

brak zdarzenia, a symbol „x” jego wystąpienie. Każdą z takich sekwencji nazy-

wać będziemy historią (fizyk zamiast słowa historia użyłby terminu mikrostan). W przypadku przedziału czasowego trwającego n jednostek liczba możliwych historii wynosi N = 2”. Niech każda z możliwych historii ma swoje prawdopodo-

bieństwo p,. Będziemy poszukiwali maksimum entropii informacyjnej dla prawdopodobieństw p;,: N

S(Pr

Das

-::;

PN)

5



p,

ln p,

=

max(p;,

Pa, ...,

DN):

i=l

z dodatkowymi warunkami, które za chwilę sprecyzujemy. Rozłóżmy najpierw wszystkie historie na klasy, w których liczba j zdarzeń jest taka sama. Takich

klas będziemy mieli n + 1. Do pierwszej z nich zaliczymy wszystkie historie,

605

606

9, Stopień racjonalnego zaufania

w których nie było w ogóle zdarzeń (jest tylko jedna taka historia: o0o...o), do

drugiej włączymy wszystkie historie, w których nastąpiło jedno zdarzenie (takich

historii mamy

n: X00...O, OXO...O, OOX...O,

..., 000...x) itd., w końcu ostatnia

klasa będzie się składała także z jednego elementu określonego historią xxx... x. Łatwo

się upewniamy,

że klasa historii z liczbą j zdarzeń występuje tyle razy,

ile wynosi wartość współczynnika Newtona (7). Przyjmijmy również, że wszystkie prawdopodobieństwa p, w klasie o numerze j są identyczne i wynoszą q,, wtedy N

n

WANE:

3 j=0

=>

Gy? GZ

Zdefiniujmy prawdopodobieństwo

p, ln p,

iefklasa j)

Inq;.

P, natrafienia, w dowolnie wybranej sek-

wencji czasowej, historii z liczbą zdarzeń równą j, czyli klasy o numerze j P

n!

|

= ——1,4

jiłm=l"

Definicja taka oznacza, że nie tylko utożsamiamy wszystkie historie z klasy j, ale

także określamy to prawdopodobieństwo jako proporcjonalne do liczby historii,

które wnoszą wkład do danej klasy (w fizyce statystycznej mówimy,

że prawdo-

podobieństwo stanu jest proporcjonalne do liczby mikrostanów realizujących ten stan). Po tych zmianach entropia przyjmuje

S(P,, P,,...,P) = —

postać

Pin ( i: —

Nim zaczniemy poszukiwać rozkładu

p 3)

(9.95)

P,, który maksymalizuje tę entropię,

rozważmy sytuację, w której dyskretny czas jest duży, czyli wtedy gdy n + oo. Do części współczynnika Newtona zależnej od liczby n klas i występującego jako argument funkcji logarytm wykorzystamy rozwinięcie Stirlinga (5.5):

(n-j! n!

|

(n=jmie"i n'e”m

|

|

(n=jrei Mon).

OCENE

co, po podstawieniu do (9.95) daje

pla n (= j'n BD

OPZC

| e”

"(-;)

JY

1

m

)

= -S0Piln(;!P) + nn) YO jP. Ostatni wyraz przedstawia sobą wielkość proporcjonalną do nadziei ju

k= DJP, j=0

rozkładu prawdopodobieństw P, określonego na klasach, a będąc wartością stałą, nie odgrywa żadnej roli w procesie poszukiwania ekstremum i możemy go odrzu-

9,4. Prawdopodobieństwo bezpośrednie

607

cić. Narzucimy teraz na entropię warunek unormowania rozkładu oraz warunek na

nadzieję, co prowadzi do zasady maksymalnej entropii w postaci

S(P, P,,...) =— $. P,ln(j!P,) — (44 —1)) ,P,—A) JP, j=0

j=0

j=0

= max(7Póy, P;,..., Ag, A), gdzie dodatkowo wykonaliśmy

przejście graniczne z liczbą klas do nieskończo-

ności. Po zróżniczkowaniu względem wybranego prawdopodobieństwa P, uzyskujemy równanie: d 3p, Po P,,...) = — In(fi!P,) — Ay — AI =0, i=0,1,2,..., którego rozwiązanie ma postać

P, = | hę

1! | Po narzuceniu warunku unormowania i warunku na nadzieję otrzymujemy rozkład Poissona

P(i|u, W) =

u

|

re. i! Zauważmy, że gdybyśmy w związku (9.95) nie dokonali przybliżeń wynikających z dużej liczby klas, to maksymalizowalibyśmy następujące wyrażenie:

S(P,, P,,..., P

=-X 7h (z ju I p, -08-D))P ADP j=0

j=l

które po zróżniczkowaniu, prowadzi natychmiast do równania

d -_S(P, P,,..., P)=-mP-ln( OP,

!(n — i)! FO n!

)-a-ai=0, i=0,1,...,n,

o rozwiązaniu zadanym przez rozkład dwumianowy n!

B(i|n,p, W) =———--p'd — p) ,

ICEDI

n-i

p=—-. A

n

Aby przybliżyć zasadę maksymalnej entropii, zilustrujmy jej sens następującym rozważaniem. Przypuśćmy, że przeprowadzamy pewien eksperyment, w wyniku którego możemy otrzymać n różnych wielkości x,, gdzie i = 1,2,3,...,n. Jeśli eksperyment

ten powtórzymy N razy, to każda z wartości x, pojawi się m; razy, natomiast liczba możliwych rezultatów (historii, mikrostanów) wyrażonych ciągiem wyników x; będzie wynosiła n*. W zadanym ciągu wyników układ krotności mi, ma, ... , m, możemy otrzymać na tyle sposobów, na ile sposobów możemy uporządkować m; elementów Xx1, mą elementów x» itd. Łączną liczbę 42 sposobów (prawdopodobieństwo termodyna-

608

9. Stopień racjonalnego zaufania

miczne) dla takiego zagadnienia znaleźliśmy już w przykładzie 5.1.5 1 wynosi ona £2 =

N! m;!m!...m,!

Tamże pokazaliśmy, wzór (5.6), że



M;

m,

In2QZ-NYy n 2. —]l1 yn (7). (gy Widzimy teraz, że poszukując maksymalnej wartości entropii, poszukujemy takiego układu rezultatów x;, aby liczba 62 była maksymalna, a tym samym układ ten pojawił się na największą liczbę sposobów. Ekstremum (które w istocie okazuje się wartością maksymalną, czego nie będziemy tu dowodzili) prawdopodobieństwa termodynamicznego, uwzględniające jednocześnie warunek normalizacji i więzów (9.92), dostarcza

wartości częstości P; = m;/N. Nie oznacza to, że rozwiązaliśmy problem i znaleźliśmy

prawdziwe wartości częstości P; — do tego potrzebowalibyśmy więcej informacji, np. liczba m równań więzów musiałaby być o jeden mniejsza od liczby n możliwych wyników pojedynczego eksperymentu. Pustkę spowodowaną brakiem n — m — 1 równań

staramy się jedynie uzupełnić racjonalną zasadą, która podpowiada nam, że powinniśmy

wybrać taki układ krotności m,, który występuje najczęściej.

Można by sądzić, że twierdzenie Shannona (9.91) możemy uogólnić na wielkość x przyjmującą wartości ciągłe -

ste) = — | sGIW)insoiw)dz. gdzie g(x|W) jest poszukiwaną funkcją rozkładu. Niestety, wyrażenie to nie jest niezmiennicze względem zamiany zmiennej x na dowolną inną, związaną z nią funkcyjnie operacją y = f(x). Niedostatek ten oznacza, że entropia informacyjna zależy od wyboru

zmiennej, a to prowadzi, w prostej linii, do niespójnej teorii. Aby nadrobić ten brak, musimy powrócić do dyskretnych prawdopodobieństw i rozważyć operację graniczną, w wyniku której z dyskretnej wielkości i otrzymujemy wielkość ciągłą x. Przykłady takiego postępowania widzieliśmy w punktach 5.5.1 oraz 5.5.4, gdzie poszukiwaliśmy

ciągłej wersji rozkładu dwumianowego,

a także w przykładzie 5.3.6, w którym uzy-

skaliśmy rozkład Erlanga jako ciągłą wersję ujemnego rozkładu dwumianowego. Dla uproszczenia przyjmijmy, że wielkość i przebiega skończony zakres wartości, np. od zera do n. Rozważmy receptę i=h(x,n),

za pomocą której zwiążemy wielkość dyskretną i z wielkością dyskretną x;, która w wyniku przejścia granicznego stanie się wielkością ciągłą x. Prawdopodobieństwo P, przy

takiej zamianie ulega przekształceniu na P,

=

P, Ai

gdzie Ai = 1 oraz Ax

która w granicy n —

=

P(i(x;)|n,

W)

Ah Ax;

AX;

=

g(x;|n,

W)Ax;,

(9.06)

= Xx, — X;, a Wielkość g(x;|n, W) jest poszukiwaną funkcją,

00, i >

oo stanie się funkcją gęstości g(x|W) ciągłej zmiennej x.

9,4. Prawdopodobieństwo bezpośrednie

Gdy wykonujemy

przejście graniczne n —

oo, we wnętrzu dowolnego,

609

skończonego

przedziału Ax pojawia się wzrastająca liczba punktów x,. Jeśli wybierzemy dwie dowolne wartości x oraz x + Ax, to w przedziale tym będziemy mieli liczbę dh Ai =h(x,n) —h(x + Ax,n) = q, A% x

takich punktów. Ich gęstość w(x|W)

możemy

sposób:

w(x|W)=

Ai =)

lim

00

zdefiniować w następujący, naturalny

d /h(x, — lim ( Ś m.

NA Ax

n>o dx

n

(9.97)

Jeśli za przedział Ax wybierzemy Ax; = x;4; — x;, przyjmując tym samym Ai = I, to otrzymujemy asymptotycznie poprawną (dla dużych wartości n) relację l

(9.98)

Ax, * ——--..

nw (x;|W)

Przykład 9.4.13

Przejście od zmiennej dyskretnej do ciągłej Rozważmy prosty przykład. Wybierzmy obcięty rozkład geometryczny

l -

P =

—q"

54, |

I=012...n

i przekształcenie

x i=n—,

T gdzie wielkość T jest ustalona i definiuje wymiar wielkości x,. Nie jesteśmy zobligowani do takiego traktowania parametru 7 i w dalszej części naszych rozważań uwolnimy się od tego ograniczenia, zezwalając na jego zmienność. Zamiana wiel-

kości i na x; prowadzi do rozkładu

P,



= =

l



l-q

q

[zgi

q

i__

l

——

p

(

4

nx,lng| T

e

ilnq

n

) q Ak

z

= g(x;|lq,n, T, WJAx;.

Wykonajmy teraz przejście graniczne, w którym liczby i oraz n są proporcjonalne i dążą jednocześnie do nieskończoności, dzięki czemu x, dąży do ustalonej

wartości x, a maksymalna wartość x, dąży do wielkości 7. Niech jednocześnie

parametr q dąży do jedności, ale w następujący, specjalny sposób:

n Inq



noo,

q>l1

—AT

=>

AT qf%exp (-7): Nn

gdzie wielkość A jest ustałona i ma wymiar dany odwrotnością wymiaru wielkości 7.

610

9, Stopień racjonalnego zaufania

Po podstawieniu do wyrażenia na funkcję g znajdujemy, że

Cz)

l —exp| CZECH

n, T,

w)

=

(

| —exp|

Wykonując przejścia graniczne n wykładniczy AT | exp —) n | —exp|

(



AT(n

)

T

exp(—Ax;).

n

©, i

,

otrzymujemy obcięty rozkład ,



xph)

-—————

n

L

-—————

— exp(-Ax;)

AT (n + -) T

n

————

nio

exp(—AX).

| —exp(-AT) exp(—22)

n

Łatwo znajdujemy postać funkcji w (x|W) dla tego przykładu:

5(x|W) = no lim

(7) n

dx

— n>odx lim (rż) - >: Mn T

która jest po prostu funkcją stałą.

Uwolnijmy się teraz od ograniczenia dla parametru 7 i pozwólmy mu się zmieniać. Uzyskana powyżej graniczna forma ciągłego rozkładu podpowiada nam, że parametr ten powinniśmy odsunąć do nieskończoności. Jak 1 poprzednio założymy,

m

nlnq



T

n,T>oo,

—A

q—1

©»

(

qX00

Konsekwencją tej własności jest

(

AT(n + -) n

Oraz Ah

=

a tym samym

T

Fm

OO,

AT l — exp (-7) n

i A,

Ww

, T,

—A





i

l=exp|-——— n



E(x|A, W) = Aexp(—Ax),

N,F,i>00

dochodzimy

do

rozkładu

wykładniczego

w (x|W) w tym przypadku znika

w(x|W) = lim T—oo

(7) n

=

na pełnej

półosi.

lim A (rż) T->00

dx

Gęstość

= lim (7) T—00

T

punktów =0.

9,4. Prawdopodobieństwo bezpośrednie

611

Rozkład wykładniczy otrzymaliśmy, definiując liniową zależność między in-

deksem i oraz wielkością x;. Gdybyśmy przyjęli zależność np. kwadratową ł =

X?

"T2

wtedy rezultatem przejść granicznych byłby rozkład, zwany rozkładem Rayleigha, określony na dodatniej półosi, o kształcie funkcji Gaussa (o wartości centralnej równej zeru) pomnożonym przez zmienną niezależną (rozkład ten opisuje rozkład

długości wektora prędkości w dwuwymiarowym rozkładzie Maxwella). Dobierając bardziej skomplikowane prototypy wiełkości ciągłej x, uzyskiwalibyśmy inne, bardziej złożone typy rozkładów.

T)

Podstawiając wyniki (9.96) oraz (9.98) do wyrazenia (9.87) na entropię dyskretnego rozkładu, znajdujemy

SB) = - | PnP 2-3 glin. W) ( i=l

i=l

Sn A |

seiWh

(Zaw)

g(x|W)

Sm = |

sein

(ŻE)

—_T = |

sewn(=C)

8 (Xi |n, m)

Ax,

nw (x,|W)

dx

s(x|W)

* +

s(xlW)

dx + Inn.

am

f

| seiwWa

—00

Jak widzimy, w wyniku przejścia granicznego entropia uzupełniona jest formalnie nieskończoną stałą. Jeśli tę stałą opuścimy, możemy zaproponować następującą postać en-

tropii informacyjnej dla rozkładu ciągłego:

wi) d sg =- | saiWn( —--. | dx. w (x|W)

—00

Granice całkowania zaznaczyliśmy symbolicznie. Wynikają one jednoznacznie z proce-

dury przejścia granicznego. Fundamentalną własnością tej postaci jest jej niezmienniczy charakter przy przekształceniu wielkości x, a to z uwagi na występowanie w niej funkcji gęstości punktów o(x|W), która przy takiej zamianie przekształca się, na mocy

konstrukcji (9.97), dokładnie według tego samego prawa, które obowiązuje dla funkcji rozkładu g(x|W).

612

9, Stopień racjonalnego zaufania

Możemy teraz dokonać stosownych uogólnień w (9.93) oraz (9.94). Jeśli wprowa-

dzimy nadzieje Hy, k =1,2,...,m, funkcji f,(x) rozkładu g(x|W) u =

|

fodgW)dx,

k=1,2,...,m,

to dla funkcji rozdziału Z (9.93) otrzymamy

ZQ) = J w (x|W) exp (- ao) oo

dx

k=|

a poszukiwaną funkcją rozkładu g będzie

sA, W) = ww) 20) o(-Żaia). Prawa strona powyższego związku wyrażona jest przez mnożniki Lagrange'a, ałe możemy je wyeliminować, rozwiązując układ równań lh =

0

TWA

k=1,2,...,m.

W przykładzie 9.4.13 widzieliśmy, że gęstość w (x|W), będąc wielkością dość intucyjną, jeśli otrzymujemy ją w procesie przejścia granicznego, jest w istocie obiektem nie tak prostym. W szczególności, dla rozkładu określonego na nieskończonym przedziale, przyjęła ona wartość równą zeru, co stawia pod znakiem zapytania znaczenie wyrażenia na entropię informacyjną. By bliżej zrozumieć tę trudność, rozważmy rozkład g(x|W) wielkości x, o której nie mamy

żadnych wstępnych informacji, nawet w postaci dys-

kretnego modelu, nad którym moglibyśmy wykonać przejście graniczne. Wiemy jedynie to, że jest ona zawarta między dwiema zadanymi wielkościami a oraz b. Otrzymujemy wtedy natychmiast, że

gtdlW) = PE J w(x|W)dx

Tak więc gęstość w(x|W), z dokładnością do stałego współczynnika, jest zacząt-

kiem opisującym naszą wstępną niewiedzę. Tym samym wróciliśmy, niczym bumerang,

do punktu wyjścia. Wyruszyliśmy na poszukiwanie prostej i zwięzłej zasady, która dostarczyłaby nam, także w odniesieniu do wielkości ciągłej, recepty na konstrukcję stopnia racjonalnego zaufania, a znaleźliśmy dość specyficzny obiekt — tzw. lewą miarę Haara w(x|W) — o którym niewiele, z wyjątkiem szczególnych sytuacji, potrafimy powiedzieć. Dopóki trudność ta nie zostanie rozwiązana, dopóty metoda maksymalnej entropii w odniesieniu do zmiennej ciągłej pozostanie jedynie generalną wskazówką przy poszukiwaniu prawdopodobieństwa bezpośredniego.

9.4, Prawdopodobieństwo bezpośrednie

——

Przykład 9.4.14

Rozkład Gaussa z zasady entropii Niech wielkości j4, zadają pierwszy i drugi moment rozkładu g(x|W) określonego na nieskończonym przedziale —00 < x < 0

u= | xsGlwyaz.

us = | 2gGW)az.

to znaczy funkcje f,(x) definiujemy przez f,(x) = x*. W naszych rozważaniach przyjmiemy, arbitralnie, że miara w (x|W) jest wielkością stałą i od razu położymy ją równą jedności. Funkcja rozdziału Z(A;, A) zadana jest przez 00

fm

Z(Ay, A>) = | exp(—A;x — Aax”) dx =

A

R exp (zz).

—00

Znajdziemy związek między nadziejami a mnożnikami Lagrange'a:

Inn Z(A,, , 22A2)

in (zWAX

7) CTH

= In

o u=-—

(2

2

lnu

(2

p—

lina, + 21—, 2007 4Ą;

zINn

/1 l A A |-nn-->lnly+—- | =——

3a,

29%,o

2l mx

=—IMNT—

4A,

Li A 207





+

n

ZA,

M 440) 2h —n—

|

ma

+

42M

—.

Ze związków tych otrzymujemy wyrażenia na mnożniki: Ay

|

=



L M — U?

=

iL o?

— —

A+

,

l 2(4—Hu)

=

=

l 20?

O

,

ZIĄ—W,

a w konsekwencji również funkcję gęstości AT

N

(xl, O,

W)

=

=

=

zw(-

„/2r0o 2

1

V2RG

Zano)

ex CX

u

———

P

b

20*

(

(x —

————

2o?

|; Y"—

Zz

—A



2”

)

na

©Xp

Ę

— A1X

— AX )

|?

—— AK

Żo?

.

Otrzymaliśmy rozkład normalny. To, co najbardziej zaskakuje w tym wyniku, to sformułowanie warunków niezbędnych do uzyskania tego rozkładu. W tradycyjnej teorii rozkład ten wiązany jest zawsze, w mniejszym lub większym stopniu, z centralnym twierdzeniem granicznym. Po to, byśmy mogli odwołać się do rozkładu normalnego, musimy, za każdym razem, szukać uzasadnienia w postaci dużej liczby losowych efektów zaburzających rezultat pomiaru. W praktyce oznacza to

613

614

9, Stopień racjonalnego zaufania

z reguły konstruowanie fizycznego modelu pomiaru i odwoływanie się do mechanizmów wprowadzających niekontrolowane fluktuacje, jak to uczyniliśmy w pod-

rozdziale 5.5.1, budując model Laplace'a małych błędów. Jeśli takiego obrazu pomiaru nie udaje się nam stworzyć, odczuwamy głęboki niepokój, że popełniamy

poważny błąd, który usuwa nam grunt spod nóg i stawia pod znakiem zapytania

całokształt naszych rozważań. W nowej teorii rozkład ten możemy zawsze zastosować w sytuacji, gdy dana jest nam wiedza o typowej wartości wielkości x i jej dyspersji. To wystarczy.

r

9.4.5. Metoda najmniejszych kwadratów Zajmiemy się teraz zastosowaniem dotychczas uzyskanych rezultatów do jednego z najbardziej typowych zagadnień, jakie spotykamy w praktyce: do zagadnienia dopasowania funkcji do danych doświadczalnych. Problem ten jest na tyle obszerny, że zapewne zasługiwałby na wyodrębnienie w oddzielnym rozdziale. Z, drugiej strony, stanowi ilustrację metod współczesnej teorii prawdopodobieństwa, dlatego rozpatrzymy go w tym miejscu, na zakończenie tej części naszych rozważań nad metodą bayesowską, traktując go jako

jeden wielki przykład.

W naszej analizie ograniczymy się do zagadnienia liniowego w nieznanych parametrach 6;, i = 1,2,...,m, tzn. przyjmiemy, że mierzymy n wielkości y;, określonych za

pomocą związku

6,91(X) + 629200) + *** + OnQPm(X),

(9.99)

przy n wartościach wielkości x;, gdzie Q;(x) są zadanymi, liniowo niezależnymi funk-

cjami. Dane y; są zakłócone przez zmienny komponent, „nieregularność, którą określimy symbolem e;,, a której nie potrafimy kontrolować. Przyczyna zaburzenia może nie być nam znana, a jeśli jest znana, to nie dysponujemy żadnymi danymi, które pozwoliłyby nam przewidzieć jego efekt. Zaburzenia tego nie powinniśmy mylić z kwestią losowego charakteru pomiaru. Szum, jaki zniekształca wynik pomiaru, ma dobrze okreŚloną, fizyczną przyczynę. Gdybyśmy tę przyczynę znali i potrafili ją ująć w równania, posiedlibyśmy pewną dodatkową wiedzę o badanym zjawisku, a to pomogłoby nam uściślić nasze wnioskowanie i zawęzić charakter końcowej niepewności. Przyjmiemy

też, że znane są nam

wielkości, które w konwencjonalnej

teorii na-

zywamy błędami wielkości y,. W podejściu bayesowskim wielkości te odnoszą się do zaburzeń i podają dyspersję. Ponieważ określona jest także wartość pomiaru, więc to wystarcza, na mocy przykładu 9.4.14, do stwierdzenia, że wielkości e; ej = y; — 6191(%;) — hP-2(Xx;) — :*: —

OnQn(ti),

podlegają rozkładowi Gaussa. Jeśli uogólnimy problem, wprowadzając korelacje między

zakłóceniami poszczególnych pomiarów, określone przez macierz V, to funkcja wiarogodności naszego problemu będzie zadana przez

LGl6,x,V, W) =

1 (/2n)"x/det V

PB (

-5 0 — 807V- ty — 00) )

(9.100)

9,4, Prawdopodobieństwo bezpośrednie

615

gdzie pozostałe oznaczenia zachowaliśmy z podrozdziału 7.3. Aby „przetworzyć” funkcję wiarogodności na prawdopodobieństwa wynikowe parametrów 6;, zastosujemy twierdzenie Bayesa, do którego potrzebujemy zaczątków parametrów. Te przyjmiemy jako

wzajemnie niezależne i nadamy im postać minimalnie informatywną, właściwą dla pa-

rametrów lokacji, czego uzasadnienie znajdzie Czytelnik parę linijek niżej: z(8,| W) = const,

i = ],2,...,m.

(9.101)

Otrzymujemy w ten sposób funkcję rozkładu wynikowego

l

w(6|y, x, V, W) x exp (-; (y — 66) V"! (y — 00)

(9.102)

Funkcja ta, jak należało oczekiwać, zadana jest rozkładem Gaussa. Zobaczymy to wyNajpierw wykładnik (bez współczynnika 5 i znaku „—”) rozwiniemy

R=(y-©96)'V'y-$0)=y'V'y-y'V'96-09'V'y+0'6'V '$6, a następnie wprowadzimy kwadratową, symetryczną macierz wymiaru m X m:

W'=$'V'$,

(9.103)

co pozwala zapisać wyrażenie na i

R=y'V'y—y'VIpWW"'8 -86W'WE'V

'y+6'W'6

=ylVviy—ylwrw”'9 —6W'Wwy+60W"!6, które jednocześnie wprowadza macierz

v=weg'v-.. Obie macierze W oraz W są tak samo zdefiniowane jak w podrozdziale 7.3. Zwiniemy następnie formę kwadratową R

R =(6 — Wy)” W” (6 — Wy) + y'V"'y — y”WoW”"Wy,

a po podstawieniu definicji macierzy W do ostatniego wyrazu, znajdujemy

R =(6-Wwy)' W” (6 — Wy) +y' Ry,

(9.104) |

gdzie wprowadziliśmy jeszcze jedną macierz:

A=V"'(V-ów$"')Vv"'. Konsekwencją tych manipulacji jest przekształcenie gęstości wynikowej (9.102) do

postaci (składnik z macierzą SŁ upraszcza się z powodu unormowania):

w(óly,x,V,W) =

1 exp (-; (6 — Wy) W"! (6 — vy) . (/2n)"A/det W

(9.105)

Widzimy, że najlepszej oceny poszukiwanych parametrów dostarcza nam nadzieja

(i jednocześnie wielowymiarowa moda) tego rozkładu dmoda =

(6)

=

Wy,

|

(9.106)

Ak

jedynych, które mogliśmy ustanowić, gdyż rozważamy bardzo ogólny model. W konkretnych przypadkach możemy dysponować pewną dodatkową wiedzą, która może zawęzić

klasę gęstości zaczątkowych. Jeśli np. zajmujemy się pomiarem przekroju czynnego o

na oddziaływanie neutrin niskich energii E (nie więcej niż kilka gigaelektronowoltów w układzie laboratoryjnym) z nukleonami, to przekrój ten możemy określić związkiem o =0E, a o parametrze O wiemy, że jest on dodatni. Ogranicza to jego gęstość zaczątkową do wartości większych od zera, co prowadzi do modyfikacji gęstości wynikowej (9.105) i pociąga za sobą uściślenie jego najlepszej wartości i zawężenie obszaru wiarogodności. Istotnie, rozważmy przykład zależności y = 6x, który dla zaczątku (9.101)

prowadzi do funkcji rozkładu wynikowego (9.105)

1 (8 — 065)? ao exp (-—-)

w(6|6g, o, W) = gdzie

natomiast wielkości o, określają dyspersje czynnika zaburzającego dla każdego z n pomiarów. Przypuśćmy, że w wyniku dopasowania otrzymaliśmy 6, = 1,0 oraz o = 0,7. Przedział wiarogodności odpowiadający 95% prawdopodobieństwa określony jest przez krańcowe wartości —0,372 oraz 2,372, a więc o całkowitej szerokości 2,744. Zwróćmy uwagę, że rozciąga się on na wartości ujemne. Narzucimy teraz warunek na parametr 0, wymagając, aby był dodatni. W ten sposób nasz mały przykład staje się jednocześnie ilustracją ogólnych metod bayesowskich stosowanych w przypadkach, gdy parametr, będący przedmiotem zainteresowania, podlega fizycznym ograniczeniom. Wynikowa funkcja gęstości przyjmie wtedy postać

w(0|0%, o, W) 0

„O,

z

ZĄ/2nO

a LĘ

P

(

6 —

——-——.

20?

)

6>0

|)

ZU,

(9.107) .

gdzie czynnik normujący Z wynosi Z =

1

f

—0)?

|ee(-—2210 20?

do.

0 Tym razem przedział wiarogodności odpowiadający 95% prawdopodobieństwa rozciąga

się od zera do wartości około 2,2, a więc jest krótszy. Oczywiście, wpływ obcięcia staje tym mniej istotny, im wielkość o jest mniejsza w stosunku do wartości centralnej 05.

A 21 ENNY EDP

Wyniki tu otrzymane są dokładnie takie same jak w podrozdziale 7.3, co nie powinno nas dziwić, gdyż są konsekwencją przyjętych przez nas gęstości zaczątkowych (9.101),

PNW

a łączny obszar wiarogodnych wartości tych parametrów określony jest macierzą W (9.103). Rozkład prawdopodobieństwa dla dowolnego z parametrów otrzymamy metodą marginalizacji, co także prowadzi do rozkładu Gaussa z wariancją określoną przez odpowiadający temu parametrowi wyraz stojący na diagonali macierzy W (patrz (5.75)).

so wia meentnaii mh mame Am Nm

aaa m m admi

maa

9. Stopień racjonalnego zaufania

EZEOE O Z PRZE NNOZER EE

616

9.4. Prawdopodobieństwo bezpośrednie

I tak, dla o = 0,3 czynnik normujący Podobny efekt dyspozycji bardziej

617

obcięcie przestaje już mieć nieomal jakiekolwiek znaczenie, gdyż Z jest wtedy praktycznie równy jedności. poprawy precyzji wnioskowania uzyskalibyśmy, gdybyśmy mieli do konkretną wiedzę na temat nieregularnych czynników e;.

r-—— Przykład 9.4.15 Masa antyneutrina — przedział wiarogodności Zastosujmy powyższy mechanizm ograniczania prawdopodobieństwem

zaczątko-

wym rozkładu poszukiwanego parametru do fizycznego obszaru w ocenie masy antyneutrina elektronowego, który to problem dyskutowaliśmy wcześniej w przykła-

dzie 2.7.2 oraz podrozdziale 7.4.5. Zakładając model rozkładu Gaussa dła pomiaru

nieznanej wielkości = m;, jej wynikowa funkcja gęstości prawdopodobieństwa jest dokładnie taka sama jak ta we wzorze (9.107): l w(m;|6,,0, W) =-———ex

j

gdzie 6, = —54 eV”,

Zy/2no

h

(m) — 85)” (-F-

,

żo?

> m,>0,

o = 30 eV”. Pełny rozkład oraz jego część ograniczona do

dodatnich wartości kwadratu masy antyneutrina, unormowany do jedności w tym obszarze, przedstawione są na wykresie 9.14. Z rozkładu tego znajdujemy dziewięćdziesięcioprocentowy przedział wiarogodności 0 < m; < 26,6 eV” dla kwadratu masy antyneutrina (przypomnijmy rezultat konwencjonalnej statystyki z podrozdziału 7.4.5: 0 < m? < 13,5 eV”). Jeśli przejdziemy od kwadratu masy do samej masy, przedział wiarogodności na tym samym poziomie zawiera się między

zerem a 5,2 eV.

Powyższe

obliczenia oparliśmy na zaczątku, który traktowany jako funkcja

kwadratowa masy jest stały. Postępowanie to nie ma uzasadnienia w żadnej z dotychczas przedstawionych zasad. Wynika ono tylko i wyłącznie z tradycji, wymu-

szonej, nota bene, prostotą matematyczną, jaka się utarła w odniesieniu do analizy

tego zagadnienia.

0,08 0,06

|

—150

MO

—100

NJ

-50

0

50

Rys. 9.14. Pełny rozkład Gaussa i jego część zawężona do dodatnich wartości ocenianego

parametru

r”

618

9. Stopień racjonalnego zaufania

Rozważmy teraz inną typową sytuację, kiedy macierz kowariancji V określona jest z dokładnością do czynnika skalującego o*

V=OoV,

(9.108)

gdzie macierz V jest znana. Postać (9.100) funkcji wiarogodności dla tego zagadnienia nie ulega zmianie, przekształcimy jedynie jej wykładnik (9.104) do postaci jawnie uwzględniającej czynnik skalujący:

R=

|

m

l

--

1 -

3 (6 — Wy)” V-"' (6 — Wy) + cz) NY = zd.

Macierz W pozostaje bez zmiany, ponieważ w jej definicji nieznany czynnik o ulega uproszczeniu

Wy= (97007!)

Bra ZY-ly = (87610)

GTV-!y,

pozostaje on jednak w macierzy kowariancji W

w= (870-010)

=? GÓR

= ow,

(9.109)

jak również w definicji macierzy Sł

Q=V'(V-6W$')V"'=

W” (Y — owa”) V' = Ś

Poniewaz jednocześnie mamy związek

detV = o”" detV, to dla funkcji wiarogodności otrzymujemy L(yl8,x,V, W) =

(

exp (- (6 — Wy)” W” (6 — Wy) ydy |

2Zn)rorv det V

202

Prowadzi to do gęstości wynikowej, warunkowanej także parametrem o, m l w(ó|o, y,x, V, W) x —exp| o"



(9.110)

(6 — Wy) W”! (6 — Wy) + m 202

Gdyby interesowała nas tylko ocena parametrów 6,, to parametr o w tej gęstości

byłby parametrem naprzykrzającym i moglibyśmy go usunąć procedurą marginalizacji. W niektórych zastosowaniach możemy być jednak zainteresowani jego wartością, dlatego postąpimy w bardziej ogólny sposób i zbudujemy łączną gęstość wynikową zarówno dla 0;, jak i o. Dla gęstości zaczątkowej parametrów 60; zachowamy postać (9.101), natomiast dla wielkości o wybierzemy postać Jeflreysa (9.74): 1

z(o|W)=—,

O

o>0,

9.4. Prawdopodobieństwo bezpośrednie

619

a otrzymamy łączną gęstość wynikową dla wszystkich poszukiwanych wielkości w(

6,

o|y

x

hyV,

4

)

s(-

l



Zg”"+1

8—WyTW-!(0—W p)” W-! (6 — Wy) 202

+y

TQ

)

(9.111)

gdzie Z jest czynnikiem normującym

1

z= |

l

ep

-

Ndo

——y! dy

o"

f

„|ee

20?

_(

o

6 — WyTW-! (6 — W )

202

y)

do.

—00 0 Całkowanie względem parametrów 6, dostarcza czynnika proporcjonalnego do o”

| ox (5 00



Wy)” Tęqyp-1 W-! (6

w



20?

19 — (Zn) m o" kier,z

—00

co prowadzi do całki normującej w postaci (patrz (9.76))

Z = (zz)

Yderw | 0

— (2x)

exp (-z577% 20?

o” m

) do o

Zaw ( yrŚy v/detW.

W związku tym może nas zaniepokoić fakt pierwiastka z wielkości yTRy,o której nie wiemy, czy jest dodatnia. Rozważmy wykładnik funkcji wiarogodności (9.110)

R=(06—Wwy)"W"'(6-Wwy) Hy $y. Jeśli podstawimy do niego rozwiązanie (9.106) konwencjonalnej metody najmniejszych kwadratów, wielkość ta przyjmie najmniejszą możliwą wartość, jaką ta metoda może wymusić na wielkości Ń:

R

h

—.

dihn=y Sy.

(9.112)

Stąd też wnioskujemy, że musi być ona dodatnia. Wyrażenie (9.111) dostarcza jednoczesnej oceny najlepszych (najbardziej prawdopodobnych) wartości parametrów 6; zgodnych z (9.106) oraz wartości wielkości o: ad

g

moda

YTY

+1

_

Śmin

n+1

Jeśli nie interesują nas parametry 6,, możemy je z łącznej funkcji rozkładu (9.111) usunąć, wykonując całkowanie: 00

w(oly,x,V, W) = J w(8,o|y,x, V, W)dó 7%

=



I

Zam (Yin) 07m!

exp

( >) |-——

2a

(9.113)

| -

620

9. Stopień racjonalnego zaufania

NAZWCZTAE

Rozkład ten charakteryzuje się nadzieją

_

=

Zm

(

n-m—l

Śnin

o

'a

(—>7)

2

nm

którą warto porównać z tradycyjnym wynikiem (7.47), jak również z

(o) =

l Znm

(y

— Śnin

J

f

o”

uar

Ńmin

SXP | 755

20?

0

0

do =

Znm+2 Zn_m

( (v



Śri

=

Sin

Mtmin

,

nm

(9.114)

Z. gęstości (9.113) wynika także inna, bo niezależna od parametrów 6;, ocena najbardziej prawdopodobnej wartości czynnika skalującego o Omoda

z



Śtmin

n=m+

1 .

Obu tych wielkości możemy użyć do oceny pełnej macierzy kowariancji (9.108) 1 (9.109).

W filozofii podejścia bayesowskiego zapewne lepsza z nich jest ta zadana przez modę

rozkładu, choć bardziej konwencjonalne rezultaty, jak się przekonamy o tym za chwilę, otrzymamy, stosując asymptotyczne przybliżenie w wyrażeniu na nadzieję (o) lub Ścisły

wynik (9.114) na (o”).

Spójrzmy teraz na postać rozkładu parametrów 0,, który uzyskamy z (9.111), cał-

kując względem czynnika skalującego o 00

w(óly,x,V, W) = | w(e.oly,x.%. W) do

ZMOWA 0

(6 — Wy) W-" (6 — „|

Rozkład ten jest rodzajem rozszerzenia rozkładu Studenta dla przypadku m zmien-

nych. Nadzieja, jak również wielowymiarowa moda tego rozkładu zadana jest tradycyjnym wyrażeniem (9.106), a obszary wiarogodności o zadanym prawdopodobieństwie

określone są hiperelipsoidami w m-wymiarowej przestrzeni. Z rozkładu tego mogą nas interesować dwie wielkości: rozkład pojedynczego, wybranego parametru 0, lub też

rozkład pełnej formy kwadratowej występującej w nawiasie kwadratowym.

Zacznijmy od rozkładu wybranego parametru. Rozkład ten będzie nam łatwiej określić, jeśli powrócimy do wyjściowej postaci (9.111), w której usuniemy, przez całko-

wanie, wszystkie parametry 6; z wyjątkiem wybranego parametru 6;. Wykorzystamy do tego znaną własność (5.75) wielowymiarowego rozkładu normalnego. Własność ta,

9.4. Prawdopodobieństwo bezpośrednie

621

odniesiona do rozkładu (9.111), dostarcza nam rozkładu wybranego parametru

w(6;,o|y,x, V, W)

ŚĘ.. U) —gaa2

p

| »(-

T qy-1

6—w

6-—w

DW

> dó, ... d6;_;d6;,,... dO,

—00

l

=

=

l

exp | -752

1

dj,

— (65)

2



+ Rmin |



gdzie, dla uproszczenia notacji, „wprowadziliśmy nadzieję (9; | z równania (9.106) oraz diagonalny element macierzy W oznaczyliśmy przez w,,. Ten związek, scałkowany

względem o:

OO

w(8;|y, x, V, W) = J w(6;,o|y, x, Vv, W) do

-0) +3 nin

r(ęni)

_—

2



|

— 3 (m—m-+1)

( +

_G- (6, TZ ) |

(n — m)tb,; (0?)

m)

NEC — m)tb,; (02) (

(po ostatnim znaku równości wykorzystaliśmy wyrażenie (9.114) dla nadziei (a*)), po podstawieniu 0, — (9.

= =) W; (0?)(02

—00 < tj < ©,

przechodzi w rozkład Studenta (5.86) o n—m stopniach swobody, jednakowy dla każdego

z parametrów 6,

r (——-) w(t,|n, m, W) =

xG=m)r

(=

p (

+

n-m

—1(n—m+1) )

.

622

9. Stopień racjonalnego zaufania

Zarysujemy teraz sposób na określenie rozkładu formy kwadratowej parametrów 0, z łącznej funkcji rozkładu (9.111), którą przepiszemy tutaj, rozbijając ją na iloczyn dwóch czynników: %

w(8,oly,x, V, W) =

— Źn=m

l

Śnin

exp (-=)

( So)

gnm+l

(V2x)

0

l

l

x

any/det Wą

x

exp (5:

20?



6 —wWwy'w" 0 - wy).

Drugi czynnik w tym wyrażeniu to m-wymiarowy rozkład normalny parametrów 65, o ile byłaby znana nam wielkość o. Oznacza to, że wielkość l



u = —o (6 — Wy) W” (6 — Wy) opisana jest rozkładem (5.77) x* o m stopniach swobody, dlatego łączny rozkład (9.111) możemy zastąpić rozkładem

w(u,oly,x, V, W) —

za (finjooa l 22) rgm

"03

exp (- >)

uż"! exp (->)

„Wyłuskamy” teraz z wielkości u zależność od o, definiując nową, większą od zera zmienną t£: U

=

t”



>

o

du

21

=

—3

o

dt ,

co pozwala zapisać funkcję rozkładu przez w(t,oly,x,V,

W) =

2

Zy_m (VS) (2)

r (im)o"* p exp (-

=

202

Teraz możemy wycałkować względem parametru o: m

w(ily,x,V,W)=2

m (y £2 + Si) (42)

Zn=m (VS)

gm!

5 (żm)

1

=2



I (zn)



r (>m) 2 jA (zn — m)) Y Hmin

(1 + —) min

m—l

(

-

min

)

Dokonamy w końcu podstawienia

2.

= |

ro (02)

(o?)

-

6 — Wy) W-! (6 — Wy).

.

9,4. Prawdopodobieństwo bezpośrednie

623

gdzie W

= (07)W,

jest naszą najlepszą macierzą kowariancji rozkładu parametrów 6,. Podstawienie to doprowadza nas do ostatecznej postaci rozkładu w(T|n,m,W)=2

m

A)

r(z)



(oe)

2

4773

R—M

rea

będącego wariantem rozkładu zwanego rozkładem Hotellinga. Gdy m = 1, otrzymujemy rozkład Studenta o n — 1 stopniach swobody. Właściwy rozkład Hotellinga w klasycznej statystyce występuje pod postacią

w(T;n,m) =2

czy r(g)e(e) (3)

2

1 określony jest dla statystyki

2

(0

T"'(1+

r

-

T>0,

T=(1-1)6-p)"V"'(x- p), gdzie macierz V to macierz estymatorów wariancji (4.5) i kowariancji (4.13). Służy on

do testu istotności łącznego odchylenia średnich x,, Xą,...,X„ hipotetycznego układu wartości oczekiwanych ui, Ma, ..., Lm.

z próbki od pewnego

Jeśli umiemy dopasować zależność teoretyczną do danych doświadczalnych, to na-

stępnym krokiem jest ustalenie, która z konkurujących zależności lepiej opisuje te dane. Dlatego rozważymy teraz problem weryfikacji modeli określonych różnymi zależno-

ściami. Najbardziej elementarny przykład potrzeby takiego rozstrzygnięcia pojawia się przy dopasowaniu wielomianu, kiedy to musimy podjąć decyzję co do jego stopnia. Za-

sadniczo procedura weryfikacji wygląda tu bardzo podobnie do tej, jaką rozpatrywaliśmy w podrozdziale 9.3.4. Z uwagi na techniczne komplikacje, spowodowane nieskończonym

zasięgiem dopuszczalnych, a priori, wartości zarówno parametrów 6;, jak i parametru o,

przeprowadzimy tu powtórnie stosowne obliczenia. Rozważymy przypadek pełnej znajomości macierzy kowariancji V. Funkcja wiarogodności modelu określonego przez m parametrów zadana jest wyrażeniem (9.100), do którego podstawimy przekształcenia (9.104) oraz (9.106):

C(6,x,V,W) =

(vzr)

Gp —— esp (-> (6 — (6) W, (6 — (8) + i) w det V 2 (9.115)

Do wielkości min oraz W dodaliśmy dodatkowy indeks (m), aby zaznaczyć, że pochodzi

ona z modelu zadanego wyrażeniem typu (9.99) i określonego przez m parametrów 6,. Abyśmy mogli znaleźć globalną wiarogodność P(D|M,„ A W) dla tego modelu — teza M(„, głosi: model z liczbą m parametrów jest słuszny — musimy wprowadzić

624

9, Stopień racjonalnego zaufania

gęstości zaczątkowe parametrów i scałkować względem nich. Przyjmiemy, że wszystkie zaczątki są jednorodne zł

6;16;,87, W |

ł

ł

)=

0;



—,

0;

0,

) x

(8 — (8)) W”! (6 — (0) + zw

|) do.

W następnym kroku przekształcimy wykładnik:

—o (6 — (6) W" (6 — (6)) + —07W-'9 5? —

02 +- 52



52

06 )

1

W"l0—-

52

0

g2

W”!

(0

(w ostatnim składniku włączyliśmy czynnik o* do macierzy W, dzięki czemu mogliśmy uniknąć nad jej symbolem znaku tyldy). Całkując względem uprzykrzających parame-

2

9. Stopień racjonalnego zaufania

a7

626

ii

ibn

trów 6;, znajdujemy

dat malima koala ae ke bee

P(DIó, Mm AW) m

(/2r)

7I

o o? + 63

/det V

e xp | ( —z (m o" | Vlmn +F 5 2 o” +6

(6) W"!

o ))

Nh

=

Ponieważ wielkość 6 jest z założenia znacznie większa od czynnika o , dlatego dokonamy

przybliżenia, zaniedbując o* w stosunku do 6”:

PN 5m/det V mp(-1(ar507W 0). 2

g”

P(DIó,

Mn)

A W)

=

(2x)

Musimy teraz zmarginalizować wprowadzony parametr 6. Dokonamy tego za pomocą właściwego zaczątku Jeffreysa (9.75): l

m

P(D,

Ó| Mm)

A

=

W)

n

A (/2r) 5m+1/det V

cXp

(-;

2

2

(Sta

+



6

o

(6)' w”

))

,

gdzie

aby następnie scałkować względem niego

P(D|Mqm, W)

k

=

gm

>

a(/2n) vdetV

exp | —

Ńmin | f 1

|

2

02

— exp | >=

ó”!

26?

(98)

mai „N dó W”

(6) | —.

0

min

Ufając, że nie popełniamy istotnego błędu, przesuniemy granice całkowania do zera oraz nieskończoności:

P(D|M,„, W)

3

m

A (42) /det V o" a(42a

-

:

ap (- min |) J(1— exp (-5 0 w” toy) —d 2

(

+/det V

exp | —

8

26

6

: 2

(42) „r ()ep (- az 2a (/2x) vdetV(418) W-' (6))

|

|

9,4. Prawdopodobieństwo bezpośrednie

627

Teraz już możemy utworzyć stawkę, w której upraszcza się czynnik normalizacyjny A

zaczątku Jefireysa, o ile każdy z modeli ma przynajmniej jeden parametr:

P(D|Mm AW) P(M„IW)

Qm)/tk) F

P(D|M%

A

W)

P(M%|W)

m

_1

2 min) P(MlW)

N—

= (42) GAMOWAE, »p( W ((8)

z

(6)) r () exp (-z%m. 2

2

min

PMW)

gdzie przy macierzach W oraz wielkościach Ytm;, umieściliśmy dodatkowy indeks, wskazujący na związek tych obiektów z określonym modelem. Pierwsze trzy czynniki to współczynnik Ockhama, natomiast stosunek funkcji wykładniczych to stosunek maksymalnych wartości funkcji wiarogodności, czyli poznany przez nas wcześniej w związku (9.59) czynnik Bayesa.

Podobnie obliczenia możemy wykonać również w przypadku, gdy pierwotna macierz

V znana jest z dokładnością do czynnika skalującego. Szczegółowe rachunki pozostawimy jednak do wykonania Czytelnikowi, jak również pozostawimy mu ocenę „ekwilibrystyki umysłowej”, jakiej tu dokonaliśmy.

Wyrażenie na stawkę przyjmuje prostszą postać, jeśli zdecydujemy się na zastosowanie wielomianów ortogonalnych, gdyż, jak wiemy z podrozdziału 7.3.2, macierz W jest wtedy jednostkowa. Jeśli, dodatkowo, pierwotna macierz V jest diagonalna, wtedy także wyrażenie na St; redukuje się do (patrz np. (9.112)) _

_

s

n

_

2

m

Nnin =) Ly =yVy-yV'G6'V'y=y'V"'y-(6) (6) =) 3-2 ,08)”. i=l

Ji

i

i=1

gdzie o; to i-ty element na diagonali macierzy V. Podstawiając te rezultaty do stawki Qimytk, otrzymujemy

k

(CZ

F

e

Q mh)

(8;) (aż) i m (Ż 0?) 2]

>

7

r(7

_ ( z)



k

(3)

Przyjmijmy, że m = k + 1, czyli rozważamy lomianu o jedność, wtedy

WA

Qt+1)/(h) = = k

ł

=|

(6,)”

exp (

F Zaj

3

2 i=k+1

w)

PM

|W)

P(M5|W)

słuszność podwyższenia stopnia wie-

(6.2 | TGE+D) "Tt kl

.

(1

N PMaqylW)

exp ( (8441) ) "PMolW)

*

i=l

W sytuacji, gdy nie mamy preferencji dla żadnego z rozważanych wielomianów, ostatni czynnik (stosunek prawdopodobieństw zaczątkowych modeli) możemy przyjąć jednost-

628

9, Stopień racjonalnego zaufania

kowy. Jeśli dodatkowy parametr (6,4) nie jest istotnie duży, wtedy dwa pierwsze czynniki mogą zadziałać jak brzytwa Ockhama i zaważyć na wartości stawki, gdyż stosunek funkcji gamma Eulera z dobrym przybliżeniem wynosi ,/k/2, a więc w wielu zastoso-

waniach jest niewiele większy od jedności.

—- 9.5. Prawdopodobieństwo personalne Zasadniczym jądrem przedstawionej dotychczas teorii prawdopodobieństwa jest kwestia uzasadnienia postaci rozkładu prawdopodobieństwa. Staraliśmy się pokazać, jakie prze-

słanki są niezbędne do odtworzenia wszystkich ważniejszych rozkładów, które pojawiają

się w klasycznej teorii. Wskazaliśmy także na dwa fundamentalne narzędzia: metodę

grupy transformacji i metodę maksymalnej entropii, za pomocą których przekształcamy posiadaną informację (bądź jej brak) na matematyczną formułę rozkładu. Nacisk na logiczny i dedukcyjny charakter związku między werbalną wiedzą a analityczną formułą

sprawia, że prawdopodobieństwo uzyskiwane na tej drodze zwane jest obiektywnym. Stosowany bywa także bardziej precyzyjny termin prawdopodobieństwo logiczne. Właśnie ten logiczny aspekt teorii chyba najbardziej przemawia do fizyka, gdyż zgodny jest z jego postrzeganiem procesu poznania naukowego. Dlatego też zapewne nie jest dziełem przy-

padku, że jego twórca — H. Jeffreys i najgorętszy orędownik — E. T. Jaynes, byli fizykami. Nie jest to jedyny sposób podejścia do kwestii prawdopodobieństwa. Czyż nie zdarzyło się Ci, Czytelniku, wygłosić albo usłyszeć zdanie, które miałoby sens: daję dwa

przeciwko jednemu, że następne wybory wygra X lub: moja drużyna wygra mecz z dru-

żyną Y. Takim stwierdzeniem dajesz nam do zrozumienia, że jesteś, Czytelniku, gotów

zaryzykować 2 zł, aby wygrać 1 zł. Jest to Twoja osobista miara oceny szansy, że obstawiane zdarzenie nastąpi z prawdopodobieństwem 2/3. Naprzeciw tak rozumianemu prawdopodobieństwu wychodzą instytucje totalizatora, a bookmacherzy żyją z niego, co

ukazuje na jego operacyjny, a więc praktyczny, charakter. Ponieważ taka definicja praw-

dopodobieństwa łączy się nierozerwalnie z Twoją wiedzą, prze-

konaniami, a może nawet uprzedzeniami (każdy kibic sportowy jest niepoprawnym optymistą w kwestii szans zwycięstwa jego

drużyny), prawdopodobieństwo to zwane jest subiektywnym lub jeszcze lepiej personalnym. Jeśli definicję tę uzupełnimy paroma postulatami, to otrzymamy ten sam zbiór reguł, jaki obowiązuje dla teorii Kołmogorowa i prawdopodobieństwa logicznego. Ojcem takiego podejścia był włoski matematyk B. de Fi-

netti, który swym artykułem „Le Prćvision: ses lois logiques,

ses sources subjectives”, opublikowanym w Ann. Inst. Poincarć 7, 1 (1937), dał początek całej serii prac i to tak skuteczny, że

B. de Finetti,

1906-1985

znakomita większość literatury dotyczącej współczesnej teorii prawdopodobieństwa odnosi się do tego . nurtu. o. o, Z nurtu tego wyrastają inne operacyjne definicje prawdopodobieństwa personalnego. Przypuśćmy, że chcemy uzyskać opi-

9.5, Prawdopodobieństwo personalne

nię eksperta w kwestii pewnej

decyzji, którą musimy

629

podjąć, a decyzja ta może być

trafna lub błędna, w zależności od dalszego biegu wypadków, którego nie umiemy przewidzieć. Umawiamy się ze specjalistą co do jego wynagrodzenia, a suma którą ustalamy,

będzie jednostką w dalszych rozważaniach. Domagamy się jednocześnie od eksperta, aby

wraz ze swoją opinią przekazał nam pewną liczbę x, zawartą między zerem a jednością, a następnie potrącamy mu z honorarium sumę (1 — x)? jednostek, jeśli jego sugestia

będzie trafna, lub x*, gdy nam doradzi źle. Zmusi to eksperta do rzetelnego rozważe-

nia możliwych wariantów dalszego rozwoju sytuacji. Jeśli ekspert chce zminimalizować stratę swojego zarobku, będzie musiał wybrać wielkość x jako równą prawdopodobieństwu p przebiegu zdarzeń prowadzących do trafnej decyzji. Istotnie, oczekiwana strata

eksperta wynosi

pl —x) + (4 — px” 1 przyjmuje wartość minimalną dla x = p. Trzecia, także operacyjna definicja prawdopodobieństwa odwołuje

się do loterii.

Przypuśćmy, że zainteresowany jesteś Czytelniku pewnym wydarzeniem A. Oznaczmy przez p Twój poziom przekonania o możliwości zajścia tego zdarzenia. Ocenę wielkości

p możemy uzyskać, stawiając Cię przed następującym wyborem: e Uzyskasz nagrodę w wysokości 10 zł, jeśli zdarzenie A nastąpi, lub też zostaniesz

pozbawiony tej nagrody (nie dostaniesz nic), gdy zdarzenie to nie nastąpi. e Weźmiesz udział w darmowej loterii, w której możesz wygrać 10 zł z prawdopodobieństwem p lub nie wygrać nic z prawdopodobieństwem 1 — p.

Jeśli dana jest Ci, Czytelniku, taka alternatywa i nie widzisz preferencji między opcjami,

to wielkość p mierzy Twój poziom wewnętrznego przekonania co do szansy wystąpienia zdarzenia A.

Od strony formalnej teorie prawdopodobieństwa logicznego i personalnego nie róż-

nią się. Obie stosują ten sam aparat, a jako narzędzie wnioskowania wykorzystują twierdzenie Bayesa wraz z jego całym arsenałem pojęć. Jednakże obok różnic interpretacyjnych, jakie znajdujemy w obu podejściach, występują różnice praktyczne. Zwolennik

podejścia logicznego ma spętane ręce: najpierw musi postawić się w roli kompletnego ignoranta, aby z symetrii problemu wydobyć nieinformatywny zaczątek lub też z wiedzy, jaką posiada, minimalnie informatywny zaczątek i dopiero na tym fundamencie budować gmach wiedzy z danych doświadczalnych. Nie jest to zadanie, które zostało do końca rozwiązane — wspomnieliśmy o zasadniczych trudnościach, jakie „gnębią” zasadę maksymalnej entropii w odniesieniu do zmiennej ciągłej. Także w odniesieniu do narzędzi, które już znamy i rozumiemy, jak np. grupa transformacji symetrii, nie zawsze i do końca potrafimy rozpoznać trafnie problem. Praktyk podejścia personalnego znajduje się w znacznie bardziej komfortowej sytu-

acji. Nie musi dbać o żelazną logikę i konsekwencję — stać go na wybór bardziej liberalnej postaci zaczątku, do konstrukcji którego może wprząc swoją wiedzę i doświadczenie zawodowe. Wystarczy, że jego zaczątek będzie „„wrozsądny”, a dane doświadczalne, dostatecznie

obfite, dokończą dzieła, redukując i wygładzając wszelkie niedokładności. Przykładem takich rozważań jest cały podrozdział 9.4.5 poświęcony metodzie najmniejszych kwadratów.

630

9, Stopień racjonalnego zaufania

Nie oznacza to, że zwolennik podejścia personalnego wolny jest od wewnętrznych

rozterek. W duszy jego ciągle Ścierają się dwa aspekty analizy danych: zależność uzyskanych wyników od zastosowanego zaczątku i łatwości interpretacji rezultatów. Ten

pierwszy każe mu problem komplikować i badać istotność zmian w wyniku końco-

wym, co nieuchronnie prowadzi go do praktycznych trudności z wykonaniem samych obliczeń, a ten drugi każe mu wykorzystywane narzędzia upraszczać. Zważywszy, że

typowe obliczenia we współczesnej teorii są bardziej skomplikowane niż ich odpowiedniki w klasycznym podejściu, zagadnienie wytworzenia w miarę elastycznych, a jedno-

cześnie praktycznie użytecznych modeli i prawdopodobieństw zaczątkowych ma swoje znaczenie. Widzieliśmy dwa przykłady takiego praktycznego podejścia. W podrozdziale 9.3.3,

gdy rozważaliśmy funkcję wiarogodności w postaci rozkładu dwumianowego, zaczątek zaproponowaliśmy w formie rozkładu beta (9.44), co doprowadziło nas do prawdopodo-

bieństwa wynikowego (9.45), także w postaci rozkładu beta. Podobny wynik otrzymamy także i dla funkcji wiarogodności zadanej modelem ujemnego rozkładu dwumianowego.

Atutem takiego sformułowania problemu jest podsumowanie wszystkich wcześniejszych

eksperymentów

za pomocą równoważnej

liczby przypadków, wyrażonej parametrami

tego rozkładu. Identyczna prostota i łatwość interpretacji występuje dla funkcji wiarogodności zadanej rozkładem Poissona i zaczątku w formie rozkładu gamma, na co

zwróciliśmy uwagę w przykładzie 9.4.4. Takie specjalne zaczątki, dobrane do postaci funkcji wiarogodności i dostarczające rozkładu wynikowego w postaci funkcyjnej identycznej z zaczątkiem, określane są mianem sprzężonych. Zaczątki sprzężone można podać i dla innych modeli pomiaru. Na przykład dla parametru 4 wartości centralnej

rozkładu Gaussa takim zaczątkiem jest również rozkład Gaussa, a dla parametru o” tego rozkładu rozkład gamma w zmiennej zadanej odwrotnością argumentu o”.

Gdy zaczątek i model zostaną wybrane, pozostaje przeprowadzenie analizy i wy-

ciągnięcie wniosków.

Wnioski te jednak będą właściwe Tobie, jeśli Ty zdecydowałeś

(zdecydowałaś) o założeniach. Jeśli Ty także ponosisz konsekwencje tej decyzji, to zapewne taka sytuacja jest akceptowalna. Trudniej jednak wygląda kwestia prezentacji wyników naukowego eksperymentu, gdyż łatwo można się narazić na zarzut subiekty-

wizmu. Wydaje się, że jedynym wyjściem z tego ambarasu jest dyskusja i „ucieranie” poglądów. Unikniemy w ten sposób, co prawda, krytyki, a rezultaty nabiorą intersubiek-

tywnego charakteru, usankcjonowanego w nauce powszechną praktyką, nie oznacza to jednak, że będą sobą reprezentowały prawdę obiektywną.

NAGRODA

Dwa są główne elementy nagrody: zaszczyt i użyteczność.

Unormowania terminologiczne

W 1993 roku, w wyniku współpracy szeregu instytucji międzynarodowych, w tym Mię-

dzynarodowej Unii Fizyki Teoretycznej i Stosowanej (International Union of Pure and Applied Physics — IUPAP), Międzynarodowa Organizacja Normalizacyjna (International Organization for Standardization — ISO) wydała zalecenia: Guide to the Expression of Uncertainty in Measurement dotyczące wyrażania niepewności w pomiarach. Wersja amerykańska publikacji ISO przyjęta w Stanach Zjednoczonych przez National Institute

of Standards and Technology (NIST) ma tę zaletę, że osiągalna jest w Internecie pod adresem: http://physics.nist.gov/Pubs/guidelines/outline.html. Istnieje polski odpowied-

nik tej publikacji, wydany w 1995 r przez Główny Urząd Miar (GUM), a zatytułowany

Wyrażanie niepewności pomiaru. Przewodnik. Informacje przedstawione niżej pochodzą

właśnie z tego wydawnictwa. Celem Przewodnika jest przede wszystkim uporządkowanie terminologii, jaka panuje w dziedzinie zastosowań statystyki matematycznej w nauce i technice. Służy temu wprowadzenie fundamentalnego i ogólnego terminu, jakim jest niepewność pomiaru, która ma wyrażać rozrzut wartości, jaki możemy przypisać wielkości zmierzonej, przy czym nie precyzuje się bliżej operacyjnej metody określania tej wielkości. Niniejszy wykład zasadniczo zgadza się z proponowaną nomenklaturą w zakresie bardziej precyzyjnych terminów: wariancja i kowariancja, korelacja i współczynnik korelacji, a także odchyle-

nie standardowe

eksperymentalne, zwane również niepewnością standardową. Drobna

różnica występuje w znaczeniu terminu odchylenie standardowe zmiennej losowej, które

my, z uwagi na wygodę, nazywamy dyspersją (patrz podrozdział 3.2), rezerwując frazę odchylenie standardowe dla estymatora tejże dyspersji. Jednakże niebagatelnie różni się niniejszy wykład od Przewodnika w kwestii zastosowania słowa błąd, które dla społeczności fizyków jest synonimem odchylenia standardowego. Słowo to w zamyśle autorów dokumentu ISO oznacza wielkość abstrakcyjną z punktu widzenia analizy danych, ponieważ e błąd pomiaru to różnica między wynikiem pomiaru a wartością rzeczywistą wielkości

mierzonej.

Podobnie jest z pochodnymi:

e błąd przypadkowy to różnica między wynikiem pomiaru a średnią z nieskończonej

634

Dodatek A. Unormowania terminologiczne

liczby pomiarów tej samej wielkości mierzonej, wykonanej w warunkach powtarzalności;

e błąd systematyczny to różnica między Średnią z nieskończonej liczby pomiarów wykonanych z zachowaniem powtarzalności a wartością rzeczywistą wielkości mierzonej. Powyższe definicje praktycznie eliminują ten tak popularny termin z praktyki fizyka doświadczalnika. W konsekwencji odchodzą w niebyt takie wyrażenia, jak błąd Średniej, który zastępowany jest niepewnością standardową Średniej; błąd względny, czyli

względna niepewność standardowa, a także błąd wielkości mierzonej pośrednio, czyli

złożona niepewność standardowa. Warto jeszcze wspomnieć o klasyfikacji niepewności, jaką wprowadza Przewodnik. Otóż rozróżniane są dwa jej typy:

e niepewność typu A — czyli taka, którą możemy poszukiwać metodami statystyki matematycznej, a więc stosując aparat przedstawiony w rozdziałach 1—8 niniejszego wykładu;

e niepewność typu B — czyli taka, którą szacujemy innymi sposobami niż statystyki matematycznej. Istotne tu mogę być informacje pochodzące od producenta np. w me-

tryczce urządzenia pomiarowego, różne certyfikaty i świadectwa materiałowe, dane literaturowe, a także własne doświadczenie

i wiedza użytkownika

oraz szczegółowa

znajomość zjawisk składających się na całość procesu pomiarowego. Warto zwrócić uwagę na to, że definicja tej niepewności to wyraźny ukłon w stronę bayesowskiego

podejścia do zagadnienia estymacji. Mamy wykorzystać wszelką dostępną wiedzę, aby z niej wydobyć rozkład prawdopodobieństwa, a z niego poszukiwaną niepewność. Innymi słowy, szacowanie niepewności typu B to bardziej sztuka doświadczalna niż rzemiosło. Na zakończenie warto przypomnieć dwie pomocnicze publikacje regulujące terminologię języka polskiego w dziedzinie statystyki matematycznej, teorii prawdopodobieństwa i metrologii. Są to: e Rachunek prawdopodobieństwa i statystyka matematyczna. Terminologia, Polska Nor-

ma PN—90/N—01051.

e Międzynarodowy słownik podstawowych i ogólnych terminów metrologii, Główny Urząd Miar, Warszawa 1996 (tłumaczenie International Vocabulary of Basic and General Terms in Metrology, ISO, 1993).

Uzupełnienie

W tej książce, a zwłaszcza w rozdziale 4, wielokrotnie pojawiała się konieczność znajdowania sum wartości oczekiwanych jednomianów o postaci 3

(GY;Z% . .),

i,j,k...

gdzie sumowanie rozciąga się na wszystkie elementy próbki, a sama próbka jest prosta. Wartość oczekiwana pojedynczego wyrazu sumy zależy od tego, czy indeksy występu-

jące w tym wyrazie są identyczne, czy też różne. Przykładem postępowania w takim

przypadku było obliczanie wariancji wartości średniej (podobna sytuacja wystąpiła przy obliczaniu wartości oczekiwanej kowariancji z próby), gdzie sumę iloczynów x;,x; rozbilliśmy na dwie: w jednej z nich wystąpiły kwadraty wielkości x,, które dają przyczynek do wariancji zmiennej losowej x, a w drugiej iloczyny mieszane o różnych wartościach

indeksów, co dało iloczyny wartości oczekiwanych. Podobne wyodrębnienie powtarzających się indeksów można przeprowadzić 1 dla bardziej skomplikowanych sum. Podamy tu wyniki dla jednomianów

złożonych z trzech i czterech czynników,

ponieważ takie

wzory wystarczają do rozwiązania przedstawionych w tym rozdziale przykładów. Powtórzymy, dla kompletu, wynik dla sumy jednomianów złożonych z dwóch czynników:

n

3

i=1 j=1

Ż ,%Yjzk = 2% i,j,k

).

XiYjZkim = )

i,j,k,m

+ 3 ij

XYJ

=

Z

>.

i=l, ji

RJE

+) GYszj + Myjzi + XYZ) + |Xi);Zk. ij

i,j,k

xYszik i

(Gyszit, + Xryszzt; + X YsZyt + XrYzzzt, + X Yzzyt, + X;Y;Zit, + X; Yjzytj)

+ >, (X YsZkEj + XyjZiłk H XrYjZkli + XiYjZyty PF XYGZKtk + XY;ZKtj) + 3 i.j.k

i,j,k,m

Xi YjZkim»

636

Dodatek B. Uzupełnienie

gdzie w sumach zaznaczonych po prawej stronie znaku wszystkich równości indeksy i, j,... przebiegają różne wartości, jak to jawnie zaznaczone zostało w pierwszym

wyrażeniu.

Powyższe wyniki pozwalają łatwo znaleźć wartość oczekiwaną np. następującego wyrażenia (dla próby prostej): (7

1)

= >

2000)

+

>

i,j,k

(GX;X; + X;X;X; + 199)

+

ij

>

1)

i,j,k

— (Z z + ię Pó) + > w =

b! +32

Gx) +), ogra) i,j,k

=

b! |+32_bi ) b) + >, 66) i,j,k

=n(x | + 3nn — 1) b gdzie w drugiej i trzeciej

| 09) + nn — 1)(m — 2) (x)”,

sumie przed ostatnią równością występujące

tam czynniki

mogliśmy rozdzielić wartością oczekiwaną, właśnie z uwagi na rozłączne wartości indeksów.

Po nieco bardziej skomplikowanych obliczeniach uzyskujemy także następujące re-

zultaty (również słuszne dla próby prostej)

l

E[8- 1] = zE[6- w]. 1

E|[E- nu] = zE[6-—w']+

wi

2 x ].

Prawo mnożenia sposobności

W tym dodatku zajmiemy się rozwiązaniem równania funkcyjnego, wyrażającego prawo łączności

JU, y),2) = f0, JQ,2)).

(C.1)

Bez wątpienia, najprostsza funkcja spełniająca to równanie to funkcja stała. Ponieważ mało ciekawa jest teoria, w której wszystko jest stałe (a teoria taka, w dodatku, pogwał-

ciłaby nasze wymaganie monotoniczności i zgodności ze zdrowym rozsądkiem), dlatego potrzebujemy nietrywialnego rozwiązania równania (C.1). Wprowadzimy, dla uproszcze-

nia, dwa oznaczenia: u = f(x,y) oraz v = f(y,z), w której to notacji (zmienne x, y

oraz z utrzymujemy jednak jako niezależne) związek (C.1) możemy przepisać w postaci f (x,v) = f(u,z). Zróżniczkujmy tę równość względem x oraz względem y:

9

9

x

0x

3,3 © V) = ZF U, 2) O

3,J

y

0 V) =

O



dy

f (u, z)

> >

hnlx,v) = filu,z)fi(x, y), px,v)fiOG.

z) = Ji lu, z) f(x,

Y);

gdzie indeksy określają numer pozycji argumentu funkcji f, względem którego ją różniczkujemy. Dzielenie stronami drugiego równania przez pierwsze daje

G(x, v) 17,2) = G(x,y),

gdzie

G(x, y) =

hl(x,y) J 1 (x

(C.2)

Y )

Ponieważ prawa strona zależy jedynie od x oraz y, lewa strona, mimo występującego jawnie oraz implicite argumentu z, nie może od tej wielkości zależeć. Mnożąc równość (C.2) przez G(y, z), otrzymujemy

G(x, v) fa(y, Z) = G(x, y)G(y, z).

(C.3)

Obliczymy teraz pochodną lewej strony (C.2), o której wiemy, że nie zależy od zmiennej z, względem tej zmiennej:

0 zz Św v) A0,2) = G>(x,v) A0,2)0,2) + GGQ,0) 207,2)

=0,

638

Dodatek C. Prawo mnożenia sposobności

a także pochodną lewej strony (C.3) względem y 0

3,

v)

ly, z)

=

G(x,

v) 107.

z) fl. z)

+ G(x,

v) fa1(Y; z).

Widzimy, że obie pochodne są sobie równe, a ponieważ pierwsza jest równa zeru, tak więc i druga musi być też równa zeru, co oznacza, że prawa strona (C.3) nie zależy od zmiennej y. Otrzymujemy w ten sposób fundamentalną własność funkcji G: pomnożona przez drugą taką samą funkcję, w której pierwszy argument jest identyczny z argumentem stojącym na drugiej pozycji w pierwszej funkcji, musi prowadzić do uproszczenia tego

argumentu. Najbardziej ogólna postać takiej funkcji zadana jest przez

G(x,y)=r

H(x)

HY)

gdzie wielkość r jest dowolną stałą. Ponieważ domagamy się monotoniczności funkcji f(x, y), co implikuje, że pochodne f, oraz f, są większe od zera, tym samym stała r musi być dodatnia, natomiast funkcja H nie może zmieniać znaku w zakresie zmienności swego argumentu. Skorzystamy teraz z tej postaci funkcji G i ze związków (C.2) oraz (C.3), które pozwalają znaleźć wyrażenia na pochodne cząstkowe funkcji f hO,z)

KY,2)

ZY,Z)

a z relacji

s

H (v)

=

HQ)

=r —

HC)”

dv = df(y, z) = (7,2) dy + fa(y, z) dz

otrzymujemy następującą formę różniczkową: dv

H(v)

=

dy



H(y)

|

dz

r—-—..

HQ)

Jeśli wprowadzimy funkcję g(x) związaną z funkcją H(x) związkiem dx

g(x) = exp ([ c) gdzie przez brak granic całkowania zaznaczyliśmy fakt, że w wykładniku znajduje się funkcja pierwotna wraz z dowolną stałą całkowania, naszą formę różniczkową możemy scałkować

sv) =g(/0,2)) =80)8 (2).

Biorąc funkcję g równości f(x, v) = f(u,z) i stosując prawo (C.4), otrzymujemy

g(f%,0)) =g(flu,2))

>

g(x%)g' W) = glu)g (2),

a wykorzystując ponownie (C.4) w stosunku do g(v), a także do g(u), znajdujemy

SWW

O)

WIO)

>

220808 0) =sg20)8' (08 0).

Jak stąd wynika, jedyna niesprzeczna i nietrywialna wartość stałej r to jedność.

(C.4)

Dodatek C. Prawo mnożenia sposobności

639

Powyższe wyprowadzenie ogólnej postaci prawa łączności działań zawdzięczamy R. T. Coxowi (Probability, Frequency and Reasonable Expectation, American Journal of Physics 14 (1946), 1). Opiera się ono na założeniu dwukrotnej różniczkowalności funkcji f. Istnieje (J. Aczel, Lectures on Functional Equations and their Applications,

Academic Press, New York 1966) rozwiązanie tego problemu bez wykorzystania faktu różniczkowalności. Funkcja g, zastosowana do relacji AAB|IW

= f(AIW,BIAAW)

dostarcza związku między sposobnościami A A B|W oraz A|IW iBJAAW: g(A AB|W)

= g(A|W)g(B|A AW).

PAM „A wie Ad” 2 Zk Aa a ARA

Prawo dodawania sposobności

W tym dodatku rozwiążemy równanie funkcyjne

„r(-9) x

=yF(->). y

(D.1)

dla funkcji F łączącej sposobności przeciwstawnych tez. Tożsamość

(D.1l) jest określona na kwadracie jednostkowym

0 < x,y


. =

I, znajdujemy poszukiwaną funkcję |

Fx)=(l-x")".

s

(D.6)

Widzimy, że warunek F(1) = O jest także spełniony, jak również prostym rachunkiem sprawdzamy, że funkcja ta jest odwrotna do siebie samej, a także spełnia (D.1).

Przedstawione wyżej wyprowadzenie pochodzi ze wspomnianej we wstępie publikacji E. T. Jaynesa i wykorzystuje fakt, że funkcja F' jest jednokrotnie różniczkowalna. Wzmiankowany w dodatku C artykuł R. T. Coxa zawiera alternatywne wyprowadzenie, zakładające dwukrotną różniczkowalność. Powtórzymy to wyprowadzenie teraz, ponie-

waż jest ono znacznie prostsze, a także „smakowite” matematycznie.

Dla uproszczenia notacji wprowadzimy oznaczenia u = F(y) /x oraz v = F(x)/y, otrzymując z (D.l) (D.7) x F(u) = yF(v).

Po zróżniczkowaniu tego związku względem x, względem y oraz względem obu zmiennych otrzymujemy następujące równości:

uF' (u) — F(u) = —F' (v)F' (x),

(D.8)

F'(u)F'Q) = —vF (v) + F(v),

(D.9)

-F'(u)F') = ;F"OF'a).

(D.10)

Mnożąc równanie (D.7) przez (D.10), usuwamy jednocześnie x oraz y, uzyskując uF'(u)Fl(u)F'y) =vF'(v)F(v)F (x). Z równania tego możemy wyeliminować F'(x) oraz F'(y), jeśli wykorzystamy równanie (D.8) oraz (D.9), co prowadzi nas do uF”(u)F (u)

(uF'(u) — F(u)) F'(u)

s

vF"(v)F(v)

(0F'(v) — F(v)) F'(v)

Dodatek D. Prawo dodawania sposobności

643

Ponieważ każda ze stron tego równania zależy od innej zmiennej, więc aby możliwe było, że obie strony są sobie równe, każda z tych stron może być tylko stałą. Oznaczając tę stałą przez k, otrzymujemy równanie różniczkowe na nieznaną funkcję F (u) uF' (u)F(u) =k (uF'(u) — F(u)) F' (u), które możemy przepisać w postaci dF _|

dF

du

F

uj)

F' co, po scałkowaniu, daje nam

F F' (u)

=A

(7)

u

k ,

gdzie A jest stałą całkowania. Ponieważ forma ta dopuszcza rozdzielenie zmiennych, więc możemy łatwo wykonać także i drugie całkowanie, z rezultatem F" (u) = Au” + B,

gdzie m = 1 —k. Podstawiając warunki brzegowe F(0) = 1 oraz F(1) = 0, otrzymujemy ponownie (D.6)

F"(u)+u"=L.

Jeśli do związku tego podstawimy sposobności g(A|W) oraz g(A|W), to otrzymamy

ostateczną postać zależności łączącej sposobności przeciwstawnych tez

g"(AIW) + g”(AIW)=1.

Twierdzenie Shannona

Przeprowadzimy dowód twierdzenia Shannona

S„(Pi, P,,..., P,) =) Zauważmy najpierw, że

1 1 50) = S, (gaz) n

1, ) =

—00 < I < ©,

,

n=l,2,...,

v[t] = —— dla n > 2. p =

y =0 dla n > 3

6

n > 4. dla

n-4

Gdy parametr n ma jednostkową wartość, rozkład ten nosi nazwę rozkładu Cauchy ego. Rozkład Breita-Wignera

JaQ;u T)=

r 2

a (5)+ 6 — 02)

—00

< X < W,

0),

o

—00 < X < O,

(X) =m, Rozkład Pareto

Xx

(x)

=

ab

1

, dl

aa >

3

0

dl

2.

Rozkład Weibulla f(x;a,a) =

(-) o No

a—l

a

xp (- (>) ). a

0)