225 36 8MB
Italian Pages 287 Year 2011
paolo baldi
calcolo delle probabilità e statistica
McGraw-Hill Libri Italia srl Milano • New York • St. Louis • San Francisco • Oklahoma City • Auckland Bogotà • Caracas • Hamburg • Lisboa • London • Madrid • Montreal • New Delhi Paris • San Juan • Sao Paulo • Singapore • Sidney • Tokyo • Toronto
Ogni cura è stata posta nella raccolta e nella verifica della documentazione contenuta in questo libro. Tuttavia né l'Autore, né la McGraw-Hill Libri Italia possono assumersi alcuna responsabilità derivante dall'utilizzo della stessa. Lo stesso dicasi per ogni persona o società coinvolta nella creazione, nella produzione e nella distribuzione di questo libro.
Copyright @1992 McGraw-Hill Libri Italia piazza Emilia, 5 20129 20129 Milano I diritti di traduzione, di riproduzione, di memorizzazione elettronic,a e di adattamento totale e parziale con qualsiasi mezzo (compresi i microfilm e le copie fotostatiche) sono riservati per tutti i paesi.
Il testo è stato composto dall'autore
in
TEX
Capo redattore: Massimo Esposti Redattore: Chiara Tartara
Hanno collaborato a questo volume: Grafica di copertina: Achilli & Piazza e Associati Stampa: Arti Grafiche Battaia snc, Rozzano (MI)
ISBN 88-386-0693-5 2=edizione aprile 1993
Printed in Italy -156i890GBTLLC9E
Indice
Introduzione 1 Spazi di probabilità 1.1 Fenomeni deterministici e casuali 1.2 Spazi di probabilità 1.3 Spazi di probabilità uniformi 1.4 Proprietà degli spazi di probabilità 1.5 Probabilità condizionale, indipendenza 1.6 Calcolo combinatorio Esercizi
2 Variabili aleatorie discrete 2.1 Variabili aleatorie e loro distribuzioni 2.2 Variabili aleatorie discrete 2.3 Leggi congiunte, indipendenza 2.4 Calcoli con densità 2.5 Speranza matematica 2.6 Momenti, varianza, covarianza *2.7 Funzioni generatrici *2.8 Somme aleatorie Esercizi
3 Variabili aleatorie continue 3.1 Definizioni 3.2 Variabili aleatorie assolutamente continue 3.3 Densità congiunte, indipendenza 3.4 Calcolo di leggi 3.5 Leggi normali 3.6 Leggi gamma 3.7 Speranza matematica, momenti 3.8 Speranza condizionale 3.9 Funzioni caratteristiche 3.10 Generatori aleatori, simulazione 3.11 Leggi normali multivariate Esercizi
Vll
1 2 6 7 10 15 18
21 23 34 41 47 52 59 66 69
73
77 79 91 97 99 105 111 114
120 122 126
v1
Indice
4 Convergenza 4.1 4.2 4.3 4.4
e approssimazione
La legge dei grandi numeri Convergenza in legge . Il Teorema Limite Centrale Approssimazione normale Esercizi
131 135 138 140 143
5 Catene di Markov 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9
Definizione e generalità Calcolo delle leggi congiunte Classificazione degli stati Problemi di àssorbimento Probabilità invarianti L'algoritmo di Metropolis, simulated annealing Stati numerabili Stati numerabili: ricorrenza e transitorietà Esempi: file d'attesa Esercizi
6 Statistica 6 .1 *6.2 *6.3 *6.4 6.5 6.6 6.7 6.8 6.9 6.10 6.11 6.12 6.13
147 149 152 155 162 166 169 175 181 184
Matematica
Modelli statistici Stimatori di varianza minima Stimatori di massima verosimiglianza Stimatori di Bayes Test Stima e test per campioni gaussiani Il test del x2 Un esempio di analisi statistica Regressione linea.re Il teorema di Cochran Regressione multipla Regressione lineare: predizione Regressione lineare: l'analisi del modello Esercizi
189 195 198
200 205 207 215 217
220 229 235 243 248 259
Soluzioni
263
Tavole numeriche
275
Indice Analitico
279
Introduzione
Negli ultimi anni è aumentata la richiesta di insegnamenti di Probabilità e Statistica in corsi di laurea diversi da quello di Matematica. Molti di questi hanno in comune due esigenze: la prima è la necessità di servirsi -dei soli strumenti matematici del biennio d'Ingegneria. La seconda è di mettere l'accento su come si usano i risultati teorici per la risoluzione di problemi concreti, piuttosto che sull'approfondimento logico della teoria, che è invece l'atteggiamento tipico del corso di laurea in Matematica. Questo libro si avvale dell'esperienza di alcuni anni nell'insegnamento di Calcolo delle Probabilità e Statistica ( CPS nel gergo degli studenti) per il corso di Laurea in Scienza dell'Informazione, ma può probabilmente essere usato anche per altri corsi ( specialmente nella Facoltà d'Ingegneria, oltre a quelli dei futuri corsi di diploma) che hanno le stesse esigenze.
*** Lo scopo di questi insegnamenti cosiddeùf·•di servizio" è di mettere effettivamente gli studenti in grado di affrontare i problemi di Calcolo delle Probabilità e Statistica che incontreranno nel prosieguo del corso di Laurea in cui sono impegna.ti. Ciò implica la necessità di giungere, in un tempo limitato, a svolgere temi relativamente avanzati, e dunque il sacrificio di altri argomenti, pure interessanti. Per questo motivo è stata fatta la scelta di limitare a pochi accenni sbrigativi le questioni rituali dei fondamenti e dell'uso della teoria della misura. I primi 5 capitoli (tranne forse i paragrafi 3.11, 5.7 e 5.8) svolgono un programma adeguato per un corso di 40 ore, specialmente se parte degli esempi sono trattati in un corso di esercitazioni. Il resto del materiale può essere utilizzato per un corso più lungo. Il paragrafo 3.11 (peraltro importante in sè) e le parti scritte in carattere più piccolo sono indispensabili solo se si affrontano le tematiche legate al teorema di Cochran (paragrafo 6.10). Anche i paragrafi che sono segnati nell'indice con un asterisco non sono indispensabili alla comprensione del seguito e possono essere evitati da un
viii
Introduzione
docente che desideri guadagnare tempo per sviluppa.re altri argomenti. Inoltre, volendo, il capitolo 5 (Catene di Markov) può essere affrontato subito dopo il capitolo 2.
*** I
L'uso dei calcolatori nelle applicazioni della matematica ha avuto, negli ultimi vent'anni, un grande impulso anche per il Calcolo delle Probabilità e la Statistica e di ciò si è avuto un riflesso anche nell'insegnamento. Da una parte infatti hanno assunto un certo rilievo argomenti come la generazione di numeri a caso e la costruzione di algoritmi di simulazione; in questo testo alcuni spazi sono stati riservati a queste tematiche, che sono spesso collegate a interessanti sviluppi teorici. Dall'altra. l'uso di software specifici e facilmente accessibili permette ora. allo studente di cimenta.re la. propria. formazione in veri problemi di statistica., resi ardui in altri tempi dalla presenza di lunghi, e poco significativi, calcoli ·numerici e dalla difficoltà di accesso ai metodi grafici. Questi strumenti di elaborazione statistica hanno un ruolo importante nel capitolo 6 nel trattamento degli esempi. ~-
* *' * Desidero ringraziare tutti i colleghi che con i loro consigli o con la. loro costru.ttiva disapprovazione hanno contribuito alla messa a punto di queste pagine. In particolare Alberto Frigerio, Giorgio Letta., Federico Marchetti, Mauro Piccioni, Eugenio Regazzini e Marta Sa.nz.
Pa.olo Ba.Idi
.r-.-Jarzo 1993 Questo libro è dedicato a Alberto Fr-iger-io
1 Spazi di probabilità
1.1 Fenomeni
deterministici
e casuali
Nei problemi di predizione si incontrano due tipi di situazioni. Se una pallina cade siamo in grado di dire istante per istante quale sarà. la sua posizione e, più in generale, dato un sistema meccanico è sempre possibile teoricamente, se si conoscono le condizioni iniziali, risolvere le equazioni del moto e dire quale sarà. lo stato del sistema ad un assegnato tempo t. S_ei_nveç~v_iene lanciata 1:tfi-a.tQ_oneta non c'è modo di prevedere su quale faccia cadr_à, il che si esprime dicendo che questo esperimento è aleatorio (o casuale). Ciò però non significa che in un esperimento casuale non si possa dire niente del risultato: se si estrae una pallina da un 'urna contenente 999 palline bianche e 1 rossa, è chiaro che ci aspettiamo di ottenere come risultato una pallina bianca e che considereremo l'estrazione della pallina rossa come un fatto piuttosto eccezionale. Nei due esempi che seguono vedremo qual è la struttura tipica di un fenomeno casuale.
Esempio 1.1 Un'urna contiene sei palline numerate da 1 a 6, peraltro identiche. Una pallina viene estratta a caso e se ne guarda il numero. I possibili risultati di questa operazione sono i numeri 1, 2, 3, 4, 5, 6. Dire qual è la probabilità di ottenere 1, ad esempio, significa dare una valutazione di quanto facilmente il risultato possa essere 1. Talvolta però si è interessati alla probabilità di eventi più complessi, come la probabilità di ottenere un numero dispari oppure un numero più piccolo(::;) di 4. Se indichiamo con n = {1,2,3,4,5,6} l'insieme dei possibili risultati, possiamo far corrispondere ad ogni evento un sottoinsieme di n. Ad esempio l'evento "esce un numero dispari" corrisponderà al sottoinsieme {1,3,5} mentre l'evento "esce un numero::; 4" corrisponderà. al sottoinsieme {1, 2, 3,4}. Questa identificazione tra eventi e sottoinsiemi di n permette di trasportare agli eventi le operazioni di U, n e passaggio al complementare. Il significato intuitivo di queste operazioni riferite agli eventi è facile: ,e A e B sono sottoinsiemi di n corrispondenti a due eventi allora
2
Capitolo 1
A n B corrisponderà all'evento: "i due eventi associati ad A e B si verificano entrambi"; A U B corrisponderà all'evento: "uno almeno dei due eventi si verifica"; Ac corrisponderà all'evento: "l'evento associato ad A non si verifica".
In questa identificazione n sarà "l'evento certo", cioè quello che si verifica certamente, mentre 0 sarà "l'evento impossibile", quello che certamente non si verifica. Una valutazione di probabilità sarà un'applicazione P che ad ogni evento (ovvero ad ogni sottoinsieme di n) associa un numero reale e vorremo che questo numero sia tanto più grande quanto più l'evento è probabile. Sarà ragionevole richiedere che P goda di un certo numero di proprietà, ad esempio che se A e B sono eventi disgiunti (A n B = 0) allora ( 1.1)
P(A U B)
= P(A) + P(B)
Esempio 1.2 Consideriamo l'istante in cui un certo componente elettronico si guasta e perciò debba essere sostituito. In questo caso l'insieme dei possibili risultati è n = Ill+ e anche in questo caso possiamo mettere in corrispondenza gli eventi di cui vogliamo calcolare la probabilità con dei sottoinsiemi di n. Ad esempio al sottoinsieme [1,2] corrisponderà l'evento "il componente smette di funzionare in un istante t compreso tra 1 e 2". A differenza dell'esempio precedente ora l'insieme dei possibili risultati, n, contiene una infinità ( continua) di elementi e non è opportuno considerare eventi tutti i sottoinsiemi di n, poiché la classe di tutte le parti di m,+è un oggetto scomodo da trattare. Dobbiamo dunque stabilire quali dei sottoinsiemi di n sono eventi. Dato però il significato intuitivo delle operazioni di intersezione, unione e complementare quando riferite agli eventi, sarà opportuno che se A e B sono eventi, allora anche A n B, A U Be Ac lo siano. Infatti gli eventi sono i sottoinsiemi di cui si può calcolare la probabilità ed è opportuno che si possa parlare della probabilità, ad esempio, che due eventi si verifichino entrambi oppure che un evento non si verifichi. Quindi vorremo che la classe A' degli eventi sia stabile per le operazioni di intersezione, unione e complementare.
1.2 Spazi di probabilità Come è suggerito negli esempi precedenti, nello studio di un fenomeno casuale siamo sempre jn presenza di a) un insieme n (l'insieme dei possibili risultati) b) una famiglia A di sottoinsiemi di n tale che b1 ) se A, BE A allora A U BE A
Spazi di probabilità
3
h 2 ) se A, BE A allora A n BE A h 3 ) se A E A allora Ac E A È chiaro che, per ricorrenza, da b 1 ) si ricava che se Ai, ... , An E A allora LJ~1 Ai E A e analogamente da b 2 ) se A1, ... , An E A allora la loro intersezione è ancora in A.
Definizione 1.3 Una famiglia A di parti di un insieme ( o tribù) se i) 0,S1EA ii) Se A E A allora Ac E A iii) Se A1, ... , An, ... E A allora
n si dice
una CT-algebra
00
iiia)
LJAn
n=l
E
A
n An' EA n=l 00
iiib)
Osserviamo che la Definizione 1.3 è ridondante nel senso che la condizione iiib) è conseguenza di ii) e di iiia) grazie alla formula di De Morgan
Allo stesso mod9 iiia) è conseguenza di iiib) e ii).
Definizione 1.4 Sia. n un insieme, A una CT-algebra di parti di n. Una. probabilità P è un 'applicazione P: A -+ IR,+ tale che 1) P(S1) = 1 2) Se {An}n è una successione di elementi di A a due a due disgiunti, allora (a-additività)
Definizione 1.5 Chiameremo spazio di probabilità una terna (O, A, P) dove n è un insieme A è una CT-algebradi pa.rti di O P è una probabilità su A. Come è suggerito dagli esempi, gli spazi di probabilità sono dei modelli matematici non innaturali di fenomeni non deterministici. Affrontando un problema
4
Capitolo 1
concreto il primo passo consisterà nella costruzione di uno spazio di probabilità adeguato. Questa prima operazione ( modellizzazione) viene effettuata basandosi su considerazioni empiriche e soggettive, tenendo conto della natura del problema. Ciò significa che in generale, dato un fenomeno aleatorio, non c'è uno spazio di probabilità privilegiato che lo descriva ed è anzi possibile che persone diverse scelgano di studiarlo mediante spazi di probabilità differenti. Nella maggior parte dei problemi trattati in questo libro alcuni concetti fondamentali del Calcolo delle Probabilità (equiprobabilità, indipendenza, ... ) permetteranno di costruire uno spazio di probabilità "naturale". Anche in questi casi però la costruzione si basa sulla ipotesi, soggettiva anche se spesso ragionevole, che il fenomeno soddisfi a certe proprietà. Si pone quindi il problema di verificare, a. posteriori, la. bontà di uno spazio di probabilità come modello di un dato fenomeno aleatorio. È questo uno dei compiti della Statistica Matematica. Ad esempio, nel ca.so dell'Esempio 1.1 è ragionevole, sulla base della discussione fatta, considerare lo spazio di probabilità dato da
n = {1,2,3,4,5,6} A= P(f2)
(tutte le parti di f2)
Resta da determinare la probabilità P. Ma per la natura del problema, se nell'estrazione non c'è modo di distinguere le palline, è ragionevole supporre che i possibili risultati si verifichino tutti con uguale probabilità, cioè che sia /
P({l})
= P({2}) = P{{3}) = P({4}) = P({5}) = P({6}) = p
Il numero p risulta dunque determinato da.Ila.relazione 1 = P(f2)
= P({l} U {2} U {3} u {4} U {,5}U {6}) = = P({l}) + P({2}) + P({3}) + P({4}) + P({.5}) + P({6}) = 6p = ¼.Siamo ora in grado di calcolare la probabilità di tutti gli eventi.
cioè p Ad esempio se A = {1,3,,5} allora A si può scrivere come unione disgiunta {1} U {3} U {5} e dunque P(A)
= P( {1}) + P( {2}) + P( {3}) = ~
e più in generale per un evento A
e n sarà
P(A) =#A= 6
#A #f2
Spazi di probabilità
5
dove con il simbolo #A indichiamo la cardinalità dell'insieme A. Un problema tecnico invece si pone per l'Esempio 1.2. È ovviala scelta n = JR+ (f! è l'insieme dei possibili risultati). Vedremo inoltre che sotto certe ipotesi è ragionevole imporre che sia (1.2)
P([a,b])= e-;\a
-
e-;\b
dove >.è un parametro positivo. Non è invece chiaro quale sia la a-algebra degli eventi. Infatti gli intervalli [a, b] non costituiscono una a-algebra (non sono stabili per unioni finite o numerabili, ad esempio) ed inoltre la a-algebra P(f!) di tutte le parti di n non è adeguata perché non è possibile definirvi sopra una probabilità P che assuma sugli intervalli il valore dato da (1.2). Il problema dunque è il seguente: esiste una a-algebra di parti di lR+, contenente gli intervalli, sulla quale si possa definire una probabilità P che sugli intervalli prenda il valore dato da ( 1.2)? A questa domanda si può rispondere in maniera affermativa, usando però tecniche matematiche che vanno al di là degli obiettivi di questo testo. Torneremo su questo punto nel capitolo 3. Nelle Definizioni 1.3 e 1.4 abbiamo imposto delle condizioni, la iii) della Definizione 1.3 e la 2) della Definizione 1.4, che sono più forti di quanto gli esempi del paragrafo precedente suggerissero. Infatti ora imponiamo che una unione numerabile di eventi sia 1 ancora un evento (e non solo una unione finita) e che la probabilità P sia additiva su una famiglia numerabile (e non solo su una famiglia finita) di eventi a due a due disgiunti. È in effetti possibile definire dei modelli nei quali la probabilità è solo finitamente additiva e che sono molto utili in alcune situazioni; noi però adotteremo il pnnto di vista delle Definizioni 1.3 e 1.4 per vari motivi, non ultimo dei quali il fatto che questi modelli sono ormai usati quasi universalmente da molto tempo e che i risultati ottenuti sono soddisfacenti. Non è inopportuno comunque sottolineare ancora la differenza concettuale tra le due fasi dello studio di un fenomeno aleatorio. La prima (modellizzazione) è essenzialmente soggettiva (non ha senso, ad esempio, dimostrare che uno spazio di probabilità è un buon modello). La seconda, nella quale si fanno calcoli usando lo spazio di probabilità, necessita invece il rigore usuale in matematica. Il lettore non deve quindi stupirsi se nella fase di rnodellizzazione ci accontenteremo di argomenti euristici (parleremo di spazi di probabilità "ragionevoli" o "naturali") mentre una volta scelto lo spazio (f!,A,P) richiederemo che 1~ sue proprietà sia.no dimostrate e che i calcoli siano giustificati.
6
Capitolo 1
1.3 Spazi di probabilità
uniformi
Una situazione nella quale è facile costruire uno spazio di probabilità ragionevole che descriva un dato fenomeno aleatorio si presenta quando, per la natura del problema ( come nell'Esempio 1.1), si può supporre che tutti i possibili risultati abbiano la stessa probabilità di verificarsi. Sian un insieme di cardinalità finita.Una distribuzione di probabilità uniforme su n è una probabilità P tale che P( {w}) = p, dove w E ne p è un numero che non dipende da w. Dalla relazione 1 = P(n)
=L
P({w})
= p·
#n
wEO
si ricava che P( {w})
=p =
#ln. È ora facile vedere che se _poniamo per ogni
Acn ( 1.3)
P(A)
= p · #A= -#A #n
allora P è una probabilità sq P(n) ed è anzi l'unica che assegna a tutti gli eventi della forma {w} la stessa probabilità. Ritroviamo nella ( 1.3) una definizione popolare di probabilità: la probabilità di un evento è il rapporto tra il numero di casi favorevoli ( #.4.) ed il numero di casi possibili ( #n). Attenzione però: questa relazione vale solo quando la natura del fenomeno è tale che si possa supporre che tutti i possibili risultati sia.no equiprobabili. La formula (1.3) lega, per uno spazio di probabilità finito e uniforme, il calcolo della probabilità di un evento a quello della cardinalità di un insieme ( calcolo combinatorio).
Esempio 1.6 Qual è la probabilità di fare terno al lotto giocando i numeri 3, 13, 8ì su una singola ruota? Al gioco del lotto vengono estratte, per ogni ruota e senza reimbussolamento, 5 palline da un 'urna che ne contiene 90, numerate da 1 a 90. Possiamo scegliere per n l'insieme di tutte le cinquine w = (w1 , ••• ,w 5 ) dove gli w; possono assumere i valori da 1 a 90, ma devono essere tutti diversi tra. loro. Se l'estrazione non è truccata, è naturale supporre che tutte le possibili cinquine abbiano la stessa probabilità. di essere estratte, il che significa che è ragionevole considerare su n la distribuzione uniforme. L'evento che ci interessa è dato dal
Proprietà degli spazi di probabilità
7
sottoinsieme A e n delle cinquine che contengono i numeri 3, 13 e 87. Per (1.3) il calcolo della probabilità di A è ricondotto al calcolo delle cardinalità di A e di n. Vedremo più tardi alcuni risultati di calcolo combinatorio con i quali rispondere a questa domanda.
1.4 Proprietà
degli spazi di probabilità
Vediamo ora alcune proprietà generali di uno spazio di probabilità (n, A, P) come conseguenza delle definizioni. Osserviamo intanto che se A E A allora anche Ac E A e si ha A U Ac = n. Dunque se BE A abbiamo B = B n (A U Ac) = (B n A) U (B n Ac) e gli eventi B n A e B n Ac sono disgiunti; quindi ( 1.4)
= P(B n A)+
P(B)
• Se A E A allora P(Ac) r segue
da ( 1.4) scegliendo B
• Se A C B allora P(A) P(B)
~
= P(B n A)+
=1-
P(B n Ac)
P(A)
= n).
P(B). Si ha infatti da (1.4) P(B
• Dalla formula di De Morgan
n Ac) = P(A) + P(B n Ac) 2: P(A)
(UnAnf = nn A~
si ricava
( 1.5) Questa formula può essere utile nel calcol9 della probabilità. cli una riunione di eventi n~~-disgiunti. -· - - - - Esempio 1. 7 Qual è la probabilità di ottenere almeno una volta 6 lanciando due volte un dado? L'insieme dei possibili risultati è n = {w; w = (w 1 , w2 ), wi = 1, ... , 6, i = 1, 2}. È chiaro che #n = 6 x 6 = 36 mentre l'evento che ci interessa è
= (w1,w2) dove almeno uno degli Wi è 6} = A1 U A2 dove A; = {w; = 6} ( cioè A1 è il sottoinsieme
A= {w;w Possiamo seri vere A
8
Capitolo 1
delle coppie w = (w1 ,w2 ) che hanno la prima coordinata uguale a 6, mentre A2 è il sottoinsieme delle coppie per le quali è la seconda coordinata ad essere uguale a 6). Gli eventi Ai non sono disgiunti (la loro intersezione contiene w = (6,6)) ma Af n Af è l'insieme di tutti gli w le cui componenti w1,w2 possono prendere solo i valori da 1 a 5; dunque #(Af n Af) = 5 X 5 = 25. Per la (1.5) quindi
e
e
P(A) = 1 - P(A 1 n A2
)
25 11 = 1 - 36 = 36 = 0.306
• Probabilità della unione di pi_ù_eventi (non necessariamente disgiunti). Se A e -.Bsonoaue event1;ilforà-P(A
u B) = P(A)
+ P(B n Ac)
perché A e B n Ac sono disgiunti e la loro unione è A U B. D'altra parte per (1.4) P(B n Ac) P(B) - P(B n A) e quindi
=
( 1.6)
P(A U B)
= P(A) + P(B)
- P(A
n B)
Esempio 1.8 Rispondiamo alla stessa questione dell'Esempio ( 1.6). Con le stesse notazioni si ha
1.7 usando
Ora P(Ai) = P(A 2 ) =½(probabilità di ottenere 6 in un singolo lancio) mentre A 1 n A2 è costituito dal solo elemento (6, 6) ed ha dunque cardinalità uguale a 1. La probabilità richiesta vale dunque ½+ ½- 6 =
l
1~.
Formule simili a ( 1.6) esistono per la riunione finita di un numero qualunque di eventi. Ad esempio per tre eventi A, B, C si ha, usando ripetutamente ( 1.6), P(A U B U C) = P((A U B) U C) = P(A U B)
+ P(C)
- P((A U B) n C) =
+ P(B) - P(A n B) + P(C) - P((A n C) u (B n C)) = + P(B) + P(C) - P(A n B) - P(A n C) - P(B n C) + P(A n B n C)
= P(A) = P(A)
Come si vede queste formule diventano rapidamente complicate al crescere del numero n di eventi coinvolti e sono raramente usate al di là di n = 3.
Proprietà degli spazi di probabilità
9
Teorema 1.9 i) Sia {An}n una successione crescente di eventi (tale cioè che A1 C A 2 C .··he ... ) e A= UnAn. Allora
= n-+oo lim P(An)
P(A)
ii) Sia {An}n una successione decrescente di eventi e A= nn An. Allora
P(A)
= n-+oo lim P(An)
Dimostrazione. i) Poniamo B1 = A1, Bn = An \An-1· Gli eventi B1,B2 ... sono a due a due disgiunti; proviamo infatti che Bn e Bk, n-/- k, sono disgiunti: se n > k allora Bk C Ak, mentre Bn è contenuto in A~_ 1 che a sua volta è contenuto in Af. Bn e Bk sono dunque disgiunti essendo contenuti rispettivamente in A~ e Si ha inoltre
Ar.
n
An
= LJBk
k=I In effetti il modo più semplice di dimostra.re che due insiemi sono uguali consiste nel provare che il primo è contenuto nel secondo e il secondo nel primo. In questo caso se k :S n Bk e Ak C An e dunque An :J LJ;= 1 Bk. Se invece w E An, sia k il più piccolo indice tale che w E Ak. Chiaramente si ha w E Ak ma w (/. Ak-1 Bk. Allo stesso modo si e dunque w E Ak \ Ak-1 = Bk. Dunque An e LJ;=t dimostra che 00
A=
LJBk k=l
Poiché gli eventi B 1 , B2, ... sono disgiunti n
k=I n
OC>
P(A)
= "P(Bk) ~
= n-+oo lim
k=I
"P(Bk) ~
= n--+oo lim P(An)
k=l
che dimostra il punto i). Per il punto ii) basta osservare che se A = nn An allora Ac = UnA~. Ma poiché la successione {An}n è decrescente, {A~}n è crescente; applicando il punto i) si ha dunque P(A)
=1-
P(Ac)
=1-
lim P(A~)
n-+oo
= n--+CX> lim (1 -
P(A~))
= n-+cc lim
P(An)
10
Capitolo 1
1.5 Probabilità
condizionale,
indipendenza
Sia (n, A, P) uno spazio di probabilità. Definizione 1.10 Siano A, B E A con P(A) zionale di B rispetto ad A la quantità P(B
I A)=
> O. Si chiama probabilità condi-
P(A n B) P(A)
Intuitivamente la probabilità condizionale P(B verifichi sapendo che A si è verificato.
I A)
è la probabilità che B si
Esempio 1.11 Si giocano alla roulette i numeri 3, 13, 22. Poiché i possibili risultati sono 37 (i numeri da O a 36) ed è naturale considerare la distribuzione uniforme, la probabilità di vincere è 3/37. Se però veniamo a sapere che il gioco è truccato in modo che esca un numero dispari, qual è ora la probabilità di vincere? Se poniamo B = {3,13,22} e A= {1,3,5, ... ,3.5} un istante di riflessione mostra che ora la probabilità di vincere è P(B
I A)=
P(A n B) P(A)
1 9
La scrittura P(B I A) può trarre in inganno: non si tratta della probabilità dell'evento B I A (che non abbiamo definito), ma della probabilità dell'evento B secondo la nuova probabilità P(· I A). La nozione di probabilità condizionale è quindi legata al calcolo di probabilità quando si venga a sapere che sono verificati certi eventi. Essa è però importante anche nel problema di modellizzazione, perché un problema concreto spesso impone che, nello spazio di probabilità che si deve costruire, siano assegnate sia le probabilità di certi eventi, sia le probabilità condizionali di altri. Esempio 1.12 Una popolazione si compone per il 40% di fumatori (F) e per il 60% di non fumatori (N). Si sa che il 2,5% dei fumatori ed il 7% dei non fumatori sono affetti da una forma di malattia respiratoria cronica (M) . Qual è la probabilità che un individuo scelto a caso sia affetto dalla malattia? È chiaro che se (O, A, P) è uno spazio di probabilità che descrive questa si tu azione, A dovrà contenere gli eventi
Probabilità condizionale, indipendenza
11
F : l'individuo prescelto è fumatore N : l'individuo prescelto è non fumatore M : l'individuo prescelto è affetto dalla malattia e che dovrà essere
=
P(F) P(M I F)
P(N) P(M IN)
0.4 0.25
=
0.6 0.07
È quindi facile calcolare
+ P(M n N)
P(M) = P(M n F)
i F) + P(N)
= P(F) P(M
P(M
I N)
= 0.142
I
Siano A 1 , ••• , An eventi disgiunti tali che A 1 U ... U An = n (il che si esprime anche dicendo che A 1 , .•• , An costituisce una partizione di fl). Vale allora la formula di Bayes ' 1.7)
P(Ai
I B) = P(Ai)P(B I A;) =
t(A;) P(B I Ai) ì:::~= 1 P(Ak)P(B I Ak)
P(B)
La ( l. 7) è facile da verificare perché
P(A; e inoltre, poiché gli eventi A 1 i: B,
n B) = P(A;)
n B, ...
, An
n
1.8)
P(B)
=L k=l
P( BI
nB
Ai)
sono disgiunti e la loro unione
n
P(Ak n B)
=L
P(Ak)P(B
I Ak)
k=l
La (1.7) è interessante perché esprime le P(Ai :·anno intervenire le probabilità P( B I A;).
I B)
in termini di quantità
che
Esempio 1.13 (Continuazione dell'Esempio 1.12) Qual è la probabilità -~na persona affetta. dalla malattia respiratoria sia un fumatore? La. formula di Ba.yes applicata. alla partizione F, N dà. immediata.mente
che
P(F
I l\J) = P(M I F)P(F) = o 704 P(M)
.
Esempio 1.14 Tre mobili tra di loro indistinguibili contengono ciascuno due ·a,:;setti. Il primo contiene una moneta. d'oro in ciascuno dei due cassetti, il
12
Capitolo 1
secondo una moneta d'argento nel primo cassetto ed una d'oro nel secondo, il terzo una moneta d'argento in ciascuno dei due. Si apre un cassetto a caso e si trova una moneta d'oro. Qual è la probabilità che anche l'altro cassetto dello stesso mobile contenga una moneta d'oro? Consideriamo gli eventi A 1 : il cassetto prescelto appartiene al 1° mobile A2 : il cassetto prescelto appartiene al 2° mobile A3 : il cassetto prescelto appartiene al 3° mobile B : il cassetto prescelto contiene una moneta d'oro È chiaro che la probabilità richiesta è P(A 1 I B) ed inoltre che
P(B
I A1) = 1 P(B)
P(B
=~
1
I A2) = 2
= -31
i=
1,2,3
I B) = P(A1)P(B I Ai)
2 3
P(Ai)
Quindi la formula di Bayes dà P(A 1
che è un risultato probabilmente l'intuizione.
P(B)
diverso da quello suggerito inizialmente dal-
Notiamo che negli ultimi esempi non abbiamo descritto completamente lo spazio di__probabilità, ma. ci siamo limita.ti a. dire che (n, A, P) doveva. contenere certi eventi con assegnate probabilHà e probabilità condizionali. È chiaro però che una descrizione completa non sarebbe stata. difficile. Ad esempio nel caso dell'Esempio 1.14 avremmo potuto considerare n = {wi,j, i= 1, 2 j = 1, 2, 3} dove che w;,j corrisponde all'evento "viene scelto il cassetto i-esimo del mobile j-esimo", e quindi considerare su n la probabilità uniforme. Nel seguito vedremo che è spesso possibile evitare una descrizione completa. dello spazio di probabilità e che solo la conoscenza di una parte di esso sarà rilevante. Del resto la costruzione completa dello spazio di probabilità sarà sempre possibile, e spesso evidente come poco fa. Osserviamo infine che anche la formula (1.8) ha una sua propria utilità. Talvolta. non è immediato calcolare direttamente P(B) mentre si può trovare una partizione A 1, ... , An di n (cioè una partizione dell'evento certo) per la quale il calcolo di P(B I Ai) sia facile per ogni i (intuitivamente si tratta di decomporre B in tante parti la cui probabilità si calcoli più facilmente).
Probabilità condizionale, indipendenza
13
Esempio 1.15 Da un'urna contenente b palline bianche e r palline rosse ne viene estratta una che viene messa da parte senza guardarla. Qual è la probabilità che la seconda estratta sia bianca? Consideriamo gli eventi R 1 : la prima pallina estratta è rossa B 1 : la prima pallina estratta è bianca B 2 : la seconda pallina estratta è bianca È chiaro che, posto n = b + r, P(Ri) =; e P(B 1 ) =~-Inoltre
P(B2 I B1)
b-l
= -n-
l
poiché dopo la prima. estrazione di una. pallina. bianca nell'urna sono rimaste n -1 palline di cui b-1 bianche; analogamente P(B2 I R1) = n~l. Per la (1.8) P(B2) = P(B1)P(B2
I B1) + P(R1)P(B2 I Ri)
bb-l = - -nn-l
r + -nn-l -- b
b = n
doè la stessa probabilità che estrarre una pallina bianca alla prima estrazione. Definizione
1.16 ~i dice che A, B E A sono indipendenti se e solo se
P(A Definizione ,e e solo se
n B) = P(A)P(B)
1.17 Si dice che A1, ... , An E A sono a due a due indipendenti
-~·erogni scelta di i, j = 1, ... , n, i f::j. Si dice clie essi formano una famiglia di ,:-·:entiindipendenti se per ogni k '.Sne per ogni scelta di indici i 1 , ... , ik, tutti :::,;tinti e compresi tra 1 e n si ha ~
.9)
~: conoscono esempi di eventi indipendenti a due a due ma non globalmente . ..:...desempio se n = {1,2,3,4} con la distribuzione uniforme e A1 = {1,4}
A2={2,4}
:.:.:ora A 1 , A2, A3 sono indipendenti a due a due ma
A3 = {3,4}
14
Capitolo 1
Se A, B sono indipendenti e P(A) > O, allora la Definizione 1.17 implica P(B
I A)=
P(B)
cioè intuitivamente, ricordando il significato della nozione di probabilità condizionale, sapere se A sia verificato o no non apporta nessuna informazione che modifichi la previsione del verificarsi di B. Come la nozione di probabilità condizionale la nozione di indipendenza è utile nei problemi di modellizzazione. Esempio 1.18 Il lancio di una moneta dà testa con probabilità p, O ~ p ~ 1 e croce con probabilità 1 - p. La moneta viene lanciata n volte. Qual è la probabilità di ottenere una prefissata sequenza di teste e croci? Uno spazio ,di probabilità opportuno può essere
n = {w;w = (w1, .. dove 1 sta a = ½ allora distribuzione cerchiamo di sequenza
p
= 1 oppure
,,wn),wi
Wj = O,i
= 1, ...
,n}
indicare che si è ottenuto testa e O che si è ottenuto croce. Se P( {w}) = 2-n = perché sarebbe naturale considerare la uniforme su n (tutte le sequenze sono equiprobabili). Se p =/:-½ determinare quanto debba valere P( {w}) dove w è la particolare
in,
w
= (1, ...
, 1, o,... , O)
----------={ = k
volte
n-k
volte
Poniamo, per i = 1, ... , n, Ai w; Wi 1}; il sottoinsieme Ai corrisponde al1'evento "il risultato dell'i-esimo lancio dà testa" e quindi P(Ai) = p. Possiamo ora scrivere w = A1 n ... n Ak n Af+ 1 n ... n A~ Poiché non c'è motivo di pensare che la conoscenza del risultato di alcuni lanci dia informazioni utili alla previsione degli altri, gli eventi A1, ... , Ak, Af+ 1 , ... , A~ devono risultare indipendenti. Dunque
P( {w})
= P(A1) ...
P(Ak) P(Af+
1 ) .•.
P(A~)
= pk(l
- p)n-k
Un istante di riflessione ora fa ca.pire che questo risultato dipende solo dal numero di 1 presenti n{'lla sequenza e non dalle loro posizioni. Abbiamo quindi ottenuto la formula (1.10)
Calcolo combinatorio
15
dove k è il numero di 1 presenti nella sequenza w. Nell'Esempio 1.18 si costruisce uno spazio di probabilità per una situazione molto frequente: quella in cui si è in presenza di una successione di esperimenti casuali tra di loro indipendenti e ciascuno dei quali può dare luogo a due possibili risultati che chiameremo convenzionalmente successo (e indicheremo ,- _ _ con 1) e insuccesso (O). ' I Parleremo di schema successo-insuccesso o di schema di Bernoulli/facendo riferimento a questa. situazione. · - --- ".' ,' ,, ' .,. ." \ ) It ;: : ·, i., •• 't- I ' "
I :,,·.·. ··
t-'1-
.
1.6 Calcolo
l .
'
...
;
,,,..-_1.
combinatorio
J_;.t I
TIcalcolo combinatorio si occupa di calcolare la. cardinalità degli insiemi finiti e quindi fornisce formule utili per il calcolo della probabilità di eventi quando si è in presenza. di spazi di probabilità uniformi. Ora ne vedremo alcuni risulta.ti con le loro applicazioni. Non da.remo le dimostrazioni, che si possono tutte ottenere facilmente per ricorrenza.. Osserviamo comunque che da.Ile formule se ne possono ricava.re altre usando la. regola di base del calcolo combinatorio: due insiemi hanno la. stessa. cardinalità. se e solo se si possono mettere in corrispondenza. biunivoca. Nel seguito indicheremo con N, I( degli insiemi di cardinalità n e k rispet'.ivamente. Proposizione 1.19 N X I( ha. cardinalità nk. Nm ,.-olte) ha dunque cardinalità nm. Proposizione
1.20
Supponiamo
=N
X
N
X ...
X
N (m
Dk delle
k :ç n. La cardinalità dell'insieme I
applicazioni inietti ve
f: I(
-+
N è ( n :· k )!
. -
I.
Osserviamo che dare una applicazione iniettiva. da /( in N equivale a scegliere :na k-upla ordinata (n 1, ... , nk) di elementi di N tutti distinti tra loro_.__ Q~_~r~ : na disp_o~izione di k elementi di N. · Se n = k a.llora possiamo supporre I( = N ed una. applicazione iniettiva. :: .Y in se stesso è una permutazione. L'insieme delle permutazioni di N ha :·1indi cardinalità n!. Indichiamo con C'f l'insieme dei sottoinsiemi di N di cardinalità k. -
16
Capitolo 1
Proposizione
1.21 C'f ha cardinalità
(n) k
n! - k!(n- k)!
Esempio 1.22 Si gioca al lotto la cinquina secca (1,2,3,4,5) su una ruota (cioè si vince se i numeri escono nell'ordine). Qual è la probabilità di vincere? Nelle estrazioni del lotto i numeri estratti non vengono rimessi nell'urna. L'insieme n dei possibili risultati è quindi costituito da tutte le cinquine w = (w1 , ••• , w 5 ) dove gli Wi sono diversi tra loro e possono prendere tutti i valori interi da 1 a 90. n è dunque in corrispondenza biunivoca con l'insieme di tutte le applicazioni iniettive di {1, ... ,5} in {1, ... ,90} ed ha. quindi cardinalità 90!/85!. La. probabilità richiesta è quindi (è naturale considera.re la. probabilità uniforme) 8.5!/90!. Se invece avessimo giocato la. cinquina semplice, con la. qua.le si vince se i 5 numeri escono in un ordine qualunque, allora avremmo potuto a scelta a) calcola.re la cardinalità dell'insieme A degli w E n tali che {w1 , ••• ,ws} = {l, ... , 5} ( cioè tale che w 1 , ••• , w 5 siano i numeri 1. ... , 5 eventualmente in un ordine diverso) e quindi ca.lcola.re #A/#f2; b) più semplicemente considerare Io spazio di probabilità n = C,~0 ed ottenere immediatamente la quantità cercata: 1/ (95°). In quest'ultimo esempio si vede che la scelta di n non è unica. e che uno stesso problema può essere risolto correttamente (ma con diversa difficoltà) scegliendo spazi di probabilità. diversi. Esempio 1.23 Qual è la probabilità che tra n persone scelte a caso almeno due festeggino il compleanno nello stesso giorno? Possiamo scegliere n = dove S = {1, ... , 365}. Dunque un generico w E n è della forma w = (w 1 , .•• , Wn) dove Wi può assumere i valori da 1 a 365. Se supponiamo (il che non è del tutto corretto perché si sa che le nascite sono più frequenti in certi periodi dell'anno) che la probabilità che una persona sia nata in un determinato giorno sia uniforme su {1, ... ,365}, \ possiamo considerare la probabilità uniforme su n. Dobbiamo ora calcolare la cardinalità di A = {w E f!; w ha almeno due componenti uguali}. È però più facile calcolare la cardinalità di Ac = {w E n; w ha tutte le componenti diverse} perché Ac si può mettere in corrispondenza biunivoca. con D~65 • Dunque #n = 365n e #Ac = 365!/(365 - n)! da cui
sn
P(A)
=l
In particolare per n
_
365! 365n(365 - n)!
= 23 si ha
P( A)
=1_
364 363 ... 365 - n 365 365 365
= 0.507 > 1/2
e per n
+1
= 50 P( A) = 0.97 4.
Calcolo combinatorio
17
Esempio 1.24 egge ipergeometric Da un 'urna contenente b palline bianche e r rosse se ne estraggonÒ. ".n n ~ b + r) senza reimbussolamento. Qual è la probabilità che esattamente k di esse siano rosse? Possiamo considerare n = c~+re su n la probabilità uniforme P (al solito A = P(Q)). Supponiamo che le palline siano numerate da 1 a b + r e che le palline rosse siano quelle con i numeri ~ r. Quindi n è l'insieme di tutti i sottoinsiemi w = {w1,. .. ,wn} di {l, ... ,b+ r}. Se
Ak
= {w;
w contiene esattamente
k elementi con indice ~ r}
la probabilità richiesta è il quoziente tra #Ak e la cardinalità di n che è data dalla Proposizione 1.21. Ma un attimo di riflessione mostra che Ak si può mettere in corrispondenza biunivoca con c{x :-Qliindi ·- - lfì1c ,_-,;.\i~ : ___,, ---·-::-. -..-\:
c!-k
\
(
; -i.
"
~
••
,
'
'(·-
!,
,L.
, 1.11)
, naturalmente a condizione che sian - k ~be k ~ r). La (1.11) definisce una ?robabilità su {O, 1, ... ,n} che si chiama ipergeometrica. La (1.11) permette di risolvere immediatamente la questione dell'Esempio 1.6; ,:onsideriamo le 90 palline nell'urna suddivise in due gruppi ( come le palline ~osse e bianche di poco fa): il primo gruppo costituito dalle palline 3,13,8ì -::dil secondo da tutte le altre. La probabilità di fare terno non è altro che la ~Jfobabilità, in cinque estrazioni, di avere 3 palline del primo gruppo e 2 del "'?condo. Cioè
1
= 11748 = 0.000085
Esempio 1.25 Un'urna contiene b palline bianche e r rosse; k - l palline ~-< b + r) vengono estratte e messe da parte senza guardarle. Qual è la ;·~obabilità che la k-esima estratta sia rossa? Consideriamo n = nt+r. Posto al solito w = (w1, ... ,wk), Ai = {wi 3} è l'evento "la i-esima pallina estratta è bianca". Chiaramente P(A 1 ) . ..:__.mentre la probabilità richiesta è P(Ak). Ma l'applicazione
+ = k + m}
P{ X P {X 2 k}
k-} = P{X
= k + m,X P{X2:k}
p(l - P)k+m
= (1 -
p) k
2 k}
=
m
= p( 1 -
P)
=
= P{X = m} è detta la proprietà di mancanza di memoria, della di stri huzione geo- ~-trica. La ragione di questo nome è illustrata dall'esempio seguente. ~2. ( 2.9)
30
Capit.olo 2
Esempio 2.11 In uno schema successo-insuccesso supponiamo di non avere ottenuto alcun successo nelle prime k prove. Qual è la probabilità di dover attendere ancora m prove per avere il primo successo? Se indichiamo con T l'istante di primo successo, allora con un attimo di riflessione si vede che la probabilità richiesta non è altro che la probabilità condizionale P{T = k + m I T > k }. Poiché T- 1 è una v.a. geometrica, grazie a (2.9) abbiamo
P{T = k + rn I T
> k} = P{T= P{T-
1 = k + m -1 I T- 1 ~ k} = 1 = m - 1} = P{T = m}
Dunque la probabilità di dover attendere per il primo successo ancora rn prove è la stessa che si avrebbe se le prime k prove senza successi non avessero avuto luogo. Questa proprietà è del resto ovvia se si pensa che in uno schema a prove ripetute indipendenti i risultati delle prime prove non influiscono sulle successive; dunque, se le prime k prove non hanno dato successo, non si vede perché la probabilità di avere successo nelle prove successive debba essere modificata. La proprietà di mancanza di memoria è in realtà una caratteristica della distribuzione geometrica: si può dimostrare che se una v.a. gode di questa proprietà ed è a valori interi positivi, allora si tratta necessariamente di una v.a. di legge geometrica (Esercizio 2.11) . Osservazione 2.12 Spesso in un gioco che consiste in prove ripetute indipendenti (lotto, roulette, ... ) i giocatori usano la tecnica di giocare sugli C'venti in ritardo. Cioè, ad esempio, di puntare sistematicamente su un numero al lotto che non esca da molte settimane. Se le prove ripetute sono indipendenti, è chiaro che questa tecnica non ha fondamento, a causa della proprietà. di mancanza di memoria della legge geomtrica, per la quale la probabilità di dover attendere un certo numero di estrazioni l'uscita di un numero non dipende dal ritardo del numero. I giocatori che usano questa tecnica sostengono però che se, ad esempio, un numero al lotto ha un ritardo di 100 settimane, allora se esso non uscisse si avrebbe un ritardo di 101 settimane. Poiché la probabilità di un tale ritardo è effettivamente molto piccola (vedi Esercizio 2.9) è molto improbabile che ciò si verifichi. , Dov'è l'errore in questo ragionamento? Osservazione 2.13 In alcuni degli esempi abbiamo fatto ipotesi che ci hanno permesso di costruire un modello con il quale abbiamo calcolato le probabilità che ci interessavano. Ad esempio nel caso delle prenotazioni aeree abbiamo
Variabili aleatorie discrete
31
supposto che i comportamenti dei singoli passeggeri fossero tra di loro indipendenti. A ben guardare non è una ipotesi totalmente ovvia, perché si sa che i passeggeri viaggiano spesso in gruppo (famiglie, squadre di calcio ... ), il che significa che i comportamenti dei passeggeri del gruppo non sono indipendenti (o partono tutti o non parte nessuno). L'ipotesi d'indipendenza in questo caso, come in altri, va quindi considerata come una prima approssimazione, che comunque permette di costruire un modello semplice e di dare delle risposte. È però naturale il problema di verificare a posteriori se il modello sia adeguato o no. È questa una questione che prende il problema al contrario rispetto a come lo abbiamo sempre considerato: mentre finora abbiamo fatto delle previsioni sul fenomeno basate sul suo modello, ora si richiede, a partire dall'osservazione del fenomeno, di ricava.re delle informazioni sul modello. È questo un tipico problema di Statistica Matematica. Il Calcolo delle Probabilità e la Statistica Ma.tematica si servono degli stessi strumenti matematici ma, mentre il primo usa un modello per fare delle previsioni su un fenomeno, la seconda cerca, al contrario, di ricavare informazioni sul modello a partire dall'osservazione. Ne diremo di più nel capitolo 6. Si chiama distribuzione di Poisson di parametro {
p(x) =
e->.
_xx
O
x!
X=
À, À
> O, la densità
0, 1, 2, ...
altrimenti Si tratta di una densità, perché lo sviluppo in serie di potenze della funzione Psponenziale dà · 00
_xk
e>--~_ . - ~ k! k=O
·' quindi (2.3) è verificata. Vedremo tra poco delle situazioni in cui le distribuzioni di Poisson appa:0no in modo naturale. Mostriamo intanto che esse possono essere usate per ~p.rossimare leleggi binomiali. Consideriamo infatti una v .a. X ,....,B( n, .X/n) ~ studiamo il comporta.mento della legge di X per n -+ oo.
P{X=k}=
_xk( À)n-k (~)k (1-~)n-k k!(n - k)! = _xk(i-~)nn(n-1) ...(n-k+l) (i-~)-k k! (;)
----
n
nk
n!
nk
1--
n
n
32
Capitolo 2
dove abbiamo usato i limiti
( 1 - ~)
n -
e-À
n( n - 1) ... ( n - k
+ 1) _
1
nk
(il limite per n - oo del rapporto di due polinomi aventi lo stesso grado è uguale al quoziente dei coefficienti del termine di grado massimo, qui entrambi uguali a 1). Quindi, se X è una v,a. çli legge B(n,p), con n grande e p piccolo, la sua legge può··essere approssimat-a-coit una distribuzione di Poisson _di parametro np. Ciò è molto utile, perché per n grande la manipolazione dei coefficienti binomiali è disagevole. Questo calcolo implica anche che le distribuzioni di Poisson appaiono in maniera naturale come leggi di quantità" casuali X che rappresentano il numero di successi su un numero molto grande di prove ripetute indipendenti, in ciascuna delle quali la probabilità di successo sia molto piccola. Un esempio tipico di questa situazione è il numero di telefonate che giungono ad un centralino in un determinato periodo di tempo. Si può infatti supporre che il numero di persone che potrebbero fare una chiamata sia molto grande e che ciascuna di esse chiami effettivamente con piccola probabilità (e indipendentemente dalle altre). Ripetendo questo tipo di argomentazioni si può supporre che seguano una distribuzione di Poisson a) il numero di complicazioni postoperatorie per un dato intervento chirurgico in un dato periodo di tempo (purché il numero di interventi nel periodo considerato sia elevato e la probabilità di complicazione piccola); b) il numero di piante di un determinato infestante presenti in una. parcella di terreno; c) il numero di clienti che si presentano ad uno sportello in un dato periodo di tempo; eccetera.
Data una v.a. X si chiama funzione di ripartizione la. funzione Fx : IR - [O,1]
denrnta':--da Fx(t)
= P{X
:St}
!:?.flinzione di ripartizione (f.r.) è definita per ogni v.a. (discreta o no) ed è chiar 10 che è ~empre una funzione non-decrescente, poiché se t cresce l'evento {X :S t} diventa più grande. Vedremo più a.vanti quali sono in generale le proprietà di una. f.r. Per ora limitiamoci a trattare il ca.so delle v.a .. discrete.
Variabili aleatorie discrete
33
Se al solito x 1 < x 2 < ... sono i valori assunti da X, allora Fx è costante :-,ell' intervallo ]xi, xi+ 1 [, poiché se Xi < t < Xi+i allora {X :s;t} = {X :s;Xi}. In particolare se X è a valori interi, allora Fx è costante nell'intervallo tra due :nteri successivi, (mentre può presentare una discontinuità in corrispondenza ,:i:i valori interi).
1
O
Figura 2.4
1
2
3
4
5
6
Funzione di ripartizione di una v.a. uniforme su O, ... , 6.
1
O Figura 2.5
1
2
3
4
5
6
Funzione di ripartizione di una v.a. di legge B(6, 0.5).
La funzione di ripartizione è importante perché la suaconoscenza è equivaInfatti per (2.5) .
--=-l~a quelfa-aeffa-dist~ibuzione d(X. Fx ( t)
= L p( x) x~t
: :.e esprime la f.r. in termini della densità. Viceversa supponiamo per semplicità
· · ,,.X prenda solo valori interi, allora .:. l O)
F x (k) - Fx ( k - 1)
= P { k - 1 < X :s;k} = P { X = k} = p( k)
34
Capitolo 2
Talvolta per calcolare la densità di una v .a. può essere più facile calcolare prima la funzione di ripartizione Fx (o, che è lo stesso, la funzione 1 - Fx) e poi da questa ricavare la densità tramite (2.10). È questa la procedura seguita nell'Esempio 2.9 per trovare la densità del tempo di primo successo.
2.3 Leggi congiunte,
indipendenza
La seguente è un 'estensione della definizione di v.a. al caso di applicazioni a valori in JRm.
Definizione 2.14 Una v.a. m-dimensionale discreta (oppure un vettore aleatorio discreto) è un'applicazione X= (X 1 , ••. ,Xm): n----+ Illm tale clie le applicazioni X 1 , ... , X m siano delle v.a. reali discrete.
È chiaro che se X è una v .a. m-dimensionale discreta allora essa può assumere al più un'infinità numerabile di valori x E Illm. Infatti sex= (x 1 , ... ,xm) E Illm allora {X= x} = {X1 = xi} n ... n {Xm = Xm} x è dunque un valore assunto da X se e solo se simultaneamente x 1 è un valore assunto da X 1 , x 2 un valore assunto da X 2 eccetera, e questi sono al più una infinità numerabile. La relazione precedente mostra inoltre che {X = x} è un evento, come intersezione di eventi. Indicheremo con x,x ( 2 ) , ... ~11amo per semp 1·ICJta 0
::1dichiamo al solito i possibili valori di X e x(i) = (x~i), x~i)), allora X 1 assume : valori xP>, x~2 ), • •• ( eventualmente non tutti distinti tra loro) e
P1(z) = P{X1 = z} = r(l){X1 2.13)
= z,X2 = x~i)}) =
i
= L P{X1 = i
z, X2 = x~i)} =
L p(z, x~i)) i
.-'\nalogarnente si ha 2.14)
-"on è invece possibile, in generale, conoscendo le sole densità marginali ri:ostruire la densità. congiunta, poiché densità congiunte diverse possono avere :iensità marginali uguali.
36
Capitolo 2
Esempio 2.15 Da un'urna contenente 6 palline numerate da 1 a 6, se ne estraggono 2 con rimpiazzo. Indichiamo con X 1 e X 2 rispettivamente i risultati delle due estrazioni e calcoliamo la distribuzione congiunta di X 1 e X 2 ( cioè la distribuzione di X= (X1,X2)). I possibili valori di X sono le coppie ( i, j) dove i e j possono prendere i valori interi da 1 a 6. Si tratta di 36 valori possibili, e poiché essi sono chiaramente equiprobabili, ciascuno di essi verrà assunto con probabilità }6 • La situazione può essere visualizzata nella Figura 2.6, nella quale con • indichiamo i possibili valori. Inoltre le v.a. X 1 e X 2 prendono entrambe i valori interi da 1 a 6, tutti con probabilità ½poiché anche in questo caso i valori sono equiprobabili. Dunque entrambe le distribuzioni marginali di X sono la distribuzione uniforme su {l,2,3,4,,5,6}.
Figura
6
•
•
•
•
•
•
5
•
•
•
•
•
•
4
•
•
•
•
3
•
•
•
• •
2
•
•
• •
• •
•
•
•
1
• • •
•
•
•
1
4
5
6
2
3
2.6
Effettuiamo ora invece due estrazioni senza rimpiazzo, che indicheremo con Y1e Y2e poniamo al solito Y = (Y1 , Y2). I valori della v.a. Y non sono gli stessi poiché, ad esempio, il risultato (1, 1) non è più possibile. I risultati possibili sono infatti le coppie (i,j) con i e j variabili in 1,2,3,4,5,6, ma con i e/-j. Si tratta di 30 valori, tutti equiprobabili, e dunque assunti ciascuno con probabilità 310 • Ciò si può vedere nella Figura 2.7, dove però ognuno dei valori indicati col simbolo • viene assunto con probabilità }0 • D'altra parte però anche le v.a. Yi e Y2 hanno distribuzione uniforme su { 1. 2, 3, 4, .5,6} (Esempio 1.25) e quindi le distribuzioni marginali sono le stesse che per le ef.trazioni con rimpiazzo.
Leggi congiunte, indipendenza
37
~:amo dunque in presenza di due densità congiunte diverse ma aventi le marginali.
,·.oc;:e
6
•
•
•
5
• • •
•
4
•
•
3
•
•
2
•
1 1
•
• •
•
•
•
• • •
• • • 6
•
• •
• •
2
3
5
4
•
Figura 2. 7
~~;r:!i~ip2e.t~~e
~::ir:~~~ii~~;~~l~~;~~~i~~s;ee~·~a~~-~1~~-~!:~~~-~~~
· :>ati possibili, che indicheremo convenzionalmente 1, ... , m, rispettivamente ·: ~, probabilità q1 , •.• , Qm • Indichiamo con Y; il numero di prove che hanno :o.ro per risultato i, i= 1, ... ,m (quindi Y1 + ... + Ym = n). Qual è la legge :.0: vettore Y = (Y1, ... , Ym)? Consideriamo lo spazio di probabilità costituito dall'insieme
S1= {w;w = (w1, ... ,wn)} : :in• wk può prendere i va.lori 1, ... , m ( ovvero n = {1, ... , m} n) e della ,.:e:ebra A di tutte le parti di n. Definiamo su n le v.a.
k
:'Sta relazione è di grande importanza teorica perché mostra che la densità di X: cioè se Y è un'altra v.a. (eventualmente :-:::'.nita su un altro spazio di probabilità) ma avente la stessa densità p, allora ,. ::.-"nsitàdi (Y)è la stessa di (X).
: X) dipende solo dalla densità di
44
Capitolo 2
Esempio 2.23 Siano U1, ... , Um v.a. indipendenti di legge di Bernoulli B(l,p). Allora U1 + ... + Um è binomiale B(m,p). Abbiamo già visto che se X 1 , ... , Xm sono le v.a. definite nell'Esempio 2.18 da Xi(w) = wi, esse sono indipendenti e di legge B(l,p). La loro somma X è il numero di successi in m prove, che quindi segue una legge B(m,p). Ora le v.a X 1, ... , X m e U1, ... , Um hanno la stessa legge congiunta ( sono indipendenti ed hanno le stesse marginali) e dunque, se poniamo :>isogna. prima. calcolare la densità di Z e poi la serie in (2.25). Per questo - ~ >o utile il risultato seguente. Indichiamo con x(l), x< 2 l, ... i valori assunti . , ·,: e con p e g rispettivamente le densità di X e Z. ~-
0
-'- 0
-:-':-Orema 2.29 __
'::_1I
Z ha speranza ma.tematica finita se e solo se
48
Capitolo 2
e in questo caso (2.27)
Dimostrazione.
Indichiamo con z1 , z2 ,
Quindi
{Z =
Zj}
...
i valori assunti da Z e poniamo
LJ{X=
=
x 1
=
è: una f.r. continua. Si tratta della f.r. di una v.a. a valori nell'intervallo [O,1] ---------;)Oiché P{O ~X~ 1} = F(l) - F(O) = l.
3.2 Variabili
aleatorie
assolutamente
Definizione 3.4 Una funzione _: ~ O, f è integra.bile su Ill e
f : Ill
continue -+
Ill si dice una densità se e solo se
j +oo J(x) dx= -oo
l
~ia X una v.a., F la sua f.r. e sia f una densità: diremo che X ha densità J se
F(x)
= J_xoo J(t)dt '\
: ':vero, che è equivalente, se 3.6)
P{a
~X~ b} = F(b) -
F(a) =
:::-1realtà è facile vedere che se una funzione
f
~
1b
J(t) dt
O soddisfa a (3.6) per ogni
78
Capitolo 3
a, b E Ill, a ~ b allora essa è automaticamente e b -+ +oo nella (3.6) 1 = lim F(b) b-+oo
lim F(a)
a-+-oo
una densità. Infatti per a-+ -oo
=
j
_
+oo
J(t) dt 00
Le proprietà dell'integrale mostrano subito che se vale (3.5) allora F è continua, ma si conoscono esempi di v.a. continue che non hanno densità. Chiameremo assolutamente continue le v .a. che hanno densità. Osserviamo però che la densità f associata ad una v.a. X tramite (3.5) oppure {3.6) non è unica: se g, ad esempio, è una. funzione che differisce da J solo in un punto (o più in generale in un insieme di misura nulla), allora gli integrali in (3.5) o (3.6) non cambiano se si sostituisce g a f; dunque anche g è una densità per X. Per (3.6) il calcolo di eventi del tipo {a :$ X :$ b} si riconduce al calcolo di regioni in cui f assume valori grandi un integrale (Figura 3.3). In ~ticolare sono regioni nelle quali X prende valori con probabilità elevata. . . . ' .. . . .. . .. . ...'' .. .... . . .... . .. . .. . ' . ... . . . . . . .. . . . .. ... . ... .'.'. .. . . ...... . . . . . . . . . . . ... . . . . . ... ... .... . . . . . . . . . . .... . .. .. . .. . . . . . .. . . . . . . . . ... ... ... ... ...... ... .. . .. .... .. . .. . .. ' ........... ' . ............. . .... ... .. . . . .. . ... .. . ... .' . .. . .. . ... .. . .. ... . .. . .. ............. . . . . . .. .. .... . . ' .... . .. . .. .. .' ...... ' . . ....... ... .. . . ... .. ...... . ....... ... ... .. .. .. .. .. .. ..... . . .... .. ... . .. ... ....
Figura
3.3
a
b
La (3.5) permette, almeno in teoria, di calcolare la f.r. F se si conosce la densità f. Viceversa supponiamo nota la. f.r. F e supponiamo di voler calcolare la densità f (o meglio una densità!). Per questo basta osservare che (3.5) non fa che affermare che F è la funzione integrale di f. Per il teorema fondamentale del calcolo integrale se F è una funzione derivabile con derivata continua su tutto IR (tranne al più in un numero finito di punti) allora F è la funzione intPgrale della sua derivata F'. Dunque f = F' può essere scelta come densità ?'='r F. Esempi 3.5 a, La f.r. F dell'Esempio 3.2 è derivabile con derivata continua tranne che
Densità congiunte, indipendenza
per t
= O. La sua
79
derivata vale
( 3.7)
f(t) =
{
.Xe->-t
set>
o
O
altrimenti
Vedremo più avanti che si tratta di una densità importante ( de'flsità esponen·-::iale di parametro À ). b) Anche la f.r. dell'Esempio 3.3 è derivabile con derivata continua tranne che in O e in 1. La sua derivata vale f(t)
= {~
se0(:i:)
d
dy _
lf(x, y)I dx~
+oo
,j.,(y)
e
Naturalmente in questo caso può succedere che alcune delle quantità. a, b, e, d, (x),1/J(x),J(y), 'efl(y)assumano i valori +oooppure -oo e che gli integrali su R che figurano nel termine a destra delle (3.10) o (3.11) siano degli integrali generalizzati. Esempio
3.8 Fissiamo e
> O e consideriamo l'insieme
A= {(x,y);O < x,cx < y}
(si tratta dell'area ombreggiata ne1la Figura 3.5).
Figura 3.5
Calcoliamo l'integrale su A della funzione f(x, y) = x- 1 12 y- 1 12 e-(:i:+y)/ 2 • Si tratta. di un integrale generalizzato perché sia A che f sono illimitate, ma per applicare le formule (3.10) o (3.11) in questo ca.so è inutile verifica.re che l'integrale converge assolutamente, dato chef è positiva .. Per (3.10) l'integrale
Densità congiunte, indipendenza
83
doppio si riduce al calcolo di
Con il cambio di variabile v
= y/x
---
dy
r+oo y-1/2e-y/2
lcx
= xl/2
j+oo v-1/2e-vx/2
dv
e
e cambiando l'ordine d'i11tegrazione
= je
+oo
j
+oo
= Ponendo t
= v 1 12
v-1/2
r+oo lo e-x(v+l)/2
dx
2 -,----dv
vl/2(v+l)
e
quest'ultimo integrale diviene
J
4
+oo
,1c
--2
1 +t
dt
= 21r -
4 arctan
ve
Torniamo alla considerazione delle densitit congiunte. Come per il caso reale si può dimostra.re che se una densità congiunta J esiste ( cioè se esiste una funzione f per cui valga (3.9)) allora. essa deve essere ~ O, integrabile e tale che
l
2
J(x, y) d:r_ dy
=1
Come per le v.a. discrete si possono ricavare dalle quantità congiunte (f.r., densità) le rispettive quantità marginali. Ad esempio calcoliamo a partire da F la f.r. Fx di X. Per definizione Fx(x) = P{X ~ x}
84
Capitolo 3
Gli eventi {X $ x, Y $ n} costituiscono una successione crescente al variare di n e, con il metodo della doppia inclusione, è facile verificare che 00
LJ{X $ x,Y $ n} ={X$
x}
n=l
Dunque per il Teorema 1.9
Fx ( x) = P {X $ x} = lim P {X $ x, Y $ n} = lim F( x, n) _
n--+oo
= y-oo lim
n--+oo
F(x,y)
Allo stesso modo si ottiene l'altra f.r. marginale
=
Fv(Y)
lim F(x, y)
X---+00
Ricaviamo ora le densità marginali da quella congiunta. Si può scrivere {a$ X$ b} = {fY,Y) E A} dove A= v E IR} e per (3.9) P{a $X$
b} = P{(X,Y)
= 1b
du
E A}=
1-: 00
i
{(u,v);a $ u $ b,
l(u,v)dudv
l (u, v) dv
Dunque se poniamo
= j_
+oo
(3.12)
lx(u)
00
l(u,v)dv
allora si ha
1blx(u)du
P{a$X$b}=
che vuole dire che lx data da (3.12) è la (o meglio una) densità. per X. Analogamente la densità lv di Y è data da
= j_
+oo
:3.13)
lv(v)
00
l(u,v)du
b particolare se esiste una densità congiunta f, allora esistono le densità :-:~2,ginali lx e fy che si possono calcolare con (3.12) e (3.13). Vedremo che ::·:" \·.a. X e Y possono a.vere ciascuna una densità, senza però che esista. una ::-e-:frà congiunta.
Densità congiunte, indipendenza
Esempio densità
3.9
(Distribuzione uniforme sul ce~·chio) Sia Z -···-~--.,,__,
·-·-·
·• .-.
-• ,:,.
f(x,y) = {
_.e·~
1 -
•
.
se x 2
-
+ y2 ~
= (X,
85
Y) una v.a. di
1
1r
O
altrimenti
Calcoliamo le densità marginali. Nel calcolo dell'integrale in (3.12) fissiamo u, con -1 ~ u ~ 1. Allora, come funzione di v tenendo u fissato, si ha J( u, v) = ¾ se u 2 + v2 ~ 1, ovvero se-~~ v ~ vf=u2 e f(u,v) = O altrimenti. Dunque, calcolando l'integrale di (3.12)
f x( u) = Se invece
lui> 1 si vede facilmente '\
fx(n)
= O per
che f(u,v)
ogni v. In conclusione
2
{
-~
= ;
altrimenti
Analogamente si ottiene
fv(v)
={
~~ 7r
o
altrimenti
Definizione 3.10 Le v.a. X 1 , .•• , X m si dicono indipendenti se e solo se per ogni scelta di a1, b1·,... , am, bm con a1 ~ b1, ... , am ~ bm si ha
P{a1 ~ X1 ~ b1, .. . ,am ~ Xm ~ bm} = = P{a1 ~ X1 ~ b1}... P{am
~ Xm ~
bm}
Diremo che le v.a. X 1 , •. . ,Xn, ... (un numero infinito) sono indipendenti se e solo se per ogni m > O risultano tra loro indipendenti le v.a. X 1 , ... , Xm.
La Definizione 3.10 nel caso di due v.a. X, Y si riduce a richiedere che sia
(3.14)
P{a
~X~ b,c ~ Y ~
d} = P{a
~X~
b} P{c
~ Y ~
per ogni a ~ b, e ~ d. In altre parole occorre che gli eventi {a {e ~ Y ~ d} sia.no indipendenti per ogni scelta di a, b, e, d.
~
d} X
< b} e
86
Capitolo 3
Supponiamo che X e Y abbiano densità congiunta Allora (3.14) diviene
ie la1 d
(3.15)
Quest'uguaglianza
b
f(x,y)dxdy
=
j
d
fy(y)dy
Je
marginali
Jx,
fy.
1b la fx(x)dx
è certo soddisfatta se
(3.16)
f(x, y)
= fx(x)fv(Y)
per ogni x, y. Viceversa si può dimostrare che, se vale (3.15) per ogni scelta di a :::; b, e :::; d, allora necessariamente deve valere (3.16), tranne al più per un insieme di punti (x, y) di misura di Riemann nulla. In altre parole ~-~_Q!lO indipendenti se e solo se vale (3.16) per ogni (x,y_) E IR2 tranne al più su un ·iniieme di misura nulla. ·· Analogamente a quanto si è visto per le v.a. discrete, per determinare l'indipendenza di due v.a. X e Y basta conoscere la loro densità congiunta f: a partire da J si possono calcolare le densità marginali f x e fy tramite (3.12) e t"" (3.13) e quindi verificare se vale (3.16.), In particolare se X, Y sono indipendenti e U, V sono altre v.a. aventi la stessa densità congiunta, allora sono anch'esse indipendenti. Osservazione 3.11 Un semplice criterio d'indipendenza Supponiamo che le v.a. X, Y abbiano densità congiunta
f
div.a. è il seguente. della forma
;;=!1(:c)fz(y) e Y sono indipendenti. Infatti, poiché f è una densità congiunta, deve f(x,y)
Allora X essere
1-: 1-: 00
Dunque, posto e= fx(x)= fy(y)
J fz(y)
fi(x) dx
00
fz(y) dy
dy, le marginali di f sono date da
J+oo J(x,y)dy?::.f1(x) -= fz(y)dy=cfi(x) J_+oo +oo !+ f1(x)dx = ~1 fz(y) = -oo f(x,y)dx = fz(y) -c,:i 00
J
00
da cui la relazione d'indipendenza f(x,y) risulta verificata.
=l
= fx(x)fy(y)
Densità congiunte, indipendenza
87
Esempio 3.12 Le v.a. X, Y dell'Esempio 3.9 sono indipendenti? Le densità marginali lx, lY sono strettamente positive sull'intervallo [-1, 1], dunque la densità (x,y) - lx(x)lY(Y) è strettamente positiva sul quadrato Q = [-1, 1]X [-1, 1]. La densità congiunta l è invece= O al di fuori.del cerchio C = {x 2 + y2 < 1}. Quindi A = Q \ C (la porzione di quadrato che sta fuori del cerchio) è un insieme di misura positiva su cui le due funz1oni l(x,y) e fx(x)lY(Y) differiscono. Le due v.a. quindi non sono indipendenti. Osservazione 3.13 In generale per dimostrare che due v.a. non sono indipendenti purtroppo non basta mostrare che esiste un punto (x, y) per il quale l'uguaglianza (3.16) non vale; un punto infatti ha misura O, mentre occorre invece provare che (3.16) non vale su un insieme di misura> O. Se però le funzioni l, lx, lY sono per di più continue in un punto (x, y) tale che l(x, y) -/- l x(x )lv(y), allora X e Y non sono indipendenti. Supponiamo infatti che sia l(x,y) > lx(x)ly(y); allora si avrebbe l(u,v) > lx(u)lv(v) su tutto un intorno Udi (x,y). Dunque le due funzioni l(u,v) e lx(u)lY(v) differiscono su tutto U, che è un insieme di misura > O. ~
La definizione seguente estende le Definizioni 3.10 e 3.37.
Definizione 3.14 Date mv.a. X1, ... ,Xm a valori rispettivamente in , JRdm, esse si dicono indipendenti se f' solo se. per ogni scelta di sottoinsiemi A1 C JR,di, ... , Am C ]Rdm soddisfacenti alle condizioni dell'Osservazione 3.6,si ha JR,di, ...
P{X1 E At, ... , Xm E Am}
= P{X1
E Ai} ... P{Xm E Am}
Nel seguito useremo la seguente notazione: se x1 E 1Rd1 , ••• , Xm E JRdm indicheremo con (x1, ... , Xm) il vettore di dimensione d = d1 + ... +dm le cui prime d1 coordinate coincidono con quelle di x1, le successive d2 coincidono con quelle di x2 e così via. Se X1, ... , Xm sono come nella Definizione 3.14, possiamo considerare la v.a. X= (X1, ... ,Xm), che è dunque una v.a. a valori in 1Rd, d d1 + ... +dm. Ripetendo gli argomenti che abbiamo utilizzato per ricavare (3.16) e (2.18) si può vedere facilmente che, se le v.a. X1, ... , Xm hanno densità continue rispettivamente ft, ... , /m, la condizione della Definizione 3.14 è equivalente ad affermare che anche X ha densità / data da
=
(3.17)
f(x1, ... , Xm) = ft (xi) ... fm(Xm)
Il significato intuitivo della Definizione 3.14 non è diverso da quello delle altre definizioni di indipendenza: la conoscenza del valore assunto da alcune delle v.a. X1, ... , Xm non dà informazioni sul valore assunto dalle altre. Consideriamo ad esempio il caso di due v.a. X, Y, a valori rispettivamente in • d"1ch"1amone con X 1, ... , di e }T1, ... , y d 1e rispettive • • compoIR,d1 e 1R,d2 e m 2 nenti. Dire che esse sono indipendenti significa dire che la conoscenza del valore
xr
Capitolo 3
88
assunto dalle v .a. reali X 1, ... , Xd 1 non dà informazioni sul valore assunto da Yt, ... 'yd2· È facile vedere che se le v .a. X 1, ... , X di , Y1, ... , Yd2 sono indipendenti nel senso della Definizione 3.10, allora X e Y sono indipendenti nel senso della Definizione 3.14 (è facile infatti verificare (3.17)). Vedremo però degli esempi in cui le v.a. X1, ... , Xd 1 non sono indipendenti come pure le Y1, ... , Yd2 , mentre X e Y lo sono nel senso della Definizione 3.14. \ Naturalmente la Definizione 3.14 vale anche per delle v.a. discrete, per le quali bisognerà intendere (3.17) nel senso delle densità discrete.
Siano X e Y due v.a. indipendenti a valori in Illd1 e Illd2 rispettivamente, siano : m,m- m,kcon k > 1 il metodo della funzione di ripartizione non si può applicare. Si può però ripetere un ragionamento simile a quello che ha condotto a (3.22). Se g fosse la densità di 4>(X) allora dovrebbe essere
i
g(y) dy = P{4>(X) E A}= P{X E
1 (A)} c/>-
=
/
/(x) dx
,p-I(A)
Dunque se siamo capaci di trovare una funzione g tale che (3.25)
i
g(y) dy
J
=
f(x) dx
,p-I(A)
qualunque sia. il sottoinsieme A e IR~ (purché sufficientemente senso dell'Osservazione 3.6) allora necessariamente
P {e/>( X) E A}
=
i
g ( y) d y
regolare nel
Calcolo di leggi
95
e dunque g sarebbe la densità di (X). Prima di vedere come si può trovare una tale g trasformiamo la (3.25) in una forma più comoda. Indichiamo al solito con lA la funzione indicatrice di A, cioè la funzione definita da lA(x) = 1 sex E A e lA(x) = O sex 1 e il determinante 1 del differenziale di 4>1 ( cioè lo composta f 04>det D4>1 Jacobiano di 4>-), tutte operazioni elementari che però possono risultare laboriose, specialmente se la ~imensione m è più grande di 2.
96
Capitolo 3
Esempio 3.22 Calcoliamo la densità di AX + b dove X è una v.a. mdimensionale di densità f, A una matrice m x m invertibile e b E lll m. In questo caso ( x) = Ax + b è invertibile Illm -+ Illm; la sua inversa è data 1 (y) = A- 1 (y - b).Anche il differenziale di cp1 si calcola. facilmente: da 4>1 1 1 poiché 4>- è un 'applicazione lineare si ha D4>- A- • Dunque la densità di AX + b è data da g(y) = J(A- 1 (y - b))Idet Al-1
=
che è evidentemente una generalizzazione di (3.24 ). Altri metodi possono essere usati per risolvere (3.26), anche se quasi sempre basati su cambiamenti di variabile. Esempio 3.23 Sia X una v.a. uniforme sul cerchio C v .a. bidimensionale di densità 1 sex E C
J(x)={;
(
= {lxl2 :'.S1}, ovvero
la
altrimenti
Calcoliamo la legge della v.a., anch'essa bidimensionale
Z=X È chiaro che Z
2 1x1 1x12
-2log
= (X)dove cp( X) = X
lxl2
-2log
lxl2
Non è difficile vedere che è invertibile e calcolarne I 'inversa, ma il calcolo del differenziale di cp-1 e soprattutto del suo determinante portano a lunghe manipolazioni. È piì1 semplice affrontare diretta.mente (3.26) passando prima. in coordinate polari:
2
[ =;:1 lo
7r
/1lA (pcosB v-2logp p2
dB lo
1 /2,r r1 =;: lo d(} lo 1A(cosBJ-21ogp
2
,psinB
v-2logp p2
2 ,sinBJ-21ogp
2 )
pdp
2 )pdp
=
Leggi normali
97
r;),
Sostituendo r = .j-2 logp 2 nell'integrale interno, si ha p 2 = exp(pdp = -i exp( - dr. Dunque riprendendo il calcolo e tornando poi in coordinate cartesiane
r;)
e per (3.26) Z ha densità
g(z)
= ~ e-lzl
2 /2 211" Da questo esempio ricaveremo delle applicazioni ai problemi di generazione di numeri casuali; per ora osserviamo solo che, poiché g è una. densità, necessariamente il suo integrale su m,2 va.le 1. Dunque
211"=
=
1-:001-:00 e-(x2+y2)/2 dxdy = 1-:00 e-x2/2dx
(1-: 00
e-x 2 /2dx)
1-+:
e_Y2/2dy =
2
da. cui ricaviamo l'integra.le notevole (3.30)
r- --------··---i.
I
3.5 Leggi normali/
Come conseguenza di (3.30) la funzione (3.31)
J(x)
è una densità di probabilità. distribuzioni.
1 exp = v'2ir
( - x2 )
2
Essa. è il prototipo di una classe importante
Se X è una. v.a. di densità f e .)dx=-. _.X_ex(iB->.) l+oo lo lo z(J- .X o
=
= _.X_
( lim ex(iB->.)- 1) iO- À x-++oo Ma il numero complesso ex(iB->.) ha modulo lex(iB-,\) I = e->.x che tende a O per x---+ +oo, dunque limx-++oo ex(iO->.)= O e À
( O) = .X- iO 4. Vediamo ora le proprietà di regolarità delle funzioni caratteristiche. Supponiamo inizialmente m = 1. Osserviamo che, per ogni w E n fissato, la funzione (J ---+ eiBX(w) è continua.. E[ei 8X]? Se ne può dedurre la stessa. cosa per la funzione (J---+(O)= Continuando con questo punto di vista la funzione (J---+ eiBX(w) è anzi infinite volte derivabile e ~(Jei8X(w) = iX(w)eiBX(w)
~;kei8X(w)
= (iX(w)leiBX(w)
Se si potesse scambia.re l'operazione di derivazione con quella di speranza. matematica. si avrebbe
!!(O)= ~(JE[eiBX]= E[~(JeiBX] = E[iXeiBX] (3 ..52)
:;t(O)
= E[~;keiBX] = E[(iXleiBX]
TI teorema. seguente mostra che, sotto opportune condizioni, ciò è- vero.
Funzioni caratteristiche
117
x è una funzione continua qualunque sia X. Se X ha 3.40 momento di ordine k finito allora xè k volte derivabile e valgono le (3.52). Viceversa se x è k volte derivabile e k è pari allora X ha momento di ordine k finito e (quindi) valgono le (3.52).
Proposizione
Le (3.52) per O= O danno (3.53) che è molto utile perché permette di calcolare i momenti di X semplicemente facendo le derivate di all'origine. Attenzione però perché può essere deriè due volte vabile senza che X abbia speranza matematica finita. Se invece derivabile, per la Proposizione 3.40 (2 è pari), X ha momento di ordine 2 finito (e dunque anche speranza matematica finita per la Proposizione 2.37). Ragionamenti simili (solo più complicati da esprimere) danno risultati analoghi nel caso di probabilità su Rm. Più precisamente se a-= (01, .. ,,a-m) è un multiindice e x E IR.nponiamo
1°1= 0 1 + · · · + O'm X
Ci
=x1
0'1
O'm
.. ,Xm
{Y:~ alol a90 - oBfi •.. afJ?,,,m allora, se E[IXll
0
1]< +oo, .t
O
set::::: O
Generatori aleatori, simulazione
121
-½
F è invertibile su JR+ e p- 1 (x) = log(l - x). Dunque se X è uniforme su [O,1] allora-½ log(l - X) è esponenziale di parametro,\. Questo metodo è però poco efficace quando la funzione F- 1 non abbia una espressione analitica esplicita, come succede ad esempio per le leggi normali, binomiali e di Poisson, oppure quando si vuole simulare una probabilità su Illn. In alcuni casi (per le leggi N(O, 1) per esempio) si possono usare le tavole della f.r. per avere un 'approssimazione di p- 1 , ma si tratta di una procedura pesante da inserire in un programma di calcolatore. Gli esempi seguenti mostrano altri approcci al problema. Esempio 3.47 Simuliamo un dado, cioè un numero aleatorio uniforme su {1,2,3,4,5,6}. Se X è uniforme su [O,1] allora la v.a. Y definita da y
=i
i- 1 se -exp(-~(CA*8,A*8)) 2
= ei(/1,b+Az)exp(-~
2
=
(AC A*8, 8))
e dunque Y "' N(b + Az, AC A*). Le trasformazioni affini quindi trasformano leggi normali in leggi normali. In particolare se X è N(O, I) e O una matrice ortogonale allora O IO* = 00* = I e quindi OX è ancora N(O, I). Ovvero le leggi N(O, I) sono invarianti per le trasformazioni ortogonali. Calcoliamo ora le marginali di una legge normale multivariata. Se X· = (X1, ... , Xm) e X "' N(z, C) allora la legge di Xh si può determinare con la (3.56). Infatti
dove 0 = (O, ... , O,8, O,... , O) e chh è l'elemento di posto hh della matrice C. Quindi Xh ha una legge normale N( zh, chh)Sia X "' N( z, C) e supponiamo che la matrice C sia diagonale. Allora, indicando con >..hgli elementi sulla diagonale di C,
x(8)= ei(ll,z) exp (
-t(C8,8)) =
ei(ll,z)
exp (
-1:t
>..h81)=
h=l
= ei/11z1 eXp (
= x(81) .. 1
-t>..]8i) ••
.ei/lmZm
eXp ( - t>..18~)
=
-xm(8m)
Per la Proposizione 3.45 quindi le v.a. X 1 , ... ,Xm sono indipendenti. Ricordando che C è la matrice di covarianza di X, abbiamo dunque provato una proprietà importante delle leggi normali: variabili aleatorie non correlate sono indipendenti se la loro distribuzione congiunta è normale. Attenzione comunque perché può accadere che le v .a. X 1 , ••. , X m abbiano ciascuna. distribuzione
Leggi normali multivariate
125
normale senza che la distribuzione congiunta sia normale multivariata. Questo stesso ragionamento dà anzi il seguente risultato più generale e di cui avremo bisogno nel capitolo sulla Statistica. Supponiamo che le v.a. X, Y a valori in Illn, IRm rispettivamente siano tali che la v .a. (X, Y) ( a valori in Illk, k = n + m) abbia distribuzione normale. Allora se per ogni 1 ~ i ~ n e 1 ~ j ~ m si ha Cov(Xi, Yj)
(3.59)
=O
le v.a. X e Y sono indipendenti. Infatti (3.59) è equivalente a supporre che la matrice di covarianza C di (X, Y) sia diagonale a blocchi
o
o
o
o
Cx C=
o
o
o
o
Cv
che implica Dunque X e Y sono indipendenti per il Teorema 3.45. Calcoliamo ora le leggi condizionali di una v.a (X, Y) normale multivariata. Naturalmente è possibile calcolarle mediante la definizione di densità condizionale, che però in questo caso porta a dei passaggi laboriosi. Un modo alternativo di calcolo è il seguente. Per ogni valore di a E Ill la v.a. (X - aY, Y) ha legge congiunta normale (è una funzione lineare della v.a. normale (X, Y)). Determiniamo a in modo che X - aY e Y siano non correlate (e quindi indipendenti). Deve essere O= Cov(X - aY, Y) = Cov(X, Y) - a Var(Y) ovvero Cov(X, Y) Var(Y)
a=----
126
Capitolo 3
Quindi scrivendo X=
X -aY
+aY
=Z
abbiamo scritto X come la somma di aY e di u11av.a. ~ indipendente da Y. La legge condizionale di X dato Y = y è la legge di Z + ay. Questo fatto è evidente, dato il significato intuitivo della nozione di legge condizionale, e si può verificare rigorosamente senza troppa difficoltà (vedi Esercizio 3.24). Ma Z + ay è una v.a. normale (è anch'essa una funzione lineare di v.a. normali ... ) ed ha varianza Var(Z
+ ay)
= Var(X - aY) = Var(X)
= Var(X) ·
+ a 2 Var(Y)
- 2a Cov(X, Y) =
- Cov(X, Y)2 Var(Y)
e media E[Z
Y)( + ay ] = E[X] + Cov(X, Var(Y) y
E[Y])
Quest'ultima espressione dà anche la media condizionale .E\.·[Xly] (la speranza condizionale di X dato Y = y è la media della legge condizionale).
Esercizi 3.1 Sia X una v.a. uniforme su [O,l]. Posto Y di Y (l J è la funzione parte intera).
= l3XJ+ X,
calcolare la legge
3.2 Sia. f la funzione definita da
f( X) = {
k x 3 exp (-.:) 2
o
X
2'.0
x 1/2} P{XY < 1/4 I X> 1/2} X P {XY > 1/ 4 I y > 2} Qual è la densità congiunta di XY e X? 3.6 Sia (X, Y) un vettore aleatorio uniforme sul quadrato
di vertici (1, O),
(O,1), (-1,0), (O,-1). a) Calcolare le densità di X e di Y. b) Calcolare P{Y > 1/2 I X< 1/2}. c) Calcolare la densità di X+ Y. Mostrare che X+ indipendenti.
Y e X - Y sono
3. 7 Un punto è scelto a caso su/ piano con densità
= 2~ exp (-
f(x, y)
x2
!
y2)
Indichiamo con Z la distanza del punto dall'origine. Qua/ è la legge di Z? Ammette una densità? Qual è la probabilità che il punto si trovi fuori della pa.lla di centro l'origine e raggio 1? 3.8 Per r, s
> O consideriamo la funzione
=
f(x)
{
cx-(s+l)
X>
0
X~T
T
a) Determinare c in modo chef sia una densità. b) Sia X una v.a. di densità f. Per quali valori di s X ha speranza matematica finita? Per quali valori di s X ha varianza finita? c) Qual è la legge di Y = log( ~)? 3.9 Siano X, Y, Z v.a. indipendenti tutte di legge N(O, 1). a) Calco/are le leggi delle v.a.
x2
x2 + y2
1x1 Jx2 + yz
b) Qual è la legge condizionale di. X sapendo X 2 c) Mostrare che le v.a. X
Jx2 sono indipendenti.
+ y2
x2
+ Y2 •
+ y2
128
Capitolo 3
Siano X, Y v.a. indipendenti di legge N(O, 1). Calcolare la legge della v.a X - Y. Calcolare le densità di (X, X - Y), (X, v'2Y) e le loro marginali. Mostrare che X + Y e X - Y sono indipendenti.
3.10
3.11 Sia X una v.a. esponenziale di parametro), e poniamo Y = la legge di Y? Si tratta di una legge nota? Calcolarne la media. 3.12 Siano X e Y due v.a indipendenti >..Calcolare le densità di
lXJ. Qual
è
e esponenziali entrambe di parametro
V=x+
X
3.13 (Legge di Rayleigh) Sia X una v.a. reale di densità
h0(x)
={
2x e-" 2 l 9 8
se x
O
altrimenti
>O
dove 8 è un parametro reale > O. a) Calcolare media e varianza di X. b) Se Z = X 2 , mostrare che Z segue una legge gamma e calcolarne i parametri. c) Posto W = e-X 2 / 9 , calcolare media e varianza di W. Qual è la densità di W? d) Sia ( U, V) una coppia di v.a. di densità J( u, v) = e h9(u) v l{o O fissato si ha
lim P{IXn -
n-+oo
se e solo se per ogni
Xl > "7}= O
Si può dimostrare che la convergenza q.c. implica quella in probabilità, cioè se v q.c.x·11 -'~n-+ a ora X n-+P x·. Supponiamo di lanciare n volte una moneta e indichiamo con k il numero di lanci in cui il risultato è testa. La quantità ~ è dunque la proporzione di teste ottenute in n lanci. Se la moneta è equilibrata l'intuizione suggerisce che questa proporzione non debba discostarsi troppo dal valore ½- Naturalmente sarà difficile osservare esattamente ~ = ½ (vorrebbe dire che si sono ottenute esattamente tante teste quante croci), ed è sempre possibile che negli n lanci, per combinazione, si sia verificato un numero abnorme (molto grande o molto piccolo) di teste, il che porterebbe ad un valore della proporzione ~ distante
Capitolo 4
132
\da½· L'intuizione dice però anche che se n cresce questo fenomeno dovrebbe •tendere a sparire: se i primi lanci hanno dato una eccedenza di teste, ciò idovrebbe poi essere compensato dai lanci successivi e insomma al crescere di In la proporzione dovrebbe stabilizzarsi intorno al valore ½. / Questa situazione può essere modellizzata con una successione X 1, X 2, ••. I di v.a. indipendenti tutte di Bernoulli B(l, ½), dove al solito considereremo i che l'evento {X; = 1} corrisponde all'evento "l'i-esimo lancio ha dato testa". I Con questo modello il numero di teste ottenute in n lanci è X 1 + ... + Xn e la l proporzione di teste in n lanci ( che poco fa indicavamo con ~) sarà
I
Xn
1 = -(X1 + ... + Xn) n
Ì Come conseguenza dunque ci aspettiamo che X n assuma dei valori lontani da ½ con probabilità sempre minore. È quanto afferma la legge dei grandi numeri.
1
4.2 (Legge dei grandi numeri) Sia {Xn} una. successione di v.a.. indipendenti ed a.venti tutte la stessa. legge. S11pponia.moche esse abbia.no speranza matematica /l e varianza finita a 2 . Allora posto
Teorema
si ha '
Xn ~- µ ·-(e quindi anche Xn ~ Jt). -·
Dimostrazione. ha media p:
E[Xn]
Dimostreremo solo la convergenza in probabilità. La v.a.
= ~E[X1 + ... + Xn] = ~n (E[X1] + ... + E[Xn]) = µ n
e la sua varianza vale
Var(Xn)
= n12 Var(X1 + ... + Xn) = n12 ( Var(X1) + ... + Var(Xn) ) = 1 a2 = 2 n Var(X 1) = n · n
Basta ora applicare la Disuguaglianza di Chebychev (Proposizione 2.38)
Xn
La legge dei grandi numeri
133
Esempio 4.3 Supponiamo di non sapere se una data moneta sia equilibrata o no. La legge dei grandi numeri fornisce uno strumento per stimare la probabilità p di ottenere testa in un singolo lancio. Basterà infatti lanciare n volte la moneta e stimare p con la quantità
# di teste ottenute in n lanci
Xn=------------
n
Infatti, se poniamo
xi={~ -
1
se l'i-esimo lancio dà testa altrimenti
-
allora Xn = -(X1 + ... +X n) e per il Teorema 4.2 Xn -+ p = E(Xi). n In pratica è però possibile fare solo un numero finito di lanci e quindi occorre valutare l'errore che si commette stimando p con X n, per n fissato. Naturalmente può succedere che lanciando una moneta equilibrata 1000 volte si ottenga testa tutte le volte, il che darebbe Xn = 1, ben diverso dal vero valore p = ½;è chiaro però che la probabilità che ciò si verifichi è molto piccola. Un modo di procedere può essere quello di fissare un errore 1Je di stimare la probabilità di commettere un errore più grande dell'errore prefissato. Si tratta cioè di maggiorare la quantità P{IXn - PI > 7J}.Poiché il calcolo della funzione di ripartizione di una legge binomiale con un parametro n molto grande è difficile ( anche se per valori di n non troppo grandi vi sono delle tavole numeriche), limitiamoci per ora a maggiorare la quantità qui sopra usando la disuguaglianza di Chebychev: P {IX n
-
I } Var(Xn) 1 1 p > 1] ~ = 2 2 n · p( 1 - p) = 2 1J n 1J p(l - p) 1 1/2 n
Questa disuguaglianza dipende ancora dalla quantità incognita p ma, rinunciando a delle stime molto fini, osserviamo che p(l - p) ~ ¼per ogni O~ p ~ 1. Quindi 1 1 P{IXn-PI > 7J}~ -4 2 1J n Ad esempio per n = 50 la probabilità che p disti da Xn per più di 0.1 è più piccola di 0.5. Questa valutazione è estremamente grossolana e vedremo presto come migliorarla. Osserviamo però che ci stiamo ponendo il problema
134
Capitolo 4
di stimare, a partire dall'osservazione, il modello di un fenomeno aleatorio. Quindi, come accennato nell'Osservazione 2.13, si tratta di un problema di Statistica Matematica, che verrà ripreso in maniera più organica nell'apposito capitolo. Esempio 4.4 (Istogrammi) Consideriamo una successione X 1 ,X2, ... div.a. indipendenti e identicamente distribuite (i.i.cl.) di densità /. Dato un intervallo limitato [a, b], che suddividiamo in sottointervalli / 1 , ..• , Ik, per ogni h = l, . .. ,k poniamo
Zh(n)
= -1 ~ ~lh n
(
X; )
i=l
I:~=tlli. (X;) è il numero di volte che Xi E h, i = l, ... , n, e zhn)è dunque la proporzione delle prime n osservazioni X 1 , ..• , Xn che hanno assunto valori nell'intervallo I h.
o Figura
4.1
1
2
3
4
5
6
7
8
9
Istogramma di 200 osservazioni indipendenti di legge f(3, 1).
Si è soliti visualizzare le v.a. zfnl,... ,Zkn)costruendo al di sopra dell'intervallo h un rettangolo di area proporzionale a z~n); se gli intervalli h sono di uguale ampiezza ciò significa naturalmente che le altezze dei rettangoli sono proporzionali a z~n). La figura che ne risulta si chiama istogramma; si tratta di un metodo molto usato per dare una descrizione visiva di come si sono ripartiti i valori di X 1, ... , X n. Per n --, oo la legge dei grandi numeri afferma che z~n) q.~.
E[lii.(Xi)]
= P{Xi Eh}=/,
f(x) dx I,.
Se gli intervalli h sono abbastanza piccoli, perché la variazione di f su h sia piccola, allora. i rettangoli dell'istogramma tenderanno ad avere altezze proporzionali ai corrispondenti valori di f. Quindi per n grande l'istogramma
Convergenza in legge
135
fornisce delle informazioni sull'andamento della densità f. Nella Figura 4.1 vediamo un esempio di istogramma per n = 200 osservazioni di una v.a. f(3, 1), confrontato con l'andamento della densità.
4.2 Convergenza
in legge
Definizione 4.5 Siano X,X 1 ,X 2 , . .. v.a. reali e indichiamo con F,Fi,F2, ... ·1e rispettive funzioni di ripartizione. Diremo che X n converge a X in legge .. e (Xn--+ X) se e solo se lim Fn(x) = F(x) n-oo
per ogni punto
J:
E
JR di continuità. per F.
Osservazione 4.6 La convergenza in legge dipende solo dalla distribuzione delle v .a. X, X 1, X 2 .•• , nel senso che se Y, Y1 , Y2 , ••. sono altre v .a. tali che X,.._, Y,X1 ,.._,Y1,X2 ,..._, Yz, ... allora Xn..SX implica Yn..SY. La Definizione -!.5 richiede solo che la legge delle v.a. Xn converga, in un senso opportuno, alla legge di X. Questi fatti mostrano già la differenza tra la convergenza in legge e la convergenza in probabilità, che ha senso solo se le v .a. sono definite sullo stesso spazio di probabilità e che dipende evidentemente dalle leggi congiunte delle v.a. (X, X;). Si può dimostrare che la convergenza in legge è più debole della convergenza in probabilità. Dunque tra i tipi di convergenza che abbiamo considerato in questo capitolo la gerarchia è la seguente: la convergenza q.c. implica quella in probabilità che a sua volta implica quella in legge. Osservazione 4. 7 In alcuni casi sono possibili criteri facili per verificare la convergenza in legge. Ad esempio se le v.a. X, X 1 , X 2 , ••• sono a valori interi positivi, allora i punti di continuità della f.r. F di X sono tutti i numeri reali tranne al più gli interi positivi. Dunque se Xn ..SX, poiché i punti della forma k + ½sono di continuità per F per ogni k intero positivo,
P{Xn = k}
= Fn(k+ ½)-Fn(k-½)-
F(k
+ ½)-F(k-½)
= P{X = k}
Viceversa se P{Xn = k}--+ P{X = k} per ogni k = 0,1,2, ... allora per ogni x E JR si ha (LxJ=parte intera di x) LxJ
Fn(x)
= P{Xn
:Sx}
= LP{Xn = k}--+ k=O
LxJ
LP{X
= k} = P{X
:Sx}
= F(x)
k=O
In conclusione se le v.a. X, X 1 , X 2 , .•. sono tutte a valori interi positivi allora
136
Capitolo 4
Xn converge in legge a X se e solo se P{Xn = k}-+ P{X = k} per ogni intero positivo k. E per di più si ha Fn(x)-+ F(x) per ogni x E lll (compresi i punti di discontinuità). In particolare, come conseguenza del calcolo fatto nel paragrafo 2.2, se Xn,..,, B(n, ~),allora Xn converge in legge verso una v.a. X di Poisson di parametro À. Il teorema seguente fornisce un criterio di convergenza in legge che è talvolta più facileda verificare della Definizione 4.5 Teorema
4.8 (P.Lévy) Siano X, X 1 , X2, ... v.a. reali e indichiamone con
~, . .. le ris~ettl~e funzioni caratteristich~J Allora X n !:..X se e solo se 1 , 2, n(0)-+ (0) per ogni 0 E lll. In pratica, dovendo provare una convergenza in legge, si sceglierà di volta in volta di verificare la Definizione 4.5 oppure il criterio con le funzioni caratteristiche del Teorema di P.Lévy. Esempi 4.9 a) Supponiamo che Xn assuma con probabilità 1 il valore ¾- Allora Xn converge in legge verso una v.a. X che assume con probabilità 1 il valore O. Infatti la f.r. di X è data da
= {~
sex
O. Allora posto
S" = X1 + ... + Xn - nµ
a.fii
n
S~ converge in legge ad una v.a. N(O, 1).
· Dimostrazione. ria.nza 1 e
Poniamo Yi
S~
3 = X·-µ a
:
le v .a. Yj sono centrate, hanno va-
= yn~ (Y1+ ... + Yn)
Il Teorema Limite Centrale
139
Se (0.85)= 0.2 v'56-0.5
Un calcolo esatto avrebbe dato come risultato poiché le Xi assumono va.lori interi,
P{X1 e l'approssimazione P{X1
+ ... + Xso
> 28} = P{X1
0.16. Osserviamo però che,
+ ... + Xso
> 28.5}
normale darebbe ora
+ ... + Xso := 1 -
> 28.5} = 1 - P{X1
+ ... + Xso
~ 28.5} :=
8 ··5 (2
50 . 0 ·5 ) = 1 - ~(0.99) = 0.16 J56· 0.5
In generale con v .a. a valori interi si ottiene una migliore approssimazione
Esercizi
scrivendo P{X1 + ... + Xn ~ k +½}piuttosto
143
che P{X1 + ... + Xn ~ k}.
L'approssimazione normale si può usare anche pe_r stimare la probabilità di uno scarto dalla media nella legge dei grandi numeri, a cui abbiamo accennato nell'Esempio 4.3. Se X 1 , X 2 , ... è una successione div.a. indipendenti equi distribuite di media µ e varianza a 2 e poniamo, al solito, Xn = ¾(X1 + ... + Xn), allora per ogni a> O si ha
> a} = P( { ,t n > µ + a} U { X n < µ - a}) = = P {X 1 + ... + X n > n(µ + a)} + P {X 1 + ... + X n < n(µ + a)} '.:::'. '.:::'. + a)- nµ) + a)- nµ) = 1 _ ct>(n(JL a,/n a,/n P { IX n - µI
(4.3)
ct>(n(µ -
= 1- ct>(~v'n) + ct>(-~v'n) = 2cI>(-~v1n) Riprendendo l'Esempio 4.3, in 50 lanci di una moneta equilibrata la probabilità che la proporzione di teste X 50 disti da p per più di 0.1 è più piccola di (al solito maggioriamo p(l - p) con ¼)
2cI>(O.l Jso)~ Jp(l - p)
P{IXso - PI~ 0.1} '.:::'. ~ 2cl>(-0. l
X
2X
Js"o)= 2cl>(-1.41) = 0.16
che è una valutazione molto più precisa del valore 0.5 ottenuto con la disuguaglianza di Chebychev nel paragrafo precedente.
Esercizi 4.1 Sia {X 11 }n una successione di v.a. aventi rispettivamente legge geometrica di parametro Pn = ~. La successione {¾Xn}n converge in legge? In caso affermativo, qual è la legge limite? 4.2 Sia {X n}n una successione di v.a. e supponiamo elle X a) Quanto vale P{X1 ~ ½}? E P{X3 ~ 1}? b) Calcolare quanto vale
1 P{-X n per n grande.
n_).>
1
-}
11 ,..,,
f(n, >.).
144
Capitolo 4
4.3 a) Sia {Xn}n una successione di v.a. tali che
P{Xn =O}=
P{Xn = n} = On
1 - On
dove {on}n è una successione di numeri reali compresi tra O e 1. Mostrare che {Xn}n converge in legge se e solo se limn-+ooOn = O e, in questo caso, calcolarne il limite. b) Costruire un esempio di successione {Xn}n convergente in legge ma tale che le medie e le varianze di Xn non convergano alla media e alla varianza del limite.
una successione div.a., dove per ogni n Xn,..., x2 (n). a) Calcolare il limite in legge di { ¾Xn}n . b) Mostrare che
4.4 Sia {Xn}n
~-J2n-
I!:+N(O,I)
c) Sia. Z una v.a. N(O, 1) e tale che le v.a.. Z, Xn sia.no indipendenti per ogni n. Poniamo
Yn
z
= ffn ../n
Vedremo nel capitolo dedicato alla statistica. che la v.a. Yn segue una legge che si chi a.ma t di Student a. n gradi di libertà, che si indica. t( n). Calcolare il limite in legge di Yn per n-+ oo. 4.5 (Leggi Beta) Sappiamo per (3.37) che per ogni a, da f(t) = f(o + /3) to-1(1 - tl-1 f(o)f(/3)
f3> O la funzione definita
e da J(t) = O set (/. [O,l] è una densità di probabilità; essa si chiama legge Beta di parametri a e f3e si indica con f)(a,{3). a) Mostrare cl1ese X ,...,/3(a, /3) allora
E[X]=E[X 2]_
0
o
-
+ /3 o(o+l)
- ( a + /J)(o+ /3 + 1) Var(X)
a/3
= (a+ {3)"·a+ ( /3+l )
b) Mostrare che se n-+ oo e Xn "'f)(na, n/3) allora Xn converge in probabilità verso una v.a. costante di cui si determinerà il valore.
Esercizi
145
4.6 Sia {Xn}n una successione di v.a. indipendenti e di uguale legge, tutte di media O e varianza a 2 • Mostrare che la successione di v.a.
Zn = (X1
+, .. + Xn) 2 n
converge in legge e determinarne il limite.
4.7 Un calcolatore addiziona un milione di numeri e in ognuna di queste operazioni viene effettuato un errore di arrotondamento; supponiamo elle i singoli errori siano tra loro indipendenti e abbiano distribuzione uniforme su [-0.5 · 10- 10 , 0.5 · 10- 10 ]. Qual è la probabilità elle l'errore finale sia più piccolo in valore assoluto di 0.5 · 10- 7 ? 4.8 Sia {Xn}n una successione di v.a. indipendenti, tutte di legge uniforme sull'intervallo [O,2a]. a) Calcolare media e varianza delle Xi, b) Calcolare, per n -+ oo e per x E Ill fissato, il limite della probabilità
P{X1 + ... + Xn >
na
+ xy'n}
4.9 Sia {Xn}n una successione di v.a. indipendenti che P{Xi ~ x} = x--', dove À è un numero> 1.
a valori in [1, +oo[ e tali
a) Calcolare media e varianza delle Xi, b) PoniamoYi =logXi, Qualèlaleggedi~? e) Mostrare che la successione di v.a. {(X 1 X2 .. . Xn)l/n}n determinarne il limite.
converge q.c. e
5 Catene di Markov I '. ,_
O;Xn(w) = j}
è il primo istante in cui la ca.tena visita lo stato j; naturalmente Tj può assumere il valore +oo: è quello che si verifica quando l'insieme {n > O; Xn(w) = j} è vuoto. È chiaro che {Tj > n} = {X1 -=/j, ... , Xn-:/ j}. Dunque per ogni n l'insieme { Tj > n} è un evento, essendo una intersezione di eventi, e Tj è una varia.bile aleatoria. Possiamo quindi porre PiJ = pi { Tj < +oo}; Pii è la probabilità che la catena visiti prima o poi lo stato j partendo da i. Uno stato i si dice transitorio se Pii < l e ricorrente se invece Pii = l. In altre parole se uno stato è transitorio allora con probabilità strettamente positiva la catena che parte da i non ritorna più in i. È chiaro che uno stato i assorbente è ricorrente, poiché pi{Ti = 1} = 1. Vedremo nel Para.grafo 5.7 che se l'insieme E degli stati è finito, allora vale il criterio seguente: uno stato i è transitorio se e solo se esiste uno stato j tale che i comunica con j ma j non comunica con i . Tj
Osservazione 5.4 Se i---. j ( i comunica. con j) e j ---.h, allora i ---.h. Infatti per ipotesi esistono n, m > O tali che
> P~~) IJ
o
quindi (n+m)
Pih
(n) (m) = ""'"' L..,.;Pik Pkh k
che implica i
---+
h.
>
(n)
(m)
- PiJ Pjh
>O
Classificazione degli stati
153
Esempio 5.5 Classifichiamo gli stati della C.M. avente la matrice di transizione seguente dove i puntini indicano O e gli * numeri > O.
1 2 3 4
1 2 3 4 5 6
7 8
5 6 7 8 9 10
* *
*
* *
* *
* * * * * *
*
*
* *
9
*
*
10
*
1) 1 comunica. con 7 e 9, 7 comunica. con 1 e 9, 9 comunica con 7 e 9. Questi tre stati comunica.no tra di loro e {1, 7, 9} costituisce una classe irriducibile. 2) 2 comunica. con 2 e 4, 4 comunica. con 2, {2,4} è una classe irriducibile. 3) 3 ---+5, 5 ---+2, ma 2 non comunica né con 3 né con 5. 3 e .5 sono quindi transi tori. 6---+ 1 ma 1 f+ 6: 6 è transitorio . .:i) 8---+ 3, 3---+ 5, 5 - 2, quindi 8 comunica con 2 che non comunica. con 8; 8 è transi torio. 6) 10 comunica solo con se stesso: 10 è assorbente. L'insieme degli stati si decompone dunque in 3 classi irriducibili
-n
{1, 7,9}
{2,4}
{10}
ed un insieme di sta.ti transitori: {3, 5, 6, 8}. Si può dimostrare che una catena di Markov ammette una decomposizione unica
dove C 1 , C2 , •.. sono classi irriducibili e T è l'insieme degli sta.ti transitori. Vedremo che se E ha cardinalità. finita allora esiste sempre almeno uno stato ricorrente mentre se E è infinito può accadere che tutti gli sta.ti siano transitori. Esempio 5.6 Classifichiamo gli sta.ti della. rovina del giocatore (Esempio .5.3). Supporremo O< p < 1. Se O < i < a+ b, allora i comunica con tutti gli altri stati. Infatti Pi i-l = q > O; quindi i---+ i -1; per lo stesso motivo i- 1 - i- 2, i- 2---+ i- 3
154
Capitolo 5
eccetera, quindi per l'Osservazione 5.4 i comunica con i - 1, i - 2, ... , O. Allo stesso modo si vede che i comunica con i+ 1, i+ 2, ... , a+ b. {O} e {a+b} invece costituiscono delle classi irriducibili. È chiaro infatti che p~~) = 1 per ogni n > O; quindi O comunica solo con se stesso, e lo stesso vale per a+ b. Gli stati O e a+ b sono quindi assorbenti. Infine tutti gli stati i meno O e a+ b sono transitori: infatti i-+ O ma O f, i. Esempio 5.7 (Catene di nascita e morte) Consideriamo la catena su E {O, ... , m} di matrice di transizione
ro
Po
q1
r1
O Pt
O
o o o
o o o
Pn O
qm-1
Tm-1
Pm-1
O
qm
Tm
dove i numeri Qi,ri,Pi, i= 0, ... ,m sono~ O e tali che Qi + r; +Pi= l. Naturalmente la rovina del giocatore è un ca.so particolare di catena di nascita e morte per particolari valori di Qi, ri,Pi· Ripetendo gli argomenti degli esempi precedenti è facile vedere che O è assorbente se e solo se Po = O, mentre m lo è se e solo se Qm =O.Inoltre tutti gli stati comunicano tra loro se i numeri Po, .. · Pm-t, q1 , ••• , Qm sono strettamente positivi. Osservazione 5.8 Le v.a. Tj che abbiamo considerato all'inizio di questo paragrafo non sono in realtà delle v .a. nel senso del Capitolo 2. In effetti Tj può assumere anche il valore +oo. Anzi abbiamo detto che uno stato j è ricorrente o transitorio proprio a seconda che sia pi { Tj = +oo} = O oppure > O. Nonostante questa differenza quasi tutte le proprietà delle v .a.. discrete descritte nel Capitolo 2 restano valide per queste che chiameremo v. a. estese. In particolare la speranza matematica di una v .a.. estesa r resta definita da
E[r] = 1 · P{ T = 1} + 2 · P{ T = 2} + ... dove però nella somma figura anche il termine +oo · P{ T = +oo }. Si conviene che se P{ T = +oo} > O allora E[r] = +oo, mentre se P{ T = +oo} = O allora Tè una v.a. nel senso del Capitolo 2 e E[r] è finita o infinita a seconda che la somma sia o no convergente.
Problemi di assorbimento
5.4 Problemi
155
di assorbimento
Continuiamo a considerare in questo paragrafo una catena di Markov con un numero finito di stati. Sia CC E una classe chiusa. È chiaro che se Xk E C allora Xn E C per ogni n ~ k, cioè se la catena raggiunge C poi resterà in C per sempre. Cerchiamo di calcolare la probabilità, partendo da i di giungere in C, cioè Ài
= pi{Xn
E C per qualche n
> O}
È chiaro che se i E C allora Ài = 1. Se invece i appartiene ad un 'altra classe chiusa C' disgiunta da C, allora Ài = O, perché in questo caso Xn resta in C' per ogni n. Il problema resta invece aperto se i è uno stato transitorio che non si trova in C. Le probabilità di assorbimento Ài appaiono in maniera. naturale in molti problemi; nella. rovina del giocatore, ad esempio, lo stato O costituisce una classe chiusa e Ài per C = {O}è la probabilità di perdere la partita avendo i come capitale iniziale. Indichiamo con D l'insieme degli stati transitori che non fanno parte di C. Dimostriamo che le quantità Ài sono soluzione del sistema lineare (5.5)
Ài
=L
Pih
hEC
+
L
i ED
Pij À j
jED
In effetti poniamo (5.6)
T
= inf{n
> O,X
11
E C}
Cioè r è il primo istante in cui la catena si trova in C. r è una v .a. poiché {r > k} = {X 1 (/. C, ... ,Xk (/. C}; dunque {r > k} è un evento e lo stesso è vero per il suo complementare {r:::; k}. È chiaro che Ài = Pi{r < +oo}. Ora se poniamo
g~n) = pi{X1 E D, ... ,Xn-1 E D,Xn E C}
(5.7)
I:
h1ED
hn.:_·;ED jEC
allora
(.5.8)
Pih1 Ph1 h2 •••
ixwJe _ , •. >t-·i)
·\
=
156
Capitolo 5
e dunque Ài
= Pi{r < +oo} =
00
00
n=l
n=l
L Pi{r = n} = L
g~n)
D'altra parte da (5.7) si ha immediatamente
L
(5.9)
Pir9tn)
= g~n+l)
rED
e quindi, poiché gp)
= I:hec
scambiando le due somme
Pih,
00
À;
= gp)
+
L
00
gin)=
9~1)
n=2
+
LL
Pir9~n)
= L Pih hEC
n=l rED
+
L
PirÀr
rED
che è appunto la (5.5). Si tratta di un sistema lineare in tante equazioni quanti sono gli stati in D. Esso del resto ha una giustificazione intuitiva. abbastanza semplice: la prima delle due somme a destra non è altro che la probabilità di fare una transizione direttamente da i in C al primo passo, mentre la seconda è la probabilità di passare al primo passo in un altro stato r E D e di essere poi assorbiti in C partendo dar. Il calcolo delle probabilità di assorbimento À; è quindi ricondotto alla risoluzione del sistema lineare ( 5.5 ). Vedremo anzi nel Paragrafo 5.-,..che, se la catena ha un numero finito di stati, allora il sistema ( 5.5) ha soluzione unica. Dunque le probabilità di assorbimento À; sono caratterizza.te dal fatto di essere le soluzioni di ( 5.5 ). In particolare se C è la classe chiusa composta da tutti gli stati ricorrenti si vede subito che À; = 1 è soluzione di ( ,5.5), perché
L
Pih
hEC
Dunque con probabilità per non tornarvi più.
+ L Pij = L jED
Pih
=1
hEE
1 la catena esce dall'insieme T degli stati transitori,
Esempio 5.9 Consideriamo una catena di nascita e morte (Esempio 5.7) in cui supponiamo che gli stati O e m siano assorbenti (e cioè che sia p0 = O,qm = O) e studiamo l'assorbimento nella classe C = {O}. Il sistema (5 ..5) diviene À1
À2
= q1 + P1À2 + r1À1 = q2À1 + 1·2À2 + P2À3
Problemi di assorbimento
Sostituendo
r;
=1-
q; - Pi si può riscrivere
Ovvero, se poniamo Ào
= 1 e Àm = O i=l,
Dunque ponendo ìo
157
... ,m-1
=1e ìi=
q1 · · · qi
Pt ···Pi
si ha Ài - Ài+l
q· = ....:(>.i-1 -
Ài)
Pi
_qi-lqi(\
- --
Pi-tPi
=
\ )"i-2 - "i-1 -
(5.10)
= q1 ···Qi(Ào->-1)= Pt ···Pi = ìi(l - >.i)
Se sommiamo i termini di sinistra di questa relazione per i che va da O a m - 1 otteniamo "telescopicamente" Ào - Àm = 1. La. somma dei termini di destra dà invece (1 - Àt) I:~~1 Ìi· Cioè 1-
1
Àt
= '°'m-1 L.,i=O
Ìi
158
Capitolo 5
e ancora da ( 5.10) ).i - ).i+l
= '°'m-1'Yi ~h=O
'Yh
Ora la somma dei termini a sinistra di questa relazione per i che va da j a m - 1 dà .Xj- .Xm= .Xj. Dunque finalmente , ._ "i
-
'Yi + •· · + 'Ym-1 1 + 'Yl
+ · · · + 'Ym-1
t.
Le probabilità di assorbimento dipendono dunque solo dai quozienti Nel caso della rovina del giocato.re, ricordando che m = a + b, la probabilità di assorbimento >.anon è altro che la probabilità che il primo giocatore perda. Abbiamo Pi = p, qi = q e dunque i rapporti -}; = { = a non dipendono da i per cui e le probabilità di assorbimento divengono
Se p
= q = ½allora
a
=1e
e quindi ).a=
--
b
a+ b
Se invece a -:f.1, moltiplicando numeratore e denominatore per 1 - a si ha
Esempio 5.10 Consideriamo il gioco seguente: due dadi vengono lanciati ripetutamente: al primo lancio il giocatore A vince se il risultato è 7, mentre B vince se è 2 oppure 12. Se il primo lancio non dà uno di questi tre numeri si continua a lanciare e B vincerà quando un lancio dà 7 mentre A vince non appena un lancio dà lo stesso risultato del lancio precedente. Quale dei due giocatori ha più probabilità di vincere? Non è difficile vedere che, a partire dal secondo lancio, il gioco può essere
Problemi di assorbimento
159
modellizzato da una C.M. i cui stati indicheremo con i numeri da 1 a 12, dove 7 è lo stato assorbente "B vince", 1 è lo stato assorbente "A vince", mentre per i diverso da 1 e 7 lo stato i corrisponde all'evento "l'ultimo lancio ha avuto i come risultato". Se indichiamo con q;, i = 2 ... 12 la probabilità di ottenere i in un lancio con due dadi, la matrice di transizione di questa C.M. è data da 1 2 3 4 5 6
7 8 9 10 11 12
1 1 q2
2
4
3
5
7
6
8
10
9
12
11
o o o o o o o o o o o o q3 q4 q5 q6 q7 qs q9 q10 q11 q12 q3 q2 o q4 q5 q6 q7 qg q9 q10 qu q12 q4 q2 q3 o q5 q6 q7 qs q9 q10 qu q12 q5 q2 q3 q4 o Q6 q7 Qs q9 Q10 Q11 q12 q6 Q2 q3 q4 Qs o q7 Qs q9 q10 Qn q12 o o o o o o 1 o o o o o Qs q2 q3 q,i Qs q6 q7 o q9 Q10 Qn Q12 q9 Q2 q3 q4 q5 Q6 q7 Qs o Q10 Q11 Q12 o Qn Q12 Q10 Q2 q3 q,i q5 Q6 q7 Qs q9 Qn Q2 q3 q4 q5 Q6 q7 qs q9 q10 o Q12 Q12 Q2 q3 q4 Qs Q6 q7 Qs q9 Q10 q11 o
Se À; è la probabilità di essere assorbiti in 1 partendo da i, il sistema (5.5) diventa (5.11)
= q; +
Ài
I:
i ::/-7
QhÀh
h#l,7,i
Se X 0 è il risultato del primo lancio, la probabilità che A vinca varrà (5.12)
p=
P{Xo = 7} +
I:
P{Xo = i}.X;= q1 +
i-#2,7,12
I:
QiÀi i-#2,7,12
(5.11) è un sistema di 10 equazioni lineari che una volta risolto dà (5.13)
Ài = 1 : Qi ( qi
dove
2
N=L~ h-#7 1 + qh
+1
!!M)
M= h-#7 L __!!!!:__ 1 + Qh
Sostituendo i va.lori numerici Q2 = Q12 = }6 , q3 = Q11 = 1 12' qs = q9 = }, q6 = qs = }6 ,q1 =¼si ottiene da (5.13) À2
= À12 = 0.33
À3 = À11 = 0.35
.À5= .À9= 0.38
1 18'
q4
À4 = À10 = 0.37
.À6= .Às = 0.4
q10
160
Capitolo 5
e, sostituendo in (5.12), la probabilità che A vinca vale p favorito il giocatore B.
= 0.46.
È dunque
Abbia.mo osservato che se l'insieme E degli stati ha cardinalità finita, la probabilità di assorbimento nella classe chiusa formata da tutti gli stati ricorrenti è uguale a 1, il che si esprime anche dicendo che la v.a. T definita in (5.6) è finita. Può essere interessante calcolarne la media, cioè chiedersi qual è il tempo medio di assorbimento. Poniamo Ti = Ei[T]. Per (5.8) 00
Ti
= Ei[T] = L n g!n) n=l
Da questa relazione si ricava, con considerazioni simili a quelle che hanno portato a (5.5), che le quantità Ti soddisfano al sistema lineare (5.14)
Tj
= 1 + L PihTh hET
dove T indica l'insieme degli stati transitori. Esempio 5.11 Calcoliamo il tempo medio d'assorbimento per la rovina del giocatore. Il sistema (5.14) di viene
1 = -qTi-1
1=
-qTa+b-2
+ Ti
- PTi+l
+ Ta+b-1
Se p = q = ½la soluzione è Ti = i( a+ b - i) e quindi r 0 = ab. Ad esempio se a = 1, b = 100 allora, come abbiamo calcolato nell'Esempio 5.9, B vince con probabilità 100/101, ma il tempo medio della partita è ab= 100. Talvolta si è interessati piuttosto a. calcolare la probabilità che l'assorbimento abbia avuto luogo prima del tempo n, cioè pi{r ~ n}. Per (5.7) e (5.9) (5.1.5)
pi{r = k
+ 1} =
L PijPi{r jED
per k
= 1, 2, ... , mentre
(.5.16)
pi{r = 1} = LPii jEC
= k}
Problemi di assorbimento
~
Se poniamo per n
I
161
O allora la catena è regolare. Infatti in queste ipotesi per ogni i, j esiste n = n( i, j) tale che P~j) > O. Se m = maxi,jEE n(i,j) allora P 2 m ha tutti gli elementi> O. Infatti
2m-n(i,h)-n(h,j)
volte
Questo è un criterio facile da verificare, ma si tratta solo di una condizione sufficiente come sarà chiaro negli esempi. Esempio
5.17
Una matrice di transizione Psi dice bistocastica se
LPij
=1
iEE cioè se anche la somma degli elementi di ogni colonna vale 1. È immediato che è invariante ( a per una matrice bi stocastica la distribuzione uniforme Vi = meno di fare ipotesi di irriducibilità. o di regolarità. non è però detto che sia unica).
iE
Esempio 5.18 Sia G un grafo, E l'insieme dei suoi vertici; dato un vertice i sia ki il numero di vertici di E adiacenti a i (cioè il numero di vertici che sono connessi a i da un arco) e poniamo k = LiEE ki; su E si può considera.re la catena di M arkov associata alla matrice di transizione p··tJ -- {
1; o
se j è adiacente a i altrimenti
Probabilità invarianti
165
Intuitivamente si tratta della C.M. nella quale ad ogni istante si passa da i ad un vertice j scelto a caso tra i vertici adiacenti a i. Se Vi = allora v è stazionaria per P. Infatti
5t
~ L., . E 1E
ViPij
k· = ...1. = Vj
k
perché la somma contiene kj termini non nulli tutti uguali a Esempio 5.19 associata.
Consideriamo il grafo della Figura 5.1 e la catena di Markov
3 Figura
t·
2
5.1
In questo caso k1 = k2 = k3 = k 4 = 3, ks = 4 e dunque k = 16. Dunque è invariante la distribuzione v1 = V2 = V3 = V4 = /6 , V5 = ¼.Verifichiamo che P è regolare. Se X 0 = 1 allora al tempo 1 il processo si trova con probabilità positiva in 2, 4 oppure 5 ed al tempo 2 si trova in tutti gli stati con probabilità positiva, il che significa che la riga 1 di P 2 è composta di elementi positivi. Per motivi di simmetria anche le righe 2, 3 e 4 di P 2 sono tutte positive. Infine se X 0 = 5, al tempo 1 si è in 1, 2, 3 oppure 4 con probabilità positiva ed al tempo 2 la catena si trova in ognuno degli stati con probabilità positiva. Quindi P 2 è composta da. numeri > O ( cosa che si sarebbe potuta mostrare anche effettuando il prodotto P · P). Dunque per il teorema di Markov v è l'unica probabilità invariante e, per n grande, X n tende ad avere distribuzione v, indipendentemente dalla distribuzione iniziale. Esempio 5.20 Consideriamo la C.M. associata al grafo della Figura 5.2. Essa è irriducibile (tutti gli stati comunicano fra loro). È chiaro però che se X 0 = 1 allora al tempo 1 la catena si trova in uno stato di indice pari, al tempo 2 in uno di indice dispari e così via: la catena si trova in uno stato di
166
Capitolo 5
Figura
4..- _____
5_____
1
2
~6
3
5.2
indice pari nei tempi dispari e in uno di indice dispari nei tempi pari. Quindi pn sarà della forma
o * o o o* * o* o o* * *o * o * o o* * o* *o o o* * *o o o* *
per n dispari e
o o* * *o o o* * o* o o* * o* o * o o o* * o* o o* * o* * o *
per n pari, dove * indica un numero > O. Dunque la catena non può essere regolare. Vedremo negli esercizi che è comunque possibile analizzare il comportamento asintotico anche in questo caso.
5.6 L'algoritmo Una probabilità
di Metropolis, ,r
simulated
annealing
su E si dice reversibile se
(5.20) per ogni i, j E E. Se
,r
è reversibile allora è anche invariante perché
L i EE
1riPii
= L 'TrjPji = 'Trj L Pii= i EE
i EE
'Trj
L'algoritmo di Metropolis, simulated annealing
167
La (5.20) si chiama l'equazione del bilancio dettagliato. Siano Q una matrice di transizione su E che sia irriducibile e simmetrica (e quindi bistocastica) e 1r una probabilità su E tale che 'lri > O per ogni i E E. Poniamo se 1rJ· -> 1r·• (5.21)
se1ri O e 7rj0 < 7ri0 : basta considerare l'insieme M degli stati i tali che 7ri = maxj 7rjj poiché Q è irriducibile esistono io E M_,j0 E Mc tali che Qioio > O (altrimenti M sarebbe una classe chiusa, mentre Q è irriducibile) e naturalmente si ha anche 7r;0 > 7rj 0 per la definizione di M. Quindi
dove abbiamo utilizzato il fatto che se i -:/ j allora Abbiamo quindi dimostrato il seguente
Pii ~ qij.
Teorema 5.21 (N .Metropolis, A.Rosenbluth, M.Rosenbluth, A.Teller, E.Teller) Se 1r non è la distribuzione uniforme la catena di Markov associata alla matrice di transizione P definita da (5.21) ha. 1r come distribuzione reversibile ed è regolare.
Per il teorema di Markov, nelle ipotesi del Teorema 5.21, se {Xn}n è una
168
Capitolo 5
C.M. associata a P allora Xn converge in legge a 7r per n--+ oo. La ( 5.21) permette dunque di costruire, a partire da una qualunque matrice di transizione Q simmetrica e irriducibile, una nuova matrice di transizione P la cui C.M. associata abbia una prefissata distribuzione limite. Questo metodo si chiama algoritmo di Metropolis ed ha delle importanti applicazioni. Supponiamo ad esempio di voler simulare la scelta di uno stato i E E con una assegnata distribuzione 1r. I metodi di simulazione del paragrafo 3.10 si rivelano inutilizzabili se la cardinalità di E è molto grande. Possiamo però ottenere una v.a. di legge approssimativamente uguale a 1r costruendo, a partire da una matrice di transizione Q simmetrica e irriducibile su E, la matrice di transizione P definita da (5.21) e simulando la C.M. {Xn}n associata. Se 1r non è la distribuzione uniforme il teorema di Markov garantisce che per n abbastanza grande X n ha legge vicina a 1r. Non cercheremo qui di discutere quanto grande debba essere n: si tratta di una questione chiaramente fondamentale per l'applicazione dell'algoritmo, ma che va al di là degli scopi di questo testo. Simulare la C.M. associata a P è abbastanza facile: se Xn = i basta scegliere a caso j con legge Qij dopo di che a) se 7rj ~ 7r; si pone Xn+1 = j b) se 7rj < 11'; si pone Xn+l = j con probabilità~' mentre con probabilità 1 - ~ si rifiuta la transizione e si lascia Xn+l = i. Esempio 5.22 (Simulateci annealing) Nell'algoritmo nìamo che la legge 1r sia della forma
di Metropolis suppo-
e-H(i)/e
7r~
'
= ----
Ze
dove H è una funzione su E, E un parametro lizzazione scelta in modo che sia LiEE 1rf diviene ora
(5.22)
~PIJ
={
> O e z. una costante di norma1. La regola di transizione 5.21
Qij
se H(j) ~ H( i)
q· -e-(H(j)-H(i))/e
se H (j)
1-
se J
IJ
Lj#i
Pij
> H (i)
=i
La nuova regola di transizione è dunque la seguente: si sceglie un nuovo stato j secondo la matrice di transizione q. Se H(j) ~ H(i) si effettua la transizione la transizione viene in j; se invece JI(j) > H(i) con probabilità e-(H(j)-H(i))/e rifiutata ed il processo resta in i. Da notare che per simulare questa procedura non occorre conoscere il valore di Ze.
Stati numerabili
169
Per il Teorema 5.21 per n grande la catena al tempo n ha una distribuzione data da 1rt:. Uno sguardo più attento a come 1rE è definita mostra che, se é è piccolo questa distribuzione si concentra su quegli stati su cui H è più piccola. Si può anzi dimostrare (è un esercizio elementare) che se i 1 , .•. , iI< sono gli stati che sono i punti di minimo assoluto per H, allora per é ---* O la distribuzione 7rE converge alla distribuzione uniforme su i 1 , ... , i Il m~l
= n}
L pi{ri
= m} = PiiPii
Ripetendo gli stessi argomenti si vede che più in generale si ha (5.24)
m 2'.1
Da questa relazione si può calcolare per sottrazione la legge di Ni: se j è ricorrente Pii = I e dunque Pi{Ni 2'. m} = Pii per ogni m 2'. 1. Dunque pi{Ni =O}= 1 - Pii e Pi{Ni = m} = O per ogni m = 1, 2, ... ; ciò è possibile
Stati numerabili
171
solo se Pi{Ni = +oo} = Pii > O. Se invece j è transitorio allora Pii < l e la legge di Ni è data da (5.25)
pi{Ni =O}=
1 - Pii m ~ 1
Da (5.25) discendono due consegue0:ze importanti. Intanto pi{Ni < +oo} = I::=o.Pi{Ni = m} = 1 e dunque P'{Ni = +oo} = O: la v.a. Ni non assume il valore +oo, il che implica che ogni stato transitorio viene visitato al più un numero finito di volte qualunque sia lo stato iniziale. Cioè la catena prima o poi lascia lo stato j per non tornarvi più e questo spiega il nome di "transitorio" dato a. questi sta.ti. Inoltre da (5.25) segue 00
(l'ultima. somma si calcola riconducendosi all'espressione della speranza matematica. di una. legge geometrica.). Poniamo per J( > O NjO.Inoltre possiamo supporre che tutti gli h1, .. ,hm-1 siano distinti da j: se fosse hk = j allora sarebbe ' 'J prn '' Pihk+i .. ·Phm-i i > Oe (l unque Pii(m-k) > O, ch e e' contro l''1potes1· che m s1a.1
piccolo intero per cui P}":') > O. Dunque l'evento A = {X1 = h1, ... , Xm-1 = hm-1,Xm = i} è tale che Pi(A) >O.Mostriamo che Pi({ri < oo} n A})= O; ciò conclude la dimostrazione perché ne segue {Tj < +oo} C Ac e dunque Pii= Pi{ri < oo}:::; 1 - PJ(A) < 1. Che P 1({rj < oo} n A}) debba essere= O è abbastanza chiaro intuitivamente, perché se A è verificato, allora la catena passa per i e dunque non può più tornare in j perché i f, j. I ca.leali che seguono non fanno che rendere rigorosa questa intuizione. 00
pi ( { Tj
< oo} n A})
= L pi ( { Tj = k} n A}) k=l
Ma la somma vale O perché {r 1 = k} n A = 0 se k < m, poiché abbiamo visto che se A è verificato la catena non torna in j prima del tempo m, mentre se k 2::m, poiché {Tj = k} C {X k = j}, usando la proprietà di Markov e il fatto che P~j)= O per ogni n si ha
pi ( {ri = k} n A) = Pi{Tj = k I A}Pi(A) = PÌ{Tj = k I X1 = h1, .. ,,Xm = -i}Pi(A):::; :::;PJ{Xk = j I X1 = h1, .. ,,Xm = i}PJ(A) =
= p~J-m>pi(A) = O
Stati numerabili
173
Corollario 5.24 Se E è un insieme finito allora j E E è transitorio se e solo se esiste uno stato i tale che j - i ma i f-+j. Dimostrazione. Per la Proposizione 5.23 se esiste uno stato i tale che j - i ma i f-+j, allora j è transitorio ( che E sia finito o no). Viceversa, se E è finito allora sappiamo che esiste almeno uno stato ricorrente con cui j comunica. Certamente i non comunica con j perché, per la Proposizione 5.23 b ), se così fosse anche j sarebbe ricorrente.
Siamo ora in grado di dimostrare la seguente proposizione, di cui ci siamo già serviti nel paragrafo 5.4. Proposizione 5.25 Sia Cuna classe chiusa e indichiamo con D l'insieme degli stati transitori che non si trovano in C; allora se la catena ha un numero finito di stati il sistema di equazioni lineari
( 5.28)
Xj
= LPih+ hEC
ha. come unica soluzione partendo da i.
Xi=
Ài,
i ED
LPijXj jED
dove
Ài
è la probabilità di assorbimento in C
Dimostrazione. Abbiamo già visto nel para.grafo 5.4 che i valori Ài sono soluzione di (5.28). Viceversa sia {xi, i E D} una soluzione di (5.28) e indichiamo con r il primo istante in cui la catena entra in C, in modo che sia Ài = pi{r < +oo}. Sostituendo nel secondo membro di (5.28) il valore di xi dato dalla (5.28) stessa si ottiene
(5.29)
X;=
L
Pih
+L
hEC
L
PihPhj
+L
hED jEC
L
PihPhjXj
hED jED
La. somma dei primi due termini vale pi{ r :S 2}. Vediamo il significato del terzo termine: se j E D allora Phi = O a meno che non sia h E D; dunque se i,j ED Pii(2)
=
'°'
~ PihPhi
hEE
Il terzo termine in (5.29) vale dunque
=
'°'
~ PihPhj
hED I:iEDP~})x
1
e (5.29) diviene
17 4
Capitolo 5
Ripetendo lo stesso ragionamento si ricava facilmente che per ogni n
(5.30)
Xi=
L p~1J>xj
pi{r ~ n} +
jED
p~;>
Poiché ogni j E D è transitorio sappiamo che limn---+oo = O e passando al limite Xi= lim pi{r ~ n} = pi{r < +oo} = Ài n---+oo
cioè la tesi. Una probabilità su E è assegnata da una famiglia v = {v;}ieE di numeri v; tutti ~ O e tali che LieE v; = 1. Analogamente a quanto abbiamo visto nel paragrafo precedente, una distribuzione invariante (o stazionaria) per una catena di Markov su E, di funzione di transizione P, è una probabilità. v su E tale che per ogni i E E
(5.31)
Vi= LVjPji jEE
Esattamente come nel caso di un numero finito di stati s1 può verificare per ricorrenza che (5.32)
Vj
=L
VjP}7)
jEE
e dunque che se Xo ha come legge una distribuzione invariante v allora anche X 1 , X 2 , ... hanno distribuzione v. Vedremo nel prossimo paragrafo che per una catena di Markov con una infinità numerabile di stati può accadere che non esista nessuna distribuzione stazionaria. 5.26 Se i è uno stato transitorio e v una distribuzione staziona.ria, a.llora.v; = O. Proposizione
Dimostrazione. Sappiamo che limn---+oo P}7) = O. Se gli stati sono in numero finito allora basta passare al limite per n -> +oo nella (5.32). Se invece gli stati sono una infinità numerabile la somma in (5.32) è una serie e quindi per concludere dobbiamo mostrare che si può scambiare l'operazione di limite in n con quella di serie. Questo è conseguenza del prossimo lemma tecnico.
Stati numerabili: ricorrenza e transitorietà
175
Lemma 5.27 Siano a 1 , a 2 , ••• numeri positivi tali che la serie di termine generale ai sia sommabile, e siano b~n) numeri tali che limn-+oo b~n) = O per I < M per ogni i, n. Allora ogni i e per di più esista un numero M tale che Jb~n) (5.33) Dimostrazione.
Fissiamo
é
> O;allora esiste un numero io tale che L~io
e poi un numero no tale che sia Jb~ n) I s é per ogni i n > no. Allora
é
oo
oo
ILaib~n)I i=l
i=l
O per ogni n 2'.O). Cerchiamo di stabilire sotto quali ipotesi essa sia ricorrente. Poiché la catena è irriducibile basterà studiare la ricorrenza. dello stato O e poiché in un passo da O si può andare solo in 1, per il Lemma. 5.28, ciò equivale a valutare quando p 10 = 1 e quando no. Ora chiaramente P 1 {ro < +oo} 2: P 1 {ro < Tm} per ogni m E E. Ma un attimo di riflessione mostra che quest'ultima non è altro che la probabilità di essere assorbiti in O partendo da 1 per la catena di nascita e morte finita. su O, .•• , m ottenuta trasformando gli stati O e m in stati assorbenti. Abbiamo calcolato questa. probabilità nel paragrafo .5.4 e sappiamo che essa vale "m-1
dove ìi
L..,i=1
Ìi
"m-1 L..,i=O
Ìi
= .9.1...:..:..:.. Dunque Pl···Pi
Dunque se la. serie L~o Ìi diverge allora si ha P 1 { To < +oo} = 1 e la ca.tPna è ricorrente. Viceversa osserviamo che, poiché la catena si può muovere a destra al più di un passo alla volta., allora. P 1 { T m 2: m - 1} = 1; dunque se 00
L
Ìi
=a.< +oo
i=l
allora -1
P 1 {ro O la catena è regolare. Mostrare che, se a 0 = O e o 1 , o_ 1 sono> O, /a catena è regolare se e solo se il poligono ha un numero dispari di vertici. b) Calcolare la distribuzione invariante 1r della catena. nell'ipotesi che i tre numeri ao,o 1 ,o_ 1 siano> O. Per quali va.lori di o 1 ,o 0 ,o_ 1 1r è reversibile? 5.9 Consideriamo la catena di Ma.rkov su {O,1, ... , N} associata alla matrice di transizione i ( · ) N-j Pi,i = j ;
(N)( ·)
1-;
.t)).
(ovvero la legge di Xn+l sapendo che Xn = i è binomiale B(N, a) Classificare gli stati di questa. C.M. Mostrare che O e N sono assorbenti. b) Qual è la media di X 1 partendo da. i? E quella. di X 2 ? c) Qual è la. probabilità di essere assorbiti in O partendo da 1, i = l, ... ,N-1? 5.10 Due coccinelle si trovano inizialmente sui vertici opposti di un ottagono i cui la.ti sono lunghi 1cm. Ad ogni istante ciascuna. di esse si sposta, a caso e indipendentemente dall'altra, su uno dei due vertici adiacenti a. quello in cui essa si trova. Indichiamo con Dn la distanza. in cm che le separa all'istante n. a) Qual è la. legge di D1 ? b) Mostrare che {Dn}n è una. catena di Markovdi stati {0,2,4} e determinarne la matrice di transizione. c) Qua.I è la probabilità che esse si trovino nello stesso vertice per n grande? d) Calcola.re il tempo medio necessario perclié le due coccinelle si trovino sullo stesso vertice. 5.11 (Modello di Ehrenfest) m paJJine sono ripartite in due urne. Ad ogni unità di tempo una delle n pa.JJine viene scelta a caso e spostata dall'urna in cui si trova. all'altra.
Esercizi
187
a) Indichiamo con Xn il numero di palline presenti nella prima urna. al tempo n. Mostrare che {Xn}n si può descrivere mediante una catena di nascita. e morte (con un numero finito di sta.ti), di cui si determinerà la matrice di_ transizione. b) Mostrare che la distribuzione
k
è una distribuzione
= o,... ,m
stazionaria.
c) Sono soddisfatte
le condizioni del Teorema di Markov?
5.12 La Figura 5.3 rappresenta il diagramma di flusso di un programma di calcolatore. Ad ogni unità di tempo il controllo del programma passa dallo stato i ad uno stato a cui i è collegato con una freccia e con la probabilità indicata..
D 1
1/2
-
Dl D
1/2
11 3/4
D Figura
1/2
1/4
1/4
1/4 1/2
1/2
5.3
a) L'evoluzione del programma può essere descritta. mediante una catena di Ma.rkov? Scriverne la matrice di transizione. b) Qual è il tempo medio di esecuzione del programma partendo da 1 ? È un tempo maggiore o minore che se si partisse da. 3? c) L'esecuzione risulterebbe accelerata. se invece fosse p 31 = ¼ e p34 = ¾?
5.13 Cosideria.mo una. ca.tena. di nascita. e morte con probabilità l
Pi= 2i
+k
i+
q; = 2i
di transizione
k
+k
dove k > O è un parametro intero. Per qua.li va.lori di k la catena è ricorrente positiva? Per quali va.lori di k è ricorrente nulla?
188
Capitolo 5
5.14 (Passeggiata a caso semplice) Un mobile si muove a caso sugli interi relativi ( cioè E = {... - 1, O, 1, ... }). Ad ogni istante esso si sposta dallo stato i a i + 1 con probabilità p ed a i - 1 con probabilità 1 - p, O ~ p ~ l.
-
-
-
-
I
i- 2 Figura
i+ 1
i- 1
5.4
Scopo di questo esercizio è lo studio, al variare di p, delle proprietà di ricorrenza e transitorietà della C.M. risultante da questa situazione. L'intuizione, insieme ad argomenti di simmetria., dovrebbe però già permettere di prevedere alcuni dei fatti che verra/lno provati nel seguito. a) Mostrare che il moto del mobile si può descrivere co/l una catella. di Markov di cui si determinerà la matrice di trallsiziolle. Si tratta di u/la ca.te/la irriducibile? b) Sia {Zn}n Ulla successione div.a. indipendenti tali che P{Zn = 1} = p, P{Zn = -1} = 1-p e palliamo Xn = Z1 + ... +Zn. Quanto va.le la probabilità condizionale P{Xn = j I Xn-1 = i}? Dedurne clie {Xn}n è una catena di Markov associata alla matrice di transizione ottenuta in a) e con O come stato i lliziale. c) (La. risoluziolle di questo punto non è indispensabile per a.ffron tare i successivi) Cosa si può dire del limite limn-+oo ¾Xn? Quanto vale il limite limn-+oo X n se p f:.¾? Mostrare che se p f:.¾ la catena è transitoria.. d) Con le notazi~ni di b) mostra.re che se~Y; = ¾(Z; + 1) allora Yi "'B(l,p) e dunque ½(Xn + n)"' B(n,p). Quanto va.le Pb~) ~ P{Xn E se n è pa.ri? e) Usando la formula di Stirling
= O}se n
è dispari?
n!-~(~)n mostrare che P~~n)"'[4p{l - P)t
~
y7rn
Per quali va.lori di p la serie I::=oP61n) è convergente? Per quali valori di p la catena. è ricorrente? Per qua.li è transitoria.? f) Mostra.re che, se una distribuzione stazionaria esistesse, allora dovrebbe essere uniforme. La. ca.tena. può essere ricorrente positiva?
6 Statistica
Matematica
6.1 Modelli statistici Esempio 6.1 Una moneta, di cui si ignora se sia o no equilibrata, viene lanciata 1000 volte ottenendo 447 teste. Cosa se ne può dedurre? Si può affermare che la moneta sia equilibrata? Questo è un tipico problema di Statistica: siamo in presenza di un fenomeno aleatorio, come nei capitoli precedenti, ma non abbia.mo informazioni sufficienti per costruire uno spazio di probabilità. adeguato a descriverlo ( non sappiamo con quale probabilità p la moneta dia testa). A partire dall'osservazione vogliamo però ricavare delle informazioni sul fenomeno. In un certo senso è un problema inverso rispetto a quello dei capitoli precedenti. Un moijello conveniente per i problemi di statistica è il seguente.
Definizione 6.2 Si chiama modello statistico una. fa.miglia di spazi di probabilità (f2, A, (P 11) 11Ee ), dove 0 è un insieme di indici. Un modello statistico adatto allo studio dell'Esempio 6.1 può essere il seguente, basato sullo schema di Bernoulli dell'Esempio 1.18
n = {O,1}1000 A = le parti di n
= [O,1) pll(w) = 0k(l 0
0)1-k
dove k è il numero di volte che il simbolo 1 appare nella sequenza w = (w1, ... , w1000). In altre parole, se indichiamo con 1 il risultato "testa" e con O "croce", i possibili risultati dell'esperimento casuale sono ora tutte le possibili sequenze di O e 1. Come nell'Esempio 1.18 ( dove scrivevamo p invece di 0) P 11
190
Capitolo 6
è la probabilità di ottenere una sequenza w quando la probabilità. di osservare 1 in un singolo lancio vale O. Un modello statistico descrive dunque un fenomeno aleatorio in cui però la probabilità. di osservare un dato risultato x dipende da un parametro (} che è incognito. Uno dei problemi naturali in questa situazione consiste nell'individuare O, oppure una sua funzione f(O), a partire dall'osservazione x. Un caso frequente è quello in cui /( O) è la media dell'osservazione. Data una funzione V.a. X:
n-+ m,m_
f :0
-+
Ill m si chiama stimatore del parametro
f (O) una
Intuitivamente dare uno stimatore X significa fissa.re la. regola. che, se si osserva w, allora si stima f(O) con la. quantità. X(w). Con questa definizione ogni v .a. a valori in Ill m è uno stimatore. Una. prima questione quindi consiste nello stabilire dei criteri per decidere quali stimatori sia.no "buoni" e quali no, ovvero per confronta.re due stimatori e stabilire quale sia. il migliore. Per la situazione dell'Esempio 6.1, ad esempio le due v.a.
( 6.1)
Y(w)
= w1
X(w)
= -1000 'ç""' w· L,__;
1
1000 2
i=l
sono due stimatori di O. Il primo consiste nello stimare (} con il valore di w1 : se il primo lancio dà testa si decide che (} = 1, altrimenti (} = O. Il secondo invece stima 0 con la proporzione di teste ottenute nei 1000 lanci (0.447 con i dati dell'esempio). È chiaro che il primo stimatore è particolarmente grossolano ( usa solo una piccola parte dell'informazione contenuta nell'osservazione). Il secondo appare invece più ragionevole. Dopo tutto se effettuiamo n lanci e facciamo crescere n -+ oo la quantità. ~ I:~ 1 w; converge verso(} per la. legge dei grandi numeri. Naturalmente non possiamo effettuare un'infinità. di lanci, man = 1000 è un numero già. abbastanza. grande perché si possa. pensare che X(w) non sia lontano da. O. Vediamo ora dei criteri rigorosi per valutare e confrontare stimatori diversi. È però opportuno già osservare che uno stimatore è una variabile aleatoria ( dipende dall'osservazione). I valori che esso assume sono cioè casuali e si può parla.re della legge dello stimatore, anzi delle leggi dello stimatore, poiché la legge di X dipenderà. dalla. vera. probabilità P 11che regge il fenomeno. È intuitivo
Modelli statistici
191
ad esempio che se 0 = ½ (cioè la moneta è equilibrata) allora X assumerà con grande probabilità dei valori vicini a 0.5, mentre se 0 = 0.95 la proporzione di teste sarà più grande e X tenderà a valori più grandi (e, per la legge dei grandi numeri, vicini a 0.95 se n è abbastanza grande). Più precisamente, poiché la legge di X è l'applicazione
al variare di A in una classe di sottoinsiemi di IR (vedi l'Osservazione 3.6), essa dipende dal parametro 0 e, in generale, per valori di 0 diversi X avrà leggi (e quindi densità) diverse. Parleremo dunque della legge di X rispetto a P 11 e indicheremo con E 11e Var 11 rispettivamente la speranza matematica e la varianza di X rispetto alla probabilità P 11• Diremo che X è uno stimatore non distorto ( oppure corretto) del parametro /(0) se per ogni 0 E 0
E11[X] = f(0) In altre parole uno stimatore non distorto di / ( 0) può prendere dei valori diversi da f( 0), ma. la. media. dei valori assunti sarà. proprio f( 0) e questo per ogni valore dell'incognito para.metro 0. In genere per uno stimatore il fatto di essere non distorto è da considerarsi un fatto positivo, anche se saremo condotti a consid 15}~ 24>(-
i\faggiorando al solito 0(1 - 0) con
i5
JO(l-0)
¼,se vogliamo
2{-2i5J1000) = 0.05
J1000) che sia.
Stimatori di varianza minima
deve essere -26\1'1000
8
= 2~ = 0.03. 1000 P{w; 0 E
= -1.96
195
(vedi le tavole della legge normale) e dunque
Quindi
= P{IX - 01:'.S0.03} 2: 1 - 0.05 = 0.95 0.03,X(w) + 0.03] è un intervallo di fiducia
[X - 0.03, X+ 0.03)}
e la regione w -+ [X(w) di livello a= 0.05. Con i valori numerici dell'Esempio 6.1 0 E (0.417,0.477] con probabilità del 95%. Abbiamo visto finora degli esempi di quello che in Statistica si chiama un problema di stima, cioè il calcolo di stimatori e di intervalli di fiducia. Un altro problema tipico è quello di test, come quello evocato nell'Esempio 6.1 quando ::i domandavamo se, alla luce dell'osservazione, si poteva dire se la moneta fosse equilibrata. oppure no. Affronteremo questo tipo di problemi più tardi. Nei prossimi paragrafi vedremo dei risultati sugli stimatori ammissibili e alcune tecniche che permettono di determina.re dei buoni stima.tori.
6.2 Stimatori
di varianza
minima
In alcuni casi è possibile stabilire che uno stimatore è migliore di tutti gli altri, almeno per il criterio di ammissibilità del paragrafo precedente. Diremo che uno stimatore T di f(0) è uniformemente di varianza minima non distorto ( che abbrevieremo con UVM) se è non distorto e se per di più è preferibile ad ogni altro stimatore non distorto. Supponiamo che l'osservazione sia. della forma X = (X 1, ... , X n) Teorema 6.6 Sia T(X) uno stimatore non distorto di f(0) di va.ria.nza finita. e supponiamo cl1e goda della. proprietà seguente: qualunque sia la. v.a. V(X) di varianza finita ta.le che E 9[V(X)] = O per ogni 0 E 0, si ha.
E 9 [T( X )V(X)] = Cov11(T(X), V(X)) = O Allora T(X) è uno stima.tare UVM di f(0).
Dimostrazione. Sia. W(X) un altro stimatore non distorto di f(0) e di va.ria.nza finita. Allora se V(X) = W(X) - T(X) si ha. E 9[V(X)] = O per ogni 0. Allora Va.r11(W(X)) = Va.r9(T(X)
= Var11(T(X))
+ V(X))
=
f
+ Va.rll(V(X)) + 2 Cov1J((T(X), =O
= Varo(T(X)) + Va.ro(V(X)) 2: Va.ro(T(X))
V(X)) =
196
Capitolo 6
e dunque T(X) ha varianza più piccola di ogni altro stimatore non distorto.
Esempio 6. 7 Sia X1, ... , Xn un campione di leggi di Bernoulli. Verifichiamo che la media empirica X è uno stimatore UVM. Sia V una funzione tale che E 11[V(X1 , ••• , Xn)] = O per ogni valore di 0 E [O,l]. Ciò significa che
LV(w1,
... ,wn)0w1+...+wn(1-0r-w1-----Wn
=o
wen Poiché questa relazione è vera per ogni valore di 0, sarà uguale a O anche la sua derivata rispetto a 0. Poniamo sn = w 1 + ... + Wn, in modo che si abbia nX = Sn; derivando dunque
O=
L V(w){ Sn0Sn-
wen = "V(w){ L.t
wEO
1 (l
- 0)n-Sn - (n - Sn)0 8 n(l - 0rsn-
Sn - n - Sn }0sn(l - 0r-sn 0 l-0
= n(1+ 1 ~ 0)
L X(w) V(w)0
5
"
1}
=
=
(1 - 0r-sn -
wEO
La condizione del Teorema 6.6 è dunque verificata e
X è uno stimatore UVM.
Esempio 6.8 Sia X = (X 1 , ••• , Xn) un campione di rango n di leggi N(µ, u 2 ), dove il parametro 0 = (µ, a 2 ) è da stimare. Mostriamo che gli stimatori X
-
1 = -(X1 + ... + Xn) n
S2
1- '°'(Xi = -n-lL.t
n i=l
sono stimatori UVM di JL e a 2 rispettivamente.
- X) 2
Stimatori di varianza minima
197
Sia V una funzione tale che E 11 [V(X)] = O per ogni valore di 0 = (µ, cr2 ), cioè tale che
(6.2)
1) / 2 n 2 ( 211"CT
J+oo V( _
X1, •••
, Xn
00
) exp ( - I:~1(Xi - µ)2) dXl 2cr2
•••
dXn --
= E 11[V(X)] = O Se deriviamo questa uguaglianza rispetto a µ e ammettiamo, cosa che si può verificare rigorosamente, che si possa derivare sotto il segno d'integrale ottemamo
O=
1
?)n / 2 ( 21rcrX
=
_
exp
1 . ) /? (21rcr2 n X
J+oo Tr( v
)2 I:~-I (xi - µ) 2cr2
Xt,···,Xn
00
( - "n L..,i=I
(xi - µ)2) ·
,,
2cr-
dx1 ... dxn
X
=
J+oo (nx nµ) V(x1, ... ,xn) cr2
-(X)
I:~=l(Xi-/l)2) exp ( 2cr2
-
X
-?
cr-
dx1 ...
d
Xn
=
n2 E11[V(X)X] - n~ E11[V(X)]
cr
cr-
= cr~)E 11[V(X)X] Per il Teorema 6.6 dunque .Y è uno stimatore UVM di µ. Con calcoli simili, derivando rispetto a cr2 si verifica che S2 è uno stimatore UVM di cr2 • I ragionamenti di questi due esempi si possono ripetere per altri campioni e ottenere, ad esempio, che se X 1 , ..• , X n è un campione di leggi di Poisson di parametro >.,allora X è uno stimatore UVM di >.(ricordiamo che per le leggi di Poisson il parametro >.è anche la media). Anche il caso di campioni di leggi geometriche, gamma, ... si può trattare allo stesso modo. Ciò però non significa che questi stimatori siano gli unici meritevoli di essere presi in considerazione. In effetti il criterio di valutare uno stimatore richiedendo che esso abbia varianza minima è certo ragionevole ma non l'unico. Vedremo nel prossimo paragrafo esempi di stimatori importanti che pure ncn sono UVM.
198
Capitolo 6
6.3 Stimatori
di massima verosimiglianza
cn,
Consideriamo un modello statistico A, ( P0)BES)e supponiamo che l 'osservazione sia data dalle v.a. X1, ... , Xn. Se X1, ... , Xn hanno densità congiunta ( discreta o continua) L9 rispetto a P 9, un modo ragionevole di costruire uno stimatore T può essere il seguente: se l'osservazione è X(w) = (X 1 (w), ... , Xn(w)) allora si decide che il vero valore di 0 è quello in corrispondenza del quale la funzione 0 -+ L0(X(w)) è massima. Se la densità L0 è discreta ciò coincide con il valore di 0 per il quale l'osservazione X (w) è la più probabile. La funzione 0 -+ L9 ( x) viene anche detta funzione di verosimiglianza (likelihood in inglese), il che spiega il nome che si dà a questo stimatore.
Definizione 6.9 Uno stimatore T è detto di massima verosimiglianza se per ogni w E n la funzione di verosimiglianza 0 -+ Lo(X(w)) raggiunge il suo massimo per 0 = T(w). Poniamo X(w) = x = (x1,.,.,xn)Se la funzione 0-+ L9(.r) ha più di un punto di massimo assoluto allora naturalmente lo stimatore di massima verosimiglianza non è unico. In pratica il calcolo dello stimatore di massima verosimiglianza si riduce al calcolo del massimo di una funzione; quindi se 0 è un aperto di fil.dsi procederà al solito iniziando con la ricerca degli zeri del gradiente di 0-+ L0(x). Spesso è però più comodo cercare i punti di massimo di 0 -+ logL0(x); si tratta chiaramente di nn problema equivalente perché i punti di massimo delle due funzioni 0-+ L0(x) e 0--1ogL 11(x) sono gli stessi. In effetti se il modello (f!,A,(Pe)oEe) è un campione di rango n di leggi di densità fB (continue o discrete), allora L11(x)= JB(xi) ... fB(xn), e 0 E 0 è un punto critico per 0-+ log Lo(w) se e solo se n
(6.3)
Lgrad
8 logf0(x;)
=O
i=l
Questa equazione si chiama equazfone di verosimiglianza. Se 0 E 0 è soluzione di (6.3) esso è in realtà solo un punto critico del gradiente e quindi non necessaria.mente un punto di massimo. Molto spesso (anche se non sempre) il valore di 0 così ottenuto è però unico ed il punto è di massimo.
Esempio 6.10 Consideriamo un campione di rango n di leggi N(µ, a 2 ), dove i parametri Jt e a 2 sono entrambi sconosciuti. Calcoliamo lo stimatore di massima
Stimatori di massima verosimiglianza
199
verosimiglianza di () = (µ, 0' 2 ) risolvendo la (6.3). In questo caso
fe(x) = ~O'
exp(
(x ~~)
a x-µ oµlogfµ,a(x) = ~ a (x - µ)2 OO'log Jµ,a(x)
=
2
)
(12
0' 3
Dunque (6.3) diviene n
i=l n
L)xi - µ)2 = nC12 i=l
che hanno soluzione
Si verifica direttamente che (µ,a2 ) è in realtà un punto di massimo per la verosimiglianza, per cui i valori ottenuti danno effettivamente lo stimatore di massima verosimiglianza per (µ, 0' 2 ). Un confronto con l'Esempio 6.4 mostra cheµ coincide con X, mentre o-2 non è non distorto; infatti
È chiaro però che per n grande
a2
differisce di poco dallo stimatore UVM S2 •
Il criterio di massima verosimiglianza è molto utile perché fornisce un metodo di calcolo di stimatori in situazioni in cui, a differenza degli esempi che abbiamo visto finora, l'intuizione non suggerisce uno stimatore ragionevole. Essi inoltre hanno un buon comportamento asintotico. Si può cioè dimostrare, nel caso dei campioni ad esempio, che quando n -+ oo essi convergono verso il valore da stimare meglio di ogni altro stimatore (in un senso che non preciseremo).
200
Capitolo 6
6.4 Stimatori
di Bayes
Fino ad ora abbiamo supposto che non ci fossero a priori dei motivi per considerare dei valori di 8 E 0 più probabili di altri. Questo non è sempre il caso; consideriamo la situazione dell'Esercizio 1.10: in esso vogliamo stimare da quale delle urne sia stata fatta l 'estiazione, sapendo che questa ha dato come risultato una pallina bianca ed una rossa. Una strategia ragionevole può essere la seguente: calcoliamo la probabilità condizionale Pi che l'urna prescelta sia la i-esima sapendo che l'estrazione ha dato come risultato una pallina rossa ed una bianca e decidiamo che l'urna prescelta è quella in corrispondenza della quale il valore Pi è il più elevato. Il risultato naturalmente è diverso a seconda che in partenza tutte le urne siano ugualmente probabili oppure no. In generale la situazione si può descrivere nel modo seguente. Si considera che il parametro 8 E 0 è scelto con una certa distribuzione di probabilità q. Supponiamo per semplicità che 0 sia JR oppure un suo sottointervallo. Dire che 8 viene scelto con densità q e che se il vero valore del parametro è 8 la densità dell'osservazione è x--+ p11(x) equivale a dare per il vettore (8, X) la legge di 8 e la legge condiziona.le di X rispetto a 0. Dunque la legge congiunta di (8, X) è data da.Ila densità g(fJ,x) = q(0)p11(.r) La legge dell'osservazione X è la seconda margina.le di g gz(x)
=
l
q(8)p11(x)d8
e la densità condiziona.le di fJ dato x è ifx(8)
= q(8)p11(x) gz(x)
Possiamo ora scegliere come stimatore il valore di 8 che rende minimo il rischio quadratico rispetto alla legge ifx cioè quel valore Oche renda minima la funzione
Rx(z)
= [ (z -
le
8)2 ifx(8) O, hanno densità
q(t)
= f(a + /3) to-1(1f( a )f(/3)
t)/3-1
per t E [O,1] e q(t) = O altrimenti. Un semplice studio di funzione mostra che se i parametri o e f3 sono uguali e più grandi di 1 allora la densità q si annulla in O ed in 1 ed ha un massimo per t = ½.Essa può dunque tentativamente essere usata come distribuzione a priori nel nostro problema. Calcoliamo lo stimatore di Bayes con una distribuzione a priori /3(a, (3), supponendo che l'osservazione sia costituita dal risultato di n lanci. Indichiamo con x = (x 1, ... ,xn) l'osservazione, dove i numeri Xi possono assumere i valori O oppure 1, a seconda che il lancio i-esimo abbia dato come risultato croce oppure testa. La densità congiunta. di (0,x) è dunque
ovvero se scriviamo
X1
+ ... + Xn = nx
(6.5) Calcoliamo la densità ( discreta. in questo ca.so) di X
r1
g,,(:z:)= f(o + (3) oo+ni·-1(1 - 0)13+11-nx-l d() ~ r( a )f(,13) lo
La legge condizionale di () dato X
= x è della
forma
q.r(()) = g( (),X) = const. ()o+nx-1 (1 _ ())/3+n-nx-1 92(x)
ed è dunque (3(o+ ni, f3 + n - nx). Lo stimatore di Bayes densità e dunque (Esercizio 4.5)
0 = a+ nx o+,B+n
0 è la media
di questa
Stimatori di Bayes
0
o
x
Figura 6.1 Confronto tra la distribuzione a priori (tratteggiata), e quella a posteriori, /3(6, 3).
203
1 che è /3(2, 2),
Se ad esempio avessimo scelto a = /3 = 2 e in 5 lanci avessimo ottenuto 4 teste, allora (nx = 4 in questo caso) la legge a posteriori sarebbe stata /3(6, 3) e 0 = 1 = 0.66. La Figura 6.1 riporta i grafici della densità a priori, di quella a posteriori ed i valori a confronto di x e 0. Da notare, anche graficamente, che la legge a posteriori ha una varianza· minore di quella a priori e che 0 f. x. In un certo senso il valore di 0 è stato ottenuto "correggendo" x per tenere conto del fatto che il valore a priori pii1 probabile è 0 = ½. L'Esempio 6.12 mette in evidenza un problema frequente nella stima da un punto di vista bayesiano, che è la scelta di una ragionevole distribuzione a priori. La scelta di /3(2, 2) in effetti non era certo l'unica. Inoltre l'Esempio 6.12 mostra che se la legge a priori è Beta e l'osservazione è un campione di Bernoulli, allora anche la distribuzione a posteriori è Beta ( anche se con parametri diversi). Abbiamo già incontrato un fenomeno simile (legge a priori delle stessa famiglia della legge a posteriori) nell'Esempio 6.11 e lo ritroveremo negli esercizi. Vediamo ora le proprietà degli stimatori di Bayes. Consideriamo per uno stimatore T del parametro 0 la funzione Rq(T)
=
L
E11[(T- 0)2]q(0) d0
In un certo senso Rq(T) è il rischio quadratico di T pesato rispetto alla distribuzione a priori q.
204
Capitolo 6
Proposizione rischio Rq(T).
6.13
di Bayes jj è quello che rende minimo il
Se indichiamo con X l'osservazione, allora per uno stimatore
Dimostrazione. V(X) si ha
Rq(V(X))
Lo stimatore
=l
E 8 [(V(X) - 0)2 ]q(O)dO = l
J
q(O)dO (V(x) - 0)2 p 8 (x) dx
Poiché Pe(x)q(O) = g(O,x) = g2(x)ijx(B)
Rq(V(X))
= 2:
J J
g2(x) dxl
(V(x) - 0)2qx dO 2:
g2(x) dxl
(B(x) - 0)2ijx(B)d(J=
= Rq(O(X)) dove abbiamo usato il fatto che
0 è il punto
di minimo della funzione
e in particolare
per ogni valore V(x). Può succedere che la media della distribuzione a posteriori sia una quantità che non si trova in 0. In questo caso lo stimatore 0 va calcolato cercando il valore O E 0 che rende minimo il rischio a posteriori Rx, Una variante di questi metodi di stima è data dal cosiddetto MAP ( ma:i:imum a posteriori likelihood), che consiste nello stimare (Jcon il valore di z E 0 che rende massima la densità a posteriori Z-+
ifx(z)
Il MAP è preferibile in alcune situazioni in cui il calcolo di 0 è intrattabile e quando non sia naturale considerare l'insieme 0 come un sottoinsieme di m..n. È in effetti un MA P lo stimatore che abbiamo implicitamente considerato nell'Esercizio 1.10.
Test
205
6.5 Test
Un particolare problema di stima è quello in cui si vuole stabilire se la probabilità incognita P 11goda di una certa proprietà oppure no: nell'Esempio 6.1 era naturale chiedersi se la moneta era equilibrata o no, il che si esprime chiedendosi se () = ½oppure () =/-½In generale in un problema di test si è in presenza di una partizione {0H,0A} di 0 e si vuole stabilire se() E 0H oppure no. Nel caso dell'Esempio 6.1 sarà 0H ={½}e 0A = [O,1] \ {½}. L'insieme 0H viene chiamato l'ipotesi mentre 0A è l'alternativa. La regola di decisione in questo caso è quindi una funzione T dell'osservazione a valori nell'insieme contenente i due elementi {H, A} e che decide, in funzione dell'osservazione w, se () E 0 H oppure no. Poiché T ha due possibili valori, definirla equivale ad assegnare l'insieme degli w nei quali essa prende il valore H (ovvero ad assegnare il suo complementare, nel quale essa assumerà il valore A). Dunque risolvere un test equivale a dare una partizione {D, Dc} di n dove D = {w;T(w) = 0A} indica. la. regione di n che porta al rigetto dell'ipotesi H. La regione D si chiama. regione critica del test (o di rigetto). Poiché saremo spesso condotti a calcolare la probabilità. che w si trovi in D oppure in Dc supporremo sempre che D E A. In generale qualunque sia. la scelta della regione critica se l'ipotesi è vera vi è una probabilità. positiva di osservare un w che sta in D e quindi di respingere l'ipotesi che pure è vera ( quello che si chiama un errore di prima specie). Allo stesso modo vi è una probabilità positiva. di accettare una ipotesi falsa ( errore di seconda specie). Si chiama livello del test di regione critica D la quantità OD
= sup P 11(D) IIE0H
Poiché P 9 (D) è la probabilità che l'osservazione w sia in D (e quindi di rigettare l'ipotesi) quando il vero parametro è 9, il livello OD è il sup delle probabilità di commettere un errore di prima specie. Si chiama invece potenza del test di regione critica D la funzione 1rD, definita su 0A a valori in [O,l], data da 1r0 (8) = P 9 (D). Ricordando che l'errore di secondo tipo non è altro che P 9 (Dc) = 1 - P 11(D) quando() varia in 0A, la potenza è pari a 1 meno l'errore di secondo tipo. Non è inopportuno sottolineare che il livello è un numero, mentre la potenza è una funzione. I due tipi di errore non hanno un ruolo simmetrico: un errore di prima specie è sempre considerato molto più grave di uno di seconda.
206
Capitolo 6
Ad esempio, quando si controlla l'efficacia di un farmaco si fa l'ipotesi che esso non sia efficace e si considera più grave attribuire a torto al farmaco delle proprietà che esso non possiede piuttosto che il contrario. L'approccio usuale è quindi il seguente: si fissa il livello a del test (tipicamente i valori sono o= 10%, 5%, 1%) e poi tra tutti i test di livello ~ a si cerca quello più potente ( quello cioè la cui funzione di potenza è più grande). Naturalmente non è detto che un test più potente di tutti esista, poiché dati, due test D1 e D2, può succedere che sia 11'D1 (0) > 11'D2 (0) per alcuni valori di () E 0 A e che accada il contrario per altri. In questo caso i due test non sono confrontabili. Esempio 6.14 La settimana successiva al suicidio di un famoso cantante in una città si sono registrati !!suicidi, contro una media di 8. Si può dire che vi sia stato un fenomeno d'imitazione? Se consideriamo un modello in cui ogni cittadino ha una probabilità p di commettere suicidio e supponiamo che il fatto che una persona. si suicidi non influenzi il comportamento degli altri, il numero di suicidi X è una v.a. B(n,p), dove n è il numero degli abitanti. Poiché è ragionevole supporre che p ( = la probabilità che un singolo individuo commetta suicidio) sia molto piccola e n molto grande, si può approssimare questa distribuzione con una legge di Poisson di parametro À = np. Giungiamo dunque all'affermazione che in condizioni normali la v.a. X "numero di suicidi" è di Poisson di parametro À = 8. Dire che vi è stato un fenomeno d'imitazione significa dire che ora la v.a. X segue una legge, sempre di Poisson, ma di parametro À diverso da 8. Usiamo dunque come modello un campione ( di rango 1) di leggi di Poisson di parametro 0 E 0 =]0, +oo[. In questo caso l'ipotesi è 0H =]O, 8] contro l'alternativa 0A =]8, +oo[. Un modo ragionevole di affrontare questo test è di stabilire di respingere l'ipotesi se il valore di X è troppo grande. Se fissiamo il livello al valore a = 5%, sceglieremo come regione di rigetto D = {X 2: k} dove k deve essere tale che P{X 2: k} ~ 0.05 se X è di Poisson di para.metro 8 (vedi anche l'Esercizio 2.li). Per questa legge, calcolando numericamente la funzione di ripartizione otteniamo i valori P{X 2: 11} = 0.1~
P{X 2: 1~} = o.o&ar P{X 2: lf,c}= O.OJf,_ Dunque l'ipotesi non è respinta. Il valore U..non è sufficiente a stabilire il manifestarsi di un fenomeno sociale rilevante. La. regione critica di questo test al livello o= 0.0.5 è infatti D = {X 2: I.4}: se si fosse osservato un valore 2: 1~ il dato sarebbe stato significativo.
Stima e test. per campioni gaussiani
6.6 Stima
e test per campioni
207
gaussiani
In questo paragrafo risolveremo i problemi di stima e test per dei campioni di legge normale. Si chiama legge t di Student con n gradi libertà (e si scrive t( n)) la legge di una v.a. Z della forma X
Z= .jy,/n
dove X e Y sono v.a. indipendenti di legge rispettivamente N(O, 1) e x2 (n). Non è difficile calcolare la densità di una v .a. di legge t( n ), ma. per i nostri scopi basta conoscerne numericamente la funzione di ripartizione, e per questo vi sono delle tavole. Uno sguardo a queste ultime mostra che i valori tabulati si avvicinano per n grande a quelli corrispondenti della legge N(O, 1). In realtà si può dimostrare (Esercizio 4.4) che se {Xn}n è una successione di v.a. tale che X n ,..., t( n) allora X n converge in legge a.cluna v .a. N(O, 1). Ciò è suggerito anche dalle figure nelle quali si vede che l'andamento della densità t(n) è anch'esso a campana., anche se con una decrescenza. all'infinito più lenta.
-3
-2
o
-1
2
1
Figura 6.2 Confronto t.ra densità N(O, I) (tratteggiata.)
3
e t(l).
La sola cosa importante da. segnalare è che una v.a. Z di Student è simmetrica, cioè Z e -Z hanno la. stessa distribuzione. Ciò deriva dal fatto che le v.a. N(O, 1) sono simmetriche e dunque
-X
-Z=-,/nrv-y'n=Z .jy Si chiama quantile di ordine a, O< a