Teoria della Probabilit`: Variabili aleatorie e distribuzioni [1a ed.] 9788847039995, 9788847040007

Il libro fornisce un'introduzione concisa ma rigorosa alla Teoria della Probabilit`. Fra i possibili approcci alla

231 66 4MB

italian Pages XI, 356 [362] Year 2020

Report DMCA / Copyright

DOWNLOAD PDF FILE

Table of contents :
Front Matter ....Pages i-xi
Introduzione (Andrea Pascucci)....Pages 1-9
Misure e spazi di probabilit` (Andrea Pascucci)....Pages 11-102
Variabili aleatorie (Andrea Pascucci)....Pages 103-200
Successioni di variabili aleatorie (Andrea Pascucci)....Pages 201-229
Probabilit`condizionata (Andrea Pascucci)....Pages 231-265
Back Matter ....Pages 267-356
Recommend Papers

Teoria della Probabilit`: Variabili aleatorie e distribuzioni [1a ed.]
 9788847039995, 9788847040007

  • 0 0 0
  • Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up
File loading please wait...
Citation preview

UNITEXT 123

Andrea Pascucci

Teoria della Probabilità Variabili aleatorie e distribuzioni

UNITEXT – La Matematica per il 3+2 Volume 123 Editor-in-Chief Alfio Quarteroni, Politecnico di Milano, Milan, Italy; EPFL, Lausanne, Switzerland Series Editors Luigi Ambrosio, Scuola Normale Superiore, Pisa, Italy Paolo Biscari, Politecnico di Milano, Milan, Italy Ciro Ciliberto, Università Degli Studi di Roma “Tor Vergata”, Rome, Italy Camillo De Lellis, Institute for Advanced Study, Princeton, USA Victor Panaretos, Institute of Mathematics, EPFL, Lausanne, Switzerland

The UNITEXT – La Matematica per il 3+2 series is designed for undergraduate and graduate academic courses, and also includes advanced textbooks at a research level. Originally released in Italian, the series now publishes textbooks in English addressed to students in mathematics worldwide. Some of the most successful books in the series have evolved through several editions, adapting to the evolution of teaching curricula. Submissions must include at least 3 sample chapters, a table of contents, and a preface outlining the aims and scope of the book, how the book fits in with the current literature, and which courses the book is suitable for. For any further information, please contact the Editor at Springer: [email protected] THE SERIES IS INDEXED IN SCOPUS

More information about this series at http://www.springer.com/series/5418

Andrea Pascucci

Teoria della Probabilità Variabili aleatorie e distribuzioni

Andrea Pascucci Alma Mater Studiorum – Università di Bologna Bologna, Italy

ISSN 2038-5714 UNITEXT ISSN 2038-5722 La Matematica per il 3+2 ISBN 978-88-470-3999-5 https://doi.org/10.1007/978-88-470-4000-7

ISSN 2532-3318 (versione elettronica) ISSN 2038-5757 (versione elettronica) ISBN 978-88-470-4000-7 (eBook)

© Springer-Verlag Italia S.r.l., part of Springer Nature 2020 Quest’opera è protetta dalla legge sul diritto d’autore e la sua riproduzione è ammessa solo ed esclusivamente nei limiti stabiliti dalla stessa. Le fotocopie per uso personale possono essere effettuate nei limiti del 15% di ciascun volume dietro pagamento alla SIAE del compenso previsto dall’art. 68. Le riproduzioni per uso non personale e/o oltre il limite del 15% potranno avvenire solo a seguito di specifica autorizzazione rilasciata da AIDRO, Corso di Porta Romana n. 108, Milano 20122, e-mail [email protected] e sito web www.aidro.org. Tutti i diritti, in particolare quelli relativi alla traduzione, alla ristampa, all’utilizzo di illustrazioni e tabelle, alla citazione orale, alla trasmissione radiofonica o televisiva, alla registrazione su microfilmo in database, o alla riproduzione in qualsiasi altra forma (stampata o elettronica) rimangono riservati anche nel caso di utilizzo parziale. La violazione delle norme comporta le sanzioni previste dalla legge. L’utilizzo in questa pubblicazione di denominazioni generiche, nomi commerciali, marchi registrati, ecc. anche se non specificatamente identificati, non implica che tali denominazioni o marchi non siano protetti dalle relative leggi e regolamenti. Immagine di copertina: Cino Valentini, Campi stocastici, 2013, affresco acrilico su tela, 40 × 40 cm, collezione privata. Questa edizione è pubblicata da Springer-Verlag Italia S.r.l., parte di Springer Nature, con sede legale in Via Decembrio 28, 20137 Milano, Italy

A Elena per la sua perseveranza, a Giovanni che è un artista, a Maria per la sua energia.

Prefazione

Questo libro fornisce un’introduzione concisa ma rigorosa alla Teoria della Probabilità. Fra i possibili approcci alla materia si è scelto di adottare il più moderno, basato sulla teoria della misura: pur richiedendo un grado di astrazione e sofisticazione matematica maggiore, esso è indispensabile a fornire le basi per l’eventuale studio successivo di argomenti più avanzati come i processi stocastici, il calcolo differenziale stocastico e l’inferenza statistica. Anche a livello introduttivo, la Teoria della Probabilità non è una materia facile e spesso appare ostica al primo impatto. Molti concetti si comprendono a fondo solo dopo aver esaminato un adeguato numero di esempi e svolto molti esercizi. Spesso occorre aver fiducia e “gettare il cuore oltre l’ostacolo”, non bloccarsi su concetti che inizialmente appaiono oscuri e procedere confidando nel fatto che saranno chiariti in breve tempo. Nato dall’esperienza di insegnamento del corso di Probabilità e Statistica Matematica presso la Laurea Triennale in Matematica dell’Università di Bologna, il testo raccoglie materiale più che sufficiente per un insegnamento semestrale in corsi di studio scientifici (Matematica, Fisica, Ingegneria, Statistica...), assumendo come prerequisito il calcolo differenziale e integrale di funzioni di più variabili. Un ringraziamento va a tutti coloro (studenti, colleghi ed amici) che hanno contribuito a questo libro con commenti, suggerimenti e segnalando errori: in particolare, ringrazio Cristina Di Girolami, Franco Flandoli, Claudio Fontana, Marco Fuhrman, Alberto Lanconelli, Marco Lenci, Stefano Pagliarani, Antonello Pesce, Michele Pignotti e in special modo Andrea Cosso. Il libro potrebbe contenere errori o imprecisioni di cui mi assumo la piena responsabilità: sarò grato a chiunque vorrà segnalarmeli e manterrò sulla mia pagina web una lista di correzioni. Bologna Febbraio 2020

Andrea Pascucci

vii

Indice

1

Introduzione . . . . . . . . . . . . . . . . . . . . . 1.1 Una rivoluzione della matematica . . . . . 1.2 La probabilità nel passato . . . . . . . . . . 1.3 La probabilità nel presente . . . . . . . . . . 1.4 Nota bibliografica . . . . . . . . . . . . . . . 1.5 Simboli e notazioni usati frequentemente .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

2

Misure e spazi di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Spazi misurabili e spazi di probabilità . . . . . . . . . . . . . . . . . . 2.1.1 Spazi misurabili . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2 Spazi di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.3 Algebre e  -algebre . . . . . . . . . . . . . . . . . . . . . . . . 2.1.4 Additività finita e  -additività . . . . . . . . . . . . . . . . . . 2.2 Spazi finiti e problemi di conteggio . . . . . . . . . . . . . . . . . . . 2.2.1 Cardinalità di insiemi . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Tre esperimenti aleatori di riferimento: estrazioni da un’urna 2.2.3 Metodo delle scelte successive . . . . . . . . . . . . . . . . . . 2.2.4 Disposizioni e combinazioni . . . . . . . . . . . . . . . . . . . 2.2.5 Probabilità binomiale e ipergeometrica . . . . . . . . . . . . . 2.2.6 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Probabilità condizionata e indipendenza di eventi . . . . . . . . . . . 2.3.1 Probabilità condizionata . . . . . . . . . . . . . . . . . . . . . . 2.3.2 Indipendenza di eventi . . . . . . . . . . . . . . . . . . . . . . . 2.3.3 Prove ripetute e indipendenti . . . . . . . . . . . . . . . . . . . 2.3.4 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.1  -algebra generata e completamento di uno spazio di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.2  -algebra di Borel . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.3 Distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.4 Distribuzioni discrete . . . . . . . . . . . . . . . . . . . . . . .

1 1 3 6 8 8 11 12 12 14 18 22 25 25 26 27 28 34 37 45 45 52 57 59 63 63 65 66 68 ix

x

Indice

2.5

3

2.4.5 Distribuzioni assolutamente continue . . . . . . . . . 2.4.6 Funzioni di ripartizione (CDF) . . . . . . . . . . . . . 2.4.7 Teorema di estensione di Carathéodory . . . . . . . 2.4.8 Dalle CDF alle distribuzioni . . . . . . . . . . . . . . 2.4.9 Funzioni di ripartizione su Rd . . . . . . . . . . . . . 2.4.10 Sintesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . Appendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.1 Dimostrazione della Proposizione 2.3.30 . . . . . . 2.5.2 Dimostrazione della Proposizione 2.4.9 . . . . . . . 2.5.3 Dimostrazione del Teorema 2.4.29 di Carathéodory 2.5.4 Dimostrazione del Teorema 2.4.33 . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

Variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Variabili aleatorie e distribuzioni . . . . . . . . . . . . . . . 3.1.2 Esempi di variabili aleatorie discrete . . . . . . . . . . . . . 3.1.3 Esempi di variabili aleatorie assolutamente continue . . . 3.1.4 Altri esempi di variabili aleatorie notevoli . . . . . . . . . . 3.2 Valore atteso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Integrale di variabili aleatorie semplici . . . . . . . . . . . . 3.2.2 Integrale di variabili aleatorie non-negative . . . . . . . . . 3.2.3 Integrale di variabili aleatorie a valori in Rd . . . . . . . . 3.2.4 Integrazione con distribuzioni . . . . . . . . . . . . . . . . . 3.2.5 Valore atteso e Teorema del calcolo della media . . . . . . 3.2.6 Disuguaglianza di Jensen . . . . . . . . . . . . . . . . . . . . 3.2.7 Spazi Lp e disuguaglianze notevoli . . . . . . . . . . . . . . 3.2.8 Covarianza e correlazione . . . . . . . . . . . . . . . . . . . . 3.2.9 Regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . 3.2.10 Vettori aleatori: distribuzioni marginali e distribuzione congiunta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 Dipendenza deterministica e indipendenza stocastica . . . 3.3.2 Misura prodotto e Teorema di Fubini . . . . . . . . . . . . . 3.3.3 Indipendenza fra  -algebre . . . . . . . . . . . . . . . . . . . 3.3.4 Indipendenza fra vettori aleatori . . . . . . . . . . . . . . . . 3.3.5 Indipendenza e valore atteso . . . . . . . . . . . . . . . . . . 3.4 Distribuzione e valore atteso condizionato ad un evento . . . . . . 3.5 Funzione caratteristica . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.1 Il teorema di inversione . . . . . . . . . . . . . . . . . . . . . 3.5.2 Distribuzione normale multidimensionale . . . . . . . . . . 3.5.3 Sviluppo in serie della funzione caratteristica e momenti . 3.6 Complementi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.1 Somma di variabili aleatorie . . . . . . . . . . . . . . . . . . 3.6.2 Esempi notevoli . . . . . . . . . . . . . . . . . . . . . . . . . .

. 71 . 74 . 79 . 79 . 84 . 88 . 89 . 89 . 91 . 92 . 100 . . . . . . . . . . . . . . . .

103 103 109 113 118 123 127 127 130 132 135 138 144 146 149 151

. . . . . . . . . . . . . . .

154 157 157 161 164 165 169 172 177 182 187 191 194 194 196

Indice

4

5

xi

Successioni di variabili aleatorie . . . . . . . . . . . . . . . . . . . . 4.1 Convergenza per successioni di variabili aleatorie . . . . . . . 4.1.1 Disuguaglianza di Markov . . . . . . . . . . . . . . . . . 4.1.2 Relazioni fra le diverse definizioni di convergenza . . . 4.2 Legge dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Cenni al metodo Monte Carlo . . . . . . . . . . . . . . . 4.2.2 Polinomi di Bernstein . . . . . . . . . . . . . . . . . . . . 4.3 Condizioni necessarie e sufficienti per la convergenza debole 4.3.1 Convergenza di funzioni di ripartizione . . . . . . . . . 4.3.2 Compattezza nello spazio delle distribuzioni . . . . . . 4.3.3 Convergenza di funzioni caratteristiche e Teorema di continuità di Lévy . . . . . . . . . . . . . . . . . . . . . . 4.3.4 Esempi notevoli di convergenza debole . . . . . . . . . 4.4 Legge dei grandi numeri e Teorema centrale del limite . . . .

. . . 220 . . . 222 . . . 224

Probabilità condizionata . . . . . . . . . . . . . . . . . 5.1 Il caso discreto . . . . . . . . . . . . . . . . . . . . . 5.1.1 Esempi . . . . . . . . . . . . . . . . . . . . . 5.2 Attesa condizionata . . . . . . . . . . . . . . . . . . 5.2.1 Proprietà dell’attesa condizionata . . . . . 5.2.2 Funzione attesa condizionata . . . . . . . . 5.2.3 Least Square Monte Carlo . . . . . . . . . 5.3 Probabilità condizionata . . . . . . . . . . . . . . . 5.3.1 Funzione distribuzione condizionata . . . 5.3.2 Il caso assolutamente continuo . . . . . . . 5.4 Appendice . . . . . . . . . . . . . . . . . . . . . . . . 5.4.1 Dimostrazione del Teorema 5.3.4 . . . . . 5.4.2 Dimostrazione della Proposizione 5.3.17

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . . . . .

201 201 204 205 208 212 213 214 214 218

231 231 238 240 243 247 249 251 255 256 262 262 264

Appendice A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267 Appendice B: Esercizi di riepilogo . . . . . . . . . . . . . . . . . . . . . . . . . . 287 Appendice C: Tavole riassuntive delle principali distribuzioni . . . . . . . . 349 Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351 Indice analitico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353

Capitolo 1

Introduzione

For over two millennia, Aristotle’s logic has ruled over the thinking of western intellectuals. All precise theories, all scientific models, even models of the process of thinking itself, have in principle conformed to the straight-jacket of logic. But from its shady beginnings devising gambling strategies and counting corpses in medieval London, probability theory and statistical inference now emerge as better foundations for scientific models, especially those of the process of thinking and as essential ingredients of theoretical mathematics, even the foundations of mathematics itself. We propose that this sea change in our perspective will affect virtually all of mathematics in the next century. D. Mumford, The Dawning of the Age of Stochasticity [33] In conclusione, cosa ci hanno mostrato Tversky e Kahneman1 con la loro convincente serie di esperimenti? Che l’essere umano, anche quello intelligente, colto e perfino con delle nozioni di statistica, non è un animale probabilistico. La teoria della probabilità si è sviluppata molto tardi nella storia del pensiero scientifico, non è insegnata nelle scuole, a volte non è capita molto bene neppure da coloro che dovrebbero applicarla. V. D’Urso, F. Giusberti, Esperimenti di psicologia [17]

1.1

Una rivoluzione della matematica

Nella matematica “classica” (quella che tuttora costituisce la maggior parte dei contenuti insegnati nelle scuole superiori e università) i concetti matematici rappresentano e descrivono quantità deterministiche: quando si parla, per esempio, di una variabile reale o di un oggetto geometrico si pensa rispettivamente a un numero che può essere ben determinato e a una figura che può essere definita analiticamente Materiale Supplementare Online È disponibile online un supplemento a questo capitolo (https://doi.org/10.1007/978-88-470-4000-7_1), contenente dati, altri approfondimenti ed esercizi. 1

Premio Nobel per l’economia nel 2002.

© Springer-Verlag Italia S.r.l., part of Springer Nature 2020 A. Pascucci, Teoria della Probabilità, UNITEXT 123, https://doi.org/10.1007/978-88-470-4000-7_1

1

2

1

Introduzione

e rappresentata in modo esatto. Da sempre, la matematica è ritenuto il linguaggio e lo strumento più potente con cui descrivere i fenomeni fisici e naturali in modo da interpretare e acquisire conoscenze su molteplici aspetti della realtà. Ma i modelli che la matematica può fornire sono sempre semplificazioni e non forniscono quasi mai una descrizione completa del fenomeno che si vuole studiare. Consideriamo il seguente esempio banale: se vado al supermercato e compro un 1 Kg di farina, posso essere soddisfatto dal fatto di sapere che il pacco pesa 1Kg perché c’è scritto sulla confezione; se non mi fido, posso pesarlo con la mia bilancia e scoprire che magari non è esattamente 1Kg ma qualche grammo in più o in meno; poi potrei anche chiedermi se la mia bilancia sia veramente affidabile e precisa fino al grammo e quindi rassegnarmi al fatto che forse non saprò mai il vero peso del pacco di farina. In questo caso ovviamente poco importa... Tuttavia l’esempio aiuta a capire che molti fenomeni (o forse tutta la realtà) possono essere interpretati come la somma o combinazione di più fattori classificabili in fattori deterministici (nel senso di osservabili a livello macroscopico) e fattori stocastici (nel senso di casuali, aleatori, non osservabili o non prevedibili). Il termine “stocastico” deriva dal greco στόχος che significa bersaglio (del tiro a segno) o, in senso figurato, congettura. A volte, come nell’esempio della farina, il fattore deterministico è prevalente nel senso che, per vari motivi, non val la pena considerare altri fattori e si preferisce trascurarli oppure non si hanno gli strumenti per includerli nella propria analisi: in questo modo forse semplicistico, per analogia, si potrebbe descrivere l’approccio della fisica classica e di tutte le teorie formulate prima del XX secolo che puntano a dare una descrizione a livello macroscopico e osservabile. D’altra parte, esistono molti fenomeni in cui il fattore stocastico non solo non è trascurabile ma è addirittura dominante: un esempio eclatante è fornito dalle principali teorie della fisica moderna, in particolare la meccanica quantistica. Rimanendo vicini alla realtà quotidiana, ormai non esiste ambito applicativo della matematica in cui si possa trascurare il fattore stocastico: dall’economia alla medicina, dall’ingegneria alla meteorologia, i modelli matematici devono necessariamente includere l’incertezza; infatti il fenomeno in oggetto può essere intrinsecamente aleatorio come il prezzo di un titolo azionario o il segnale in un sistema di riconoscimento vocale o guida automatica, oppure può non essere osservabile con precisione o di difficile interpretazione come un segnale radio disturbato, un’immagine tomografica o la posizione di una particella subatomica. C’è anche un livello più generale in cui non si può ignorare il ruolo della probabilità nello sviluppo della società odierna: si tratta di quella che è ormai ritenuta un’emergenza educativa, l’esigenza sempre più pressante che si diffondano e rafforzino le conoscenze di tipo probabilistico. Una vera e propria opera di alfabetizzazione in questo campo può evitare che banali misconcezioni, come per esempio quella dei numeri “ritardatari” nel gioco del lotto, abbiano gli effetti devastanti a livello sociale ed economico che oggi osserviamo: basti pensare che, in base ai dati ufficiali dei Monopoli di Stato, i soldi spesi dagli italiani per giochi d’azzardo (e parliamo solo dei giochi legali) nel 2017 hanno superato il tetto dei 100 miliardi di euro, il quadruplo rispetto al 2004.

1.2 La probabilità nel passato

3

Un segnale positivo è dato dall’evoluzione dell’insegnamento della probabilità nelle scuole superiori: fino a pochi anni fa la probabilità era assente dai programmi scolastici ed ora sta velocemente incrementando la propria presenza nei libri di testo e nelle prove d’esame, provocando anche un certo sconcerto nel corpo docente a causa di un così rapido aggiornamento dei contenuti. È bene sottolineare che la matematica stocastica (la probabilità) non vuole destituire la matematica classica ma ha in quest’ultima le proprie fondamenta e la potenzia approfondendo i legami con le altre discipline scientifiche. Paradossalmente, il mondo della formazione superiore e universitaria sembra avere un’inerzia maggiore per cui tende a rallentare il processo di passaggio dal pensiero deterministico a quello stocastico. In parte questo è comprensibile: la difesa dello status quo è ciò che normalmente avviene di fronte ad ogni profonda rivoluzione scientifica e, a tutti gli effetti, stiamo parlando di una vera e propria rivoluzione, silenziosa e irreversibile, che coinvolge tutti gli ambiti della matematica. A questo riguardo è illuminante la frase, posta all’inizio di questa introduzione, del matematico anglo-statunitense David Mumford, medaglia Fields2 nel 1974 per i suoi studi nel campo della geometria algebrica.

1.2

La probabilità nel passato

Il termine probabilità deriva dal latino probabilitas che descrive la caratteristica di una persona (per esempio, il testimone in un processo) di essere affidabile, credibile, onesto (probus). Questo differisce in parte dal significato moderno di probabilità intesa come studio di metodi per quantificare e stimare gli eventi casuali. Benché lo studio dei fenomeni in situazione d’incertezza abbia suscitato interesse in tutte le epoche (a partire dai giochi d’azzardo), la teoria della probabilità come disciplina matematica ha origini relativamente recenti. I primi studi di probabilità risalgono al XVI secolo: se ne occuparono, fra i primi, Gerolamo Cardano (1501–1576) e Galileo Galilei (1564–1642). Tradizionalmente la nascita del concetto moderno di probabilità viene attribuita a Blaise Pascal (1623–1662) e Pierre de Fermat (1601–1665). In realtà il dibattito sulla natura stessa della probabilità è stato molto lungo e articolato; esso ha interessato trasversalmente i campi della conoscenza dalla matematica alla filosofia, e si è protratto fino ai giorni nostri producendo diverse interpretazioni e impostazioni. Per maggiore chiarezza e precisione, è opportuno anzitutto distinguere la Teoria della Probabilità (che si occupa della formalizzazione matematica dei concetti e dello sviluppo della teoria a partire da alcuni assunti) dalla Statistica (che si occupa della 2 L’International Medal for Outstanding Discoveries in Mathematics, o più semplicemente medaglia Fields, è un premio riconosciuto a matematici che non abbiano superato l’età di 40 anni in occasione del Congresso internazionale dei matematici della International Mathematical Union (IMU), che si tiene ogni quattro anni. È spesso considerata come il più alto riconoscimento che un matematico possa ricevere: assieme al premio Abel è da molti definita il “Premio Nobel per la Matematica”, sebbene l’accostamento sia improprio per varie ragioni, tra cui il limite di età insito nel conferimento della medaglia Fields (fonte Wikipedia).

4

1

Introduzione

determinazione o della stima della probabilità degli eventi aleatori, anche utilizzando i risultati della Teoria della Probabilità). In questa breve premessa ci limitiamo a riassumere in estrema sintesi alcune delle principali interpretazioni del concetto di probabilità: alcune di esse sono maggiormente motivate dal calcolo e altre dalla teoria della probabilità. Partiamo dal considerare alcuni eventi aleatori, posti in ordine crescente di complessità:  E1 D “lanciando una moneta, si ottiene testa”;  E2 D “il sig. Rossi non avrà incidenti in auto nei prossimi 12 mesi”;  E3 D “entro 10 anni ci saranno auto a guida completamente autonoma”. Esaminiamo tali eventi alla luce di alcune interpretazioni del concetto di probabilità:  definizione classica: la probabilità di un evento è il rapporto tra il numero dei casi favorevoli e il numero dei casi possibili. Per esempio, nel caso E1 la probabilità è pari a 12 D 50%. È la definizione più antica di probabilità, attribuita a Pierre Simon Laplace (1749–1827). Questa definizione si limita a considerare i fenomeni che ammettono un numero finito di casi possibili e nei quali i casi siano equiprobabili: con questa interpretazione non è chiaro come studiare gli eventi E2 e E3 ;  definizione frequentista (o statistica): si suppone che l’evento consista nel successo di un esperimento riproducibile un numero indefinito di volte (per esempio, se l’esperimento è il lancio di una moneta, l’evento potrebbe essere “ottenere testa”). Se Sn indica il numero di successi su n esperimenti, si definisce (sarebbe meglio dire, si calcola) la probabilità come lim

n!1

Sn : n

Alla base di questa definizione c’è la Legge empirica del caso (che, in termini teorici, corrisponde alla Legge dei grandi numeri) per cui, per esempio, nel caso del lancio di una moneta si osserva empiricamente che Snn approssima il valore 50% per n che tende all’infinito. La definizione frequentista amplia notevolmente il campo di applicazione a tutti gli ambiti (fisica, economia, medicina etc) in cui si posseggano dati statistici riguardanti eventi passati che si sono verificati in condizioni analoghe: per esempio, si può calcolare la probabilità dell’evento E2 con una stima statistica in base a dati storici (come normalmente fanno le compagnie assicuratrici). L’approccio frequentista non permette di studiare il terzo evento che non è l’esito di un “esperimento aleatorio riproducibile”;  definizione soggettiva (o Bayesiana3 ): la probabilità è definita come una misura del grado di convinzione che un soggetto ha riguardo al verificarsi di un evento. In questo approccio, la probabilità non è una proprietà intrinseca e oggettiva dei fenomeni casuali ma dipende dalla valutazione di un soggetto. Operativamente4 , la probabilità di un evento è definita come il prezzo che un individuo ritiene equo 3

Thomas Bayes (1701–1761). Per quantificare, ossia tradurre in numero, il grado di convinzione di un soggetto su un evento, l’idea è di esaminare come il soggetto agisce in una scommessa riguardante l’evento considerato. 4

1.2 La probabilità nel passato

5

pagare per ricevere 1 se l’evento si verifica e 0 se l’evento non si verifica: per esempio, la probabilità di un evento è pari al 70% per un individuo che ritiene equo scommettere 70 per ricevere 100 nel caso l’evento si verifichi e perdere tutto in caso contrario. La definizione è resa significativa assumendo un criterio di coerenza o razionalità dell’individuo che deve attribuire le probabilità in modo tale che non sia possibile ottenere una vincita o una perdita certa (nel gergo finanziario odierno, si parlerebbe di assenza di possibilità di arbitraggio); occorre poi porre particolare attenzione per evitare paradossi del tipo seguente: nell’esempio del lancio di una moneta, un individuo può essere disposto a scommettere 1 euro per riceverne 2 in caso di “testa” e 0 in caso di “croce” (e quindi attribuendo probabilità pari al 50% all’evento “testa”) ma lo stesso individuo potrebbe non essere disposto a giocare 1 milione di euro sulla stessa scommessa. L’approccio soggettivo è stato proposto e sviluppato da Frank P. Ramsey (1903–1930), Bruno de Finetti (1906–1985) e successivamente da Leonard J. Savage (1917–1971): esso generalizza i precedenti e permette di definire anche la probabilità di eventi come E3 . Il dibattito sulle possibili interpretazioni della probabilità si è protratto per lungo tempo ed è tuttora aperto. Ma nella prima metà del secolo scorso c’è stato un punto di svolta decisivo, dovuto al lavoro del matematico russo Andrej N. Kolmogorov (1903–1987). Egli per primo ha gettato le basi per la formalizzazione matematica della probabilità, inserendola a pieno titolo nel novero delle discipline matematiche. Kolmogorov ha messo in secondo piano i difficili problemi del fondamento logico e del dualismo fra la visione oggettiva e soggettiva, concentrandosi sullo sviluppo della probabilità come teoria matematica. Il contributo di Kolmogorov è fondamentale perché, aggirando i problemi epistemologici, ha sprigionato tutta la potenza del ragionamento astratto e logico-deduttivo applicato allo studio della probabilità e ha così agevolato il passaggio dal calcolo della probabilità alla teoria della probabilità. A partire dal lavoro di Kolmogorov e grazie al contributo di molti grandi matematici del secolo scorso, sono stati conseguiti risultati profondi e aperti campi di ricerca ancora completamente inesplorati. Ora è bene sottolineare che la formalizzazione matematica della probabilità richiede un considerevole grado di astrazione. Pertanto, è assolutamente naturale che la teoria della probabilità risulti ostica, se non incomprensibile, al primo impatto. Kolmogorov utilizza il linguaggio della teoria della misura: un evento è identificato con un insieme E i cui elementi rappresentano singoli esiti possibili del fenomeno aleatorio considerato; la probabilità P D P .E/ è una misura, ossia una funzione d’insieme che gode di alcune proprietà: per fissare le idee, si pensi alla misura di Lebesgue. L’utilizzo del linguaggio astratto della teoria della misura è guardato da alcuni (anche da alcuni matematici) con sospetto perché sembra indebolire l’intuizione. Tuttavia questo è il prezzo inevitabile che si deve pagare per poter sfruttare tutta la potenza del ragionamento astratto e sintetico che è poi la vera forza dell’approccio matematico. In queste libro presentiamo i primi rudimenti di teoria della probabilità secondo l’impostazione assiomatica di Kolmogorov. Ci limiteremo a introdurre ed esamina-

6

1

Introduzione

re i concetti di spazio di probabilità, distribuzione e variabile aleatoria. Facendo un parallelo fra probabilità e analisi matematica, il contenuto di questo testo corrisponde grossomodo all’introduzione dei numeri reali in un primo corso di analisi matematica: ciò significa che faremo solo i primissimi passi nel vasto campo della Teoria della Probabilità.

1.3

La probabilità nel presente

Come affermato nella frase di David Mumford posta all’inizio dell’introduzione, al giorno d’oggi la teoria della probabilità è considerata un ingrediente essenziale per lo sviluppo teorico della matematica e per i fondamenti della matematica stessa. Dal punto di vista applicativo, la teoria della probabilità è lo strumento utilizzato per modellizzare e gestire il rischio in tutti gli ambiti in cui si studiano fenomeni in condizioni d’incertezza. Facciamo qualche esempio:  Fisica e Ingegneria dove si fa ampio uso dei metodi numerici stocastici di tipo Monte Carlo, formalizzati fra i primi da Enrico Fermi e John von Neumann;  Economia e Finanza, a partire dalla famosa formula di Black-Scholes-Merton per la quale gli autori hanno ricevuto il premio Nobel. La modellistica finanziaria richiede generalmente un background matematico-probabilistico-numerico avanzato: il contenuto di questo libro corrisponde grossomodo all’Appendice A.1 di [36];  Telecomunicazioni: la NASA utilizza il metodo di Kalman-Bucy per filtrare i segnali provenienti da satelliti e sonde inviati nello spazio. Da [35], pag. 2: “In 1960 Kalman and in 1961 Kalman and Bucy proved what is now known as the Kalman-Bucy filter. Basically the filter gives a procedure for estimating the state of a system which satisfies a “noisy” linear differential equation, based on a series of “noisy” observations. Almost immediately the discovery found applications in aerospace engineering (Ranger, Mariner, Apollo etc.) and it now has a broad range of applications. Thus the Kalman-Bucy filter is an example of a recent mathematical discovery which has already proved to be useful – it is not just “potentially” useful. It is also a counterexample to the assertion that “applied mathematics is bad mathematics” and to the assertion that “the only really useful mathematics is the elementary mathematics”. For the Kalman-Bucy filter – as the whole subject of stochastic differential equations – involves advanced, interesting and first class mathematics”.  Medicina e Botanica: il più importante processo stocastico, il moto Browniano, prende il nome da Robert Brown, un botanico che verso il 1830 osservò il movimento irregolare di particelle colloidali in sospensione. Il moto Browniano è stato utilizzato da Louis Jean Baptist Bachelier nel 1900 nella sua tesi di dottorato di ricerca per modellare i prezzi delle azioni ed è stato oggetto di uno dei più famosi lavori di Albert Einstein pubblicato nel 1905. La prima definizione matematicamente rigorosa di moto Browniano è stata data da Norbert Wiener nel 1923.

1.3 La probabilità nel presente

7

 Genetica: è la scienza che studia la trasmissione dei caratteri e i meccanismi con i quali questi vengono ereditati. Gregor Johann Mendel (1822–1884), monaco agostiniano ceco considerato il precursore della moderna genetica, diede un fondamentale contributo di tipo metodologico applicando per la prima volta il calcolo delle probabilità allo studio dell’ereditarietà biologica.  Informatica: i computer quantistici sfruttano le leggi della meccanica quantistica per l’elaborazione dei dati. In un computer attuale l’unità di informazione è il bit: mentre possiamo sempre determinare lo stato di un bit e stabilire con precisione se è 0 o 1, non possiamo determinare con altrettanta precisione lo stato di un qubit, l’unità di informazione quantistica, ma solo le probabilità che assuma i valori 0 e 1.  Giurisprudenza: il verdetto emesso da un giudice di un tribunale si basa sulla probabilità di colpevolezza dell’imputato stimata a partire dalle informazioni fornite dalle indagini. In questo ambito il concetto di probabilità condizionata gioca un ruolo fondamentale e un suo uso non corretto è alla base di clamorosi errori giudiziari: per maggiori informazioni si veda, per esempio, [37].  Meteorologia: per la previsione oltre il quinto giorno è fondamentale poter disporre di modelli meteorologici di tipo probabilistico; i modelli probabilistici girano generalmente nei principali centri meteo internazionali perché necessitano di procedure statistico-matematiche molto complesse e onerose a livello computazionale. A partire dal 2020 il Data Center del Centro europeo per le previsioni meteorologiche a medio termine (European Center Medium Weather Forecast, in sigla ECMWF) ha sede a Bologna.  Applicazioni militari: da [42] p. 139: “In 1938, Kolmogorov had published a paper that established the basic theorems for smoothing and predicting stationary stochastic processes. An interesting comment on the secrecy of war efforts comes from Norbert Wiener (1894–1964) who, at the Massachusetts Institute of Technology, worked on applications of these methods to military problems during and after the war. These results were considered so important to America’s Cold War efforts that Wiener’s work was declared top secret. But all of it, Wiener insisted, could have been deduced from Kolmogorov’s early paper.” Infine la probabilità è alla base dello sviluppo delle più recenti tecnologie di Machine Learning e tutte le relative applicazioni all’intelligenza artificiale, auto a guida autonoma, riconoscimento vocale e di immagini etc (si veda, per esempio, [23] e [39]). Al giorno d’oggi, una conoscenza avanzata di Teoria della Probabilità è il requisito minimo per chiunque voglia occuparsi di matematica applicata in uno degli ambiti sopra menzionati. Per concludere, penso si possa convenire sul fatto che se studiamo matematica è anzitutto perché ci piace e non tanto perché ci garantirà un lavoro futuro. Certamente la matematica non ha bisogno di giustificarsi con le applicazioni. Ma è anche vero che non viviamo sulla luna e un lavoro prima o poi dovremo trovarlo. Allora è importante conoscere le applicazioni reali della matematica: esse sono numerose, richiedono conoscenze avanzate, assolutamente non banali tanto da poter soddisfare

8

1

Introduzione

anche il gusto estetico di un cosiddetto “matematico puro”. Infine, per chi volesse cimentarsi con la ricerca pura, la teoria della probabilità è certamente uno dei campi più affascinanti e meno esplorati, in cui il contributo delle migliori giovani menti è fondamentale e fortemente auspicabile.

1.4

Nota bibliografica

Esistono molti eccellenti testi di introduzione alla Teoria della Probabilità: fra i miei preferiti, e che sono stati la maggiore fonte di ispirazione e di idee, ci sono quelli di Bass [5], Durrett [16], Klenke [28] e Williams [48]. Di seguito elenco in ordine alfabetico altri importanti testi di riferimento: Baldi [1], Bass [3], Bauer [7], Biagini e Campanino [8], Billingsley [9], Caravenna e Dai Pra [11], Feller [19], Jacod e Protter [25], Kallenberg [26], Letta [32], Neveu [34], Pintacuda [38], Shiryaev [43], Sinai [44]. Questo libro può essere considerato un ulteriore tentativo di raccogliere in maniera ordinata, sintetica e completa le nozioni basilari di probabilità in modo da agevolare studi successivi più avanzati. Fra le numerose monografie di introduzione alla ricerca nel campo della teoria dei processi stocastici e del calcolo differenziale stocastico, mi limito a citare Baldi [2], Bass [4], Baudoin [6], Doob [14], Durrett [15], Friedman [20], Karatzas e Shreve [27], Stroock [45].

1.5

Simboli e notazioni usati frequentemente

 A U WD B significa che A è, per definizione, uguale a B  indica l’unione disgiunta  An %SA indica che .An /n2N è una successione crescente di insiemi tale che AD An n2N

 An &TA indica che .An /n2N è una successione decrescente di insiemi tale che AD An n2N

 ]A oppure jAj indica la cardinalità dell’insieme A. A $ B se jAj D jBj  Bd D B .Rd / è la  -algebra di Borel in Rd ; B WD B1  mF (risp. mF C , b F ) la classe delle funzioni F -misurabili (risp. F -misurabili e non-negative, F -misurabili e limitate)  N famiglia degli insiemi trascurabili (cfr. Definizione 2.1.15)  insiemi numerici: – numeri naturali: N D f1; 2; 3; :::g, N0 D N [f0g, In WD f1; : : : ; ng per n 2 N N D R [ f˙1g, reali positivi R>0 D 0; C1Œ, – numeri reali R, reali estesi R non-negativi R0 D Œ0; C1Œ  Lebd indica la misura di Lebesgue d -dimensionale; Leb WD Leb1

1.5 Simboli e notazioni usati frequentemente

9

 funzione indicatrice di un insieme A (

½A .x/ WD

1 se x 2 A 0 altrimenti

 prodotto scalare Euclideo: hx; yi D x  y D

d X

xi yi ;

x D .x1 ; : : : ; xd /; y D .y1 ; : : : ; yd / 2 Rd

i D1

Nelle operazioni matriciali, il vettore d -dimensionale x viene identificato con la matrice colonna d  1.  massimo e minimo di numeri reali: x ^ y D minfx; yg;

x _ y D maxfx; yg

 parte positiva e negativa: x C D x _ 0;

x  D .x/ _ 0

 argomento del massimo e del minimo di f W A ! R: arg max f .x/ D fy 2 A j f .y/  f .x/ per ogni x 2 Ag x2A

arg min f .x/ D fy 2 A j f .y/  f .x/ per ogni x 2 Ag x2A

Abbreviazioni v.a. D variabile aleatoria q.c. D quasi certamente. Una certa proprietà vale q.c. se esiste N 2 N (insieme trascurabile) tale che la proprietà è vera almeno per ogni ! 2 ˝ n N q.o. D quasi ovunque (rispetto alla misura di Lebesgue) Segnaliamo l’importanza dei risultati con i seguenti simboli: [!] significa che bisogna porre molta attenzione e cercare di capire bene, perché si sta introducendo un concetto importante, un’idea o una tecnica nuova [!!] significa che il risultato è molto importante [!!!] significa che il risultato è fondamentale

Capitolo 2

Misure e spazi di probabilità

The philosophy of the foundations of probability must be divorced from mathematics and statistics, exactly as the discussion of our intuitive space concept is now divorced from geometry. William Feller

Si parla genericamente di Probabilità in riferimento a fenomeni incerti, il cui esito non è noto con sicurezza. Come sottolinea Costantini [12], non è semplice dare una definizione generale e negli ultimi secoli molti studiosi hanno cercato risposte a domande del tipo: 1) cos’è la Probabilità? 2) come si calcola1 la Probabilità? 3) come “funziona”2 la Probabilità? D’altra parte, solo in tempi relativamente recenti si è iniziato a comprendere la differente natura di tali quesiti e il fatto che debbano essere indagati con metodi e strumenti specifici di discipline diverse e ben distinte: 1) in Filosofia si indaga il concetto di Probabilità e il suo possibile significato, cercando di darne una definizione e studiarne la natura da un punto di vista generale. L’approccio filosofico ha portato a interpretazioni e definizioni anche molto differenti; Materiale Supplementare Online È disponibile online un supplemento a questo capitolo (https://doi.org/10.1007/978-88-470-4000-7_2), contenente dati, altri approfondimenti ed esercizi. 1 Sono molti i casi in cui è importante calcolare o almeno stimare la probabilità di un evento incerto. Per esempio, un giocatore d’azzardo è interessato a conoscere la probabilità di ottenere una certa mano al gioco del Poker; una compagnia di assicurazioni deve stimare la probabilità che un proprio assicurato abbia uno o più incidenti nel corso di un anno; un’industria che produce auto vuole stimare la probabilità che il prezzo dell’acciaio non superi un certo valore; una compagnia aerea può fare overbooking in base alla probabilità che un certo numero di viaggiatori non si presenti all’imbarco. 2 In altri termini, è possibile formalizzare i principi e le regole generali della Probabilità in termini matematici rigorosi, in analogia con quanto si fa per esempio nella geometria Euclidea?

© Springer-Verlag Italia S.r.l., part of Springer Nature 2020 A. Pascucci, Teoria della Probabilità, UNITEXT 123, https://doi.org/10.1007/978-88-470-4000-7_2

11

12

2 Misure e spazi di probabilità

2) la Statistica è la disciplina che studia i metodi per la stima e la valutazione della Probabilità a partire da osservazioni e dati disponibili sul fenomeno aleatorio considerato; 3) la Teoria della Probabilità è la disciplina puramente matematica che applica il ragionamento astratto e logico-deduttivo per formalizzare la Probabilità e le sue regole, partendo da assiomi e definizioni primitive (come lo sono, per analogia, i concetti di punto e di retta in Geometria). Quando si affronta per la prima volta lo studio della Probabilità, confusione e fraintendimenti possono derivare dal non distinguere adeguatamente i diversi approcci (filosofico, statistico e matematico). In questo testo assumiamo esclusivamente il punto di vista matematico: il nostro scopo è fornire un’introduzione alla Teoria della Probabilità.

2.1

Spazi misurabili e spazi di probabilità

La Teoria della Probabilità studia i fenomeni il cui esito è incerto: questi vengono detti fenomeni aleatori (o esperimenti aleatori). Esempi banali di fenomeni aleatori sono il lancio di una moneta o l’estrazione di una carta da un mazzo. Gli esiti di un fenomeno aleatorio non sono necessariamente tutti “equivalenti” nel senso che, per qualche motivo, un esito può essere più “probabile” (plausibile, verosimile, atteso etc) di un altro. Si noti che, poiché per definizione nessuno degli esiti possibili può essere scartato a priori, la Teoria della Probabilità non si propone di prevedere l’esito di un fenomeno aleatorio (cosa impossibile!) ma stimare, nel senso di misurare, il grado di attendibilità (la probabilità) dei singoli esiti possibili o della combinazione di alcuni di essi. Questo è il motivo per cui gli strumenti matematici e il linguaggio su cui si basa la moderna Teoria della Probabilità sono quelli della teoria della misura che è anche il punto di partenza della nostra trattazione. La Sezione 2.1.1 è dedicata al richiamo delle prime definizioni e concetti di teoria della misura; nella successiva Sezione 2.1.2 ne diamo l’interpretazione probabilistica.

2.1.1

Spazi misurabili

Definizione 2.1.1 (Spazio misurabile) .˝; F / dove:

Uno spazio misurabile è una coppia

i) ˝ è un insieme non vuoto; ii) F è una  -algebra su ˝, ossia F è una famiglia non vuota di sottoinsiemi di ˝ che soddisfa le seguenti proprietà: ii-a) se A 2 F allora Ac WD ˝ n A 2 F ; ii-b) l’unione numerabile di elementi di F appartiene ad F .

2.1 Spazi misurabili e spazi di probabilità

13

La proprietà ii-a) si esprime dicendo che F è una famiglia chiusa rispetto al passaggio al complementare; la proprietà ii-b) si esprime dicendo che F è una famiglia  -[-chiusa (chiusa rispetto all’unione numerabile). Osservazione 2.1.2 Dalla proprietà ii-b) segue anche che se A; B 2 F allora A [ B 2 F , ossia F è [-chiusa (chiusa rispetto all’unione finita). Infatti dati A; B 2 F , si può costruire la successione C1 D A, Cn D B per ogni n  2; allora A[B D

1 [

Cn 2 F :

nD1

Una  -algebra F è non vuota per definizione e quindi esiste A 2 F e, per la ii-a), si ha Ac 2 F : allora anche ˝ D A [ Ac 2 F e, ancora per ii-a), ; 2 F . Osserviamo che f;; ˝g è la più piccola  -algebra su ˝; viceversa, l’insieme delle parti P .˝/ è la più grande  -algebra su ˝. Notiamo anche che l’intersezione finita o numerabile di elementi di una  -algebra F appartiene a F : infatti se .An / è una famiglia finita o numerabile in F , combinando le proprietà ii-a) e ii-b), si ha che  [ c \ An D Acn 2 F : n

n

Di conseguenza, si dice che F è \-chiusa e  -\-chiusa. Definizione 2.1.3 (Misura) Una misura sullo spazio misurabile .˝; F / è una funzione  W F ! Œ0; C1 tale che: iii-a) .;/ D 0; iii-b)  è  -additiva su F , ossia per ogni successione .An /n2N di elementi disgiunti di F vale3 ! 1 1 ] X  An D  .An / : nD1

nD1

Osservazione 2.1.4 Ogni misura  è additiva nel senso che, per ogni famiglia finita A1 ; : : : ; An di insiemi disgiunti in F , vale ! n n ] X Ak D  .Ak / :  kD1 3

Ricordiamo che il simbolo

U

kD1

indica l’unione disgiunta. Osserviamo che

U n2N

è una  -algebra.

An 2 F poiché F

14

2 Misure e spazi di probabilità

Infatti, posto Ak D ; per k > n, si ha 

n ]

! Ak

D

kD1

1 ]

! D .per la  -additività/

Ak

kD1

D D

1 X kD1 n X

 .Ak / D

.per il fatto che .;/ D 0/

 .Ak / :

kD1

Definizione 2.1.5 Una misura  su .˝; F / si dice finita se .˝/ < 1 e si dice  -finita se esiste una successione .An / in F tale che ˝D

[

An

e

.An / < C1;

n 2 N:

n2N

Esempio 2.1.6 Il primo esempio di misura  -finita che si incontra nei corsi di analisi matematica è la misura di Lebesgue; essa è definita sullo spazio Euclideo d -dimensionale, ˝ D Rd , munito della  -algebra degli insiemi misurabili secondo Lebesgue.

2.1.2

Spazi di probabilità

Definizione 2.1.7 (Spazio di probabilità) Uno spazio con misura .˝; F ; / in cui .˝/ D 1 è detto spazio di probabilità: in questo caso, di solito utilizziamo la lettera P al posto di  e diciamo che P è una misura di probabilità (o semplicemente una probabilità). In uno spazio di probabilità .˝; F ; P /, ogni elemento ! 2 ˝ è detto esito; ogni A 2 F è chiamato evento e il numero P .A/ è detto probabilità di A. Inoltre diciamo che ˝ è lo spazio campionario e F è la  -algebra degli eventi. Nel caso in cui ˝ sia finito o numerabile, assumiamo sempre F D P .˝/ e diciamo che .˝; P .˝/; P / (o, più semplicemente, .˝; P /) è uno spazio di probabilità discreto. Se invece ˝ non è numerabile, parliamo di spazio di probabilità continuo (o generale). Esempio 2.1.8 [!] Consideriamo il fenomeno aleatorio del lancio di un dado regolare a sei facce. Lo spazio campionario ˝ D f1; 2; 3; 4; 5; 6g

2.1 Spazi misurabili e spazi di probabilità

15

rappresenta gli stati possibili (esiti) dell’esperimento aleatorio considerato. Intuitivamente, un evento è un’affermazione relativa all’esito dell’esperimento, per esempio: i) A D “il risultato del lancio è un numero dispari”; ii) B D “il risultato del lancio è il numero 4”; iii) C D “il risultato del lancio è maggiore di 7”. Ad ogni affermazione corrisponde un sottoinsieme di ˝: i) A D f1; 3; 5g; ii) B D f4g; iii) C D ;. Questo spiega perché matematicamente abbiamo definito un evento come un sottoinsieme di ˝. In particolare, B è detto un evento elementare poiché è costituito da un singolo esito. È bene porre attenzione nel distinguere l’esito 4 dall’evento elementare f4g. Le operazioni logiche fra eventi hanno una traduzione in termini di operazioni insiemistiche, per esempio:    

“A oppure B” corrisponde a A [ B; “A e B” corrisponde a A \ B; “non A” corrisponde a Ac D ˝ n A; “A ma non B” corrisponde a A n B.

Esempio 2.1.9 Un corridore ha la probabilità del 30% di vincere la gara dei 100 metri, la probabilità del 40% di vincere la gara dei 200 metri e la probabilità del 50% di vincere almeno una delle due gare. Qual è la probabilità che vinca entrambe le gare? Posto i) A D “il corridore vince la gara dei 100 metri”, ii) B D “il corridore vince la gara dei 200 metri”, i dati del problema sono: P .A/ D 30%, P .B/ D 40% e P .A [ B/ D 50%. Si chiede di determinare P .A \ B/. Usando le operazioni insiemistiche (al riguardo si veda anche il successivo Lemma 2.1.23) si prova che P .A \ B/ D P .A/ C P .B/  P .A [ B/ D 20%: Osservazione 2.1.10 Lo spazio campionario ˝ è, per definizione, un generico insieme non vuoto: è lecito domandarsi che senso abbia assumere un tale grado di generalità. In effetti vedremo che nei problemi più classici ˝ sarà semplicemente un insieme finito oppure lo spazio Euclideo Rd . Tuttavia, nelle applicazioni più interessanti può anche capitare che ˝ sia uno spazio funzionale (come, per esempio, lo spazio delle funzioni continue). Spesso ˝ avrà anche una certa struttura, per esempio quella di spazio metrico, per avere a disposizione alcuni strumenti utili allo sviluppo della teoria.

16

2 Misure e spazi di probabilità

Esempio 2.1.11 (Probabilità uniforme discreta) Sia ˝ finito. Per ogni A  ˝ indichiamo con jAj la cardinalità di A e poniamo P .A/ D

jAj : j˝j

(2.1.1)

Allora P è una misura di probabilità, detta probabilità uniforme, e per definizione vale 1 ; j˝j

P .f!g/ D

! 2 ˝;

ossia ogni esito è “equiprobabile”. La probabilità uniforme corrisponde al concetto classico di probabilità secondo Laplace, come ricordato nella premessa. Per esempio, nel caso del lancio di un dado regolare a sei facce, è naturale considerare la probabilità uniforme P .f!g/ D

1 ; 6

! 2 ˝ WD f1; 2; 3; 4; 5; 6g:

Osservazione 2.1.12 Uno spazio di probabilità in cui ogni evento elementare è equiprobabile e ha probabilità positiva, è necessariamente finito. Di conseguenza, per esempio, non è possibile definire la probabilità uniforme su N: infatti dovrebbe essere P .fng/ D 0 per ogni n 2 N e di conseguenza, per la  -additività, anche P .N/ D 0 che è assurdo. Osservazione 2.1.13 [!] In uno spazio di probabilità discreto .˝; P /, consideriamo la funzione p W ˝ ! Œ0; 1;

p.!/ D P .f!g/;

! 2 ˝:

È chiaro che p è una funzione non-negativa che gode della proprietà X

p.!/ D

!2˝

X

P .f!g/ D P .˝/ D 1:

(2.1.2)

!2˝

Si noti che le somme in (2.1.2) sono serie a termini non-negativi e pertanto il loro valore non dipende dall’ordine degli addendi. La seconda uguaglianza in (2.1.2) è conseguenza della  -additività di P . Possiamo dire che esiste una relazione biunivoca P fra p e P nel senso che, data una qualsiasi funzione non-negativa p tale che p.!/ D 1, e posto !2˝

P .A/ WD

X

p.!/;

!2A

si ha che P è una probabilità discreta su ˝.

A  ˝;

2.1 Spazi misurabili e spazi di probabilità

17

In altri termini, una probabilità discreta è definita univocamente dalle probabilità dei singoli eventi elementari. Dal punto di vista operativo, è molto più semplice definire la probabilità dei singoli eventi elementari (ossia p) che non definire esplicitamente P assegnando la probabilità di tutti gli eventi. Si pensi che, per esempio, se ˝ ha cardinalità 100 allora p è definita dai cento valori p.!/, con ! 2 ˝, mentre P è definita su P .˝/ che ha cardinalità 2100 1030 . Osservazione 2.1.14 (Probabilità nella scuola secondaria) [!] L’osservazione precedente ci suggerisce un modo ragionevole e sintetico per introdurre il concetto di probabilità nella scuola secondaria: anzitutto, in base ai programmi ministeriali, almeno fino al quart’anno di scuola secondaria superiore è sufficiente considerare il caso di spazi campionari finiti (o, al massimo, numerabili) ˝ D f!1 ; : : : ; !N g; con N 2 N, descrivendo i concetti di esito ed evento come nell’Esempio 2.1.8. Poi si può spiegare che introdurre una misura di probabilità P su ˝ significa assegnare le probabilità dei singoli esiti: precisamente, si fissano alcuni numeri p1 ; : : : ; pN tali che p1 ; : : : ; pN  0

e

p1 C    C pN D 1;

(2.1.3)

dove pi indica la probabilità dell’i-esimo evento elementare, ossia pi D P .f!i g/;

i D 1; : : : ; N:

Infine, per definizione, per ogni evento A si pone X P .A/ D P .f!g/:

(2.1.4)

!2A

Questa definizione di spazio di probabilità .˝; P / è equivalente alla definizione generale (Definizione 2.1.7, ovviamente nel caso di ˝ finito). La cosiddetta probabilità classica o uniforme è quella in cui gli esiti sono equiprobabili, p1 D p2 D    D pN , per cui dalla (2.1.3) si deduce che il loro valore comune è N1 . Dunque la probabilità classica è solo un caso molto particolare, anche se significativo, fra le infinite misure di probabilità che si possono scegliere: in quel caso, chiaramente la (2.1.4) si riduce alla formula dei “casi favorevoli su casi possibili”. Concludiamo la sezione con un paio di definizioni che useremo spesso in seguito. Definizione 2.1.15 (Insiemi trascurabili e quasi certi) In uno spazio di probabilità .˝; F ; P / diciamo che:  un sottoinsieme N di ˝ è trascurabile per P se N  A con A 2 F tale che P .A/ D 0;  un sottoinsieme C di ˝ è quasi certo per P se il suo complementare è trascurabile o, equivalentemente, se esiste B 2 F tale che B  C e P .B/ D 1. Indichiamo con N la famiglia degli insiemi trascurabili in .˝; F ; P /.

18

2 Misure e spazi di probabilità

Gli insiemi trascurabili e quasi certi non sono necessariamente eventi e quindi in generale la probabilità P .A/ non è definita per A trascurabile o quasi certo. Definizione 2.1.16 (Spazio completo) completo se N  F .

Uno spazio di probabilità .˝; F ; P / è

Osservazione 2.1.17 In uno spazio completo gli insiemi trascurabili (e di conseguenza anche i quasi certi) per P sono eventi. Pertanto in uno spazio completo si ha che  N è trascurabile se e solo se P .N / D 0;  C è quasi certo se e solo se P .C / D 1. Chiaramente la proprietà di completezza dipende dalla misura di probabilità considerata. Vedremo in seguito che è sempre possibile “completare” uno spazio di probabilità (cfr. Osservazione 2.4.3) e spiegheremo l’importanza della proprietà di completezza (si veda, per esempio, l’Osservazione 3.1.11).

2.1.3

Algebre e  -algebre

Il suffisso “ -” (per esempio, in  -algebra o  -additività) è usato per specificare che una definizione o una proprietà è valida per quantità numerabili e non solo finite. In analogia con il concetto di  -algebra, diamo la seguente utile Definizione 2.1.18 (Algebra) Un’algebra è una famiglia non vuota A di sottoinsiemi di ˝ tale che: i) A è chiusa rispetto al passaggio al complementare; ii) A è [-chiusa (ossia chiusa rispetto all’unione finita). Ogni  -algebra è un’algebra. Se A; B 2 A allora A \ B D .Ac [ B c /c 2 A e di conseguenza A è \-chiusa. Esempio 2.1.19 [!] In R si consideri la famiglia A formata dalle unioni finite di intervalli (non necessariamente limitati) del tipo a; b;

1  a  b  C1;

dove per convenzione a; a D ;;

a; b D fx 2 R j x > ag

nel caso b D C1:

Notiamo che A è un’algebra ma non una  -algebra poiché, per esempio, S 0; 1  n1 D 0; 1Œ … A .

n1

2.1 Spazi misurabili e spazi di probabilità

19

Poiché ci sarà utile considerare misure definite su algebre, diamo la seguente estensione del concetto di misura (cfr. Definizione 2.1.3). Definizione 2.1.20 (Misura) Sia A una famiglia di sottoinsiemi di ˝ tale che ; 2 A . Una misura su A è una funzione  W A ! Œ0; C1 tale che: i) .;/ D 0; ii)  è  -additiva su A nel sensoUche per ogni successione .An /n2N di elementi disgiunti di A , tale che A WD An 2 A , vale n2N

 .A/ D

1 X

 .An / :

nD1

Proviamo alcune proprietà basilari delle misure (e quindi, in particolare, delle misure di probabilità). Proposizione 2.1.21 Sia  una misura su un’algebra A . Valgono le seguenti proprietà: i) Monotonia: per ogni A; B 2 A tali che A  B vale .A/  .B/;

(2.1.5)

.B n A/ D .B/  .A/:

(2.1.6)

e, se inoltre .A/ < 1, vale

In particolare, se P è una misura di probabilità si ha P .Ac / D 1  P .A/I

(2.1.7)

ii)  -subadditività: per ogni A 2 A e .An /n2N successione in A , vale A

[ n2N

An

H)

.A/ 

1 X

 .An / :

nD1

Dimostrazione Proviamo la i): se A  B allora, per l’additività di  ed essendo B n A 2 A , si ha .B/ D .A ] .B n A// D .A/ C .B n A/:

20

2 Misure e spazi di probabilità

Dal fatto che .B nA/  0 segue la (2.1.5) e, nel caso particolare in cui .A/ < 1, segue anche la (2.1.6). Per provare la ii), poniamo AQ1 WD A1 \ A;

AQnC1 WD A \ AnC1 n

n [

Ak :

kD1

Osserviamo che AQn  An . Inoltre gli insiemi AQn appartengono all’algebra A poiché sono ottenuti con operazioni finite da elementi di A e, per ipotesi, vale ]

AQn D A 2 A :

n2N

Allora, per monotonia si ha .A/ D 

]

! AQn

D

(per  -additività e poi ancora per monotonia)

n2N

D

1 X nD1

.AQn / 

1 X

 .An / : 

nD1

Esempio 2.1.22 La (2.1.7) è utile per risolvere problemi del tipo seguente: calcoliamo la probabilità di ottenere almeno un 6 lanciando 8 volte un dado. Definiamo ˝ come l’insieme delle possibili sequenze di lanci: allora j˝j D 68 . Possiamo determinare la probabilità dell’evento che ci interessa (chiamiamolo A) più facilmente considerando Ac , ossia l’insieme delle sequenze che non contengono 6: infatti si avrà jAc j D 58 e quindi per la (2.1.7) P .A/ D 1  P .Ac / D 1 

58 : 68

Lemma 2.1.23 Sia A un’algebra. Una funzione  W A ! Œ0; C1 tale che .;/ D 0, è additiva se e solo se vale .A [ B/ C .A \ B/ D .A/ C .B/;

A; B 2 F :

(2.1.8)

Dimostrazione Se  è additiva allora .A [ B/ C .A \ B/ D .A/ C .B n A/ C .A \ B/ D .A/ C .B/: Viceversa, dalla (2.1.8) con A; B disgiunti si ha l’additività di . 

2.1 Spazi misurabili e spazi di probabilità

21

Osservazione 2.1.24 Nel caso di misure di probabilità, la (2.1.8) si riscrive utilmente nella forma P .A [ B/ D P .A/ C P .B/  P .A \ B/

(2.1.9)

Esempio 2.1.25 Lanciando due dadi, qual è la probabilità che almeno uno dei due lanci abbia un risultato minore o uguale a 3? Poniamo In D fk 2 N j k  ng e consideriamo lo spazio campionario ˝ D I6  I6 delle possibili coppie di risultati dei lanci. Sia A D I3  I6 (e rispettivamente B D I6  I3 ) l’evento in cui il risultato del primo dado (rispettivamente del secondo dado) sia minore o uguale a 3. Ci è chiesto di calcolare la probabilità di A [ B. Notiamo che A; B non sono disgiunti e nella probabilità uniforme P , contando gli elementi, abbiamo P .A/ D P .B/ D

36 1 D ; 66 2

P .A \ B/ D

33 1 D : 66 4

Allora per la (2.1.9) otteniamo P .A [ B/ D P .A/ C P .B/  P .A \ B/ D

3 : 4

Osservazione 2.1.26 La (2.1.8) si generalizza facilmente al caso di tre insiemi A1 ; A2 ; A3 2 F : P .A1 [ A2 [ A3 / D P .A1 / C P .A2 [ A3 /  P ..A1 \ A2 / [ .A1 \ A3 // D P .A1 / C P .A2 / C P .A3 /  P .A1 \ A2 /  P .A1 \ A3 /  P .A2 \ A3 / C P .A1 \ A2 \ A3 /: In generale, si prova per induzione la seguente formula P

n [ kD1

! Ak

D

n X kD1

.1/k1

X

P .Ai1 \    \ Aik /

fi1 ;:::;ik gf1;:::;ng

dove l’ultima somma è intesa su tutti i sottoinsiemi di f1; : : : ; ng con k elementi. Esempio 2.1.27 Siano A; B eventi in .˝; F ; P /. Se P .A/ D 1 allora P .A\B/ D P .B/. Infatti per l’additività finita di P si ha P .B/ D P .A \ B/ C P .Ac \ B/ D P .A \ B/ poiché, per la (2.1.5), P .Ac \ B/  P .Ac / D 0.

22

2 Misure e spazi di probabilità

2.1.4

Additività finita e  -additività

In uno spazio di probabilità generale, la  -additività è una proprietà più forte dell’additività. Capiremo fra poco, con la Proposizione 2.1.30, l’importanza di richiedere la  -additività nella definizione di misura di probabilità: questo è un punto abbastanza delicato come vediamo nel prossimo esempio. Esempio 2.1.28 (Probabilità uniforme continua) Supponiamo di voler definire il concetto di probabilità uniforme sull’intervallo reale ˝ D Œ0; 1. Dal punto di vista intuitivo, risulta naturale porre P .Œa; b/ D b  a;

0  a  b  1:

(2.1.10)

Allora ovviamente P .˝/ D 1 e la probabilità dell’evento Œa; b (che può essere interpretato come l’evento “un punto scelto a caso in Œ0; 1 appartiene ad Œa; b”) dipende solo dalla lunghezza di Œa; b ed è invariante per traslazione. Notiamo che P .fxg/ D P .Œx; x/ D 0 per ogni x 2 Œ0; 1, ossia ogni esito ha probabilità nulla, e P altro non è che la misura di Lebesgue. Giuseppe Vitali provò nel 1905 (cf. [47]) che non è possibile estendere la misura di Lebesgue a tutto l’insieme delle parti P .˝/ o, in altri termini, non esiste P definita sull’insieme delle parti di Œ0; 1, che sia  -additiva e soddisfi la (2.1.10). Se questo è vero ne viene che, nel caso di spazi di probabilità generali, diventa necessario introdurre una  -algebra di eventi su cui definire P : in generale, tale  -algebra sarà più piccola dell’insieme delle parti di ˝. Nel nostro contesto, il risultato di Vitali può essere enunciato nel modo seguente: non esiste una misura di probabilità P su .Œ0; 1; P .Œ0; 1// che sia invariante per traslazioni, ossia tale che P .A/ D P .Ax / per ogni A  Œ0; 1 e x 2 Œ0; 1, dove Ax D fy 2 Œ0; 1 j y D a C x oppure y D a C x  1 per un certo a 2 Ag: La dimostrazione procede per assurdo ed è basata sull’assioma della scelta. Consideriamo su Œ0; 1 la relazione di equivalenza x y se e solo se .x  y/ 2 Q: per l’assioma della scelta, da ogni classe di equivalenza è possibile selezionare un rappresentante e fatto ciò, indichiamo con A l’insieme formato da tali rappresentanti. Ora, per ipotesi, P .Aq / D P .A/ per ogni q 2 Q \ Œ0; 1 e inoltre Aq \ Ap D ; per q ¤ p in Q \ Œ0; 1. Dunque otteniamo ]

Œ0; 1 D

Aq

q2Q\Œ0;1

e se P fosse  -additiva, si avrebbe 1 D P .Œ0; 1/ D

X q2Q\Œ0;1

P .Aq / D

X q2Q\Œ0;1

P .A/:

2.1 Spazi misurabili e spazi di probabilità

23

Tuttavia l’ultima somma può solo assumere il valore 0 (nel caso in cui P .A/ D 0) oppure divergere (nel caso in cui P .A/ > 0) e ciò porta ad un assurdo. Si noti che l’assurdo è conseguenza della richiesta di additività numerabile (ossia  -additività) di P . Notazione 2.1.29 Nel seguito scriveremo An % A

e

Bn & B

per S indicare che .An /n2N è una successione crescente di insiemi tale che TA D An , e .Bn /n2N è una successione decrescente di insiemi tale che B D Bn . n2N

n2N

La  -additività ha le seguenti importanti caratterizzazioni. Proposizione 2.1.30 [!] Sia A un’algebra su ˝ e  W A ! Œ0; C1 una funzione additiva. Le seguenti proprietà sono equivalenti: i)  è  -additiva; ii)  è  -subadditiva4 ; iii)  è continua dal basso, ossia per ogni successione .An /n2N in A tale che An % A, con A 2 A , vale lim .An / D  .A/ :

n!1

Inoltre, se vale i) allora si ha anche iv)  è continua dall’alto, ossia per ogni successione .Bn /n2N in A , tale che .B1 / < 1 e Bn & B 2 A , vale lim .Bn/ D  .B/ :

n!1

Infine, se .˝/ < 1 allora i), ii), iii) e iv) sono equivalenti. Dimostrazione Preliminarmente osserviamo che  è monotona: questo si prova come la Proposizione 2.1.21-i). [i) ) ii)] È il contenuto della Proposizione 2.1.21-ii). 4

Per ogni A 2 A e per ogni successione .An /n2N di elementi di A tale che A 

S n2N

.A/ 

1 X nD1

 .An / :

An , vale

24

2 Misure e spazi di probabilità

[ii) ) iii)] Sia A 3 An % A 2 A . Per monotonia si ha lim .An /  .A/:

n!1

D’altra parte, poniamo C1 D A1 ;

CnC1 D AnC1 n An ;

n 2 N:

Allora .Cn / è una successione disgiunta in A e vale ]  (per la  -subadditività di ) Ck  .A/ D  k1



1 X

.Ck / D lim

n!1

kD1

n X

.Ck / D (per l’additività finita di )

kD1

D lim .An /: n!1

[iii)U ) i)] Sia .An /n2N una successione di elementi disgiunti di A , tale che A WD An 2 A . Posto n2N

ANn D

n [

Ak ;

kD1

si ha ANn % A e ANn 2 A per ogni n. Allora, per l’ipotesi di continuità dal basso di , si ha .A/ D lim .ANn / D

(per l’additività finita di )

n!1

D lim

n!1

n X

.Ak / D

kD1

1 X

.Ak /;

kD1

osservando che il limite delle somme parziali esiste, finito o no, poiché  ha valori non-negativi. [iii) ) iv)] Supponiamo valga la iii). Se Bn & B allora An WD B1 n Bn è tale che An % A WD B1 n B. Se .B1 / < 1, per la proprietà (2.1.6) che vale sotto la sola ipotesi di additività, si ha5  .B/ D  .B1 n A/ D .B1 /  .A/ D (per l’ipotesi di continuità dal basso di ) D .B1 /  lim .An / D lim ..B1 /  .An // D lim .Bn/: n!1

n!1

n!1

[iv) ) iii)] Sotto l’ipotesi che .˝/ < 1, il fatto che iv) implichi iii) si dimostra come nel punto precedente ponendo Bn D ˝ n An e utilizzando il fatto che se .An /n2N è crescente allora .Bn /n2N è decrescente e ovviamente .B1 / < 1.  5

Nel dettaglio: si ha B1 n

1 S nD1

An D B1 \

1 T nD1

Acn D

1  T nD1

1  T Bn . B1 \ Acn D nD1

2.2 Spazi finiti e problemi di conteggio

2.2

25

Spazi finiti e problemi di conteggio

In questa sezione assumiamo che ˝ sia finito e consideriamo alcuni problemi in cui si usa la probabilità discreta uniforme dell’Esempio 2.1.11. Questi vengono detti problemi di conteggio perché, ricordando la (2.1.1), il calcolo delle probabilità si riconduce alla determinazione della cardinalità degli eventi. Il calcolo combinatorio è lo strumento matematico che permette di svolgere questi calcoli. Sebbene si tratti di problemi che hanno una formulazione elementare (data in termini di monete, dadi, carte etc) spesso il calcolo può risultare molto complicato e può intimorire al primo impatto. Su questo aspetto è importante sdrammatizzare perché si tratta di una complicazione di tipo tecnico più che sostanziale, che non deve creare un’ingiustificata preoccupazione. Inoltre la probabilità uniforme discreta è soltanto un caso molto particolare il cui interesse è decisamente limitato e marginale rispetto alla teoria della probabilità nel suo complesso. Per questi motivi, a meno che non ci sia un interesse specifico per l’argomento, questa sezione può essere saltata ad una prima lettura.

2.2.1

Cardinalità di insiemi

Cominciamo col ricordare alcune nozioni di base sulla cardinalità di insiemi finiti. Nel seguito usiamo la seguente Notazione 2.2.1 In D fk 2 N j k  ng D f1; 2; : : : ; ng;

n 2 N:

Si dice che un insieme A ha cardinalità n 2 N, e si scrive jAj D n oppure ]A D n, se esiste una funzione biettiva da In ad A. Inoltre per definizione jAj D 0 se A D ;. Scriviamo A $ B se jAj D jBj. In questa sezione consideriamo solo insiemi con cardinalità finita. Provare per esercizio le seguenti proprietà: i) jAj D jBj se e solo se esiste una funzione biettiva da A a B; ii) se A; B sono disgiunti allora jA ] Bj D jAj C jBj e più in generale tale proprietà si estende al caso di un’unione disgiunta finita; iii) per ogni A; B vale jA  Bj D jAjjBj La (2.2.1) si può provare usando la ii) ed il fatto che ] fxg  B AB D x2A

dove l’unione è disgiunta e jfxg  Bj D jBj per ogni x 2 A;

(2.2.1)

26

2 Misure e spazi di probabilità

iii) indichiamo con AB l’insieme delle funzioni da B ad A. Allora si ha ˇ Bˇ ˇA ˇ D jAjjBj

(2.2.2)

poiché AB $ A A …. „  ƒ‚ jBj volte

2.2.2

Tre esperimenti aleatori di riferimento: estrazioni da un’urna

Quando si utilizza il calcolo combinatorio per lo studio di un esperimento aleatorio, la scelta dello spazio campionario è importante perché può semplificare il conteggio dei casi possibili e dei casi favorevoli. La scelta più conveniente, da questo punto di vista, dipende in generale dal fenomeno aleatorio in considerazione. Tuttavia, è spesso utile ripensare l’esperimento aleatorio (o, eventualmente, ciascun sotto-esperimento aleatorio in cui può essere scomposto) come un’opportuna estrazione di palline da un’urna (con remissione, senza reimmmissione, simultanea) che ora descriviamo. Si consideri un’urna contenente n palline, etichettate con e1 ; e2 ; : : : ; en . Si estraggono k palline dall’urna in uno dei tre modi seguenti: 1) estrazione con reimmissione, con k 2 N, in cui, per l’estrazione successiva, la pallina estratta viene reinserita nell’urna; 2) estrazione senza reimmissione, con k 2 f1; : : : ; ng, in cui la pallina estratta non viene reinserita nell’urna; 3) estrazione simultanea, con k 2 f1; : : : ; ng, in cui le k palline vengono estratte simultaneamente. Si noti che:  nell’estrazione con reimmissione il numero totale di palline nell’urna e la sua composizione si mantengono costanti nelle successive estrazioni; dato che si estrae una pallina per volta, si tiene conto dell’ordine di estrazione; inoltre è possibile che ci siano delle ripetizioni, ovvero è possibile estrarre più volte la stessa pallina;  nell’estrazione senza reimmissione ad ogni estrazione il numero totale di palline nell’urna si riduce di un’unità e quindi ogni volta si modifica la composizione dell’urna stessa; anche in questo caso si tiene conto dell’ordine di estrazione; invece le ripetizioni non sono più possibili (infatti una volta estratta, la pallina non viene più reinserita nell’urna);  l’estrazione simultanea corrisponde all’estrazione senza reimmissione in cui non si tiene conto dell’ordine di estrazione. Possiamo dunque riassumere quanto detto finora in Tabella 2.1.

2.2 Spazi finiti e problemi di conteggio Tabella 2.1 Classificazione del tipo di estrazioni da un’urna

Ordine Si tiene conto dell’ordine Non si tiene conto dell’ordine

27 Ripetizione Senza ripetizione Estrazione senza reimmissione Estrazione simultanea

Con ripetizione Estrazione con reimmissione –

Torneremo in seguito sul quarto caso corrispondente alla casella vuota e, in particolare, sul perché non sia stato considerato (si veda l’Osservazione 2.2.16). Per ognuno dei tre tipi di estrazione descritti sopra vogliamo determinare uno spazio campionario ˝, con cardinalità più piccola possibile, che permetta di descrivere tale esperimento aleatorio. Affronteremo tale questione nella Sezione 2.2.4 in cui vedremo che ˝ sarà dato rispettivamente da: 1) l’insieme DRn;k delle disposizioni con ripetizione di k elementi di fe1 ; : : : ; en g, nel caso dell’estrazione con reimmissione; 2) l’insieme Dn;k delle disposizioni semplici di k elementi di fe1 ; : : : ; en g, nel caso dell’estrazione senza reimmissione; 3) l’insieme Cn;k delle combinazioni di k elementi di fe1 ; : : : ; en g, nel caso dell’estrazione simultanea. Prima di introdurre questi tre insiemi fondamentali, illustriamo un metodo generale che utilizzeremo per determinare la cardinalità di DRn;k , Dn;k , Cn;k e di altri insiemi finiti.

2.2.3

Metodo delle scelte successive

In questa sezione illustriamo un algoritmo, noto come metodo delle scelte successive (o schema delle scelte successive o anche principio fondamentale del calcolo combinatorio), che permette di determinare la cardinalità di un insieme una volta caratterizzati univocamente i suoi elementi tramite un numero finito di scelte successive. Metodo delle scelte successive Dato un insieme finito A di cui si vuole determinare la cardinalità jAj, si procede come segue: 1) al primo passo, si considera una partizione di A in n1 2 N sottoinsiemi A1 ; : : : ; An1 , tutti aventi la stessa cardinalità; tale partizione è ottenuta facendo una “scelta”, ovvero distinguendo gli elementi di A in base ad una proprietà che essi possiedono; 2) al secondo passo, per ogni i D 1; : : : ; n1 , si procede come al punto 1) con l’insieme Ai al posto di A, considerando una partizione Ai;1 ; : : : ; Ai;n2 di Ai in n2 sottoinsiemi tutti aventi la stessa cardinalità, con n2 2 N che non dipende da i;

28

2 Misure e spazi di probabilità

3) si procede in questo modo fino a quando, dopo un numero finito k 2 N di passi, gli elementi della partizione hanno cardinalità è pari a 1. La cardinalità di A è allora data da jAj D n1 n2    nk : Per esempio, applichiamo il metodo delle scelte successive per dimostrare la validità della formula ˇ Bˇ ˇA ˇ D jAjjBj : Sia n D jAj la cardinalità di A e indichiamo con a1 ; : : : ; an i suoi elementi. Analogamente, sia k D jBj la cardinalità di B e indichiamo con b1 ; : : : ; bk i suoi elementi. Dato che AB è l’insieme delle funzioni da B ad A, possiamo caratterizzare univocamente ogni funzione in AB tramite le seguenti k D jBj scelte successive: 1) come prima scelta fissiamo il valore che le funzioni di AB assumono in corrispondenza di b1 ; abbiamo n D jAj possibilità (quindi n1 D n), ossia questa prima scelta determina una partizione di A in n sottoinsiemi (non serve scrivere quali sono questi sottoinsiemi, ma solo quanto vale n1 ); 2) come seconda scelta fissiamo il valore che le funzioni di AB assumono in corrispondenza di b2 ; abbiamo n D jAj possibilità (quindi n2 D n); 3)    4) come k-esima e ultima scelta (con k D jBj) fissiamo il valore che le funzioni di AB assumono in corrispondenza di bk ; abbiamo n D jAj possibilità (quindi nk D n). Dal metodo delle scelte successive si deduce che ˇ Bˇ ˇA ˇ D jAj    jAj D jAjjBj : „ ƒ‚ … k D jBj volte

Nel seguito, quando applicheremo il metodo delle scelte successive, procederemo come nei punti 1)-4), limitandoci a dire quale scelta viene effettuata ad ogni passo e quante possibilità (o modi) ci sono per fare questa scelta; mentre non faremo riferimento alla partizione che ogni scelta determina, dato che è in generale chiaro quale essa sia.

2.2.4

Disposizioni e combinazioni

Definizione 2.2.2 (Disposizioni con ripetizione) Siano E un insieme con jEj D n e k 2 N. Indichiamo con DRn;k l’insieme delle disposizioni con ripetizione di k elementi di E, ossia l’insieme di tutte le funzioni f W Ik ! E. Per la (2.2.2) vale jDRn;k j D nk :

2.2 Spazi finiti e problemi di conteggio

29

Notiamo che DRn;k $ E E „  ƒ‚ …: k volte

Dunque DRn;k esprime i modi in cui possiamo disporre, in maniera ordinata ed eventualmente ripetuta, un numero k di oggetti scelti da un insieme di n oggetti. Si noti che scriviamo DRn;k senza specificare l’insieme E, dato che ogni volta sarà chiaro dal contesto a quale insieme E ci stiamo riferendo. Esempio 2.2.3 Sia E D fa; b; cg. Allora jDR3;2 j D 32 e precisamente DR3;2 $ f.a; a/; .a; b/; .a; c/; .b; a/; .b; b/; .b; c/; .c; a/; .c; b/; .c; c/g: Come preannunciato, l’insieme DRn;k è lo spazio campionario naturale per descrivere l’estrazione con reimmissione di k palline da un’urna che ne contiene n, come affermato nel seguente Esempio 2.2.4 [!] Si consideri un’urna contenente n palline, etichettate con e1 ; e2 ; : : : ; en , da cui si estraggono con reimmissione k 2 N palline. Sia E D fe1 ; e2 ; : : : ; en g. Uno spazio campionario ˝, con cardinalità più piccola possibile, che descrive tale esperimento è ˝ D DRn;k : La quantità jDRn;k j D nk è dunque pari al numero totale degli esiti di questo esperimento aleatorio. Esempio 2.2.5 Determiniamo i “casi possibili” dei seguenti esperimenti aleatori (le soluzioni sono a fondo pagina6 ). i) Si sceglie a caso una parola (anche senza senso) composta da 8 lettere dell’alfabeto italiano (che ha 21 lettere). ii) Si gioca una schedina al totocalcio, in cui per ognuna delle 13 partite si può scegliere tra 1, 2 o X. iii) Si lancia 10 volte un dado (non truccato) a sei facce. Definizione 2.2.6 (Disposizioni semplici) Siano E un insieme con jEj D n e k  n. Indichiamo con Dn;k l’insieme delle disposizioni semplici di k elementi di E, ossia l’insieme delle funzioni iniettive f W Ik ! E. Si ha jDn;k j D n.n  1/    .n  k C 1/ D 6

Soluzioni relative all’Esempio 2.2.5: i) jDR21;8 j D 218 ; ii) jDR3;13 j D 313 ; iii) jDR6;10 j D 610 .

nŠ : .n  k/Š

(2.2.3)

30

2 Misure e spazi di probabilità

Notiamo che Dn;k $ f.e1 ; : : : ; ek / j ei 2 E; distintig: Dunque Dn;k esprime i modi in cui possiamo disporre, in maniera ordinata e non ripetuta, un numero k di oggetti scelti da un insieme di n oggetti. La formula (2.2.3) si può dimostrare tramite il metodo delle scelte successive, caratterizzando la generica funzione iniettiva f W f1; 2; : : : ; kg ! E di Dn;k come segue: 1) come prima scelta fissiamo il valore che f assume in corrispondenza di 1; abbiamo n D jEj possibilità (quindi n1 D n); 2) come seconda scelta fissiamo il valore che f assume in corrispondenza di 2; abbiamo n  1 possibilità, dato che non possiamo scegliere il valore assunto in corrispondenza di 1 (quindi n2 D n  1); 3)    4) come k-esima e ultima scelta fissiamo il valore che f assume in corrispondenza di k; abbiamo n  k C 1 possibilità, dato che k  1 valori di E li abbiamo già scelti (quindi nk D n  k C 1). Dal metodo delle scelte successive si deduce dunque la validità di (2.2.3). Esempio 2.2.7 Sia E D fa; b; cg. Allora jD3;2 j D

3Š 1Š

D 6 e precisamente

D3;2 $ f.a; b/; .a; c/; .b; a/; .b; c/; .c; a/; .c; b/g: Come preannunciato, l’insieme Dn;k è lo spazio campionario naturale per descrivere l’estrazione senza reimmissione di k palline da un’urna che ne contiene n, come affermato nel seguente Esempio 2.2.8 Si consideri un’urna contenente n palline, etichettate con e1 ; e2 ; : : : ; en , da cui si estraggono senza reimmissione k  n palline. Sia E D fe1 ; e2 ; : : : ; en g. Uno spazio campionario ˝, con cardinalità più piccola possibile, che descrive tale esperimento è ˝ D Dn;k : La quantità jDn;k j D n.n  1/    .n  k C 1/ è dunque pari al numero totale degli esiti di questo esperimento aleatorio. Esempio 2.2.9 Qual è la probabilità di fare una cinquina secca (per cui conta l’ordine di estrazione) al gioco del lotto (in cui si estraggono senza reimmissione cinque numeri dai primi novanta naturali), supponendo di giocare un’unica cinquina (ad esempio la sequenza ordinata 13; 5; 45; 21; 34)? Quanto vale invece la probabilità di fare una cinquina semplice (per cui non conta l’ordine di estrazione)?

2.2 Spazi finiti e problemi di conteggio

31

Soluzione La probabilità di fare una cinquina secca è semplicemente 10

1

jD90;5 j



1:89  10 . Se invece si considera una cinquina semplice, dobbiamo innanzitutto contare in quanti modi differenti si possono ordinare 5 numeri, pari a jD5;5 j D 5Š Allora la jD j probabilità di una cinquina semplice dopo 5 estrazioni è D 5;5 2:27  108 . j 90;5 j Definizione 2.2.10 (Permutazioni) Indichiamo con Pn Dn;n l’insieme delle permutazioni di n oggetti, ossia Pn è l’insieme delle funzioni biettive f W In ! E dove E è un insieme con n elementi. Si ha jPn j D nŠ Dunque Pn esprime i modi in cui possiamo riordinare, ossia disporre in maniera ordinata e non ripetuta, un numero n di oggetti. Definizione 2.2.11 (Combinazioni) Siano E un insieme con jEj D n e k  n. Indichiamo con Cn;k l’insieme delle combinazioni di k elementi di E, ossia la famiglia dei sottoinsiemi di E di cardinalità k: Cn;k D fA  F j jAj D kg : In altri termini, Cn;k esprime tutti i gruppi di k oggetti scelti da un insieme di n oggetti, in maniera non ordinata e non ripetuta. Esempio 2.2.12 Sia E D fa; b; cg. Allora jC3;2 j D 3 e precisamente C3;2 D ffa; bg; fa; cg; fb; cgg: Proposizione 2.2.13 Si ha ! n jDn;k j nŠ D D : jCn;k j D jPk j kŠ.n  k/Š k

(2.2.4)

Dimostrazione A differenza del calcolo di jDRn;k j e jDn;k j, non è possibile scomporre il calcolo di jCn;k j in una sequenza di scelte successive. Tuttavia, dimostrare la (2.2.4) equivale a dimostrare la seguente uguaglianza: jDn;k j D jCn;k j jPk j:

(2.2.5)

Dimostriamo la (2.2.5) applicando il metodo delle scelte successive all’insieme Dn;k , caratterizzando una generica funzione iniettiva f W Ik ! E di Dn;k in base al seguente schema: 1) come prima scelta fissiamo l’immagine f .Ik / della funzione f , ovvero un sottoinsieme di E di cardinalità k (la cardinalità è necessariamente k per l’iniettività di f ); abbiamo jCn;k j possibilità (quindi n1 D jCn;k j);

32

2 Misure e spazi di probabilità

2) come seconda e ultima scelta fissiamo una permutazione dei k valori nell’immagine f .Ik /, che descrive come agisce la funzione f ; abbiamo jPk j possibilità (quindi n2 D jPk j). Dal metodo delle scelte successive si deduce la validità di (2.2.5) e dunque di (2.2.4).  Gli insiemi DRn;k , Dn;k (e dunque anche Pn D Dn;n ) e Cn;k sono importanti non solo perché sono gli spazi campionari dei tre esperimenti aleatori introdotti nella Sezione 2.2.2 (per quanto riguarda Cn;k si veda l’Esempio 2.2.14), ma anche perché le cardinalità di tali insiemi spesso corrispondono ai numeri n1 ; n2 ; : : : ; nk del metodo delle scelte successive; per esempio, per il calcolo di jDn;k j in (2.2.5) abbiamo scelto n1 D jCn;k j ed n2 D jPk j. Come preannunciato, l’insieme Cn;k è lo spazio campionario naturale per descrivere l’estrazione simultanea di k palline da un’urna che ne contiene n, come affermato nel seguente Esempio 2.2.14 Si consideri un’urna contenente n palline, etichettate con e1 ; e2 ; : : : ; en , da cui si estraggono simultaneamente k  n palline. Sia E D fe1 ; e2 ; : : : ; en g. Uno spazio campionario ˝, con cardinalità più piccola possibile, che descrive tale esperimento è ˝ D Cn;k : La quantità jCn;k j D esperimento aleatorio.

n  k

è dunque pari al numero totale degli esiti di questo

Possiamo dunque completare la tabella della Sezione 2.2.2, riportando anche gli spazi campionari e le loro cardinalità (ovvero i “casi possibili”). Riportiamo qui di seguito alcune osservazioni conclusive riguardanti la Tabella 2.2. Tabella 2.2 Classificazione del tipo di estrazioni da un’urna e relazione con disposizioni e combinazioni

Ordine Si tiene conto dell’ordine

Non si tiene conto dell’ordine

Ripetizione Senza ripetizione Estrazione senza reimmissione

Con ripetizione Estrazione con reimmissione

˝ D Dn;k

˝ D DRn;k

nŠ j˝j D .n  k/Š

j˝j D nk

Estrazione simultanea



˝ D Cn;k jDn;k j n D k j˝j D kŠ

2.2 Spazi finiti e problemi di conteggio

33

Osservazione 2.2.15 Nonostante gli esperimenti aleatori introdotti siano tre, in realtà sarebbe sufficiente considerare solamente i primi due: l’estrazione senza reimmissione e l’estrazione con reimmissione. Infatti l’estrazione simultanea può essere vista come un caso particolare dell’estrazione senza reimmissione in cui non si tiene conto dell’ordine. Più precisamente, ad ogni elemento di Cn;k , ovvero ad ogni sottoinsieme di k palline scelta fra n, corrispondono kŠ elementi (o k-uple) di Dn;k , di conseguenza vale che casi favorevoli in Cn;k kŠ .casi favorevoli in Cn;k / casi favorevoli in Dn;k D : D casi possibili in Cn;k kŠ .casi possibili in Cn;k / casi possibili in Dn;k Osservazione 2.2.16 La casella vuota nella tabella sopra riportata corrisponde all’insieme delle cosiddette combinazioni con ripetizione, ossia all’insieme di tutti i gruppi, non ordinati ed eventualmente ripetuti, di k oggetti scelti da un insieme di n oggetti. L’esperimento aleatorio corrispondente è l’estrazione con reimmissione in cui non si tiene conto dell’ordine: questo esperimento aleatorio può essere descritto anche dallo spazio campionario DRn;k munito della probabilità uniforme discreta. Al contrario, sullo spazio delle combinazioni con ripetizione la probabilità non può essere quella uniforme discreta. Infatti ad ogni combinazione con ripetizione non corrisponde sempre lo stesso numero di elementi di DRn;k (come invece accade nel caso di Cn;k e Dn;k ) e la costante di proporzionalità dipende da quante ripetizioni ci sono all’interno della combinazione: le combinazioni con più ripetizioni sono meno probabili. Per questa ragione su tale spazio non vale la formula “casi favorevoli/casi possibili”, ovvero non si possono usare le tecniche del calcolo combinatorio. Esempio 2.2.17 Riconsideriamo il calcolo della probabilità di una cinquina semplice al gioco del lotto: poiché non conta l’ordine di estrazione dei numeri, siamo nel caso dell’estrazione simultanea, quindi è naturale considerare ˝ D C90;5 . In ef1 che coincide con il risultato che avevamo fetti la probabilità della cinquina è jC90;5 j già trovato usando le disposizioni semplici, ossia



jD90;5 j

.

Esercizio 2.2.18 Calcoliamo la probabilità di ottenere una cinquina semplice dopo k  5 estrazioni. Soluzione Poniamo ˝ D C90;k . Indichiamo con A l’evento che ci interessa, ossia la famiglia degli insiemi di k numeri in cui 5 sono fissati e i rimanenti k  5 sono qualsiasi fra i restanti 85 numeri. Allora si ha P .A/ D

jC85;k5 j : jC90;k j

Per esempio, P .A/ 6  106 per k D 10 e P .A/ 75% per k D 85.

34

2 Misure e spazi di probabilità

Esercizio 2.2.19 Consideriamo un mazzo di 40 carte. Calcoliamo la probabilità dell’evento A definito in ognuno dei modi seguenti: 1) in 5 estrazioni senza reimmissione si ottengono 5 denari; 2) in 5 estrazioni con reimmissione si ottengono 5 denari; 3) in 5 estrazioni senza reimmissione si ottengono nell’ordine i numeri da 1 a 5 di qualsiasi seme, anche diversi fra loro. Soluzione 1) L’estrazione è senza reimmissione, ma l’evento A D “si ottengono 5 denari” non tiene conto dell’ordine. Quindi tale estrazione può essere vista anche come un’estrazione simultanea. Perciò possiamo scegliere come spazio campionario ˝ D C40;5 (scegliere ˝ D D40;5 andrebbe comunque bene). L’esito ! D f!1 ; !2 ; !3 ; !4 ; !5 g corrisponde dunque all’insieme delle carte estratte. Allora A $ C10;5 (le possibile scelte, non ordinate e non ripetute, di 5 denari) e quindi 10 5 P .A/ D 40  0:04 %: 5

2) Questa volta l’estrazione è con reimmissione, quindi occorre considerare ˝ D DR40;5 (in realtà, anche in questo caso l’evento A non tiene conto dell’ordine; tuttavia quando c’è ripetizione l’unico spazio che possiamo scegliere per poter utilizzare le tecniche del calcolo combinatorio è lo spazio delle disposizioni con ripetizione). L’esito ! può essere identificato con la sequenza .!1 ; !2 ; !3 ; !4 ; !5 /, ordinata e con possibili ripetizioni, delle carte estratte. In questo caso A $ DR10;5 (le possibile scelte, ordinate e ripetute, di 5 denari) e quindi P .A/ D

105 0:1 %: 405

3) In questo caso l’estrazione è senza reimmissione e l’evento A D “si ottengono nell’ordine i numeri da 1 a 5 di qualsiasi seme, anche diversi fra loro” tiene conto dell’ordine, quindi lo spazio campionario naturale è ˝ D D40;5 . Abbiamo che A $ DR4;5 (si sceglie in modo ordinato la sequenza dei semi delle 5 carte estratte) e quindi P .A/ D

2.2.5

jDR4;5 j 103 %: jD40;5 j

Probabilità binomiale e ipergeometrica

Presentiamo ora due esempi fondamentali che, come vedremo più avanti, sono legati a due misure di probabilità molto importanti, la binomiale e l’ipergeometrica. Cominciamo col ricordare alcune proprietà del coefficiente binomiale. Assumiamo

2.2 Spazi finiti e problemi di conteggio

35

per convenzione 0Š D 1

e

00 D 1:

(2.2.6)

Ricordiamo che per k; n 2 N0 , con k  n, ! n nŠ : D kŠ.n  k/Š k Dalla definizione segue direttamente che ! ! ! ! n n n n D ; D D 1; k nk 0 n

! n D n: 1

Inoltre, per k; n 2 N con k < n, vale ! ! ! n n1 n1 D C : k k1 k

(2.2.7)

Come esercizio, utilizzando la (2.2.7) provare per induzione la formula binomiale (o formula di Newton)7 ! n X n k nk n a b ; .a C b/ D a; b 2 R: (2.2.8) k kD0

Come casi particolari della (2.2.8):  se a D b D 1 si ha ! n X n D 2n : k

(2.2.9)

kD0

  Ricordando che se jAj D n allora kn D jCn;k j è pari al numero di sottoinsiemi di A di cardinalità k, la (2.2.9) mostra che jP .A/j D 2n .  ricordando la convenzione (2.2.6) per i casi p D 0 e p D 1, vale ! n X n k p .1  p/nk D 1; k

p 2 Œ0; 1:

(2.2.10)

kD0

7 Una dimostrazione alternativa, di carattere combinatorio, della formula di Newton è la seguente: il prodotto .a C b/.a C b/    .a C b/ di n fattori si sviluppa in una somma di monomi di grado n del tipo ank b k con 0  k  n. Quanti sono i monomi di un certo tipo (cioè con k fisso)? Il monomio ank b k si ottiene scegliendo il valore b da k degli n fattori disponibili nel  prodotto .a C b/.a C b/    .a C b/ (e, quindi, scegliendo a dai rimanenti n  k), ovvero in nk modi.

36

2 Misure e spazi di probabilità

In altri termini, posto per semplicità ! n k p .1  p/nk ; pk WD k

k D 0; : : : ; n;

si ha che p0 ; : : : ; pn sono numeri non-negativi con somma pari a 1. Quindi, per l’Osservazione 2.1.13, ponendo P .fkg/ D pk si definisce una misura di probabilità sullo spazio campionario ˝ D f0; : : : ; ng, detta probabilità binomiale. Diamo un’interpretazione della probabilità binomiale nel seguente Esempio 2.2.20 (Binomiale) [!] Consideriamo un’urna che contiene b palline bianche ed r palline rosse, con b; r 2 N. Effettuiamo n estrazioni con reimmissione. Calcoliamo la probabilità dell’evento Ak che consiste nell’estrazione di esattamente k palline bianche, con 0  k  n. Determiniamo lo spazio campionario: a priori non importa l’ordine di estrazione, ma osservando che c’è il reinserimento (ossia la ripetizione di una possibile pallina già estratta), siamo portati a considerare ˝ D DRbCr;n . L’esito ! può essere identificato con la k-upla che identifica la sequenza, ordinata e con eventuali ripetizioni, delle palline estratte (supponendo di aver numerato le palline per identificarle). Caratterizziamo il generico esito ! 2 Ak tramite le seguenti scelte successive: i) scegliamo la sequenza (ordinata e con eventuali ripetizioni) delle k palline bianche estratte dalle b presenti nell’urna: ci sono jDRb;k j modi possibili; ii) scegliamo la sequenza (ordinata e con eventuali ripetizioni) delle n  k palline rosse estratte dalle r presenti nell’urna: ci sono jDRr;nk j modi possibili; iii) scegliamo in quali delle n estrazioni sono state estratte le k palline bianche; ci sono jCn;k j modi possibili8 . In definitiva ! n b k r nk jDRb;k jjDRr;nk j ; D P .Ak / D jCn;k j jDRbCr;n j k .b C r/n o, equivalentemente, ! n k P .Ak / D p .1  p/nk ; k dove p D uniforme. 8

b bCr

k D 0; 1; : : : ; n;

è la probabilità di estrarre una pallina bianca, secondo la probabilità

Infatti ogni sottoinsieme di cardinalità k di In identifica k estrazioni delle n, e viceversa. Ad esempio, se n D 4 e k D 2, il sottoinsieme f2; 3g di I4 D f1; 2; 3; 4g corrisponde alla 2a e alla 3a estrazione, e viceversa.

2.2 Spazi finiti e problemi di conteggio

37

Osservazione 2.2.21 Come spiegheremo meglio in seguito, la probabilità binomiale si può interpretare come la probabilità di avere k successi ripetendo n volte un esperimento che ha solo due esiti: successo con probabilità p e insuccesso con probabilità 1  p. Per esempio, la probabilità di ottenere esattamente   k teste lanciando n volte una moneta è pari a kn p k .1  p/nk con p D 12 , ossia kn 21n . Esempio 2.2.22 (Ipergeometrica) Consideriamo un’urna che contiene b palline bianche ed r palline rosse, con b; r 2 N. Effettuiamo n  b C r estrazioni senza reimmissione. Calcoliamo la probabilità dell’evento Ak che consiste nell’estrazione di esattamente k palline bianche, con maxf0; n  rg  k  minfn; bg. La condizione maxf0; n  rg  k  minfn; bg equivale a richiedere che valgano simultaneamente le tre condizioni seguenti:  0  k  n;  k  b, ovvero il numero di palline bianche estratte non superi b;  n  k  r, ovvero il numero di palline rosse estratte non superi r. Determiniamo lo spazio campionario: dato che non importa l’ordine di estrazione possiamo considerare ˝ D CbCr;n (alternativamente, possiamo scegliere ˝ D DbCr;n ). L’esito ! corrisponde all’insieme delle palline estratte (supponendo di aver numerato le palline per identificarle). Caratterizziamo il generico esito ! 2 Ak tramite le seguenti scelte successive: i) scegliamo le k palline bianche estratte dalle b presenti nell’urna: ci sono jCb;k j modi possibili; ii) scegliamo le nk palline rosse estratte dalle r presenti nell’urna: ci sono jCr;nk j modi possibili. In definitiva b  r  jCb;k jjCr;nk j nk D kbCr P .Ak / D  ; jCbCr;n j

maxf0; n  rg  k  minfn; bg:

n

2.2.6

Esempi

Proponiamo una serie di esempi utili a prendere familiarità con i problemi di conteggio. Esempio 2.2.23 Consideriamo un gruppo di k  2 persone nate nello stesso anno (di 365 giorni). Calcolare la probabilità che almeno due persone del gruppo siano nate nello stesso giorno. Soluzione Possiamo riformulare il problema come segue: un’urna contiene 365 palline numerate da 1 a 365; la pallina numero N corrisponde all’N -esimo giorno dell’anno; si estraggono con reimmissione k palline; qual è la probabilità che

38

2 Misure e spazi di probabilità

di estrarre due volte lo stesso numero? Abbiamo dunque ricondotto il problema all’estrazione con reimmissione di k palline da un’urna che ne contiene 365. Sappiamo che lo spazio campionario naturale è ˝ D DR365;k . Sia A l’evento che ci interessa, ovvero A D “almeno due persone sono nate nello stesso giorno”. Allora Ac $ D365;k e quindi P .A/ D 1  P .Ac / D 1  Si vede che P .A/ 0:507 >

1 2

jD365;k j 365Š : D1 jDR365;k j .365  k/Š  365k

per k D 23 e P .A/ 97% per k D 50.

Esempio 2.2.24 Si estraggono (senza reimmissione) 2 carte da un mazzo di 40 carte identificate dal seme (spade, coppe, bastoni, denari) e dal tipo (asso, 2, 3, 4, 5, 6, 7, fante, cavallo, re). Calcoliamo la probabilità dell’evento A definito in ognuno dei modi seguenti: 1) le due carte sono, nell’ordine, una carta di denari e una di coppe; 2) le due carte sono, nell’ordine, una carta di denari e un 7; 3) le due carte sono una carta di denari e un 7, indipendentemente dall’ordine. Soluzione 1) Poniamo ˝ D D40;2 . L’esito ! D .!1 ; !2 / corrisponde alla coppia delle carte estratte. Caratterizziamo il generico esito ! D .!1 ; !2 / 2 A tramite le seguenti scelte successive: i) scegliamo la prima carta estratta (ovvero !1 ) fra le carte di denari: ci sono 10 scelte possibili; ii) scegliamo la seconda carta estratta (ovvero !2 ) fra le carte di coppe: ci sono 10 scelte possibili. In definitiva P .A/ D

100 5 D 6:4%: jD40;2 j 78

Se invece non si fosse tenuto conto dell’ordine di estrazione, avremmo potuto considerare, in alternativa, lo spazio campionario ˝ D C40;2 . In tal caso l’esito ! D f!1 ; !2 g corrisponde all’insieme delle carte estratte. Quindi, procedendo come prima, 100 5 D D 2P .A/: jC40;2 j 39 2) Poniamo ˝ D D40;2 . Non possiamo determinare jAj tramite le due scelte successive i)–ii) del punto 1), in quanto procedendo in questo modo conteremmo anche la coppia .7D; 7D/ che invece deve essere esclusa visto che le carte non vengono reinserite nel mazzo. Invece di applicare direttamente ad A il metodo delle scelte successive, notiamo che A è unione disgiunta di A1 D D9;1  D4;1 (la prima

2.2 Spazi finiti e problemi di conteggio

39

carta è una carta di denari diversa da 7 e la seconda carta è uno dei quattro 7) e A2 D D3;1 (la prima carta è il 7 di denari e la seconda carta è uno dei rimanenti tre 7). Dunque P .A/ D P .A1 / C P .A2 / D

94 3 1 C D : jD40;2 j jD40;2 j 40

3) Poiché non conta l’ordine P .A/ è il doppio rispetto al caso 2), quindi 1 . P .A/ D 20 Esempio 2.2.25 Si divida un mazzo di 40 carte in due mazzi da 20. Calcoliamo la probabilità dell’evento A definito in ognuno dei modi seguenti: 1) il primo mazzo contiene esattamente un 7; 2) il primo mazzo contiene almeno un 7. Soluzione Poniamo ˝ D C40;20 . L’esito ! può essere pensato come l’insieme delle carte del primo mazzo. 1) Caratterizziamo il generico esito ! 2 A tramite le seguenti scelte successive: i) scegliamo l’unico 7 che appartiene al primo mazzo: ci sono 4 modi possibili; ii) scegliamo le rimanenti 19 carte del primo mazzo, che non devono essere dei 7: ci sono jC36;19 j modi possibili. In definitiva P .A/ D

4jC36;19 j 120 D 25%: jC40;20 j 481

2) Abbiamo P .A/ D 1  P .Ac / D 1 

jC36;20 j 95:7%: jC40;20 j

(2.2.11)

Per capire meglio, vediamo dei modi alternativi per risolvere il problema: potremmo tentare di caratterizzare il generico esito ! 2 A tramite le seguenti scelte successive: i) scegliamo un 7 che sicuramente appartiene al primo mazzo: ci sono 4 modi possibili; ii) scegliamo le rimanenti 19 carte del primo mazzo fra le rimanenti 39: ci sono jC39;19 j modi possibili. In questo caso troveremmo P .A/ D

4jC39;19 j D2 jC40;20 j

che è ovviamente un risultato sbagliato. L’errore sta nel fatto che le scelte successive non identificano univocamente !, nel senso che lo stesso ! viene “contato”

40

2 Misure e spazi di probabilità

più di una volta: per esempio, un ! che contiene il 7D (7 di denari) e il 7S (7 di spade) viene individuato scegliendo 7D nella scelta i) e 7S nella scelta ii) ma anche invertendo i ruoli di 7D e 7S. Se non vogliamo usare l’evento complementare, possiamo in alternativa calcolare jAj tramite il principio di somma, esprimendo A come unione degli eventi disgiunti Ak D“il primo mazzo contiene esattamente un numero k di 7”, per k D 1; 2; 3; 4. Il generico esito ! 2 Ak è determinato univocamente dalle seguenti scelte successive: i) fra i 7 ne scegliamo k che sono quelli che appartengono al primo mazzo: ci sono jC4;k j modi possibili; ii) scegliamo le rimanenti 20  k del primo mazzo, che non devono essere dei 7: ci sono jC36;20k j modi possibili. Quindi P .Ak / D

jC4;k jjC36;20k j ; jC40;20 j

k D 1; 2; 3; 4;

e come risultato finale riotteniamo la (2.2.11). Esempio 2.2.26 Da un’urna che contiene b palline bianche ed r palline rosse, con b; r 2 N, vengono estratte senza reimmissione k palline, con k  b C r. Calcoliamo la probabilità dell’evento Bk che consiste nell’estrarre una pallina bianca alla k-esima estrazione. Soluzione Poniamo ˝ D DbCr;k . L’esito ! può essere identificato con il vettore che indica la sequenza ordinata e senza ripetizioni delle k estrazioni (supponendo di aver numerato le palline per identificarle). Allora Bk $ f.!1 ; : : : ; !k / j !k “bianca”g: Per determinare jBk j utilizziamo il metodo delle scelte successive, caratterizzando una generica k-upla .!1 ; : : : ; !k / tramite il seguente schema: i) scegliamo la pallina bianca della k-esima estrazione, ossia !k : ci sono b modi possibili; ii) scegliamo la sequenza (ordinata e senza ripetizioni) delle k  1 estrazioni precedenti: ci sono jDbCr1;k1 j modi possibili. In definitiva, posto b C r D n, si ha .n1/Š b .nk/Š bjDn1;k1 j b D : P .Bk / D D nŠ jDn;k j n .nk/Š b coincide con la probabilità di estrarre una pallina bianca alla Dunque P .Bk / D bCr prima estrazione, ovvero P .Bk / D P .B1 /. Questo fatto si può spiegare osservando che Bk è in corrispondenza biunivoca con l’insieme f.!1 ; : : : ; !k / j !1 “bianca”g.

2.2 Spazi finiti e problemi di conteggio

41

Esempio 2.2.27 Si consideri un mazzo di 40 carte, da cui si estraggono senza reimmissione k carte, con k  40. Calcoliamo la probabilità che alla k-esima estrazione venga estratta una carta di denari. Soluzione L’esempio è simile al precedente: posto ˝ D D40;k e Ak D “si estrae una carta di denari alla k-esima estrazione”, la probabilità di Ak è data da P .Ak / D

10jD39;k1 j 1 D : jD40;k j 4

Esempio 2.2.28 Da un’urna che contiene b palline bianche ed r palline rosse, vengono estratte con reimmissione 2 palline. Calcoliamo la probabilità dell’evento A definito in ognuno dei modi seguenti: 1) le due palline hanno lo stesso colore; 2) almeno una delle due palline è rossa. Soluzione Poniamo ˝ D DRbCr;2 . L’esito ! può essere identificato con la coppia .!1 ; !2 / che indica la sequenza ordinata (e con eventuale ripetizione) delle due estrazioni (supponendo di aver numerato le palline per identificarle). 1) Abbiamo che A è unione disgiunta di A1 D DRb;2 (le due palline sono bianche) e A2 D DRr;2 (le due palline sono rosse). Dunque P .A/ D P .A1 / C P .A2 / D

jDRb;2 j jDRr;2 j b2 C r 2 : C D jDRbCr;2 j jDRbCr;2 j .b C r/2

2) Si ha P .A/ D 1  P .Ac / con Ac D DRb;2 (le due palline sono bianche) e quindi P .A/ D 1 

b2 : .b C r/2

Esempio 2.2.29 Consideriamo un mazzo di carte da poker da 52 carte, identificate dal seme (cuori ~, quadri }, fiori |, picche ) e dal tipo (un numero da 2 a 10 oppure J, Q, K, A). Calcoliamo la probabilità di avere un tris servito, ovvero di ricevere dal mazziere 5 carte di cui 3 sono dello stesso tipo, mentre le altre due di tipo diverso tra loro e dalle prime tre. Soluzione Poniamo ˝ D C52;5 . Sia A l’evento di cui dobbiamo calcolare la probabilità, ovvero A D “avere un tris servito”: Caratterizziamo il generico esito ! 2 A tramite le seguenti scelte successive: i) scegliamo il tipo delle carte che formano il tris: ci sono 13 tipi possibili; ii) scegliamo i tre semi del tris: ci sono jC4;3 j scelte possibili;

42

2 Misure e spazi di probabilità

iii) scegliamo i tipi delle altre 2 carte fra i rimanenti 12 tipi possibili: ci sono jC12;2 j scelte possibili; iv) scegliamo il seme delle altre 2 carte fra i 4 possibili: ci sono 4  4 D 16 modi possibili. In definitiva P .A/ D

13  4  jC12;2 j  16 2:11%: jC52;5 j

Come abbiamo detto in precedenza, nonostante la maggior parte degli esperimenti aleatori descritti dalla probabilità uniforme discreta possa essere formulata su uno dei tre spazi campionari DRn;k , Dn;k , Cn;k , ci sono casi in cui questo non è possibile. Tuttavia, è sempre possibile scomporre l’esperimento aleatorio in opportuni sotto-esperimenti aleatori che possono essere formulati su DRn;k , Dn;k o Cn;k , di modo che l’esperimento aleatorio di partenza possa essere descritto sul loro prodotto cartesiano. Vediamo più precisamente come si procede nei tre esempi che seguono. Esempio 2.2.30 Consideriamo un mazzo di 30 carte (per esempio, denari, coppe e spade). Dopo averlo diviso in tre mazzi da 10 carte, calcoliamo la probabilità dell’evento A definito in ognuno dei modi seguenti: 1) i tre assi sono in mazzi differenti; 2) i tre assi sono nello stesso mazzo. Soluzione Poniamo ˝ D C30;10  C20;10 : l’esito ! D .!1 ; !2 / può essere pensato come la coppia in cui !1 è l’insieme delle carte del primo mazzo e !2 è l’insieme delle carte del secondo mazzo. 1) Caratterizziamo il generico esito ! 2 A tramite le seguenti scelte successive: i) scegliamo i mazzi in cui sono gli assi: ci sono jP3 j D 6 modi possibili; ii) scegliamo le rimanenti 9 carte del primo mazzo, che non devono essere degli assi: ci sono jC27;9 j modi possibili; iii) scegliamo le rimanenti 9 carte del secondo mazzo, che non devono essere degli assi: ci sono jC18;9 j modi possibili. In definitiva P .A/ D

6jC27;9 jjC18;9 j 50 D 24:6%: jC30;10 jjC20;10 j 203

2) In modo analogo caratterizziamo il generico esito ! 2 A tramite le seguenti scelte successive: i) scegliamo il mazzo in cui sono gli assi: ci sono 3 modi possibili; ii) scegliamo le rimanenti 7 carte del mazzo in cui sono gli assi, che non devono essere degli assi: ci sono jC27;7 j modi possibili; iii) scegliamo le 10 carte di un secondo mazzo, che non devono essere degli assi: ci sono jC20;10 j modi possibili.

2.2 Spazi finiti e problemi di conteggio

43

In definitiva P .A/ D

18 3jC27;7 jjC20;10 j D 8:8%: jC30;10 jjC20;10 j 203

Esempio 2.2.31 Una moneta (non truccata) viene lanciata dieci volte. Dopodiché si lancia un dado a dieci facce (su cui sono riportati i numeri interi da 1 a 10). Calcoliamo la probabilità dell’evento A D “il lancio della moneta, il cui numero è fornito dall’esito del dado, ha dato testa”: In altre parole, l’evento A si verifica se, dopo aver scelto a caso uno dei 10 lanci (tramite il lancio del dado), il risultato di quel lancio è testa. Soluzione Intuitivamente la probabilità è 12 . Consideriamo ˝ D DR2;10  I10 (si noti che al posto dell’insieme I10 è possibile utilizzare indifferentemente DR10;1 , D10;1 o C10;1 , dato che jI10 j D jDR10;1 j D jD10;1 j D jC10;1 j). L’esito ! D .!1 ; : : : ; !10 ; k/ corrisponde alla sequenza !1 ; : : : ; !10 dei risultati dei lanci e alla scelta k del lancio fra i 10 effettuati. Caratterizziamo il generico esito ! 2 A tramite le seguenti scelte successive: i) scegliamo il numero k del lancio: ci sono 10 valori possibili; ii) scegliamo il risultato degli altri 9 lanci: ci sono jDR2;9 j modi possibili. In definitiva P .A/ D

10jDR2;9 j 1 10  29 D : D jDR2;10  I10 j 10  210 2

Esempio 2.2.32 1) In quanti modi è possibile sistemare 3 monete (distinte: chiamiamole per esempio m1 ; m2 e m3 ) in 10 scatole, sapendo che ogni scatola può contenere solo una moneta? 2) Una volta disposte le monete, qual è la probabilità che la prima scatola contenga una moneta? 3) Rispondere ai quesiti precedenti nel caso in cui ogni scatola possa contenere al più 2 monete. Soluzione 1) Possiamo immaginare che l’esperimento si svolga come segue: un’urna contiene 10 palline numerate da 1 a 10; ogni pallina corrisponde ad una scatola (supponiamo che le scatole siano state anch’esse numerate da 1 a 10); quindi si estraggono senza reimmissione tre palline: il numero della i-esima pallina estratta indica la scatola in cui verrà messa la moneta mi , con i D 1; 2; 3. Abbiamo dunque ricondotto l’esperimento all’estrazione senza reimmissione di 3 palline da un’urna che ne contiene 10. Sappiamo che lo spazio campionario naturale è ˝ D D10;3 . Il punto 1) chiede di calcolare i “casi possibili”, ovvero jD10;3 j D 10Š D 720. 7Š

44

2 Misure e spazi di probabilità

3 2) Intuitivamente la probabilità è 10 . Per dimostrarlo, indichiamo con A l’evento di cui vogliamo calcolare la probabilità, ovvero

A D “la prima scatola contiene una moneta” D “la pallina numero 1 è stata estratta”: Si ha che jAj jAj D jD10;3 j 720

P .A/ D o, alternativamente,

P .A/ D 1  P .Ac / D 1 

jAc j jAc j D1 : jD10;3 j 720

Resta dunque da determinare jAj oppure jAc j. Si noti che Ac è l’evento in cui le tre monete non sono messe nella prima scatola e quindi equivale a disporre le 3 monete nelle rimanenti 9 scatole (equivalentemente, nelle tre estrazioni dall’urna, non esce la pallina numero 1), ossia Ac $ D9;3 . Quindi jAc j D jD9;3 j, da cui P .A/ D 1 

7 3 jD9;3 j D1 D : jD10;3 j 10 10

Alternativamente, jAj può essere determinato con il metodo delle scelte successive procedendo come segue:  scelgo la moneta da mettere nella prima scatola: 3 scelte possibili;  scelgo dove mettere le restanti due monete nelle rimanenti nove scatole: jD9;2 j modi possibili. Quindi jAj D 3jD9;2 j, perciò P .A/ D

3 3jDR9;2 j D : 720 10

3) Poniamo ˝ D ˝1 ] ˝2 , dove:  ˝1 contiene i “casi possibili” in cui le prime due monete sono nella stessa scatola, e, di conseguenza, la terza moneta è in una delle rimanenti nove scatole: ci sono 10  9 casi possibili di questo tipo, quindi j˝1 j D 10  9;  ˝2 contiene i “casi possibili” in cui le prime due monete sono in scatole diverse, mentre la terza moneta è in una qualsiasi delle dieci scatole: ci sono jD10;2 j  10 casi possibili di questo tipo, quindi j˝2 j D jD10;2 j  10. Dato che ˝ D ˝1 ] ˝2 , abbiamo che j˝j D j˝1 j C j˝2 j D 10  9 C jD10;2 j  10 D 990:

2.3 Probabilità condizionata e indipendenza di eventi

45

Riassumendo, in questa sezione abbiamo esaminato la probabilità uniforme discreta che è essenzialmente definita come rapporto fra “casi favorevoli” e “casi possibili”. Il calcolo della probabilità uniforme si riduce a un problema di conteggio che può essere risolto con gli strumenti del calcolo combinatorio. In tale contesto, un utile algoritmo per il conteggio di “casi favorevoli” e “casi possibili” è il cosiddetto “metodo delle scelte successive”. Gli errori più comuni che si commettono nell’utilizzo di tale metodo sono:  contare esiti che non esistono (vedi Esempio 2.2.24);  contare più di una volta lo stesso esito (vedi Esempio 2.2.25);  non contare tutti gli esiti. Abbiamo anche visto che, nel caso della probabilità uniforme discreta, è spesso utile ripensare il fenomeno aleatorio come un esperimento (o, eventualmente, una sequenza di esperimenti) in cui si estraggono (con reimmissione, senza reimmissione, simultaneamente) k palline da un’urna che contiene n palline distinte. Nell’ambito di questo tipo di problemi abbiamo infine introdotto due esempi notevoli di probabilità: la binomiale e l’ipergeometrica.

2.3

Probabilità condizionata e indipendenza di eventi

I concetti di indipendenza e probabilità condizionata sono centrali nella Teoria della Probabilità. Potremmo dire che finora abbiamo semplicemente rivisto alcuni concetti di calcolo combinatorio e teoria della misura dandone l’interpretazione probabilistica. Ora, con l’indipendenza e la probabilità condizionata, introduciamo concetti completamente nuovi e peculiari della Teoria della Probabilità: essi permettono di analizzare come l’informazione riguardo al verificarsi di un evento influenza la probabilità di un altro evento.

2.3.1

Probabilità condizionata

Come già spiegato, la Teoria della Probabilità si occupa dei fenomeni il cui esito è incerto: ora l’incertezza su un fatto significa “mancanza di conoscenza, parziale o totale,” del fatto stesso. In altri termini, l’incertezza è dovuta ad una mancanza di informazioni sul fenomeno poiché esso avverrà nel futuro (per esempio, il prezzo di domani di un titolo azionario) oppure poiché è già avvenuto ma non è stato possibile osservarlo (per esempio, l’estrazione di una carta che non ci viene mostrata oppure la traiettoria di un elettrone). Chiaramente può accadere che alcune informazioni diventino disponibili e in tal caso lo spazio di probabilità che descrive il fenomeno deve essere “aggiornato” per tener conto di esse. A questo scopo si introduce il concetto di probabilità condizionata. Consideriamo dapprima il seguente

46

2 Misure e spazi di probabilità

Esempio 2.3.1 [!] Da un’urna che contiene 2 palline bianche e 2 palline nere, si estraggono in sequenza e senza reinserimento due palline: i) calcolare la probabilità che la seconda pallina sia bianca; ii) sapendo che la prima pallina estratta è nera, calcolare la probabilità che la seconda pallina sia bianca; iii) sapendo che la seconda pallina estratta è nera, calcolare la probabilità che la prima pallina sia bianca. Utilizzando il calcolo combinatorio, è abbastanza facile risolvere il quesito i). Consideriamo lo spazio campionario ˝ D D4;2 delle possibili estrazioni, tenendo conto del’ordine. Allora j˝j D jD4;2 j D 12 e l’evento A D“la seconda pallina è bianca” ha 6 elementi, quindi P .A/ D 12 . Il quesito ii) è elementare dal punto di vista intuitivo: poiché abbiamo l’informazione che la prima pallina estratta è nera, alla seconda estrazione l’urna è composta da due palline bianche e una nera e quindi la probabilità cercata è 23 . Condizionatamente all’informazione data, l’evento A ha ora probabilità maggiore di 12 . Al contrario, l’ultimo quesito non sembra avere una soluzione intuitiva. Si potrebbe pensare che la seconda estrazione non influisce sulla prima perché avviene dopo ma ciò non è corretto. Poiché ci viene data un’informazione sulla seconda estrazione, bisogna pensare che le due estrazioni siano già avvenute e in tal caso l’informazione sull’esito della seconda estrazione influisce sulla probabilità dell’esito della prima: infatti sapendo che la seconda estratta è una pallina nera, è come se nella prima estrazione tale pallina nera fosse stata “prenotata” e non potesse essere estratta; quindi ci sono due possibilità su tre di estrarre una pallina bianca. In effetti, anche utilizzando il calcolo combinatorio è facile provare che la probabilità cercata è 23 . Ora formalizziamo le idee precedenti. Definizione 2.3.2 (Probabilità condizionata) In uno spazio di probabilità .˝; F ; P / sia B un evento non trascurabile, ossia tale che P .B/ > 0. La probabilità di A condizionata a B è definita da P .A j B/ WD

P .A \ B/ ; P .B/

A 2 F:

(2.3.1)

Osservazione 2.3.3 La Definizione 2.3.2 si motiva nel modo seguente: se sappiamo che l’evento B è accaduto allora lo spazio campionario si “riduce” da ˝ a B e, condizionatamente a tale informazione, è naturale definire la probabilità di A come in (2.3.1) poiché: i) solo gli esiti di A che stanno anche in B possono accadere; ii) poiché il nuovo spazio campionario è B, dobbiamo dividere per P .B/ in modo che P .B j B/ D 1.

2.3 Probabilità condizionata e indipendenza di eventi

47

Proposizione 2.3.4 Nello spazio di probabilità .˝; F ; P / sia B un evento non trascurabile. Si ha: i) ii) iii) iv) v)

P . j B/ è una misura di probabilità su .˝; F /; se A \ B D ; allora P .A j B/ D 0; .A/ se A  B allora P .A j B/ D PP .B/ e di conseguenza P .A j B/  P .A/; se B  A allora P .A j B/ D 1; se P .A/ D 0 allora P .A j B/ D 0.

Dimostrazione Le proprietà seguono direttamente dalla Definizione 2.3.2: provare i dettagli è un esercizio molto utile e istruttivo.  Esempio 2.3.5 [!] Riprendiamo il punto ii) dell’Esempio 2.3.1 e consideriamo gli eventi B D“la prima pallina estratta è nera” e A D“la seconda pallina estratta è bianca”. Per via intuitiva avevamo detto che la probabilità di A condizionata a B è pari a 23 : ora calcoliamo P .A j B/ utilizzando la Definizione 2.3.2. Chiaramente P .B/ D 12 , mentre sullo spazio campionario D4;2 ci sono 4 possibili estrazioni in 4 D 13 . Ne cui la prima pallina è nera e la seconda è bianca e quindi P .A \ B/ D 12 viene che P .A j B/ D

P .A \ B/ 2 D P .B/ 3

che conferma il risultato intuitivo. Ora risolviamo il punto i) dell’Esempio 2.3.1 utilizzando il concetto di probabilità condizionata per evitare l’uso del calcolo combinatorio. La difficoltà del quesito è nel fatto che il risultato della seconda estrazione dipende dal risultato della prima estrazione e quest’ultimo è incognito: per questo motivo, a prima vista, sembra impossibile9 calcolare la probabilità dell’evento A. L’idea è di partizionare lo spazio campionario e considerare separatamente i casi in cui B accade o meno per sfruttare la definizione di probabilità condizionata: abbiamo già provato che P .A j B/ D 23 e in modo analogo si vede che P .A j B c / D 13 . Allora si ha P .A/ D P .A \ B/ C P .A \ B c / D P .A j B/P .B/ C P .A j B c /P .B c / 1 1 1 2 1 D  C  D 3 2 3 2 2 che conferma quanto già visto. 9 Un’indagine svolta al quarto anno di alcuni licei di Bologna ha evidenziato un numero significativo di studenti che, di fronte a questo quesito hanno risposto che non è possibile calcolare la probabilità dell’evento A. Per mettere in crisi questo tipo di convinzione si può far osservare agli studenti che non c’è ragione per cui le palline nere abbiano maggiore probabilità di essere estratte per seconde e quindi intuitivamente deve valere P .A/ D 12 .

48

2 Misure e spazi di probabilità

Proposizione 2.3.6 (Formula della probabilità totale) [!] Per ogni evento B tale che 0 < P .B/ < 1, vale P .A/ D P .A j B/P .B/ C P .A j B c /.1  P .B//;

A 2 F:

(2.3.2)

Più in generale, se .Bi /i 2I è una partizione10 finita o numerabile di ˝, con P .Bi / > 0 per ogni i 2 I , allora vale X

P .A/ D

P .A j Bi /P .Bi /;

A2F

(2.3.3)

i 2I

Dimostrazione Dimostriamo la (2.3.3), di cui la (2.3.2) è un caso particolare. Poiché ] .A \ Bi /; AD i 2I

per la  -additività di P si ha P .A/ D

X

P .A \ Bi / D

i 2I

X

P .A j Bi /P .Bi /: 

i 2I

Vediamo un altro esempio tipico di applicazione della Formula della probabilità totale. Esempio 2.3.7 Consideriamo due urne: l’urna ˛ contiene 3 palline bianche e 1 rossa; l’urna ˇ contiene 1 pallina bianca e 1 rossa. Calcoliamo la probabilità che, scelta a caso un’urna ed estratta una pallina, essa sia bianca. Prima soluzione Indichiamo con A l’evento di cui vogliamo calcolare la probabilità e con B l’evento in cui viene scelta l’urna ˛. Sembra naturale porre P .B/ D

1 ; 2

P .A j B/ D

3 ; 4

P .A j B c / D

1 : 2

Allora per la (2.3.2) otteniamo P .A/ D

3 1 1 1 5  C  D : 4 2 2 2 8

Notiamo che abbiamo formalmente calcolato P .A/ senza neppure specificare lo spazio di probabilità!

10

Ossia .Bi /i2I è una famiglia di eventi a due a due disgiunti, la cui unione è uguale a ˝. A volte .Bi /i2I è chiamato un sistema di alternative.

2.3 Probabilità condizionata e indipendenza di eventi

49

Seconda soluzione Diamo ora una seconda soluzione più dettagliata: poniamo ˝ D f˛b1 ; ˛b2 ; ˛b3 ; ˛r; ˇb; ˇrg dove ˛b1 è l’esito in cui viene scelta la prima urna ed estratta la prima pallina bianca e gli altri esiti sono definiti in modo analogo. Chiaramente A D f˛b1 ; ˛b2 ; ˛b3 ; ˇbg ma in questo caso la probabilità corretta da utilizzare non è quella uniforme su ˝. Infatti B, l’evento in cui viene scelta l’urna ˛, deve avere probabilità 12 e gli elementi di B sono equiprobabili: ne segue che P .f!g/ D 18 per ogni ! 2 B. Analogamente P .B c / D 12 e gli elementi di B c sono equiprobabili da cui P .fˇbg/ D P .fˇrg/ D

1 : 4

Possiamo dunque calcolare P .A/ D P .f˛b1 g/ C P .f˛b2 g/ C P .f˛b3 g/ C P .fˇbg/ D

5 8

in accordo con quanto precedentemente trovato. Esercizio 2.3.8 Si lancia un dado e di seguito si lancia una moneta un numero di volte pari al risultato del lancio del dado. Qual è la probabilità di ottenere esattamente due teste? Esempio 2.3.9 Un’urna contiene 6 palline bianche e 4 nere. Estraendo 2 palline senza reinserimento, qual è la probabilità che siano entrambe bianche (evento A)? Possiamo interpretare il quesito come un problema di conteggio, utilizzando la probabilità uniforme P sullo spazio ˝ D C10;2 delle combinazioni di due palline estratte fra le 10 disponibili. Allora si ha P .A/ D

jC6;2 j D jC10;2 j

6Š 2Š4Š 10Š 2Š8Š

D

65 : 10  9

(2.3.4)

6 D P .A1 / dove A1 è l’evento “la prima pallina estratta è bianOra notiamo che 10 ca”. D’altra parte, se A2 è l’evento “la seconda pallina estratta è bianca”, allora 59 è la probabilità di A2 condizionata ad A1 , ossia 59 D P .A2 j A1 /. In definitiva, osservando anche che A D A1 \ A2 , la (2.3.4) equivale a

P .A1 \ A2 / D P .A1 /P .A2 j A1 / e quindi ritroviamo proprio la formula (2.3.1) che definisce la probabilità condizionata.

50

2 Misure e spazi di probabilità

Più in generale, dalla definizione di probabilità condizionata si ottiene direttamente il seguente utile risultato. Proposizione 2.3.10 (Formula di moltiplicazione) [!] Siano A1 ; : : : ; An eventi tali che P .A1 \    \ An1 / > 0. Vale la formula P .A1 \    \ An / D P .A1 /P .A2 j A1 /    P .An j A1 \    \ An1 /

(2.3.5)

Esercizio 2.3.11 Utilizzare la formula (2.3.5) per calcolare la probabilità che, estratte 3 carte da un mazzo di 40, il valore di ognuna non sia superiore a 5. Soluzione Indicato con Ai , i D 1; 2; 3, l’evento “la i-esima carta estratta è minore o uguale a 5”, la probabilità cercata è uguale a P .A1 \ A2 \ A3 / D P .A1 /P .A2 j A1 /P .A3 j A1 \ A2 / D

20 19 18   : 40 39 38

Risolvendo l’esercizio come un problema di conteggio, troveremmo la soluzione jC j . equivalente jC20;3 40;3 j Esempio 2.3.12 Calcoliamo la probabilità di fare un ambo al lotto con i numeri 1 e 3 (evento A), sapendo che l’estrazione è già avvenuta e tre dei cinque numeri estratti sono dispari (evento B). Soluzione Poniamo ˝ D C90;5 : l’esito ! D f!1 ; : : : ; !5 g può essere pensato come l’insieme dei numeri estratti. Si ha che ! 2 A se 1; 3 2 ! e dunque A $ C88;3 . Inoltre B $ C45;3  C45;2 (corrispondente alla scelta di tre numeri dispari e due pari fra i 90) e A \ B $ C43;1  C45;2 (corrispondente alla scelta del terzo numero dispari, oltre a 1 e 3, e di due pari fra i 90). Allora si ha P .A/ D

jC88;3 j 0:25% jC90;5 j

e

P .A j B/ D

43jC45;2 j 0:3%: jC45;3 jjC45;2 j

Osservazione 2.3.13 In base alla formula (2.3.2) della probabilità totale, se 0 < P .B/ < 1 possiamo determinare univocamente P .A/ a partire da P .B/; P .A j B/ e P .A j B c /. Notiamo anche che la (2.3.2) implica che P .A/ appartiene all’intervallo di estremi P .A j B/ e P .A j B c /: quindi, indipendentemente dalla conoscenza di P .B/, si ha che P .A j B/ e P .A j B c / forniscono delle stime del valore di P .A/. In particolare se P .A j B/ D P .A j B c / allora vale anche P .A/ D P .A j B/ o equivalentemente P .A \ B/ D P .A/P .B/. Consideriamo ora un problema relativo alla rilevazione dell’opinione degli studenti sulla qualità della didattica. Definiamo i seguenti eventi aleatori:  A: un professore riceve un giudizio positivo nella rilevazione dell’opinione degli studenti;  B: un professore è “bravo” (ammesso di sapere cosa ciò significhi).

2.3 Probabilità condizionata e indipendenza di eventi

51

Generalmente gli eventi A e B non coincidono: allora possiamo interpretare le probabilità condizionate P .A j B/ e P .B j A/ nel modo seguente:  P .A j B/ è la probabilità che un professore “bravo” riceva un giudizio positivo;  P .B j A/ è la probabilità che un professore che riceve un giudizio positivo sia “bravo”. Riflettendo attentamente sul significato di queste due probabilità condizionate, risulta chiaro che a volte si può essere interessati a ricavarne una a partire dalla conoscenza dall’altra: tipicamente nella realtà, si può avere una stima generale (in base a dati storici) di P .A j B/ ed essere interessati a conoscere P .B j A/ in base al risultato della rilevazione appena effettuata. Una risposta a questo problema è data dal classico Teorema di Bayes. Teorema 2.3.14 (Formula di Bayes) [!] Siano A; B eventi non trascurabili. Vale P .B j A/ D

P .A j B/P .B/ P .A/

(2.3.6)

Dimostrazione La (2.3.6) equivale a P .B j A/P .A/ D P .A j B/P .B/ e segue direttamente dalla definizione di probabilità condizionata.  Esempio 2.3.15 Riprendiamo l’Esempio 2.3.7: sapendo che è stata estratta una pallina bianca, qual è la probabilità che sia stata scelta l’urna ˛‹ Soluzione Come prima indichiamo con A l’evento “viene estratta una pallina bianca” e con B l’evento “viene scelta l’urna ˛”. Avevamo già calcolato P .A/ D 58 , mentre assumiamo P .A j B/ D 34 e P .B/ D 12 . Allora per la formula di Bayes abbiamo P .B j A/ D

P .A j B/P .B/ 3 D : P .A/ 5

Esercizio 2.3.16 Supposto P .A j B/ ¤ P .A j B c /, provare che P .B/ D

P .A/  P .A j B c / ; P .A j B/  P .A j B c /

(2.3.7)

e quindi è possibile determinare univocamente P .B/ a partire da P .A/; P .A j B/ e P .A j B c /. Esercizio 2.3.17 (Rilevazione della didattica) Supponiamo di sapere che storicamente i professori “bravi” ricevono un giudizio positivo nel 95% dei casi e i

52

2 Misure e spazi di probabilità

professori “meno bravi” ricevono un giudizio positivo nel 10% dei casi (alcuni professori sono furbi . . . ). Se i giudizi sul corso di laurea sono positivi all’80%, qual è la probabilità che i) i professori che hanno ricevuto un giudizio positivo siano veramente “bravi”? ii) i professori che hanno ricevuto un giudizio negativo in realtà siano “bravi”? Si osservi che, combinando la formula di Bayes con la formula (2.3.7), otteniamo P .B j A/ D

2.3.2

P .A j B/ .P .A/  P .A j B c // P .A j B/P .B/ D : P .A/ P .A/ .P .A j B/  P .A j B c //

Indipendenza di eventi

Definizione 2.3.18 In uno spazio di probabilità .˝; F ; P /, diciamo che due eventi A; B sono indipendenti in P se P .A \ B/ D P .A/P .B/:

(2.3.8)

Il concetto di indipendenza è relativo alla misura di probabilità considerata11 . Esso esprime il fatto che l’informazione sull’accadere dell’evento B non influenza la probabilità di A: infatti, se P .B/ > 0, la (2.3.8) è equivalente a P .A j B/ D P .A/; ossia P .A \ B/ P .A/ D P .B/ P .˝/ che può essere interpretata come una relazione di proporzionalità P .A \ B/ W P .B/ D P .A/ W P .˝/: Analogamente, se P .A \ B/ > P .A/P .B/

(2.3.9)

allora A; B si dicono positivamente correlati in P poiché la (2.3.9) implica12 P .A j B/ > P .A/;

P .B j A/ > P .B/;

ossia la probabilità di A aumenta condizionatamente all’informazione sull’avvenire di B e viceversa. 11 A volte è necessario dichiarare esplicitamente la misura di probabilità P considerata. Infatti nelle applicazioni possono intervenire diverse misure di probabilità contemporaneamente: non è detto che due eventi indipendenti in una misura di probabilità lo siano in un’altra misura di probabilità. 12 Nel caso in cui A; B non siano trascurabili in P .

2.3 Probabilità condizionata e indipendenza di eventi

53

Osservazione 2.3.19 Chiaramente, il fatto che A; B siano indipendenti non significa che siano disgiunti, anzi: se P .A/ > 0, P .B/ > 0 e vale la (2.3.8) allora anche P .A \ B/ > 0 e quindi A \ B ¤ ;. D’altra parte, se P .A/ D 0 allora anche P .A \ B/ D 0 (per la (2.1.5) e il fatto che A \ B  A) e quindi la (2.3.8) vale per ogni B, ossia A è indipendente da ogni evento B. Osservazione 2.3.20 Abbiamo definito il concetto di indipendenza ma non quello di dipendenza. Se due eventi A; B non sono indipendenti non diciamo che sono dipendenti: definiremo in seguito un concetto di dipendenza che è ben distinto e in qualche modo slegato da quello di indipendenza. Esempio 2.3.21 Due atleti hanno rispettivamente la probabilità del 70% e 80% di battere un record in una gara. Qual è la probabilità che almeno uno dei due batta il record? Se A è l’evento “il primo atleta batte il record”, B è l’evento “il secondo atleta batte il record” e assumiamo che A e B siano indipendenti allora si ha P .A [ B/ D P .A/ C P .B/  P .A \ B/ D D P .A/ C P .B/  P .A/P .B/ D 150%  70%  80% D 94%:

(per l’indipendenza)

Esempio 2.3.22 Il fatto che due eventi siano indipendenti non significa che “non hanno nulla a che fare”. Si consideri il lancio di due dadi e gli eventi “la somma dei lanci è 7” (evento A) e “il risultato del primo lancio è 3”. Allora A e B sono indipendenti nella probabilità uniforme. Esempio 2.3.23 Vedremo tra breve che il concetto di indipendenza risulta naturale per descrivere un esperimento che viene ripetuto in modo che ogni ripetizione non influenzi la probabilità delle altre ripetizioni (per esempio, un sequenza di lanci di un dado o di una moneta). In questo caso risulta naturale utilizzare uno spazio campionario che sia un prodotto cartesiano. Per esempio, sia ˝ D ˝1  ˝2 finito, munito della probabilità uniforme P : consideriamo A D E1  ˝2 e B D ˝1  E2 con Ei  ˝i , i D 1; 2. Allora P .A \ B/ D P .E1  E2 / D

jE1 jjE2 j jE1  ˝2 jj˝1  E2 j D P .A/P .B/ D j˝j j˝j2

e quindi A e B sono indipendenti in P . Approfondiremo il legame fra i concetti di indipendenza e prodotto di misure a partire dalla Sezione 3.3. Esercizio 2.3.24 Al cinema due persone ˛; ˇ decidono quale film vedere, tra due disponibili, in maniera indipendente e con le seguenti probabilità: P .˛1 / D

1 ; 3

P .ˇ1 / D

1 4

54

2 Misure e spazi di probabilità

dove ˛1 indica l’evento “˛ sceglie il primo film”. Calcolare la probabilità che ˛ e ˇ vedano lo stesso film. Prima soluzione Indichiamo con A l’evento di cui vogliamo calcolare la probabilità. Abbiamo P .A/ D P .˛1 \ ˇ1 / C P .˛2 \ ˇ2 / D D P .˛1 /P .ˇ1 / C P .˛2 /P .ˇ2 / D

7 : 12

(per l’ipotesi di indipendenza e poiché P .˛2 / D 1  P .˛1 /)

Questo esempio elementare mostra che è possibile calcolare la probabilità di un evento che dipende da eventi indipendenti, a partire dalla conoscenza delle probabilità dei singoli eventi e, soprattutto, senza la necessità di costruire esplicitamente lo spazio di probabilità. Seconda soluzione È anche utile procedere nel modo “classico”, risolvendo l’esercizio come un problema di conteggio: in questo caso dobbiamo prima costruire lo spazio campionario ˝ D f.1; 1/; .1; 2/; .2; 1/; .2; 2/g dove .i; j / indica l’esito “˛ sceglie il film i e ˇ sceglie il film j ” con i; j D 1; 2. Per ipotesi conosciamo le probabilità degli eventi ˛1 D f.1; 1/; .1; 2/g;

ˇ1 D f.1; 1/; .2; 1/g;

tuttavia questo non è sufficiente a determinare univocamente la probabilità P , ossia a determinare le probabilità dei singoli esiti. In effetti per fare ciò, è necessario utilizzare anche l’ipotesi di indipendenza (in P ) di ˛1 e ˇ1 , da cui ricaviamo per esempio P .f.1; 1/g/ D P .˛1 \ ˇ1 / D P .˛1 /P .ˇ1 / D

1 : 12

Analogamente possiamo calcolare tutte le probabilità degli esiti e di conseguenza risolvere il problema. Notiamo che questa procedura basata sul conteggio risulta più laboriosa e meno intuitiva. Proposizione 2.3.25 Se A; B sono indipendenti allora anche A; B c sono indipendenti. Dimostrazione Si ha P .A \ B c / D P .A n B/ D P .A n .A \ B// D (per la (2.1.6)) D P .A/  P .A \ B/ D (per l’ipotesi di indipendenza di A; B) D P .A/  P .A/P .B/ D P .A/P .B c /: 

2.3 Probabilità condizionata e indipendenza di eventi

55

Esercizio 2.3.26 Al cinema due persone ˛; ˇ decidono quale film vedere fra tre disponibili, nel modo seguente: i) ˛ sceglie un film a caso con le seguenti probabilità P .˛1 / D

1 ; 2

P .˛2 / D

1 ; 3

P .˛3 / D

1 6

dove ˛i indica l’evento “˛ sceglie il film i-esimo” per i D 1; 2; 3; ii) ˇ lancia una moneta e se il risultato è “testa” allora sceglie lo stesso film di ˛, altrimenti sceglie un film a caso, indipendentemente da ˛. Calcoliamo la probabilità P .A/ dove A è l’evento “˛ e ˇ vedono lo stesso film”. Soluzione Indichiamo con T l’evento “il risultato del lancio della moneta è testa”. Si ha P .T / D 12 e per ipotesi P .A j T / D 1 e P .ˇi j T c / D 13 per i D 1; 2; 3. Inoltre, poiché P . j T c / è una misura di probabilità, si ha P .A j T c / D

3 X

P .˛i \ ˇi j T c / D

i D1

D

3 X

(per l’ipotesi di indipendenza della scelta di ˛ e ˇ condizionatamente all’evento T c )

P .˛i j T c /P .ˇi j T c /

i D1

1X 1 P .˛i j T c / D ; 3 i D1 3 3

D

poiché

3 P i D1

P .˛i j T c / D 1 essendo P . j T c / una misura di probabilità. Allora per

la (2.3.2) si ha P .A/ D P .A j T /P .T / C P .A j T c /.1  P .T // D 1 

1 1 1 2 C  D : 2 3 2 3

Per esercizio, provare a calcolare la probabilità che ˛ e ˇ scelgano il primo film, ossia P .˛1 \ ˇ1 /. Consideriamo ora il caso di più di due eventi. Definizione 2.3.27 Sia .Ai /i 2I una famiglia di eventi. Diciamo che tali eventi sono indipendenti se vale ! \ Y P Aj D P .Aj / j 2J

per ogni J  I , con J finito.

j 2J

56

2 Misure e spazi di probabilità

Consideriamo tre eventi A; B; C : gli Esercizi 2.3.40 e 2.3.41 mostrano che in generale non c’è implicazione fra la proprietà P .A \ B \ C / D P .A/P .B/P .C /

(2.3.10)

P .A \ B/ D P .A/P .B/; P .A \ C / D P .A/P .C /; P .B \ C / D P .B/P .C /:

(2.3.11)

e le proprietà

In particolare, una famiglia di eventi a due a due indipendenti non è in generale una famiglia di eventi indipendenti. Concludiamo la sezione con un utile risultato. Data una successione di eventi .An /n1 , indichiamo con13 \[ .An i.o./ WD Ak : n1 kn

Si noti che .An i.o./ D f! 2 ˝ j 8n 2 N 9k  n tale che ! 2 Ak g; ossia .An i.o./ è l’evento costituito dagli ! 2 ˝ che appartengono ad un numero infinito di An . Lemma 2.3.28 (Borel-Cantelli) [!] Sia .An /n1 una successione di eventi nello spazio .˝; F ; P /: i) se

X

P .An / < C1

n1

allora P .An i.o./ D 0; ii) se gli An sono indipendenti e

X

P .An / D C1

n1

allora P .An i.o./ D 1. Dimostrazione Per la continuità dall’alto di P si ha [  Ak  (per  -subadditività, Proposizione 2.1.21-ii)) P .An i.o./ D lim P n!1

 lim

n!1

X

kn

P .Ak / D 0

kn

per ipotesi. Questo prova la prima parte della tesi. 13

i.o. sta per infinitely often.

2.3 Probabilità condizionata e indipendenza di eventi

57

Per quanto riguarda ii), proviamo che P

[

 Ak

D1

(2.3.12)

kn

per ogni n 2 N, da cui seguirà la tesi. Fissati n; N con n  N , si ha P

[ N

 Ak

D1P

\ N

kDn

 Ack

D

(per indipendenza)

kDn

D1

N Y kDn

 1  exp

.1  P .Ak //   

N X

(per la disuguaglianza elementare 1  x  e x valida per x 2 R)

 P .Ak / :

kDn

La (2.3.12) segue passando al limite per N ! 1.  Riassumendo, la probabilità condizionata e l’indipendenza sono i primi concetti veramente nuovi, esclusivi della teoria della probabilità e che non si incontrano in altre teorie matematicamente “affini” come la teoria della misura o il calcolo combinatorio. Lo scopo di entrambi i concetti è quello di esprimere la probabilità P .A \ B/ in termini di probabilità dei singoli eventi A e B. Ciò è ovviamente possibile se A; B sono indipendenti in P poiché in questo caso si ha P .A \ B/ D P .A/P .B/: Più in generale, se non c’è indipendenza fra A e B possiamo scrivere P .A \ B/ D P .A j B/P .B/ Molti problemi si risolvono molto più facilmente usando le precedenti identità (e altre utili formule come quella della probabilità totale, di moltiplicazione e di Bayes) invece del calcolo combinatorio.

2.3.3

Prove ripetute e indipendenti

Definizione 2.3.29 [!] In uno spazio di probabilità .˝; F ; P /, sia .Ch /hD1;:::;n una famiglia finita di eventi indipendenti ed equiprobabili, ossia tali che P .Ch / D p 2 Œ0; 1 per ogni h D 1; : : : ; n. Allora diciamo che .Ch /hD1;:::;n è una famiglia di n prove ripetute e indipendenti con probabilità p.

58

2 Misure e spazi di probabilità

Intuitivamente possiamo immaginare di ripetere n volte un esperimento che può avere due esiti, successo o insuccesso: Ch rappresenta l’evento “l’esperimento h-esimo ha successo”. Per esempio, in una sequenza di n lanci di una moneta, Ch può rappresentare l’evento “al lancio numero h ottengo testa”. Per ogni n 2 N e p 2 Œ0; 1, è sempre possibile costruire uno spazio discreto .˝; P / su cui è definita una famiglia .Ch /hD1;:::;n di n prove ripetute e indipendenti con probabilità p. Il seguente risultato mostra anche che su uno spazio di probabilità discreto non è possibile definire una successione .Ch /h2N di prove ripetute e indipendenti a meno che non sia banale, ossia con p D 0 oppure p D 1. Proposizione 2.3.30 Per ogni n 2 N e p 2 Œ0; 1, esiste uno spazio discreto .˝; P / su cui è definita in modo canonico una famiglia .Ch /hD1;:::;n di n prove ripetute e indipendenti con probabilità p. Se .Ch /h2N è una successione di eventi indipendenti su uno spazio discreto .˝; P /, tali che P .Ch / D p 2 Œ0; 1 per ogni h 2 N, allora necessariamente p D 0 oppure p D 1. Dimostrazione Si veda la Sezione 2.5.1.  Vediamo ora due esempi significativi. Esempio 2.3.31 (Probabilità di primo successo alla prova k) [!] Sia .Ch /hD1;:::;n una famiglia di n prove ripetute e indipendenti con probabilità p. L’evento “il primo successo è alla k-esima prova” è definito da c Ak WD C1c \ C2c \    \ Ck1 \ Ck ;

1  k  n;

e per l’indipendenza vale P .Ak / D .1  p/k1 p;

1  k  n:

(2.3.13)

Per esempio, Ak rappresenta l’evento secondo cui, in una sequenza di n lanci di una moneta, si ottiene testa per la prima volta al k-esimo lancio. Notiamo che P .Ak / in (2.3.13) non dipende da n: intuitivamente, Ak dipende solo da ciò che è successo fino alla k-esima prova ed è indipendente dal numero totale n di prove. Esempio 2.3.32 (Probabilità di k successi su n prove) [!] Consideriamo una famiglia .Ch /hD1;:::;n di n prove ripetute e indipendenti con probabilità p. Calcoliamo la probabilità dell’evento Ak “esattamente k prove hanno successo”. 1o modo: Con riferimento allo spazio canonico della Proposizione 2.3.30 e in particolare alla formula (2.5.1), abbiamo Ak D ˝k . Dunque P .Ak / D

X !2˝k

P .f!g/ D j˝k jp .1  p/ k

nk

! n k D p .1  p/nk ; k

0  k  n:

2.3 Probabilità condizionata e indipendenza di eventi

59

Vedremo che P .Ak / è legato al concetto di distribuzione binomiale nell’Esempio 2.4.17. 2o modo: L’evento Ak è del tipo Ci1 \    \ Cik \ CickC1    \ Cicn al variare di fi1 ; : : : ; ik g, famiglia di indici di In : le possibili scelte di tali indici sono esattamente jCn;k j. Inoltre, per l’indipendenza, si ha   P Ci1 \    \ Cik \ CickC1    \ Cicn D p k .1  p/nk e dunque ritroviamo il risultato ! n k p .1  p/nk ; P .Ak / D k

0  k  n:

(2.3.14)

Osservazione 2.3.33 Ripensiamo all’Esempio 2.2.20 relativo al calcolo della probabilità di estrarre (con reinserimento) esattamente k palline bianche da un’urna che ne contiene b bianche e r rosse. Se Ch è l’evento “la pallina della h-esima b estrazione è bianca” allora p D P .Ch / D bCr e la (2.3.14) fornisce la probabilità cercata, in accordo con quanto avevamo ottenuto nell’Esempio 2.2.20 tramite il calcolo combinatorio. Si noti che nell’approccio basato sul calcolo combinatorio si usa la probabilità uniforme, come sempre nei problemi di conteggio. Invece, nell’approccio basato sulla famiglia di prove ripetute e indipendenti, implicitamente utilizziamo lo spazio canonico della Proposizione 2.3.30 senza tuttavia la necessità di dichiarare esplicitamente lo spazio campionario e la misura di probabilità (che comunque non è quella uniforme).

2.3.4

Esempi

Proponiamo alcuni esempi ed esercizi riassuntivi su indipendenza e probabilità condizionata. Esempio 2.3.34  Il signor Rossi ha due figli: qual è la probabilità che entrambi i figli siano maschi (evento A)? Considerando come spazio campionario ˝ D f.M; M /; .M; F /; .F; M /; .F; F /g

(2.3.15)

60

2 Misure e spazi di probabilità

con ovvio significato dei simboli, è chiaro che P .A/ D 14 . La situazione è riassunta nella seguente tabella in cui le celle rappresentano i quattro casi possibili con a fianco le relative probabilità: si ha A D f.M; M /g. Maschio Maschio

.M; M /

Femmina .F; M /

Femmina 1 4

.M; F /

1 4

1 4

.F; F /

1 4

 Il signor Rossi ha due figli. Sapendo che uno di questi è maschio (evento B), qual è la probabilità che entrambi i figli siano maschi? La risposta “intuitiva” (la probabilità è pari a 12 ) purtroppo è sbagliata. Per rendersene conto è sufficiente considerare ancora lo spazio campionario ˝: ora, avendo l’informazione che .F; F / non è possibile (ossia ha probabilità nulla “condizionatamente” all’informazione data che è il verificarsi dell’evento B) e supposto che gli esiti .M; M /; .M; F /; .F; M / siano equiprobabili, se ne conclude che la probabilità cercata è pari a 13 . La tabella seguente mostra come si ridistribuisce la probabilità condizionatamente all’informazione che si verifica B. Maschio Maschio

.M; M /

Femmina .F; M /

Femmina 1 3

.M; F /

1 3

1 3

.F; F /

0

 Il signor Rossi ha due figli. Sapendo che il primogenito è maschio (evento C , differente da B del punto precedente), qual è la probabilità che entrambi i figli siano maschi? La risposta “intuitiva” (la probabilità è pari a 12 ) è corretta perché in questo caso FM e FF hanno entrambe probabilità nulla (“condizionatamente” all’informazione data che è il verificarsi dell’evento C ). In altri termini, sapendo che il primogenito è maschio, tutto dipende dal fatto che il secondogenito sia maschio o femmina, ossia da due eventi equiprobabili con probabilità pari a 12 . La tabella seguente mostra come si ridistribuisce la probabilità condizionatamente all’informazione che si verifica C . Maschio Maschio

.M; M /

Femmina .F; M /

Femmina 1 2

.M; F /

1 2

0

.F; F /

0

2.3 Probabilità condizionata e indipendenza di eventi

61

Indicando con P la probabilità uniforme su ˝ in (2.3.15), abbiamo P .A/ D P .fMM g/ D

1 ; 4

P .B/ D P .fMM; MF; FM g/ D P .C / D P .fMM; MF g/ D

3 ; 4

1 ; 2

e quindi, in base alla Definizione 2.3.2, vale P .A j B/ D

1 P .A/ D ; P .B/ 3

P .A j C / D

P .A/ 1 D ; P .C / 2

in accordo con quanto avevamo congetturato sopra per via intuitiva. Esercizio 2.3.35 Usando la formula di Bayes provare che P .B j A/ D

P .A j B/P .B/ P .A j B/P .B/ C P .A j B c /.1  P .B//

(2.3.16)

e quindi è possibile determinare univocamente P .B j A/ a partire da P .B/; P .A j B/ e P .A j B c /. Esercizio 2.3.36 Sappiamo che il 4% di una certa popolazione ˛ è malato. Effettuando un test sperimentale per rilevare se un individuo di ˛ è malato, si osserva che il test ha la seguente affidabilità: i) se l’individuo è malato, il test dà esito positivo nel 99% dei casi; ii) se l’individuo è sano, il test dà esito positivo nel 2% dei casi. In base a questi dati, qual è la probabilità che un individuo di ˛, positivo al test, sia veramente malato? Supponiamo poi di utilizzare il test su un’altra popolazione ˇ: considerando valide le stime di affidabilità i) e ii), e osservando che il test dà esito positivo sul 6% della popolazione ˇ, qual è la probabilità che un individuo di ˇ sia malato? Soluzione Indichiamo con T l’evento “il test su un individuo dà esito positivo” e con M l’evento “l’individuo è malato”. Per ipotesi, P .M / D 4%, P .T j M / D 99% e P .T j M c / D 2%. Allora per la (2.3.16) con B D M e A D T vale P .M j T / 67:35% e dunque c’è un alto numero di “falsi positivi”. Questo è dovuto al fatto che la percentuale dei malati è relativamente bassa: notiamo che in generale P .M j T / D

P .T j M /P .M / ! 0C P .T j M /P .M / C P .T j M c /.1  P .M //

per P .M / ! 0C

62

2 Misure e spazi di probabilità

mentre P .M j T / ! 1 per P .M / ! 1 . Osserviamo che in base ai dati possiamo anche calcolare, tramite la (2.3.2), la percentuale dei test positivi P .T / D P .T j M /P .M / C P .T j M c /.1  P .M // 5:88%: Per quanto riguarda il secondo quesito, abbiamo che per ipotesi P .T j M / D 99% e P .T j M c / D 2%. Se il dato osservato è che P .T / D 6% allora dalla (2.3.7) ricaviamo P .M / D

P .T /  P .T j M c / 4:12% P .T j M /  P .T j M c /

Il risultato si può interpretare dicendo che, prese per valide le stime di affidabilità i) e ii) del test, si ha che su un 6% di test positivi circa il 33% sono falsi positivi. Esercizio 2.3.37 Provare nel dettaglio quanto affermato nell’Esempio 2.3.22. Esercizio 2.3.38 In riferimento all’Esercizio 2.3.24, costruire una misura di probabilità Q su ˝, diversa da P , rispetto alla quale valga ancora Q.˛1 / D

1 ; 3

Q.ˇ1 / D

1 4

ma ˛1 e ˇ1 non siano indipendenti in Q. Esercizio 2.3.39 Consideriamo un mazzo di 40 carte: verificare che, rispetto alla probabilità uniforme, i) gli eventi “estrarre una carta dispari” (evento A) ed “estrarre un 7” (evento B) non sono indipendenti; ii) gli eventi “estrarre una carta dispari” (evento A) ed “estrarre una carta di denari” (evento B) sono indipendenti. Esercizio 2.3.40 ((2.3.11) non implica (2.3.10)) Consideriamo il lancio di tre dadi e gli eventi Aij definiti da “il risultato del dado i-esimo è uguale a quello del dado j -esimo”. Allora A12 ; A13 ; A23 sono a due a due indipendenti ma non sono indipendenti. Esercizio 2.3.41 ((2.3.10) non implica (2.3.11)) Consideriamo il lancio di due dadi e, posto ˝ D I6  I6 , gli eventi A D f.!1 ; !2 / j !2 2 f1; 2; 5gg; B D f.!1 ; !2 / j !2 2 f4; 5; 6gg; C D f.!1 ; !2 / j !1 C !2 D 9g: Allora vale la (2.3.10) ma non la (2.3.11).

2.4 Distribuzioni

63

Esercizio 2.3.42 Supponiamo che n oggetti siano messi a caso in r scatole, con r  1. Calcoliamo la probabilità che “esattamente k oggetti siano messi nella prima scatola” (evento Ak ). Soluzione Se Ch è l’evento “l’h-esimo oggetto viene messo nella prima scatola” allora p D P .Ch / D 1r . Inoltre P .Ak / è data dalla (2.3.14).

2.4

Distribuzioni

In questa sezione ci occupiamo della costruzione e caratterizzazione delle misure sullo spazio Euclideo, con particolare attenzione alle misure di probabilità su Rd , chiamate distribuzioni. Il risultato fondamentale in questa direzione è il Teorema di Carathéodory che enunciamo nella Sezione 2.4.7 e utilizzeremo spesso nel seguito. L’idea è di definire una distribuzione dapprima su una famiglia particolare A di sottoinsiemi dello spazio campionario ˝ (per esempio, la famiglia degli intervalli nel caso ˝ D R) e poi estenderla su un’opportuna  -algebra che contiene A . Il problema della scelta di tale  -algebra è legato alla cardinalità di ˝: se ˝ è finito o numerabile, dare una probabilità su ˝ è equivalente ad assegnare le probabilità dei singoli esiti (cf. Osservazione 2.1.13); di conseguenza è naturale assumere P .˝/ come  -algebra degli eventi. Il caso generale, come abbiamo già visto nell’Esempio 2.1.28, è decisamente più complesso; infatti la cardinalità di P .˝/ può essere “troppo grande” perché sia possibile definire su di essa una misura di probabilità14 .

2.4.1

 -algebra generata e completamento di uno spazio di probabilità

Consideriamo un generico insieme non vuoto ˝. Osserviamo che se .Fi /i 2I è una famiglia (non necessariamente numerabile) di  -algebre su ˝ allora l’intersezione \ Fi i 2I

è ancora una  -algebra. Questo giustifica la seguente Definizione 2.4.1 Data una famiglia A di sottoinsiemi di ˝, indichiamo con  .A / l’intersezione di tutte le  -algebre che contengono A . Poiché  .A / è la Se la cardinalità di ˝ è finita, diciamo j˝j D n, allora P .˝/ D 2n e se ˝ ha cardinalità numerabile allora P .˝/ ha la cardinalità del continuo (di R). Tuttavia se ˝ D R, per il Teorema di Cantor la cardinalità di P .R/ è strettamente maggiore della cardinalità di R. 14

64

2 Misure e spazi di probabilità

più piccola  -algebra che contiene A , diciamo che A è la  -algebra generata da A . Esempio 2.4.2 Nel caso in cui A D fAg sia formata da un solo insieme A  ˝, scriviamo  .A/ invece di  .fAg/. Notiamo che vale  .A/ D f;; ˝; A; Ac g: L’intersezione di  -algebre è ancora una  -algebra, ma un risultato analogo non vale per l’unione: date due  -algebre F1 e F2 , si ha F1 [ F2   .F1 [ F2 / e inclusione può essere stretta. In generale è difficile dare una rappresentazione esplicita della  -algebra generata da una famiglia A : chiaramente  .A / deve contenere i complementari e le unioni numerabili di elementi di A ma, come vedremo nella prossima sezione, ci sono casi in cui con queste operazioni non si ottengono tutti gli elementi di  .A /. Per questo motivo è utile introdurre delle tecniche che permettano di dimostrare che se una certa proprietà vale per gli elementi di una famiglia A allora vale anche per tutti gli elementi di  .A /: questo tipo di risultati sono l’oggetto dell’Appendice A.1. Osservazione 2.4.3 (Completamento di uno spazio di probabilità) Ricordiamo che uno spazio di probabilità .˝; F ; P / è completo se N  F ossia gli insiemi trascurabili (e quelli quasi certi) sono eventi. Si può sempre “completare” uno spazio .˝; F ; P / estendendo P alla  -algebra  .F [ N / nel modo seguente. Anzitutto si prova15 che  .F [ N / D FO dove FO WD fA  ˝ j A M B 2 N per un certo B 2 F g:

Qui A M B D .A n B/ [ .B n A/ indica la differenza simmetrica di insiemi. Dato A 2 FO , poniamo PO .A/ WD P .B/ dove B 2 F è tale che A M B 2 N . Non è difficile verificare che:    

tale definizione è ben posta (non dipende dalla scelta di B); PO è una misura di probabilità su .˝; FO /; PO .B/ D P .B/ per ogni B 2 F ; .˝; FO ; PO / è uno spazio completo.

Il completamento di uno spazio dipende dalla  -algebra e dalla misura di probabilità fissate: al riguardo, si veda l’Esercizio 2.4.14. È chiaro che F [ N  FO   .F [ N / e quindi è sufficiente verificare che FO è una  -algebra per provare che FO D  .F [ N /. Ciò segue dal fatto che:

15

c c i) A  M B D AM B;   S S S  An M Bn  An M Bn : ii) n2N

n2N

n2N

2.4 Distribuzioni

2.4.2

65

 -algebra di Borel

Introduciamo la  -algebra che utilizzeremo sistematicamente quando lo spazio campionario è Rd . In realtà, poiché non comporta alcuna difficoltà aggiuntiva e risulterà comodo in seguito, consideriamo il caso in cui lo spazio campionario sia un generico spazio metrico .M; %/: al di là degli spazi Euclidei, un esempio non banale è M D C Œ0; 1, lo spazio delle funzioni continue sull’intervallo Œ0; 1, munito della distanza del massimo %max .f; g/ D max jf .t/  g.t/j; t 2Œ0;1

f; g 2 C Œ0; 1:

In uno spazio metrico .M; %/, la  -algebra di Borel B% è la  -algebra generata dalla topologia (la famiglia degli aperti) indotta da %. Definizione 2.4.4 ( -algebra di Borel) La  -algebra di Borel B% è la più piccola  -algebra che contiene gli aperti di .M; %/. Gli elementi di B% sono chiamati Boreliani. Notazione 2.4.5 Nel seguito indicheremo con Bd la  -algebra di Borel nello spazio Euclideo Rd . È noto che Bd è strettamente contenuta nella  -algebra L dei misurabili secondo Lebesgue16 . Nel caso d D 1, scriviamo semplicemente B invece di B1 . Osservazione 2.4.6 [!] Per definizione, B% contiene tutti i sottoinsiemi di M che si ottengono a partire dagli aperti mediante le operazioni di passaggio al complementare e unione numerabile: per esempio, i singoletti sono Boreliani17 , ossia fxg 2 B% per ogni x 2 M. Tuttavia, con le sole operazioni di passaggio al complementare e unione numerabile non si ottengono tutti gli elementi di B% . Addirittura in [9] si mostra che anche con una successione numerabile di operazioni di passaggio al complementare e unione numerabile non si ottiene B% . Più precisamente, data una famiglia H di sottoinsiemi di uno spazio ˝, indichiamo con H la famiglia che contiene gli elementi di H , i complementari degli elementi di H e le unioni numerabili di elementi di H . Inoltre definiamo H0 D H e, per ricorrenza, la successione crescente di famiglie

Hn D Hn1 ;

n 2 N:

16 .Rd ; L (cfr. Osservazione 2.4.3) rispetto alla la misura di Lebesgue  ; Lebd / è il completamento  Lebd di Rd ; Bd ; Lebd . 17 Infatti \ fxg D D.x; 1=n/ n1

dove i dischi D.x; 1=n/ WD fy 2 M j %.x; y/ < 1=ng 2 B% essendo aperti per definizione.

66

2 Misure e spazi di probabilità

Per induzione si vede che Hn   .H / per ogni n 2 N; tuttavia (cfr. [9] p. 30) nel caso in cui ˝ D R e H è come nell’Esercizio 2.4.7-ii), si ha che 1 [

Hn

nD0

è strettamente incluso in B D  .H /. Esercizio 2.4.7 Sia d D 1. Provare che B D  .H / dove H è una qualsiasi delle seguenti famiglie di sotto-insiemi di R: i) H D fa; b j a; b 2 R; a < bg; ii) H D fa; b j a; b 2 Q; a < bg (si noti che H è numerabile e pertanto si dice che la  -algebra B è numerabilmente generata); iii) H D f1; a j a 2 Rg. Un risultato analogo vale in dimensione maggiore di uno, considerando i pluri-intervalli.

2.4.3

Distribuzioni

Sia B% la  -algebra di Borel su uno spazio metrico .M; %/. Chiaramente, il caso Euclideo M D Rd è di particolare interesse e dovrà sempre essere tenuto come punto di riferimento. Definizione 2.4.8 (Distribuzione) Una distribuzione è una misura di probabilità su .M; B% /. Per fissare le idee, è bene dare la seguente interpretazione “fisica” del concetto di distribuzione . Pensiamo allo spazio campionario Rd come all’insieme delle possibili posizioni nello spazio di una particella che non è osservabile con precisione: allora H 2 Bd si interpreta come l’evento secondo cui “la particella è nel Boreliano H ” e .H / è la probabilità che la particella sia in H . Attenzione! Il concetto di distribuzione sarà compreso pienamente solo quando avremo introdotto le variabili aleatorie: ora non abbiamo ancora le nozioni sufficienti per apprezzare fino in fondo le distribuzioni. Pertanto ci limitiamo ad accennare alcuni esempi che riprenderemo con più calma in seguito. Cominciamo col provare alcune proprietà generali delle distribuzioni. Proposizione 2.4.9 (Regolarità interna ed esterna) Sia  una distribuzione su .M; B% /. Per ogni H 2 B% si ha .H / D supf.C / j C  H; C chiusog D inff.A/ j A  H; A apertog:

2.4 Distribuzioni

67

La dimostrazione della Proposizione 2.4.9 è rimandata alla Sezione 2.5.2. Una conseguenza immediata è il seguente Corollario 2.4.10 Due distribuzioni 1 e 2 su .M; B% / sono uguali se e solo se 1 .H / D 2 .H / per ogni aperto H (oppure per ogni chiuso H ). Osservazione 2.4.11 Se  è una distribuzione su .M; B% / allora A WD fx 2 M j .fxg/ > 0g è finito o al più numerabile. Infatti, poniamo An D fx 2 M j .fxg/ > 1=ng;

n 2 N:

Allora, per ogni x1 ; : : : ; xk 2 An si ha 1 D .M/  .fx1 ; : : : ; xk g/ 

k n

eSdi conseguenza An ha al più n elementi. Allora la tesi segue dal fatto che A D An dove l’unione è finita o numerabile. n1

Il caso “estremo” in cui  concentra tutta la misura in un solo punto è illustrato nell’esempio seguente. Esempio 2.4.12 Fissato x0 2 Rd , la distribuzione delta di Dirac ıx0 centrata in x0 , è definita da ( ıx0 .H / D

1 se x0 2 H; 0 se x0 … H;

H 2 Bd :

Si noti in particolare che ıx0 .fx0 g/ D 1 e si pensi all’interpretazione “fisica” di questo fatto. Prima di considerare altri esempi notevoli di distribuzioni, osserviamo che combinando opportunamente delle distribuzioni si ottiene ancora una distribuzione. Proposizione 2.4.13 Sia .n /n2N una successione di distribuzioni su .M; B% / e .pn /n2N una successione di numeri reali tali che 1 X nD1

pn D 1

e

pn  0; n 2 N:

(2.4.1)

68

2 Misure e spazi di probabilità

Allora  definita da .H / WD

1 X

H 2 B% ;

pn n .H /;

nD1

è una distribuzione. Dimostrazione È facile verificare che .;/ D 0 e .M/ D 1. Rimane da provare la  -additività: si ha ! ! 1 ] X ] Hk D pn n Hk D (per la  -additività delle n )  nD1

k2N

D

1 X nD1

D

k2N

pn

1 X

(riordinando i termini poiché si tratta di una serie a termini non-negativi)

n .Hk / D

kD1

1 1 X X

pn n .Hk / D

kD1 nD1

1 X

 .Hk / : 

kD1

Esercizio 2.4.14 Ricordiamo il concetto di completamento di uno spazio, definito nell’Osservazione 2.4.3. Su R consideriamo la distribuzione delta di Dirac ıx centrata in x 2 R, la  -algebra banale f;; Rg e la  -algebra di Borel B . Provare che lo spazio .R; f;; Rg; ıx / è completo mentre lo spazio .R; B ; ıx / non è completo. Il completamento di .R; B ; ıx / è lo spazio .R; P .R/; ıx /.

2.4.4

Distribuzioni discrete

D’ora in poi ci concentriamo sul caso M D Rd . Definizione 2.4.15 Una distribuzione discreta è una distribuzione della forma .H / WD

1 X

H 2 Bd ;

pn ıxn .H /;

(2.4.2)

nD1

dove .xn / è una successione di punti distinti di Rd e .pn / soddisfa le proprietà in (2.4.1). Osservazione 2.4.16 Ad una distribuzione discreta della forma (2.4.2) è naturale associare la funzione N W Rd ! Œ0; 1; definita da .x/ N D .fxg/;

x 2 Rd ;

2.4 Distribuzioni

69

o più esplicitamente .x/ N D Poiché .H / D

( pn

se x D xn ;

0

altrimenti:

X

.x/; N

H 2 Bd ;

(2.4.3)

x2H \fxn jn2Ng

la distribuzione  è univocamente associata alla funzione N che viene a volte chiamata funzione di distribuzione di . Come vedremo nei prossimi esempi, in generale è molto più semplice assegnare la funzione di distribuzione N che non la distribuzione stessa : infatti  è una misura (ossia una funzione d’insieme) a differenza di N che è una funzione su Rd . Consideriamo alcuni esempi notevoli di distribuzioni discrete. Esempio 2.4.17 i) (Bernoulli) Sia p 2 Œ0; 1. La distribuzione di Bernoulli di parametro p si indica con Bep ed è definita come combinazione lineare di due delta di Dirac: Bep D pı1 C .1  p/ı0 : Esplicitamente si ha 8 ˆ 0 ˆ ˆ ˆ 0, centrata in x 2 R, è definita da Poissonx; WD e 

1 X k kD0



ıxCk :

Nel caso x D 0, si parla semplicemente di distribuzione di Poisson di parametro  > 0 e la si indica con Poisson : in questo caso la funzione di distribuzione è ( .k/ N D Poisson .fkg/ D

e k kŠ

per k 2 N0 ;

0

altrimenti:

2.4 Distribuzioni

2.4.5

71

Distribuzioni assolutamente continue

Consideriamo una funzione Bd -misurabile18 Z  W R ! Œ0; C1Œ d

.x/dx D 1:

tale che

(2.4.4)

Rd

Allora  definita da Z .H / D

H 2 Bd ;

.x/dx;

(2.4.5)

H

è una distribuzione. Infatti è ovvio che .;/ D 0 e .Rd / D 1. Inoltre se .Hn /n2N è una successione di Boreliani disgiunti allora, per le proprietà dell’integrale di Lebesgue19 , si ha 

] n1



Z

Hn D

.x/dx D U

Hn

XZ

.x/dx D

n1H

n

X

.Hn /;

n1

n1

che prova che  è  -additiva. Definizione 2.4.18 (Distribuzione assolutamente continua) Una funzione Bd -misurabile  che soddisfi le proprietà in (2.4.4) è detta funzione di densità (o, semplicemente, densità). Diciamo che  è una distribuzione assolutamente continua su Rd , e scriviamo  2 AC, se esiste una densità  per cui valga la (2.4.5). Nel seguito utilizzeremo anche l’abbreviazione20 PDF per le funzioni di densità. Si noti l’analogia fra le proprietà (2.4.4) di una densità  e le proprietà (2.4.1). Osservazione 2.4.19 [!] La PDF di una  2 AC non è univocamente determinata: lo è a meno di insiemi di Borel che hanno misura di Lebesgue nulla; infatti il valore dell’integrale in (2.4.5) non cambia modificando  su un insieme di misura nulla secondo Lebesgue. Inoltre se 1 ; 2 sono PDF di  2 AC allora 1 D 2 q.o. (rispetto alla misura di Lebesgue). Infatti poniamo An D fx j 1 .x/  2 .x/  1=ng 2 Bd ;

n 2 N:

Ossia tale che  1 .H / 2 Bd per ogni H 2 B . In particolare, qui usiamo il Teorema di Beppo-Levi. 20 PDF sta per “Probability Density Function” ed è anche il comando usato in Mathematica per le funzioni di densità. 18 19

72

2 Misure e spazi di probabilità

Allora Leb.An /  n

Z

Z .1 .x/  2 .x// dx D An

Z 1 .x/dx 

An

2 .x/dx An

D .An /  .An / D 0; da cui Leb.An / D 0 per ogni n 2 N. Ne segue che anche fx j 1 .x/ > 2 .x/g D

1 [

An

nD1

ha misura di Lebesgue nulla, ossia 1  2 q.o. Analogamente si prova che 1  2 q.o. Osservazione 2.4.20 [!] Salvo diversamente specificato, quando considereremo un integrale di Lebesgue, assumeremo sempre che la funzione integranda sia B -misurabile (e quindi, in particolare, misurabile secondo Lebesgue). Dunque nel seguito, a meno che non sia esplicitamente indicato, “misurabile” significa “B -misurabile” e anche nella definizione di spazio Lp (spazio delle funzioni sommabili di ordine p) è assunta implicitamente la B -misurabilità. Ciò risulta conveniente per molti motivi: per esempio, la composizione di funzioni B -misurabili è ancora B -misurabile (fatto non necessariamente vero per funzioni misurabili secondo Lebesgue). Osservazione 2.4.21 [!] Se  su Rd è assolutamente continua allora  assegna probabilità nulla ai Boreliani trascurabili secondo Lebesgue: precisamente si ha Z Lebd .H / D 0 H) .H / D .x/dx D 0: (2.4.6) H

In particolare, se H è finito o numerabile allora .H / D 0. In un certo senso le distribuzioni in AC sono “complementari” alle distribuzioni discrete (ma attenzione all’Osservazione 2.4.23 seguente!): infatti queste ultime assegnano probabilità positiva proprio ai singoli punti o a infinità numerabili di punti di Rd . La (2.4.6) è una condizione necessaria21 affinché  2 AC e fornisce un test pratico molto utile per verificare che  non ammette densità: se esiste H 2 Bd tale che Lebd .H / D 0 e .H / > 0 allora  … AC. Ogni funzione di densità identifica una distribuzione: in pratica, assegnare una funzione di densità è il modo più semplice e usato comunemente per definire una distribuzione assolutamente continua, come mostrano i seguenti esempi notevoli. 21

In realtà, per il Teorema A.11 di Radon-Nikodym, la (2.4.6) è condizione necessaria e sufficiente per l’assoluta continuità.

2.4 Distribuzioni

73

Esempio 2.4.22 i) (Uniforme) La distribuzione uniforme UnifK su K, dove K 2 Bd ha misura di Lebesgue 0 < Lebd .K/ < 1, è la distribuzione con densità D

1 ½K : Lebd .K/

Allora Z UnifK .H / D H \K

1 Lebd .H \ K/ dx D ; Lebd .K/ Lebd .K/

H 2 Bd :

Cosa succede se Lebd .K/ D 1? È possibile definire una probabilità uniforme su Rd ? ii) (Esponenziale) La distribuzione esponenziale Exp di parametro  > 0 è la distribuzione con densità ( e x se x  0; .x/ D 0 se x < 0: Allora

Z

e x dx;

Exp .H / D 

H 2 B:

H \Œ0;C1Œ

Si noti che Exp .R/ D Exp .R0 / D 1 per ogni  > 0. iii) (Normale reale) La distribuzione normale reale N; 2 di parametri  2 R e  > 0 è la distribuzione su B con densità .x/ D p

1

1

2 2

Allora 1

N; 2 .H / D p 2 2

e 2 .

Z

x 2 

/;

1

e 2 .

x 2 

/ dx;

x 2 R:

H 2 B:

H

La N0;1 , corrispondente a  D 0 e  D 1, è detta distribuzione normale standard. Osservazione 2.4.23 [!] Non tutte le distribuzioni sono del tipo analizzato finora (ossia discrete o assolutamente continue). Per esempio in R2 si consideri il “segmento” I D f.x; 0/ j 0  x  1g

74

2 Misure e spazi di probabilità

e la distribuzione .H / D Leb1 .H \ I /;

H 2 B2 ;

dove Leb1 indica la misura di Lebesgue 1-dimensionale (o più precisamente la misura di Hausdorff22 1-dimensionale in R2 ). Chiaramente  … AC poiché .I / D 1 e I ha misura di Lebesgue nulla in R2 ; d’altra parte  non è una distribuzione discreta perché .f.x; y/g/ D 0 per ogni .x; y/ 2 R2 . L’idea è che una distribuzione può concentrare la probabilità su sottoinsiemi di Rd di dimensione (nel senso di Hausdorff23 ) minore di d : per esempio, una superficie sferica (che ha dimensione di Hausdorff uguale a 2) in R3 . Le cose possono complicarsi ulteriormente poiché la dimensione di Hausdorff può essere frazionaria (al riguardo si veda l’Esempio 2.4.36).

2.4.6

Funzioni di ripartizione (CDF)

Il concetto di densità visto nella sezione precedente permette di identificare una distribuzione (che, ricordiamolo, è una misura di probabilità) mediante una funzione su Rd (che, matematicamente, è più maneggevole rispetto ad una misura): ovviamente ciò è possibile se la distribuzione è assolutamente continua. Un risultato analogo vale per le distribuzioni discrete (cfr. Osservazione 2.1.13). In questa sezione presentiamo un approccio molto più generale e introduciamo il concetto di funzione di ripartizione che ci permetterà di identificare una generica distribuzione tramite una funzione. Per ora ci limitiamo a considerare il caso uno-dimensionale: nella Sezione 2.4.9 tratteremo il caso multi-dimensionale. Definizione 2.4.24 La funzione di ripartizione di una distribuzione  su .R; B / è definita da F .x/ WD .1; x/;

x 2 R:

Utilizziamo anche l’abbreviazione24 CDF per le funzioni di ripartizione. Esempio 2.4.25 i) La CDF della delta di Dirac ıx0 è F .x/ D 22

( 0 se x < x0 ; 1 se x  x0 :

Si veda, per esempio, il Capitolo 2 in [31]. Cf. Capitolo 2.5 in [31]. 24 CDF sta per “Cumulative Distribution Function” ed è anche il comando usato in Mathematica per le funzioni di ripartizione. 23

2.4 Distribuzioni

75

Figura 2.1 Grafico della CDF di una v.a. con distibuzione Unif5

ii) La CDF della distribuzione discreta Unifn WD

F .x/ D

8 ˆ ˆ 0 è finito o al più numerabile. Esercizio 2.4.28 Provare che la CDF della distribuzione normale N; 2 è strettamente monotona crescente.

2.4.7

Teorema di estensione di Carathéodory

Ricordiamo il concetto di misura (Definizione 2.1.20) su un’algebra (Definizione 2.1.18). Uno dei risultati su cui si fonda tutta la teoria della probabilità è il seguente Teorema 2.4.29 (Teorema di Carathéodory) [!!!] Sia  una misura  -finita su un’algebra A . Esiste ed è unica la misura  -finita che estende  alla  -algebra generata da A . Dimostrazione La dimostrazione è lunga e articolata; nella Sezione 2.5.3 dimostriamo una versione più generale del Teorema 2.4.29, che sarà più facile da applicare in seguito.  Il Teorema di Carathéodory è un risultato di esistenza dell’estensione di  da A alla  -algebra  .A / e di unicità dell’estensione. È notevole il fatto che non sia richiesta alcuna ipotesi su ˝ che è un qualunque insieme non vuoto: infatti la dimostrazione è basata su argomenti puramente insiemistici.

2.4.8

Dalle CDF alle distribuzioni

La costruzione di un modello probabilistico su R (che rappresenti un fenomeno aleatorio, sia esso la posizione di una particella in un modello della fisica oppure il prezzo di un titolo rischioso in un modello della finanza oppure la temperatura in un modello meteorologico) consiste nell’assegnare una particolare distribuzione. Dal punto di vista pratico e intuitivo, il primo passo è stabilire come la distribuzione assegna la probabilità agli intervalli che sono gli eventi più semplici a cui pensare: avevamo fatto così nell’Esempio 2.1.28, quando avevamo definito la distribuzione

80

2 Misure e spazi di probabilità

uniforme. In realtà sappiamo (dal Corollario 2.4.10) che una distribuzione reale è identificata da come agisce sugli intervalli o equivalentemente, poiché .a; b/ D F .b/  F .a/; dalla funzione di ripartizione. Allora sembra naturale domandarsi se, data una funzione F che soddisfi le proprietà che una CDF deve avere, esista una distribuzione  che abbia F come CDF. La risposta è affermativa ed è contenuta nel seguente Teorema 2.4.33 che dimostriamo come corollario del Teorema 2.4.29 di Carathéodory. Facciamo prima qualche richiamo preliminare. Definizione 2.4.30 (Funzione assolutamente continua (AC)) Una funzione F è assolutamente continua25 su Œa; b (in simboli, F 2 ACŒa; b) se si scrive nella forma Zx F .x/ D F .a/ C .t/dt; x 2 Œa; b; (2.4.10) a

con  2 L .Œa; b/. 1

Il seguente risultato, la cui dimostrazione è data in appendice (cfr. Proposizione A.19), afferma che le funzioni assolutamente continue sono derivabili quasi ovunque. Proposizione 2.4.31 Sia F 2 ACŒa; b come in (2.4.10). Allora F è derivabile q.o. e vale F 0 D  q.o.: di conseguenza si ha Zx F .x/ D F .a/ C

F 0 .t/dt;

x 2 Œa; b:

(2.4.11)

a

In altri termini, le funzioni assolutamente continue costituiscono la classe di funzioni per cui vale il teorema fondamentale del calcolo integrale ossia, in parole povere, le fuzioni che sono uguali all’integrale della propria derivata. È bene osservare che anche se F è derivabile q.o. con F 0 2 L1 .Œa; b/, non è detto che valga la formula (2.4.11). Un semplice contro-esempio è dato dalla funzione F D ½Œ1=2;1 : si ha F 0 D 0 q.o. su Œ0; 1 ma Z1 1 D F .1/  F .0/ ¤

F 0 .x/dx D 0:

0

Vedremo nell’Esempio 2.4.36, che F può anche essere continua, derivabile q.o. con F 0 2 L1 .Œa; b/ e questo ancora non assicura la validità della formula (2.4.11). 25

La vera definizione di funzione assolutamente continua è data nell’Appendice A.2.4: in realtà, la Definizione 2.4.30 è una caratterizzazione equivalente dell’assoluta continuità.

2.4 Distribuzioni

81

Esercizio 2.4.32 Si verifichi che la funzione 8 ˆ x  0; ˆ 0, per ogni n 2 N esiste Rn 2 U .Bn / tale che X A2Rn

.A/   .Bn / C

" : 2n

2.5 Appendice

Ora R WD

S

95

Rn 2 U .B/ e quindi

n2N

X

 .B/ 

.A/ 

A2R

X X

.A/ 

n2N A2Rn

X

 .Bn / C "

n2N

da cui la tesi per l’arbitrarietà di ". Infine proviamo che  coincide con  su A . Per ogni A 2 A si ha  .A/  .A/ per definizione. Viceversa, poiché  è  -sub-additiva su A , per ogni R 2 U .A/ si ha .A/ 

X

.B/

B2R

da cui segue che .A/   .A/.  Passo 2 Indichiamo con M . / la famiglia degli A  ˝ tali che  .E/ D  .E \ A/ C  .E \ Ac /;

8E  ˝:

Gli elementi di M . / sono detti  -misurabili. Proveremo che M . / è una  -algebra e  è una misura su M . /. Cominciamo col seguente risultato parziale. Lemma 2.5.8 M . / è un’algebra. Dimostrazione Chiaramente ; 2 M . / e M . / è chiusa rispetto al passaggio al complementare. Proviamo che l’unione di A; B 2 M . / appartiene a M . /: per ogni E  ˝ si ha  .E/ D  .E \ A/ C  .E \ Ac / D  .E \ A \ B/ C  .E \ A \ B c / C  .E \ Ac \ B/ „ ƒ‚ …  .E\A[B/

C  .E \ A \ B / „ ƒ‚ … c

c

D .E\.A[B/c /

poiché .E \ A [ B/  .E \ A \ B/ [ .E \ A \ B c / [ .E \ Ac \ B/: Questo prova che  .E/   .E \ .A [ B// C  .E \ .A [ B/c /: D’altra parte  è sub-additiva e quindi A [ B 2 M . /. 

96

2 Misure e spazi di probabilità

Lemma 2.5.9  è una misura su M . /. Dimostrazione È sufficiente provare che  è  -additiva su M . /. Per ogni A; B 2 M . / con A \ B D ;, si ha  .A ] B/ D  ..A ] B/ \ A/ C  ..A ] B/ \ Ac / D  .A/ C  .B/: Dunque  è additiva su M . /. Inoltre, sappiamo già dal Punto 1 che  è  -sub-additiva e dunque la tesi segue dalla Proposizione 2.1.30.  Lemma 2.5.10 M . / è una  -algebra. Dimostrazione Sappiamo già che M . / è \-chiusa. Se verifichiamo che M . / è una famiglia monotona (cfr. Definizione A.1) la tesi seguirà dal Lemma A.2. A tal fine è sufficiente provare che se .An /n2N è una successione in M . / e An % A allora A 2 M . /. Grazie alla sub-additività di  , basta provare che  .E/   .E \ A/ C  .E \ Ac /;

E  ˝:

(2.5.6)

Poniamo A0 D ; e osserviamo che  .E \ An / D  ..E \ An / \ An1 / C  ..E \ An / \ Acn1 / D  .E \ An1 / C  .E \ .An n An1 //: Di conseguenza si ha  .E \ An / D

n X

 .E \ .Ak n Ak1 //

(2.5.7)

kD1

e, per la monotonia di  ,  .E/ D  .E \ An / C  .E \ Acn /   .E \ An / C  .E \ Ac / D (per la (2.5.7)) n X  .E \ .Ak n Ak1 // C  .E \ Ac /: D kD1

Mandando n all’infinito e usando la  -sub-additività di  , si ha  .E/ 

1 X

 .E \ .Ak n Ak1 // C  .E \ Ac /   .E \ A/ C  .E \ Ac /;

kD1

che prova la (2.5.6) e conclude la prova. 

2.5 Appendice

97

Passo 3 Come ultimo passo proviamo che  .A /  M . /: Poiché M . / è una  -algebra, è sufficiente provare che A  M . /: inoltre, essendo  sub-additiva, basta provare che per ogni A 2 A e E  ˝, con  .E/ < 1, vale  .E/   .E \ A/ C  .E \ Ac /:

(2.5.8)

Fissato " > 0, esiste un ricoprimento .An /n2N di E formato da elementi di A e tale che X .An /   .E/ C ": (2.5.9) n2N

Poiché A è un semianello, si ha An \ A 2 A e quindi, per il Lemma 2.5.7,  .An \ A/ D .An \ A/:

(2.5.10)

D’altra parte, ancora per il fatto che A è un semianello, per ogni n 2 N esistono .n/ .n/ B1 ; : : : ; Bkn 2 A tali che kn ]

An \ A D An n A D c

.n/

Bj :

j D1

Allora

0

 .An \ Ac / D  @

kn ]

1 .n/ Bj A  (essendo  sub-additiva)

j D1



kn X

 .Bj / D .n/

(poiché  D  su A per il Lemma 2.5.7)

j D1

D

kn X

.n/

.Bj / D

(essendo  additiva)

j D1

D .An \ Ac /:

(2.5.11)

Ora proviamo la (2.5.8): per la  -sub-additività di  si ha  .E \ A/ C  .E \ Ac / X . .An \ A/ C  .An \ Ac //   n2N



X

n2N

..An \ A/ C .An \ Ac // D

X

(per la (2.5.10) e la (2.5.11)) .An / 

(per la (2.5.9))

n2N

  .E/ C ": La tesi segue dall’arbitrarietà di ". Questo conclude la prova del Teorema 2.5.5.

98

2 Misure e spazi di probabilità

Proviamo ora che la  -algebra M . /, costruita nel Passo 2 della dimostrazione del Teorema di Carathéodory, contiene gli insiemi trascurabili. Notiamo che in generale M . / è strettamente più grande di  .A /: è questo il caso della misura di Lebesgue se A è la famiglia degli intervalli limitati del tipo a; b;

a; b 2 R; a  b:

In questo caso,  .A / è la  -algebra di Borel e M . / è la  -algebra dei misurabili secondo Lebesgue. D’altra parte, vediamo anche che gli elementi di M . / differiscono da quelli di  .A / solo per insiemi  -trascurabili.  Corollario 2.5.11 [!] Sotto le ipotesi del Teorema di Carathéodory, nello spazio con misura .˝; M . /;  / si ha: i) se  .M / D 0 allora M 2 M . / e quindi .˝; M . /;  / è uno spazio con misura completo; ii) per ogni M 2 M . /, tale che  .M / < 1, esiste A 2  .A / tale che M  A e  .A n M / D 0. Dimostrazione Per la sub-additività e la monotonia di  , se  .M / D 0 e E  ˝ si ha  .E/   .E \ M / C  .E \ M c / D  .E \ M c /   .E/; e questo prova la i). È chiaro che, per definizione di  , per ogni n 2 N esiste An 2  .A / tale che M  An e  .An /   .M / C Posto A D

T

1 : n

(2.5.12)

An 2  .A /, si ha M  A e, passando al limite in (2.5.12) e grazie

n2N

alla continuità dall’alto di  su M . /, abbiamo  .A/ D  .M /. Allora, poiché M 2 M . /, si ha  .A/ D  .A \ M / C  .A \ M c / D  .M / C  .A n M / da cui  .A n M / D 0.  Concludiamo la sezione con la Dimostrazione del Lemma 2.5.4 Se  è una misura sul semianello A allora le proprietà i) e ii) di pre-misura sono ovvie. Proviamo che  è monotona: se A; B 2 A con A  B allora, per la proprietà iii) di semianello, esistono C1 ; : : : ; Cn 2 A tali che B nAD

n ] kD1

Ck :

2.5 Appendice

99

Quindi si ha .B/ D .A ] .B n A// D D .A ] C1 ]    ] Cn / D (per l’additività finita di ) n X .Ck /  .A/; D .A/ C kD1

da cui la monotonia di . La dimostrazione della proprietà iii), ossia la  -sub-additività di , è una versione un po’ più complicata della dimostrazione della Proposizione 2.1.21-ii): tutta la complicazione è dovuta al fatto che  è definita su un semianello (invece che su un’algebra come nella Proposizione 2.1.21) e questo limita le operazioni insiemistiche che possiamo utilizzare. Siano A 2 A e .An /n2N successione in A tali che [ A An : n2N

Poniamo AQ1 D A1 e AQn D An n

n1 [

Ak D

kD1

n1 \

.An n .An \ Ak // ;

n  2:

(2.5.13)

kD1 .n/

.n/

Allora, per le proprietà ii) e iii) di semianello, esistono Jn 2 N e C1 ; : : : ; CJn 2 A tali che AQn D

Jn ]

.n/

Cj :

j D1

Ora, AQn  An e quindi, per monotonia e additività, si ha .An /  .AQn / D

Jn X

.n/

.Cj /:

(2.5.14)

j D1

Inoltre, per la (2.5.13), A

[ n2N

An D

] n2N

AQn D

Jn ]] n2N j D1

.n/

Cj

100

2 Misure e spazi di probabilità

e quindi 0

1 .n/ (poiché A \ Cj 2 A e, per ipotesi, Jn   ]] .n/ .A/ D  @ A \ Cj A D  è una misura e quindi, j D1 n2N in particolare,  -additiva) J n   XX .n/  (per monotonia)  A \ Cj D n2N j D1



Jn XX

  .n/ D  Cj

(per la (2.5.14))

n2N j D1



X

.An /

n2N

e questo conclude la prova. 

2.5.4

Dimostrazione del Teorema 2.4.33

Teorema 2.4.33 [!!] Sia F W R ! R una funzione monotona (debolmente) crescente e continua a destra (ossia F gode delle proprietà i) e ii) della Teorema 2.4.26). Allora: i) esiste ed è unica una misura F su .R; B / che sia  -finita e soddisfi F .a; b/ D F .b/  F .a/;

a; b 2 R; a < bI

ii) se F verifica anche lim F .x/ D 0

x!1

e

lim F .x/ D 1;

x!C1

(ossia F gode della proprietà iii) della Teorema 2.4.26) allora F è una distribuzione; iii) infine, F è assolutamente continua se e solo se F 2 AC: in tal caso, F 0 è densità di F . Dimostrazione [Parte i)] Consideriamo il semianello A dell’Esempio 2.5.3, formato dagli intervalli limitati del tipo a; b;

a; b 2 R; a  b;

e su A definiamo F ponendo F .a; b/ D F .b/  F .a/:

2.5 Appendice

101

La tesi segue dal Teorema 2.5.5 di Carathéodory una volta provato che F è una pre-misura  -finita (cfr. Definizione 2.5.1). Per definizione, F .;/ D 0 e chiaramente F è  -finita. Inoltre F è additiva poiché, se a; b; c; d  sono intervalli disgiunti tali che la loro unione è un intervallo allora necessariamente28 b D c, cosicché F .a; b ] b; d / D F .a; d / D F .d /  F .a/ D .F .b/  F .a// C .F .d /  F .b// D F .a; b/ C F .b; d / : Infine proviamo che F è  -sub-additiva. Basta considerare S a; b 2 A e una successione .An /n2N in A , del tipo An D an ; bn , tale che An D a; b e provare n2N

che F .A/ 

1 X

F .An /:

nD1

Fissiamo " > 0: per la continuità a destra di F , esistono ı > 0 e una successione di numeri positivi .ın /n2N tali che F .a C ı/  F .a/ C ";

F .bn C ın /  F .bn / C

" : 2n

(2.5.15)

La famiglia .an ; bn C ın Œ/n2N è un ricoprimento29 aperto del compatto Œa C ı; b e quindi ammette un sotto-ricoprimento finito: per fissare le idee, indichiamo con .nk /kD1;:::;N gli indici di tale sotto-ricoprimento. Allora, per la prima disuguaglianza in (2.5.15), si ha F .b/  F .a/  " C F .b/  F .a C ı/  " C F .a C ı; b/  "C "C

N X kD1 1 X

 F ank ; bnk

(poiché F è finitamente additiva e quindi anche finitamente sub-additiva)  C ın k 

.F .bn C ın /  F .an // 

nD1 1 1 X X " C .F .bn /  F .an // "C 2n nD1 nD1

D 2" C

1 X

.F .bn /  F .an // ;

nD1

e la tesi segue dall’arbitrarietà di " > 0. 28 29

Non è restrittivo assumere a  d . Poiché, per ogni n 2 N, an ; bn C ın Œ contiene an ; bn .

(per la seconda disuguaglianza in (2.5.15))

102

2 Misure e spazi di probabilità

[Parte ii)] Poiché F .R/ D lim F .x/  lim F .x/ D 1; x!C1

x!1

dove la prima uguaglianza è per costruzione e la seconda per ipotesi, allora F è una misura di probabilità su R, ossia una distribuzione. [Parte iii)] Se F è assolutamente continua, per la Proposizione 2.4.31, per ogni a < b si ha Zb F .a; b/ D F .b/  F .a/ D

F 0 .x/dx:

a

Notiamo che F 0  0 q.o. perché limite del rapporto incrementale di una funzione monotona crescente: passando al limite per a ! 1 e b ! C1, per il Teorema di Beppo-Levi, si ha Z 1 D F .R/ D

F 0 .x/dx

R

e quindi F 0 è una densità. Consideriamo la distribuzione definita da Z .H / WD

F 0 .x/dx;

H 2 B:

H

Allora F coincide con  sul semianello A degli intervalli limitati del tipo a; b. Poiché A genera B , per il risultato di unicità del Teorema di Carathéodory, si ha F D  su B e quindi F 2 AC con densità F 0 . Viceversa, se F 2 AC con densità  allora Zx F .x/  F .a/ D

.t/dt;

a < x;

a

e quindi F è assolutamente continua e, per la Proposizione 2.4.31, F 0 D  q.o. 

Capitolo 3

Variabili aleatorie

The theory of probability as a mathematical discipline can and should be developed from axioms in exactly the same way as geometry and algebra. Andrej N. Kolmogorov

Le variabili aleatorie descrivono quantità che dipendono da un fenomeno o esperimento aleatorio: per esempio, se l’esperimento è il lancio di due dadi, la quantità (variabile aleatoria) che interessa studiare potrebbe essere il risultato della somma dei due lanci. Il fenomeno aleatorio è modellizzato con uno spazio di probabilità .˝; F ; P / (nell’esempio, lo spazio discreto ˝ D I6  I6 con la probabilità uniforme) e la quantità che interessa è descritta dalla variabile aleatoria X che ad ogni esito ! 2 ˝ (ossia ad ogni possibile esito del fenomeno aleatorio) associa il valore X.!/: nell’esempio, ! D .!1 ; !2 / 2 I6  I6 e X.!/ D !1 C !2 .

3.1

Variabili aleatorie

Consideriamo uno spazio di probabilità .˝; F ; P / e fissiamo d 2 N. Dati H  Rd e una funzione X W ˝ ! Rd ; indichiamo con .X 2 H / WD f! 2 ˝ j X.!/ 2 H g D X 1 .H / la contro-immagine di H mediante X. Intuitivamente .X 2 H / rappresenta l’insieme degli esiti ! (ossia, gli stati del fenomeno aleatorio) tali che X.!/ 2 H . Riprendendo l’esempio del lancio dei dadi, se H D f7g allora .X 2 H / rappresenta l’evento “il risultato della somma del lancio di due dadi è 7” ed è costituito da tutte le coppie .!1 ; !2 / tali che !1 C !2 D 7. Nel caso d D 1, useremo anche le Materiale Supplementare Online È disponibile online un supplemento a questo capitolo (https://doi.org/10.1007/978-88-470-4000-7_3), contenente dati, altri approfondimenti ed esercizi. © Springer-Verlag Italia S.r.l., part of Springer Nature 2020 A. Pascucci, Teoria della Probabilità, UNITEXT 123, https://doi.org/10.1007/978-88-470-4000-7_3

103

104

3 Variabili aleatorie

seguenti notazioni: .X > c/ WD f! 2 ˝ j X.!/ > cg; .X D c/ WD f! 2 ˝ j X.!/ D cg;

c 2 R:

Inoltre, se X; Y sono due funzioni da .˝; F ; P / a valori in Rd , scriviamo .X D Y / WD f! 2 ˝ j X.!/ D Y.!/g: Si noti che non è detto che .X 2 H / sia un evento, ossia non è detto che .X 2 H / 2 F (a parte il caso banale degli spazi di probabilità discreti, in cui assumiamo che F D P .˝/ e quindi tutti i sottoinsiemi di ˝ sono eventi). In particolare, senza ipotesi ulteriori non ha senso scrivere P .X 2 H /. D’altra parte nelle applicazioni si è interessati a calcolare la probabilità di .X 2 H /: ciò giustifica la seguente definizione di variabile aleatoria. Definizione 3.1.1 Una variabile aleatoria (abbreviato in v.a.) su .˝; F ; P / a valori in Rd è una funzione X W ˝ ! Rd tale che .X 2 H / 2 F per ogni H 2 Bd : scriviamo X 2 mF e diciamo anche che X è F -misurabile. Indichiamo con mF C la classe delle funzioni F -misurabili e non-negative; inoltre b F è la classe delle funzioni F -misurabili e limitate. Nel caso particolare in cui .˝; F / D .Rn ; Bn /, X è semplicemente una funzione Borel-misurabile. Osservazione 3.1.2 In questo capitolo ci limiteremo a considerare v.a. a valori in Rd . Tuttavia è bene conoscere anche la seguente definizione generale: dato uno spazio misurabile .E; E /, una variabile aleatoria su .˝; F ; P / a valori in E è una funzione X W ˝ ! E F -misurabile nel senso che X 1 .E /  F ossia .X 2 H / 2 F per ogni H 2 E .

Come abbiamo spiegato sopra, nel caso di spazi discreti la condizione di misurabilità è automaticamente soddisfatta e ogni funzione X W ˝ ! Rd è una v.a. In generale, la condizione .X 2 H / 2 F fa sì che P .X 2 H / sia ben definito e quindi si possa parlare della probabilità che X assuma valori nel Boreliano H . Osservazione 3.1.3 [!] Se X W ˝ ! Rd

3.1 Variabili aleatorie

105

è una funzione qualsiasi, H  Rd e .Hi /i 2I è una famiglia qualsiasi di sottoinsiemi di Rd , allora si ha ! [ [  1 c 1 c 1 X Hi D X 1 .Hi / : X .H / D X .H / ; i 2I

i 2I

Come conseguenza, si ha che ˚ .X/ WD X 1 .Bd / D X 1 .H / j H 2 Bd è una  -algebra, chiamata  -algebra generata da X. Osserviamo che X 2 mF se e solo se .X/  F : Esempio 3.1.4 Consideriamo X W I6 ! R definita da ( 1 se n è pari; X.n/ D 0 se n è dispari: Possiamo interpretare X come la v.a. che indica se il risultato del lancio di un dado è un numero pari o dispari. Allora si ha .X/ D f;; ˝; f2; 4; 6g; f1; 3; 5gg ossia .X/ contiene proprio gli eventi “significativi” per la v.a. X. Nei modelli probabilistici per le applicazioni, .X/ è chiamata la  -algebra delle informazioni su X e viene utilizzata per rappresentare l’insieme delle informazioni riguardanti il valore aleatorio X. Ciò si spiega, almeno parzialmente, col fatto che .X/ contiene gli eventi del tipo .X 2 H / con H 2 B : questi sono gli eventi “rilevanti” ai fini di studiare la quantità aleatoria X, nel senso che conoscere la probabilità di questi eventi equivale a conoscere con quale probabilità X assuma i propri valori. Lemma 3.1.5 Sia H è una famiglia di sottoinsiemi di Rd tale che  .H / D Bd . Se X 1 .H /  F allora X 2 mF . Dimostrazione Sia E D fH 2 Bd j X 1 .H / 2 F g:

Allora E è una  -algebra e poiché E  H per ipotesi, allora E   .H / D Bd da cui la tesi.  Corollario 3.1.6 Siano Xk W ˝ ! R con k D 1; : : : ; d . Le seguenti proprietà sono equivalenti: i) X WD .X1 ; : : : ; Xd / 2 mF ; ii) Xk 2 mF per ogni k D 1; : : : ; d ; iii) .Xk  x/ 2 F per ogni x 2 R e k D 1; : : : ; d .

106

3 Variabili aleatorie

Dimostrazione È semplice provare che i) implica ii); il viceversa segue dal Lemma 3.1.5, dal fatto che ..X1 ; : : : ; Xd / 2 H1      Hd / D

d \

.Xk 2 Hk /

kD1

e H WD fH1      Hd j Hk 2 B g è una famiglia di sottoinsiemi di Rd tale che  .H / D Bd . Infine, ii) e iii) sono equivalenti ancora per il Lemma 3.1.5, poiché la famiglia degli intervalli del tipo 1; x genera B (cfr. Esercizio 2.4.7-iii)).  Presentiamo ora i primi semplici esempi di v.a., scrivendo anche esplicitamente la  -algebra .X/ generata da X e l’immagine X.˝/ D fX.!/ j ! 2 ˝g che è l’insieme dei valori possibili di X. Esempio 3.1.7 i) Dato c 2 Rd , consideriamo la funzione costante X c. Si ha .X/ D f;; ˝g e quindi X è una v.a. In questo caso X.˝/ D fcg e ovviamente c rappresenta l’unico valore che X può assumere. Dunque si tratta di una variabile “non proprio aleatoria”. ii) Dato un evento A 2 F , la funzione indicatrice di A è definita da ( X.!/ D ½A .!/ D

1 ! 2 A; 0 ! 2 Ac :

X è una v.a. poiché .X/ D f;; A; Ac ; ˝g; e in questo caso X.˝/ D f0; 1g. iii) Sia .Ch /hD1;:::;n una famiglia di n prove ripetute e indipendenti. Consideriamo la v.a. S che conta il numero di successi fra le n prove: in altri termini S.!/ D

n X

½Ch .!/;

! 2 ˝:

hD1

Con riferimento allo spazio canonico della Proposizione 2.3.30 si ha anche S.!/ D

n X hD1

!h ;

! 2 ˝:

3.1 Variabili aleatorie

107

e, ricordando la formula (2.5.1), abbiamo .S D k/ D ˝k con k D 0; 1; : : : ; n. Quindi .X/ contiene ; e tutte le unioni degli eventi ˝0 ; : : : ; ˝n . In questo caso S.˝/ D f0; 1; : : : ; ng. iv) Sia .Ch /hD1;:::;n una famiglia di n prove ripetute e indipendenti. Consideriamo la v.a. T che indica il “primo tempo” di successo fra le n prove: in altri termini T .!/ D minfh j ! 2 Ch g;

! 2 ˝;

e poniamo per convenzione min ; D nC1. In questo caso T .˝/ D f1; : : : ; n; nC 1g. Con riferimento allo spazio canonico della Proposizione 2.3.30, si ha anche T .!/ D minfh j !h D 1g;

! 2 ˝:

.X/ contiene ; e tutte le unioni degli eventi .T D 1/; : : : ; .T D n C 1/. Notiamo che .T D n C 1/ D C1c \    \ Cnc

.T D 1/ D C1 ; e, per 1 < k  n,

c \ Ck : .T D k/ D C1c \    \ Ck1

Proposizione 3.1.8 Valgono le seguenti proprietà delle funzioni misurabili: i) siano X W ˝ ! Rd ;

f W Rd ! Rn ;

con X v.a. e f 2 mBd . Allora si ha  .f ı X/  .X/;

(3.1.1)

e di conseguenza f .X/ 2 mF ; ii) se .Xn /n2N è una successione in mF allora anche inf Xn ;

sup Xn ;

n

n

lim inf Xn ; n!1

lim sup Xn ; n!1

appartengono a mF . Dimostrazione La (3.1.1) segue da f 1 .Bn /  Bd e il fatto che f .X/ 2 mF ne è immediata conseguenza. La ii) segue dal fatto che, per ogni a 2 R, si ha   \   [ inf Xn < a D .Xn < a/; sup Xn < a D .Xn < a/; n

n

n

n

e lim inf Xn D sup inf Xk ; n!1

n kn

lim sup Xn D inf sup Xk :  n!1

n kn

108

3 Variabili aleatorie

Osservazione 3.1.9 Dalla i) della Proposizione 3.1.8 segue in particolare che se X; Y 2 mF e  2 R allora X C Y; XY; X 2 mF . Infatti basta osservare che X C Y; XY e X sono funzioni continue (e quindi B -misurabili) della coppia .X; Y / che è una v.a. per il Corollario 3.1.6. Inoltre, per ogni successione .Xn /n2N di v.a. si ha A WD f! 2 ˝ j esiste lim Xn .!/g n!1

D f! 2 ˝ j lim sup Xn .!/ D lim inf Xn .!/g 2 F : n!1

(3.1.2)

n!1

Definizione 3.1.10 (Convergenza quasi certa) Se A in (3.1.2) è quasi certo, ossia P .A/ D 1, allora si dice che .Xn /n2N converge quasi certamente. Ricordiamo dall’Osservazione 2.4.3 che uno spazio .˝; F ; P / è completo se N  F , ossia gli insiemi trascurabili (e quasi certi) sono eventi. L’ipotesi di completezza è spesso utile come mostrano i seguenti esempi. Osservazione 3.1.11 (Proprietà quasi certe e completezza) Consideriamo una “proprietà” P D P .!/ la cui validità dipende da ! 2 ˝: per fissare le idee, nell’Osservazione 3.1.9 P .!/=“esiste lim Xn .!/”. Diciamo che P è quasi certa n!1 (o vale q.c.) se l’insieme A WD f! 2 ˝ j P .!/ è verag è quasi certo: ciò significa che esiste C 2 F tale che P .C / D 1 e C  A o, equivalentemente, esiste N trascurabile tale che P .!/ è vera per ogni ! 2 ˝ n N . Nel caso di uno spazio completo, P vale q.c. se e solo se P .A/ D 1. Se lo spazio non è completo, non è detto che A 2 F e quindi P .A/ non è definita. Nel caso particolare dell’Osservazione 3.1.9, il fatto che A 2 F è conseguenza della (3.1.2) e del fatto che le Xn sono v.a. Definizione 3.1.12 (Uguaglianza quasi certa) Date due funzioni (non necessariamente variabili aleatorie) X; Y W ˝ ! Rd ; q:c:

diciamo che X D Y quasi certamente, e scriviamo X D Y q.c. (o X D Y ), se l’insieme .X D Y / è quasi certo. Osservazione 3.1.13 Per l’Osservazione 2.1.17, in uno spazio completo q:c:

X DY



P .X D Y / D 1:

Senza l’ipotesi di completezza, non è detto che .X D Y / sia un evento (a meno che, per esempio, X e Y non siano entrambe v.a.). Di conseguenza P .X D Y / non è

3.1 Variabili aleatorie

109

ben definita e, senza l’ipotesi di completezza, non è corretto affermare che X D Y q.c. equivale a P .X D Y / D 1. Notiamo anche che, in uno spazio completo, se X D Y q.c. e Y è una v.a. allora anche X è una v.a.: ciò non è necessariamente vero se lo spazio non è completo.

3.1.1

Variabili aleatorie e distribuzioni

Sia X W ˝ ! Rd una variabile aleatoria sullo spazio di probabilità .˝; F ; P /. Ad X è associata in modo naturale la distribuzione definita da X .H / WD P .X 2 H /;

H 2 Bd :

(3.1.3)

È facile verificare che X in (3.1.3) è una distribuzione, ossia una misura di probabilità su Rd : infatti si ha X .Rd / D P .X 2 Rd / D 1 e inoltre, per ogni successione disgiunta .Hn /n2N in Bd , si ha ! !! 1 1 ] ] 1 X Hn D P X Hn nD1

nD1

DP

1 ]

!

1

.Hn / D

1

1  X .Hn / D X .Hn /:

X

(per la  -additività di P )

nD1

D

1 X



P X

nD1

nD1

Definizione 3.1.14 (Legge, CDF e densità di una v.a.) Data una v.a. X W ˝ ! Rd su .˝; F ; P /, la distribuzione X definita da (3.1.3) è detta distribuzione (o legge) di X. Per indicare che X ha distribuzione X scriveremo X X : La funzione definita da1 FX .x/ WD P .X  x/; 1

Al solito, .X  x/ D

d T kD1

.Xk  xk /.

x 2 Rd ;

110

3 Variabili aleatorie

è detta funzione di ripartizione o CDF di X. Notiamo che FX è la CDF di X . Infine, se X 2 AC con densità X , diremo che X è assolutamente continua e ha densità X : in tal caso vale Z P .X 2 H / D

H 2 Bd :

X .x/dx; H

Per comprendere la definizione precedente, suggeriamo di esaminare nel dettaglio il seguente Esempio 3.1.15 [!] Sullo spazio di probabilità .˝; F ; P / .R; B ; Exp /, dove  > 0 è fissato, consideriamo le v.a. X.!/ D ! ; 2

Y.!/ D

( 1

se !  2;

1

se ! > 2;

Z.!/ D !;

! 2 R:

Per determinare la legge di X, calcoliamo la relativa CDF: per x < 0 si ha P .X  x/ D 0, mentre per x  0 si ha p

Zx p 2 FX .x/ D P .X  x/ D Exp .f! 2 R j !  xg/ D e t dt D 1  e  x : 0

Ne segue che X è assolutamente continua con densità p

dFX .x/ e  x X .x/ D D p ½R0 .x/: dx 2 x La v.a. Y assume solo due valori: 1 e 1. Inoltre Z2 P .Y D 1/ D Exp .1; 2/ D

e t dt D 1  e 2 ;

0 ZC1

e t dt D e 2 :

P .Y D 1/ D Exp .2; C1/ D 2

Ne segue che Y è una v.a. discreta con legge   Y 1  e 2 ı1 C e 2 ı1 : Per esercizio, provare che Z Exp .

3.1 Variabili aleatorie

111

Osservazione 3.1.16 (Esistenza) [!] Assegnata una distribuzione  su Rd , esiste una v.a. X su uno spazio di probabilità .˝; F ; P / tale che  D X . Basta infatti considerare .Rd ; Bd ; / e la variabile aleatoria identità X.!/ !, per ogni ! 2 Rd . D’altra parte, la scelta di .˝; F ; P / e X non è unica: in altri termini, variabili aleatorie differenti, anche definite su spazi di probabilità diversi, possono avere la medesima distribuzione. Per esempio, consideriamo: i) Lancio di un dado: ˝1 D I6 WD f1; 2; 3; 4; 5; 6g con probabilità uniforme e X.!/ D !; ii) Lancio di due dadi: ˝2 D I6  I6 con probabilità uniforme e Y.!1 ; !2 / D !1 . Allora X e Y hanno la stessa legge (che è la distribuzione uniforme discreta UnifI6 ) ma sono variabili aleatorie differenti e definite su spazi di probabilità diversi. Dunque la legge di una v.a non fornisce la conoscenza completa della v.a. stessa. Conoscere la distribuzione di una v.a. X significa conoscere “come è distribuita la probabilità fra i vari valori che X può assumere” e questo, per molte applicazioni, è più che sufficiente; anzi, spesso i modelli probabilistici sono definiti a partire dalla distribuzione (o, equivalentemente, assegnando la CFD oppure la densità, nel caso assolutamente continuo) piuttosto che attraverso la definizione esplicita dello spazio di probabilità e della v.a. considerata. Definizione 3.1.17 (Uguaglianza in legge) Siano X; Y variabili aleatorie (non necessariamente sullo stesso spazio di probabilità). Diciamo che X e Y sono uguali in legge (o distribuzione) se X D Y . In tal caso, scriviamo d

X D Y: Esercizio 3.1.18 Provare le seguenti affermazioni: q:c:

d

i) se X D Y allora X D Y ; d ii) esistono X; Y v.a. definite sullo stesso spazio .˝; F ; P / tali che X D Y ma P .X D Y / < 1; d d iii) se X D Y e f 2 mB allora f ı X D f ı Y . Soluzione i) Utilizziamo il fatto che P .X D Y / D 1 e, ricordando l’Esercizio 2.1.27, per ogni z abbiamo P .X 2 H / D P ..X 2 H / \ .X D Y // D P ..Y 2 H / \ .X D Y // D P .Y 2 H /: ii) In uno spazio .˝; F ; P / siano A; B 2 F tali che P .A/ D P .B/. Allora le v.a. indicatrici X D ½A e Y D ½B hanno entrambe distribuzione di Bernoulli

112

3 Variabili aleatorie

uguale a P .A/ı1 C .1  P .A// ı0 ; poiché assumono solo i valori 1 e 0 rispettivamente 1  P .A/. Per quanto riguarda la CDF, si ha 8 ˆ ˆ 100/ D

P .X D k/ < 1%:

kD101

Si verifica direttamente2 che P .X > 100/ D 0:57% se n D 104 e P .X > 100/ D 1:67% se n D 105. Dunque possiamo accettare 104 prenotazioni. Esempio 3.1.22 (Poisson) Sia  > 0 una costante fissata. Per ogni n 2 N, n  , poniamo qn D n e consideriamo Xn Binn;qn . Per ogni k D 0; 1; : : : ; n, poniamo pn;k

!  k    n k nŠ  nk WD P .Xn D k/ D 1 qn .1  qn /nk D kŠ.n  k/Š n n k   n k n.n  1/    .n  k C 1/ 1  n D   k kŠ nk 1  n

(3.1.6) e osserviamo che lim pn;k D

n!1

e  k DW pk ; kŠ

k 2 N0 :

Ritroviamo quindi la distribuzione di Poisson Poisson D

1 X

pk ık

kD0

dell’Esempio 2.4.17-iv). Intuitivamente X Poisson può essere pensata come il limite di una successione di v.a. Xn Binn;qn . In altri termini, la distribuzione di Poisson di parametro np approssima per n ! C1 (e p ! 0C ) la distribuzione binomiale Binn;p e pertanto scriviamo Binn;p Poissonnp 2

n ! C1; p ! 0C :

Mostreremo più avanti (cfr. Osservazione 4.4.8) come è possibile semplificare il calcolo di P .X > 100/ nel caso di X Binn;p con n grande.

3.1 Variabili aleatorie

115

Figura 3.2 Grafico della funzione di distribuzione di una variabile aleatoria di Poisson

Questo risultato verrà formalizzato in seguito nell’Esempio 4.3.12. Notiamo che nella pratica, per n grande, il valore di pn;k in (3.1.6) è “difficile”   da calcolare a causa della presenza dei fattoriali3 nel coefficiente binomiale kn . Pertanto risulta utile utilizzare la distribuzione di Poisson come approssimazione della binomiale. In Figura 3.2, riportiamo il grafico della funzione di distribuzione k 7! P .X D k/ di una v.a. X Poisson con  D 3. Esempio 3.1.23 Un macchinario produce bulloni e per ogni bullone prodotto c’è la probabilità dello 0:01% che sia difettoso (indipendentemente dagli altri). Calcolare la probabilità che in una scatola da 1000 bulloni ce ne siano meno di 3 difettosi. Soluzione La v.a. X che indica il numero di bulloni difettosi in una scatola da 1000 bulloni, ha distribuzione binomiale Bin1000;p dove p D 0:01% è la probabilità che il singolo bullone sia difettoso. Allora ! 2 2 X X 1000 k p .1  p/1000k 99:9846%: P .X < 3/ D P .X D k/ D k kD0

kD0

Utilizzando l’approssimazione con una v.a. di Poisson, diciamo Y Poisson dove  D np D 0:1, otteniamo P .Y < 3/ D

2 X kD0

P .Y D k/ D e



2 X k kD0



99:9845%:

Per esempio 70Š > 10100 . Per calcolare nŠ per n  1 si può utilizzare l’approssimazione di Stirling  n n p : nŠ 2 n e

3

116

3 Variabili aleatorie

Esempio 3.1.24 (Geometrica) Per una v.a T con distribuzione geometrica di parametro p, T Geomp con p 2 0; 1, si ha4 P .T D k/ D p.1  p/k1 ;

k 2 N:

La v.a. T rappresenta il “primo tempo di successo” in una famiglia di prove ripetute e indipendenti con probabilità p: al riguardo si ricordi l’Esempio 3.1.7-iv) e l’Esempio 2.3.31. Proviamo ora una proprietà fondamentale della distribuzione geometrica, nota come proprietà di assenza di memoria. Teorema 3.1.25 Se T Geomp si ha P .T > n/ D .1  p/n ;

n 2 N;

(3.1.7)

e vale la seguente proprietà di assenza di memoria: P .T > n C k j T > n/ D P .T > k/;

k; n 2 N:

(3.1.8)

Viceversa, se T è una v.a. a valori in N e vale la (3.1.8) allora T Geomp dove p D P .T D 1/. Dimostrazione Se T Geomp allora per ogni n 2 N vale P .T > n/ D

1 X

P .T D k/ D

kDnC1

D p.1  p/n

1 X

p.1  p/k1 D

kDnC1 1 X

.1  p/h D p.1  p/n

hD0

1 X

p.1  p/h

hDn

1 D .1  p/n ; 1  .1  p/

e questo prova la (3.1.7). Allora, poiché .T > k C n/  .T > n/, si ha P .T > k C n/ P .T > n/ .1  p/kCn D .1  p/k D P .T > k/: D .1  p/n

P .T > n C k j T > n/ D

Viceversa, supponiamo che T sia una v.a. a valori in N per cui vale la (3.1.8). Notiamo che la (3.1.8) ha senso sotto l’ipotesi implicita che P .T > n/ > 0 per ogni n 2 N e per k D 1 si ha P .T > 1/ D P .T > n C 1 j T > n/ D 4

Per convenzione poniamo 00 D 1.

P .T > n C 1/ P .T > n/

3.1 Variabili aleatorie

117

da cui P .T > n C 1/ D P .T > n/P .T > 1/ e quindi P .T > n/ D P .T > 1/n : Inoltre, posto p D P .T D 1/ D 1  P .T > 1/, si ha P .T D k/ D P .T > k  1/  P .T > k/ D P .T > 1/k1  P .T > 1/k D P .T > 1/k1 .1  P .T > 1// D p.1  p/k1 ; che prova la tesi.  Corollario 3.1.26 Siano T Geomp e n 2 N. Vale P .T D n C k j T > n/ D P .T D k/;

k 2 N;

ossia la legge della v.a. T rispetto alla probabilità P è uguale alla legge della v.a. .T  n/ rispetto alla probabilità condizionata P . j T > n/. Dimostrazione Si ha P .T D n C k j T > n/ D P .T > n C k  1 j T > n/  P .T > n C k j T > n/ D (per il Teorema 3.1.25) D P .T > k  1/  P .T > k/ D P .T D k/:  Esercizio 3.1.27 In un gioco del lotto, una volta alla settimana si estraggono 5 numeri da un’urna che contiene 90 palline numerate. Qual è la probabilità che il numero 13 non venga estratto per 52 settimane consecutive? Sapendo che il 13 non è stato estratto per 52 settimane, qual è la probabilità che non sia estratto per la 53esima settimana consecutiva? jC

j

5 Soluzione Indichiamo con p D jC89;4 D 90 la probabilità che in un’estrazione 90;5 j venga estratto il 13. Se T indica la prima settimana in cui viene estratto il 13 allora per la (3.1.7) abbiamo

P .T > 52/ D .1  p/52 5:11% Equivalentemente avremmo potuto considerare la v.a. binomiale X Bin52;p che indica il numero di volte in cui, fra 52 estrazioni, viene estratto il 13 e calcolare ! 52 0 P .X D 0/ D p .1  p/52 0

118

3 Variabili aleatorie

che dà lo stesso risultato. Per la seconda domanda, dobbiamo calcolare P .T > 53 j T > 52/ D P .T > 1/ D

85 ; 90

dove la prima uguaglianza segue dalla (3.1.8). Esempio 3.1.28 (Ipergeometrica) Una variabile aleatoria X con distribuzione ipergeometrica rappresenta il numero di palline bianche estratte in n estrazioni senza reimmissione da un’urna che contiene N palline di cui b bianche: al riguardo si ricordi l’Esempio 2.2.22. In particolare, siano n; b; N 2 N con n; b  N . Allora X Ipern;b;N se5 b N b P .X D k/ D

k

Nnk 

k D 0; 1; : : : ; n ^ b:

(3.1.9)

n

Esercizio 3.1.29 Sia .bN /N 2N una successione in N0 tale che bN D p 2 0; 1Œ: N !1 N lim

Se N , N 2 N, indica la funzione di distribuzione ipergeometrica di parametri n; bN ; N , e  indica la funzione di distribuzione binomiale di parametri n e p, allora si ha lim Ipern;bN ;N .fkg/ D Binn;p .fkg/

N !1

per ogni n 2 N e k D 0; 1; : : : ; n. Intuitivamente, se il numero di palline bianche b e il numero totale di palline N sono grandi, allora la reimmissione o meno di una pallina dopo l’estrazione modifica in modo trascurabile la composizione dell’urna. Soluzione È un calcolo diretto: per maggiori dettagli si veda, per esempio, l’Osservazione 1.40 in [11].

3.1.3

Esempi di variabili aleatorie assolutamente continue

Esempio 3.1.30 (Esponenziale) Una v.a. con distribuzione esponenziale X

Exp gode di una proprietà di assenza di memoria analoga a quella vista nel Teorema 3.1.25 per la distribuzione geometrica: P .X > t C s j X > s/ D P .X > t/ ; 5

Per convenzione poniamo

 n k

D 0 per k > n.

t; s  0:

(3.1.10)

3.1 Variabili aleatorie

119

Infatti, poiché .X > t C s/  .X > s/, si ha P .X > t C s/ D (per la (2.4.8)) P .X > s/ e .t Cs/ D e t D P .X > t/ : D e s La distribuzione esponenziale appartiene ad un’ampia famiglia di distribuzioni che introduciamo nel’Esempio 3.1.34. P .X > t C s j X > s/ D

Diamo un semplice ma utile risultato. Proposizione 3.1.31 (Trasformazioni lineari e densità) Sia X una v.a. in Rd , assolutamente continua con densità X . Allora per ogni matrice A invertibile, di dimensione d  d , e b 2 Rd , la v.a. Z WD AX C b è assolutamente continua con densità   1 Z .z/ D X A1 .z  b/ : jdet Aj Dimostrazione Per ogni H 2 Bd si ha   P .Z 2 H / D P X 2 A1 .H  b/ D Z X .x/dx D (col cambio di variabili z D Ax C b) D A1 .H b/

D

1 jdet Aj

Z

  X A1 .z  b/ dz

H

e questo prova la tesi.  Esempio 3.1.32 (Uniforme) Consideriamo un esempio di v.a. con distribuzione uniforme su K 2 Bd con misura di Lebesgue positiva come nell’Esempio 2.4.22-i). In particolare, sia K il triangolo in R2 di vertici .0; 0/, .1; 0/ e .0; 1/. Sia .X; Y /

UnifK , con densità .X;Y / .x; y/ D 2½K .x; y/: con la Proposizione 3.1.31 possiamo facilmente calcolare la densità di .X C Y; X  Y /. Infatti, essendo ! ! ! X CY X 1 1 DA ; AD ; X Y Y 1 1 si ha det A D 2 e 2 z ½K A1 .X CY;X Y / .z; w/ D j det Aj w

!! D ½AK .z; w/

dove AK è il triangolo di vertici6 .0; 0/, .1; 1/ D A  .1; 0/ e .1; 1/ D A  .0; 1/. 6

Qui A  .1; 0/ A

  1 . 0

120

3 Variabili aleatorie

Figura 3.3 Probabilità nella distribuzione normale

Esempio 3.1.33 (Normale) Ricordiamo che X ha distribuzione normale di parametri  2 R e  > 0, ossia X N; 2 , se Z P .X 2 H / D H

1 1 x 2 p e  2 .  / dx; 2 2

H 2 B:

Notiamo che P .X 2 H / > 0 se e solo se Leb.H / > 0, essendo la densità un esponenziale e quindi strettamente positiva. Ovviamente P .X D x/ D 0 per ogni x 2 R perché X è assolutamente continua. Anche se X può assumere un qualsiasi valore reale, è bene sapere che la probabilità è sostanzialmente concentrata intorno al valore . Infatti, si ha P .jX  j   / 68:27% P .jX  j  2 / 95:45% P .jX  j  3 / 99:73%

(3.1.11)

e questo significa che i valori estremi (neanche tanto lontani da ) sono molto improbabili (si veda la7 Figura 3.3). Per questo motivo si usa dire che la densità Gaussiana ha le “code sottili”. A prima vista, il fatto che i valori in (3.1.11) siano indipendenti da  e  può sembrare un po’ strano. D’altra parte P .jX  j   / D P .jZj  / dove Z D X  e per la Proposizione 3.1.31 si ha X N; 2

H)

Z N0;1 :

In altre termini, si può sempre standardizzare una v.a. normale con una semplice trasformazione lineare. Notiamo che la densità Gaussiana di Z N0;1 è una funzione pari e quindi, per ogni  > 0 si ha P .Z  / D P .Z  / D P .Z  / 7

La Figura 3.3 è tratta da commons.wikimedia.org/wiki/File:Standard_deviation_diagram.svg#/ media/File:Standard_deviation_diagram.svg.

3.1 Variabili aleatorie

121

e di conseguenza P .jZj  / D P .Z  /  P .Z  / D P .Z  /  .1  P .Z  // D 2FZ ./  1;

(3.1.12)

dove FZ indica la CDF di Z. Esempio 3.1.34 (Gamma) Ricordiamo la definizione della funzione Gamma di Eulero: ZC1 x ˛1 e x dx; .˛/ WD

˛ > 0:

(3.1.13)

0

Osserviamo che assume valori positivi, .1/ D 1 e .˛ C 1/ D ˛ .˛/ poiché, integrando per parti, si ha ZC1 ZC1 ˛ x .˛ C 1/ D x e dx D ˛x ˛1 e x dx D ˛ .˛/: 0

0

Ne segue in particolare che .nC1/ D nŠ per ogni n 2 N. Un altro valore notevole si ha per ˛ D 12 :

1 2

ZC1 D

e x p dx D x

(col cambio di variabile x D y 2 )

0

ZC1 p 2 e y dy D : D2 0

Notiamo anche che, fissato  > 0, col cambio di variabile x D t in (3.1.13) otteniamo ZC1 t ˛1 e t dt; .˛/ WD  ˛

˛ > 0:

0

Ne segue che la funzione ˛; .t/ WD

˛ ˛1 t t e ½R>0 .t/; .˛/

è una densità per ogni ˛ > 0 e  > 0.

t 2 R;

(3.1.14)

122

3 Variabili aleatorie

a

b

Figura 3.4 a Grafico della densità ˛;2 per ˛ D 1 (linea continua), ˛ D 4 (linea tratteggiata) ˛ D 6 (linea punteggiata). b Grafico della densità 2; per  D 12 (linea continua),  D 14 (linea tratteggiata)  D 16 (linea punteggiata)

Definizione 3.1.35 La distribuzione con densità ˛; in (3.1.14) è detta distribuzione Gamma di parametri ˛;  > 0: ˛; .H / D

˛ .˛/

Z

t ˛1 e t dt;

H 2 B:

H \R>0

Notiamo che la distribuzione Esponenziale è un caso particolare della Gamma con ˛ D 1: 1; D Exp :

3.1 Variabili aleatorie

123

La distribuzione Gamma gode della seguente proprietà di invarianza di scala: Lemma 3.1.36 Se X ˛; e c > 0 allora cX ˛;  . In particolare X ˛;1 . c

Dimostrazione Utilizziamo la funzione di ripartizione per determinare la distribuzione di cX: P .cX  y/ D P .X  y=c/ D y

Zc D

˛ e t dt D .˛/t 1˛

(col cambio di variabile x D ct)

0

Zy D



˛ e  c x dx D ˛;  .1; y/:  c c ˛ .˛/x 1˛

0

3.1.4

Altri esempi di variabili aleatorie notevoli

Esempio 3.1.37 (Distribuzione 2 ) Sia X N0;1 . Vogliamo determinare la distribuzione della v.a. Z D X 2 tramite lo studio della sua CDF FZ . Poiché Z  0 si ha FZ .x/ D 0 per x  0, mentre per x > 0 si ha  p p  FZ .x/ D P .X 2  x/ D P  x  X  x D p Zx

D2 0

(per simmetria)

  p y2 1 p e  2 dy D 2 FX . x/  FX .0/ 2

dove FX è la CDF di X. Ne risulta che FZ è assolutamente continua e quindi per il Teorema 2.4.33 la densità di Z è data da p p x d d 1 1 e 2 ; FZ .x/ D 2 FX . x/ D FX0 . x/ p D p dx dx x 2x

x > 0:

Riconosciamo allora che Z 1;1 : 2 2

La distribuzione 1 ; 1 viene detta distribuzione chi-quadro ed a volte è indicata col 2 2 simbolo 2 .

124

3 Variabili aleatorie

Proposizione 3.1.38 Siano X W ˝ ! I

e

f W I ! J

una v.a. sullo spazio .˝; F ; P / a valori nell’intervallo reale I e una funzione continua e monotona strettamente crescente (quindi invertibile) a valori nell’intervallo reale J . Allora la CDF della v.a. Y WD f .X/ è FY D FX ı f 1

(3.1.15)

dove FX indica la CDF di X. Dimostrazione La (3.1.15) segue semplicemente da   P .Y  y/ D P .f .X/  y/ D P X  f 1 .y/ D FX .f 1 .y//;

y 2 J;

dove nella seconda uguaglianza abbiamo usato il fatto che f è monotona crescente.  Esercizio 3.1.39 Determinare la densità di Y WD e X dove X UnifŒ0;1 . Corollario 3.1.40 [!] Se X è una v.a. a valori in un intervallo I con CDF FX continua e monotona strettamente crescente su I , allora FX .X/ UnifŒ0;1 :

(3.1.16)

Dimostrazione Sia Y WD FX .X/. Chiaramente si ha FY .y/ D 0 se y  0 e FY .y/ D 1 se y  1 poiché FX assume valori in Œ0; 1 per definizione ed è continua. Inoltre per la Proposizione 3.1.38 si ha FY .y/ D y se 0 < y < 1, da cui la tesi.  Il corollario precedente si applica per esempio a X N; 2 con I D R e a X ˛; con I D R>0 .    Esercizio 3.1.41 Sia X 12 ı0 C UnifŒ0;1 . Si provi che FX .X/ 12 ı 1 C 2  UnifŒ 1 ;1 e quindi l’ipotesi di continuità di FX nel Corollario 3.1.40 non può essere 2 rimossa. Esempio 3.1.42 La Proposizione 3.1.38 viene solitamente utilizzata per costruire o simulare una v.a. con assegnata CDF a partire da una v.a. uniforme. Infatti, se Y UnifŒ0;1 e F è una CDF monotona strettamente crescente, allora la v.a. X WD F 1 .Y / ha CDF uguale a F .

3.1 Variabili aleatorie

125

Per esempio, supponiamo di voler costruire una v.a. esponenziale a partire da una v.a. uniforme: ricordando che F .x/ D 1  e x ;

x 2 R;

è la CDF della distribuzione Exp , si ha 1 F 1 .y/ D  log.1  y/; 

y 2 0; 1Œ:

Allora, per la Proposizione 3.1.38, se Y Unif0;1Œ si ha 1  log.1  Y / Exp :  Il Corollario 3.1.40, e in particolare la (3.1.16), fornisce un metodo per generare al computer numeri aleatori con un’assegnata CDF o densità a partire da numeri aleatori con distribuzione UnifŒ0;1 . Il seguente risultato estende la Proposizione 3.1.31. Proposizione 3.1.43 Se X 2 AC è una v.a. reale con densità X e f 2 C 1 con f 0 ¤ 0 allora Y WD f .X/ 2 AC e ha densità X .f 1 / Y D ˇ 0 1 ˇ : ˇf .f /ˇ

(3.1.17)

Dimostrazione Ricordiamo anzitutto che le ipotesi su f implicano che f è invertibile ed esiste  1 0 1 f D 0 1 : (3.1.18) f .f / Inoltre per ogni H 2 B si ha   P .Y 2 H / D P X 2 f 1 .H / D Z X .x/dx D D

(col cambio di variabili y D f .x/)

f 1 .H /

Z

D

ˇ ˇ  0 X f 1 .y/ ˇ f 1 .y/ˇdy D

(per la (3.1.18) e con Y definita come in (3.1.17))

H

Z

D

Y .y/dy; H

e questo prova che Y 2 AC con densità Y in (3.1.17). Si noti che se f è monotona strettamente crescente allora f 0 > 0 e il valore assoluto nella (3.1.17) è inutile. Tuttavia il risultato è valido anche per f monotona strettamente decrescente e in tal caso il valore assoluto è necessario. 

126

3 Variabili aleatorie

Esempio 3.1.44 (Distribuzione log-normale) Siano X N0;1 e f .x/ D e x . Allora per la (3.1.17) la densità della v.a. Y D e X è .log y/2 1 Y .y/ D p e  2 ; y 2

y 2 R>0 :

(3.1.19)

La funzione Y in (3.1.19) è detta densità della distribuzione log-normale: si noti che se Y ha distribuzione log-normale allora log Y ha distribuzione normale. Esempio 3.1.45 (Distribuzione normale bidimensionale) Siano X e Y v.a. che rappresentano la variazione della temperatura a Bologna dall’inizio alla fine, rispettivamente, dei mesi di settembre e ottobre. Assumiamo che .X; Y / abbia densità normale bidimensionale .x; y/ D

1 1 1 p e  2 hC .x;y/;.x;y/i ; 2 det C

.x; y/ 2 R2

dove ! 2 1 C D : 1 3 Determiniamo: i) P .Y < 1/; ii) P .Y < 1 j X < 0/. Si ha .x; y/ D

3x p1 e  2 5

2 2xyC2y 2 10

e Z Z1 .x; y/dydx 28%;

P .Y < 1/ D R 1

P .Y < 1 j X < 0/ D

P ..Y < 1/ \ .X < 0// 39%; P .X < 0/

essendo Z0 Z1 .x; y/dydx 19:7%;

P ..Y < 1/ \ .X < 0// D 1 1

Z0 Z .x; y/dydx D

P .X < 0/ D 1 R

1 : 2

3.2 Valore atteso

3.2

127

Valore atteso

In questo paragrafo introduciamo il concetto di valore atteso o media di una variabile aleatoria. Se X è una v.a. con distribuzione discreta finita X

m X

pk ıxk ;

kD1

ossia P .X D xk / D pk per k D 1; : : : ; m, allora il valore atteso di X è semplicemente definito da E ŒX WD

m X

xk P .X D xk / D

kD1

m X

xk pk :

(3.2.1)

kD1

In altri termini, E ŒX è una media dei valori di X pesata secondo la probabilità che tali valori siano assunti. Se m D 1 allora la somma in (3.2.1) diventa una serie ed occorre porre delle condizioni di convergenza. Infine, nel caso in cui X assuma un’infinità più che numerabile di valori allora non è più possibile definire E ŒX come serie: nel caso generale, il valore atteso E ŒX sarà definito come integrale di X rispetto alla misura di probabilità P e indicato indifferentemente con Z

Z XdP ˝

Z X.!/P .d!/

oppure

P .d!/X.!/:

oppure

˝

˝

Per dare la definizione precisa di valore atteso richiamiamo alcuni elementi della cosiddetta teoria dell’integrazione astratta su uno spazio di probabilità .˝; F ; P /, ricordando che una v.a. altro non è che una funzione misurabile. Le dimostrazioni seguenti si adattano facilmente al caso di spazi misurabili  -finiti (fra cui Rd con la misura di Lebesgue). Ci occuperemo di dare:  la definizione teorica di integrale astratto nelle Sezioni 3.2.1, 3.2.2 e 3.2.3;  una caratterizzazione operativa dell’integrale astratto e un metodo di calcolo esplicito nelle Sezioni 3.2.4 e 3.2.5.

3.2.1

Integrale di variabili aleatorie semplici

Per introdurre l’integrale astratto procediamo per gradi, partendo dal caso di funzioni (o variabili aleatorie, nel caso di uno spazio di probabilità) “semplici” a valori reali fino al caso generale. Diciamo che una funzione X su uno spazio misurabile .˝; F ; P / è semplice se è misurabile e assume solo un numero finito di valori

128

3 Variabili aleatorie

Figura 3.5 Interpretazione dell’integrale astratto come somma di Riemann

distinti x1 ; : : : ; xm 2 R: in tal caso possiamo scrivere XD

m X

xk ½.X Dxk / ;

kD1

dove .X D x1 /; : : : ; .X D xm / 2 F sono disgiunti. In questo caso definiamo l’integrale astratto di X nel modo seguente Z XdP WD

m X

xk P .X D xk /:

(3.2.2)

kD1

˝

Tale definizione corrisponde ad una somma di Riemann in cui ogni addendo xk P .X D xk / rappresenta l’area di un rettangolo calcolata come “base”“altezza” dove la misura della base è P .X D xk / e l’altezza xk è il valore di X su .X D xk /: si veda la Figura 3.5. Allora per definizione si ha Z

½A dP D P .A/

(3.2.3)

˝

per ogni A 2 F . Per ogni X semplice e A 2 F , useremo anche la notazione Z

Z XdP WD A

˝

X ½A dP:

3.2 Valore atteso

129

È chiaro che valgono le proprietà di i) linearità: per ogni X; Y semplici e ˛; ˇ 2 R si ha Z Z Z .˛X C ˇY / dP D ˛ XdP C ˇ YdP I ˝

˝

(3.2.4)

˝

ii) monotonia: per ogni X; Y semplici tali che X  Y P -q.c.8 si ha Z Z XdP  YdP: ˝

(3.2.5)

˝

Osserviamo che dalla proprietà ii) segue che se X D Y P -q.c. allora Z Z XdP D YdP: ˝

˝

Prima di dare la definizione generale di integrale, proviamo alcuni risultati preliminari. Lemma 3.2.1 (Beppo-Levi) Sia .Xn /n2N una successione di v.a. semplici tali che 0  Xn % X P -q.c. Se X è semplice allora Z Z lim Xn dP D XdP: (3.2.6) n!1

˝

˝

Dimostrazione Per ipotesi esiste A 2 F con P .˝ n A/ D 0, tale che 0  Xn .!/ % X.!/ per ogni ! 2 A. Fissato " > 0 e posto An;" WD .X  Xn  "/ \ A;

n 2 N;

per ipotesi si ha che An;" è una successione decrescente con intersezione vuota, ossia An;" & ; per n ! 1. Allora per la continuità dall’alto di P si ha lim P .An;" / D 0 n!1 e di conseguenza Z Z 0  .X  Xn /dP D .X  Xn /dP A

˝

Z

Z

.X  Xn /dP C

D ˝nAn;"

.X  Xn /dP  "P .˝/ C P .An;" / max X ˝

An;"

da cui segue la (3.2.6). Notiamo esplicitamente che max X < 1 poiché X è semplice per ipotesi.  8

Nel senso che P .X > Y / D 0.

˝

130

3 Variabili aleatorie

Lemma 3.2.2 Siano .Xn /n2N e .Yn /n2N successioni di v.a. semplici tale che 0  Xn % X e 0  Yn % Y P -q.c. Se X  Y P -q.c. allora Z Z Xn dP  lim Yn dP: lim n!1

n!1

˝

˝

Dimostrazione Fissato k 2 N, la successione di funzioni semplici .Xk ^ Yn /n2N è tale che 0  Xk ^ Yn % Xk P -q.c. per n che tende all’infinito. Pertanto abbiamo Z Z Z Xk dP D lim Xk ^ Yn dP  lim Yn dP n!1

˝

n!1

˝

˝

dove la prima uguaglianza segue dalla (3.2.6), mentre la disuguaglianza è dovuta al fatto che Xk ^ Yn  Yn . Questo conclude la prova. 

3.2.2

Integrale di variabili aleatorie non-negative

Per estendere la definizione di integrale alle v.a. in mF C utilizziamo il seguente Lemma 3.2.3 Per ogni X 2 mF C esiste una successione monotona crescente .Xn /n2N in mF C di v.a. semplici, tale che Xn % X ossia vale lim Xn .!/ D X.!/;

! 2 ˝:

n!1

Dimostrazione Definiamo una successione di funzioni “a scala” su Œ0; C1Œ nel modo seguente: per ogni n 2 N consideriamo la partizione di Œ0; C1Œ costituita dai punti 0 1 2 n2n ; ; ; : : : ; 2n 2n 2n 2n e poniamo ( 'n .x/ D

k1 2n

x
0 , allora ZC1 'X . / D  e i xx dx D

 :   i

0

Esempio 3.5.4 [!] Siano N e Z1 ; Z2 ; : : : v.a. indipendenti con N Poisson e Zn identicamente distribuite per n 2 N. Calcoliamo la CHF di 8 ˆ se N D 0; 0 e consideriamo R abbastanza grande in modo che FX .R/  " e FX .R/  1  ": assumiamo inoltre che R e R siano punti di continuità di FX . Allora per ogni f 2 bC vale E Œf .Xn /  f .X/ D J1;n C J2;n C J3 dove   J1;n D E f .Xn /½R;R .Xn /  E f .X/½R;R .X/ ;  J2;n D E f .Xn /½R;Rc .Xn / ;  J3 D E f .X/½R;Rc .X/ : Ora, per quanto provato sopra, si ha lim J1;n D 0

n!1

mentre, per ipotesi, jJ2;n j  kf k1 .FXn .R/ C .1  FXn .R/// ! kf k1 .FX .R/ C .1  FX .R///  2"kf k1 ; n!1

e jJ3 j  kf k1 .FX .R/ C .1  FX .R///  2"kf k1 : Questo conclude la prova.  Non è sufficiente che le CDF Fn convergano ad una funzione continua per concludere che n converge debolmente, come mostra il seguente Esempio 4.3.4 La successione di delta di Dirac ın non converge debolmente, tuttavia Fın .x/ D ½Œn;C1Œ .x/ ! 0; n!1

x 2 R;

ossia Fın converge puntualmente alla funzione identicamente nulla che, ovviamente, è continua su R ma non è una CDF. L’Esempio 4.3.4 non contraddice il Teorema 4.3.3 poiché la funzione limite delle Fın non è una funzione di ripartizione. Tale esempio mostra anche che è possibile che una successione di CDF converga ad una funzione che non è una CDF.

218

4.3.2

4 Successioni di variabili aleatorie

Compattezza nello spazio delle distribuzioni

In questa sezione introduciamo la proprietà di tightness5 che fornisce una caratterizzazione della relativa compattezza nello spazio delle distribuzioni reali: essa garantisce che da una successione di distribuzioni si possa estrarre una sotto-successione convergente debolmente. In particolare, la tightness evita situazioni come quella dell’Esempio 4.3.4. Definizione 4.3.5 (Tightness) Una famiglia di distribuzioni reali .i /i 2I è tight se per ogni " > 0 esiste M > 0 tale che   i 1; M  [ ŒM; C1Œ  "

per ogni i 2 I:

Esercizio 4.3.6 Provare che ogni famiglia costituita da una singola distribuzione reale è tight6 . La proprietà di tightness si può anche attribuire a famiglie di v.a. .Xi /i 2I oppure di CDF .Fi /i 2I : esse sono tight se lo sono le relative famiglie di distribuzioni, ossia vale P .jXi j  M /  "

per ogni i 2 I;

e Fi .M /  ";

Fi .M /  1  "

per ogni i 2 I:

Teorema 4.3.7 (Teorema di Helly) [!!] Ogni successione tight di distribuzioni reali .n /n2N ammette una sotto-successione convergente debolmente ad una distribuzione . Dimostrazione Sia .n /n2N una successione tight di distribuzioni e sia .Fn /n2N la successione delle relative CDF. In base al Teorema 4.3.3, è sufficiente provare che esiste una CDF F ed una sotto-successione Fnk che converge a F nei punti di continuità di F . La costruzione di F è basata sull’argomento diagonale di Cantor. Consideriamo una enumerazione .qh /h2N dei numeri razionali. Poiché .Fn .q1 //n2N è una successione in Œ0; 1, essa ammette una sotto-successione .F1;n .q1 //n2N convergente a un valore che indichiamo con F .q1 / 2 Œ0; 1. Ora .F1;n .q2 //n2N è una successione in Œ0; 1 che ammette una sotto-successione .F2;n .q2 //n2N convergente a un valore che 5 Preferiamo non tradurre il termine tecnico “tight”. In alcuni testi, “famiglia tight” è tradotto con “famiglia tesa” o “famiglia stretta”. 6 Più in generale, ogni distribuzione  su uno spazio metrico separabile e completo .M; %/, è tight nel senso seguente: per ogni " > 0 esiste un compatto K tale che .M n K/ < ". Per la dimostrazione, si veda il Teorema 1.4 in [10].

4.3 Condizioni necessarie e sufficienti per la convergenza debole

219

indichiamo con F .q2 / 2 Œ0; 1: notiamo che si ha anche F2;n .q1 / ! F .q1 / n!1

poiché F2;n è sotto-successione di F1;n . Ripetiamo l’argomento fino a costruire, per ogni k 2 N, una successione .Fk;n /n2N tale che Fk;n .qh / ! F .qh /;

8h  k:

n!1

In base all’argomento diagonale, consideriamo la sotto-successione Fnk WD Fk;k : essa è tale che Fnk .q/ ! F .q/;

q 2 Q:

n!1

Completiamo la definizione di F ponendo F .x/ WD inf F .q/;

x 2 R n Q:

x 0 esistono a; b 2 Q tali che a 0, esistono t > 0 e nN D n."; N t/ 2 N tali che ˇ ˇ ˇZ ˇ ˇ ˇ ˇ J1 .x; t/n .dx/ˇ  "; ˇ ˇ ˇ ˇ

n  n: N

R

Combinando questa stima con la (4.3.3), si conclude che n

i h 2i h2 1;  [ ; C1  "; t t

n  n; N

e quindi .n /n2N è tight. Ora concludiamo la dimostrazione. Data una sotto-successione nk , per quanto appena provato, essa è tight e quindi, per il Teorema di Helly, ammette un’ulteriore sotto-successione nkj che converge debolmente a una distribuzione . Per il punto i), 'nkj converge puntualmente alla CHF di : d’altra parte, per ipotesi, 'nkj converge puntualmente ' e quindi ' è la CHF di . Riassumendo, ogni sotto-successione nk ammette una sotto-successione che converge debolmente alla distribuzione  che ha CHF uguale a '. R Sia ora f 2 bC : per quanto appena provato, ogni R sotto-successione di R f dn che converge a R f d. Per il Lemma 4.1.8, Rammette una sotto-successione R f d converge a f d. La tesi segue dall’arbitrarietà di f .  n R R

222

4 Successioni di variabili aleatorie

Esempio 4.3.9 L’ipotesi di continuità in 0 del Teorema di Lévy è necessaria. Infatti consideriamo Xn N0;n con n 2 N. Allora 'Xn . / D e 

n 2 2

converge a zero per n ! 1 per ogni ¤ 0 e vale 'Xn .0/ D 1. D’altra parte, per ogni x 2 R si ha Zx FXn .x/ D

p 1

1 2 n

y2

e  2n dy D

(col cambio z D

py ) 2n

px

Z 2n D 1

1 1 2 p e z dz ! ; n!1 2 

e quindi, per il Teorema 4.3.3, Xn non converge debolmente.

4.3.4

Esempi notevoli di convergenza debole

In questa sezione esibiamo alcuni esempi notevoli di convergenza debole. Vedremo successioni di v.a. discrete che convergono a v.a. assolutamente continue e, viceversa, successioni di v.a. assolutamente continue che convergono a v.a. discrete. Negli d

esempi seguenti la convergenza Xn ! X è dimostrata tramite il Teorema di continuità di Lévy, ovvero studiando la convergenza puntuale della successione delle CHF .'Xn /n2N . Esempio 4.3.10 (Dalla geometrica all’esponenziale) Consideriamo una successione di v.a. con distribuzione geometrica Xn Geompn ;

n 2 N;

dove 0 < pn < 1, per cui si ha P .Xn D k/ D pn .1  pn /k1 ;

k 2 N:

Si calcola facilmente la CHF di Xn : 'Xn . / D

1 X

e i k pn .1  pn /k1 D e i pn

kD1

D

1 X  kD1

i

e pn pn : D i

1  e i .1  pn / e  1 C pn

k1 e i .1  pn /

4.3 Condizioni necessarie e sufficienti per la convergenza debole

223 d

Verifichiamo ora che se npn !  per un certo  2 R>0 allora Xnn ! X

n!1 Exp . Infatti si ha   h Xn i ' Xn . / D E e i n D 'Xn n n pn (sviluppando in serie di Taylor D D i n

l’esponenziale per n ! 1) e  1 C pn  npn pn 1 D ! D 'Exp . /: D

n!1 i

C o .1/ C np   i

i n C o n C pn n Esempio 4.3.11 (Dalla normale alla Delta di Dirac) Riprendiamo l’Esempio 4.1.3 e consideriamo una successione .Xn /n2N di v.a. con distribuzione normale Xn Nan ;n2 dove an ! a 2 R e n ! 0. Grazie al Teorema di continuità di d

Lévy è facile verificare che Xn ! X ıa . Infatti 'Xn . / D e i an 

2 n2 2

! e i a ; n!1

2 R; d

perciò dal Teorema di continuità di Lévy segue che Xn ! X ıa , ossia Xn converge debolmente a una v.a. con distribuzione Delta di Dirac centrata in a. Esempio 4.3.12 (Dalla binomiale alla Poisson) Consideriamo una successione di v.a. con distribuzione binomiale Xn Binn;pn ;

n 2 N: d

Se npn !  per un certo  2 R>0 allora Xn ! X Poisson : infatti per la n!1 (3.5.3) e il Lemma 4.4.1, si ha  n  'Xn . / D 1 C pn e i  1  n npn  i

i

D 1C ! e .e 1/ D 'Poisson . /: e 1 n!1 n Esempio 4.3.13 (Dalla binomiale alla normale) Sia Xn Binn;p . Ricordiamo (cfr. Proposizione 3.6.3) che la distribuzione di Xn coincide con la distribuzione della somma di n v.a. di Bernoulli indipendenti. Allora, come conseguenza diretta del Teorema centrale del limite (Teorema 4.4.4, che proveremo fra poco e la cui dimostrazione si basa sul Teorema di continuità di Lévy), vale: d

Zn ! X N0;1 ; dove Zn D

Xn   n ; n

n D E ŒXn  D np;

n2 D var.Xn / D np.1  p/:

224

4 Successioni di variabili aleatorie

Figura 4.4 Densità della distribuzione normale Nnp;np.1p/ e funzione di distribuzione binomiale Binn;p per p D 0:5 e n D 20

Il risultato appena ottenuto può essere espresso informalmente dicendo che per ogni p 2 0; 1Œ, la distribuzione Nnp;np.1p/ è una buona approssimazione di Binn;p per n abbastanza grande: si veda per esempio la Figura 4.4 per un confronto fra i grafici della densità normale Nnp;np.1p/ e della funzione di distribuzione binomiale Binn;p , per p D 0:5 e n D 20. Questo risultato sarà ripreso e spiegato con maggior precisione nell’Osservazione 4.4.8.

4.4

Legge dei grandi numeri e Teorema centrale del limite

In questa sezione presentiamo un approccio unificato alla dimostrazione della Legge debole dei grandi numeri e del Teorema centrale del limite. Tale approccio è basato sul Teorema di continuità di Lévy e sul Teorema 3.5.20 di sviluppabilità in serie di Taylor della funzione caratteristica. Ricordiamo la notazione S n D X1 C    C Xn ;

Mn D

Sn n

(4.4.1)

rispettivamente per la somma e la media aritmetica delle v.a. X1 ; : : : ; Xn . Vale il seguente risultato, ben noto nel caso di successioni reali. Lemma 4.4.1 Sia .zn /n2N una successione di numeri complessi convergente a z 2 C. Allora si ha  zn n D ez : lim 1 C n!1 n

4.4 Legge dei grandi numeri e Teorema centrale del limite

225

Dimostrazione Seguiamo la prova di [16], Teorema 3.4.2. Proviamo anzitutto che per ogni w1 ; : : : ; wn ; 1 ; : : : ; n 2 C, con modulo minore o uguale a c, vale ˇ n ˇ n n ˇY ˇ Y X ˇ ˇ k ˇ  c n1 jwk  k j: ˇ wk  ˇ ˇ kD1

kD1

(4.4.2)

kD1

La (4.4.2) è vera per n D 1 e in generale si prova per induzione osservando che ˇ ˇ n1 ˇ ˇ n1 ˇ ˇ n n n1 n1 ˇ ˇ Y ˇ ˇ Y ˇ ˇY Y Y Y ˇ ˇ ˇ ˇ ˇ ˇ wk  k ˇ  ˇwn wk  zn k ˇ C ˇwn k  n k ˇ ˇ ˇ ˇ ˇ ˇ ˇ ˇ kD1 kD1 kD1 kD1 kD1 kD1 ˇ n1 ˇ n1 ˇY ˇ Y ˇ ˇ cˇ wk  k ˇ C c n1 jwn  n j: ˇ ˇ kD1

kD1

Poi osserviamo che per ogni w 2 C con jwj  1 vale je w  .1 C w/j  jwj2 poichè ˇ ˇ ˇ ˇ X 1 X wk ˇ ˇ X jwjk  .1 C w/ˇˇ  D jwj2  jwj2 : je w  .1 C w/j D ˇˇ kŠ kŠ kŠ ˇ k0 ˇ k2 k2 (4.4.3) Per provare la tesi, fissiamo R > jzj: per ogni n 2 N abbastanza grande si ha anche R > jzn j. Applichiamo la (4.4.2) con wk D 1 C

zn ; n

osservando che jwk j  1 C

jzn j n

zn

k D e n ;

k D 1; : : : ; nI

R

 e n , abbiamo

n ˇ ˇ  R n1 X ˇ ˇ zn ˇ zn zn  n ˇ ˇ ˇ  e zn ˇ  e n e n ˇ ˇ1 C ˇ 1C n n kD1 ˇ ˇ R.n1/ R2 ˇ zn ˇ2  e n n ˇ ˇ  eR n n

(per la (4.4.3))

da cui la tesi.  Teorema 4.4.2 (Legge debole dei grandi numeri) Sia .Xn /n2N una successione di v.a. reali i.i.d. in L1 .˝; P /, con valore atteso  WD E ŒX1 . Allora la media aritmetica Mn converge debolmente alla v.a. costante uguale a : d

Mn ! :

226

4 Successioni di variabili aleatorie

Dimostrazione Per il Teorema 4.3.8 di continuità di Lévy, è sufficiente provare che la successione delle funzioni caratteristiche 'Mn converge puntualmente alla CHF della distribuzione ı : lim 'Mn . / D e i ;

2 R:

n!1

(4.4.4)

Abbiamo h i (poiché le Xn sono i.i.d.) 'Mn . / D E e i n Sn D  n D E e i n X1 D (per il Teorema 3.5.20 e l’ipotesi di sommabilità)  n  1 i

! e i

Co D 1C n!1 n n grazie al Lemma 4.4.1. Questo prova la (4.4.4) e conclude la dimostrazione.  Osservazione 4.4.3 Le ipotesi del Teorema 4.4.2 sono più deboli rispetto alla Legge dei grandi numeri nella versione del Teorema 4.2.1 in cui si assume che Xn 2 L2 .˝; P /. Con metodi più sofisticati è anche possibile estendere il Teorema 4.2.3 ed ottenere la cosiddetta Legge forte dei grandi numeri di Kolmogorov: se .Xn /n2N è una successione di v.a. reali i.i.d. in L1 .˝; P / con valore atteso  WD E ŒX1 , allora Mn converge quasi certamente a . Per maggiori dettagli si veda, per esempio, [25]. Supponiamo ora che .Xn /n2N sia una successione di v.a. reali i.i.d. in L2 .˝; P /. Poniamo  WD E ŒX1 

e

 2 WD var.X1 /:

Ricordiamo che valore atteso e varianza della media aritmetica Mn in (4.2.1) sono dati rispettivamente da E ŒMn  D 

e

var.Mn / D

2 : n

Consideriamo allora la media aritmetica normalizzata, definita da Mn   Mn  E ŒMn  MQ n WD p D : p var.Mn / n Notiamo che Sn  n 1 X Xk   MQ n D Dp : p   n n kD1 n

(4.4.5)

4.4 Legge dei grandi numeri e Teorema centrale del limite

227

Il Teorema centrale del limite8 afferma che, a prescindere dalla distribuzione delle Xn , la successione delle medie aritmetiche normalizzate MQ n converge debolmente a una normale standard. Teorema 4.4.4 (Teorema centrale del limite) [!!!] Per ogni successione .Xn /n2N di v.a. reali i.i.d. in L2 .˝; P / vale d MQ n ! Z N0;1 :

(4.4.6)

Dimostrazione Per il Teorema 4.3.8 di continuità di Lévy, è sufficiente provare che la successione delle funzioni caratteristiche 'MQ n converge puntualmente alla CHF della distribuzione N0;1 :

2

lim 'MQ n . / D e  2 ;

n!1

Per la (4.4.5) si ha " 'MQ n . / D E e

i p n

n P kD1

Xk  

(4.4.7)

# D

 X  n ip 1 D E e n  D 

2 R:

(poiché le Xn sono i.i.d.) (per il Teorema 3.5.20, essendo per ipotesi X1 2 L2 .˝; P / con media nulla e varianza unitaria)

 n

2 1 .i /2 ! e  2 D 1C Co n!1 2n n

grazie al Lemma 4.4.1. Questo prova la (4.4.7) e conclude la dimostrazione.  Osservazione 4.4.5 Nel caso particolare, nel caso in cui  D 0 e  D 1, la (4.4.6) diventa Sn d p ! Z N0;1 : n Osservazione 4.4.6 (Teorema centrale del limite e Legge dei grandi numeri) Data l’espressione di MQ n in (4.4.5), il Teorema centrale del limite si riformula nel modo seguente:  Mn '  C p Z N;  2 ; n n

per n  1;

(4.4.8)

dove il simbolo ' indica che Mn e  C pn Z hanno approssimativamente la stessa distribuzione. La (4.4.8) fornisce un’approssimazione della distribuzione della v.a. Mn che precisa ed esplicita il risultato di convergenza della Legge dei grandi numeri. 8

Il nome Teorema centrale del limite è stato dato dal matematico ungherese George Pólya per sottolineare come tale teorema abbia un ruolo centrale in Probabilità.

228

4 Successioni di variabili aleatorie

Osservazione 4.4.7 (Teorema centrale del limite e metodo Monte Carlo) [!] Medie Mn di variabili i.i.d., definite come in (4.4.1), appaiono in modo naturale nel metodo Monte Carlo che abbiamo introdotto nella Sezione 4.2.1. Sotto le ipotesi del Teorema centrale del limite, posto    ˇ ˇ   > 0; p WD P jMn  j   p D P ˇMQ n ˇ   ; n si ha la stima p ' P .jZj  / ;

Z N0;1 :

Ora ricordiamo (cfr. (3.1.12)) che P .jZj  / D 2F ./  1;

 > 0;

con F in (4.4.10). Per la stima dell’errore numerico del metodo Monte Carlo, si parte dai  valoridi p usati più comunemente, ossia p D 95% e p D 99%: posto , si ottiene  D F 1 pC1 2 P

   ' 95% jMn  j  1:96 p n

   ' 99%: jMn  j  2:57 p n

e

P

e

 r99 WD 2:57 p n

Per questo motivo  r95 WD 1:96 p n

sono comunemente chiamati raggi degli intervalli di confidenza al 95% e al 99% per : se Mn rappresenta il risultato (aleatorio) dell’approssimazione Monte Carlo del valore atteso , allora ŒMn  r95 ; Mn C r95 

e

ŒMn  r99 ; Mn C r99 

sono gli intervalli (di estremi aleatori) a cui  (che è il valore incognito che si intende approssimare) appartiene con probabilità pari, rispettivamente, al 95% e 99%. Osservazione 4.4.8 (Teorema centrale del limite e somme di v.a. i.i.d.) Come già anticipato nell’Esempio 4.3.13, il Teorema centrale del limite è un valido strumento per approssimare la legge di v.a. definite come somme di variabili i.i.d. Per esempio, sappiamo (cfr. Proposizione 3.6.3) che X Binn;p è uguale in legge a X1 C    C Xn con Xj Bep i.i.d. Allora abbiamo la seguente approssimazione asintotica della CDF di X per n ! C1: ! k  pn ; Z N0;1 : (4.4.9) P .X  k/ P Z  p np.1  p/

4.4 Legge dei grandi numeri e Teorema centrale del limite

229

La (4.4.9) segue semplicemente dal fatto che, posto  D E ŒX1  D p e  2 D var.X1 / D p.1  p/, per il Teorema centrale del limite si ha  P .X  k/ D P

X  n k  n p  p  n  n

 P

  k  n Z p :  n

La (4.4.9) equivale a k  pn

FX .k/ F

!

p np.1  p/

dove FX indica la CDF di X Binn;p e Zx F .x/ D 1

z2

e 2 p dz 2

(4.4.10)

è la CDF normale standard. Sotto ipotesi più forti, una stima esplicita della velocità di convergenza nel Teorema centrale del limite è data dal Teorema di Berry-Esseen che qui ci limitiamo ad enunciare9 . Teorema 4.4.9 (Teorema di Berry-Esseen) Esiste una costante10 C < 1 tale che, se .Xn / è una successione di v.a. i.i.d. in L3 .˝; P / con E ŒX1  D 0;

var.X1 / WD  2 ;

i h E jX1 j3 DW %

e Fn indica la CDF della media aritmetica Mn in (4.2.1), allora si ha jFn .x/  F .x/j 

C% p ; 3 n

x 2 R; n 2 N;

dove F è la CDF normale standard in (4.4.10).

9

Per la dimostrazione si veda, per esempio, [16]. Non è noto il valore ottimale di C : al momento si sa che 0:4097 < C < 0:56.

10

Capitolo 5

Probabilità condizionata

We have not succeeded in answering all our problems – indeed we sometimes feel we have not completely answered any of them. The answers we have found have only served to raise a whole set of new questions. In some ways we feel that we are as confused as ever, but we think we are confused on a higher level, and about more important things. Earl C. Kelley

In uno spazio di probabilità .˝; F ; P /, siano X una variabile aleatoria e G una sotto- -algebra di F . In questo capitolo introduciamo i concetti di distribuzione e attesa di X condizionate a G . Ricordando che una  -algebra può essere interpretata come un insieme di “informazioni”, l’attesa di X condizionata a G rappresenta la miglior stima del valore aleatorio X in base alle informazioni contenute in G . Tanto più G è grande, tanto migliore e più dettagliata è la stima di X data dall’attesa condizionata: quest’ultima, dal punto di vista matematico, è definita come una variabile aleatoria che gode di determinate proprietà. I concetti di attesa e distribuzione condizionata sono alla base della teoria dei processi stocastici e di tutte le applicazioni della teoria della probabilità in cui si vuole modellizzare un fenomeno aleatorio che evolve nel tempo: in tal caso è necessario descrivere non solo l’evoluzione del valore aleatorio X ma anche quella delle informazioni che, col passare del tempo, diventano disponibili e permettono di stimare X. In questo capitolo, salvo diversamente specificato, X indica una variabile aleatoria a valori in Rd .

5.1

Il caso discreto

Introduciamo il concetto di condizionamento alla  -algebra generata da una v.a. discreta: trattiamo questo caso molto particolare con uno scopo meramente introduttivo alla definizione generale che è tecnicamente più complessa e sarà introdotta nelle sezioni successive. Materiale Supplementare Online È disponibile online un supplemento a questo capitolo (https://doi.org/10.1007/978-88-470-4000-7_5), contenente dati, altri approfondimenti ed esercizi. © Springer-Verlag Italia S.r.l., part of Springer Nature 2020 A. Pascucci, Teoria della Probabilità, UNITEXT 123, https://doi.org/10.1007/978-88-470-4000-7_5

231

232

5 Probabilità condizionata

Consideriamo una variabile aleatoria Y definita sullo spazio .˝; F ; P / e assumiamo che Y sia discreta1 nel senso seguente: i) i valori distinti assunti da Y formano un insieme di cardinalità al più numerabile: in altri termini, l’immagine di ˝ mediante Y è della forma Y.˝/ D .yn /n2N con yn distinti; ii) per ogni n 2 N, l’evento Bn WD .Y D yn / non è trascurabile, ossia P .Bn / > 0. In queste ipotesi, la famiglia .Bn /n2N forma una partizione finita o numerabile di ˝, i cui elementi sono eventi non trascurabili. Notiamo che  .Y /, la  -algebra generata da Y , è costituita dall’insieme vuoto, dagli elementi della partizione .Bn /n2N e dalle unioni di essi. Definizione 5.1.1 (Probabilità condizionata) Nello spazio .˝;  F ; P / la probabilità condizionata alla v.a. discreta Y è la famiglia P . j Y / D P! . j Y / !2˝ di misure di probabilità su .˝; F / definite da P! .A j Y / WD P .A j Y D Y.!//;

A 2 F;

(5.1.1)

dove P . j Y D Y.!// indica la probabilità condizionata all’evento .Y D Y.!// (cfr. Definizione 2.3.2). Osservazione 5.1.2 Per ogni A 2 F , P .A j Y / è una variabile aleatoria costante sugli elementi della partizione .Bn /n2N : P .A j Y / D

X

P .A j Bn /½Bn :

(5.1.2)

n1

Poiché P! . j Y / è una misura di probabilità per ogni ! 2 ˝, sono definiti in modo naturale i concetti di distribuzione e attesa condizionate a Y . Definizione 5.1.3 (Distribuzione e attesa condizionata) .˝; F ; P / a valori in Rd ,

Data X una v.a. su

i) la distribuzione (o legge) di X condizionata a Y , indicata con X jY , è la distribuzione di X relativa alla probabilità condizionata P . j Y /: X jY .H / WD P .X 2 H j Y /;

H 2 Bd I

(5.1.3)

ii) se X 2 L1 .˝; P /, l’attesa di X condizionata a Y , indicata con E ŒX j Y , è il valore atteso di X nella probabilità condizionata P . j Y /: Z (5.1.4) E ŒX j Y  WD XdP . j Y /: ˝ 1

L’ipotesi ii) non è realmente restrittiva: se Z verifica i) allora esiste un’unica Y discreta tale che P .Y D y/ > 0 per ogni y 2 Y .˝/ e Z D Y q.c.

5.1 Il caso discreto

233

Osservazione 5.1.4 Si noti che la distribuzione e l’attesa condizionate dipendono da ! e quindi sono quantità aleatorie, infatti: i) il significato della definizione (5.1.3) è X jY .H I !/ WD P! .X 2 H j Y /;

H 2 Bd ; ! 2 ˝:

Di conseguenza: i-a) per ogni ! 2 ˝, X jY .I !/ è una distribuzione su .Rd ; Bd /: diciamo quindi che X jY è una distribuzione aleatoria; i-b) per ogni H 2 Bd , X jY .H / è una variabile aleatoria costante sugli elementi della partizione .Bn /n2N : X X jY .H / D P .X 2 H j Bn /½Bn I (5.1.5) n1

ii) il significato della definizione (5.1.4) è Z E ŒX j Y  .!/ WD XdP! . j Y /;

! 2 ˝:

˝

Di conseguenza, E ŒX j Y  è una variabile aleatoria costante sugli elementi della partizione .Bn /n2N : X E ŒX j Y  D E ŒX j Bn  ½Bn ; (5.1.6) n1

dove, per la Proposizione 3.4.2, E ŒX j Bn  D

1 P .Bn /

Z XdP: Bn

Esempio 5.1.5 Riprendiamo l’Esempio 3.4.5: da un’urna che contiene n  2 palline numerate, si estraggono in sequenza e senza reinserimento due palline. Siano X1 e X2 le v.a. che indicano rispettivamente il numero della prima e seconda pallina estratta. Allora per ogni k 2 In si ha ( 1 ; se h 2 In n fkg; X2 jX1 Dk .fhg/ D n1 0 altrimenti; o equivalentemente X2 jX1 D UnifIn nfX1 g : Generalizziamo ora due ben noti strumenti fondamentali per il calcolo dell’attesa.

234

5 Probabilità condizionata

Teorema 5.1.6 (Teorema del calcolo della media) [!] Siano X e Y v.a. su .˝; F ; P / con Y discreta. Se f 2 mBd e f .X/ 2 L1 .˝; P / allora Z E Œf .X/ j Y  D f dX jY : Rd

Dimostrazione Per ogni ! 2 ˝ si ha Z f .X/dP! . j Y / D

E Œf .X/ j Y  .!/ D

(per il Teorema 3.2.25 del calcolo della media)

˝

Z

D

f .x/X jY .dxI !/:  Rd

Teorema 5.1.7 (Formula della probabilità totale) .˝; F ; P / con Y discreta. Si ha

[!] Siano X e Y v.a. su

 X D E X jY :

(5.1.7)

Dimostrazione Per ogni H 2 Bd , per la (5.1.5) si ha  X P .X 2 H j Bn /P .Bn / E X jY .H / D n1

D

X

P ..X 2 H / \ Bn / D P .X 2 H / D X .H /: 

n1

Esempio 5.1.8 Il numero di mail di spam ricevute ogni giorno da una casella di posta è una v.a. con distribuzione Poisson10 . Installando un software antispam è possibile dimezzare il numero medio di mail di spam ricevute. Sapendo che tale software protegge solo l’80% delle caselle di posta di un’azienda, determiniamo la distribuzione e la media del numero di mail di spam ricevute ogni giorno da ogni casella di posta dell’azienda. Sia Y Bep , con p D 80%, la v.a. che vale 1 se una casella di posta è protetta e 0 altrimenti. Se X indica il numero di mail di spam ricevute, si ha per ipotesi X jY D Y Poisson5 C .1  Y /Poisson10 : Allora, per la Formula della probabilità totale (5.1.7), si ha  X D E X jY D pX jY D1 C .1  p/X jY D0 D pPoisson5 C .1  p/Poisson10 da cui E ŒX D pE ŒX j Y D 1 C .1  p/E ŒX j Y D 0 D 80%  5 C 20%  10 D 6:

5.1 Il caso discreto

235

Infine, per il Teorema del calcolo della media si ha Z E ŒX j Y  D xX jY .dx/ R

Z

Z xPoisson5 .dx/ C .1  Y /

DY R

xPoisson10 .dx/ R

D 5Y C 10.1  Y /: Esempio 5.1.9 Supponiamo che X jY D ExpY con Y Geomp : allora si ha ZC1 t DC1 Ye t Y dt D e t Y t Dx D e xY ; P .X  x j Y / D ExpY .Œx; C1Œ/ D x

per ogni x  0. Quindi si ha  X nx E ŒP .X  x j Y / D E e xY D e p.1  p/n1 D n2N

p p  1 C ex

e d’altra parte, per la Formula della probabilità totale, vale E ŒP .X  x j Y / D P .X  x/ che fornisce l’espressione della CDF (e quindi della distribuzione) di X. Infatti, osservando che chiaramente P .X  x j Y / D 1 se x < 0, si ha ( P .X  x/ D

1

se x < 0;

p p1Cex

se x  0;

da cui si deduce che X è una v.a. assolutamente continua con densità (si veda la Figura 5.1) 8 0 è usualmente chiamato intensità.

236

5 Probabilità condizionata

Figura 5.1 Grafico della densità in (5.1.8) per p D 0:5

L’attesa condizionata gode di due proprietà che la caratterizzano univocamente. Proposizione 5.1.10 [!] Date due variabili aleatorie X e Y su .˝; F ; P /, con X 2 L1 .˝; P / e Y discreta, poniamo Z D E ŒX j Y . Allora si ha: i) Z 2 m .Y /; ii) per ogni W 2 b .B/ vale E ŒZW  D E ŒXW  : Inoltre, se Z 0 è una v.a. che verifica le proprietà i) e ii) allora Z 0 .!/ D Z.!/ per ogni ! 2 ˝. Dimostrazione La i) è immediata conseguenza della (5.1.6). Per quanto riguarda la ii), per il Teorema 3.3.3 di Doob esiste f misurabile e limitata tale che W D f .Y / o, più esplicitamente X W D f .yn /½Bn : (5.1.9) n1

Allora per la (5.1.6) si ha " E ŒW Z D E f .Y / D

X

X

# E ŒX j Bn  ½Bn

n1

f .yn /E ŒX j Bn  E Œ½Bn  D

n1

D

X n1

f .yn /E ŒX ½Bn  D E ŒXW  :

(per la (3.4.1))

5.1 Il caso discreto

237

Infine, se Z 0 gode delle proprietà i) e ii) allora Z 0 è della forma (5.1.9) e, per la ii) con W D ½Bn , si ha  f .yn /P .Bn / D E Z 0 ½Bn D E ŒX ½Bn  da cui segue f .yn / D E ŒX j Bn .  Osservazione 5.1.11 (Funzione probabilità condizionata) Data Y v.a. a valori nello spazio misurabile .E; E /, abbiamo definito la probabilità condizionata come la variabile aleatoria ! 7! P! . j Y / in (5.1.2). È utile dare anche una definizione alternativa (e sostanzialmente equivalente) di probabilità condizionata come funzione di y 2 E: diciamo che la famiglia P . j Y / D .P . j Y D y//y2Y.˝/ di misure di probabilità su .˝; F / è la funzione probabilità condizionata a Y  . Analogamente,  la funzione distribuzione condizionata a Y è la famiglia X jY D X jY Dy y2Y.˝/ di distribuzioni definite da X jY Dy .H / WD P .X 2 H j Y D y/;

H 2 Bd ; y 2 Y.˝/;

e la funzione attesa condizionata è la famiglia E ŒX j Y  D .E ŒX j Y D y/y2Y.˝/ definita da Z (per la Proposizione 3.4.2) E ŒX j Y D y D XdP . j Y D y/ D ˝

D

1 P .Y D y/

Z y 2 Y.˝/:

XdP; .Y Dy/

Esempio 5.1.12 Calcoliamo E ŒX1 j Y  dove X1 ; : : : ; Xn Bep , con 0 < p < 1, sono indipendenti e Y D X1 C    C Xn . Poiché Y Binn;p , abbiamo E ŒX1 j Y D k D 0  P .X1 D 0 j Y D k/ C 1  P .X1 D 1 j Y D k/ D

(posto Z D X2 C    C Xn

Binn1;p )

P ..X1 D 1/ \ .Z D k  1// (per l’indipendenza D P .Y D k/ di X1 e Z) P .X1 D 1/P .Z D k  1/ D P .Y D k/ n1 k1 p p .1  p/n1.k1/ k D k1n k D ; k D 0; : : : ; n; nk n k p .1  p/ D

è la funzione attesa di X1 condizionata a Y . Equivalentemente si ha E ŒX1 j Y  D

Y : n

238

5 Probabilità condizionata

Osservazione 5.1.13 Consideriamo Y D ½B con B 2 F tale che 0 < P .B/ < 1: nelle applicazioni si interpreta la  -algebra generata da Y  .Y / D f;; ˝; B; B c g come “l’informazione riguardo al fatto che l’evento B sia avvenuto o meno”. Notiamo la differenza concettuale fra: i) condizionare a B, nel senso di condizionare al fatto che B è avvenuto; ii) condizionare a Y , nel senso di condizionare al fatto di sapere se B sia avvenuto o meno. Per questo motivo l’attesa condizionata E ŒX j Y  è definita come in (5.1.6) ossia: ( E ŒX j B se ! 2 B; E ŒX j Y  .!/ WD E ŒX j B c  se ! 2 B c : Intuitivamente, E ŒX j B rappresenta l’attesa di X stimata in base all’osservazione che B è accaduto: pertanto E ŒX j B è un numero, un valore deterministico. Al contrario, si può pensare a E ŒX j Y  come a una stima futura di X che dipenderà dall’osservare se B avviene o no (oppure alla stima di X che è data da un individuo che sa se B è avvenuto o no): per questo motivo E ŒX j Y  è definita come una variabile aleatoria.

5.1.1

Esempi

Esempio 5.1.14 L’urna A contiene n 2 N palline di cui solo k1  n sono bianche. L’urna B contiene n 2 N palline di cui solo k2  n sono bianche. Si sceglie a caso un’urna e si effettua una successione di estrazioni con reinserimento. Determiniamo la distribuzione del numero X di estrazioni necessarie per trovare la prima pallina bianca. Sia Y Bep , con p D 12 , la v.a. che vale 1 se viene scelta l’urna A e vale 0 altrimenti. Allora, ricordando l’Esempio 3.1.24 sulla distribuzione geometrica, si ha X jY D Y Geom k1 C .1  Y /Geom k2 ; n

n

e per la formula della probabilità totale (5.1.7) si ha X D

 1 Geom k1 C Geom k2 : n n 2

Infine E ŒX D

n.k1 C k2 / : 2k1 k2

5.1 Il caso discreto

239

Esempio 5.1.15 Il numero di email ricevute ogni giorno è una v.a. Y Poisson con  D 20. Ogni email ha probabilità p D 15% di essere spam, indipendentemente dalle altre. Determiniamo la distribuzione della v.a. X che indica il numero di email di spam ricevute ogni giorno. Intuitivamente ci aspettiamo che X Poissonp . In effetti, per ipotesi si ha ( P .X D k j Y D n/ D

Binn;p .fkg/

se k  n;

0

se k > n;

è la probabilità che, su n email ricevute, ce ne siano esattamente k di spam. Per la Formula della probabilità totale si ha X P .X D k/ D P .X D k j Y D n/P .Y D n/ n0

! X n n D p k .1  p/nk e  nŠ k nk

D

e  .p/k X .1  p/nk nk D kŠ .n  k/Š

(posto h D n  k)

nk

D

.p/k e  .p/k X .1  p/h h D e p D Poissonp .fkg/: kŠ hŠ kŠ h0

Esempio 5.1.16 Siano Xi Poissoni , i D 1; 2, indipendenti e Y WD X1 C X2 . Sappiamo (cfr. Esempio 3.6.5) che Y Poisson1 C2 . Proviamo che X1 jY D BinY;

1 1 C2

:

Indichiamo con X1 jY D la funzione distribuzione di X1 condizionata a Y . Per k 2 f0; 1; : : : ; ng, si ha X1 jY Dn .fkg/ D

P ..X1 D k/ \ .Y D n// D P .Y D n/

P .X1 D k/P .X2 D n  k/ D D P .Y D n/

(per l’indipendenza di X1 e X2 ) e1 k1 e2 nk 2 kŠ .nk/Š e1 2 .1 C2 /n nŠ

e d’altra parte X1 jY Dn .fkg/ D 0 per gli altri valori di k. Da ciò si conclude facilmente. Esercizio 5.1.17 Siano Xi Geomp , i D 1; 2, indipendenti e Y WD X1 C X2 . Provare che i) Y .fng/ D .n  1/p 2 .1  p/n2 , per n  2; ii) X1 jY D Uniff1;2;:::;Y 1g .

240

5.2

5 Probabilità condizionata

Attesa condizionata

In uno spazio .˝; F ; P / siano X una v.a. sommabile e G una sotto- -algebra di F . In questa sezione diamo la definizione di attesa di X condizionata a G . Osserviamo che non è possibile in generale definire E ŒX j G  come nel caso discreto perché non è chiaro come partizionare lo spazio campionario ˝ a partire da G . Il problema è che una  -algebra può avere una struttura molto complicata: si pensi, per esempio, alla  -algebra di Borel sullo spazio Euclideo. Inoltre, nel caso G D  .Y / con Y assolutamente continua, la definizione (5.1.1) perde significato perché ogni evento del tipo .Y D Y.!// è trascurabile. Per superare questi problemi, la definizione generale di attesa condizionata è data in termini delle due proprietà fondamentali della Proposizione 5.1.10. Il seguente risultato mostra che una v.a. che soddisfa tali proprietà esiste sempre e, in un certo senso, è unica. Teorema 5.2.1 Siano X 2 L1 .˝; F ; P / a valori in Rd e G una sotto- -algebra di F . Esiste una v.a. Z 2 L1 .˝; P / a valori in Rd che soddisfa le seguenti proprietà: i) Z 2 mG ; ii) per ogni v.a. W 2 mG limitata, vale E ŒZW  D E ŒXW  :

(5.2.1)

Inoltre se Z 0 verifica i) e ii) allora Z D Z 0 quasi certamente. Dimostrazione (Unicità) Consideriamo il caso d D 1. Dimostriamo un risultato leggermente più generale da cui segue facilmente l’unicità: siano X; X 0 v.a. sommabili, tali che X  X 0 quasi certamente e siano Z; Z 0 v.a. che verificano le proprietà i) e ii) rispettivamente per X e X 0 . Allora Z  Z 0 quasi certamente. Infatti, poniamo   n 2 N: An D Z  Z 0  1=n ; Allora An 2 G per la i), e vale   (per ii)) 0  E .X  X 0 /½An D E ŒX ½An   E X 0 ½An D 0   1 D E ŒZ ½An   E Z ½An D E .Z  Z 0 /½An  P .An / n da cui P .An / D 0 e, per la continuità dal basso di P , si ha anche P .Z > Z 0 / D 0. Il caso d > 1 segue ragionando componente per componente. (Esistenza) Diamo una dimostrazione dell’esistenza basata su risultati di analisi funzionale, in particolare relativi alla proiezione ortogonale in spazi di Hilbert. Consideriamo dapprima l’ipotesi più restrittiva che X appartenga a L2 .˝; F ; P / che è uno spazio di Hilbert col prodotto scalare hX; Zi D E ŒXZ :

5.2 Attesa condizionata

241

Anche L2 .˝; G ; P / è uno spazio di Hilbert ed è un sotto-spazio chiuso di L2 .˝; F ; P / poiché G  F . Allora esiste la proiezione Z di X su L2 .˝; G ; P / e per definizione si ha: i) Z 2 L2 .˝; G ; P / e quindi in particolare Z è G -misurabile; ii) per ogni W 2 L2 .˝; G ; P / si ha E Œ.Z  X/W  D 0:

(5.2.2)

Dunque Z è proprio la v.a. cercata: dal punto di vista geometrico, Z è la v.a. G -misurabile che meglio approssima X nel senso che, fra le v.a. G -misurabili, è la meno distante da X rispetto alla distanza di L2 . Consideriamo ora X 2 L1 .˝; F ; P / tale che X  0 quasi certamente. Il caso di X a valori in Rd si prova ragionando sulla parte positiva e negativa di ogni singola componente. La successione definita da Xn D X ^ n;

n 2 N;

è crescente, appartiene a L2 e tende puntualmente a X: ad ogni Xn associamo Zn definita come sopra, ossia come proiezione di Xn su L2 .˝; G ; P /. Per quanto visto nella prima parte della dimostrazione, per ogni n 2 N vale 0  Zn  ZnC1 quasi certamente: di conseguenza si ha anche che, a meno di un evento A trascurabile, vale 0  Zn  ZnC1 ;

8n 2 N:

Definiamo Z.!/ D sup Zn .!/;

! 2 ˝ n A;

n2N

e Z D 0 su A. Allora Z 2 mG essendo limite puntuale di v.a. in mG . Inoltre, sia W limitata e G -misurabile: a meno di considerare separatamente parte positiva e negativa, non è restrittivo considerare W  0. Per il Teorema di Beppo-Levi, si ha E ŒXW  D lim E ŒXn W  D lim E ŒZn W  D E ŒZW  :  n!1

n!1

Osservazione 5.2.2 [!] Per il secondo Teorema di Dynkin (Teorema A.8), la proprietà ii) del Teorema 5.2.1 equivale alla seguente proprietà, in generale più semplice da verificare: ii-b) vale E ŒZ ½G  D E ŒX ½G  per ogni G 2 A , dove A è una famiglia \-chiusa tale che  .A / D G .

242

5 Probabilità condizionata

Definizione 5.2.3 (Attesa condizionata) Siano X 2 L1 .˝; F ; P / e G una sotto- -algebra di F . Se Z soddisfa le proprietà i) e ii) del Teorema 5.2.1 allora scriviamo Z D E ŒX j G 

(5.2.3)

e diciamo che Z è una versione dell’attesa condizionata di X a G . In particolare, se G D  .Y / con Y v.a. su .˝; F ; P /, scriviamo Z D E ŒX j Y  invece di Z D E ŒX j  .Y /. Osservazione 5.2.4 [!] La (5.2.3) non è da intendersi come un’equazione, ossia come un’identità fra i membri a destra e a sinistra dell’uguaglianza: al contrario, essa è una notazione, un simbolo che indica che Z gode delle proprietà i) e ii) del Teorema 5.2.1 (e quindi è una versione dell’attesa condizionata di X a G ). L’attesa condizionata è definita implicitamente, mediante le proprietà i) e ii), a meno di eventi trascurabili di G : in altri termini se Z D E ŒX j G  e Z 0 differisce da Z su un evento trascurabile di G , allora anche Z 0 D E ŒX j G . Per questo motivo si parla di versione dell’attesa condizionata, anche se nel seguito per semplicità diremo impropriamente che Z è attesa condizionata di X a G . Però attenzione: se Z D E ŒX j G  e Z 0 D Z q.c., non è detto che Z 0 D E ŒX j G . Si tratta di una sottigliezza a cui si deve porre attenzione: modificando Z su un evento C trascurabile ma tale che C … G si può perdere la proprietà di G -misurabilità. Nel seguito sarà utile considerare uguaglianze di attese condizionate. Per evitare ambiguità useremo la seguente convenzione: se H  G la scrittura E ŒX j H  D E ŒX j G 

(5.2.4)

significa che se Z D E ŒX j H  allora Z D E ŒX j G  (tuttavia può esistere una versione Z 0 di E ŒX j G  che non è attesa di X condizionata a H poiché Z 0 2 mG n mH ). Si noti che le notazioni E ŒX j H  D E ŒX j G  e E ŒX j G  D E ŒX j H  non sono equivalenti a meno che non sia H D G . Osservazione 5.2.5 [!] Siano X; Y 2 L2 .˝; P / e Z D E ŒX j Y . Allora E ŒX  Z D 0;

cov .X  Z; Y / D 0;

(5.2.5)

ossia X  Z ha media nulla ed è scorrelata da Y . La prima equazione segue dalla (5.2.2) con W D 1. Per la seconda si ha cov .X  Z; Y / D E Œ.X  Z/Y   E ŒX  Z E ŒY  D 0 poiché E Œ.X  Z/Y  D 0 per la3 (5.2.1) con W D Y . 3

Più precisamente, si veda la (5.2.2).

5.2 Attesa condizionata

243

Nella prova del Teorema 5.2.1 abbiamo dimostrato anche il risultato seguente: Corollario 5.2.6 Siano X 2 mF C e G una sotto- -algebra di F . Esiste una v.a. Z che soddisfa le seguenti proprietà: i) Z 2 mG C ; ii) per ogni v.a. W 2 mG C , vale E ŒZW  D E ŒXW  : Inoltre se Z 0 verifica i) e ii) allora Z D Z 0 quasi certamente. Il Corollario 5.2.6 permette di estendere la Definizione 5.2.3 di attesa condizionata alle v.a. integrabili (non necessariamente sommabili).

5.2.1

Proprietà dell’attesa condizionata

In questa sezione proviamo alcune proprietà dell’attesa condizionata. Consideriamo due v.a. reali X; Y 2 L1 .˝; F ; P / e G ; H sotto- -algebre di F . Teorema 5.2.7 Valgono le seguenti proprietà: 1) (Formula della probabilità totale) E ŒX D E ŒE ŒX j G  :

(5.2.6)

2) Se X 2 mG allora X D E ŒX j G  : 3) Se X e G sono indipendenti allora E ŒX D E ŒX j G  : 4) (Linearità) per ogni a 2 R si ha E ŒaX C Y j G  D aE ŒX j G  C E ŒY j G  : 5) (Monotonia) Se P .X  Y / D 1 allora E ŒX j G   E ŒY j G  ; nel senso che se Z D E ŒX j G  e W D E ŒY j G  allora P .Z  W / D 1.

244

5 Probabilità condizionata

6) Se X è G -misurabile e limitata, si ha E ŒXY j G  D XE ŒY j G  :

(5.2.7)

7) (Proprietà della torre) Se H  G , si ha4 E ŒE ŒX j G  j H  D E ŒX j H  : 8) (Teorema di Beppo-Levi) Se 0  Xn % X allora lim E ŒXn j G  D E ŒX j G  :

n!1

9) (Lemma di Fatou) Se .Xn /n2N è una successione di v.a. in mF C , allora h i E lim inf Xn j G  lim inf E ŒXn j G  : n!1

n!1

10) (Teorema della convergenza dominata) Se .Xn /n2N è una successione che converge q.c. a X e vale jXn j  Y 2 L1 .˝; P / q.c. per ogni n 2 N, allora si ha lim E ŒXn j G  D E ŒX j G  :

n!1

11) (Disuguaglianza di Jensen) Se ' è una funzione convessa tale che '.X/ 2 L1 .˝; P /, si ha ' .E ŒX j G /  E Œ'.X/ j G  : 12) Per ogni p  1 si ha kE ŒX j G kp  kXkp : 13) (Lemma di freezing) Siano G ; H indipendenti, X 2 mG e f D f .x; !/ 2 m .B ˝ H / tale che f .X; / 2 L1 .˝; P /. Allora si ha E Œf .X; / j G  D F .X/ dove F .x/ WD E Œf .x; / ;

(5.2.8)

o, con una scrittura più compatta, E Œf .X; / j G  D E Œf .x; / jxDX : 14) (CHF condizionata e indipendenza) X e G sono indipendenti se e solo se   E e i X j G D E e i X ;

2 R; ossia se la CHF 'X e la CHF condizionata 'X jG coincidono. 15) Se Z D E ŒX j G  e Z 2 mH con H  G allora Z D E ŒX j H . 4

Vale anche E ŒE ŒX j H  j G  D E ŒX j H 

che segue direttamente dalla proprietà 2) e dal fatto che E ŒX j H  2 mG poiché H  G .

5.2 Attesa condizionata

245

Dimostrazione 1) Basta porre W D 1 nella (5.2.1). 2) Segue direttamente dalla definizione. 3) La v.a. costante Z WD E ŒX è chiaramente G -misurabile (perché  .Z/ D f;; ˝g) e inoltre, per ogni v.a. W 2 mG limitata, per l’ipotesi di indipendenza vale E ŒXW  D E ŒX E ŒW  D E ŒE ŒX W  D E ŒZW  : Questo prova che Z D E ŒX j G . 4) Si tratta di dimostrare che se Z D E ŒX j G  e W D E ŒY j G , nel senso che verificano le proprietà i) e ii) del Teorema 5.2.1, allora aZ CW D E ŒaX C Y j G . È una semplice verifica lasciata per esercizio. 5) Questa proprietà è provata nella prima parte della dimostrazione del Teorema 5.2.1. 6) Sia Z D E ŒY j G . Dobbiamo provare che XZ D E ŒXY j G : i) X 2 mG per ipotesi e quindi XZ 2 mG ; ii) data W 2 mG limitata, si ha che anche XW 2 mG limitata e quindi E Œ.XZ/W  D E ŒZ.XW / D (poiché Z D E ŒY j G  ) D E ŒY.XW / D E Œ.XY /W / da cui la tesi. 7) Sia Z D E ŒX j H . Dobbiamo provare che Z D E ŒE ŒX j G  j H . Per definizione i) Z 2 mH ; ii) data W 2 mH limitata, si ha E ŒZW  D E ŒXW  : D’altra parte, se W 2 mH allora W 2 mG poiché H  G , e quindi E ŒE ŒX j G  W  D E ŒXW  : Allora E ŒZW  D E ŒE ŒX j G  W  da cui la tesi. 8) Poniamo Yn WD E ŒXn j G , n  1. Per la monotonia dell’attesa condizionata, 0  Yn  YnC1 q.c. e quindi esiste q.c. Y WD lim E ŒXn j G  ; n!1

con Y 2 mG C perché limite puntuale di v.a. G -misurabili. Inoltre, per ogni W 2 mG C , si ha 0  Yn W % Y W e 0  Xn W % XW q.c.; quindi per il Teorema di Beppo-Levi si ha E ŒY W  D lim E ŒYn W  D lim E ŒXn X D E ŒXW  ; n!1

che prova la tesi.

n!1

246

5 Probabilità condizionata

9)–11) La dimostrazione è sostanzialmente analoga al caso deterministico. 12) Segue facilmente dalla disuguaglianza di Jensen con '.x/ D jxjp . 13) Sia M la famiglia delle funzioni f 2 b.B ˝ H / che verificano la (5.2.8): M è una famiglia monotona di funzioni (cfr. Definizione A.7), come si dimostra facilmente utilizzando il Teorema di Beppo-Levi per l’attesa condizionata. Inoltre, la (5.2.8) vale per le funzioni della forma f .x; !/ D g.x/Y.!/ con g 2 b B e Y 2 b H : infatti in questo caso si ha F .x/ D g.x/E ŒY  e, per la proprietà (5.2.7), E Œg.X/Y j G  D g.X/E ŒY j G  D g.X/E ŒY  D F .X/: Allora la tesi segue dal secondo Teorema di Dynkin (Teorema A.8). 14) Per ogni Y 2 mG e 1 ; 2 2 R, si ha  '.X;Y / . 1 ; 2 / D E e i 1 X e i 2 Y D (per definizione di attesa condizionata)  i Y  i X (per ipotesi) DE E e 1 jG e 2 D i X  i Y  1 2 E e D 'X . 1 /'Y . 2 / DE e e la tesi segue dalla Proposizione 3.5.11-ii). 15) È un semplice esercizio.  Una conseguenza immediata del punto 13) del Teorema 5.2.7 è la seguente versione particolare del Lemma 5.2.8 (Lemma di freezing) Sia G una sotto- -algebra di F . Se X 2 mG , Y è una v.a. indipendente da G e f 2 mB2 è tale che f .X; Y / 2 L1 .˝; P /, allora si ha E Œf .X; Y / j G  D F .X/ dove F .x/ WD E Œf .x; Y / ; o, con una scrittura più compatta, E Œf .X; Y / j G  D E Œf .x; Y / jxDX : Esempio 5.2.9 Siano X; Y; U; V v.a. indipendenti con X; Y N0;1 e U 2 CV 2 ¤ 0 q.c. Proviamo che XU C Y V

N0;1 : Z WD p U2 C V 2 Infatti si ha

'Z . / D E e

X U CY V i p

U 2 CV 2

 D

(per la formula della probabilità totale (5.2.6))



X U CY V i p (per il Lemma di freezing D E E e U 2 CV 2 j .U; V / D e l’Esempio 3.5.16)

2 2



D E e 2 D e 2 da cui segue la tesi.

5.2 Attesa condizionata

5.2.2

247

Funzione attesa condizionata

In questa sezione consideriamo il caso G D  .Y / con Y v.a. su .˝; F ; P / a valori in uno spazio misurabile .E; E /. In analogia con l’Osservazione 5.1.11, diamo una definizione alternativa di attesa condizionata come funzione. Sia X 2 L1 .˝; F ; P / a valori in Rd . Se Z D E ŒX j Y  allora Z 2 m .Y / e quindi, per il Teorema 3.3.3 di Doob, esiste (e in generale non è unica) una funzione ˚ 2 mE tale che Z D ˚.Y /: per fissare le idee, si osservi il grafico seguente

Definizione 5.2.10 (Funzione attesa condizionata) Sia   ˚ W .E; E / ! Rd ; Bd una funzione tale che i) ˚ 2 mE ; ii) ˚.Y / D E ŒX j Y . Allora diciamo che ˚ è una versione della funzione attesa condizionata di X a Y e scriviamo ˚.y/ D E ŒX j Y D y :

(5.2.9)

Osservazione 5.2.11 La scrittura E ŒX j Y D y in (5.2.9) non indica l’attesa di X condizionata all’evento .Y D y/ nel senso della Definizione 2.3.2. Infatti tale definizione richiede che .Y D y/ non sia trascurabile mentre in (5.2.9) Y è una v.a. generica: per esempio, se Y è una v.a. reale assolutamente continua allora l’evento .Y D y/ ha probabilità nulla per ogni y 2 R. Pertanto la (5.2.9) non è da intendersi come un’equazione e non identifica univocamente ˚: si tratta di una notazione per indicare che ˚ è una qualsiasi funzione che verifica le due proprietà i) e ii) della Definizione 5.2.10. In altri termini, una funzione misurabile ˚ è una versione della funzione attesa condizionata di X a Y se e solo se la variabile aleatoria ˚.Y / è una versione dell’attesa condizionata di X a Y . In definitiva, l’attesa condizionata a  .Y / può essere interpretata come variabile aleatoria oppure come funzione: i due punti di vista sono sostanzialmente equivalenti e la scelta di quale adottare dipende generalmente dal contesto. Esempio 5.2.12 Se f 2 b Bd e Y una v.a. in Rd , allora f .y/ D E Œf .Y / j Y D y ;

y 2 Rd :

248

5 Probabilità condizionata

Osservazione 5.2.13 (Caratterizzazione dell’attesa condizionata in L2 ) Sia d D 1. Per quanto visto nella dimostrazione del Teorema 5.2.1, nello spazio L2 .˝; F ; P / la Definizione 5.2.3 di attesa condizionata si esprime in termini di un problema ai minimi quadrati. Precisamente, per X 2 L2 .˝; F ; P / e G sotto- -algebra di F , si ha che Z D E ŒX j G  se e solo se Z realizza la minima distanza di X da L2 .˝; G ; P / nel senso che vale i h i h E .X  Z/2  E .X  W /2 ;

W 2 L2 .˝; G ; P /:

(5.2.10)

Il caso che si presenta più frequentemente nelle applicazioni è quello in cui G D  .Y / con Y 2 L2 .˝; F ; P /: se ˚.y/ D E ŒX j Y D y, ossia ˚ è una versione della funzione attesa condizionata di X a Y , allora ˚ 2 L2 .R; B ; Y / e per la (5.2.10) verifica h i E .X  ˚.Y //2 D

min

f 2L2 .R;B;Y /

i h E .X  f .Y //2 :

In altri termini, per determinare ˚ (e di conseguenza E ŒX j Y ) occorre risolvere il problema ai minimi quadrati ˚D

i h E .X  f .Y //2 :

arg min

(5.2.11)

f 2L2 .R;B;Y /

Come vedremo nell’Esempio 5.2.14, questo problema si risolve esplicitamente nel caso molto particolare di variabili con distribuzione congiunta normale, .X; Y /

N;C . In generale il problema (5.2.11) può essere risolto numericamente con il metodo “Least Square Monte Carlo” presentato nella Sezione 5.2.3. Infine notiamo che la (5.2.10) generalizza la disuguaglianza (3.2.21) valida per il valore atteso non condizionato. Esempio 5.2.14 Consideriamo un vettore aleatorio normale bidimensionale .X; Y / N;C con  D .1 ; 2 /;

X2 C D X Y

! X Y Y2

 0:

Proviamo che esistono a; b 2 R tali che aY C b D E ŒX j Y : in altri termini, la funzione lineare ˚.y/ D ay C b è una versione della funzione attesa condizionata di X a Y , ossia ay C b D E ŒX j Y D y. Se aY C b D E ŒX j Y  allora a; b sono determinati univocamente dalle equazioni in (5.2.5) che qui diventano E ŒaY C b D E ŒX ;

cov .X  .aY C b/; Y / D 0

5.2 Attesa condizionata

249

ossia a2 C b D 1 ;

aY2 D X Y :

D’altra parte, se a; b sono determinate in questo modo allora Z WD aY C b D E ŒX j Y  poiché: i) chiaramente Z 2 m .Y /; ii) osserviamo che X  Z e Y hanno distribuzione congiunta normale (poiché è .X  Z; Y / è funzione lineare di .X; Y /) e quindi non sono solo scorrelate ma anche indipendenti (cfr. Proposizione 3.5.18). Di conseguenza, per ogni W 2 m .Y / (che quindi è indipendente da X  Z), si ha E Œ.X  Z/W  D .E ŒX  E ŒZ/ E ŒW  D 0:

5.2.3

Least Square Monte Carlo

In questa sezione studiamo il problema dell’approssimazione numerica della funzione attesa condizionata ˚.y/ D E ŒF .X; Y / j Y D y

(5.2.12)

con F .X; Y / 2 L2 .˝; F ; P /, a partire dalla conoscenza della distribuzione congiunta .X;Y / in R2 . Se X; Y sono indipendenti allora per il Lemma di freezing si ha semplicemente ˚.y/ D E ŒF .X; y/, y 2 R: quindi per determinare ˚ è sufficiente calcolare un valore atteso e ciò può essere fatto numericamente col metodo Monte Carlo. In generale, si può utilizzare un estensione di tale metodo, detto Least Square Monte Carlo (LSMC), che è basato su una regressione multi-lineare del tipo visto nella Sezione 3.2.9. Si procede nel modo seguente: per l’Osservazione 5.2.13, ˚ è soluzione del problema ai minimi quadrati (5.2.11), ossia i h (5.2.13) ˚ D arg min E .f .Y /  F .X; Y //2 : f 2L2 .R;B;Y /

Consideriamo una base di L2 .R; B ; Y /, per esempio le funzioni polinomiali ˇk .y/ WD y k con k D 0; 1; 2; : : : , e fissato n 2 N, poniamo ˇ D .ˇ0 ; ˇ1 ; : : : ; ˇn /: Approssimiamo in dimensione finita il problema (5.2.13) cercando una soluzione N 2 RnC1 di i h (5.2.14) min E jhˇ.Y /; i  F .X; Y /j2 : 2RnC1

250

5 Probabilità condizionata

N l’approssimazione della funzione attesa condizionata in Una volta determinato , (5.2.12) è data da N ˚.y/ ' hˇ.y/; i: Risolviamo il problema (5.2.14) approssimando il valore atteso con il metodo Monte Carlo. Costruiamo due vettori x; y 2 RM le cui componenti sono ottenute simulando M valori delle variabili X e Y , con M sufficientemente grande. Per fissare le idee, M può essere dell’ordine di 105 o maggiore, mentre al contrario è sufficiente che il numero di elementi della base n sia piccolo, dell’ordine di qualche unità (si veda, per esempio, [22] o la monografia [21]). Posto Q./ WD

M X 2  hˇ.yk /; i  F .xk ; yk / ;

 2 RnC1 ;

kD1

il valore atteso in (5.2.14) è approssimato da i h Q./ E jh; ˇ.Y /i  F .X; Y /j2 ; M

M  1:

Come nella Sezione 3.2.9, il minimo di Q si determina imponendo rQ./ D 0. In notazioni vettoriali si ha Q./ D jB  Fj2 dove B D .bki / con bki D ˇi .yk / e F D .F .xk ; yk // per k D 1; : : : ; M e i D 0; : : : ; n. Quindi rQ./ D 2 .B B  B F/ e imponendo la condizione rQ./ D 0, nel caso la matrice B B sia invertibile, si ottiene N D .B B/1 B F: Il calcolo di N richiede l’inversione della matrice B B che ha dimensione .n C 1/  .n C 1/, da cui l’importanza di mantenere n piccolo. Notiamo che invece B è una matrice di grandi dimensioni, M  .n C 1/. Come esempio, in Figura 5.2 mostriamo il grafico delle prime quattro approssimazioni LSMC, con base polinomiale, della funzione attesa condizionata a Y ˚.y/ D E ŒF .X; Y / j Y D y ;

2

F .x; y/ D maxf1  e x y ; 0g;

con .X; Y / normale bidimensionale con media nulla, deviazioni standard X D 0:8, Y D 0:5 e correlazione % D 0:7.

5.3 Probabilità condizionata

251

2 3

1 4

Figura 5.2 Approssimazioni LSMC

5.3

Probabilità condizionata

Siano .˝; F ; P / uno spazio di probabilità e G una sotto- -algebra di F . Per ogni A 2 F fissiamo una versione ZA D E Œ½A j G  dell’attesa di ½A condizionata a G . Sembrerebbe naturale definire la probabilità condizionata a G ponendo P! .A j G / D ZA .!/;

! 2 ˝:

(5.3.1)

In realtà, poiché ZA è determinata a meno di un evento P -trascurabile che dipende da A, non è detto (e in generale non è vero) che P! . j G / così definita sia una misura di probabilità per ogni ! 2 ˝. Definizione 5.3.1 (Versione regolare della probabilità condizionata) Nello spazio .˝; F ; P /, una versione regolare   della probabilità condizionata a G è una famiglia P . j G / D P! . j G / !2˝ di misure di probabilità su .˝; F / tale che, per ogni A 2 F fissato, vale P .A j G / D E Œ½A j G  ossia i) P .A j G / è una v.a. G -misurabile; ii) per ogni W 2 b G vale E ŒWP .A j G / D E ŒW ½A  : L’esistenza di una versione regolare della probabilità condizionata è un problema tutt’altro che banale: in [13], [14] p. 624, [24] p. 210, sono dati esempi di non esistenza. Condizioni su .˝; F ; P / sufficienti5 a garantire l’esistenza di una versione regolare della probabilità condizionata sono state fornite da vari autori: il risultato 5

Il problema di fornire condizioni necessarie e sufficienti è complesso e in parte ancora aperto: al riguardo si veda [18].

252

5 Probabilità condizionata

più classico al riguardo è il seguente Teorema 5.3.2. Ricordiamo che uno spazio polacco è uno spazio metrico separabile6 e completo. Teorema 5.3.2 Sia P una misura di probabilità definita su .˝; B / dove ˝ è uno spazio polacco e B è la relativa  -algebra di Borel. Per ogni sotto- -algebra G di B , esiste una versione regolare della probabilità condizionata P . j G /. Dimostriamo il Teorema 5.3.2 nel caso particolare in cui ˝ D Rd (cfr. Teorema 5.3.4): per la dimostrazione generale si veda, per esempio, [46] p. 13 oppure [14] p. 380. L’idea è di sfruttare l’esistenza di un sottoinsieme A numerabile e denso in ˝, per definire dapprima una famiglia di misure di probabilità .P! . j G //!2A che verifichi la (5.3.1) e poi provare la tesi per densità di A in ˝. Esempio 5.3.3 Assumiamo esista P . j G /. Se G 2 G allora P .G j G / assume solo i valori 0 e 1. Infatti si ha P .G j G / D E Œ½G j G  D ½G : Sia ora X una v.a. su .˝; F ; P / a valori in Rd . Nel caso in cui esista una versione regolare P . j G / della probabilità condizionata a G , si pone X jG .H / WD P .X 2 H j G /;

H 2 Bd :

  Notiamo che, per definizione, X jG D X jG .I !/ !2˝ è una famiglia di distribuzioni in Rd e per questo motivo è chiamata versione regolare della distribuzione di X condizionata a G . Anche non assumendo l’esistenza di P . j G /, possiamo comunque definire una versione regolare della distribuzione di X condizionata a G basandoci sul concetto di attesa condizionata. È questo il contenuto del seguente Teorema 5.3.4 (Versione regolare della distribuzione condizionata) [!] In d uno spazio di probabilità .˝; F ; P /, siano X una v.a. a valori  in R e G una sotto- -algebra di F . Allora esiste una famiglia X jG D X jG .I !/ !2˝ di distribuzioni su Rd tali che, per ogni H 2 Bd , valga  X jG .H / D E ½.X 2H / j G :

(5.3.2)

Diciamo che X jG è una versione regolare della distribuzione di X condizionata a G. Dimostrazione Si veda la Sezione 5.4.1.  6

Uno spazio metrico S si dice separabile se esiste un sottoinsieme numerabile e denso in S .

5.3 Probabilità condizionata

253

Osservazione 5.3.5 [!] Anche se l’esistenza di una versione regolare P . j G / della probabilità condizionata a G non è garantita in generale, tuttavia con un piccolo abuso di notazione scriveremo indifferentemente X jG .H / o P .X 2 H j G / per indicare una versione regolare della distribuzione di X condizionata a G . Notazione 5.3.6 Nel seguito spesso ometteremo di indicare la dipendenza da ! 2 ˝ e scriveremo X jG invece di X jG .I !/, interpretando X jG come una “distribuzione aleatoria”. Se G D  .Y / dove Y è una qualsiasi v.a. su .˝; F ; P /, scriveremo X jY invece di X j .Y / . Esempio 5.3.7 [!] Se X 2 mG allora X jG D ıX . Infatti la famiglia .ıX.!/ /!2˝ gode delle seguenti proprietà: i) ovviamente ıX.!/ è una distribuzione su Rd per ogni ! 2 ˝; ii) per ogni H 2 Bd vale (poiché X 2 mG per ipotesi) ıX .H / D ½H .X/ D D E Œ½H .X/ j G  : Teorema 5.3.8 (Teorema del calcolo della media) [!] In uno spazio di probabilità .˝; F ; P /, siano X una v.a. a valori in Rd e G una sotto- -algebra di F . Se f 2 mBd e f .X/ 2 L1 .˝; P / si ha Z f dX jG D E Œf .X/ j G  : (5.3.3) Rd

Dimostrazione La tesi si prova applicando la procedura standard dell’Osservazione 3.2.21, sfruttando la linearità e il Teorema di Beppo-Levi per l’attesa condizionata. Basta considerare d D 1. Posto Z Z.!/ WD f .x/X jG .dxI !/; ! 2 ˝; R

dobbiamo provare che Z D E Œf .X/ j G . Ciò è vero per definizione (cfr. (5.3.2)) se f D ½H con H 2 B . Per linearità, la (5.3.3) si estende alle funzioni semplici. Inoltre, se f è a valori reali non-negativi, allora si considera una successione approssimante 0  fn % f di funzioni semplici e, applicando il Teorema di Beppo-Levi prima nella versione classica7 e poi per l’attesa condizionata, si ha Z Z f dX jG D lim fn dX jG D lim E Œfn .X/ j G  D E Œf .X/ j G  : n!1

R

n!1

R

Il caso di una f generica si tratta al solito separando la parte positiva e negativa e riutilizzando la linearità dell’attesa condizionata.  7

Qui utilizziamo il fatto che XjG D XjG .I !/ è una distribuzione per ogni ! 2 ˝.

254

5 Probabilità condizionata

Osservazione 5.3.9 [!] Il Teorema 5.3.8 chiarisce l’importanza del concetto di versione regolare della distribuzione condizionata, poiché esso garantisce che l’integrale in (5.3.3) sia ben definito. Teorema 5.3.10 (Formula della probabilità totale) [!] In uno spazio di probabilità .˝; F ; P /, siano X una v.a. a valori in Rd e G una sotto- -algebra di F . Allora si ha  X D E X jG : Dimostrazione Per definizione, per ogni H 2 Bd si ha    E X jG .H / D E E ½.X 2H / j G D E ½.X 2H / D X .H /:  In modo simile si dimostra il seguente utile risultato. Corollario 5.3.11 Siano X; Y v.a. su .˝; F ; P /, rispettivamente a valori in Rd e Rn . Allora si ha  .X;Y / .H  K/ D E X jY .H /½.Y 2K/ ;

H 2 Bd ; K 2 Bn :

(5.3.4)

La (5.3.4) mostra come si ricava la legge congiunta di X; Y a partire dalla legge condizionata X jY e dalla legge marginale Y : infatti la v.a. X jY .H /½.Y 2K/ è funzione di Y e pertanto il valore atteso in (5.3.4) è calcolabile a partire da Y . Dimostrazione del Corollario 5.3.11 Per definizione si ha  E X jY .H /½.Y 2K/   D E E ½.X 2H / j Y ½.Y 2K/ D

(per la proprietà ii) del Teorema 5.2.1 con W D ½.Y 2K/ )

 D E ½.X 2H / ½.Y 2K/ D .X;Y / .H  K/: 

Esempio 5.3.12 Data una v.a. bidimensionale .X; Y /, supponiamo che Y

UnifŒ0;1 e X jY D ExpY . Proviamo che .X; Y / è assolutamente continua e determiniamo la densità congiunta di X; Y e la densità marginale di X. Un’immediata conseguenza della (5.3.4) è la seguente formula per la CDF congiunta: dati x 2 R0 e y 2 Œ0; 1, si ha  P ..X  x/ \ .Y  y// D E ExpY .1; x/½.Y y/    D E 1  e xY ½.Y y/ Zy   e xy  1 C xy 1  e xt dt D D : x 0

5.3 Probabilità condizionata

255

Ne segue che la CDF di .X; Y / è 8 ˆ ˆ 0/;

(5.3.6)

Ricordiamo (cfr. Osservazione 2.4.19) che la densità di una v.a. è definita a meno di insiemi di Borel di misura nulla secondo Lebesgue.

5.3 Probabilità condizionata

257

è una versione regolare della densità di X condizionata a Y nel senso che la famiglia ..I y//y2.Y >0/ definita da Z .H I y/ WD

X jY .x; y/dx;

H 2 Bd ; y 2 .Y > 0/;

(5.3.7)

H

è una versione regolare della funzione distribuzione di X condizionata a Y . Di conseguenza, per ogni f 2 mBd tale che f .X/ 2 L1 .˝; P / vale Z f .x/X jY .x; y/dx D E Œf .X/ j Y D y

(5.3.8)

Rd

o equivalentemente Z f .x/X jY .x; Y /dx D E Œf .X/ j Y  :

(5.3.9)

Rd

Dimostrazione Si veda la Sezione 5.4.2.  Esempio 5.3.18 Sia .X; Y / un vettore aleatorio con distribuzione uniforme su S D f.x; y/ 2 R2 j x > 0; y > 0; x 2 C y 2 < 1g: Determiniamo: i) la distribuzione condizionata X jY ; ii) E ŒX j Y  e var.X j Y /; iii) la densità della v.a. E ŒX j Y . i) La densità congiunta è .X;Y / .x; y/ D

4 ½S .x; y/ 

e la marginale di Y è Z Y .y/ D R

p 4 1  y2 .X;Y / .x; y/dx D ½0;1Œ .y/: 

Allora X jY .x; y/ D

.X;Y / .x; y/ 1 ½ p 2 .x/; Dp Y .y/ 1  y 2 Œ0; 1y 

y 2 0; 1Œ;

258

5 Probabilità condizionata

da cui riconosciamo che X jY D UnifŒ0;p1Y 2  :

(5.3.10)

ii) Per la (5.3.10) si ha

p 1Y2 1Y2 E ŒX j Y  D ; var.X j Y / D : 2 12 In alternativa, in base alla (5.3.8) della Proposizione 5.3.17 si ha, per y 2 0; 1Œ, p Z 1  y2 E ŒX j Y D y D xX jY .x; y/dx D ; 2 R

Z

var .X j Y D y/ D R

!2 p 1  y2 1  y2 X jY .x; y/dx D : x 2 12 p

2

iii) Infine per determinare la densità della v.a. Z D 1Y utilizziamo la CDF: 2 si ha P .Z  0/ D 0, P .Z  1=2/ D 1 e per 0 < z < 1=2 vale  p 1  Y 2  2z P .Z  z/ D P   D P Y 2  1  4z 2   p D P Y  1  4z 2 p Z14z 2

D1

p 4 1  y2 dy: 

0

Derivando otteniamo la densità di Z: Z .z/ D

32z 2 p ½0;1=2Œ .z/:  1  4z 2

Corollario 5.3.19 (Formula della probabilità totale per la densità) Sia .X; Y / 2 AC un vettore aleatorio con densità .X;Y / . Vale  X D E X jY .; Y / : (5.3.11) Dimostrazione Per ogni f 2 b B si ha E Œf .X/ D E ŒE Œf .X/ j Y  D (per la (5.3.9)) 3 2 Z D E 4 f .x/X jY .x; Y /dx 5 D (per il Teorema di Fubini) Z D

Rd

 f .x/E X jY .x; Y / dx

Rd

e questo prova la tesi, data l’arbitrarietà di f . 

5.3 Probabilità condizionata

259

Esempio 5.3.20 Siano X; Y v.a. reali. Supponiamo Y Exp , con  > 0, e che la densità di X condizionata a Y sia di tipo esponenziale: X jY .x; y/ D ye xy ½Œ0;C1Œ .x/; ossia X jY D ExpY . Determiniamo la densità di X: utilizzando la (5.3.11) si ha  X .x/ D E Ye xY ½Œ0;C1 .x/ ZC1 ye xy e y dy ½Œ0;C1 .x/ D 0

D

 ½Œ0;C1 .x/: .x C /2

Si noti che X … L1 .˝; P /. Esempio 5.3.21 Riprendiamo l’Esempio 5.2.14 e consideriamo un vettore aleatorio normale bidimensionale .X; Y / N;C con ! X2 X Y  D .1 ; 2 /; C D > 0: X Y Y2 Determiniamo: i) la funzione caratteristica 'X jY e la distribuzione X jY di X condizionata a Y ; ii) E ŒX j Y . i) La densità di X condizionata a Y è X jY .x; y/ D

.X;Y / .x; y/ ; Y .y/

.x; y/ 2 R2 ;

da cui, con qualche calcolo, si trova  'X jY . 1 ; Y / D E e i 1 X j Y Z D e i 1 x X jY .x; Y /dx R

De

    2  i 1 1 C.Y 2 / X2Y  12 21 X2  X2Y Y

Y

;

ossia X jY D N

1 C.Y 2 /

X Y 2 Y

;X2 

2 XY 2 Y

:

(5.3.12)

260

5 Probabilità condizionata

ii) Da (5.3.12) si ha E ŒX j Y  D 1 C .Y  2 /

X Y Y2

(5.3.13)

in accordo con quanto visto nell’Esempio 5.2.14. Lo stesso risultato si ottiene con la (5.3.8), calcolando Z X Y E ŒX j Y D y D xX jY .x; y/dx D 1 C .y  2 / 2 : Y R

Esempio 5.3.22 Sia .X1 ; X2 ; X3 / un vettore aleatorio con distribuzione normale N;C dove 0

 D .0; 1; 0/ ;

1 1 1 0 C D @1 2 1 A : 0 1 3

Per determinare E Œ.X1 ; X2 ; X3 / j X3  ; anzitutto osserviamo che .X1 ; X3 / N.0;0/;C2 e .X2 ; X3 / N.1;0/;C1 dove ! 1 0 ; C2 D 0 3

! 2 1 C1 D : 1 3

Ricordando il Teorema 5.2.7-3) e osservando che X1 e X3 sono indipendenti poiché cov.X1 ; X3 / D 0, abbiamo che E ŒX1 j X3  D E ŒX1  D 0. Inoltre, per la (5.3.13), E ŒX2 j X3  D 1 C

X3 : 3

Infine, ancora per Teorema 5.2.7-2), si ha E ŒX3 j X3  D X3 . In definitiva   E Œ.X1 ; X2 ; X3 / j X3  D E ŒX1 j X3  ; E ŒX2 j X3  ; E ŒX3 j X3    X3 ; X3 : D 0; 1 C 3 Esempio 5.3.23 Il petrolio ricevuto da una raffineria contiene una concentrazione di detriti pari a Y Kg/barile dove Y Unif0;1 . Si stima che il processo di raffinazione porti la concentrazione di detriti da Y a X con X UnifŒ0;˛Y  dove ˛ < 1 è un parametro positivo noto. Determiniamo:

5.3 Probabilità condizionata

261

i) le densità .X;Y / e X ; ii) il valore atteso della concentrazione di detriti Y prima della raffinazione, dando per nota la concentrazione X dopo la raffinazione. i) I dati del problema sono: Y D Unif0;1 ;

X jY D UnifŒ0;˛Y  ;

ossia Y .y/ D ½Œ0;1 .y/;

X jY .x; y/ D

1 ½Œ0;˛y .x/; ˛y

y 2 0; 1:

Dalla formula (5.3.6) per la densità condizionata ricaviamo .X;Y / .x; y/ D X jY .x; y/Y .y/ D

1 ½0;˛yŒ0;1Œ .x; y/ ˛y

e Z X .x/ D

Z1 .X;Y / .x; y/dy D

R

x ˛

1 log ˛  log x ½0;˛Œ .x/: dy ½0;˛Œ .x/ D ˛y ˛

ii) Calcoliamo E ŒY j X. Si ha Y jX .y; x/ D

.X;Y / .x; y/ 1 ½.X >0/ .x/ D ½0;˛yŒ0;1Œ .x; y/ X .x/ y.log ˛  log x/ (5.3.14)

da cui

Z

E ŒY j X D x D

yY jX .y; x/dy R

1 ½0;˛Œ .x/ D log ˛  log x

Z1 dy D x ˛

˛x ½0;˛Œ .x/: ˛.log ˛  log x/

In definitiva si ha E ŒY j X D

˛X : ˛.log ˛  log X/

Notiamo che nella (5.3.14) abbiamo usato la relazione Y jX .y; x/ D

.X;Y / .x; y/  .x; y/ ½.X >0/ .x/ D X jY Y .y/; X .x/ X .x/

che è una versione della formula di Bayes.

262

5 Probabilità condizionata

Esempio 5.3.24 Sia .X; Y / un vettore aleatorio con distribuzione marginale Y D

2 e distribuzione condizionata X jY D N0; 1 . Ricordiamo che le relative densità Y sono r y  x2 y 1  y2 X jY .x; y/ D y > 0: Y .y/ D p e ; e 2 ; 2 2y Allora la densità congiunta è data da .X;Y / .x; y/ D X jY .x; y/Y .y/ D

1  .1Cx2 /y 2 ; e 2

y > 0;

e la marginale di X è ZC1 .X;Y / .x; y/dy D X .x/ D

1 ; .1 C x 2 /

x 2 R;

0

ossia X ha distribuzione di Cauchy (cfr. (3.5.5)).

5.4

Appendice

5.4.1

Dimostrazione del Teorema 5.3.4

Alla dimostrazione del Teorema 5.3.4 premettiamo il seguente risultato: diciamo che F W Q ! Œ0; 1 è una funzione di ripartizione (o CDF) su Q se: i) F è monotona crescente; ii) F è continua a destra nel senso che, per ogni q 2 Q, vale F .q/ D F .qC/ WD lim F .p/I p#q p2Q

(5.4.1)

iii) vale lim F .q/ D 0

q!1 q2Q

e

lim F .q/ D 1:

q!C1 q2Q

(5.4.2)

Lemma 5.4.1 Data una CDF F su Q, esiste una distribuzione  su R tale che F .q/ D .1; q/;

q 2 Q:

(5.4.3)

5.4 Appendice

263

Dimostrazione La funzione definita da11 FN .x/ WD lim F .y/; y#x y2Q

x 2 R;

è una CDF su R (provarlo per esercizio) e F D FN su Q. Allora per il Teorema 2.4.33 esiste una distribuzione  che verifica la (5.4.3).  Dimostrazione del Teorema 5.3.4 Basta considerare il caso d D 1. Per ogni q 2 Q, fissiamo una versione dell’attesa condizionata  F .q/ WD E ½.X q/ j G la cui esistenza è garantita dal Teorema 5.2.1. In realtà, F D F .q; !/ dipende anche da ! 2 ˝ ma per brevità scriveremo F D F .q/ considerando F .q/ come variabile aleatoria (G -misurabile, per definizione). In base alle proprietà dell’attesa condizionata e alla numerabilità di Q, si ha che P -quasi certamente F è una CDF su Q: più precisamente, esiste un evento trascurabile C 2 G tale che F D F .; !/ è una CDF su Q per ogni ! 2 ˝ n C . Infatti, se p; q 2 Q con p  q, allora ½.X p/  ½.X q/ e quindi   F .p/ D E ½.X p/ j G  E ½.X q/ j G D F .q/ a meno di un evento G -misurabile trascurabile, per la proprietà di monotonia dell’attesa condizionata. Analogamente si provano le proprietà (5.4.1) e (5.4.2) come conseguenza del Teorema della convergenza dominata per l’attesa condizionata: per esempio, se .pn /n2N è una successione in Q tale che pn # q 2 Q allora la successione di v.a. ½.X pn / n2N è limitata e converge puntualmente lim ½.X pn / .!/ D ½.X q/ .!/;

n!1

! 2 ˝;

da cui   lim F .pn / D lim E ½.X pn / j G D E ½.X q/ j G D F .q/:

n!1

n!1

In base al Lemma 5.4.1, per ogni ! 2 ˝ n C esiste una distribuzione  D .; !/ (ma scriveremo semplicemente  D .H /, per H 2 B ) tale che .1; p/ D F .p/;

p 2 Q:

Per costruzione,  è una distribuzione su R, a meno dell’evento trascurabile C 2 G : in realtà possiamo supporre che  sia una distribuzione su tutto ˝ ponendo, per 11

Il limite esiste per la monotonia di F .

264

5 Probabilità condizionata

esempio, .; !/ ı0 per ! 2 C . Proviamo ora che  soddisfa anche la (5.3.2): a tal fine utilizziamo il Teorema A.3 di Dynkin e poniamo  M D fH 2 B j .H / D E ½.X 2H / j G g: La famiglia A D f1; p j p 2 Qg

è \-chiusa,  .A / D B e, per costruzione, A  M . Se verifichiamo che M è una famiglia monotona, per il Teorema di Dynkin ne verrà che M D B da cui la tesi. Ora si ha: i) R 2 M poiché ½R .X/ 1 è G -misurabile e quindi coincide con la propria attesa condizionata. D’altra parte, .R/ D 1 su ˝ e quindi .R/ D E Œ½R .X/ j G ; ii) se H; K 2 M e H  K, allora .K n H / D .K/  .H / D E Œ½K .X/ j G   E Œ½H .X/ j G  D

(per la linearità dell’attesa condizionata)

D E Œ½K .X/  ½H .X/ j G   D E ½KnH .X/ j G I iii) sia .Hn /n2N una successione crescente di elementi di M . Per la continuità dal basso delle distribuzioni, si ha [ .H / D lim .Hn/; H WD Hn : n!1

n1

D’altra parte, per il Teorema di Beppo-Levi per l’attesa condizionata, si ha lim .Hn / D lim E Œ½Hn .X/ j G  D E Œ½H .X/ j G  : 

n!1

5.4.2

n!1

Dimostrazione della Proposizione 5.3.17

Consideriamo un vettore aleatorio .X; Y / in Rd  R, assolutamente continuo con densità .X;Y / . Lemma 5.4.2 Per ogni g 2 b Bd C1 vale Z Z g.x; y/.X;Y / .x; y/dxdy D 0: .Y D0/ Rd

(5.4.4)

5.4 Appendice

265

Dimostrazione Sia Y la densità di Y in (5.3.5). Essendo .X;Y /  0, per il Corollario 3.2.14 si ha Y .y/ D 0

H)

.X;Y / .; y/ D 0 q.o.

Allora, per ogni g 2 b Bd C1 e per ogni y tale che Y .y/ D 0, vale Z g.x; y/.X;Y / .x; y/dx D 0; Rd

da cui segue la (5.4.4).  Dimostrazione della Proposizione 5.3.17 Dobbiamo provare che la famiglia ..I y//y2.Y >0/ definita in (5.3.7)–(5.3.6) è una versione regolare della funzione distribuzione di X condizionata a Y secondo la definizione del Teorema 5.3.13. Anzitutto .I y/ è una distribuzione: infatti X jY .; y/ in (5.3.6) è una densità poiché è una funzione misurabile, non-negativa e tale che, per la (5.3.5), vale Z X jY .x; y/dx D Rd

1 Y .y/

Z .X;Y / .x; y/dx D 1: Rd

Fissiamo H 2 Bd . Per quanto riguarda la i) del Teorema 5.3.13, il fatto che y 7! .H I y/ 2 mB segue dal Teorema di Fubini e dal fatto che X jY è una funzione Borel-misurabile. Per quanto riguarda la ii) del Teorema 5.3.13, consideriamo W 2 b .Y /: per il Teorema di Doob, W D g.Y / con g 2 b B e quindi si ha Z g.y/.H I y/Y .y/dy D

E ŒW.H I Y / D R

Z D .Y >0/

Z

0 g.y/ @ Z

D

Z

(per il Teorema di Fubini) 1

X jY .x; y/dx A Y .y/dy

H

g.y/.X;Y / .x; y/dx dy D

(per la (5.4.4))

.Y >0/ H



D Rd R

 g.y/½H .x/.X;Y / .x; y/dx dy D E W ½.X 2H / : 

Appendice A

A.1

Teoremi di Dynkin

Indichiamo con ˝ un generico insieme non vuoto. Come anticipato nella Sezione 2.4.1, è difficile dare una rappresentazione esplicita della  -algebra  .A / generata da una famiglia A di sottoinsiemi di ˝. I risultati di questa sezione, dal carattere piuttosto tecnico, permettono di dimostrare che se una certa proprietà vale per gli elementi di una famiglia A allora vale anche per tutti gli elementi di  .A /. Definizione A.1 (Famiglia monotona di insiemi) Una famiglia M di sottoinsiemi di ˝ è una famiglia monotona se gode delle seguenti proprietà: i) ˝ 2 M ; ii) se A; B 2 M e A  B, allora B n A 2 M ; S iii) se .An /n2N è una successione crescente di elementi di M , allora An 2 M . n2N

Ogni  -algebra è una famiglia monotona mentre il viceversa non è necessariamente vero poiché la proprietà iii) di “chiusura rispetto all’unione numerabile” vale solo per successioni crescenti, ossia tali che An  AnC1 per ogni n 2 N. Tuttavia si ha il seguente risultato. Lemma A.2 Se la famiglia monotona M è \-chiusa1 allora è una  -algebra. Dimostrazione Se M è monotona verifica le prime due proprietà della definizione di  -algebra: rimane solo da provare la ii-b) della Definizione 2.1.1, ossia che l’unione numerabile di elementi di M appartiene ad M . Anzitutto, dati A; B 2 M , poiché A [ B D .Ac \ B c /c ; 1

Ossia tale che A \ B 2 M per ogni A; B 2 M .

© Springer-Verlag Italia S.r.l., part of Springer Nature 2020 A. Pascucci, Teoria della Probabilità, UNITEXT 123, https://doi.org/10.1007/978-88-470-4000-7

267

268

Appendice A

l’ipotesi di chiusura rispetto all’intersezione implica che A [ B 2 M . Ora, data una successione .An /n2N di elementi di M , definiamo la successione ANn WD

n [

Ak ;

n 2 N;

kD1

che è crescente e tale che ANn 2 M per quanto appena dimostrato. Allora si conclude che [ [ An D ANn 2 M n2N

n2N

per la iii) della Definizione A.1.  Osserviamo che l’intersezione di famiglie monotone è una famiglia monotona. Data una famiglia A di sottoinsiemi di ˝, indichiamo con M .A / l’intersezione di tutte le famiglie monotone che contengono A : diciamo cheM .A / è la famiglia monotona generata da A , ossia la più piccola famiglia monotona che contiene A . Teorema A.3 (Primo Teorema di Dynkin) [!] Sia A una famiglia di sottoinsiemi di ˝. Se A è \-chiusa allora M .A / D  .A /. Dimostrazione  .A / è monotona e quindi  .A /  M .A /. Viceversa, se proviamo che M .A / è \-chiusa allora dal Lemma A.2 seguirà che M .A / è una  -algebra e quindi  .A /  M .A /. Proviamo dunque che M .A / è \-chiusa. Poniamo M1 D fA 2 M .A / j A \ I 2 M .A /; 8 I 2 A g;

e proviamo che M1 è una famiglia monotona: poiché A  M1 , ne seguirà M .A /  M1 e quindi M .A / D M1 . Abbiamo: i) ˝ 2 M1 ; ii) per ogni A; B 2 M1 con A  B, vale .B n A/ \ I D .B \ I / n .A \ I / 2 M .A /;

I 2A;

e quindi B n A 2 M1 ; iii) sia .An / una successione crescente in M1 e indichiamo con A l’unione degli An . Allora abbiamo A\I D

[ n1

e quindi A 2 M1 .

.An \ I / 2 M .A /;

I 2A;

Appendice A

269

Questo prova che M .A / D M1 . Ora poniamo M2 D fA 2 M .A / j A \ I 2 M .A /; 8 I 2 M .A /g:

Abbiamo provato sopra che A  M2 . Inoltre, in modo analogo possiamo provare che M2 è una famiglia monotona: ne viene che M .A /  M2 e quindi M .A / D M2 ossia M .A / è \-chiusa.  Segue immediatamente dal Teorema A.3 il seguente Corollario A.4 Sia M una famiglia monotona. Se M contiene una famiglia \-chiusa A , allora contiene anche  .A /. Come secondo corollario dimostriamo la parte sull’unicità del Teorema 2.4.29 di Carathéodory (si veda l’Osservazione A.6). Corollario A.5 [!] Siano ;  misure finite su .˝;  .A // dove A è una famiglia \-chiusa e tale che ˝ 2 A . Se .A/ D .A/ per ogni A 2 A allora  D . Dimostrazione Sia M D fA 2  .A / j P .A/ D Q.A/g:

Verifichiamo che M è una famiglia monotona: dal primo Teorema di Dynkin seguirà che M  M .A / D  .A / da cui la tesi. Delle tre condizioni della Definizione A.1, la i) è vera per ipotesi. Per quanto riguarda la ii), se A; B 2 M con A  B allora si ha .B n A/ D .B/  .A/ D .B/  .A/ D .B n A/ e quindi S .B n A/ 2 M . Infine, se .An /n2N è una successione crescente in M eA D An , allora per la continuità dal basso delle misure (cfr. Proposizione n2N

2.1.30) si ha .A/ D lim .An / D lim .An / D .A/ n!1

n!1

da cui A 2 M e questo conclude la prova.  Osservazione A.6 La parte sull’unicità del Teorema 2.4.29 di Carathéodory segue facilmente dal Corollario A.5: la tesi è che se ;  sono misure  -finite su un’algebra A e coincidono su A allora coincidono anche su  .A /. Per ipotesi, esiste una successione .An /n2N in A tale che .An / D .An / < 1 S e˝ D An . Fissato n 2 N, poiché A è \-chiusa, utilizzando il Corollario A.5 n2N

si prova facilmente che .A \ An / D .A \ An /;

8A 2  .A /:

Passando al limite in n, la tesi segue dalla continuità dal basso delle misure.

270

Appendice A

Definizione A.7 (Famiglia monotona di funzioni) Una famiglia H di funzioni limitate, definite da un insieme ˝ a valori reali, è monotona se gode delle seguenti proprietà: i) H è uno spazio vettoriale reale; ii) la funzione costante 1 appartiene ad H ; iii) se .Xn /n2N è una successione di funzioni non-negative di H tale che Xn % X con X limitata, allora X 2 H . Teorema A.8 (Secondo Teorema di Dynkin) [!] Sia A una famiglia \-chiusa di sottoinsiemi di ˝. Se H è una famiglia monotona che contiene le funzioni indicatrici di elementi di A , allora H contiene anche tutte le funzioni limitate e  .A /-misurabili. Dimostrazione Poniamo M D fH  ˝ j ½H 2 H g:

Per ipotesi, A  M e, usando il fatto che H è una famiglia monotona, è facile provare che M è una famiglia monotona di insiemi. Allora M  M .A / D  .A /, dove l’uguaglianza è conseguenza del primo Teorema di Dynkin. Dunque H contiene le funzioni indicatrici di elementi di  .A /. Data X 2 m .A /, non-negativa e limitata, per Lemma 3.2.3 esiste una successione .Xn /n2N di funzioni semplici  .A /-misurabili e non-negative tali che Xn % X. Ogni Xn è combinazione lineare di funzioni indicatrici di elementi di  .A / e quindi appartiene ad H , essendo H uno spazio vettoriale: per la proprietà iii) di H , si ha che X 2 H . Infine, per provare che ogni funzione  .A /-misurabile e limitata appartiene ad H , è sufficiente decomporla nella somma della sua parte positiva e negativa. 

A.2

Assoluta continuità

A.2.1 Il Teorema di Radon-Nikodym In questa sezione approfondiamo il concetto di assoluta continuità fra misure di cui avevamo considerato un caso particolare (l’assoluta continuità rispetto alla misura di Lebesgue) nella Sezione 2.4.5. Come risultato principale proviamo che l’esistenza della densità è condizione necessaria e sufficiente per l’assoluta continuità: questo è il contenuto del classico Teorema di Radon-Nikodym. Definizione A.9 Siano ;  misure  -finite su .˝; F /. Diciamo che  è -assolutamente continua su F , e scriviamo   , se ogni insieme -trascurabile di F

Appendice A

271

è anche -trascurabile. Quando è importante specificare la  -algebra considerata, si scrive anche  F : Ovviamente se F1  F2 sono  -algebre, allora  F2  implica  F1  ma non è vero il viceversa. Esempio A.10 La Definizione 2.4.18 di assoluta continuità è un caso particolare della definizione precedente: infatti se  è una distribuzione assolutamente continua allora .H / D 0 per ogni H 2 B tale che Leb.H / D 0 o, in altri termini,  B Leb ossia  è assolutamente continua rispetto alla misura di Lebesgue. Teorema A.11 (Teorema di Radon-Nikodym) [!] Se ;  sono misure  -finite su .˝; F / e   , allora esiste g 2 mF C tale che Z A 2 F: (A.1) .A/ D gd; A

Inoltre se gQ 2 mF C verifica (A.1), allora g D gQ quasi ovunque rispetto a . Si dice che g è la densità (o la derivata di Radon-Nikodym) di  rispetto a  e si scrive d D gd

oppure

gD

d d

oppure

gD

d jF : d

Osservazione A.12 Siano ;  misure come nell’enunciato precedente, definite su .˝; F /, e f 2 mF C : approssimando f con una successione crescente di funzioni semplici non-negative come nel Lemma 3.2.3, grazie al Teorema di Beppo-Levi si ha Z Z d (per la (A.1) ed indicando con d f d D lim fn d D n!1 la derivata di Radon-Nikodym di  rispetto a ) ˝ ˝ Z d D lim fn d D (riapplicando il Teorema di Beppo-Levi) n!1 d ˝ Z d D f d: d ˝

Vale dunque la seguente formula per il cambio di misura di integrazione Z Z d f d D f d d ˝

per ogni f 2 mF C .

˝

272

Appendice A

Ricordiamo il seguente classico risultato. Teorema A.13 (Teorema di rappresentazione di Riesz) Se L è un operatore lineare e continuo su uno spazio di Hilbert .H; h; i/, allora esiste ed è unico y 2 H tale che L.x/ D hx; yi;

x 2 H:

Per la dimostrazione del Teorema A.13, e più in generale per un’introduzione semplice ma completa agli spazi di Hilbert, si veda il Capitolo 4 in [41]. Dimostrazione del Teorema A.11 [Unicità] Se g; gQ 2 mF C verificano la (A.1), allora si ha Z .g  g/d Q D 0; A 2 F: (A.2) A

In particolare, posto A D fg  gQ > 0g 2 F , deve essere .A/ D 0 ossia g  gQ -q.o. perché in caso contrario si avrebbe Z .g  g/d Q >0 A

che contraddice la (A.2). Analogamente si prova che g  gQ -q.o. [Esistenza] Supponiamo dapprima che ;  siano finite. Diamo una dimostrazione basata sul Teorema A.13 di Riesz. Consideriamo l’operatore lineare Z L.f / WD f d ˝

definito sullo spazio di Hilbert L2 .˝; F ; C/ munito dell’usuale prodotto scalare Z hf; gi D fgd. C /: ˝

L’operatore L è limitato e quindi continuo: infatti, applicando la disuguaglianza triangolare e poi la disuguaglianza di Hölder, si ha Z Z p jL.f /j  jf jd  jf jd. C /  kf kL2 . C /.˝/: ˝

˝

Allora per il Teorema di Riesz esiste ' 2 L2 .˝; F ;  C / tale che Z Z f d D f 'd. C /; f 2 L2 .˝; F ;  C /: ˝

˝

(A.3)

Appendice A

273

Proviamo che 0 < ' < 1 -quasi ovunque: a tal fine, poniamo A0 D f' < 0g, A1 D f' > 1g e fi D ½Ai 2 L2 .˝; F ;  C /, per i D 0; 1. Se fosse .Ai / > 0, dalla (A.3) si avrebbe Z Z Z .A0 / D f0 d D 'd. C /  'd < 0; ˝

A0

Z

.A1 / D

A0

Z

f1 d D ˝

Z

'd. C /  A1

'd > .A1 /; A1

che è assurdo. Ora, la (A.3) equivale a Z

Z f 'd D ˝

f .1  '/d;

f 2 L2 .˝; F ;  C /;

˝

e per il Lemma 3.2.3 e il Teorema di Beppo-Levi (che si applica poiché 0 < ' < 1 -quasi ovunque e quindi anche -quasi ovunque), tale uguaglianza si estende ad ogni f 2 mF C . In particolare, per f D ½'A si ottiene Z .A/ D

1' d; '

A 2 F:

A

Questo prova la tesi con g D 1' 2 mF C . ' Consideriamo ora il caso generale in cui ;  siano  -finite. Allora esiste una successione crescente .An /n2N in F , che ricopre ˝ e tale che . C /.An / < 1 per ogni n 2 N. Consideriamo le misure finite n .A/ WD .A \ An /;

n .A/ WD .A \ An /;

A 2 F ; n 2 N:

È facile vedere che n  n e quindi esiste gn 2 mF C tale che n D gn dn . Inoltre come nella dimostrazione dell’unicità, si prova che gn D gm su An per n  m. Allora consideriamo g 2 mF C definita da g D gn su An . Per ogni A 2 F si ha Z Z .A \ An / D n .A/ D gn dn D f d A

e la tesi segue passando al limite per n ! C1. 

A\An

274

Appendice A

A.2.2 Rappresentazione di aperti di R mediante intervalli Lemma A.14 Ogni aperto A di R si scrive come unione numerabile di intervalli aperti disgiunti: AD

]

an ; bn Œ:

(A.4)

n1

Dimostrazione Sia A un aperto di R. Dato x 2 A poniamo ax D inffa 2 R j esiste b tale che x 2 ax ; bŒ  Ag bx D supfb 2 R jax ; bŒ  Ag:

e

Allora è chiaro che x 2 Ix WD ax ; bx Œ  A. D’altra parte, se x; y 2 A e x ¤ y allora si ha che Ix \Iy D ; oppure Ix Iy . Infatti, se per assurdo fosse Ix \Iy ¤ ; e Ix ¤ Iy allora I WD Ix [ Iy sarebbe un intervallo aperto, incluso in A e tale che x 2 Ix  I : ciò contraddirebbe la definizione di ax e bx . Abbiamo quindi provato che A si scrive come unione di intervalli aperti disgiunti: ognuno di essi contiene un razionale differente e quindi si tratta di un’unione numerabile.  Osservazione A.15 [!] Come conseguenza del Lemma A.14, abbiamo che se  è una distribuzione su R e A è un aperto, allora per la (A.4) si ha .A/ D

X

.an; bn Œ/:

n1

Unendo questo risultato al Corollario 2.4.10, si conclude che due distribuzioni 1 e 2 su R sono uguali se e solo se 1 .I / D 2 .I / per ogni intervallo aperto I . Il Lemma A.14 non si estende al caso multi-dimensionale (o, peggio ancora, al caso di uno spazio metrico generico). Sembrerebbe naturale poter sostituire gli intervalli di R con i dischi. Tuttavia, così facendo il risultato diventa falso anche in dimensione uno (almeno se si suppone che il raggio dei dischi debba essere finito): basta considerare, per esempio, A D 0; C1Œ. Analogamente, un’unione disgiunta di dischi aperti di R2 è un insieme connesso se e solo se consiste di un solo disco: quindi non c’è speranza di rappresentare un generico aperto connesso di R2 come unione numerabile di dischi aperti disgiunti. Nella dimostrazione del Lemma A.14 abbiamo usato la densità dei razionali in R: data la sottigliezza degli argomenti, occorre fare attenzione a ciò che sembra intuitivo, come mostra il seguente Esempio A.16 Sia .xn /n2N una enumerazione dei punti di H WD 0; 1Œ\Q 2 B . Fissato " 2 0; 1Œ, sia .rn /n2N una successione di numeri reali positivi tali che la

Appendice A

275

serie X n1

rn
0g D

1 [

Hn

nD1

ha misura di Lebesgue nulla, ossia   0 q.o. Analogamente si prova che   0 q.o. e questo conclude la prova. 

Appendice A

277

Proposizione A.19 Se Zx F .x/ D F .a/ C

.t/dt;

x 2 Œa; b;

a

con  2 L1 .Œa; b/, allora esiste F 0 D  q.o. Dimostrazione A meno di considerare separatamente parte positiva e negativa di , possiamo assumere   0 q.o. (e quindi F monotona crescente). Osserviamo anzitutto che F è continua poiché2 xCh Z F .x C h/  F .x/ D .t/dt ! 0 h!0

x

per il Teorema della convergenza dominata. Assumiamo dapprima anche che  2 L1 : allora si ha ˇ xCh ˇ ˇ ˇ Z ˇ ˇ ˇ F .x C h/  F .x/ ˇ ˇ 1 ˇ ˇDˇ ˇ ˇ  kk1 .t/dt ˇ ˇ ˇ ˇ h ˇh ˇ x

e d’altra parte, per il Teorema A.17 di Lebesgue, essendo F monotona crescente, si ha che esiste F .x C h/  F .x/ D F 0 .x/ h!0 h lim

q.o.

Dunque, ancora per il Teorema della convergenza dominata, per a < x0 < x < b abbiamo Zx

Zx

0

F .t/dt D lim

h!0

x0

F .t C h/  F .t/ dt D h

x0

1 0 xCh xZ0 Ch Z 1@ D lim F .t/dt  F .t/dt A D h!0 h x

x0

D F .x/  F .x0 /: 2

Se h < 0 poniamo per definizione ZxCh Zx .t /dt D  .t /dt: x

xCh

(poiché F è continua)

278

Appendice A

Ne segue che Zx



 F 0 .t/  .t/ dt D 0;

x 2 Œa; b

a

e quindi, per la Proposizione A.18, F 0 D  q.o. Consideriamo ora il caso in cui  2 L1 .Œa; b/. Per n 2 N, consideriamo la successione ( .t/ se 0  .t/  n; n .t/ D 0 se .t/ > n: Allora si ha F D Fn C Gn dove Zx Fn .x/ D

Zx Gn .x/ D

n .t/dt; a

..t/  n .t// dt: a

Da una parte, Gn è una funzione crescente (e quindi derivabile q.o. con Gn0  0) poiché   n  0 e d’altra parte, per quanto appena provato, esiste Fn0 D n q.o. Quindi si ha F 0 D n C G 0  n

q.o.

e, passando al limite per n ! 1, F 0   q.o. Allora vale Zb

Zb

0

F .t/dt  a

.t/dt D F .b/  F .a/: a

Ma la disuguaglianza opposta viene dal Teorema A.17 di Lebesgue (si veda la (A.5)) e quindi Zb

F 0 .t/dt D F .b/  F .a/:

a

Allora si ha ancora Zb

  0 F .t/  .t/ dt D 0

a

e, poiché F 0   q.o., si conclude che F 0 D  q.o. 

Appendice A

279

A.2.4 Assoluta continuità di funzioni Definizione A.20 (Funzione assolutamente continua) Si dice che F W Œa; b ! R è assolutamente continua, e si scrive F 2 AC.Œa; b/, se, per ogni " > 0 esiste ı > 0 tale che N X

jF .bn /  F .an /j < "

(A.7)

nD1

per ogni scelta di un numero finito di intervalli disgiunti Œan ; bn   Œa; b tali che N X

.bn  an / < ı:

nD1

Esercizio A.21 Provare che se F 2 AC.Œa; b/ allora, per ogni " > 0 esiste ı > 0 tale che 1 X

jF .bn /  F .an /j < "

nD1

per ogni successione di intervalli disgiunti Œan ; bn   Œa; b tali che 1 X

.bn  an / < ı:

nD1

L’importanza delle funzioni assolutamente continue sta nel fatto che sono le funzioni per cui vale il teorema fondamentale del calcolo integrale. Il principale risultato di questa sezione è il seguente Teorema A.22 [!] Una funzione F è assolutamente continua su Œa; b se e solo se F è derivabile q.o. con F 0 2 L1 .Œa; b/ e vale Zx F .x/ D F .a/ C

F 0 .t/dt;

x 2 Œa; b:

a

Alla dimostrazione del Teorema A.22 premettiamo alcuni risultati preliminari. Anzitutto ricordiamo la

280

Appendice A

Definizione A.23 (Funzione a variazione limitata) Si dice che F W Œa; b ! R è a variazione limitata, e si scrive F 2 BV.Œa; b/, se q b _ X .F / WD sup jF .tk /  F .tk1 /j < 1  2PŒa;b kD1

a

dove PŒa;b indica l’insieme delle partizioni  dell’intervallo Œa; b, ossia delle scelte di un numero finito di punti  D ft0 ; t1 ; : : : ; tq g tali che a D t0 < t1 <    < tq D b: Una presentazione dei principali risultati sulle funzioni a variazione limitata si trova in [30]. Qui ricordiamo solo che per ogni F 2 BV.Œa; b/ si ha b c b _ _ _ .F / D .F / C .F /; a

a

c 2 a; bŒ;

(A.8)

c

e inoltre F si scrive come differenza di funzioni monotone crescenti nel modo seguente: per x 2 Œa; b F .x/ D u.x/  v.x/;

u.x/ WD

x _ .F /;

v.x/ WD u.x/  F .x/:

(A.9)

a

Lemma A.24 Se F 2 AC.Œa; b/ allora F 2 BV.Œa; b/ e nella decomposizione (A.9), le funzioni u; v sono monotone crescenti e assolutamente continue. Dimostrazione Poiché F 2 AC.Œa; b/, esiste ı > 0 tale che N X

jF .bn /  F .an /j < 1

nD1

per ogni scelta di un numero finito di intervalli disgiunti Œan ; bn   Œa; b tali che N X

.bn  an / < ı:

nD1

Questo implica che F 2 BV su ogni sotto-intervallo di Œa; b di lunghezza minore o uguale a ı. Allora il fatto che F 2 BV.Œa; b/ segue dalla (A.8), suddividendo Œa; b in un numero finito di intervalli di lunghezza minore o uguale a ı.

Appendice A

281

Proviamo ora che u 2 AC.Œa; b/ (e quindi anche v 2 AC.Œa; b/). Per ipotesi F 2 AC.Œa; b/ e quindi dato " > 0 esiste ı > 0 come nella Definizione A.20. Siano Œan ; bn   Œa; b, n D 1; : : : ; N , intervalli disgiunti tali che N X

.bn  an / < ı:

nD1

Si ha N X nD1

.u.bn /  u.an // D

bn N _ X

.F / D

N X

sup

qn X

nD1  2PŒan ;bn  kD1

nD1 an

jF .tn;k /  F .tn;k1 /j < "

poiché, in base alla (A.7), si ha qn N X X

jF .tn;k /  F .tn;k1 /j < "

nD1 kD1

per ogni partizione .tn;0 ; : : : ; tn;qn / 2 PŒan ;bn  .  Dimostrazione del Teorema A.22 Se F ammette una rappresentazione del tipo Zx F .x/ D F .a/ C

.t/dt;

x 2 Œa; b;

a

con  2 L1 .Œa; b/ allora chiaramente F è assolutamente continua per il Teorema della convergenza dominata di Lebesgue. Inoltre F 0 D  q.o. per la Proposizione A.19. Viceversa, se F 2 AC.Œa; b/, per il Lemma A.24 non è restrittivo assumere anche che F sia monotona crescente. Allora possiamo considerare la misura F definita come nel Teorema 2.4.33-i): F .x; y/ D F .y/  F .x/;

a  x < y  b:

Vogliamo provare che F è assolutamente continua rispetto alla misura di Lebesgue ossia F  Leb. Consideriamo B 2 B tale che Leb.B/ D 0: per definizione di misura di Lebesgue3 , per ogni ı > 0 esiste una successione .an ; bn /n2N di intervalli disgiunti tale che A  B;

Leb.A/ < ı;

A WD

1 [

an ; bn :

(A.10)

nD1 3

Ricordiamo che (cfr. (2.5.5)) Leb.B/ D inffLeb.A/ j B  A 2 U g

dove U indica la famiglia delle unioni numerabili di intervalli disgiunti della forma a; b.

282

Appendice A

Di conseguenza, per ogni " > 0 esistono ı > 0 e A come in (A.10) per cui si ha F .B/  F .A \ Œa; b/  "; dove la prima disuguaglianza è per la monotonia di F e la seconda viene dal fatto che F 2 AC.Œa; b/ e Leb.A/ < ı (si ricordi l’Esercizio A.21). Data l’arbitrarietà di ", si conclude che F .B/ D 0 e quindi F  Leb. Per il Teorema A.11 di Radon-Nikodym, esiste  2 L1 .Œa; b/ tale che Zx F .x/  F .a/ D F .a; x/ D

.t/dt;

x 2 Œa; b;

a

e grazie alla Proposizione A.19 concludiamo che F 0 D  q.o. 

A.3

Uniforme integrabilità

Forniamo uno strumento utile allo studio delle successioni di variabili aleatorie, il Teorema di Vitali: si tratta di una generalizzazione del Teorema della convergenza dominata di Lebesgue. In questa sezione X D .X t / t 2I è una famiglia di v.a. sullo spazio .˝; F ; P / a valori in Rd , con I insieme qualsiasi di indici. Diciamo che X è un processo stocastico. Definizione A.25 (Uniforme integrabilità) Un processo stocastico .X t / t 2I sullo spazio .˝; F ; P / è uniformemente integrabile se vale  lim sup E jX t j½.jX t jR/ D 0;

R!1 t 2I

 o, in altri termini, se per ogni " > 0 esiste R > 0 tale che E jX t j½.jX t jR/ < " per ogni t 2 I . q:c:

Teorema A.26 (Teorema di convergenza di Vitali) Se Xn ! X e .Xn /n2N è uniformemente integrabile allora E ŒjXn  Xj ! 0. Dimostrazione Proviamo la tesi nel caso X D 0. Fissato " > 0, esiste R > 0 tale  che E jXn j½.jXn jR/ < 2" per ogni n 2 N; inoltre, per il teorema della convergenza  dominata esiste n, N che dipende da " e R, tale che E jXn j½.jXn j 0 tale che  sup E jX t j½.jX t jR/  1: t 2I

Allora si ha

 E ŒjX t j  1 C E jX t j½.jX t jR/  1 C R:  Analogamente, dato " > 0 esiste R tale che E jX t j½.jX t jR/ < " allora per ogni A 2 F tale che P .A/ < 2R , si ha

" 2

per ogni t 2 I :

  " E ŒjX t j½A  D E jX t j½A\.jX t jR/ C E jX t j½A\.jX t j 0 esiste ı > 0 tale che E ŒjX t j½A  < " per ogni t 2 I e A 2 F tale che P .A/ < ı. Per la disuguaglianza di Markov, esiste R tale che P .jX t j  R/  e di conseguenza

1 sup E ŒjX t j < ı R t 2I

 E jX t j½.jX t jR/ < "

per ogni t 2 I .  Corollario A.29 Se .X t / t 2I e .Y t / t 2I sono uniformemente integrabili allora .X t C Y t / t 2I è uniformemente integrabile. Dimostrazione Utilizzando la caratterizzazione della Proposizione A.28, si tratta di una semplice verifica. 

284

Appendice A

Diamo ora qualche esempio. Proposizione A.30 Se esiste Y 2 L1 .˝; P / tale che jX t j  Y per ogni t 2 I allora .X t / t 2I è uniformemente integrabile. Dimostrazione Sia " > 0: per l’assoluta continuità del valore atteso (Corollario 3.2.12), esiste ı > 0 tale che E ŒjY j½A  < " per ogni A 2 F tale che P .A/ < ı. Ora, per la disuguaglianza di Markov si ha P .jX t j  R/ 

E ŒjX t j E ŒjY j  < ı; R R

se R >

E ŒjY j : ı

Allora   E jX t j½.jX t Rj/  E jY j½.jX t Rj/ < ":  Dalla Proposizione A.30 deduciamo che:  un processo formato da una sola v.a. X sommabile è uniformemente integrabile;  il teorema della convergenza dominata è un corollario del Teorema di Vitali. Proposizione A.31 Siano X 2 L1 .˝; F ; P / e .F t / t 2I una famiglia di sotto- algebre di F . Il processo definito da X t D E ŒX j F t  è uniformemente integrabile. Dimostrazione La prova è analoga a quella del Lemma A.30. Fissato " > 0, sia ı > 0 tale che E ŒjXj½A  < " per ogni A 2 F tale che P .A/ < ı. Combinando le disuguaglianze di Markov e di Jensen abbiamo P .jX t j  R/ 

E ŒjX t j E ŒjXj  < ı; R R

se R >

E ŒjXj : ı

Ancora per la disuguaglianza di Jensen si ha   E jX t j½.jX t jR/  E E ŒjXj j F t  ½.jX t jR/ D  D E jXj½.jX t jR/ < ":

(per le proprietà dell’attesa condizionata, essendo ½.jX t jR/ 2 b Ft ) 

Osservazione A.32 [!] La Proposizione A.31 si applica spesso nello studio della convergenza di particolari processi stocastici detti martingale. La situazione tipica è quella in cui si ha una successione .Xn /n2N che converge puntualmente; se Xn è della forma Xn D E ŒX j Fn  per una certa X 2 L1 .˝; P / e una famiglia .Fn /n2N di sotto- -algebre di F , allora per la Proposizione A.31, .Xn /n2N è uniformemente integrabile. Il Teorema di convergenza di Vitali garantisce che .Xn /n2N converge anche in norma L1 .˝; P /.

Appendice A

285

Proposizione A.33 Se esiste una funzione ' W R0 ! R0 crescente, tale che lim

r!C1

'.r/ r

D C1 e sup E Œ'.jX t j/ < 1 allora .X t / t 2I è t 2I

uniformemente integrabile. Dimostrazione Per ogni " > 0 esiste r" > 0 tale che Allora, per R > r" si ha  E jX t j½.jX t jR/ D E

'.r/ r

>

1 "

per ogni r  r" .

 jX t j '.jX t j/½.jX t jR/  " sup E Œ'.jX t j/ '.jX t j/ t 2I

da cui la tesi per l’arbitrarietà di ".  Osservazione A.34 Applichiamo la Proposizione A.33 con '.r/ D r p per un p > 1: si ha che se .X t / t 2I è limitata in norma Lp .˝; P /, ossia sup E ŒjX t jp  < 1, t 2I

allora è uniformemente integrabile.

Appendice B: Esercizi di riepilogo

B.1 Misure e spazi di probabilità Esercizio B.1 Siano A; B; C eventi indipendenti sullo spazio di probabilità .˝; F ; P /. Determinare se: i) A e B c sono indipendenti; ii) A e B [ C sono indipendenti; iii) A [ C e B [ C sono indipendenti. Soluzione i) È il contenuto della Proposizione 2.3.25, in base alla quale A; B 2 F sono indipendenti se e solo se lo sono Ac ; B oppure A; B c oppure Ac ; B c ; ii) in base al punto i), per dimostrare che A e B [C sono indipendenti, è sufficiente verificare che A e .B [C /c D B c \C c siano indipendenti oppure che A e B \C siano indipendenti: per l’ipotesi di indipendenza di A; B; C si ha P .A \ .B \ C // D P .A/P .B/P .C / D P .A/P .B \ C / da cui la tesi. iii) in generale A [ C e B [ C non sono indipendenti; per far vedere ciò, usiamo ancora la Proposizione 2.3.25 e verifichiamo che A \ C e B \ C non sono, in generale, indipendenti: infatti si ha P ..A \ C / \ .B \ C // D P .A \ B \ C / D P .A/P .B/P .C /; ma P .A \ C /P .B \ C / D P .A/P .B/P .C /2 : Esercizio B.2 Siano A; B; C eventi indipendenti sullo spazio di probabilità .˝; F ; P /, con P .A/ D P .B/ D P .C / D 12 . Calcolare: i) P .A [ B/; ii) P .A [ B [ C /. 287

288

Appendice B: Esercizi di riepilogo

Soluzione i) Si ha P .A [ B/ D 1  P .Ac \ B c / D 1  P .Ac /P .B c / D 1 

1 3 D : 4 4

Oppure in alternativa, ricordando che il simbolo ] indica l’unione disgiunta, si ha P .A [ B/ D P .A ] .B \ Ac // D D P .A/ C P .B \ Ac / D 1 1 3 1 D C  D : 2 2 2 4

(per l’indipendenza di B e Ac )

ii) Analogamente si ha P .A [ B [ C / D 1  P .Ac \ B c \ C c / D 1  P .Ac /P .B c /P .C c / D 1 

1 7 D ; 8 8

oppure P .A [ B [ C / D P .A [ B/ C P .C \ .A [ B/c / D (per il punto i)) 3 D C P .C \ Ac \ B c / D (per l’ipotesi di indipendenza) 4 3 3 1 7 D C P .C /P .Ac /P .B c / D C D : 4 4 8 8 Esercizio B.3 Dato n  2, sia ˝ lo spazio delle permutazioni di In WD f1; 2; : : : ; ng, cioè delle funzioni biunivoche da In in sé, dotato della probabilità uniforme P . Una permutazione ! ha i 2 In come punto fisso se e solo se !.i/ D i. Definiamo l’evento Ai come l’evento “la permutazione ha i come punto fisso”. Determinare: i) P .Ai / per i D 1; : : : ; n; ii) se tali eventi sono indipendenti o meno; iii) il valore atteso del numero di punti fissi. Soluzione i) Una permutazione con i come punto fisso equivale ad una permutazione dei restanti .n  1/ elementi quindi ci sono .n  1/Š tali permutazioni (indipendenD n1 . temente da i), dunque P .Ai / D .n1/Š nŠ ii) Procedendo come nel punto precedente, per i ¤ j si ha P .Ai \ Aj / D

.n  2/Š 1 1 D ¤ 2 D P .Ai /P .Aj / nŠ n.n  1/ n

e dunque gli eventi non sono indipendenti.

Appendice B: Esercizi di riepilogo

289

iii) Occorre determinare il valore atteso della variabile aleatoria

½A1 C ½A2 C    C ½An : Per linearità del valore atteso, questo è pari a n 

1 n

D 1.

Esercizio B.4 Si effettuano tre estrazioni senza reinserimento da un’urna che contiene 3 palline bianche, 2 nere e 2 rosse. Siano X e Y rispettivamente il numero di palline bianche e di palline nere estratte. Calcolare: i) P ..X D 1/ \ .Y D 0//; ii) P .X D 1 j Y D 0/. Soluzione i) Si ha 3 3 : P ..X D 1/ \ .Y D 0// D 7 D 35 3 ii) Poiché

5 P .Y D 0/ D 37 D 3

2 7

si ha P .X D 1 j Y D 0/ D

P ..X D 1/ \ .Y D 0// 3 D : P .Y D 0/ 10

Esercizio B.5 Siano X; Y Bep indipendenti con 0 < p < 1. Posto Z D ½.X CY D0/ , si determini: i) la distribuzione di Z; ii) se X e Z sono indipendenti. Soluzione i) Z può assumere solo i valori 0; 1 e vale P .Z D 1/ D P ..X D 0/ \ .Y D 0// D .1  p/2 da cui Z .1  p/2 ı0 C .1  .1  p/2 /ı1 : ii) X e Z non sono indipendenti poiché, per esempio, si ha P ..X D 0/ \ .Z D 1// D P .Y D 0/ D 1  p e P .X D 0/P .Z D 1/ D .1  p/3 :

290

Appendice B: Esercizi di riepilogo

Esercizio B.6 Siano X e Y i valori (numeri naturali da 1 a 10) di due carte estratte in sequenza da un mazzo di 40 carte, senza reinserimento. Si determini: i) la funzione di distribuzione congiunta di X e Y ; ii) P .X < Y /; iii) la funzione di distribuzione di Y . Le v.a. X e Y sono indipendenti? Soluzione i) Per h; k 2 I10 si ha P .X D h/ D

1 10

ossia X Unif10 e (

P .Y D k j X D h/ D

3 39 4 39

se h D k; se h ¤ k:

Allora la funzione di distribuzione di .X; Y / è data da N .X;Y / .h; k/ D P ..X D h/ \ .Y D k//

(

D P .Y D k j X D h/ P .X D h/ D

1 130 2 195

se h D k; se h ¤ k:

:

ii) Si ha P .X < Y / D

X

2 X 2 .k  1/ D  45: 195 195 10

N .X;Y / .h; k/ D

1h 365/ D .1  p/365 69:4% iii)

Indichiamo con X il numero di lampadine, fra le 10000 montate, che si fulminano in un giorno. Allora X Bin10000;p (cfr. Esempio 3.1.20). Dobbiamo determinare il minimo N tale che P .X  N /  99%: Ora si ha (si potrebbe anche usare l’approssimazione con la Poisson, cfr. Esempio 3.1.23): ! N X 10000 k p .1  p/nk : P .X  N / D k kD0

Un calcolo esplicito mostra che P .X  17/ D 98:57%;

P .X  18/ D 99:28%;

quindi N D 18. Esercizio B.14 In una porzione di cielo si contano N stelle, posizionate uniformemente in maniera indipendente le une dalle altre. Supponiamo che la porzione di cielo sia suddivisa in due parti A e B la cui area è una il doppio dell’altra, jAj D 2jBj, e sia NA il numero della stelle in A. i) Determinare P .NA D k/. ii) Il numero N dipende dalla potenza del telescopio utilizzato. Allora supponiamo che N sia una variabile aleatoria di Poisson, N Poisson con  > 0: determinare la probabilità che ci sia una sola stella in A. Soluzione i) Poiché la distribuzione della posizione è uniforme, ogni stella ha probabilità p D 23 di essere in A indipendentemente dalle altre. Allora ! N 2k P .NA D k/ D BinN;p .k/ D : k 3N

Appendice B: Esercizi di riepilogo

297

ii) Per la formula della probabilità totale, la probabilità cercata è 1 X

P .NA D 1/

N D0

1 X 2N N e  N 2  2 D e  D e 3: N NŠ 3 N Š 3 N D1

Esercizio B.15 Sia X Poisson con  > 0. Dare un esempio di f 2 mB tale che f .X/ non sia sommabile. Soluzione Basta considerare una qualsiasi funzione misurabile tale che f .k/ D kŠ per k 2 N: per esempio si può prendere f costante a tratti. k Esercizio B.16 Si effettuano in sequenza due estrazioni senza reinserimento da un’urna che contiene 90 palline numerate. Siano p1 e p2 i numeri delle due palline estratte. Determinare: i) la probabilità dell’evento A D .p2 > p1 /; ii) la distribuzione della variabile aleatoria ½A ; iii) la probabilità che p1  45 sapendo che p2 > p1 . Soluzione i) Per la formula della probabilità totale si ha P .A/ D

90 X

P .A j p1 D k/P .p1 D k/ D

kD1

90 X 90  k kD1

89



1 1 D : 90 2

ii) ½A ha distribuzione di Bernoulli, ½A Be 1 . 2 iii) P .p1  45 j A/ D

90 X 90  k 1 P ..p1  45/ \ A/ D2  25:8%: P .A/ 89 90 kD45

Esercizio B.17 In un supermercato ci sono un numero N di clienti che all’uscita si distribuiscono uniformemente fra le 5 casse disponibili. Indichiamo con N1 il numero di clienti che vanno alla prima cassa. i) Supposto N D 100, si determini (o si spieghi come è possibile determinare) il massimo valore nN 2 N tale che N  90%: P .N1  n/ ii) Assumendo che N Poisson100 , si scriva una formula per calcolare P .N1  15/:

298

Appendice B: Esercizi di riepilogo

Soluzione i) Ogni cliente ha la probabilità di 15 di andare alla prima cassa, indipendentemente dagli altri, e quindi N1 Bin100; 1 . Allora occorre determinare il massimo valore 5 di n tale che !    100 X 1 k 4 100k 100 : 90%  P .N1  n/ D k 5 5 kDn

Si trova che P .N1  16/ 87:1% e P .N1  15/ 91:9%, quindi nN D 15. ii) Si ha P .N1  15/ D

1 X

P .N1  15 j N D h/P .N D h/

hD0

D

1 X h X hD15 kD15

h k

!    1 k 4 hk e 100 100h 89:5%: 5 5 hŠ

Esercizio B.18 Due amici, A e B, giocano lanciando ognuno un dado: il dado di A è normale mentre il dado di B ha sulle facce i numeri da 2 a 7. Vince chi ottiene il numero strettamente maggiore dell’altro: in caso di parità di rilanciano i dadi. Determinare: i) ii) iii) iv)

la probabilità che, lanciando i dadi una volta, vinca A; la probabilità che A vinca entro i primi dieci lanci ( 10); la probabilità che nei primi dieci lanci non ci siano vincitori; il numero atteso di vincite di A entro i primi dieci lanci ( 10).

Soluzione i) Siano NA e NB i numeri ottenuti nel primo lancio di dadi: allora P .NA > NB / D

7 X

P .NA > k j NB D k/P .NB D k/

kD2

D

1 6



4 3 2 1 C C C 6 6 6 6

 D

10 DW p: 36

ii) La v.a. T che indica il primo istante in cui A vince ha distribuzione geometrica di parametro p: quindi P .T  10/ D 1  P .T > 10/ D 1  .1  p/10 96%: iii) Come nel punto i), si calcola P .NA D NB / D

5 36

 5 10 . e quindi la probabilità cercata è 36 iv) se N rappresenta il numero di vincite di A nei primi dieci lanci, allora N

Bi n10;p e quindi E ŒN  D 100 . 36

Appendice B: Esercizi di riepilogo

299

Esercizio B.19 Un centralino smista le telefonate che riceve in maniera casuale fra 10 operatori. Sia Yn , variabile aleatoria uniforme su f1; 2; 3; : : : ; 10g, la v.a. che indica l’operatore scelto dal centralino per l’n-esima chiamata. Quando l’operatore i-esimo riceve l’n-esima telefonata (evento Yn D i), c’è una probabilità pi in 0; 1Œ che l’operatore sia in pausa e quindi la telefonata sia persa. Sia Xn la v.a. che indica se la telefonata n-esima è persa .Xn D 1/ oppure è ricevuta .Xn D 0/. Supponiamo che le v.a. Xn siano indipendenti. i) Determinare la distribuzione di Xn . ii) Sia N il numero in sequenza della prima telefonata persa. Determinare la distribuzione e la media di N . iii) Calcolare la probabilità che nessuna delle prime 100 chiamate sia persa. Soluzione i) Xn è una v.a. di Bernoulli e, per la formula della probabilità totale, si ha 10 X

1 X P .Xn D 1/ D P .Xn D 1 j Yn D i/P .Yn D i/ D pi DW p: 10 i D1 i D1 10

Dunque Xn Bep . ii) N Geomp e quindi E ŒN  D p1 . iii) Si ha (cfr. Teorema 3.1.25) P .N > 100/ D .1  p/100 : Esercizio B.20 In una gara di corsa sui 100 metri, T1 e T2 sono rispettivamente i tempi (in secondi) ottenuti da due corridori. Assumiamo che T1 ; T2 siano variabili aleatorie indipendenti con Ti Expi , i > 0 per i D 1; 2. Posto Tmax D T1 _ T2 e Tmin D T1 ^ T2 , si determini: i) le CDF di Tmax e Tmin ; ii) la probabilità che almeno uno dei due corridori ottenga un tempo inferiore a 10 1 secondi, assumendo 1 D 2 D 10 ; iii) la probabilità che entrambi i corridori ottengano un tempo inferiore a 10 secon1 di, assumendo 1 D 2 D 10 ; iv) E Œt _ T2  per ogni t > 0 e, tramite il Lemma di freezing, E ŒTmax j T1 . Soluzione i) Per la Proposizione 3.6.9 sul massimo e minimo di variabili indipendenti si ha la seguente relazione fra le funzioni di ripartizione    FTmax .t/ D FT1 .t/FT2 .t/ D 1  e 1 t 1  e 2 t ; t  0;    .1 C2 /t ; t  0: FTmin .t/ D 1  1  FT1 .t/ 1  FT2 .t/ D 1  e ii) la probabilità cercata è FTmin .10/ 86%;

300

Appendice B: Esercizi di riepilogo

iii) la probabilità cercata è FTmax .10/ 40%; iv) si ha ZC1 .t _ s/2 e 2 s ds E Œt _ T2  D 0

Zt D

t2 e 0

2 s

ZC1 e 2 t ds C s2 e 2 s ds D t C : 2 t

Per il Lemma di freezing (cfr. Teorema 5.2.7), si ha E ŒTmax j T1  D T1 C

e 2 T1 : 2

Esercizio B.21 A partire dalle 8 del mattino il sig. Smith riceve in media due telefonate all’ora. Supponiamo che, in ogni ora, il numero di chiamate ricevute sia una v.a. di Poisson e che tali v.a. siano indipendenti. Determinare: i) ii) iii) iv)

la distribuzione del numero di chiamate ricevute fra le 8 e le 10; la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10; la probabilità di ricevere almeno 2 chiamate all’ora fra le 8 e le 10; la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10, sapendo di riceverne almeno 2 fra le 8 e le 10; v) la probabilità di ricevere almeno 4 chiamate fra le 8 e le 10, sapendo di riceverne almeno 2 fra le 8 e le 9. Soluzione Sia Nnm il numero di chiamate ricevute dall’ora n all’ora m. Allora N89 Poisson2 . i) N810 D N89 C N910 Poisson4 per l’ipotesi di indipendenza (Esempio 3.6.5); ii) 3 X 4k I P .N810  4/ D 1  P .N810  3/ D 1  e 4 kŠ kD0

iii) per l’indipendenza P ..N89  2/ \ .N910  2// D 1  e

2

1 X 2k kD0

iv) P .N810  4 j N810  2/ D e le probabilità si calcolano come nel punto ii);



P .N810  4/ P .N810  2/

!2 I

Appendice B: Esercizi di riepilogo

v)

301

P ..N810  4/ \ .N89  2// P .N89  2/ X 1 D P .N910  4  k/P .N89 D k/: P .N89  2/

P .N810  4 j N89  2/ D

k2

Esercizio B.22 Supponiamo che le nazioni possano essere suddivise in tre fasce in base alla propria solidità finanziaria: A (solidità ottima), B (buona) o C (mediocre). Per una generica nazione, la probabilità di essere in fascia A, B o C è ritenuta uguale, pari a 13 . Per stabilire a quale gruppo appartiene una determinata nazione, si svolge un’analisi economica il cui esito può essere solo positivo o negativo. È noto che l’analisi economica di nazioni in fascia A ha esito positivo con probabilità del 99%; inoltre per nazioni in fascia B e C , l’esito è positivo rispettivamente con probabilità dell’80% e 30%. i) Si determini la probabilità che l’analisi economica dell’Italia abbia esito positivo. ii) Sapendo che l’analisi economica dell’Italia ha avuto esito negativo, qual è la probabilità di essere in fascia C ? Soluzione i) Indichiamo con E l’evento “l’analisi economica dell’Italia ha esito positivo”. Per la Formula della probabilità totale si ha P .E/ D P .E j A/P .A/ C P .E j B/P .B/ C P .E j C /P .C / 1 D .99% C 80% C 30%/ 70%: 3 ii) Si tratta di calcolare P .C j E c /: sapendo che P .C / D

1 3

e

P .E c j C / D 1  P .E j C / D 70%; per la Formula di Bayes si ha P .C j E c / D

P .E c j C /P .C / 77%: P .E c /

Esercizio B.23 Un’azienda ha due linee di produzione A e B che realizzano rispettivamente il 30% e il 70% dei prodotti. La percentuale di prodotti difettosi delle linee A e B è pari rispettivamente al 0:5% e 0:1%. Determinare: i) la probabilità che ci sia esattamente un prodotto difettoso in una scatola contenente 10 prodotti tutti provenienti dalla stessa linea; ii) la probabilità che una scatola che contiene esattamente un prodotto difettoso, provenga dalla linea A; iii) la probabilità che ci sia esattamente un prodotto difettoso in una scatola contenente 10 prodotti supponendo che i prodotti siano inscatolati senza distinguere la linea di produzione.

302

Appendice B: Esercizi di riepilogo

Soluzione i) Indichiamo con D l’evento di cui dobbiamo calcolare la probabilità. La probabilità che una scatola prodotta da A abbia esattamente un prodotto difettoso è pA D Bin10;0:5% .f1g/ 4:78%: Analogamente pB D Bin10;0:1% .f1g/ 0:99%: Allora, con notazioni il cui significato dovrebbe essere evidente, la probabilità cercata è P .D/ D P .D j A/P .A/ C P .D j B/P .B/ D pA 30% C pB 70% 2:13%: ii) Per la formula di Bayes, si ha P .A j D/ D

P .D j A/P .A/ pA 30% D 67:39%: P .D/ 2:13%

iii) La probabilità che è un singolo prodotto sia difettoso è pari a pD D 0:5% 30% C 0:1% 70% 0:22%: Allora la probabilità cercata è pari a Bin10;pD .f1g/ 2:15%: Esercizio B.24 Un algoritmo antispam classifica come “sospette” le email che contengono alcune parole chiave. Per allenare l’algoritmo antispam si utilizzano i dati che riguardano un set di 100 email di cui 60 sono spam, il 90% delle email di spam sono sospette e solo l’1% delle email che non sono spam, sono sospette. In base a questi dati si stimi la probabilità che un’email sospetta sia effettivamente spam. Soluzione Indichiamo con X l’evento “un’email è spam” e con S l’evento “un’email è sospetta”. Per ipotesi si ha P .X/ D 60%;

P .S j X/ D 90%;

P .S j X c / D 1%:

Allora per la formula di Bayes otteniamo P .S j X/P .X/ D (per la formula della probabilità totale) P .S/ P .S j X/P .X/ D 99:26%: P .S j X/P .X/ C P .S j X c /P .X c /

P .X j S/ D

Esercizio B.25 Ogni anno, la probabilità di contrarre una malattia infettiva è 1% se si è vaccinati e 80% se non si è vaccinati. i) Sapendo che in un anno il 10% della popolazione contrae la malattia, stimare la percentuale dei vaccinati; ii) calcolare la probabilità che un malato sia vaccinato.

Appendice B: Esercizi di riepilogo

303

Soluzione i) Se M è l’evento “contrarre la malattia” e V è l’evento “essere vaccinato”, si ha P .M / D P .M j V /P .V / C P .M j V c /.1  P .V // da cui P .V / D

P .M /  P .M j V c / 89% P .M j V /  P .M j V c /

ii) Per il Teorema di Bayes, si ha P .V j M / D

P .M j V /P .V / 0:09% P .M /

Esercizio B.26 Un sacchetto contiene due monete: una d’oro che è equilibrata e una d’argento per la quale la probabilità di ottenere testa è pari a p 2 0; 1Œ. Si estrae a caso una delle due monete e la si lancia n volte: sia X la v.a. che indica il numero di teste ottenute. Dato k 2 N0 , si determini: i) la probabilità che X sia uguale a k, sapendo che è stata estratta la moneta d’argento; ii) P .X D k/; iii) la probabilità che sia stata estratta la moneta d’argento, sapendo che X D n; iv) la media di X. Soluzione i) Sia A D“è estratta la moneta d’argento”. Allora per k D 0; 1; : : : ; n si ha ! n k p .1  p/nk : P .X D k j A/ D Binn;p .k/ D k ii) Per la formula della probabilità totale, si ha 1 .P .X D k j Ac / C P .X D k j A// 2  1 Binn; 1 .k/ C Binn;p .k/ D 2 2

P .X D k/ D

iii) Anzitutto 1 P .X D n/ D 2



 1 n Cp : 2n

Per il Teorema di Bayes, si ha P .A j X D n/ D

P .X D n j A/P .A/ D P .X D n/

1 2n

pn : C pn

(B.1)

304

Appendice B: Esercizi di riepilogo

iv) Ricordando che l’attesa di una v.a. con distribuzione Binn;p è pari a np, per la (B.1) si ha  1 n C np : E ŒX D 2 2 Esercizio B.27 L’urna A contiene una pallina rossa e una verde. L’urna B invece contiene due palline rosse e quattro palline verdi. Estraiamo una pallina a caso dall’urna A e la mettiamo nell’urna B, poi estraiamo una pallina dall’urna B. i) Qual è la probabilità che la pallina estratta dall’urna B sia rossa? ii) Sapendo che la pallina estratta dall’urna B è rossa, qual è la probabilità che la pallina estratta dall’urna A sia anch’essa rossa? iii) Qual è la probabilità che le due palline estratte siano dello stesso colore? Soluzione Introduciamo gli eventi: RA VA RB VB

D “la pallina estratta dall’urna A è rossa”; D “la pallina estratta dall’urna A è verde” D RAc ; D “la pallina estratta dall’urna B è rossa”; D “la pallina estratta dall’urna B è verde” D RBc :

i) Per la Formula della probabilità totale si ha P .RB / D P .RB j RA /P .RA / C P .RB j VA /P .VA / D

3 1 2 1 5  C  D : 7 2 7 2 14

ii) Per la formula di Bayes si ha P .RA jRB / D

P .RB j RA /P .RA / D P .RB /

3 7

 5 14

1 2

D

3 : 5

iii) Ancora per la Formula della probabilità totale, se E indica l’evento di cui è richiesta la probabilità P .E/ D P .E j RA /P .RA / C P .E j VA /P .VA / D

3 1 5 1 4  C  D : 7 2 7 2 7

Esercizio B.28 Una cantina produce una serie numerata di bottiglie di vino. In un controllo di qualità, ogni bottiglia per essere idonea deve superare tre test: la probabilità di superare il primo test è 90%; nel caso sia superato il primo, la probabilità di superare il secondo test è 95%; se è superato anche il secondo test, la probabilità di superare il terzo è 99%. Supponiamo che gli esiti del controlli su bottiglie diverse siano indipendenti fra loro. i) Si determini la probabilità che una bottiglia sia idonea. ii) Si determini la probabilità che una bottiglia non idonea non abbia superato il primo test.

Appendice B: Esercizi di riepilogo

305

iii) Sia Xn la v.a. aleatoria che vale 0 oppure 1 a seconda che l’n-esima bottiglia sia idonea. Determinare la distribuzione di Xn e di .Xn ; XnC1 /. iv) Sia N il numero corrispondente alla prima bottiglia non idonea. Determinare la distribuzione e la media di N . v) Calcolare la probabilità che tutte le prime 100 bottiglie siano idonee. Soluzione i) Sia Ti , i D 1; 2; 3, l’evento “l’i-esimo test è superato”, e T D T1 \ T2 \ T3 . Per la Formula di moltiplicazione si ha P .T / D P .T1 /P .T2 j T1 /P .T3 j T1 \ T2 / D

90  95  99 85%: 1003

ii) Per la formula di Bayes, si ha P .T1c j T c / D

P .T c j T1c /P .T1c / 1  10% D 65% c P .T / 1  P .T /

iii) Xn Bep con p D P .T /. Per l’indipendenza, .X1 ; X2 / Bep ˝ Bep . 1 iv) N Geom1p e E ŒN  D 1p . v) Si ha (cfr. Teorema 3.1.25) P .N > 100/ D .1  .1  p//100 D p 100 : Esercizio B.29 Un’urna contiene 4 palline bianche, 4 rosse e 4 nere. Si effettua una serie di estrazioni nel modo seguente: si estrae una pallina e la si rimette nell’urna insieme ad un’altra pallina dello stesso colore di quella estratta. Calcolare la probabilità: i) di estrarre una pallina bianca alla seconda estrazione; ii) di estrarre una pallina rossa alla prima estrazione sapendo che alla seconda estrazione viene estratta una pallina bianca; iii) dopo tre estrazioni, di aver estratto tutte palline bianche; iv) dopo tre estrazioni, di non aver estratto palline che abbiano tutte lo stesso colore. Soluzione Indichiamo con Bn l’evento “la pallina estratta all’n-esima estrazione è bianca”, con n 2 N. Analogamente siano definiti Nn e Rn . i) per la Formula della probabilità totale si ha P .B2 / D P .B2 j B1 /P .B1 / C P .B2 j R1 /P .R1 / C P .B2 j N1 /P .N1 / 4 1 4 1 1 5 1  C  C  D : D 13 3 13 3 13 3 3 ii) Per la Formula di Bayes si ha P .R1 j B2 / D

P .B2 j R1 / P .R1 / D P .B2 /

4 13

 1 3

1 3

D

4 : 13

306

Appendice B: Esercizi di riepilogo

iii) Per la Formula di moltiplicazione si ha P .B1 \ B2 \ B3 / D P .B1 /P .B2 j B1 /P .B3 j B1 \ B2 / D

1 5 6 5   D : 3 13 14 91

iv) Per il punto iii), la probabilità che tutte le palline abbiano lo stesso colore è . La probabilità cercata è quindi 1  15 91

15 . 91

Esercizio B.30 Secondo una recente analisi, la probabilità che chi svolge attività sportiva abbia buoni rendimenti scolastici è pari al 90%, mentre è del 70% per chi non svolge attività sportiva. i) Sapendo che in un anno la percentuale di studenti con buoni rendimenti scolastici è pari al 85%, stimare la percentuale di studenti che svolgono attività sportiva; ii) calcolare la probabilità che chi ha buoni rendimenti scolastici svolga attività sportiva. Soluzione i) Se B è l’evento “avere buoni rendimenti scolastici” e S è l’evento “svolgere attività sportiva”, si ha P .B/ D P .B j S/P .S/ C P .B j S c /.1  P .S// da cui P .S/ D

P .B/  P .B j S c / D 75% P .B j S/  P .B j S c /

ii) Per il Teorema di Bayes, si ha P .S j B/ D

P .B j S/P .S/ 79% P .B/

Esercizio B.31 I test dimostrano che un vaccino è efficace contro il virus ˛ in 55 casi su 100, contro il virus ˇ in 65 casi su 100 e contro almeno uno dei due virus in 80 casi su 100. Determinare la probabilità che il vaccino sia efficace contro entrambi i virus. Soluzione Consideriamo gli eventi A=“il vaccino è efficace contro il virus ˛” e B=“il vaccino è efficace contro il virus ˇ”. Sappiamo che P .A/ D 55%, P .B/ D 65% e P .A [ B/ D 80%. Allora P .A \ B/ D P .A/ C P .B/  P .A [ B/ D 40%:

Appendice B: Esercizi di riepilogo

307

Esercizio B.32 In una catena di produzione, un bullone è idoneo se supera due test di qualità: la probabilità di superare il primo test è 90%; nel caso sia superato il primo, la probabilità di superare il secondo test è 95%. Supponiamo che gli esiti del controlli su bulloni diversi siano indipendenti fra loro. Si determini: i) ii) iii) iv)

la probabilità che un bullone sia idoneo; la probabilità che un bullone non idoneo abbia superato il primo test; la distribuzione del numero N di bulloni idonei fra i primi 100 prodotti; la distribuzione e la media di M , dove M è il numero corrispondente al primo bullone non idoneo.

Soluzione i) Sia Ti , i D 1; 2, l’evento “l’i-esimo test è superato” e T D T1 \ T2 . Per la Formula di moltiplicazione si ha p WD P .T / D P .T1 /P .T2 j T1 / D

90  95 D 85:5%I 1002

ii) per la formula di Bayes e poiché P .T c j T1 / D P .T2c j T1 / D 5%, si ha P .T1 j T c / D

P .T c j T1 /P .T1 / 5%  90% D 31%I P .T c / 14:5%

iii) N Bin100;p ; iv) M Geom1p e E ŒM  D

1 . 1p

B.2 Variabili aleatorie Esercizio B.33 Il tempo di consegna di un corriere è descritto da una v.a. T

Exp con  > 0. Supponiamo che l’unità di tempo sia il giorno, ossia T D 1 equivale a un giorno, e indichiamo con N la v.a. che indica il giorno di consegna, definita da N D n se T 2 Œn  1; nŒ per n 2 N. Si determini i) la legge e la CDF di N ; ii) E ŒN  e E ŒN j T > 1; iii) E ŒN j T . Soluzione i) N è una v.a. discreta che assume solo valori in N: vale P .N D n/ D P .n  1  T < n/ Zn e t dt D e n .e   1/ DW pn ; D n1

n 2 N:

308

Appendice B: Esercizi di riepilogo

Allora N

1 X

pn ın

nD1

e la CDF di N è

8 ˆ 1 D

e ; e  1 

1 X E N ½.T >1/ 2e   1 npn D  D e : P .T > 1/ e 1 nD2

iii) osserviamo che N è  .T /-misurabile perché è funzione (misurabile) di T : precisamente N D 1 C ŒT  dove Œx indica la funzione parte intera di x 2 R. Di conseguenza E ŒN j T  D N: Esercizio B.34 In farmacologia, l’emivita è il tempo richiesto (espresso in giorni) per ridurre del 50% la quantità di un farmaco nell’organismo. Sia T 2;1 l’emivita di un antibiotico all’assunzione della prima dose e sia S UnifŒT;2T  l’emivita all’assunzione della seconda dose. Determinare: i) la densità congiunta .S;T / e marginale S ; ii) il valore atteso di T condizionato a .S < 2/. iii) il valore atteso di T , dando per noto il valore di S (è sufficiente scrivere le formule senza svolgere tutti i calcoli). Soluzione i) Per ipotesi T .t/ D te t ½R0 .t/ e S jT .s; t/ D 1t ½Œt;2t  .s/. Dalla formula (5.3.6) per la densità condizionata ricaviamo .S;T / .s; t/ D S jT .s; t/T .t/ D e t ½Œt;2t R0 .s; t/ D e t ½R0 Œs=2;s .s; t/ e Z S .s/ D

Zs .S;T / .s; t/dt D

R

s=2

  s e t dt ½R0 .s/ D e  2  e s ½R0 .s/:

Appendice B: Esercizi di riepilogo

309

ii) Si ha Z2 P .S < 2/ D

  1 2 S .s/ds D 1  40%; e

0

1 E ŒT j S < 2 D P .S < 2/

Z2 ZC1 2.e  2/ t.S;T / .s; t/dtds D 0:84: e1 0

0

iii) Anzitutto T jS .t; s/ D

.S;T / .s; t/ e t ½.S >0/ .s/ D  s ½R0 Œs=2;s .s; t/: S .s/ e 2  e s

Allora si ha   ZC1 1 S t T jS .t; S/dt D  S=2 CS C2 : E ŒT j S D 2 e 1 0

Esercizio B.35 Dato  2 R, consideriamo la funzione  .n/ D .1  / n ;

n 2 N0 WD N [ f0g:

i) Determinare i valori di  per cui  è una funzione di distribuzione discreta. Può essere utile ricordare che 1 X nD0

xn D

1 ; 1x

jxj < 1I

ii) sia  tale che  sia una funzione di distribuzione e si consideri la v.a. X che ha funzione di distribuzione  . Fissato m 2 N, calcolare la probabilità che X sia divisibile per m; iii) trovare una funzione f W R ! R tale che Y D f .X/ abbia distribuzione Geomp e determinare p in funzione di ; iv) calcolare E ŒX. Soluzione i) I valori  .n/ devono essere non-negativi da cui 0 <  < 1. Per tali valori di  si ha che  è una funzione di distribuzione poiché 1 X nD0

 .n/ D .1  /

1 X nD0

 n D 1:

310

Appendice B: Esercizi di riepilogo

ii) X è divisibile per m se esiste k 2 N0 tale che X D km. Poiché P .X D km/ D .1  / km , allora la probabilità cercata è 1 X

P .X D km/ D .1  /

kD0

1 X

 km D

kD0

1 : 1  m

iii) La v.a. Y D X C 1 è tale che P .Y D n/ D P .X D n  1/ D .1  / n1 ;

n 2 N:

Quindi Y Geom1 . iv) Per il punto iii) si ha EŒX D EŒY   1 D

1  1D : 1 1

Esercizio B.36 Si lanciano due dadi (non truccati) a tre facce, numerate da 1 a 3. Sullo spazio campionario ˝ D f.m; n/ j 1  m; n  3g, siano X1 e X2 le variabili aleatorie che indicano rispettivamente i risultati dei lanci del primo e secondo dado. Posto X D X1 C X2 , si determini .X/ e se X1 è .X/-misurabile. Soluzione .X/ è la  -algebra i cui elementi sono ; e le unioni di .X .X .X .X .X

D 2/ D f.1; 1/g; D 3/ D f.1; 2/; .2; 1/g; D 4/ D f.1; 3/; .3; 1/; .2; 2/g; D 5/ D f.2; 3/; .3; 2/g; D 6/ D f.3; 3/g:

L’evento .X1 D 1/ … .X/: intuitivamente non posso conoscere l’esito del primo lancio sapendo la somma dei due lanci. Esercizio B.37 Siano X; Y variabili aleatorie indipendenti con distribuzione Exp . Determinare: i) le densità di X C Y e X  Y ; ii) le funzioni caratteristiche di X C Y e X  Y ; iii) X C Y e X  Y sono indipendenti? Soluzione i) Sappiamo (cfr. Esempio 3.6.7) che se X; Y Exp 1; sono v.a. indipendenti, allora X C Y 2;

Appendice B: Esercizi di riepilogo

311

con densità X CY .z/ D 2 ze z ½R>0 .z/: Calcoliamo ora la densità di X Y come convoluzione delle densità di X e Y . Per far ciò, anzitutto calcoliamo la densità di Y : si ha P .Y  y/ D 1 se y  0 e, per y < 0, Z1 P .Y  y/ D P .Y  y/ D

e

x

Zy dx D

y

e z dt 1

da cui Y .y/ D e y ½R 0. i) Per ogni t > 0 determinare la distribuzione e la densità della v.a. Y.t/; ii) scrivere l’espressione della funzione caratteristica 'A della v.a. A e da essa ricavare  E e A D 'A .i/; e quindi calcolare E ŒY.t/; iii) le v.a. Y.1/ e Y.2/ sono indipendenti?

316

Appendice B: Esercizi di riepilogo

Soluzione i) Si ha Y.t/ D y0 e tA e quindi Y.t/ ha distribuzione log-normale. Più precisamente, per ogni y > 0 vale     1 y y 1 log P .Y.t/  y/ D P A  log D FA t y0 t y0 dove FA è la CDF di A. Derivando si ricava la densità di Y.t/ che è nulla per y  0 e vale   d 1 0 1 y .y/ D P .Y.t/  y/ D FA log dy ty t y0 1 log y  2 . / y0 t 1  2 2 e ; D p 2 ty 2 per y > 0. ii) Ricordando la (3.5.7) si ha  2 E e A D 'A .i/ D e C 2 : Poiché tA N t;t 2  2 si ha  t22 E ŒY.t/ D E y0 e tA D y0 e tC 2 : iii) Osserviamo che  9 2 E ŒY.1/Y.2/ D y02 E e 3A D y02 e 3C 2 è differente da   2 4 2 E ŒY.1/ E ŒY.2/ D y02 E e A E e 2A D y02 e C 2 e 2C 2 tranne nel caso in cui  D 0 (in cui chiaramente Y.1/; Y.2/ sono indipendenti). Esercizio B.42 Data una v.a. C UnifŒ0; , dove  > 0, si determini il massimo valore di  tale che l’equazione x 2  2x C C D 0 abbia, con probabilità uno, soluzioni reali. Per tale valore di  si determini la densità di una delle soluzioni dell’equazione.

Appendice B: Esercizi di riepilogo

317

Soluzione L’equazione ha soluzioni reali se ha il discriminante non negativo:  D 4  4C  0 ossia C  1. Dunque se   1 l’equazione ha soluzioni reali con probabilità uno, mentre se  > 1 allora la probabilità che l’equazione non abbia soluzioni reali è massimo cercato è  D 1. pari a Unif .1; / D 1  > 0. Dunque il valore p Consideriamo la soluzione X D 1 C 1  C e calcoliamone la funzione di ripartizione. Anzitutto se C UnifŒ0;1 allora X assume valori in Œ1; 2: dunque per x 2 Œ1; 2 si ha p  P .X  x/ D P 1C x1   D P C  1  .x  1/2 Z1 dy D .x  1/2 :

D 1.x1/2

Derivando si ottiene la densità di X: X .x/ D .2x  2/½Œ1;2 .x/;

x 2 R:

Esercizio B.43 Determinare i valori di a; b 2 R tale che la funzione F .x/ D a arctan x C b sia una CDF. Per tali valori, sia X v.a. con CDF uguale a F : determinare la densità di X e stabilire se X 2 L1 . Soluzione Affinché siano verificate le proprietà di una CDF, deve essere a D b D 12 . La densità si determina semplicemente derivando F : .x/ D F 0 .x/ D

e

1 : .1 C x 2 /

La v.a. X non è sommabile poiché la funzione Esercizio B.44 Sia .X; Y / N0;C con ! 1 % C D ; % 1

1 

jxj .1Cx 2 /

… L1 .R/.

j%j  1:

Determinare: i) per quali valori di % le v.a. X C Y e X  Y sono indipendenti; ii) la distribuzione di X C Y , i valori di % per cui è assolutamente continua e, per tali valori, la densità X CY .

318

Appendice B: Esercizi di riepilogo

Soluzione i) Si ha X CY X Y

!

! X D˛ ; Y

! 1 1 ˛D ; 1 1

e quindi .X C Y; X  Y / N0;˛C ˛ . Inoltre

! 2.1 C %/ 0 ˛C ˛ D 0 2.1  %/

da cui segue che X C Y e X  Y sono indipendenti per ogni % 2 Œ1; 1; ii) Da i) segue anche che X C Y N0;2.1C%/ e quindi X C Y 2 AC per % 2  1; 1 con densità normale 2 1  z X CY .z/ D p e 4.1C%/ ; 2 .1 C %/

z 2 R:

Esercizio B.45 Sia X una v.a. reale con densità X . i) Provare che .x/ WD

X .x/ C X .x/ 2

è una densità. ii) Sia Y una v.a. con densità : esiste una relazione fra le CHF 'X e 'Y ? iii) Determinare una v.a. Z tale che 'Z . / D 'X . /2 . Soluzione i) Chiaramente   0 e vale 1 0 Z Z Z Z 1 .x/dx D @ X .x/dx C X .x/dx A D X .x/dx D 1: 2 R

R

R

R

ii) Si ha  'Y . / D E e i Y Z X .x/ C X .x/ dx D e i x 2 R

D

1 .'X . / C 'X . // D Re .'X . // : 2

iii) Siano X1 e X2 v.a. indipendenti, uguali in legge a X. Allora 'X1 CX2 . / D 'X1 . /'X2 . / D 'X . /2 :

Appendice B: Esercizi di riepilogo

319

Esercizio B.46 Preso a caso un punto Q di Œ0; 1, sia X la lunghezza dell’intervallo di ampiezza maggiore fra i due in cui Œ0; 1 viene diviso da Q. Si determini la distribuzione e il valore atteso di X. Soluzione Osserviamo che X D maxfQ; 1  Qg e 12  X  1. Determiniamo la CDF di X: per 12  x  1 si ha     P .X  x/ D P .Q  x/ \ .Q  12 / C P .1  Q  x/ \ .Q  12 / D P . 12  Q  x/ C P .1  x  Q  12 / D 2x  1: . 2 ;1

Ne viene che X 2 AC e precisamente X Unif 1

In particolare E ŒX D 34 .

Esercizio B.47 Sia X D .X1 ; X2 ; X3 / N0;C con 0

1 1 0 0 C D @0 1 1A : 0 1 1 Dati i vettori aleatori Y WD .X1 ; X2 / e Z WD .X2 ; X3 /, si determini: i) la distribuzione di Y e Z, specificando se sono assolutamente continui; ii) se Y e Z sono indipendenti; iii) le funzioni caratteristiche 'Y e 'Z . Soluzione i) Poiché ! 1 0 0 Y D X; 0 1 0 si ha Y N0;CY e Z N0;CZ con ! 1 0 CY D ; 0 1

! 0 1 0 ZD X 0 0 1 ! 1 1 CZ D : 1 1

Ne viene che Y è assolutamente continuo, mentre Z non lo è perché CZ è singolare. ii) Per vedere che Y e Z non sono indipendenti basta osservare che, per ogni H 2 B1 , si ha P ..Y 2 R  H / \ .Z 2 H  R// D P .X2 2 H /; e P .Y 2 R  H / D P .X2 2 H / D P .Z 2 H  R/:

320

Appendice B: Esercizi di riepilogo

iii) Si ha 1

1

'Y . 1 ; 2 / D e  2 . 1 C 1 / ; 2

'Z . 1 ; 2 / D e  2 . 1 C 1 2 1 2 / :

2

2

2

Esercizio B.48 Sia X N;1 con  2 R e sia 'X . / la CHF di X.  i) Dato c 2 R, si calcoli E e cX  : a tal fine si scelga un opportuno valore complesso c per cui vale E e cX D 'X . c /. da X, si scriva la distribuzione ii) Data Y Unifn , con n 2 N, indipendente h Xi congiunta di X e Y . Si calcoli E e Y . iii) Posto Z D X Y , si determini la CDF di Z. Nel caso in cui Z 2 AC, se ne determini la densità. Soluzione i) Posto c D ic si ha  c2 E e cX D 'X .ic/ D e cC 2 : ii) Per l’indipendenza, si ha .X;Y / D N;1 ˝ Unifn e h Xi “ x e y N;1 ˝ Unifn .dx; dy/ D E eY D R2

1X n n

D

Z

x

e k N;1 .dx/ D

(per il Teorema di Fubini)

(per quanto visto nel punto i) con c D k1 )

kD1 R

1 X k C 12 e 2k : D n n

kD1

iii) Per la formula della probabilità totale, si ha FZ .z/ D P .Z  z/ D

n X

P .Z  z j Y D k/ P .Y D k/

kD1

1X 1X D P .X  kz/ D n n n

n

kD1

dove .x/ D C 1 .R/ e vale

2

x p1 e  2 2

Zkz .x  /dx

kD11

è la densità normale standard. Z 2 AC poiché FZ 2 1X k .kz  /: n n

FZ0 .z/ D

kD1

Appendice B: Esercizi di riepilogo

321

Esercizio B.49 Siano F una CDF e ˛ > 0. i) Si provi che F ˛ è ancora una CDF; ii) sia F la CDF di Exp : si determini la densità della v.a. con CDF F ˛ ; iii) sia F la CDF della distribuzione discreta Unifn , con n 2 N fissato. Per ˛ che tende a C1, F ˛ tende a una CDF? In tal caso, a quale distribuzione corrisponde? E nel caso in cui F sia la CDF della normale standard? Soluzione i) Per ogni ˛ > 0 la funzione f .x/ D x ˛ è continua, monotona crescente su Œ0; 1, f .0/ D 0 e f .1/ D 1. Ne segue che le proprietà di monotonia, continuità a destra e i limiti a ˙1 componendo f con una CDF F .  si conservano ˛ ii) La funzione F ˛ .t/ D 1  e t ½R0 .t/ è assolutamente continua e derivando si ottiene la densità .t/ D ˛e t .1  e t /˛1 ½R0 .t/: ii) Poiché F .x/ < 1 per x < n e F .x/ D 1 per x  n, si ha ( G.x/ D lim F .x/ D ˛

˛!C1

0 se x < n; 1 se x  n;

ossia G è la CDF della Delta di Dirac centrata in n. Se F è la CDF della normale standard si ha 0 < F .x/ < 1 per ogni x 2 R e quindi, per ˛ ! C1, F ˛ tende puntualmente alla funzione identicamente nulla che non è una CDF. Esercizio B.50 Data una v.a. reale X, quali implicazioni sussistono fra le seguenti proprietà? i) X è assolutamente continua; ii) la CHF 'X è sommabile. Soluzione i) non implica ii): per esempio, X UnifŒ1;1 è assolutamente continua ma 'X . / D sin non è sommabile come si può verificare direttamente oppure col Teorema di inversione, si veda anche l’Osservazione 3.5.7. Invece ii) implica i) per il Teorema di inversione. Esercizio B.51 Sia .X; Y / una variabile aleatoria bidimensionale con densità ( f .x; y/ D

2xy

se 0 < x < 1; 0 < y
1. Ne viene che Y ha media finita e varianza infinita. Esercizio B.52 Date tre v.a. indipendenti X; Y; ˛ con X; Y N0;1 e ˛

UnifŒ0;2 , si ponga Z D X cos ˛ C Y sin ˛: Si determini: i) la CHF e la distribuzione di Z; ii) cov.X; Z/; iii) il valore della CHF congiunta '.X;Z/ .1; 1/ per stabilire se X e Z sono indipenR 2 denti, dando per noto che 0 e  cos t dt 8. Soluzione i) Determiniamo la distribuzione di Z calcolandone la CHF:  'Z . / D E e i .X cos ˛CY sin ˛/ D 1 D 2 D

1 2

Z2 Z Z

(per l’ipotesi di indipendenza)

e i .x cos t Cy sin t / N0;1 .dx/N0;1 .dy/dt D

0 R R

Z2

2

1 2 2 2 e  2 .cos t Csin t / dt D e  2

0

e quindi Z N0;1 .

(nota la CHF della normale standard)

Appendice B: Esercizi di riepilogo

323

ii) cov.X; Z/ D E ŒXZ D  D E X 2 cos ˛ C XY sin ˛ D  D E X 2 E Œcos ˛ D 0  poiché E X 2 D var.X/ D 1 e 1 E Œcos ˛ D 2

(per l’ipotesi di indipendenza)

Z2 cos tdt D 0: 0

iii) Si ha

 '.X;Z/ .1; 1/ D E e i.X CZ/ D  D E e iX.1Ccos ˛/CiY sin ˛ D 1 D 2 1 D 2

(per l’ipotesi di indipendenza)

Z2 Z Z e ix.1Ccos t /Ciy sin t N0;1 .dx/N0;1 .dy/dt 0 R R

Z2

2

1

e  2 .1Ccos t /

 12 sin2 t

dt

0

e 1 D 2

Z2

e  cos t dt:

0

Allora X e Z non sono indipendenti perché altrimenti dovrebbe essere '.X;Z/ .1; 1/ D 'X .1/'Z .1/ D e 1 : Esercizio B.53 Sia X UnifŒ1;1 . Dare un esempio di f 2 mB tale che f .X/ sia sommabile ma abbia varianza infinita. Soluzione Per esempio f .x/ D

8 < sgn.x/ p

se x ¤ 0;

:0

se x D 0:

Si ha 1 E Œf .X/ D 2

jxj

Z1 f .x/dx D 0 1

e

var.f .X// D E f .X/

2



Z1 D 1

1 dx D C1: jxj

324

Appendice B: Esercizi di riepilogo

Esercizio B.54 Siano X e Y v.a. con densità congiunta .X;Y / .x; y/ D

1 ½ 1 .x; y/; y 0;yŒ0;  Œ

 > 0:

i) Si calcolino le densità marginali. ii) Le v.a. Z WD e X e W WD e Y sono indipendenti? Soluzione i) Si ha 1

Z X .x/ D

Z .X;Y / .x; y/dy D

R

x 

Z

Zy

Y .y/ D

.X;Y / .x; y/dx D R

1 dy D  log x; y 1 dx D ; y

x 2 0; 1Œ;

 y 2 0; 1 :

0

Quindi X .x/ D log x  ½0;1Œ .x/ e Y .y/ D ½0; 1 Œ .y/.  ii) Se Z e W fossero indipendenti allora lo sarebbero anche X D log Z e Y D log W . Tuttavia X e Y non sono indipendenti poiché la densità congiunta non è uguale al prodotto delle marginali. Esercizio B.55 Siano X Exp1 e Y Exp2 v.a. indipendenti con 1 ; 2 > 0. Determinare: i) la densità di X 2 ; ii) la CHF congiunta '.X;Y / ; iii) la CHF della somma 'X CY . Soluzione i) La CDF di X 2 è data da p FX 2 .z/ D P .X 2  z/ D P .X  z/ D

p z

Z

1 e 1 t dt D 1  e 1

p z

0

se z  0 e FX 2 0 su 1; 0. Trattandosi di una funzione AC, ricaviamo la densità di X 2 differenziando p z

d 1 e 1 p FX 2 .z/ D X 2 .z/ D dz 2 z

½R0 .z/:

Appendice B: Esercizi di riepilogo

325

ii) Per l’indipendenza si ha '.X;Y / . 1 ; 2 / D 'X . 1 /'Y . 2 / D

1 2 : .1  i 1 /.2  i 2 /

iii) Analogamente 'X CY . / D 'X . /'Y . / D Esercizio B.56 Sia data la funzione ( ˛ ˇ  e x F .x/ D 0

1 2 : .1  i /.2  i /

se x  0; se x < 0:

i) Esistono valori di ˛ e ˇ tali che F sia la CDF della distribuzione Delta di Dirac? Determinare tutti i valori di ˛ e ˇ per cui F è una CDF; ii) Per tali valori, si consideri una v.a. X che abbia F come CDF. Calcolare P .X  0/ e P .X  1/; iii) Per i valori di ˛; ˇ per cui X 2 AC una densità di X; determinare  iv) Ora fissiamo ˛ D 2. Calcolare E X 1 e determinare la densità di Z WD X 2 C 1. Soluzione i) Se ˛ D 0 e ˇ D 1 C 1e allora F è la CDF della distribuzione Delta di Dirac centrata in 0. Gli altri valori per cui F è una CDF sono ˛ > 0 e ˇ D 1; ii) se ˛ > 0 e ˇ D 1 allora P .X  0/ D F .0/ D 0;

P .X  1/ D 1  F .1/ D

1 : e

Se ˛ D 0 e ˇ D 1 C 1e allora P .X  0/ D 1 e P .X  1/ D 0. iii) X 2 AC se ˛ > 0 e ˇ D 1 e in tal caso una densità si determina derivando F : ( ˛ ˛x ˛1 e x se x > 0; 0 .x/ D F .x/ D 0 se x < 0: iv) Se ˛ D 2 si ha

E X

1



ZC1 p 2 D2 e x dx D : 0

Determiniamo la CDF di Z: anzitutto P .Z  1/ D 0 e per z > 1 si ha p p P .X 2 C 1  z/ D P . z  1  X  z  1/ p D P .X  z  1/ D 1  e 1z : Allora la densità di Z è Z .z/ D e 1z ½Œ1;C1Œ .z/:

326

Appendice B: Esercizi di riepilogo

Esercizio B.57 Siano X; Y v.a. con distribuzione normale standard, ossia X; Y

N0;1 , e T una v.a. con distribuzione di Bernoulli, T Be 1 . Assumiamo che X; Y 2 e T siano indipendenti. i) Provare che le v.a. Z WD X  Y;

W WD TX C .1  T /Y;

hanno distribuzione normale; ii) si calcoli cov.Z; W /; iii) si determini la CHF congiunta '.Z;W / ; iv) le v.a. Z e W sono indipendenti? Soluzione i) Il vettore aleatorio .X; Y / ha distribuzione normale standard bidimensionale (essendo, per ipotesi, X; Y indipendenti). Inoltre si ha !   X ZD˛ ; ˛ D 1 1 Y e quindi, indicando con I la matrice identità 2  2, si ha Z N0;˛I ˛ D N0;2 . Per l’ipotesi di indipendenza, la distribuzione congiunta di X; Y e T è la distribuzione prodotto N0;1 ˝ N0;1 ˝ Be 1 2

e quindi per ogni f 2 mB e limitata si ha E Œf .W / Z   D f .tx C .1  t/y/ N0;1 ˝ N0;1 ˝ Be 1 .dx; dy; dt/ D 2

R3

Z D

(per il Teorema di Fubini)

0 0 1 1 Z Z @ @ f .tx C .1  t/y/N0;1 .dx/A N0;1 .dy/A Be 1 .dt/ 2

R

R

R

1 0 Z Z 1 @ f .x/N0;1 .dx/A N0;1 .dy/ C @ f .y/N0;1 .dx/A N0;1 .dy/ 2 R R R R Z Z 1 1 D f .x/N0;1 .dx/ C f .y/N0;1 .dy/ 2 2 R R Z D f .x/N0;1 .dx/: 1 D 2

Z

0

Z

R

Quindi W N0;1 .

1

Appendice B: Esercizi di riepilogo

327

ii) Si ha cov.Z; W / D E Œ.X  Y /.TX C .1  T /Y /  D E TX 2 C E Œ.1  2T /XY   (per l’indipendenza di X; Y; T )  E .1  T /Y 2 D  2 D E ŒT  E X  E Œ1  T  E Y 2 D 0: iii) La CHF congiunta è data da  '.Z;W / . 1 ; 2 / D E e i . 1 .X Y /C 2 .TX C.1T /Y //  D E e i . 1 .X Y /C 2 X / ½.T D1/  C E e i . 1 .X Y /C 2 Y / ½.T D0/ D (per l’indipendenza di X; Y; T )   1 D E e i . 1 C 2 /X E e i 1 Y 2   1 C E e i 1 X E e i. 2  1 /Y D (poiché X; Y N0;1 ) 2

2   1 . 1 C 2 /2 .y1  2 /2 e 2 C e 2 D e 2 ; 2 che non è la CHF di una normale bidimensionale. Questo prova anche che '.Z;W / . 1 ; 2 / ¤ 'Z . 1 /'W . 2 / e quindi Z; W non sono indipendenti. Esercizio B.58 Sia X una v.a. con CDF 8 ˆ ˆ 0 e 0 < y < e x ; .x; y/ D 0 altrimenti; è una densità. Siano X; Y v.a. con densità congiunta .

Appendice B: Esercizi di riepilogo

329

i) Determinare le densità marginali X e Y . ii) X; Y sono indipendenti? iii) Determinare la densità condizionata X jY e riconoscere di quale densità nota si tratta. iv) calcolare E ŒX j Y  e var.X j Y /. Soluzione La funzione  è non-negativa e misurabile con ZC1Zex

Z .x; y/dxdy D R2

0

ZC1 4ydydx D 2e 2x dx D 1:

0

0

i) Abbiamo appena calcolato Zex

Z X .x/ D

.x; y/dy D R

4ydy D 2e 2x ½0;C1Œ .x/

0

da cui si riconosce che X Exp2 . Poi osserviamo che .x; y/ D 4y ½0; log yŒ .x/½0;1Œ .y/ da cui Z Y .y/ D

Zlog y

4y ½0;1Œ .y/dx D 4y log y ½0;1Œ .y/:

.x; y/dx D R

0

ii) X; Y non sono indipendenti perché la densità congiunta non è il prodotto delle marginali. iii) Si ha X jY .x; y/ D

.x; y/ 1 ½.Y >0/ .y/ D  ½0; log yŒ .x/½0;1Œ .y/ Y .y/ log y

e quindi X ha densità condizionata uniforme su 0;  log Y Œ. iv) Per quanto visto al punto iii), si ha E ŒX j Y  D

 log Y ; 2

var.X j Y / D

.log Y /2 : 12

Esercizio B.61 Data la funzione .x/ D .ax C b/½Œ1;1 .x/; determinare i valori di a; b 2 R tali che: i)  sia una densità; ii) la corrispondente CHF sia a valori reali.

x 2 R;

330

Appendice B: Esercizi di riepilogo

Soluzione i) Imponendo Z .x/dx D 2b

1D R

si ha b D 12 . Inoltre   0 se e solo se ax   12 per ogni x 2 Œ1; 1 da cui si ricava la condizione  12  a  12 . ii) La CHF è data da Z1 1

  sin

sin  cos

1 e i x ax C dx D C 2ia 2

2

e ha valori reali se a D 0. Esercizio B.62 Sia .X; Y / un vettore aleatorio con distribuzione uniforme sul disco unitario C di centro l’origine in R2 . i) Scrivere la densità di .X; Y / e calcolare E ŒX; ii) X e X  Y sono indipendenti? Sia ora  ˛ Z˛ D X 2 C Y 2 ;

˛ > 0:

iii) scrivere la CDF di Z˛ e disegnarne il grafico; iv) stabilire se Z˛ 2 AC e in tal caso scriverne la densità; v) determinare i valori di ˛ > 0 per cui Z1˛ è sommabile e per tali valori calcolare il valore atteso. Soluzione i) .X;Y / D 1 ½C e E ŒX D 0. ii) Se X e X  Y fossero indipendenti allora si avrebbe  1 0 D E ŒX E ŒX  Y  D E ŒX.X  Y / D E X 2  E ŒXY  D ; 4 dove i valori attesi si determinano con un semplice calcolo come nell’Esempio 3.3.34. iii) Si ha F .t/ WD P .Z˛  t/ D

( 0 se t  0; 1 se t  1

Appendice B: Esercizi di riepilogo

331

a

b

Figura A.1 a Grafico di F per ˛ > 1. b Grafico di F per 0 < ˛ < 1

e, per 0 < t < 1,   1 1 P .Z˛  t/ D P X 2 C Y 2  t ˛ D t ˛ 1

dove la probabilità è calcolata come rapporto fra l’area del cerchio di raggio t 2˛ e quello di raggio unitario: si veda la Figura A.1. Rt iv) F è assolutamente continua perché è derivabile q.o. e vale F .t/ D 0 F 0 .s/ds (cfr. Definizione 2.4.30). Una densità di Z˛ è data da F 0 .t/ D

1 1 1 t ˛ ½0;1Œ .t/: ˛

v) Si ha

E



Z˛1



Z1 D

F 0 .t/ dt < 1 t

0

se 2 

1 ˛

 < 1 ossia 0 < ˛ < 1. In tal caso E Z˛1 D

1 1˛ .

332

Appendice B: Esercizi di riepilogo

Esercizio B.63 Sia .X; Y; Z/ N;C con 0 1 0  D @1 A ; 2

0

1 1 0 1 C D @ 0 2 2 A: 1 2 3

i) Si determini la CHF di .X; Y /; ii) le v.a. X C Y e Z sono indipendenti? Soluzione i) Si ha .X; Y / N; N CN

! ! 0 1 0 N con N D eC D e quindi 1 0 2 1

'.X;Y / . 1 ; 2 / D e i 2  2 . 1 C2 2 / : 2

2

ii) .X C Y; Z/ ha distribuzione normale bidimensionale poiché è combinazione lineare di .X; Y; Z/. Di conseguenza, X C Y e Z sono indipendenti se e solo se sono scorrelate: poiché cov.X C Y; Z/ D cov.X; Z/ C cov.Y; Z/ D 1 C 2; allora X C Y e Z non sono indipendenti. Esercizio B.64 Sia B UnifŒ2;2 . Determinare la probabilità che l’equazione di secondo grado x 2 C 2Bx C 1 D 0 abbia soluzioni reali. Qual è la probabilità che tali soluzioni siano coincidenti? Soluzione Si ha  D 4B 2  4. Le soluzioni sono reali se e solo se   0 ossia jBj  1: ora si ha semplicemente P .jBj  1/ D 12 . Inoltre le soluzioni sono coincidenti se e solo se jBj D 1, quindi con probabilità nulla. Esercizio B.65 Viene avviato un cronometro che si ferma automaticamente in un tempo aleatorio T Exp1 . Si attende fino all’istante 3 e in quel momento si osserva il valore X riportato sul cronometro. i) ii) iii) iv) v)

Si determini la CDF di X, calcolando FX .x/ separatamente per x < 3 e x  3; X è assolutamente continua? si calcoli E ŒX; si calcoli E ŒX j T ; X è una v.a. discreta?

Appendice B: Esercizi di riepilogo

333

Soluzione Osserviamo che X D minfT; 3g D T ½.T 3/ C 3½.T >3/ : i) Si ha P .X  0/ D 0 e P .X  x/ D P ..X  x/ \ .T  3// C P ..X  x/ \ .T > 3// ( P .T  x/ D 1  e x se 0  x < 3; D 1 se x  3: ii) X non è assolutamente continua perché la CDF è discontinua nel punto 3. iii) Si ha 



E ŒX D E T ½.T 3/ C 3½.T >3/ D

Z3

te t dt C 3P .T > 3/ D 1  e 3 :

0

iv) X è  .T /-misurabile perché è funzione (misurabile) di T . Di conseguenza E ŒX j T  D X D minfT; 3g: v) X non è discreta poiché P .X D 3/ D P .T  3/ è positiva e strettamente minore di 1, e P .X D x/ D 0 per ogni x ¤ 3. Esercizio B.66 Si verifichi che la funzione .x; y/ D

e x ½A .x; y/; e1

A D f.x; y/ 2 R2 j x C y > 0; 0 < y < 1g;

è una densità e si consideri .X; Y / con densità .X;Y / D . i) Giustificare la validità della formula (senza svolgere i calcoli) 8 ˆ se x  1; ˆ 0/ .y/ D e .xCy/ ½A .x; y/: Y .y/

Esercizio B.67 Sia X D .X1 ; X2 ; X3 / N0;C con 0

1 2 1 1 C D@1 1 1A : 1 1 1 Dati i vettori aleatori Y WD .X1 ; X3 / e Z WD .X2 ; 2X3 /, si determini: i) le distribuzioni di Y e Z, specificando se sono assolutamente continui; ii) Y e Z sono indipendenti? iii) la funzione caratteristica 'Z specificando se è una funzione sommabile su R2 . Soluzione i) Poiché Y D ˛X; Z D ˇX;

! 1 0 0 ˛D ; 0 0 1 ! 0 1 0 ˇD ; 0 0 2

Appendice B: Esercizi di riepilogo

335

si ha Y N0;˛C ˛ e Z N0;ˇCˇ con ! 2 1 ; ˛C ˛ D 1 2

! 1 2 ˇCˇ D : 2 4



Ne viene che Y è assolutamente continuo, mentre Z non lo è perché ˇCˇ è singolare. ii) Y e Z non sono indipendenti: osserviamo infatti che hanno la seconda componente proporzionale; quindi, posto f .x1 ; x2 / D x2 si ha  E Œf .Y /f .Z/ D 2E X32 D 2 ma E Œf .Y / D E Œf .Z/ D 0. iii) Poiché Z N0;ˇCˇ si ha 1

'Z . 1 ; 2 / D e  2 . 1 C4 2 4 1 2 / : 2

2

'Z non è sommabile altrimenti, per il teorema di inversione, Z sarebbe assolutamente continua. Esercizio B.68 Siano X; Y v.a. con distribuzione normale standard, ossia X; Y

N0;1 , e T  WD 12 .ı1 C ı1 /. Assumiamo che X; Y e T siano indipendenti. i) Provare che le v.a. Z WD X C Y;

W WD X C T Y;

hanno la stessa legge; ii) Z e W sono indipendenti? iii) si determini la CHF congiunta '.Z;W / . Soluzione i) Il vettore aleatorio .X; Y / ha distribuzione normale standard bidimensionale (essendo, per ipotesi, X; Y indipendenti). Inoltre si ha ! X ZD˛ ; Y

  ˛D 1 1

e quindi, indicando con I la matrice identità 2  2, si ha Z N0;˛I ˛ D N0;2 . Per l’ipotesi di indipendenza, la distribuzione congiunta di X; Y e T è la distribuzione prodotto N0;1 ˝ N0;1 ˝ 

336

Appendice B: Esercizi di riepilogo

e quindi per ogni f 2 mB e limitata si ha Z E Œf .W / D f .x C ty/ .N0;1 ˝ N0;1 ˝ / .dx; dy; dt/ D Z D

0 @

R

1 D 2

0

Z

@

R

Z

0 @

R

R3

Z

1

1

f .x C ty/N0;1 .dx/A N0;1 .dy/A .dt/

R

Z

(per il Teorema di Fubini)

1

f .x C y/N0;1 .dx/A N0;1 .dy/

R

0 1 Z 1 @ f .x  y/N0;1 .dx/A N0;1 .dy/ D (col cambio di variabili C 2 z D y nel secondo integrale) R R Z D f .x C y/N0;1 .dx/N0;1 .dy/ D E Œf .Z/ : Z

R2

Ne segue che Z e W hanno entrambe distribuzione N0;2 . ii) Poiché cov.Z; W / D E Œ.X C Y /.X C T Y /   D E X 2 C E Œ.1 C T /XY  C E T Y 2 D 1 per l’indipendenza di X; Y; T , allora Z e W non sono indipendenti. iii) La CHF congiunta è data da  '.Z;W / . 1 ; 2 / D E e i . 1 .X CY /C 2 .X CT Y //  D E e i. 1 C 2 /.X CY / ½.T D1/  (per l’indipendenza di X; Y; T ) C E e i. 1 C 2 /X Ci. 1  2 /Y ½.T D1/ D   1  i. 1 C 2 /.X CY /  (poiché X; Y N0;1 C E e i. 1 C 2 /X E e i. 1  2 /Y D E e 2 e X C Y N0;2 )   1 . 1 C 2 /2 2 2 e C e  1  2 : D 2

D

Esercizio B.69 Si consideri la funzione .x; y/ D

1 .ax C by C 1/½Œ1;1Œ1;1 .x; y/; 4

.x; y/ 2 R2 :

Determinare: i) per quali a; b  0, la funzione  è una densità; ii) la densità di X e Y supponendo che  sia densità di .X; Y /; iii) per quali a; b  0 le v.a. X e Y sono indipendenti.

Appendice B: Esercizi di riepilogo

337

Soluzione i)  è una funzione misurabile con “ .x; y/dxdy D 1 R2

per ogni a; b  0. Inoltre, poiché a; b  0, si ha .x; y/  .1; 1/ D a  b C 1;

.x; y/ 2 Œ1; 1  Œ1; 1

e quindi   0 se a C b  1. ii)

Z1 X .x/ D

.x; y/dy D

ax C 1 ½Œ1;1 .x/; 2

.x; y/dx D

by C 1 ½Œ1;1 .y/: 2

1

Z1 Y .y/ D 1

iii) .X; Y / sono indipendenti se e solo se .x; y/ D X .x/Y .y/ ossia .ax C 1/.by C 1/ D ax C by C 1 ossia abxy D 0 ossia a D 0 oppure b D 0. Esercizio B.70 Sia X D .X1 ; X2 ; X3 / N0;C con 0

1 2 1 1 C D @ 1 1 0 A: 1 0 1 Si determini per quali a 2 R: i) Y WD .aX1 C X2 ; X3 / è una v.a. assolutamente continua; ii) aX1 C X2 e X3 sono indipendenti; iii) la funzione caratteristica 'Y è una funzione sommabile su R2 . Soluzione i) Poiché Y D ˛X;

a ˛D 0

! 1 0 ; 0 1

338

Appendice B: Esercizi di riepilogo

si ha Y N0;˛C ˛ con 1 C 2a C 2a2 ˛C ˛ D a

! a ; 1

det.˛C ˛ / D .1 C a/2 :

Solo per a D 1 la matrice ˛C ˛ è singolare e per tale valore di a la v.a. Y non è assolutamente continua. ii) data l’espressione della matrice di covarianza ˛C ˛ , si ha che aX1 C X2 e X3 sono scorrelate (e quindi indipendenti) se a D 0. iii) Poiché Y N0;˛C ˛ si ha 1

'Y . / D e  2 hC ˛

;˛ i

:

'Y non è sommabile se a D 1 altrimenti, per il teorema di inversione, Y sarebbe assolutamente continua. Esercizio B.71 Siano X N; 2 e Y Bep , con 0 < p < 1, v.a. indipendenti. Posto Z D X Y , si determini: i) E ŒZ; ii) la CDF di Z e se Z è assolutamente continua;  iii) la CHF di Z e utilizzarla per calcolare E Z 2 . Soluzione i) Per l’indipendenza, si ha “ x y N; 2 ˝ Bep .dx; dy/ D E ŒZ D R2

Z

Dp

(per il Teorema di Fubini)

Z x N; 2 .dx/ C .1  p/

R

N; 2 .dx/ D p C .1  p/: R

ii) Si ha FZ .z/ D P .Z  z/ D P ..Z  z/ \ .Y D 1// C P ..Z  z/ \ .Y D 0// D (per l’indipendenza di X e Y ) D P .X  z/P .Y D 1/ C P .1  z/P .Y D 0/ D pFX .z/ C .1  p/½Œ1;C1Œ .z/: Poiché FZ ha un salto in z D 1 di ampiezza 1p, la v.a. Z non è assolutamente continua. iii) Si ha    'Z . / D E e i Z D pE e i X C .1  p/E e i D p'X . / C .1  p/e i ; 'X . / D e i 

 2 2 2

:

Appendice B: Esercizi di riepilogo

339

Per il Teorema 3.5.20 si ha  E Z 2 D @2 'Z . /j D0 D p.2 C  2 / C .1  p/: Esercizio B.72 i) Per quali valori di a; b 2 R la funzione .x/ D .2ax C b/½Œ0;1 .x/;

x 2 R;

è una densità? ii) Si consideri una successione di v.a. .Xn /n2N i.i.d. con densità  con b D 0. Si p determini la CDF di nX1 e di p p Yn D minf nX1 ; : : : ; nXn g: iii) Si provi che .Yn /n2N converge debolmente e si determini la densità della v.a. limite. Soluzione i) Deve essere Z1

Z .x/dx D

1D R

.2ax C b/dx D a C b 0

da cui b D 1  a. Inoltre  deve essere non-negativa: se a  0 allora il minimo di  è assunto per x D 0 e si ha la condizione 1  a  0; se a < 0 allora il minimo di  è assunto per x D 1 e si ha la condizione a C 1  0. In definitiva, per jaj  1 e b D 1  a,  è una densità. ii) Si ha 8 ˆ ˆ 0/ D 12 e si ha 1 E ŒY j X > 0 D P .X > 0/

Z

Z2 YdP D 2

.X >0/

Esercizio B.74 Se .X; Y / N;C

1

y log 4

ZC1 e yjxj dxdy D

1 : log 2

0

! 1 0 con  D .0; 0/ e C D . Determinare: 0 2

i) la legge di .Y; X/; ii) la legge e la CHF di .X; X/. È una v.a. assolutamente continua? È vero che lim

j. 1 ; 2 /j!C1

iii) .Y; X/ e .X; X/ sono indipendenti?

'.X;X / . 1 ; 2 / D 0‹

Appendice B: Esercizi di riepilogo

Soluzione

!

341

!

Y i) Poiché X

X D˛ Y ! 2 0 ˛C ˛ D . 0 1

! 0 1 , si ha .X; Y / 2 N.0;0/;C1 con C1 D 1 0

con ˛ D

! 1 1 ii) In modo analogo si mostra che .X; X/ 2 N.0;0/;C2 con C2 D . In questo 1 1 caso la matrice di covarianza è degenere e .X; X/ non è assolutamente continua. Si ha 1

'.X;X / . 1 ; 2 / D e  2 . 1 C2 1 2 C 2 / 2

2

e '.X;X / . 1 ;  1 / D 1 per ogni 1 2 R (da cui segue che '.X;X / non tende a 0 all’infinito). iii) Se .Y; X/ e .X; X/ fossero indipendenti allora lo sarebbero anche le loro seconde componenti che sono entrambe uguali a X. Esercizio B.75 Indichiamo con y2 1 .y/ D p e  2 ; 2

y 2 R;

la Gaussiana standard. i) Verificare che la funzione .x; y/ D ½H .x; y/;

H WD f.x; y/ 2 R2 j 0  x  .y/g

è una densità. ii) Siano X; Y variabili aleatorie con densità congiunta . Determinare le densità marginali X e Y . X e Y sono indipendenti? iii) Ricordando la formula (5.3.6) per la densità condizionata X jY .x; y/ WD

.x; y/ ; Y .y/

x 2 R; y 2 .Y > 0/;

si calcoli X jY e il valore atteso condizionato E ŒX n j Y  con n 2 N. Soluzione i)  è una funzione misurabile, non-negativa e “ R2

Z Z.y/ Z .x; y/dxdy D dxdy D .y/dy D 1: R

0

R

342

Appendice B: Esercizi di riepilogo

ii) Si ha Z X .x/ D

r  p  .x; y/dy D 2 2 log x 2 ½0; p1  .x/; 2

R

Z

Y .y/ D

.x; y/dx D .y/: R

X e Y non sono indipendenti poiché la densità congiunta non è il prodotto delle marginali. iii) Si ha X jY .x; y/ D

1 ½H .x; y/ .y/

e Z E ŒX j Y  D n

1 x X jY .x; y/ D .y/

Z.y/

x n dx D

n

R

1 n .y/: nC1

0

B.3 Successioni di variabili aleatorie Esercizio  B.76 Sia .Xn /n2N una successione di v.a. con distribuzione Xn

1  n1 ı0 C n1 ın . i) Si calcoli media, varianza e CHF di Xn . ii) Si calcoli la CHF di Zn WD continuità di Lévy.

Xn 1 p n1

d

e si deduca che Zn ! 0 per il Teorema di

L2

iii) Vale anche Zn ! 0 ? P

iv) Vale anche Zn ! 0 ? Soluzione i) Si ha   1 1 C n  D 1; E ŒXn  D 0  1  n n

i h var.Xn / D E .Xn  1/2 D n  1:

Inoltre  1 1 'Xn . / D E e i Xn D 1  C e i n : n n

Appendice B: Esercizi di riepilogo

343

ii) Si ha i h p

i X E e n1 n  

i p

n1 De 'Xn p n1   1 in p

1 i p

n1 n1 De 1 C e ! 1: n!1 n n

'Zn . / D e

i p

n1

Ora la funzione costante 1 è la CHF della Delta di Dirac centrata in zero, da cui la tesi. iii) Si ha  kZn k22 D E Zn2 D

1 var.Xn / D 1 n1

e quindi non si ha convergenza in L2 .˝; P /. iv) Si ha convergenza in probabilità per il punto vi) del Teorema 4.1.9. Esercizio B.77 Sia .Xn /n2N una successione di variabili aleatorie i.i.d. con distribuzione UnifŒ0; , con  > 0. Si determini: i) la CDF della v.a. nX1 per n 2 N; ii) la CDF della v.a. Yn WD minfnX1 ; : : : ; nXn g; per n 2 N; iii) il limite in legge di .Yn /n2N , riconoscendo di quale distribuzione notevole si tratta. Soluzione i) Si ha 8 ˆ ˆ "

non tende a zero per n ! 1. Esercizio B.79 Sia .Xn /n2N una successione di variabili aleatorie tali che Xn

Exp 1˛ con 0 < ˛  1. n

i) Posto Yn D Xnn1 , per ogni 0 < ˛ < 1 si studi la convergenza della successione .Yn /n2N in L2 ; ii) per ˛ D 1, la successione .Yn /n2N converge in distribuzione? In caso affermativo, si determini il limite. Soluzione i) Si ha E



Yn2



ZC1 t dt .t  1/2 e  n˛ ˛ D n

1 D 2 n

(col cambio di variabili  D

t n˛ )

0

n2˛ D 2 n

ZC1 2n2a  2n˛ C 1 .  n˛ /2 e  d  D n2 0

che tende a zero per n ! 1. Più semplicemente, senza calcolare esplicitamente l’integrale, si ha n2˛ 0 2 n

ZC1 .  n˛ /2 e  d  

c n22˛

! 0;

0

ZC1 cD . C 1/2 e  d : 0

ii) Si ha 'Xn . / D

1 1  i n˛

da cui, per ˛ D 1, 'Yn . / D e

 i

n

d

'Xn

 

i

e n 1 D ! : n 1  i

1  i

Dunque per ˛ D 1 si ha Yn ! Y Exp1 .

346

Appendice B: Esercizi di riepilogo

Esercizio B.80 Data X 2 N0;1 , si consideri la successione 1 Xn D  n

r

1 X; n

1C

n 2 N:

Stabilire se: d

i) Xn ! X; n!1 L2

ii) Xn ! X; n!1 q.c.

iii) Xn ! X. n!1

Soluzione i) Si ha Xn N 1 ;1C 1 . Poiché n

n



2

2

1

'Xn . / D e i n  2 .1C n / ! e  2 D 'X . /; n!1

d

per il Teorema di continuità di Lévy si ha che Xn ! X. ii) Si ha 2 ! !2 3 r i h 1 1 E .Xn  X/2 D E 4 1C C1 X 5  n n !2 r  1 1 1 C C 1 E X 2 ! 4 D 2C n!1 n n e quindi non c’è convergenza in L2 . iii) Per ogni ! 2 ˝ si ha Xn .!/ ! X.!/ n!1

e quindi non c’è convergenza q.c.: Xn converge a X solo sull’evento trascurabile .X D 0/. Esercizio B.81 UnifŒ0;n .

Sia .Xn /n2N una successione di variabili aleatorie con Xn

i) Si studi la convergenza puntuale della successione delle funzioni caratteristiche 'Xn e si stabilisca se .Xn /n2N converge debolmente; ii) .Xn /n2N converge q.c.?

Appendice B: Esercizi di riepilogo

347

Soluzione i) Si ha ( i X  1 'Xn . / D E e n D ei n 1

se D 0; altrimenti:

i n

Si noti che 'Xn è una funzione continua poiché, per ogni n 2 N, si ha e i n  1 D 1:

!0 i n lim

Allora ( lim 'Xn . / D

n!1

1 se D 0; 0 altrimenti:

che non è continua in D 0. Dunque per il Teorema 4.3.8 di continuità di Lévy, la successione .Xn /n2N non converge debolmente. ii) Poiché .Xn /n2N non converge debolmente, per il Teorema 4.1.9, non si ha neppure la convergenza q.c. Esercizio B.82 Si consideri la funzione   p Fp .x/ WD 1  ½R0 .x/; p  1 C ex

x 2 R:

i) Si provi che Fp è una funzione di ripartizione per ogni p  0 e non lo è per p < 0; ii) sia p la distribuzione con CDF Fp : per quali p, p è assolutamente continua? iii) si studi la convergenza debole di pn con pn ! 0C e con pn ! 1 e si riconoscano le distribuzioni limite. Soluzione Calcoliamo la derivata Fp0 .x/ D

pe x ½R0 .x/ .p  1 C e x /2

da cui si vede che Fp è monotona crescente per p  0 e descrescente per p < 0. Fp con p D 0 è la CDF della delta di Dirac centrata in zero. Se p > 0 allora Fp è una funzione assolutamente continua su R: Zx Fp .x/ D 0

Fp0 .y/dy;

x 2 R:

348

Appendice B: Esercizi di riepilogo

Infine Fp .x/ 0 per x < 0 e lim Fp .x/ D 1:

x!1

Applichiamo il Teorema 4.3.3: per pn ! 0C , si ha Fp .x/ ! F0 .x/;

x 2 R n f0g

con 0 unico punto di discontinuità di F0 : quindi pn converge debolmente alla delta di Dirac centrata in zero. Se pn ! 1, allora Fp .x/ ! F1 .x/ D 1  e x ;

x2R

e quindi pn converge debolmente a Exp1 . Esercizio B.83 Sia .Xn /n2N una successione di v.a. con distribuzione    1  p 1 p n 2 N: Xn n WD ı n C ı n C 1  UnifŒ 1 ; 1  ; n n 2n n i) Si calcoli media e varianza di Xn . d

ii) Si calcoli la CHF di Xn e si deduca che Xn ! 0. L2

iii) Vale anche Xn ! 0 ? Soluzione i) Si ha E ŒXn  D 0; Z var.Xn / D R

1

  Zn   1 n 1 1 2 x n .dx/ D 1 C 1  x 2 dx D 1 C 2 1  : n 2 3n n  n1

ii) Ricordando l’espressione della CHF uniforme si ha  

p  1 e i n  e i n 1  i pn i n C 1 'Xn . / D Ce ! 1: e n!1 2n n i n2 Ora la funzione costante 1 è la CHF della Delta di Dirac centrata in zero, da cui la tesi per il Teorema di continuità di Lévy. iii) Non si ha convergenza in L2 .˝; P / poiché, per quanto visto al punto i), kXn kL2 2 .˝;P / D var.Xn / ! 1: n!1

Appendice C: Tavole riassuntive delle principali distribuzioni

Nome

Simbolo Funzione di Attesa Varianza distribuzione .k/ N

Delta di Dirac

ıx0

½fx0 g .k/

x0

Proprietà: vedi Esempi 2.4.12, 2.4.25, 3.2.15 ( p se k D 1 Bernoulli Bep p 1  p se k D 0

Funzione caratteristica

0

e ix0

p.1  p/

1 C p.e i  1/

Proprietà: vedi Proposizione 3.6.3, Esempi 2.4.17, 3.2.17 e Esercizio 3.1.18 Uniforme

Unifn

1 ½I .k/ n n

n C 1 n2  1 2 12

Proprietà: vedi Esempio 2.4.17 ! n k Binomiale Binn;p p .1  p/nk, np k

e i .e i n  1/ n.e i  1/

np.1  p/

.1 Cp.e i  1//n



e .e

0kn Proprietà: vedi Esempi 2.2.20, 2.4.17, 3.1.20 Poisson

Poisson

e  k , kŠ k 2 N0



i 1/

Proprietà: vedi Esempi 2.4.17, 3.1.22, 3.2.17, 3.6.5 e (3.2.13) Geometrica

Geomp

p.1  p/k1 , k2N

Proprietà: vedi Esempio 3.1.24 e (3.1.10) b N b  Ipergeometrica Ipern;b;N

k

Nnk  , n

1 p

1p p2

bn N

bn.N  b/.N  n/ N 2 .N  1/

p e i  1 C p

0k n^b Proprietà: vedi Esempi 2.2.22, 3.1.28

349

350

Appendice C: Tavole riassuntive delle principali distribuzioni

Nome

Simbolo

Densità: .x/ D

Attesa Varianza Funzione caratteristica

Uniforme su Œa; b

UnifŒa;b

1 ½Œa;b .x/ ba

a C b .b  a/2 e ib  e ia

2 12 i .b  a/

Proprietà: vedi Esempi 2.4.22, 3.3.34 e (2.4.13) Esponenziale

1 

e x ½R0

Exp

1 2

   i

Proprietà: vedi Esempi 2.4.22, 3.6.10 e (2.4.8), (3.1.14), (3.1.10), (3.2.14) Normale reale

N; 2

p

1 2 2

1 x 2  /

e 2 .



2

e i 

 2 2 2

Proprietà: vedi Esempi 2.4.22, 3.1.33, 3.1.37 e (2.4.8), (3.2.30), (3.6.7) Gamma

˛ e x ½R>0 .x/ .˛/x 1˛

˛;

˛ 

˛ 2



   i



Proprietà: vedi Lemma 3.1.36, Esempi 3.2.30, 3.1.37 e (3.1.14) x

Chi-quadro a n gradi 2 .n/ D n ; 1 2 2

1 e 2  n  1 n 2 2 x 2 n 2

Proprietà: vedi Esempio 3.1.37 e Esercizio 3.6.7

½R>0 .x/

n

2n

n

.1  2i / 2

Bibliografia

1. Baldi, P.: Introduzione alla probabilità con elementi di statistica, 2a ed. McGraw-Hill (2012) 2. Baldi, P.: Stochastic Calculus. Universitext. Springer, Cham (2017) 3. Bass, R. F.: Probabilistic Techniques in Analysis. Probability and Its Applications, Springer, New York (1995) 4. Bass, R. F.: Stochastic Processes. Cambridge Series in Statistical and Probabilistic Mathematics, vol. 33. Cambridge University Press, Cambridge (2011) 5. Bass, R. F.: Real Analysis for Graduate Students (2013). Disponibile su http://bass.math. uconn.edu/real.html 6. Baudoin, F.: Diffusion Processes and Stochastic Calculus., EMS Textbooks in Mathematics. European Mathematical Society (EMS), Zürich (2014) 7. Bauer, H.: Probability Theory. De Gruyter Studies in Mathematics, vol. 23. Walter de Gruyter, Berlin (1996). Translated from the fourth (1991) German edition by Robert B. Burckel and revised by the author 8. Biagini, F., Campanino, M.: Elements of Probability and Statistics. Unitext – La Matematica per il 3+2, vol. 98. Springer, Cham (2016). Translated from the 2006 Italian original 9. Billingsley, P.: Probability and Measure, 3a ed. Wiley Series in Probability and Mathematical Statistics. John Wiley & Sons, New York (1995) 10. Billingsley, P.: Convergence of Probability Measures, 2a ed. Wiley Series in Probability and Statistics. John Wiley & Sons, New York (1999) 11. Caravenna, F., Dai Pra, P.: Probabilità – Un’introduzione Attraverso Modelli e Applicazioni. Springer (2013) 12. Costantini, D.: Introduzione alla Probabilità, Testi e Manuali della Scienza Contemporanea. Serie di Logica Matematica. Bollati Boringhieri (1977) 13. Dieudonné, J.: Sur le Théorème de Lebesgue-Nikodym, III. Ann. Univ. Grenoble. Sect. Sci. Math. Phys. (N.S.) 23, 25–53 (1948) 14. Doob, J. L.: Stochastic Processes, John Wiley & Sons, New York; Chapman & Hall, London (1953) 15. Durrett, R.: Stochastic Calculus. Probability and Stochastics Series, CRC Press, Boca Raton, FL (1996) 16. Durrett, R.: Probability: Theory and Examples, 4a ed. Cambridge University Press, Cambridge (2010). Disponibile su https://services.math.duke.edu/~rtd/ 17. D’Urso, V., Giusberti, F.: Esperimenti di Psicologia, 2a ed. Zanichelli (2000) 18. Faden, A. M.: The existence of regular conditional probabilities: necessary and sufficient conditions. Ann. Probab. 13, 288–298 (1985) 19. Feller, W.: An Introduction to Probability Theory and Its Applications, Vol. II, 2a ed. John Wiley & Sons, New York, London, Sydney (1971)

351

352

Bibliografia

20. Friedman, A.: Stochastic Differential Equations and Applications, Dover, Mineola, NY (2006). Reprint of the 1975 and 1976 original published in two volumes 21. Glasserman, P.: Monte Carlo Methods in Financial Engineering. Stochastic Modelling and Applied Probability, vol. 53. Springer, New York (2004) 22. Glasserman, P., Yu, B.: Number of paths versus number of basis functions in American option pricing. Ann. Appl. Probab. 14, 2090–2119 (2004) 23. Goodfellow, I., Bengio, Y., Courville, A.: Deep Learning, MIT Press (2016). Disponibile su http://www.deeplearningbook.org 24. Halmos, P. R.: Measure Theory, D. Van Nostrand, New York, NY (1950) 25. Jacod, J., Protter, P.: Probability Essentials. Universitext. Springer-Verlag, Berlin (2000) 26. Kallenberg, O.: Foundations of Modern Probability, 2a ed. Probability and Its Applications. Springer, New York (2002) 27. Karatzas, I. Shreve, S. E.: Brownian Motion and Stochastic Calculus, 2a ed. Graduate Texts in Mathematics, vol. 113. Springer, New York (1991) 28. Klenke, A.: Probability Theory, 2a ed. Universitext. Springer, London (2014) 29. Lanconelli, E.: Lezioni di Analisi Matematica 1, Pitagora Editrice, Bologna (1994) 30. Lanconelli, E.: Lezioni di Analisi Matematica 2, Pitagora Editrice, Bologna (1995) 31. Lanconelli, E.: Lezioni di Analisi Matematica 2 – Seconda Parte. Pitagora Editrice, Bologna (1997) 32. Letta, G.: Probabilità Elementare. Compendio di Teorie. Problemi Risolti. Zanichelli (1993) 33. Mumford, D.: The dawning of the age of stochasticity, Atti Accad. Naz. Lincei Cl. Sci. Fis. Mat. Natur. Rend. Lincei (9) Mat. Appl., 107–125 (2000). Mathematics towards the third millennium (Rome, 1999) 34. Neveu, J.: Mathematical Foundations of the Calculus of Probability. Holden-Day., San Francisco, CA, London, Amsterdam (1965). Translated by Amiel Feinstein 35. Oksendal, B.: Stochastic Differential Equations, 5a ed. Universitext. Springer, Berlin (1998) 36. Pascucci, A.: PDE and Martingale Methods in Option Pricing. Bocconi & Springer Series, vol. 2. Springer, Milan; Bocconi University Press, Milan (2011) 37. Paulos, J. A.: A Mathematician Reads the Newspaper. Basic Books, New York (2013). Paperback edition of the 1995 original with a new preface 38. Pintacuda, N.: Probabilità. Zanichelli (1995) 39. Rasmussen, C. E., Williams, C. K. I.: Gaussian Processes for Machine Learning. MIT Press (2006). Disponibile su http://www.gaussianprocess.org/gpml/ 40. Riesz, F. Sz.-Nagy, B.: Functional Analysis. Frederick Ungar, New York (1955). Translated by Leo F. Boron 41. Rudin, W.: Real and Complex Analysis, 3a ed. McGraw-Hill, New York (1987) 42. Salsburg, D.: The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century. Henry Holt (2002) 43. Shiryaev, A. N.: Probability 1, 3a ed. Graduate Texts in Mathematics, vol. 95. Springer, New York (2016). Translated from the fourth (2007) Russian edition by R. P. Boas and D. M. Chibisov 44. Sinai, Y. G.: Probability Theory. Springer Textbook. Springer, Berlin (1992). Translated from the Russian and with a preface by D. Haughton 45. Stroock, D. W.: Partial Differential Equations for Probabilists. Cambridge Studies in Advanced Mathematics, vol. 112. Cambridge University Press, Cambridge (2012). Paperback edition of the 2008 original 46. Stroock, D. W., Varadhan, S. R. S.: Multidimensional Diffusion Processes. Classics in Mathematics, Springer, Berlin (2006). Reprint of the 1997 edition 47. Vitali, G.: Sul Problema Della Misura dei Gruppi di Punti di Una Retta. Tip, Gamberini e Parmeggiani, Bologna (1905) 48. Williams, D.: Probability with Martingales. Cambridge Mathematical Textbooks. Cambridge University Press, Cambridge (1991)

Indice analitico

A algebra, 18  -algebra, 12 di Borel, 65 generata da insiemi, 64 da una v.a., 105 arg max, 9 arg min, 9 assenza di memoria, 116, 118 assoluta continuità dell’integrale, 134 assolutamente continua distribuzione, 71 funzione, 80, 279 attesa, 127 condizionata, 173, 232, 240, 242 funzione, 237, 247

B

Bd , 65 b F , 104 bC , 138, 202 Bernstein, 213 Berry-Esseen, 229 Borel-Cantelli, 56

C Cantor, 82 CDF, 74 condizionata, 173 congiunta, 154 del massimo, 199 di v.a., 110

marginale, 155 CHF, 177 congiunta, 186 marginale, 186 Cholesky, 151 coefficiente di correlazione, 150 combinazioni, 31 completamento, 64 convergenza debole, 202 di distribuzioni, 202 in Lp , 201 in probabilità, 201 puntuale, 201 q.c., 108 convoluzione, 194 correlazione, 150 campionaria, 154 covarianza, 149 campionaria, 152 criterio di Sylvester, 156

D decomposizione di Cholesky, 151 delta di Dirac, 67 densità condizionata, 173, 256, 257 congiunta, 154 marginale, 155 derivata di Radon-Nikodym, 271 deviazione standard, 140 differenza simmetrica, 64 disposizioni con ripetizione, 28 353

354 semplici, 29 distribuzione, 63

2 , 123

2 .n/, 198 assolutamente continua, 71 binomiale, 36, 70, 113 approssimazione, 223, 228 chi-quadro, 123, 198 condizionata, 173, 232 funzione, 237, 255 versione regolare, 252, 253 congiunta, 154 del massimo, 199 delta di Dirac, 67, 223 di Bernoulli, 69 di Cauchy, 180 di Poisson, 70, 114, 223 discreta, 68 esponenziale, 73, 222 Gamma, 121, 122, 198 geometrica, 70, 116, 222 ipergeometrica, 37, 118 log-normale, 126 marginale, 155 normale, 73, 120, 223 bidimensionale, 156, 170 multidimensionale, 187 standard, 73 uniforme discreta, 69 multidimensionale, 73, 119 Disuguaglianza di Cauchy-Schwarz, 148, 150 di Chebyschev, 204 di Hölder, 147 di Jensen, 144 condizionata, 244 di Markov, 204 di Minkowski, 148 triangolare, 133 Doob, 158

E erf, 76 esito, 14 esperimento aleatorio, 12 evento, 14

F famiglia \-chiusa, 13

Indice analitico [-chiusa, 13  -\-chiusa, 13  -[-chiusa, 13 di prove ripetute e indipendenti, 57 monotona di funzioni, 270 di insiemi, 267 fenomeno aleatorio, 12 formula binomiale, 35 della probabilità totale, 48, 234, 243, 254, 258 di Bayes, 51, 261 di moltiplicazione, 50 di Newton, 35 Fourier, 178 freezing, 244, 246 funzione a variazione limitata, 280 assolutamente continua, 80, 279 caratteristica, 177 di distribuzione, 69 congiunta, 154 marginale, 155 di ripartizione, 74, 84 congiunta, 154 marginale, 155 di Vitali, 82 errore (erf), 76 Gamma di Eulero, 121 indicatrice, 9 integrabile, 132 semplice, 127 sommabile, 132

G Gamma di Eulero, 121 grafico di dispersione, 152

I i.i.d., 208 indipendenza di eventi, 52 di v.a., 157 insieme di Cantor, 82 quasi certo, 17 trascurabile, 17 integrale astratto, 131, 132 intensità, 235 stocastica, 235

Indice analitico intervallo di confidenza, 228

355 N

N , 17 J Jensen, 144, 244

L legge, 109 condizionata, 232 dei grandi numeri, 225 legge debole dei grandi numeri, 208 legge forte dei grandi numeri, 209 Lemma di Borel-Cantelli, 56 di Fatou, 132 condizionato, 244 di freezing, 244, 246 LSMC, 249 Lévy, 220

M mF , 104 mF C , 104 matrice definita positiva, 156 di correlazione, 151 di covarianza, 150 semi-definita positiva, 151 media, 135, 138 aritmetica normalizzata, 226 campionaria, 152 media aritmetica, 209, 225 memoria, 116, 118 metodo Monte Carlo, 212, 228 minimi quadrati, 248 misura, 13, 19 di probabilità, 14 esterna, 94 finita, 14  -finita, 14 prodotto, 162 modello binomiale, 196 momento, 191 Monte Carlo, 212 Least Square, 249

P parte positiva, 9 permutazioni, 31 polinomi di Bernstein, 213 pre-misura, 92 probabilità, 14 condizionata, 45, 232 funzione, 237 versione regolare, 251 uniforme, 16 procedura standard, 138 processo uniformemente integrabile, 282 processo stocastico, 282 prodotto scalare, 9 proprietà della torre, 244 di assenza di memoria, 116 proprietà quasi certa, 108 prove ripetute e indipendenti, 57

Q q.c., 9, 108 q.o., 9 quasi certamente, 108

R Radon-Nikodym, 271 regressione, 150 retta di regressione, 150, 152 roulette, 210

S semianello, 93 somma di variabili aleatorie, 194 spazio campionario, 14 di probabilità, 14 completo, 18, 108 discreto, 14 misurabile, 12 polacco, 252 strategia del raddoppio, 210 Sylvester, 156

356 T Teorema centrale del limite, 227 del calcolo della media, 139, 234, 253 della convergenza dominata, 134 condizionato, 244 di Beppo-Levi, 131 condizionato, 244 di Berry-Esseen, 229 di Carathéodory, 79, 92 di continuità di Lévy, 220 di convergenza di Vitali, 282 di Doob, 158 di Fubini, 163 di Helly, 218 di inversione, 183 di Radon-Nikodym, 271 di rappresentazione di Riesz, 272 tightness, 218 trasformata di Fourier, 178

Indice analitico U uguaglianza in legge, 111 q.c., 108 uniforme integrabilità, 282

V v.a., 9, 104 assolutamente continua, 110 valore atteso, 135, 138 variabile aleatoria, 104 assolutamente continua, 110 varianza, 140, 149 campionaria, 152 versione regolare della distribuzione condizionata, 253 Vitali, 22, 282