135 51 3MB
English Pages 280 [273] Year 2020
UNITEXT 120
Francesca Gasperoni · Francesca Ieva Anna Maria Paganoni
Eserciziario di Statistica Inferenziale
UNITEXT – La Matematica per il 3+2 Volume 120 Editor-in-Chief Alfio Quarteroni, Politecnico di Milano, Milan, Italy; EPFL, Lausanne, Switzerland Series Editors Luigi Ambrosio, Scuola Normale Superiore, Pisa, Italy Paolo Biscari, Politecnico di Milano, Milan, Italy Ciro Ciliberto, Università di Roma “Tor Vergata”, Rome, Italy Camillo De Lellis, Institute for Advanced Study, Princeton, USA Victor Panaretos, Institute of Mathematics, EPFL, Lausanne, Switzerland
The UNITEXT – La Matematica per il 3+2 series is designed for undergraduate and graduate academic courses, and also includes advanced textbooks at a research level. Originally released in Italian, the series now publishes textbooks in English addressed to students in mathematics worldwide. Some of the most successful books in the series have evolved through several editions, adapting to the evolution of teaching curricula.
More information about this series at http://www.springer.com/series/5418
Francesca Gasperoni Francesca Ieva Anna Maria Paganoni
Eserciziario di Statistica Inferenziale
Francesca Gasperoni Dipartimento di Matematica Politecnico di Milano Milano, Italy
Anna Maria Paganoni Dipartimento di Matematica Politecnico di Milano Milano, Italy
Francesca Ieva Dipartimento di Matematica Politecnico di Milano Milano, Italy
ISSN 2038-5714 UNITEXT ISSN 2038-5722 La Matematica per il 3+2 ISBN 978-88-470-3994-0 https://doi.org/10.1007/978-88-470-3995-7
ISSN 2532-3318 (versione elettronica) ISSN 2038-5757 (versione elettronica) ISBN 978-88-470-3995-7 (eBook)
© Springer-Verlag Italia S.r.l., part of Springer Nature 2020 Quest’opera è protetta dalla legge sul diritto d’autore e la sua riproduzione è ammessa solo ed esclusivamente nei limiti stabiliti dalla stessa. Le fotocopie per uso personale possono essere effettuate nei limiti del 15% di ciascun volume dietro pagamento alla SIAE del compenso previsto dall’art. 68. Le riproduzioni per uso non personale e/o oltre il limite del 15% potranno avvenire solo a seguito di specifica autorizzazione rilasciata da AIDRO, Corso di Porta Romana n. 108, Milano 20122, e-mail [email protected] e sito web www.aidro.org. Tutti i diritti, in particolare quelli relativi alla traduzione, alla ristampa, all’utilizzo di illustrazioni e tabelle, alla citazione orale, alla trasmissione radiofonica o televisiva, alla registrazione su microfilmo in database, o alla riproduzione in qualsiasi altra forma (stampata o elettronica) rimangono riservati anche nel caso di utilizzo parziale. La violazione delle norme comporta le sanzioni previste dalla legge. L’utilizzo in questa pubblicazione di denominazioni generiche, nomi commerciali, marchi registrati, ecc. anche se non specificatamente identificati, non implica che tali denominazioni o marchi non siano protetti dalle relative leggi e regolamenti. Questa edizione è pubblicata da Springer-Verlag Italia S.r.l., parte di Springer Nature, con sede legale in Via Decembrio 28, 20137 Milano, Italy
Prefazione
L’inferenza statistica è la disciplina che sta alla base di tutta la modellistica matematica di tipo stocastico, ovvero quella parte di modellistica matematica in cui l’incertezza è parte del modello e dell’oggetto di interesse nello studio. L’analisi matematica, l’algebra lineare, il calcolo delle probabilità sono tra le principali discipline su cui si fonda la teoria matematica dell’inferenza statistica, che ha come principale obiettivo la stima, a partire dai dati generati dal fenomeno oggetto di studio, di quantità di interesse quali, ad esempio, le leggi parametriche e non parametriche di modelli stocastici, le relative distribuzioni asintotiche, etc. All’interno di questo contesto si colloca lo studio di modelli statistici avanzati, quali ad esempio i modelli di regressione lineare, l’analisi della varianza (ANOVA), i modelli di regressione generalizzati, strumenti essenziali sia in ambito di ricerca che in ambito aziendale. Di conseguenza, l’implementazione di algoritmi di calcolo in adeguati software statistici si propone come naturale completamento della materia. Questo testo nasce con l’obiettivo di aiutare lo studente nella transizione fra i concetti teorici e metodologici dell’inferenza statistica e la loro implementazione al computer. La prima parte del testo è infatti focalizzata principalmente su esercizi da risolvere con carta e penna, in modo da far applicare nozioni derivanti da lemmi e teoremi; mentre la seconda parte del testo è costituita da laboratori, in cui si propone sia l’implementazione manuale di algoritmi, sia l’apprendimento di built-in tools per un’analisi efficiente di dataset derivanti da problemi reali. Per ottimizzare la fruizione degli argomenti sviluppati, e per accompagnare il lettore nello studio, il testo è organizzato in capitoli, ciascuno dei quali composto, a sua volta, da una prima parte introduttiva, in cui vengono richiamate le basi teoriche dell’inferenza statistica, e da una seconda parte di esercizi, corredati di un esaustivo svolgimento su carta e, se opportuno, su software. In particolare, per una approfondita trattazione della parte teorica, si rimanda a [3] e [5]. Per quanto riguarda gli svolgimenti a computer, si propone l’utilizzo del software statistico R [6] (versione 3.5.1). Questa scelta è stata guidata dal fatto che R è disponibile per diversi sistemi operativi (Unix, GNU/Linux, Mac OS X, Microsoft Windows) ed è gratuitamente scaricabile dal sito http://cran.r-project.org/. Inoltre, in R è presente un’ampia scelta v
vi
Prefazione
di librerie (pacchetti), opportunamente commentati, distribuiti sul Comprehensive R Archive Network (CRAN). Il testo può essere diviso in sei macro-aree: una prima area, costituita dal primo capitolo, prevede esercizi di base di probabilità; una seconda area, costituita dal secondo, terzo e quarto capitolo, affronta il tema degli stimatori puntuali; una terza area, costituita dal quinto, sesto e settimo capitolo, è incentrata sulla verifica di ipotesi e sugli intervalli di confidenza; una quarta area, costituita dall’ottavo capitolo, si concentra sulle proprietà asintotiche degli stimatori; ed una quinta area, costituita dai laboratori del nono, decimo ed undicesimo capitolo, è incentrata su modelli di regressione lineare multipla, regressione generalizzata e analisi della varianza. Relativamente a questi tre capitoli è disponibile online del materiale supplementare, contenente i dataset necessari per svolgere alcuni esercizi, ulteriori approfondimenti ed esercizi. È presente infine un ultimo capitolo, contenente esercizi di ricapitolazione, tramite i quali lo studente può acquisire una visione globale delle tecniche per l’analisi di dati illustrate nel volume. Questo testo è scritto per studenti dei corsi di laurea di primo livello in Statistica, Matematica, Ingegneria e per i corsi di laurea di secondo livello in Data Science. Molti fra gli esercizi e i laboratori proposti sono derivati da esercizi e temi d’esame del corso di Modelli e Metodi per l’Inferenza Statistica insegnato nel corso di studi di Ingegneria Matematica del Politecnico di Milano. Ringraziamo pertanto i numerosi colleghi e collaboratori che hanno contribuito, direttamente o indirettamente, alla creazione del materiale proposto. In particolare, un contributo importante allo sviluppo degli Esercizi e Laboratori va riconosciuto ad Andrea Ghiglietti, Matteo Gregoratti e Nicholas Tarabelloni. Milano, Italia luglio 2019
Francesca Gasperoni Francesca Ieva Anna Maria Paganoni
Indice
Parte I
Statistica inferenziale
1
Fondamenti di probabilità e statistica . . . . . . 1.1 Richiami di teoria . . . . . . . . . . . . . . . . 1.1.1 Valore atteso, varianza e covarianza . 1.1.2 Leggi congiunte e marginali . . . . . 1.1.3 Valori attesi condizionati . . . . . . . 1.1.4 Convergenze . . . . . . . . . . . . . . . 1.2 Esercizi . . . . . . . . . . . . . . . . . . . . . . 1.3 Soluzioni . . . . . . . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
3 3 3 4 5 5 7 10
2
Statistiche sufficienti, minimali e complete 2.1 Richiami di teoria . . . . . . . . . . . . . 2.2 Esercizi . . . . . . . . . . . . . . . . . . . 2.3 Soluzioni . . . . . . . . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
19 19 20 22
3
Stimatori puntuali . . . 3.1 Richiami di teoria 3.2 Esercizi . . . . . . 3.3 Soluzioni . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
27 27 28 32
4
Uniform Minimum Variance Unbiased Estimators (UMVUE) 4.1 Richiami di teoria . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Soluzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
45 45 46 49
5
Likelihood Ratio Test . 5.1 Richiami di teoria 5.2 Esercizi . . . . . . 5.3 Soluzioni . . . . .
. . . .
. . . .
. . . .
. . . .
63 63 64 66
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
vii
viii
Indice
6
Test uniformemente più potente 6.1 Richiami di teoria . . . . . . 6.2 Esercizi . . . . . . . . . . . . 6.3 Soluzioni . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
83 83 84 86
7
Intervalli di confidenza . 7.1 Richiami di teoria . 7.2 Esercizi . . . . . . . 7.3 Soluzioni . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
101 101 102 103
8
Statistica asintotica . . 8.1 Richiami di teoria 8.2 Esercizi . . . . . . 8.3 Soluzioni . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
111 111 113 115
Regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.1 Richiami di teoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.1.1 Stimatori dei parametri incogniti della regressione: metodo dei minimi quadrati . . . . . . . . . . . . . . . . . . . . . . . . . 9.1.2 Inferenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.1.3 Regioni e intervalli di confidenza per i predittori . . . . . . . 9.1.4 Intervalli di confidenza per la previsione . . . . . . . . . . . . 9.1.5 Bontà del modello (Goodness of Fit, GOF) . . . . . . . . . . 9.1.6 Librerie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3 Soluzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
125 125
Modelli lineari generalizzati . . . . . . . . . . . . . . 10.1 Richiami di teoria . . . . . . . . . . . . . . . . . . 10.1.1 Modello logistico per outcome binari . . 10.1.2 Modelli per outcome di tipo conteggio . 10.1.3 Altre funzioni di link . . . . . . . . . . . . 10.1.4 Interpretazione dei parametri . . . . . . . 10.1.5 Inferenza per i parametri di regressione 10.1.6 Selezione di modello . . . . . . . . . . . . 10.1.7 Bontà del modello . . . . . . . . . . . . . 10.1.8 Librerie . . . . . . . . . . . . . . . . . . . . 10.2 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . 10.3 Soluzioni . . . . . . . . . . . . . . . . . . . . . . .
181 181 182 182 182 183 183 183 184 185 185 188
Parte II 9
10
. . . .
Modelli di regressione e analisi della varianza
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
126 127 127 128 128 129 130 132
Indice
ix
11
ANOVA: analisi della varianza 11.1 Richiami di teoria . . . . . . 11.1.1 ANOVA . . . . . . . . 11.1.2 Librerie . . . . . . . . 11.2 Esercizi . . . . . . . . . . . . 11.3 Soluzioni . . . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
211 211 211 213 213 214
12
Esercizi di riepilogo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247 12.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247 12.2 Soluzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
Distribuzioni di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267 Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
Parte I
Statistica inferenziale
Capitolo 1
Fondamenti di probabilità e statistica
1.1 1.1.1
Richiami di teoria Valore atteso, varianza e covarianza
Teorema 1.1 Sia X una v.a. reale con funzione di ripartizione FX .x/, sia Y D g.X/, sia X D fx W f .x/ > 0g e sia Y D fy W fY .y/ > 0g: Se g. / è una funzione crescente in X , allora FY .y/ D FX .g 1 .y// 8y 2 Y . Se g. / è una funzione decrescente in X e X è una v.a. continua allora FY .y/ D 1 FX .g 1 .y// 8y 2 Y . Supponiamo che fX .x/ sia continua in X e che g 1 . / abbia derivata continua in Y . Allora la densità di Y è la seguente: ( 1 fX .g 1 .y//j dg dy.y/ j y 2 Y I fY .y/ D 0 altrimenti: Teorema 1.2 Sia X una v.a. con funzione di ripartizione FX .x/ continua. Allora la v.a. Y D FX .X/ ha legge Y U.0; 1/. Definizione 1.3 (Media) Il valore atteso o media di una v.a. g.X/ è definito: (R C1 se X v.a. continuaI 1 g.x/fX .x/ dx EŒg.X/ D P x2X g.x/fX .x/ dx se X v.a. discreta: Teorema 1.4 Sia X una v.a. Siano a, b, c scalari in R. Allora per qualsiasi funzioni g1 .x/ e g2 .x/ per cui esista la media, valgono:
EŒag1 .X/ C bg2 .X/ C c D aEŒg1 .X/ C bEŒg2 .X/ C c. Se g1 .x/ 0 8x, allora EŒg1 .X/ 0. Se g1 .x/ g2 .x/ 8x, allora EŒg1 .X/ EŒg2 .X/. Se a g1 .x/ b 8x, allora a EŒg1 .X/ b.
© Springer-Verlag Italia S.r.l., part of Springer Nature 2020 F. Gasperoni, F. Ieva, A.M. Paganoni, Eserciziario di Statistica Inferenziale, UNITEXT 120, https://doi.org/10.1007/978-88-470-3995-7_1
3
4
1 Fondamenti di probabilità e statistica
Definizione 1.5 (Varianza) La varianza di una v.a. X è definita come: Var.X/ D EŒ.X EŒX/2 D EŒX 2 .EŒX/2 e la sua radice quadrata prende il nome di deviazione standard. Teorema 1.6 Sia X una v.a. con varianza finita. Siano a, b, c scalari in R. Allora vale: Var.aX C b/ D a2 Var.X/: Definizione 1.7 (Covarianza) Siano X ed Y due v.a., allora la covariaza è definita come: Cov.X; Y / D EŒ.X EŒX/.Y EŒY /: Teorema 1.8 Siano X ed Y due v.a. con varianza finita e a e b due scalari. Allora: Var.aX C bY / D a2 Var.X/ C b 2 Var.Y / C 2ab Cov.X; Y /: Definizione 1.9 (Correlazione) Siano X ed Y due v.a., allora la correlazione è definita come: Cov.X; Y / X;Y D p : Var.X/ Var.Y / Teorema 1.10 Siano X ed Y due v.a. Allora: X;Y 2 Œ1; 1. jX;Y j D 1 se e solo se esiste un numero a ¤ 0 e b tale che P fY D aX Cbg D 1. Se a > 0 allora X;Y D 1, se a < 0 allora X;Y D 1.
1.1.2
Leggi congiunte e marginali
Teorema 1.11 Sia X D .X1 ; X2 ; : : : ; Xn / un vettore di v.a. con desità congiunta fX .x/ . Allora la legge marginale di X1 ; : : : ; Xk è: Z fX1 ;:::;Xk .x1 ; : : : ; xk / D R
fX1 ;:::;Xk .x1 ; : : : ; xk / D
Z
fX .x/ dxkC1 dxkC2 : : : dxn
se v.a. continue:
R
X
.xkC1 ;:::;xn /2Rnk
fX .x/
se v.a. discrete:
1.1 Richiami di teoria
5
Definizione 1.12 (Leggi condizionate) Sia X D .X1 ; X2 ; : : : ; Xn / un vettore di v.a. con desità congiunta fX .x/. 8.x1 ; : : : ; xk / 2 Rk tale che fX1 ;:::;Xk .x1 ; : : : ; xk / > 0, la legge condizionata di X dato .X1 ; : : : ; Xk / D .x1 ; : : : ; xk / è una funzione di .x1 ; : : : ; xk /, fX1 ;:::Xn jX1 ;:::; Xk .x1 ; : : : xn jx1 ; : : : ; xk /, che viene definita come: fX1 ;:::Xn jX1 ;:::; Xk .x1 ; : : : xn jx1 ; : : : ; xk / D
fXkC1 ;:::Xn .xkC1 ; : : : xn / : fX1 ;:::Xk .x1 ; : : : xk /
Lemma 1.13 (Indipendenza) Sia X D .X1 ; X2 ; : : : ; Xn / un vettore di v.a. con desità congiunta fX .x/. X1 ; X2 ; : : : Xn sono v.a. mutuamente indipendenti se e solo se: fX .x/ D
n Y
fXi .xi /:
i D1
Teorema 1.14 (Indipendenza) Cov.X1 ; X2 / D 0.
1.1.3
Se X1 ed X2 sono v.a. indipendenti allora
Valori attesi condizionati
Teorema 1.15 (Doppio valore atteso condizionato) Siano X ed Y due v.a., allora: EŒX D EŒEŒXjY se i valori attesi esistono. Teorema 1.16 (Varianza condizionata) Siano X ed Y due v.a., allora: Var.X/ D EŒVar.XjY / C Var.EŒXjY / se i valori attesi esistono.
1.1.4
Convergenze
Definizione 1.17 (Convergenza quasi certa) Una sequenza di v.a. X1 ; X2 ; : : : converge quasi certamente ad una v.a. X se 8" > 0 vale: P f lim jXn Xj < "g D 1 n!C1
q:c:
e si denota con Xn ! X.
6
1 Fondamenti di probabilità e statistica
Definizione 1.18 (Convergenza in probabilità) Una sequenza di v.a. X1 ; X2 ; : : : converge in probabilità ad una v.a. X se 8" > 0 vale: lim P fjXn Xj "g D 0
n!1
o equivalentemente lim P fjXn Xj < "g D 1
n!1 p
e si denota con Xn ! X. Teorema 1.19 (Legge forte dei Grandi Numeri, LFGN) Si consideri una sequenza X1 ; P X2 ; : : : di v.a. i.i.d., tali che EŒXi D e Var.Xi / D 2 < C1. Si consideri X n D niD1 Xi =n. Allora 8" > 0 vale: P f lim jX n j < "g D 1 n!C1
q:c:
cioè X n converge quasi certamente a (X n ! ). Teorema 1.20 (Legge debole dei Grandi Numeri) Si consideri una sequenza X1 ; X2P ; : : : di v.a. i.i.d., tali che EŒXi D e Var.Xi / D 2 < C1. Si consideri X n D niD1 Xi =n. Allora 8" > 0 vale: lim P fjX n j < "g D 1I
n!C1
p
cioè X n converge in probabilità a (X n ! ). Teorema 1.21 Si consideri una sequenza di v.a. X1 ; X2 ; : : : che converge in probabilità ad una v.a. X e sia h una funzione continua. Allora h.X1 /; h.X2 /; : : : converge in probabilità ad h.X/. Definizione 1.22 (Convergenza in legge) Una sequenza di v.a. X1 ; X2 ; : : : converge in legge ad una v.a. X se vale: lim FXn .x/ D FX .x/
n!C1
L
8x in cui FX .x/ è continua e si denota Xn ! X. Teorema 1.23 Si consideri una sequenza di v.a. X1 ; X2 ; : : : che converge ad una v.a. X: La convergenza quasi certa implica quella in probabilità. La convergenza in probabilità implica quella in legge. La convergenza in legge implica quella in probabilità solo se X1 ; X2 ; : : : converge ad una costante.
1.2 Esercizi
7 L
p
Teorema 1.24 (Teorema di Slutsky) Se Xn ! X e Yn ! a, a è costante allora: L
Xn Yn ! aX: L
Xn C Yn ! a C X: Teorema 1.25 (Teorema Centrale del Limite, TCL) Si consideri una sequenza ; : : : di v.a. i.i.d., tali che EŒXi D e Var.Xi / D 2 < C1. Si consideri X1 ; X2P X n D niD1 Xi =n. Allora vale: (p lim P
n!C1
) Zx n.X n / 1 2 p ey =2 dyI x D .x/ D 2 1
p
cioè
n.X n / L !
Z N.0; 1/.
Teorema 1.26 (Metodo Delta) Si consideri una sequenza X1 ; X2 ; : : : di v.a., tali p L che n.X n / ! X N.0; 2 /. Consideriamo una specifica funzione g. / e uno specifico valore . Supponiamo che g 0 ./ esista e sia non nullo. Allora: p L n.g.X n / g.// ! X N.0; 2 Œg 0 ./2 /: Se g 0 ./ D 0: p
L
n.g.X n / g.// ! X
2 00 g ./ 2 .1/: 2
Per un ulteriore approfondimento si faccia riferimento ai Capitoli 1, 2 e 4 [3].
1.2
Esercizi
Esercizio 1.1 La legge congiunta delle variabili aleatorie discrete X ed Y è parzialmente descritta in Tabella 1.1. (a) (b) (c) (d)
Completare la tabella e dire se X ed Y sono indipendenti. Calcolare la legge, il valore atteso e la varianza condizionali di Y dato X D 0. Calcolare la legge, il valore atteso e la varianza condizionali di X dato Y D 2. Calcolare EŒXjY .
Tabella 1.1 Legge congiunta delle variabili X ed Y
Y D2 X D0 X D1 X D2
Y D4 0.1
0.1 0.6
0.3 0.4
8
1 Fondamenti di probabilità e statistica
Esercizio 1.2 Sia .X; Y / un vettore aleatorio continuo con distribuzione uniforme sull’insieme ˚ V D .x; y/ 2 R2 W x 0; y 0; x 2 C y 2 9 : (a) Scrivere la densità di .X; Y /. Le variabili X ed Y sono indipendenti? (b) Calcolare EŒXjY . Esercizio 1.3 Si calcoli EŒY jX per la coppia di variabili aleatorie .X; Y / di densità congiunta ( f .x; y/ D
4 5
.x C 3y/ ex2y ; x; y > 0I
0;
altrimenti:
Esercizio 1.4 La concentrazione X di una certa sostanza inquinante in un dato volume del gas di scarico di un processo industriale è uniformemente distribuita tra 0 e 1 mg/m3 . È stato elaborato un procedimento di depurazione che consente di ridurre la concentrazione di quella sostanza: se x è la concentrazione di inquinante in un dato volume di gas sottoposto a depurazione, la concentrazione Y dopo la depurazione è uniformemente distribuita tra 0 e px mg/m3 , dove p 2 .0; 1/ è un dato parametro. (a) (b) (c) (d)
Determinare la distribuzione congiunta di X e Y . Determinare la distribuzione di Y . Le due variabili sono indipendenti? Se è nota la concentrazione Y di inquinante dopo la depurazione, qual è il valore atteso per la corrispondente concentrazione X precedente alla depurazione?
Esercizio 1.5 Durante la stesura di un libro, una versione preliminare dell’opera viene riletta dall’autore. Sapendo che il numero di errori in una pagina è una variabile casuale con distribuzione di Poisson di parametro D 3, e che ogni errore viene scoperto (in una lettura) con probabilità p D 0:7, calcolare: (a) La legge del numero di errori scoperti in una pagina (ad es. la prima). (b) Il numero atteso di errori scoperti in una pagina. (c) La probabilità che vengano scoperti due errori nella prima pagina sapendo che ce ne sono al più tre. Esercizio 1.6 Siano X ed Y due bernoulliane indipendenti di parametro p. Sia Z D I.X CY D0/ l’indicatrice dell’evento X CY D 0. Si calcolino EŒXjZ e EŒY jZ. Sono queste variabili aleatorie ancora indipendenti? Esercizio 1.7 Si consideri un vettore aleatorio .X; Y / tale che X abbia distribuzione uniforme sull’intervallo Œ0; 1 e, condizionatamente ad X D x, Y abbia legge gaussiana di media x e varianza x 2 .
1.2 Esercizi
(a) (b) (c) (d) (e) (f)
9
Scrivere esplicitamente la densità condizionata f.Y jX / .yjx/. Scrivere esplicitamente la densità congiunta f.X;Y / .x; y/. Calcolare EŒY jX. Calcolare EŒY . Calcolare VarŒY jX. Calcolare VarŒY .
Esercizio 1.8 Sia .X; Y / un vettore aleatorio continuo con 8 1=2 1=2 y=2 ˆ e < .1=2/ y ; .1=2/ fY .y/ D ˆ :0; yx 2 =2
fX jY .xjy/ D .2/1=2 y 1=2 e
;
y > 0I y 0: x 2 R:
(a) Si mostri che per ogniy > 0 esiste EŒXjY D y. (b) Si mostri che esiste E EŒXjY e se ne calcoli il valore. (c) Si mostri che tuttavia non esiste EŒX. Esercizio 1.9 Si considerino X1 ; : : : ; Xn variabili bernoulliane indipendenti tutte di parametro p, dove n 2. Sia Z la loro somma e sia Y D X1 C X2 X1 X2 la variabile che indica se c’è stato almeno un successo nelle prime due prove. (a) Calcolare EŒX1 jZ e EŒX2 jZ ed i loro limiti per n ! 1. (b) Determinata la legge di Y , calcolare EŒY jZ ed il suo limite per n ! 1. Esercizio 1.10 Sia Xn una successione di variabili aleatorie indipendenti tali che, per ogni i ( P .Xi > x/ D
x 1;
1; x
;
x > 1:
dove > 1 (a) (b) (c) (d)
Calcolare la densità della v.a. Xi . Calcolare la media della v.a. Xi . Determinare la legge della v.a. Yi D log.Xi /. ˚ Studiare la convergenza della successione di v.a. .X1 X2 : : : Xn /1=n .
Esercizio 1.11 Sia X1 ; : : : ; Xn ; : : : una successione di v.a. indipendenti e identicamente distribuite di legge uniforme nell’intervallo Œ0; , con > 0. (a) Calcolare, per ogni n fissato, la funzione di ripartizione della v.a. Tn D n min.X1 ; : : : ; Xn /. (b) Dimostrare che la successione di v.a. T1 ; : : : ; Tn ; : : : converge in legge ad una v.a. Y e riconoscere la legge di Y .
10
1 Fondamenti di probabilità e statistica
Esercizio 1.12 Sia .Xn / una successione di v.a. indipendenti tutte di legge Poisson di parametro . Quanto vale, al variare di , il limite lim P .X1 C C Xn < n/‹
n!1
Esercizio 1.13 Sia fXn gn2N una successione di v.a. tali che Xn 2 .n/ per ogni n 2 N . La successione Xn =n ammette limite? In quale senso?
1.3
Soluzioni
1.1 (a) Nell’ultima colonna a destra leggiamo la legge marginale di X, P fX D xg. Nell’ultima riga in basso leggiamo la legge marginale di Y , P fY D yg. Possiamo quindi completare la legge congiunta, come riportato in Tabella 1.2. Si vede subito che non sono indipendenti, in quanto ad esempio: P fX D 0; Y D 2g D 0:2 ¤ P fX D 0gP fY D 2g D 0:12: (b)
Y jX D 0
2 4 2=3 1=3
1
EŒY jX D 0 D 2 2=3 C 4 1=3 D 8=3: Var.Y jX D 0/ D EŒY 2 jX D 0 .EŒY jX D 0/2 D D 4 2=3 C 16 1=3 64=9 D 8=9: (c)
XjY D 2
0 1 2 1=2 1=4 1=4
1
EŒXjY D 2 D 1 1=4 C 2 1=4 D 3=4: Var.XjY D 2/ D EŒX 2 jY D 2 .EŒXjY D 2/2 D D 1 1=4 C 4 1=4 9=16 D 11=16: (d)
XjY D 4
0 1 2 1=6 1=2 1=3
1
EŒXjY D 4 D 1 1=2 C 2 1=3 D 7=6:
Tabella 1.2 Legge congiunta delle variabili X ed Y
X D0 X D1 X D2
Y D2 0.2 0.1 0.1 0.4
Y D4 0.1 0.3 0.2 0.6
0.3 0.4 0.3 1
1.3 Soluzioni
11
Quindi: EŒXjY D
7 3 IfY D2g C IfY D4g : 4 6
Notiamo che EŒXjY è v.a. funzione di Y . 1.2 (a) Dato che l’area di V vale 94 , la densità del vettore .X; Y / vale: fX;Y .x; y/ D
4 IV .x; y/: 9
X e Y non sono indipendenti dato che: p Z9x 2
fX .x/ D
4 4 p 9 x 2 IŒ0;3 .x/ dx D 9 9
0
e per simmetria: fY .y/ D
4 p 9 y 2 IŒ0;3 .y/: 9
Quindi: f.X;Y / .x; y/ ¤ fX .x/ fY .y/: Il supporto di .X; Y /, V, non è infatti fattorizzabile. (b) 1 Ih p 2 i .x/ 8y W 0 y 3: fX jY .xjy/ D p 9 y 2 0; 9y Quindi XjY ha legge uniforme sull’intervallo Œ0;
p 9 y 2 e quindi:
p 9 y2 EŒXjY D : 2 1.3 Sfruttiamo la definizione: ZC1 ZC1 fX;Y .x; y/ y fY jX .yjx/dy D y dy: EŒY jX D x D fX .x/ 0
0
12
1 Fondamenti di probabilità e statistica
Dato che: ZC1 ZC1 4 fX;Y .x; y/dy D .x C 3y/ ex2y dy D fX .x/ D 5 0
0
ZC1 4 x h e2y iC1 4 x C 3e ye2y dy D D xe 5 2 0 5 0
1 1 4 1 4 D xex C 3ex D .2x C 3/ex : 5 2 5 4 5 Si ottiene: fY jX .yjx/ D
4 5
.x C 3y/ ex2y 1 .2x 5
C 3/ex
D4
x C 3y e2y : 2x C 3
Sostituendo nella formula di partenza, si ha: ZC1 x C 3y e2y dy D EŒY jX D x D y4 2x C 3 0
4 D 2x C 3
ZC1 .xye2y C 3y 2 e2y / dy D 0
xC3 4 .x 1=4 C 3 1=4/ D : D 2x C 3 2x C 3 Quindi EŒY jX D
X C3 2X C3 .
1.4 (a) Si sa che: X UŒ0;1 e Y jX D x UŒ0;px . Quindi: fY jX .yjx/ D
1 IŒ0;px .y/: px
La legge congiunta di .X; Y / sará quindi: fX;Y .x; y/ D (b)
Z1 fY .y/ D y=p
1 IŒ0;px .y/ IŒ0;1 .x/: px
1 1 y dx D log IŒ0;p .y/: px p p
1.3 Soluzioni
13
(c) Si osserva immediatamente che X ed Y non sono indipendenti. (d) Bisogna calcolare EŒXjY . fX jY .xjy/ D
IŒ0;px .y/ IŒ0;1 .x/ D p1 log py IŒ0;p .y/
1 px
D
1 1 IŒ0;p .y/ IŒy=p;1 .x/I x log y p
da cui: Z1
1 dx IŒ0;p .y/ D
EŒXjY D y D
log
y=p
y p
1 y 1 D IŒ0;p .y/: p log py 1 Y 1 EŒXjY D IŒ0;p .Y /: p log Yp 1.5 (a) Definiamo le seguenti v.a. e ricaviamo le relative distribuzioni: E D ‘numero di errori presenti in una pagina’, E P . /. S D ‘numero di errori scoperti in una pagina’. SjE D n Bi n.n; p/. Calcoliamo P fS D kg, sfruttando il teorema delle probabilità totali: P fS D kg D D
C1 X nD0 C1 X nDk
D D
P fS D kjE D ng P fE D ng D ! e n n k D p .1 p/.nk/ nŠ k
C1 p k e X nkCk .1 p/.nk/ D kŠ .n k/Š nDk C1 X
k
. p/ e kŠ
nDk
. .1 p//nk D .n k/Š
. p/k e p . p/k e . p/ D e D kŠ kŠ Possiamo quindi dire che: S P . p/.
k 0:
14
1 Fondamenti di probabilità e statistica
(b) EŒS D p. (c)
P fS D 2; E 3g D P fE 3g P3 P fS D 2jE D ngP fE D ng D D nD2 P fE 3g
2 3 p 2 e 2Š C 32 p 2 .1 p/1 e 3Š
D D 1 2 3 e 0 C e 1Š C e 2Š C e 3Š
0Š 0:1097 C 0:0988 D D 0:3223: 0:6472
P fS D 2jE 3g D
1.6 (a) Si osservi che Z Be..1 p/2 /. P .X D 1; Z D 0/ P .X D 1/ D D P .Z D 0/ P .Z D 0/ p p 1 D D D : 1 .1 p/2 p.2 p/ 2p EŒXjZ D 1 D 0:
EŒXjZ D 0 D P fX D 1jZ D 0g D
Quindi: EŒXjZ D
1 If0g .Z/ D EŒY jZI 2p
dove l’ultima uguaglianza è dovuta ad ovvi motivi di simmetria. Ora EŒXjZ 6 EŒY jZ, infatti: 1 1 P EŒXjZ D ; EŒY jZ D D P fZ D 0g D 2p 2p D 2p p 2 ¤ .2p p 2 /2 : 1.7 X U Œ0; 1
Y jX D x N.x; x 2 /:
(a)
2 1 .yx/ f.Y jX / .yjx/ D p e 2x2 : 2x 2
(b)
2 1 .yx/ e 2x2 IŒ0;1 .x/: f.X;Y / .x; y/ D f.Y jX / .yjx/fX .x/ D p 2x 2
(c)
EŒY jX D x D x H) EŒY jX D X:
(d)
EŒY D EŒEŒY jX D EŒX D 1=2:
1.3 Soluzioni
15
(e)
Var.Y jX/ D X 2 :
(f)
Var.Y / D Var.EŒY jX/ C E.VarŒY jX/ D D Var.X/ C EŒX 2 D D 2 Var.X/ C .EŒX/2 D 1 5 1 : D2 C D 2 4 12
1.8 (a) y > 0. Calcoliamo: Z1 EŒXjY D y D 1
˚ 1 x p y 1=2 exp y x 2 =2 dx D 0 2
per ovvi motivi di simmetria. Quindi: EŒXjY D 0. (b) EŒEŒXjY D 0. (c) ZC1 fX .x/ D fX jY .xjy/ fY .y/ D 0
ZC1 D 0
1 1 y 1=2 p y 1=2 expfyx 2 =2g p 1 exp fy=2g D 2 2 2
1 D p 2 12
ZC1 expfy=2.1 C x 2 /g dy D 0
1 1 1 D : D p .1 C x 2 / 2 12 1=2 .1 C x 2 / Quindi X Cauchy e non esiste finito EŒX. 1.9 (a)
n1 k1 p .1 p/nk p k1 P fX1 D 1; Z D kg k n
D : D EŒX1 jZ D k D k nk P fZ D kg n k p .1 p/ Quindi: Z D EŒX1 jZ D EŒX2 jZ D n per la legge forte dei grandi numeri.
P
Yi q:c: ! p n
16
1 Fondamenti di probabilità e statistica
Y D X1 C X2 X1 X2 :
(b)
Y può assumere solo valore 0 con probabilità .1 p/2 o 1 con probabilità 1 .1 p/2 D 2p p 2 . Quindi: Y Be.2p p 2 /. EŒY jZ D k D EŒX1 jZ D k C EŒX2 jZ D k EŒX1 X2 jZ D k D n2
2k p 2 k2 p k2 .1 p/nk n
D D k nk n k p .1 p/ D
2k k.k 1/ : n n.n 1/
Quindi: EŒY jZ D
2Z Z.Z 1/ q:c: ! 2p p 2 I n n.n 1/
sempre per la legge forte dei grandi numeri. 1.10 fXi .x/ D x . C1/ If1;C1g .x/I
(a)
che si ottiene derivando la funzione di ripartizione FXi .x/ D 1 P fXi > xg. (b)
ZC1 EŒX D
x dx D
:
1
1
(c)
FYi .y/ D P flog Xi yg D P fXi ey g D 1 e y
Quindi Yi E . /. P q:c: (d) Dato che n1 log.Xi / ! n Y i D1
!1=n Xi
1
8y > 0:
per la legge forte dei grandi numeri, allora:
!1=n 3
P log Xi q:c: 1=
5 D exp D exp 4log Xi ! e : n i D1 2
n Y
1.3 Soluzioni
17
1.11 P fTn tg D P fn min.X1 ; : : : ; Xn / tg D D 1 P fmin.X1 ; : : : ; Xn / > t=ng D
(a)
D1
n Y
P fXi > t=ng D
i D1 n Y
t D n
i D1 t n : D1 1 n
t n ! 1 et = : 1 1 n
D1
(b)
1
Quindi Y E .1= /. 1.12 Si può notare che: lim P .X1 C C Xn < n/ D lim P .X n < 1/:
n!1
n!1
Dato che EŒXi < 1 e Var.Xi / < 1, possiamo applicare la legge forte dei grandi numeri, che ci garantisce: q:c:
X n ! EŒXi D : La convergenza q.c implica quella in legge, quindi: FX n .t/ ! F .t/: Considerando che è una costante, possiamo scrivere F .t/ D IŒ ;C1/ .t/. Quindi concludiamo che: ( 1 se < 1I lim P .X n < 1/ D n!1 0 se > 1: Rimane da studiare il caso D 1, poiché punto di discontinuità per la F .t/ . Se
D 1, dal Teorema Centrale del Limite sappiamo che: lim
n!1
p L n .X n EŒXi / ! N.0; Var.Xi //:
In questo caso specifico, dato che D 1, possiamo scrivere: lim
n!1
p
L
n .X n 1/ ! N.0; 1/:
18
1 Fondamenti di probabilità e statistica
Che si traduce in: p p p P fX n < 1g D P f n .X n 1/ < .1 1/ ng D P f n .X n 1/ < 0g: p P f n .X n 1/ < 0g ! P fZ < 0g D ˚.0/ D 1=2: Quindi concludiamo che:
lim P .X n < 1/ D
n!1
8 ˆ ˆ 1:
1.13 2 Dato X n .n/ allora 9 una successione di v.a. Y1 ; Y2 ; : : : ; Yn i.i.d., tali che P Xn D Yi e Yi 2 .1/, ovvero Yi Gamma.1=2; 1=2/. Notiamo che EŒYi D 1 < 1 e che anche Var.Yi / < 1. Possiamo quindi applicare la Legge Forte dei Grandi Numeri e concludere che: Xn D n
P
Yi q:c: ! EŒYi D 1: n
Capitolo 2
Statistiche sufficienti, minimali e complete
2.1
Richiami di teoria
Definizione 2.1 (Statistica) Sia X1 ; : : : ; Xn un campione di v.a. Definiamo statistica T .X / una qualsiasi funzione del campione. Definizione 2.2 (Statistiche sufficienti) Una statistica T .X / è sufficiente per un parametro se la distribuzione condizionata di X dato T .X / non dipende da . Teorema 2.3 (Fattorizzazione) Sia f .xI / la distribuzione congiunta di un campione di v.a. X . Una statistica T .X / è sufficiente per il parametro se e solo se esistono una funzione g.tI / e una funzione h.x/ tali che 8 x e 8 , valga la decomposizione: f .xI / D g.T .x/I /h.x/: Teorema 2.4 Sia X1 ; : : : ; Xn un campione di v.a. i.i.d. tali che Xi f .xI /. Sia f .xI / appartenente alla mia famiglia esponenziale, ovvero: f .xI / D h.x/c./ exp
( k X
) wi ./ti .x/
2 Rd ;
d k:
i D1
P P Allora T .X / D . jnD1 t1 .Xj /; : : : ; jnD1 tk .Xj // è una statistica sufficiente per . Definizione 2.5 (Statistiche sufficienti minimali) Una statistica sufficiente T .X / è detta minimale per il parametro se per qualsiasi statistica sufficiente T 0 .X /, T .X / è funzione di T 0 .X /. Teorema 2.6 (L-S) Siano f .xI / la densità congiunta del campione X . Supponiamo che esista una funzione T .X / tale che per ogni coppia di realizzazioni del © Springer-Verlag Italia S.r.l., part of Springer Nature 2020 F. Gasperoni, F. Ieva, A.M. Paganoni, Eserciziario di Statistica Inferenziale, UNITEXT 120, https://doi.org/10.1007/978-88-470-3995-7_2
19
20
2
Statistiche sufficienti, minimali e complete
campione x e y valga: f .xI / f .xI /
,
indipendente da
T .x/ D T .y/:
Allora T .X / è statistica sufficiente minimale per . Teorema 2.7 Sia X1 ; : : : ; Xn un campione di v.a. i.i.d. tali che Xi f .xI /. Sia f .xI / appartenente alla mia famiglia esponenziale, ovvero: ( k ) X f .xI / D h.x/c./ exp wi ./ti .x/ 2 Rd ; d k: i D1
Se l’immagine di .w1 ./; w2P ./; : : : ; wk .// contiene almeno un aperto di Rk , Pn n allora la statistica T .X / D . j D1 t1 .Xj /; : : : ; j D1 tk .Xj // è una statistica sufficiente e completa per . Definizione 2.8 (Statistiche complete) Sia f .tI / una famiglia di distribuzioni per la statistica T .X /. Tale famiglia di distribuzioni è detta completa se 8 g misurabile vale: E Œg.T / D 0 8
)
P fg.T / D 0g D 1 8:
Equivalentemente la statistica T .X / è detta completa. Teorema 2.9 Se una statistica T .X / è sufficiente e completa per allora è anche minimale. Per un ulteriore approfondimento si faccia riferimento al Capitolo 6 [3].
2.2
Esercizi
Esercizio 2.1 Sia X1 ; : : : ; Xn un campione casuale da una N.; 2 /, con 2 R e 2 2 .0; C1/. Siano XD
n X Xi i D1
n
e
n X .Xi X/2 S D n1 i D1 2
la media e la varianza campionarie. Dimostrare che: P P (a) T .X1 ; : : : ; Xn / D . niD1 Xi ; niD1 Xi2 / è una statistica sufficiente, completa e minimale per .; 2 /. (b) T .X1 ; : : : ; Xn / D .X; S 2 / è una statistica sufficiente, completa e minimale per .; 2 /. Stabilire la legge della statistica considerata al punto (b).
2.2 Esercizi
21
EsercizioP 2.2 Dato un campione casuale X1 ; : : : ; Xn da una N.; 1/, dimostrare che T D niD1 Xi2 non è sufficiente per . Esercizio 2.3 Dato un campione casuale X1 ; X2 da una P . /, mostrare che T D X1 C 2X2 non è una statistica sufficiente per .
Esercizio 2.4 Sia X1 ; : : : ; Xn un campione casuale da una U Œ0; , dove > 0. Si mostri che T D maxfX1 ; : : : ; Xn g è sufficiente, completa e minimale per .
Esercizio 2.5 Dato un campione casuale X1 ; : : : ; Xn da una U Œ=2; =2 , dove > 0, mostrare che T D .minfX1 ; : : : ; Xn g; maxfX1 ; : : : ; Xn g/ è sufficiente per . Trovare una statistica sufficiente minimale. Esercizio 2.6 Dato un campione casuale X1 ; : : : ; Xn di tipo discreto, stabilire se la statistica T D .X1 ; : : : ; Xn1 / è sufficiente. Esercizio 2.7 Dato un campione casuale estratto da una popolazione con legge beta di parametri ˛ e ˇ trovare una statistica sufficiente minimale e completa per .˛; ˇ/. Esercizio 2.8 Sia X1 ; : : : ; Xn un casuale da f .xI / D x expfx 2 =2g=, Pcampione P 2 x > 0, > 0. Si mostri che i Xi è sufficiente minimale per , ma che i Xi non è sufficiente per . Esercizio 2.9 Sia X1 ; : : : ; Xn un campione casuale di variabili aleatorie reali aventi distribuzione F continua con densità nota a meno del valore del paramtero 2 R: Siano V D V .X1 ; : : : ; Xn / una statistica, T D T .X1 ; : : : ; Xn / una statistica sufficiente e U D U.X1 ; : : : ; Xn / una statistica completa. Verificare che: (a) Se W è funzione di U, allora W una statistica completa. (b) Se T è funzione di V, allora V è una statistica sufficiente. Esercizio 2.10 Sia X una variabile aleatoria discreta che assume i valori 0; 1; 2. (a) Sia P .X D 0/ D p, P .X D 1/ D 3p e P .X D 2/ D 14p con 0 < p < 1=4. Stabilire se la famiglia distribuzioni di X è completa. (b) Sia P .X D 0/ D p, P .X D 1/ D p 2 e P .X D 2/ D 1 p p 2 con 0 < p < 1=2. Stabilire se la famiglia distribuzioni di X è completa.
22
2.3
2
Statistiche sufficienti, minimali e complete
Soluzioni
2.1 (a) X N.; 2 / appartiene alla famiglia esponenziale, quindi studiamo fX .x/. 1 2 exp 2 .x / D fX .x/ D p 2 2 2 ( 1 1 2 Dp exp 2 x C 2 2 2 2 2 „ ƒ‚ … „ ƒ‚ … 2 1
c.; 2 /
w1 . /t1 .x/
x 2 „ƒ‚…
) :
w2 .; 2 /t2 .x/
Quindi: 0 1 n n X X xj2 ; xj A T .x/ D .T1 .x/; T2 .x// D @ j D1
j D1
è una statistica sufficiente bivariata per .; 2 /. Inoltre: 1 .w1 ; w2 / D 2 ; 2 W RC R ! R R: 2 Lo spazio immagine è un aperto di R2 allora T .x/ è statistica sufficiente e completa, quindi anche minimale. (b) Dato che: P Xn D
Xi n
n S D n1
P
2
Xi2 n
P
Xi n
2 ! I
P
P
T1 .x/ D X n ; S 2 è una funzione invertibile di T1 .x/ D Xi ; Xi2 . Quindi T1 .x/ è una statistica sufficiente, completa e minimale. 2.2 Ci sono 2 modi per risolvere questo esercizio: Metodo 1: Lehmann-Scheffé Possiamo usare Lehmann-Scheffé, mostrando che esistono due realizzazioni distinte, x e y, tali che: T .x/ D T .y/:
2.3 Soluzioni
23
Prendiamo ad es. x D .1; 1; : : : ; 1/ e y D .1; 1; : : : ; 1/. Notiamo subito che T .x/ D T .y/. Valutiamo ora: P fX .xI / .2/n=2 expf .xi /2 =2g P D D fX .yI / .2/n=2 expf .yi /2 =2g o nX D exp Œ.xi /2 C .yi /2 =2 D expf2ng: Dato che il rapporto dipende da , la statistica T .X / non è sufficiente per . Metodo 2: statistica sufficiente e minimale L’idea è trovare una statistica W che sia sufficiente e minimale per e mostrare che non esiste alcuna funzione g. I / tale che W D g.T .X /I /. Questo proverebbe che T .X / non è sufficiente per . Dato che la Normale appartiene alla famiglia esponenziale, si prova immediataP mente che W D Xi è statistica sufficiente e completa (quindi anche minimale) per . P P Si vede che non esiste nessuna g. I / tale che Xi D g. Xi2 I /. Quindi T .X / non è sufficiente per . 2.3 Si consideri ad esempio: P fX1 D 0; X2 D 1g D T D2
e2
D D P fX1 D 0; X2 D 1g C P fX1 D 2; X2 D 0g
e2
D D 2
e C 2 e2 =2 1 D : 1 C 2
P fX1 D 0; X2 D 1jT D 2g D
Dato che la legge di .X1 ; X2 /jT dipende da , T non è statistica sufficiente per . 2.4 X U Œ0; non appartiene alla famiglia esponenziale perché il Spt.X/ dipende da . n 1 1 Y IŒ0; .xi / D IŒ0;C1 .x.1/ /IŒ0; .x.n/ /: f .xI / D n i D1
Quindi, per il criterio di fattorizzazione, X.n/ è sufficiente per . Inoltre sia g tale che EŒg.T .X// D 0 ; 8 > 0. Dato che: n t IŒ0; .t/ C IŒ;C1.t/I FT .t/ D
24
2
Statistiche sufficienti, minimali e complete
allora: fT .t/ D
n n1 t IŒ0; .t/: n
Verifichiamo quindi che T sia statistica completa sfruttando la definizione. Z EŒg.T / D
g.t/
n n1 t dt D 0 8: n
0
Derivando rispetto a otteniamo: 1 0 D n g./ n1 C
„
d n d
Z
n n1 t dt n ƒ‚ … g.t/
0
8:
DEŒg.T /D0
Quindi, possiamo concludere che: g./ D 0 8. T è statistica completa e anche sufficiente minimale per . 2.5 1 I .X.1/ /IŒ ; .X.n/ /: 2 2 n Œ 2 ; 2
Per il criterio di fattorizzazione T D X.1/ ; X.n/ è sufficiente per . Utilizziamo Lehmann-Scheffé per trovare una statistica sufficiente minimale: f .xI / D
If2maxfjx.1/ j;jx.n/ jg;C1g ./ f .xI / D : f .yI / If2maxfjy.1/ j;jy.n/ jg;C1g ./ m ˚ ˚ 2 max jx.1/ j; jx.n/j D 2 max jy.1/ j; jy.n/ j : ˚ Quindi possiamo concludere che 2 max jX.1/ j; jX.n/ j è statistica sufficiente minimale per . 2.6 Si può provare che la statistica T D .X1 ; : : : ; Xn1 / non è sufficiente usando la definizione: P fX D kjT D tg D D P fX1 D k1 ; : : : ; Xn1 D kn1 ; Xn D kn jX1 D k1 ; : : : ; Xn1 D kn1 g D D P fXn D kn g: Infatti P fXn D kn g dipende dal parametro della distribuzione.
2.3 Soluzioni
25
2.7 La distribuzione Beta.˛; ˇ/ appartiene alla famiglia esponenziale. 1 x ˛1 .1 x/ˇ1 IŒ0;1 .x/ D Beta.˛; ˇ/ o n 1 D exp .˛ 1/log.x/ C .ˇ 1/log.1 x/ IŒ0;1 .x/: „ ƒ‚ …„ƒ‚… „ ƒ‚ …„ ƒ‚ … Beta.˛; ˇ/
f .xI ˛; ˇ/ D
w1 .˛/
t1 .x/
w2 .ˇ/
t2 .x/
.w1 ; w2 / W RC R ! Œ1; C1 Œ1; C1: Œ1; C1 Œ1; C1 contiene un aperto di R2 . Questo implica che la statistica: X Y Y X log.1 Xi / D log log.Xi /; .1 Xi / Xi ; log è sufficiente minimale completa. 2.8 P Per mostrare che i Xi2 è sufficiente minimale per , ci basta osservare che questa densità appartiene alla famiglia esponenziale. P Q n Y xi expfxi2 =2g . xi / expf xi2 =2g fX .X I / D : D n i D1
P Riconosciamo subito che W .X / D xi2 è statistica sufficiente per . Inoltre, dato che 1=2 W R ! R e R contiene un aperto di R, allora W .X / è statistica sufficiente completa per (quindi è anche minimale). P Ci sono 2 modi per mostrare che T .X / D xi non è sufficiente per :
Metodo 1: Lehmann-Scheffé Possiamo usare Lehmann-Scheffé, mostrando che esistono due realizzazioni distinte, x e y, tali che: T .x/ D T .y/ H)
fX .xI / non dipende da : fX .yI /
Prendiamo ad es. x D .1; 1; : : : ; 1/ e y D .1=n; 1=n; : : : ; 1=n; n 1 C 1=n/. Notiamo subito che T .x/ D T .y/. Valutiamo ora: fX .xI / D fX .yI /
P xi / expf xi2 =2 g n Q P . yi / expf yi2 =2 g n .
Q
D
Q n X x 2 C y 2 o xi i i D D Q exp yi 2 Q n X n3 2n2 C 2n 1 o xi : D Q exp yi 2
Dato che il rapporto dipende da , la statistica T .X / non è sufficiente per .
26
2
Statistiche sufficienti, minimali e complete
Metodo 2: statistica sufficiente e minimale P P Si vede che non esiste nessuna g. I / tale che Xi2 D g. Xi I /. Quindi T .X / non è sufficiente per . 2.9 (a) W è funzione di U , U completa. t.c. EŒg.W / D 0 8: + EŒg.h.U // D 0 8: + P fg.h.U // D g.W / D 0g D 1: + W è completa. g
(b)
f .xI / D g.T .xI // h.x/ D g.l.V .I/// h.x/ D r.V .xI // h.x/: Quindi V è una statistica sufficiente.
2.10 (a) 0 < p < 14 , si veda Tabella 2.1. Se EŒg.X/ D 0 significa che: p g.0/ C 3p g.1/ C .1 4p/ g.2/ D 0: Basta scegliere g.0/ D 3g.1/ e g.2/ D 0 perché EŒg.X/ D 0 ma P fg.X/ D 0g ¤ 0. Quindi non è completa. (b) 0 < p < 12 , si veda Tabella 2.2. Analogamente si ha: 0 D g.0/p C g.1/p 2 C g.2/.1 p p 2 / D D .g.1/ g.2//p 2 C .g.0/ g.2//p C g.2/ 8p 2 Œ0; 1=2: + g.2/ D 0 e quindi g.0/ D g.1/ D 0 essendo i coefficienti di grado 2 in p: Allora X è statistica completa. Tabella 2.1 Distribuzione di X, se 0 < p < 14
x 0 1 2
f .x/ p 3p 1 4p
Tabella 2.2 Distribuzione di X, se 0 < p < 12
x 0 1 2
f .x/ p p2 1 p p2
Capitolo 3
Stimatori puntuali
3.1
Richiami di teoria
Definizione 3.1 (Stimatori puntuali) Uno stimatore puntuale è una qualsiasi funzione W .X1 ; : : : ; Xn / del campione X1 ; : : : ; Xn . Ogni statistica è quindi uno stimatore. Definizione 3.2 (Metodo dei momenti) Sia X1 ; : : : ; Xn un campione di v.a. con densità di probabilità f .xI 1 ; : : : ; k /. Gli stimatori ottenuti con il metodo dei momenti si possono ricavare da un sistema di k equazioni in cui si eguagliano i primi k momenti del campione (m1 ; : : : ; mk ) con i primi k momenti della popolazione (1 ; : : : ; k ). Bisogna quindi risolvere il seguente sistema rispetto a : 8 n ˆ 1X ˆ ˆ m D I m WD Xi I 1 ./ WD EŒXI ˆ 1 1 1 ˆ n i D1 ˆ ˆ ˆ ˆ ˆ n ˆ ˆ 1X 2 ˆ ˆ X I 2 ./ WD EŒX 2 I < m2 D 2 I m2 WD n i D1 i ˆ ˆ :: ˆ ˆ ˆ : ˆ ˆ ˆ ˆ n ˆ ˆ 1X k ˆ ˆ D I m WD X I k ./ WD EŒX k : m ˆ k k : k n i D1 i Definizione 3.3 (MLE) Sia X1 ; : : : ; Xn un campione di v.a. i.i.d. con densità di probabilità fXi .xI 1 ; : : : ; k /. La funzione di verosimiglianza, o likelihood, è così definita: L.I x/ D
n Y
fXi .xI 1 ; : : : ; k /I
i D1
ovvero è la densità del campione vista come funzione di e considerando nota la realizzazione del campione. Per una data realizzazione del campione x, lo stimatore © Springer-Verlag Italia S.r.l., part of Springer Nature 2020 F. Gasperoni, F. Ieva, A.M. Paganoni, Eserciziario di Statistica Inferenziale, UNITEXT 120, https://doi.org/10.1007/978-88-470-3995-7_3
27
28
3 Stimatori puntuali
di massima verosimiglianza, o MLE, è così definito: O D arg sup L.I x/I 2
dove è lo spazio dei parametri. Un metodo per trovare il MLE consiste nello studiare la derivata della log-likelihood, cioè la derivata del logaritmo della likelihood. Teorema 3.4 (Principio di invarianza) Se O è MLE per , allora .O / è MLE per
./, qualsiasi sia . /. Definizione 3.5 (MSE) L’errore quadratico medio, o MSE, di uno stimatore T per il parametro è: E Œ.T /2 : Definizione 3.6 (Distorsione, Bias) La distorsione (bias) di uno stimatore T per un parametro è la differenza fra il valore atteso di T e il parametro . Bias .T / D E ŒT : Uno stimatore è definito non distorto se il bias è nullo, cioè E ŒT D . Osserviamo che il MSE può essere così espresso: E Œ.T /2 D Var .T / C .E ŒT /2 D Var .T / C .Bias .T //2 :
3.2
Esercizi
Esercizio 3.1 Sia X1 ; : : : ; Xn un campione casuale da una legge uniforme sull’intervallo Œ0; , > 0. (a) Si determini uno stimatore di col metodo dei momenti. (b) Lo stimatore trovato è corretto? (c) È sufficiente? Esercizio 3.2 Sia X1 ; : : : ; Xn un campione casuale da una legge uniforme sull’intervallo Œa; b. Si stimino a e b col metodo dei momenti. Esercizio 3.3 Sia X1 ; : : : ; Xn un campione di rango n di variabili aleatorie indipendenti di densità fX .xI / D x 1 I.0;1/ .x/ I
> 0:
3.2 Esercizi
(a) (b) (c) (d)
29
Calcolare lo stimatore di massima verosimiglianza On P di . Determinare e riconoscere le leggi di log Xk e di nkD1 log Xk . On è distorto? Calcolare l’errore quadratico medio di On .
Esercizio 3.4 Sia X1 ; : : : ; Xn un campione casuale da U Œ 12 ; C 12 , 2 R. Calcolare lo stimatore di massima verosimiglianza On di . Esercizio 3.5 Sia X1 ; : : : ; Xn una famiglia dinvariabili aleatorie indipendenti e tutte distribuite secondo una legge esponenziale di parametro . Ciascun Xi rappresenta l’istante di disintegrazione di un nucleo di un certo elemento radioattivo. Per ogni t 0 fissato siano: Yi la v. a. che vale 1 se l’i-esimo nucleo è ancora in vita all’istante t e 0 altrimenti. Vn la proporzione dei nuclei ancora in vita all’istante t, degli n presenti all’istante 0. (a) Trovare la legge di Yi e quella di Vn . (b) Verificare se si può applicare la Legge dei Grandi Numeri a Vn e dire se, e in che senso, la successione Vn converge per n ! 1 ad una costante v. In tal caso determinare la costante v ed esprimerla in funzione del tempo medio di vita del generico nucleo radioattivo. (c) Supponendo di osservare il campione Y1 ; : : : ; Yn , proporre uno stimatore di sulla base di tale campione. (d) Supponendo invece di osservare i tempi di vita X1 ; : : : ; Xn , proporre uno stimatore di sulla base di tale campione. Esercizio 3.6 Sia X una variabile aleatoria discreta che può assumere solo i valori 2, 0, 2, rispettivamente con probabilità: p.2/ D
1 I 2
p.0/ D 2I
p.2/ D
1 : 2
(a) Per quali la funzione p risulta una densità? (b) Sia X1 ; : : : ; Xn un campione di variabili aleatorie indipendenti con la stessa densità p. Determinare l’espressione della funzione f tale che la funzione di verosimiglianza si scriva: .2/nf .x1 ;:::;xn /
1 2
f .x1 ;:::;xn / :
(c) Calcolare lo stimatore di massima verosimiglianza per . È corretto? È consistente?
30
3 Stimatori puntuali
Esercizio 3.7 Sia X1 ; : : : ; X3n un campione di 3n v.a. indipendenti di cui: X1 ; : : : ; X2n di legge P . /I X2nC1 ; : : : ; X3n di legge P .2 /I dove è un parametro incognito. Determinare lo stimatore di massima verosimiglianza per e calcolarne la varianza. È distorto? Esercizio 3.8 Sia X1 ; : : : ; Xn un campione casuale da una legge normale N.; 2 /. Si mostri che gli stimatori di massima verosimiglianza di e 2 sono: 1X Xi D X n I b D n i D1 n
1X b2 D .Xi X n /2 : n i D1 n
Esercizio 3.9 Si considerino i due campioni casuali e indipendenti, X1 ; : : : ; Xn da una popolazione N.1 ; 2 / e Y1 ; : : : ; Ym da una popolazione N.2 ; 2 /, dove i parametri 1 , 2 e 2 sono tutti ignoti. Calcolare lo stimatore di massima verosimiglianza per D .1 ; 2 ; 2 /. Esercizio 3.10 Per 2 Œ0; 1; sia fX .xI / D . 2 /jxj .1 /1jxj If1;0;1g .x/, x 2 R, la densità di una variabile aleatoria X: (a) X è una statistica sufficiente? È una statistica completa? (b) jXj è una statistica sufficiente? È una statistica completa? (c) X oppure jXj è sufficiente minimale? Si considerino ora lo stimatore di massima verosimiglianza T1 .X/ e lo stimatore T2 .X/ D 2If1g .X/. (d) Calcolare distorsione ed errore quadratico medio di T1 e di T2 : (e) Quale stimatore preferireste tra T1 e T2 ‹ Esercizio 3.11 Si consideri una variabile discreta X descritta dal modello statistico f .xI / dove 2 f0; 1; 2g (vedi Tabella 3.1). (a) Determinare lo stimatore di massima verosimiglianza b 1 .X1 / di basato su una sola osservazione X1 . (b) Calcolare distorsione ed errore quadratico medio di b 1. Tabella 3.1 Densità di X al variare del parametro
x f .xI 0/ f .xI 1/ f .xI 2/
0 1=2 1=3 1=4
1 1=2 1=3 1=4
2 0 1=3 1=2
3.2 Esercizi
31
(c) Determinare lo stimatore di massima verosimiglianza b 2 .X1 ; X2 / di basato sul campione X1 ; X2 . (d) Calcolare distorsione ed errore quadratico medio di b 2. (e) Osservato il campione x1 D 0, x2 D 2, come stimereste ? Esercizio 3.12 Il coefficiente di variazione CV D
jj
è un indice introdotto da Karl Pearson per studiare la variabilità relativa di una distribuzione. Supponiamo di aver osservato un campione di ampiezza n da una distribuzione Normale con media e varianza incognite e di conoscere soltanto il numero Tn di osservazioni del campione che sono maggiori di zero. (a) Sulla base della sola informazione Tn ; è possibile fornire una stima del coefficiente di variazione della distribuzione? (b) Se n D 1000; per quali valori di T1000 stimeremo che la deviazione standard della distribuzione sia minore di 1/3 della media? Esercizio 3.13 Siano X1 ; : : : ; Xn i risultati di n misurazioni, indipendenti ed affette da errore casuale, di una medesima grandezza incognita , per cui: Xi D C i I
1 ; : : : ; n i.i.d.
Nel caso di errore N.0; 2 /: (a) Determinare la legge di Xi . (b) Mostrare che la media campionaria X n è lo stimatore di massima verosimiglianza per . Nel caso di errore f .sI 2 / D
e2jsj= 2
2
:
(c) Determinare la legge di Xi . (d) Mostrare che la mediana m.X1 ; : : : ; Xn / è uno stimatore di massima verosimiglianza per . Esercizio 3.14 Sia X1 ; : : : ; Xn un campione casuale da: f .xI / D
IŒ;C1/ .x/ I x2
> 0:
(a) Provare che non esiste lo stimatore dei momenti per . (b) Determinare lo stimatore di massima verosimiglianza O per . (c) Mostrare che O è una statistica sufficiente minimale.
32
3 Stimatori puntuali
Esercizio 3.15 Sia X1 ; : : : ; Xn un campione casuale da una popolazione di legge uniforme sull’intervallo Œ; 2, dove > 0. (a) Determinare lo stimatore dei momenti di . (b) Determinare lo stimatore di massima verosimiglianza di . (c) Determinare una statistica sufficiente minimale per . Esercizio 3.16 Si consideri il modello statistico: fX .xI ˛; ˇ/ D
1 .x˛/=ˇ IŒ˛;C1/ .x/; e ˇ
˛ 0;
ˇ > 0:
(a) Calcolare la media .˛; ˇ/ e la varianza 2 .˛; ˇ/ di una variabile aleatoria di densità fX .xI ˛; ˇ/. Sia ora X1 ; : : : ; Xn un campione casuale dalla densità f .xI ˛; ˇ/. (b) Calcolare lo stimatore di massima verosimiglianza .b ˛n; b ˇ n / di .˛; ˇ/ basato su X1 ; : : : ; Xn . (c) La statistica .b ˛n; b ˇ n / è sufficiente per .˛; ˇ/? (d) Calcolare lo stimatore di massima verosimiglianza b n di basato su X1 ; : : : ; Xn . (e) Qual è l’errore quadratico medio di b n ?
3.3
Soluzioni
3.1 (a) Dato che EŒXi D =2, lo stimatore di calcolato con il metodo dei momenti è: OMOM D 2X n : (b) Lo stimatore è corretto, infatti: EŒOMOM D 2EŒX n D 2
D : 2
(c) X.n/ è statistica sufficiente minimale per e dato che non esiste una funzione r tale che X.n/ D r.2X n /, allora OMOM non è sufficiente. 3.2
)
aCb I 2
.b a/2 12 2 2 2 C b 2ab C 3a C 3b 2 C 6ab a 1 EŒX 2 D D .a2 C b 2 C ab/I 12 3
EŒXi D
Var.X/ D
3.3 Soluzioni
quindi:
33
(
a D 2EŒX bI
3EŒX D 4.EŒX/2 C b 2 4bEŒX C b 2 C 2bEŒX b 2 I 2
da cui otteniamo: b 2 2bEŒX C .4.EŒX/2 3EŒX 2 / D 0: p p b D EŒX C 3EŒX 2 3.EŒX/2 : a D EŒX 3EŒX 2 3.EŒX/2 I Per cui concludiamo che: s P 3 i .Xi X n /2 I a D Xn n
s b D Xn C
3
P
i .Xi
X n /2
n
:
La scelta dei segni è dettata dal fatto che a b. 3.3 (a) Calcoliamo la likelihood e la log-likelihood: L.I x/ D
n Y
xi 1 IŒ0;1 .xi / D n .xi / 1
i D1
Y
.xi /:
Œ0;1
l.I x/ D n log./ C . 1/
n X
log.xi /:
i D1
Deriviamo la log-likelihood: @l.I x/ n X log.xi /: D C @ i D1 n
Quindi: @l.I x/ 0 @
”
n X n log.xi /: i D1
n OMLE D P : log.xi / (b)
Y D log.Xi / ) FY .t/ D P f log.Xi / tg D P flog.Xi / tg D P fX et g: Zt FY .t/ D 1 et FX .t/ D x 1 dx D t I.0;1/ .t/ C IŒ1;C1/ .t/: 0
)
log.Xi / E ./I
n X kD1
log.Xk / Gamma.n; /:
34
(c)
3 Stimatori puntuali
n n D : EŒOMLE D E P log.Xi / n1 dove uguaglianza è dovuta al fatto che se Y Gamma.n; /, allora l’ultima . E Y1 D n1 Quindi OMLE è distorto.
(d)
MSE.On / D Var.On / C .bias/2 : n2 2 : .n 1/.n 2/ n2 2 : Var.On / D .n 1/2 .n 2/ 2 .n C 2/ : MSE.On / D .n 1/.n 2/ EŒOn2 D
3.4 L.I x/ D
n Y
IŒ 1=2; C1=2 .xi / D IŒX.1/ 1=2;X.n/ C1=2 ./:
1
Possiamo scegliere egualmente OMLE D X.1/ 1=2 o OMLE D X.n/ C 1=2, o qualunque punto della forma OMLE D ˛.X.1/ 1=2/ C .1 ˛/.X.n/ C 1=2/, con ˛ 2 Œ0; 1. 3.5 (a)
Yi D IŒXi t
)
Yi Be.e t /: Pn
Vn in quanto proporzione di nuclei presenti è
i D1
n
Yi
, quindi nVn Bi.n; e t /.
! n .e t /k .1 e t /nk : P fVn D k=ng D k (b) Per la Legge Forte dei Grandi Numeri: q:c:
Vn ! EŒYi D e t D et = I dove D 1= . (c) YNn è stimatore MLE di p D et = e inoltre D logt p . Per il principio di invarianza b
MLE D logt Vn .
(d) D 1= quindi lo stimatore MLE per la media di esponenziali è X n .
3.3 Soluzioni
35
3.6 (a) Deve essere 0 1=2. Si osservi inoltre che: 12 jxj 1 1 .2/1 2 jxj : p.x/ D 2 12 Pi jxi j (b) 1 P 1 .2/1 2 i jxi j : L.I x/ D 2 P quindi f .x/ D 12 i jxi j. Si osservi che jX2i j Be.1 2/.
3
(c) Quindi .1 2/ D
P
jXi j 2n
e per il principio di invarianza: P 2n i jXi j O MLE D I 4n
che è corretto. È anche consistente per la Legge Forte dei Grandi Numeri. 3.7 Calcoliamo la likelihood, la log-likelihood e calcoliamo la derivata di quest’ultima rispetto al parametro. P2n
P3n
e2n i D1 xi e2n .2 / i D2n xi L. I x/ D x1 Š : : : x2n Š x2nC1 Š : : : x3n Š 3n X l. I x/ / 4n C xi log. /:
/
i D1
@l. I x/ D 4n C @
P3n
i D1
xi
Da cui concludiamo che: b
MLE D
:
P3n
i D1
Xi
: 4n 1
.2n C n2 / D : Var.b
MLE / D 2 16n 4n Inoltre lo stimatore MLE risulta essere non distorto, infatti: 1 EŒb
MLE D Œ2n C n2 D : 4n 3.8 Scriviamo la likelihood e la log-likelihood: o n 1 X 1 2 : exp .x / i .2 2 /n=2 2 2 i n 1 X l.; I x/ D log 2 2 .xi /2 : 2 2
L.; I x/ D
P3n
e4n
i D1
xi
:
36
3 Stimatori puntuali
Deriviamo la log-likelihood per trovare gli MLE: P 8 @l .xi / 1 X ˆ ˆ 2 .xi / D i 2 I D ˆ < @ 2 2 i ˆ @l n 1 X ˆ ˆ .xi /2 : : 2 D 2 C 4 @ 2 2 i Imponendo le due equazioni del sistema pari a 0, otteniamo: 8 MLE D X n I 0, (famiglia di leggi regolare secondo Fréchet, Cramér e Rao) e sia X1 ; : : : ; Xn un campione casuale estratto da una popolazione descritta da tale modello. (a) Si calcoli il limite inferiore per la varianza di uno stimatore non distorto di E ŒX D 1= basato sul campione. (b) Si mostri che X n è un UMVUE per E ŒX D 1=. (c) A partire dalla statistica minfX1 ; : : : ; Xn g si costruisca un altro stimatore corretto per E ŒX D 1= e se ne calcoli l’errore quadratico medio. (d) Si confrontino i due stimatori. Esercizio 4.2 Sia X1 ; : : : ; Xn un campione casuale da una legge uniforme sull’intervallo Œ0; , > 0. (a) Si determini lo stimatore di massima verosimiglianza di e se ne calcoli la distorsione. (b) Si deduca da (a) uno stimatore corretto per e se ne calcoli l’errore quadratico medio. (c) La statistica trovata in (b) è un UMVUE per ? Esercizio 4.3 Sia X1 ; : : : ; Xn un campione casuale da una legge normale N.; 2 / di parametri sconosciuti. Si mostri che gli UMVUE per i seguenti parametri sono proprio gli stimatori indicati in Tabella 4.1.
4.2 Esercizi
47
Tabella 4.1 Stimatori per i parametri , e 2
Parametro
UMVUE
Xn D
n 1X Xi n iD1
2
Sn2 D
n 1 X .Xi X n /2 n 1 iD1
r
n 1 Œ.n 1/=2 Sn 2 Œn=2
Esercizio 4.4 Dato un campione casuale X1 ; : : : ; Xn (n 1) estratto da una popolazione Be.p/, p 2 Œ0; 1, si trovino gli UMVUE per p e p 2 . Esercizio 4.5 Dato un campione casuale X1 ; : : : ; Xn da una distribuzione N .; 1/, si vuole stimare ./ D 2 . (a) Trovare Tn stimatore di massima verosimiglianza per 2 . (b) Trovare b
n , stimatore corretto a varianza uniformemente minima per 2 . (c) Calcolare la varianza di b
n . (Può essere utile ricordare che il momento quarto di una variabile aleatoria Y N .m; s 2 / vale EŒY 4 D m4 C 6m2 s 2 C 3s 4 .) (d) Mostrare che la varianza di b
n è strettamente maggiore del limite di CramérRao. Esercizio 4.6 Dato un campione casuale X1 ; : : : ; Xn , n 2, estratto da una popolazione N.; 2 /, si trovi lo stimatore di 2 della forma ˛S 2 di minimo errore quadratico medio. Esercizio 4.7 Dato X P . /, > 0, si consideri lo stimatore di . / D P .X D 0/ D e definito da T D If0g .X/. (a) Si mostri che T è l’UMVUE di e . (b) Si mostri che l’errore quadratico medio di T non raggiunge il limite inferiore di Fréchet-Cramér-Rao. Esercizio 4.8 Sia X1 ; : : : ; Xn un campione di rango n di variabili aleatorie indipendenti di densità: fX .xI / D x 1 I.0;1/ .x/;
> 0:
(a) Si trovi lo stimatore di massima verosimiglianza On di e se ne calcoli la distorsione. (b) Si deduca da (a) uno stimatore corretto per e se ne calcoli l’errore quadratico medio. (c) Soddisfa la disuguaglianza di Fréchet-Cramér-Rao? (d) È l’UMVUE?
48
4 Uniform Minimum Variance Unbiased Estimators (UMVUE)
Esercizio 4.9 Sia .X1 ; : : : ; Xn / un campione casuale estratto da una distribuzione con densità: f .xI / D .1 C x/.1C / I.0;C1/ .x/;
x 2 R; > 0:
(a) Nel caso in cui > 1; si stimi con il metodo dei momenti. (b) Si trovino, se esistono, gli stimatori di massima verosimiglianza di e di 1=: (c) Si trovi, se esiste, una statistica sufficiente e completa e se ne determini la distribuzione. (d) Si trovino, se esitono, gli UMVUE di e di 1=: (e) Si determini il limite inferiore di Cramér-Rao per stimatori non distorti di 1=: Si confronti questa quantità con l’errore quadratico medio dello UMVUE per 1=: Esercizio 4.10 Sia .X1 ; : : : ; Xn / un campione casuale estratto da una distribuzione di Poisson di parametro > 0: Sia . / D e .1 C /: (a) Trovare uno stimatore di massima verosimiglianza per . /: (b) Trovare uno stimatore non distorto di . /: (c) Trovare l’UMVUE di . /: Esercizio 4.11 Sia X1 ; : : : ; Xn un campione casuale da una Gamma.2; 1=/ con > 0. Si ha quindi: f .xI / D 2 x ex= I.0;C1/ .x/: (a) (b) (c) (d) (e) (f) (g)
Determinate una statistica sufficiente e completa per : Determinate lo stimatore On di massima verosimiglianza per . Mostrate che On coincide con lo stimatore Nn ottenuto col metodo dei momenti. Qual è la legge di On ? On è distorto? On è UMVUE? Determinate lo stimatore b 2n di massima verosimiglianza per la varianza di X1 :
Esercizio 4.12 Sia X una variabile aleatoria a valori in .0; 1/ tale che log.X/ abbia distribuzione N.; 1/ con parametro reale incognito. Ovvero X ha distribuzione log-normale. Per n 1; sia X1 ; : : : ; Xn un campione casuale dalla distribuzione di X: (a) Si calcoli la media di X: (b) Si determini lo stimatore Tn D Tn .X1 ; : : : ; Xn / di massima verosimiglianza per : (c) Si calcoli la distorsione di Tn per stimare : (d) A partire da Tn ; si determini uno stimatore Wn che sia UMVUE per : (e) Si calcoli l’informazione di Fisher I./:
4.3 Soluzioni
49
N.B. Può essere d’aiuto ricordare la funzione generatrice dei momenti di una N.; 2 /: 2t 2 m.t/ D exp t C 2
8t 2 R:
Esercizio 4.13 Sia X1 ; : : : ; Xn un campione casuale di ampiezza n 3 estratto da una popolazione bernoulliana di parametro p 2 Œ0; 1. Sia T il prodotto delle sole prime tre osservazioni, ovvero T D X1 X2 X3 : (a) Si mostri che T è uno stimatore corretto di p 3 . (b) Si calcoli l’errore quadratico medio di T e lo si confronti col limite inferiore di Cramér-Rao per gli stimatori corretti di p 3 basati su un campione di ampiezza n 3. (c) A partire da T si trovi l’UMVUE per p 3 basato su un campione di ampiezza n 3. Esercizio 4.14 Dato un campione casuale X1 ; : : : ; Xn da una distribuzione di Bernoulli B.p/, si consideri la statistica: ( T .X1 ; : : : ; Xn / D
1; se X1 D 1; X2 D 0I 0; altrimenti:
(a) Verificare che T .X1 ; : : : ; Xn / è uno stimatore non distorto della varianza 2 della distribuzione. (b) Giudicate interessanti le stime fornite da T .X1 ; : : : ; Xn /? (c) A partire da T .X1 ; : : : ; Xn /, costruire l’UMVUE V .X1 ; : : : ; Xn / per 2 :
4.3
Soluzioni
4.1 (a) Sia T un generico stimatore non distorto per 1=. Calcoliamo il limite di Cramér-Rao. Dobbiamo calcolare In ./ D nI1 ./. " 2 # @ I1 ./ D E log fX .xI / D @ " # @.log X/ 2 D DE @ D EŒ.1= X/2 D Var.X/ D 1= 2 :
50
4 Uniform Minimum Variance Unbiased Estimators (UMVUE)
La disuguaglianza di Cramér-Rao afferma che: Var.T /
d . 12 /2 .1=//2 . d 1 D : D n 2 In ./ n 2
(b) X n è stimatore non distorto di EŒX D 1 . Inoltre Var.X n / D 1=.n 2 / che raggiunge il limite di Cramér-Rao, quindi X n è UMVUE per EŒX D 1=. (c) Definiamo la seguente v.a. W : W D minfX1 ; : : : ; Xn g: Calcoliamo la legge di W : P fW tg D .P fXi tg/n D e t n
)
W E .n/:
Quindi: EŒW D
1 I n
per cui nW è stimatore non distorto per 1=. MSE.nW / D Var.nW / D n2 (d)
MSE.nW / D
1 1 D 2: n2 2
1 1 > D MSE.X n / 2 n 2
8:
Questo implica che X n è lo stimatore migliore. 4.2 (a)
Y1 1 Y 1 IŒ0; .xi / D n IŒ0; .xi / D n IŒX.n/ ;C1 ./: D X.n/ :
L.I x/ D OMLE
Ne calcoliamo la leggee la distorsione: t n n ) fX.n/ .t/ D n t n1 IŒ0; .t/: FX.n/ .t/ D Z n n n EŒOMLE D t dt D : n nC1 0
Bias D EŒOMLE D
1 : nC1
4.3 Soluzioni
51
(b) Per cui:
nC1 nC1 O MLE D X.n/ n n
è stimatore non distorto per .
MSE
(c)
nC1 O nC1 2 MLE D Var.X.n/ / D n n nC1 2 n 2 D : D n .n C 1/2 .n C 2/ n.n C 2/
nC1
OMLE è statistica sufficiente minimale e completa (cfr. Capitolo 2, Esercizio 2.4), quindi è UMVUE per . n
4.3 EŒX n D :
(a)
X n è stimatore non distorto per . Ed essendo funzione di statistica sufficiente completa e minimale è UMVUE di . (b)
! n1 1 n1 2 2 S .n 1/ D Gamma ; : 2 n 2 2 # " n1 n1 2 S D EŒSn2 D n 1 H) EŒSn2 D 2 : E 2 n 2 Sn2 è stimatore non distorto per 2 . Ed essendo funzione di statistica sufficiente completa e minimale è UMVUE di 2 .
(c)
"r E
# r ZC1 n1 2 n1 n1 n1 1 Sn D EŒSn D t 1=2 t 2 1 et =2 .1=2/ 2 dt D 2 2 . n1 / 2 0
ZC1 n n1 t 2 1 et =2 .1=2/ 2 D 0
D
. n2 / . n1 / 2
12
.1=2/
. n2 / p D 2: . n1 2 /
1 . n1 / 2
dt D
ZC1 n n t 2 1 et =2 .1=2/ 2 0
1 dt D . n2 /
52
4 Uniform Minimum Variance Unbiased Estimators (UMVUE)
r
" # . n2 / p n1 E S 2: D n 2 . n1 / 2 . n2 / p EŒSn D p 2: / n 1 . n1 2
Allora: r
/ n 1 . n1 2 n Sn 2 .2/
è non distorto per . Ed essendo funzione di statistica sufficiente completa e minimale è UMVUE di . 4.4 X n è stimatore non distorto per p ed è statistica sufficiente minimale e completa per p e quindi è UMVUE per p. EŒ.X n /2 D
p.1 p/ p 1 C p2 D C p2 1 : n n n
Quindi: " T D
2 Xn
Xn n
#
n n1
è stimatore non distorto per p 2 e funzione di X n . Allora T è UMVUE per p 2 . 4.5 2
(a) X n è MLE per . Allora, per il principio di invarianza Tn D X n è MLE per 2 . (b) 1 1 2 2 ) b
n D Xn EŒX n D C 2 n n è UMVUE per 2 . (c)
2 4 2 2 Var.b
n / D Var.X n / D EŒX n EŒX n D D 4 C 6
2 1 22 2 3 4 C 2 4 2 D 2 C 2 : n n n n n n
Per calcolare la varianza dello stimatore abbiamo tenuto conto che: X n N.; 1=n/.
4.3 Soluzioni
(d)
53
"
2 # @ I1 D E D log fX .xI / @
@ D E Œ.x/2 =2 D EŒ.X /2 D 1: @ Allora il limite i Cramér-Rao vale
42 n
e vale la seguente disuguaglianza:
. 0 .//2 2 42 4
n/ D < 2 C 2 D Var.b n1 n n n
8n:
4.6 X1 ; : : : ; Xn N.; 2 /:
2 MSE.˛S 2 / D Var.˛S 2 / C EŒ˛S 2 2 D
2 2˛ 2 2 4 D ˛2 C .˛ 1/ 2 D 4 C ˛ 2 C 1 2˛ : n1 n1 i h 2 2˛ C ˛ 2 C 1 2˛ @ 4 n1 2 D 2˛ C 1 2 0: @˛ n1 n1 ˛ : nC1
Allora MSE.˛S 2 / è minimo per T D
n1 2 nC1 S .
4.7 (a)
. / D e I
T D If0g .X/I
T Be.e /:
. / è non distorto. EŒT jX D T (b)
)
T è UMVUE per e :
MSE. / D Var. / D e .1 e /: " " 2 # 2 # @ @ I1 . / D E
log fX .xI / Œ C X log D E
D @
@
" # 1 X 2 1 1 C D 2 Var.X/ D : D E
Il limite di Cramér-Rao è: .e /2 . 0 . //2 D D e2 : n=
1=
54
4 Uniform Minimum Variance Unbiased Estimators (UMVUE)
Allora possiamo concludere che: e .1 e / e2
”
.1 e / e
”
.e 1/ :
8 > 0 MSE. . // è maggiore del limite di Cramér-Rao. 4.8
Y 1 Y I.0;1/ .xi /: xi 1 I.0;1/ .xi / D n xi X X log I.0;1/ .xi /: l.I x/ D n log./ C . 1/ log.xi / C X d l.I x/ n : D n= C log.xi / D 0 H) OMLE D P log xi d
(a)
L.I x/ D
Y
Per calcolarne la distorsione, investigo la distribuzione di Yi D log Xi . P fYi yg D P f log Xi yg D D P fXi exp.y/g D 1 P fXi < exp.y/g D Zey D1
ˇey ˇ x 1 I.0;1/ .x/ dx D 1 x ˇ D 1 ey : 0
0
Quindi FY .yI / D .1 ey /IŒ0;C1 .y/. Riconosciamo la distribuzione esponenziale, Yi D log.XP i / E ./. Per il legame fra esponenziale e gamma, possiamo dire: Yn D log Xi Gamma.n; /. i h i h h 1 1i n EŒOMLE D E P D nE P D nE : log xi log xi Yn Calcoliamo quindi: 1i D E Yn h
ZC1
1 n y n1 ey .n 1/ dy D y .n/ .n/
ZC1
0
n1 y n2 ey dy D .n 1/
0
.n 1/ .n 2/Š D D D : .n/ .n 1/Š .n 1/ Quindi EŒOMLE D (b)
n . .n1/
T D
n1 O .n 1/ MLE D P : log.Xi / n
T è non distorto per . MSE.T / D Var.T / D
2 : .n 2/
4.3 Soluzioni
55
(c) Calcoliamo In ./ D nI1 ./. "
2 # @ .log C . 1/ log X/ I1 ./ D E D @ " 2 # 1 1 D Var. log X/ D 2 : C log X DE Quindi il limite di Cramér-Rao è: 2 2 < D Var.T /: n .n 2/ P (d) Dato che log Xi è statistica sufficiente minimale e completa per , T è UMVUE per . 4.9 (a)
X1 ; : : : ; Xn fX .xI / D .1 C x/.1C / IŒ0;C1/ .x/
x 2 R;
> 0:
Sia > 1, applichiamo il metodo dei momenti: ZC1 E ŒX D x.1 C x/.1C / dx
xC1Dt
D
0
ZC1 ZC1 ZC1 .1C / .t 1/t dt D t dt C t .1C / dt D D 1
C1
C1
1
C1
1
t t D C 1 1 1
1 1 D D 1 1 C 1 D 1 D D D 1 1 1 1 : D 1 D
Allora per il metodo dei momenti otteniamo: Xn D
1 1
)
1 : OMOM D 1 C Xn
56
4 Uniform Minimum Variance Unbiased Estimators (UMVUE)
(b) Studiamo la likelihood del campione: Y .1C / .1 C xi / : L.I x/ D n i
l.I x/ D n log .1 C /
X
log.1 C xi /:
i
@l.I x/ n X log.1 C xi / 0 D @ i
”
P
n : log.1 C xi /
Allora: OMLE D P
n I log.1 C Xi /
e per il principio di invarianza: P 1 log.1 C Xi / D : MLE n
1
(c)
fX .xI / D expf.1 C / log.1 C x/gIŒ0;C1/ .x/ P appartiene alla famiglia esponenziale, quindi T D i log.1 C Xi / è sufficiente per il criterio di fattorizzazione. Inoltre, dato che: w W RC ! .1; 1/ aperto di RI
w W ! .1 C /
T è anche completa. Y D log.1 C X/. Calcoliamo la legge di Y : FY .t/ D P fY tg D P flog.1 C X/ tg D P f.1 C X/ et g D eZt 1
.1 C x/.1C / dx
D P fX e 1g D t
xC1Dt
D
0
Zet D
t 1
.1C /
ˇ et t ˇˇ dt D ˇ D 1 et : ˇ 1
P
allora Y E ./, quindi T D i log.1 C Xi / Gamma.n; /. (d) Osserviamo:
T 1 1X T E D E Œlog.1 C Xi / D ) è UMVUE per 1=: n n n
1 n1 E D ) TQ D P ) TQ è UMVUE per : log.1 C Xi / T n1 L’uguaglianza E T1 D n1 si ottiene tramite le proprietà della gamma (cfr. Capitolo 3, Esercizio 3.3).
4.3 Soluzioni
57
(e) Calcoliamo il limite inferiore di Cramér-Rao, tenendo presente che In ./ D nI1 ./. " 2 # @ I1 ./ D E .log fX .xI // D @ " 2 # @ .log .1 C / log.1 C X// D D E @ " 2 # 1 Y E . / 1 : log.1 C X/ D Var.Y / D D E 2 Il limite di Cramér-Rao è quindi: . 12 /2 . 0 .//2 1 D D : n= 2 n 2 n 12 Calcoliamo il MSE.TQ /. MSE.TQ / D Var
P
log.1 C Xi / n
D
1 : n 2
Quindi TQ raggiunge il limite di Cramér-Rao. 4.10
. / D e .1 C /:
(a)
b
MLE D X n : Quindi, per il principio di invarianza: b
. /MLE D eX n .1 C X n /: e .1 C / D P fX 1g:
(b)
Se introduciamo le v.a. Yi D IŒ0;1 .Xi /, Yi Be.e .1 C //, osserviamo che: 1X IŒ0;1 .Xi / n i D1 n
Yn D
(c) Calcoliamo l’UMVUE per . /: " ˇ n # ˇX ˇ Xi : T D E Y n ˇ ˇ i D1
è stimatore non distorto per . /:
58
4 Uniform Minimum Variance Unbiased Estimators (UMVUE)
# " ˇ n ˇX ˇ E Y1 ˇ Xi D k D ˇ i D1 ˇ n ˇ n ) ) ( ( ˇX ˇX ˇ ˇ D P Y D 1ˇ Xi D k D P X1 1ˇ Xi D k D ˇ ˇ i D1 i D1 ˇ n ˇ n ) ) ( ( ˇX ˇX ˇ ˇ D P X1 D 0ˇ Xi D k C P X1 D 1ˇ Xi D k D ˇ ˇ i D1 i D1 P P P fX1 D 0; niD1 Xi D kg P fX1 D 1; niD1 Xi D kg Pn Pn D C D P f i D1 Xi D kg P f i D1 Xi D kg P P P fX1 D 0gP f niD2 Xi D kg C P fX1 D 1gP f niD2 Xi D k 1g P D D P f niD1 Xi D kg ..n 1/ /k ..n 1/ /k1 kŠ D C e e.n1/
n
D e e.n1/
kŠ .k 1/Š e .n /k n1 k n1 k .n 1/k k D Ck D 1C : n nk n n1 Allora:
" E
ˇ n # P Pi Xi ˇX n1 Xi ˇ Xi D 1C i D X1 ˇ ˇ n n1 i D1 n 1 Xn D 1 1 C Xn n n1
è UMVUE per . /. 4.11
2 1 xex= IŒ0;C1/ .x/: P suffX .xI / appartiene alla famiglia esponenziale, quindi niD1 Xi è statistica P ficiente. Dato che w W RC ! .1; 0/ contiene un aperto di R, niD1 Xi è statistica sufficiente e completa, quindi anche minimale. (b) Calcoliamo la verosimiglianza: P 1 Y Xi Y xi e IŒ0;C1/ .xi /: L.I x/ D 2n i D1 i P Xi l.I x/ / 2n log : P P @l.I x/ xi 2n xi D C 2 0 : @ 2n
(a)
X1 ; : : : ; Xn Gamma.2; 1=/; > 0 ) fX .xI / D
Allora OMLE D
Xn . 2
4.3 Soluzioni
59
(c) Calcoliamo la media di X: EŒX D
1
)
Xn OMOM D : 2
(d) Dato che: Xi Gamma.2; 1=/
) )
X
Xi Gamma.2n; 1=/ P Xi On D Gamma.2n; 2n=/: 2n
(e) Dato che EŒOn D , allora On è stimatore non distorto per . (f) On è UMVUE in quanto stimatore non distorto e funzione di statistica sufficiente e completa. (g) 2 2 Xn Xn 2 2 ) b MLE D 2 D Var.Xi / D 2 4 2 per il principio di invarianza. 4.12 (a) (b)
D EŒX D EŒeY D mY .1/ D eC1=2 : 1 1 1 exp .log x /2 IŒ0;C1/ .x/: fX .xI / D p 2 2 x ! ( ) Y Y 1 1X 2 L.I x/ D xi exp .log xi / IŒ0;C1/ .xi /: n=2 .2/ 2 i i i 1X l.I x/ / .log xi /2 : 2 i X @l.I x/ 1 X .log xi / D .log xi / n 0 D 2 @ 2 i i P log xi ” : n
Per il principio di invarianza degli MLE: P 1 log Xi O C : Tn D MLE D exp 2 n P
1 log Xi (c) C D EŒOMLE D E exp 2 n n 1 1 1 1 D exp exp C 2 exp C D D exp 2 n 2n 2 2n 1 1 D exp C exp : 2 2n
60
4 Uniform Minimum Variance Unbiased Estimators (UMVUE)
(d) L’UMVUE Wn è ottenuto semplicemente correggendo lo stimatore Tn : Wn D e1=.2n/ Tn : Infatti, per il teorema di Lehmann-Scheffé, Wn è funzione di statistica sufficiente e completa per , quindi è unico UMVUE di . (e) Sia Y D log X N.; 1/. La definizione di I./ per un campione i.i.d. è la seguente: " # @ log fY .y/ 2 I./ D n E : @ 1 1 2 fY .y/ D p exp .y / : 2 2 1 1 log fY .log x/ D log.2/ .y /2 D 2 2 1 1 1 2 D log.2/ : y log C 2 2 2 @ log fY .y/ 1 1 D y log C : @ 2
1 1 I./ D n E 2 .Y log C /2 D 2
1 1 D n 2 E .Y log C /2 D 2 n n 1 D n 2 EŒ.Y /2 D 2 Var.Y / D 2 : 4.13 (a)
X1 ; : : : ; Xn Be.p/I
T D X1 X2 X3 I
T Be.p 3 /:
EŒT D p 3 : (b) Calcoliamo il MSE.T /: MSE.T / D Var.T / D p 3 .1 p 3 / D p 3 .1 p/.1 C p C p 2 /: Calcoliamo il limite di Cramér-Rao: " # @.log fX .xI p// 2 D I1 .p/ D Ep @p " # @.x log p C .1 x/ log.1 p// 2 D D Ep @p " #
x .x px p C px/2 1x 2 D Ep D D Ep p 1p .p.1 p//2
.x p/2 1 : D Ep D .p.1 p//2 p.1 p/
4.3 Soluzioni
61
Il limite di Cramér-Rao quindi vale: .3p 2 /2 9p 4 p.1 p/ 9p 5 .1 p/ D D : 1 n n n p.1p/ 9 5 p .1 p/ n 9 .1 C p C p 2 / p 2 n 9 .1 C p/ 1 p 2 .9=n 3/: n
MSE.T / D p 3 .1 p 3 / D p 3 .1 p/.1 C p C p 2 /
P (c) So che i Xi è statistica sufficiente e completa per p. 3 T D X1 X2 X 3 è corretto per p . ˇP ˇ Allora EŒT ˇ i Xi è UMVUE per p 3 .
k3 ˇX h ˇX i n o p .1 p/nk p 3 n3 ˇ ˇ k3
E Tˇ Xi D k D P T D 1 ˇ Xi D k D D n p k .1 p/nk k i i D
.n 3/ŠkŠ k.k 1/.k 2/ D : .k 3/ŠnŠ n.n 1/.n 2/
Allora lo stimatore UMVUE è così definito: ( P 0 se Xi 2I P P P P Xi . Xi 1/. Xi 2/ se Xi > 2: n.n1/.n2/ 4.14 EŒT D P fX1 D 1; X2 D 0g D p.1 p/:
(a)
(b) No, dato che Var.T / e quindi MSE.T / non dipendono da n.P (c) Sfrutto il teorema di Lehmann-Scheffé, considerando che Xi è statistica sufficiente e completa per p: X X Xi D k D 1 P fX1 D 1; X2 D 0j Xi D kg D V .X1 ; : : : ; Xn / D EŒT j Pn P fX1 D 1; X2 D 0; 3 Xi D k 1g P D D P f n1 Xi D kg n2 k1 p.1 p/ k1 p .1 p/n2kC1 D D n k p .1 p/nk k n2
k.n k/ n D D k1 : n.n 1/ k Quindi:
P V .X1 ; : : : ; Xn / D
P Xi .n Xi / nX.1 X/ D : n.n 1/ n1
Capitolo 5
Likelihood Ratio Test
5.1
Richiami di teoria
Definizione 5.1 (Errori nei test d’ipotesi) Consideriamo il seguente test d’ipotesi: H 0 W 2 0
vs
H0 W 2 0c :
Definiamo quindi: Errore di I tipo: H0 è vera, cioè 2 0 , e si decide di rifiutare H0 . Errore di II tipo: H0 è falsa, cioè 2 0c , e si decide di accettare H0 . Si veda la Tabella 5.1. Definiamo la Regione di Rifiuto, R. Allora: ( probabilità di commettere Errore del I tipo se 2 0 I P fX 2 Rg D 1 probabilità di commettere Errore del II tipo se 2 0c : Definizione 5.2 (Potenza del test) La funzione potenza di un test d’ipotesi con regione di rifiuto R è una funzione di così definita: ˇ./ D P fX 2 Rg: Definizione 5.3 (Dimensione del test) La dimensione di un test con funzione potenza ˇ./ è così definita: sup ˇ./ D ˛I 2 0
dove ˛ 2 Œ0; 1.
Tabella 5.1 Errori nei test d’ipotesi Verità
H0 H1
Decisione Accetto H0 Corretto Errore di II tipo
Rifiuto H0 Errore di I tipo Corretto
© Springer-Verlag Italia S.r.l., part of Springer Nature 2020 F. Gasperoni, F. Ieva, A.M. Paganoni, Eserciziario di Statistica Inferenziale, UNITEXT 120, https://doi.org/10.1007/978-88-470-3995-7_5
63
64
5
Likelihood Ratio Test
Definizione 5.4 (Livello del test) Il livello di un test con funzione potenza ˇ./ è così definita: sup ˇ./ ˛I 2 0
dove ˛ 2 Œ0; 1. Definizione 5.5 (Test non distorto) Un test con funzione potenza ˇ./ è non distorto se: ˇ. 0 / ˇ. 00 / 8 0 2 0c ; 00 2 0 : Definizione 5.6 (Likelihood Ratio Test, LRT) Consideriamo il seguente test: H0 W 2 0
vs
H1 W 2 0c :
La statistica test basata sul rapporto di verosimiglianza è così definita:
.x/ D
sup 0 L.I x/ : sup L.I x/
Il test di rapporto di verosimiglianza, LRT, è un qualsiasi test la cui regione di rifiuto ha la seguente forma fx W .x/ cg, dove c 2 .0; 1/.
5.2
Esercizi
Esercizio 5.1 Dato un campione casuale X1 ; : : : ; X5 da una legge B.p/, con p incognito e 0 p 1, si vuole sottoporre a verifica l’ipotesi nulla H0 W p D 1=2 contro l’ipotesi alternativa H1 W p ¤ 1=2. Si intende impiegare una regione critica del tipo ˇ 1 ˇˇ ˇ R D ˇx 5 ˇ > c : 2 (a) Cercare i valori di c che danno un test di dimensione ˛ D 10%. (b) Cercare i valori di c che danno un test di livello ˛ D 10%. Esercizio 5.2 Un campione di ampiezza 1 è estratto da una distribuzione P . /. Per verificare H0 W D 1 contro H1 W D 2, si consideri la regione critica R D fx > 3g. Si trovino le probabilità di errore di primo tipo e di secondo tipo e la potenza del test contro D 2. Esercizio 5.3 Si consideri il modello statistico dato dalle leggi esponenziali E ./, > 0, e sia X1 ; : : : ; Xn un campione casuale estratto da una popolazione descritta da tale modello. Trovare i test di dimensione ˛ basati sul rapporto di verosimiglianza per: (a) D 0 contro ¤ 0 . (b) 0 contro > 0 .
5.2 Esercizi
65
Esercizio 5.4 Data X Bi.n; p/, con n noto e p incognito in Œ0; 1: (a) Si cerchi un test di livello ˛ basato sul rapporto di verosimiglianza per H0 W p p0 contro H1 W p > p0 . (b) Si scriva esplicitamente la regione di rifiuto nel caso n D 5, p0 D 0:3, ˛ D 0:03. Esercizio 5.5 Dato un campione casuale X1 ; : : : ; Xn , n 2, estratto da una popolazione N.; 2 / con e entrambi incogniti, si trovino i test basati sul rapporto di verosimiglianza per H0 W D 0 contro H1 W ¤ 0 . Esercizio 5.6 Sia X1 ; : : : ; Xn un campione casuale da una legge uniforme su f1; : : : ; N g, dove N 2 N. Trovare test basati sul rapporto di verosimiglianza, determinandone anche il livello ˛, per: (a) N N0 contro N > N0 . (b) N D N0 contro N ¤ N0 . Esercizio 5.7 Sia X1 ; : : : ; Xn un campione casuale da una legge uniforme sull’intervallo Œ0; , > 0. Trovare i test basati sul rapporto di verosimiglianza, determinandone il anche il livello ˛, per: (a) 0 contro > 0 , (b) D 0 contro ¤ 0 . (c) Nel caso 0 D 1 si trovi la minima ampiezza n del campione con cui il test di dimensione ˛ = 5% trovato in (b) risulta avere contro D 3=2 una potenza di almeno 0.8. Esercizio 5.8 Sia X un campione di ampiezza unitaria da una distribuzione con densità: f .xj/ D
2 . x/I.0; / .x/ 2
con 2 .0; 1/: Si consideri il test d’ ipotesi: H0 W D 1 vs H1 W > 1: (a) Sia ı0 il test con regione critica: R0 D fX > 1g: Si calcoli il suo livello e la sua funzione potenza. (b) Si ripeta il ragionamento al punto precedente nel caso: H0 W 1 vs
H1 W > 1:
66
5
Likelihood Ratio Test
Esercizio 5.9 Sia X1 ; : : : ; Xn un campione casuale da fX .xI / D
IŒ;C1/ .x/; x2
> 0:
(a) Determinare la regione critica del test di dimensione ˛ basato sul rapporto di verosimiglianza per: H0 W 1
vs
H1 W > 1:
(b) Calcolare la funzione potenza del test trovato in (a) e disegnarne il grafico. (c) Quanto deve essere grande n se si vuole che il test trovato in (a) di dimensione ˛ D 0:04 abbia potenza 1 contro D 3? Esercizio 5.10 Siano X1 ; : : : ; Xn un campione casuale da una popolazione Normale .; 2 /. Si consideri il test: H0 W 0
vs
H1 W > 0 :
(a) Nell’ipotesi in cui 2 sia nota, mostrare che il test per cui si rifiuta H0 qualora p X > 0 C z1˛ 2 =n ha dimensione ˛. Mostrare inoltre che questo test è equivalente a quello che si ottiene dal rapporto di verosimiglianze. (b) Nell’ipotesi in cui 2 sia incognita, mostrare che il test che rifiuta H0 qualora p X > 0 C tn1;1˛ S 2 =n è un test di dimensione ˛. Mostrare inoltre che questo test è equivalente a quello che si ottiene dal rapporto di verosimiglianze.
5.3 5.1 (a)
Soluzioni ˇ P P Xi Xi 1 ˇˇ 1 1 ˇ > c C P1 < c D ˛ D P 1 ˇX 5 ˇ > c D P 1 2 2 2 2 5 2 5 2 X X 1 1 D P1 C c 5 C P1 c 5 : Xi > Xi < 2 2 2 2
P Xi Bi n.5; 1=2/. Definiamo k D 12 C c 5 Sappiamo che, sotto H0 ,
1 e kQ D 2 c 5 e investighiamo come variano questi valori al variare di c (c 2 Œ0; 1). Osserviamo subito che 2:5 k 7:5 e 2:5 kQ 2:5. Per uno studio completo si veda Tabella 5.2.
5.3 Soluzioni
67
Tabella 5.2 Valori possibili di k, c e kQ
kQ
k
c
2:5 k 3
0 c 1=10
3k4
1=10 c 3=10
4k5
3=10 c 1=2
2 kQ 2:5 1 kQ 2 0 kQ 1
k>5
1=2 < c 1
kQ > 0
Tabella 5.3 Valori possibili di c e relativi valori di P fx 2 Rg ˚P ˚P c P1 P1 Xi > k Xi < kQ 0 c 1=10 1=10 c 3=10 3=10 c 1=2 c > 1=2
2
2
1=2 6=32 1=32 0
1=2 6=32 1=32 0
Totale 1 3=8 D 0:375 1=16 D 0:0625 0
In Tabella 5.3 sono riportati i possibili valori di ˛. Si osserva subito che il test non raggiunge mai una dimensione del 10%. (b) Dalla Tabella 5.3 è immediato vedere che per avere un test di livello ˛ = 10%, bisogna scegliere c 3=10. 5.2 R D fx W X > 3g: P fErr. I tipog D P D1 fX > 3g D 1 P D1 fX 3g D 1 8 1 1 1 16 D1e D1 D 0:019: D1e 1C1C C 2 6 6 3e P fErr. II tipog D P D2 fX 3g D 8 4 2 2 19 De D 0:86: De 1C2C C 2 6 3 La potenza contro D 2 è 1 P D2 fX > 3g D 0:14. 5.3 (a)
H0 W D 0
vs
H1 W ¤ 0 :
Calcoliamo L.I x/ e applichiamo il LRT: n X oY L.I x/ D n exp xi IŒ0;C1 .xi /: n P oQ n IŒ0;C1 .xi / xi exp 0 0 L.0 I x/ n P oQ
.x/ D D : sup>0 L.I x/ IŒ0;C1 .xi / sup>0 n exp xi
68
5
Likelihood Ratio Test
Fig. 5.1 Rappresentazione di
.x/, in cui g.t / D t .1 et / e la linea orizzontale tratteggiata rappresenta k. Il massimo di g.t / è 1 viene raggiunto in corrispondenza di t D 1 (il massimo è identificato con una croce)
Il sup del denominatore corrisponde alla L.I x/ valutata in corrispondenza del OMLE D 1=X n . n P oQ IŒ0;C1 .xi / 0n exp 0 xi
.x/ D n n P oQ D 1 1 x I exp .x / i Œ0;C1 i Xn Xn n n X o xi D D 0 X n exp n 0 on n D 0 X n exp 1 0 X n : Definiamo quindi la regione critica come: R D fx W .x/ cg e c 2 Œ0; 1. Nei casi estremi ritroviamo risultati banali: c D 0 H) R D ; H) non rifiuto mai H) P fErr. tipo IIg = 1: c D 1 H) R D Rn H) rifiuto sempre H) P fErr. tipo Ig = 1: Ci focalizziamo quindi su c 2 .0; 1/. on n o n c D R D x W 0 X n exp 1 0 X n o n o n D x W 0 X n exp 1 0 X n c 1=n D k : Si n veda a questoopunto n la Fig. 5.1, dove o t D 0 X n . Possiamo dire che: R D x W 0 X n tN1 [ x W 0 X n tN2 . Per definire tN1 e tN2 , imponiamo che il livello del test sia pari ad ˛: ˛ D P0 fErrore I tipog D P0 fx 2 Rg D P0 f0 X n tN1 g C P0 f0 X n tN2 g:
5.3 Soluzioni
69
Studiamo la distribuzione di 0 X n : Xi E .0 / D Gamma.1; 0 / H)
X
Xi Gamma.n; 0 /
H) 0 X n Gamma.n; n/: Allora, una possibile scelta è data da: tN1 D ˛=2 .n; n/ e tN2 D 1˛=2 .n; n/. (b)
H0 W 0
vs
H1 W > 0 :
Svolgiamo un procedimento analogo a quello del punto (a). n P o sup00 n exp xi n P o sup0 21˛=2 .n 1/ : 0 0 5.6 (a) N N0 contro N > N0 . L.N I x/ D
.x/ D D
n Y 1 1 If1;:::;N g .xi / D n Ifx.n/ ;C1g .N /: N N 1
supN N0 N1n Ifx.n/ ;C1g .N / supN N0 L.N I x/ D D supN 2f1;C1/ L.N I x/ supN 2f1;C1/ N1n Ifx.n/ ;C1g .N / ( 0; se x.n/ > N0 I 1;
se x.n/ N0 :
5.3 Soluzioni
73
Impostiamo la R, focalizzandoci su c 2 .0; 1/. n o n R D x W 1 c; x.n/ N0 [ x W 0 c; o n D ; [ x.n/ > N0 :
o x.n/ > N0 D
Scegliamo uns R di livello ˛: o n ˛ D sup P X.n/ > N0 D 0: N N0
(b) N D N0 contro N ¤ N0 .
.x/ D D
supN DN0 N1n Ifx.n/ ;C1g .N / supN DN0 L.N I x/ D D supN 2f1;C1/ L.N I x/ supN 2f1;C1/ N1n Ifx.n/ ;C1g .N / ( 0; se x.n/ > N0 I se x.n/ N0 :
.x.n/ =N0 /n ;
Impostiamo la R, focalizzandoci su c 2 .0; 1/: o n n R D x W .x.n/ =N0 /n c; x.n/ N0 [ x W 0 c; o n o n D x.n/ c 1=n N0 [ x.n/ > N0 :
o x.n/ > N0 D
Scegliamo una R di livello ˛: n
˛ D sup P X.n/ c
1=n
N DN0
o
n
o
N0 C P X.n/ > N0 D
bc 1=n N0 c N0
!n I
dove bac, a 2 R, indica la parte intera inferiore di a. 5.7 (a) Calcoliamo L.I x/ (si veda Fig. 5.3): L.I x/ D
.x/ D
n Y 1 1 IŒ0; .xi / D n IŒx.n/ ;C1 ./: 1
sup0 0 1n IŒx.n/ ;C1 ./ sup0 0 L.I x/ : D sup 2Œ0;C1/ L.I x/ sup 2Œ0;C1/ 1n IŒx.n/ ;C1 ./
Il sup del denominatore corrisponde alla L.I x/ valutata in corrispondenza del OMLE D X.n/ .
.x/ D
sup0 0
1 n IŒx.n/ ;C1 ./ 1 n x.n/
D
( 1;
se x.n/ 0 I
0;
se x.n/ > 0 :
74
5
Likelihood Ratio Test
Fig. 5.3 Rappresentazione di L.I x/. Il massimo di L.I x/, evidenziato nel grafico con una croce, viene raggiunto in corrispondenza di D X.n/ (in questo caso pari a 10)
Impostiamo la R, focalizzandoci su c 2 .0; 1/: n o n o R D x W 1 c; x.n/ 0 [ x W 0 c; x.n/ > 0 D o n D ; [ x.n/ > 0 : Scegliamo una R di livello ˛: o o n n ˛ D sup P X.n/ > 0 D sup 1 P X.n/ 0 D 0 0
n
D sup 1 P X1 0 0 0
0 0 !n
o
D sup 1 .0 =/n D 0: 0 0
(b) Impostiamo il LRT:
.x/ D
1 I . / sup D0 L.I x/ 0n Œx.n/ ;C1 0 : D 1 sup 2Œ0;C1/ L.I x/ sup 2Œ0;C1/ n IŒx.n/ ;C1 ./
Il sup del denominatore corrisponde alla L.I x/ valutata in corrispondenza del OMLE D X.n/ . ( 1 .x.n/ =0 /n ; se x.n/ 0 I 0n IŒx.n/ ;C1 .0 /
.x/ D D 1 n 0; se x.n/ > 0 : x.n/ Impostiamo la R, focalizzandoci su c 2 .0; 1/: o n o n R D x W .x.n/ =0 /n c; x.n/ 0 [ x W 0 c; x.n/ > 0 D o n p o n D x.n/ 0 n c [ x.n/ > 0 :
5.3 Soluzioni
75
Scegliamo una R di livello ˛: o n n p o ˛ D sup P X.n/ 0 n c C P X.n/ > 0 D D0
n o n p o D P X.n/ 0 n c C 1 P X.n/ 0 D ! ! o n n o n n p n D P X1 0 c C 1 P X1 0 D p D .0 n c=0 /n C 1 .0 =0 /n D c: o n p o n Quindi: R˛ D x.n/ 0 n ˛ [ x.n/ > 0 . p (c) ˇ./ D P fx 2 R˛ g D P fX.n/ 0 n ˛g C P fX.n/ > 0 g D p D .0 n ˛=/n C 1 .0 =/n : Sostituendo ˛ D 5% e 0 D 1, otteniamo la seguente funzione potenza: p n ˇ./ D . 0:05=/n C 1 .1=/n : Valutiamo la funzione in D 3=2 e imponiamo che superi 80%. ˇ.3=2/ D 0:05 .2=3/n C 1 .2=3/n 0:8 0:95 .2=3/n 0:2 .2=3/n 0:211 log.0:211/ D 3:84 H) n 4: n log.2=3/ 5.8 (a)
˛ D sup P fX 2 Rg D sup P fX > 1g D 2 0
D1
D sup 1 P fX 1g D 1 P1 fX 1g D D1
Z1 D1
ˇ1 ˇ 2.1 x/ dx D 1 .2x x 2 /ˇ D 1 2 C 1 D 0: 0
0
ˇ./ D P fX 2 Rg D sup P fX > 1g D D1
Z D 1
2 . x/ dx D 2
2 2 x2 x 2 2
!ˇ ˇ ˇ ˇ D ˇ 0
2 2 1 1 1 D2 1C 2 D1 C 2 D 1 La funzione potenza ˇ./ è rappresentata in Fig. 5.4.
!2 D
1
!2 :
76
5
Likelihood Ratio Test
Fig. 5.4 Rappresentazione
2 . Si può di ˇ./ D 1 notare che ˇ./ ! C1, per ! 0; mentre ˇ./ ! 1, per ! C1
(b)
H0 W 1 vs H1 W > 1: ˛ D sup P fX 2 Rg D sup P fX > 1g D sup 1 P fX 1g D 2 0
1
Z1
D sup 1 1
0
1
2 . x/I.0; / .x/ dx D 1 2
Z
2 . x/ dx D 0: 2
0
ˇ./ D P fX 2 Rg D P fX > 1g D 1 P fX 1g D Z1 2 . x/I.0; / .x/ dx D D1 2 0 ( R 1 0 22 . x/ dx D 1 1 D 0 se < 1I D R1 1 0 22 . x/ dx D 1 2 C 12 se 1: La funzione potenza ˇ./ è rappresentata in Fig. 5.5. Fig. 5.5 Rappresentazione di
ˇ./ D 1 2 C 12 If 1g
5.3 Soluzioni
77
5.9 (a) Calcoliamo L.I x/ (si veda Fig. 5.6). n Y n L.I x/ D Q 2 IŒ0;C1 .xi / D Q 2 IŒ0;X.1/ ./: xi xi Applichiamo la definizione di LRT.
.x/ D
sup00 L.I x/
Il sup del denominatore corrisponde alla L.I x/ valutata in corrispondenza del OMLE D X.1/ . 8 Xn Xn < Q.1/2 = Q.1/2 D 1; se 1 X.1/ I xi x n ni
.x/ D X : Q1 = Q.1/ D 1 ; se 1 < X.1/ : X.1/ x2 x2 i
i
Imponiamo che la R sia di livello ˛ e focalizziamoci su c 2 .0; 1/: R D fx W .x/ cg D
1 n c; X.1/ > 1 D D fx W 1 c; X.1/ 1g [ x W X.1/
D ; [ fx W X.1/ 1=c 1=n D 1=k; X.1/ > 1g D fx W X.1/ 1=kg: ZC1 n 2 =x dx D ˛ D sup P fx 2 Rg D sup P fX.1/ 1=kg D sup 00 .2 2 /n=2 exp .x2i 2 sup 0 ; 2 >0 L.I x/ o: n P D
.x/ D .x /2 sup 2R; 2 >0 L.I x/ sup 2R; 2 >0 .2 2 /n=2 exp 2i 2 Il sup del denominatore corrisponde alla L.I x/ valutata in corrispondenza del P 2 2 D O 2 D .xinX / D n1 S 2. OMLE D X e O MLE n
.x/ D
D
D
D
o n P /2 sup 0 ; 2 >0 n exp .x2i 2 o n P D 2 .x X / i O n exp 2O 2 o n P CX /2 sup 0 ; 2 >0 n exp .xi X 2 2 o n P D 2 .x X / i O n exp 2O 2 o n P 2 2 sup 0 ; 2 >0 n exp .xi X / C.X2/ 2C2.xi X /.X / o n P D /2 O n exp .x2iOX 2 o n P 2 C.X /2 .x X / sup 0 ; 2 >0 n exp i 2 2 o n P : /2 O n exp .x2iOX 2
Scrivendo O 02 D che:
.x/ D
P
.xi 0 /2 n
8 ˆ 1; ˆ ˆ < ˆ ˆ ˆ :
O 0n
D S02 D .X 0 /2 C
n exp O n
P
exp
.xi X /2 C.X0 /2 2O 02 P .xi X/2 2O 2
n
o
n1 2 n S ,
possiamo concludere
se X < 0 I
o D
2 n=2
O O 02
;
se X 0 :
5.3 Soluzioni
81
Impostiamo la R, focalizzandoci su c 2 .0; 1/: 2 O n=2 R D fx W .x/ cg D fx W 1 c; X < 0 g [ x W c; X 0 D O 02 O 2 2=n D k; X 0 D D;[ x W 2 c O 0 n1 2 n S k; X 0 D D xW 2 .X 0 /2 C n1 n S n1 n1 .X 0 /2 C X ; D xW 0 D S2 n nk X 0 2 n 1 n 1 ; X 0 D D xW S nk n X 0 2 n 1 p .n 1/; X 0 D D xW k S= n r X 0 n1 Q p .n 1/ D k; X 0 D D xW k S= n S D x W X 0 C p kQ : n Ora imponiamo la dimensione di R pari ad ˛: n o S ˛ D sup P fx 2 Rg D sup P X 0 C p kQ D n 0 0 ) ( 0 C pSn kQ X D sup 1 P p D p S 2 =n S 2 =n 0 ! 0 C pSn kQ D sup 1 tn1 D p S 2 =n 0 Q H) tn1 .k/ Q D tn1;1˛ : D 1 tn1 .k/ Allora R˛ D fx W X > 0 C tn1;1˛
p
S 2 =ng.
Capitolo 6
Test uniformemente più potente
6.1
Richiami di teoria
Definizione 6.1 (Test uniformemente più potente) Sia C una classe di test H0 W 2 0 vs H1 W 2 0c . Un test della classe C con funzione potenza ˇ./ è il test uniformemente più potente, UMP, della classe C , se: ˇ./ ˇ 0 ./
8 2 0c ;
8ˇ funzione potenza associata ad un test in C :
Teorema 6.2 (Neyman-Pearson) Consideriamo la seguente classe di test: (
H0 W D 0 I H1 W D 1 I
in cui la densità di probabilità associata a X è f .X I i / con i 2 f0; 1g. Se usiamo un test la cui regione di rifiuto soddisfa: x2R x 2 Rc
se f .xI 1 / > kf .xI 0 / se f .xI 1 / < kf .xI 0 /
e
(6.1)
per un qualche k 0 e ˛ D P0 fX 2 Rg:
(6.2)
Allora: (Sufficiente) Ogni test che soddisfa le Eq. 6.1, 6.2 è un test UMP di livello ˛. (Necessario) Se esiste un test che soddisfa le Eq. 6.1, 6.2 con k > 0, allora ogni test UMP di livello ˛ è anche un test di dimensione ˛ (soddisfa l’Eq. 6.2), e ogni test UMP di livello ˛ soddisfa l’Eq. 6.1 a parte un insieme A, che soddisfa P0 fX 2 Ag D P1 fX 2 Ag D 0. © Springer-Verlag Italia S.r.l., part of Springer Nature 2020 F. Gasperoni, F. Ieva, A.M. Paganoni, Eserciziario di Statistica Inferenziale, UNITEXT 120, https://doi.org/10.1007/978-88-470-3995-7_6
83
84
6 Test uniformemente più potente
Tabella 6.1 Teorema di Karlin-Rubin (Teorema 6.4) al variare delle ipotesi e del MLR TEST H0 W H0 W H0 W H0 W
0 contro H1 0 contro H1 0 contro H1 0 contro H1
W W W W
MLR non decrescente non crescente non decrescente non crescente
> 0 > 0 < 0 < 0
R R D fT > t0 g R D fT > t0 g R D fT < t0 g R D fT < t0 g
Definizione 6.3 (Rapporto di verosimiglianza monotono) Una famiglia di densità di probabilità fg.tI / W 2 Rg per una v.a. T ha rapporto di verosimiglianza monotono, Monotone Likelihood, Ratio MLR, se, 8 2 e 8 1 tali che 2 > 1 , g.tI 2 /=g.tI 1 / è una funzione monotona (non crescente o non decrescente) di t. Teorema 6.4 (Karlin-Rubin) Consideriamo la seguente classe di test: ( H0 W 0 I H1 W > 0 : Supponiamo che T sia statistica sufficiente per e che la famiglia di densità di probabilità fg.tI / W 2 g di T abbia MLR non decrescente. Allora per ogni t0 , il test che rifiuta H0 se e solo se T > t0 è UMP test di livello ˛, dove ˛ D P0 fT > t0 g. Le altre casistiche sono riportate in Tabella 6.1.
6.2
Esercizi
Esercizio 6.1 Data la famiglia di leggi: fX .xI / D
2 x I.0; / .x/ I 2
si vuole sottoporre a verifica H0 W D 0 contro H1 W D 1 , con 0 < 1 < 0 . (a) Trovare un test più potente di livello ˛ basato su un campione di ampiezza 1. (b) Calcolare la potenza del test di cui al punto precedente contro 1 . Esercizio 6.2 Si trovi un test più potente di livello ˛ basato su un campione di ampiezza 1 per verificare H0 W X N.0; 1/ contro H1 W X C .0; 1/, ovvero X variabile di Cauchy di mediana 0. Esercizio 6.3 Sia X1 ; : : : ; Xn un campione casuale da una popolazione N.; 02 /, con 2 R incognito e 02 > 0 noto. (a) Trovare un test più potente di livello ˛ per H0 W D 0 contro H1 W D 1 , con 1 > 0 . (b) Dedurre da (a) un test uniformemente più potente di livello ˛ per H0 W D 0 contro H1 W > 0 .
6.2 Esercizi
85
Esercizio 6.4 Per una variabile X si consideri il modello statistico definito da: f .xI / D x 1 ;
0 < x < 1:
(a) Trovare un test di Neyman-Pearson di dimensione ˛ (basato su un campione di ampiezza 1) per H0 W D 1 contro H1 W D 1 , con 1 > 1. (b) Il test trovato in (a) è distorto? (c) Per le ipotesi statistiche del punto (a), fissato 1 > 1, si calcoli la potenza massima che può avere un arbitrario test di dimensione ˛. (d) Dedurre da (a) un test uniformemente più potente di livello ˛ per H0 W D 1 contro H1 W > 1. Esercizio 6.5 Si trovi un test più potente di livello ˛ basato su un campione di ampiezza 1 per verificare H0 W X f0 contro H1 W X f1 , dove: ex =2 ; f0 .x/ D p 2 2
f1 .x/ D
ejxj : 2
Esercizio 6.6 Si mostri che il modello statistico definito da f .xI / D
1 ; Œ1 C .x /2
2 R;
non ha rapporto di verosimiglianza monotono in X. Esercizio 6.7 Fissati due numeri naturali n < N , si mostri che il modello statistico ipergeometrico G.N; M; n/, 0 M N , ha rapporto di verosimiglianza monotono. Esercizio 6.8 Data la famiglia di leggi esponenziali E . /, > 0, trovare un test uniformemente più potente di livello ˛ per H0 W 0 contro H1 W > 0 basato su un campione di ampiezza n. Esercizio 6.9 Si consideri un campione casuale X1 ; : : : ; Xn da una popolazione U Œ0; , > 0. Per sottoporre a verifica H0 W 0 contro H1 W > 0 , si consideri la regione di rifiuto: o n R˛ D x.n/ > .1 ˛/1=n 0 : (a) Si verifichi che R˛ ha dimensione ˛ e se ne calcoli la funzione potenza. (b) Il test dato da R˛ è distorto? (c) Si mostri che il modello ha rapporto di verosimiglianza monotono rispetto a T D X.n/ . (d) Si deduca da (c) che R˛ definisce un test uniformemente più potente di ogni test di livello ˛ per H0 W 0 contro H1 W > 0 .
86
6 Test uniformemente più potente
Esercizio 6.10 Sia X un campione di ampiezza unitaria da una distribuzione con densità: fX .xI / D
2 . x/I.0; / .x/ 2
con 2 .0; 1/: Si consideri il problema di prova delle ipotesi: H0 W D 1 vs H1 W > 1: Fissato ˛ 2 .0; 1/; si costruisca la regione di rifiuto del test ı1 uniformemente più potente di livello ˛ e se ne calcoli la funzione potenza. Esercizio 6.11 Si consideri un’unica variabile X descritta dal modello statistico: fX .xI / D
ex 1 C ex
2 ;
1 < x < C1;
1 < < C1:
Sia ˛ 2 .0; 1/: (a) Trovare un test più potente di livello ˛ per H0 W D 0 contro H1 W D 1. (b) Trovare un test uniformemente più potente di livello ˛ per H0 W D 0 contro H1 W > 0. (c) Mostrare che il modello ha rapporto di verosimiglianza monotono in X. (d) Trovare un test UMP di livello ˛ per H0 W 0 contro H1 W > 0. (e) Calcolare la potenza del test in (a) nel caso ˛ D 0:3. Esercizio 6.12 Per n 1; sia X1 ; : : : ; Xn un campione casuale da una distribuzione avente densità: ( xm 1 mx m1 e se x > 0I fX .xI / D 0 altrimentiI ove m è un numero naturale noto e un parametro positivo ignoto. Dato 0 > 0; si determini la regione di rifiuto del test di livello ˛ 2 .0; 1/ uniformemente più potente per verificare le ipotesi: H0 W D 0
6.3
contro H1 W > 0 :
Soluzioni
6.1 (a) Per trovare un test più potente di livello ˛ basato su un campione di ampiezza 1, applichiamo N-P (Teorema 6.2).
6.3 Soluzioni
87
Fig. 6.1 Rappresentazione
1 x
. Nel gradi g.x/ D
a
b
0 x
fico a sinistra (a) la funzione è rappresentata su R e sono evidenziati gli asintoti. Nel grafico a destra (b) la funzione viene valutata solo su x 2 .0; 1 /, che è il reale dominio della nostra funzione. La linea tratteggiata nel grafico a destra rappresenta un possibile valore di y D kQ
Calcoliamo la regione di rifiuto: R D fx W f .xI 1 / > k f .xI 0 /g D
2 2 D x W 2 1 x I.0;1 / .x/ > k 2 0 x I.0;0 / .x/ 0 8n 1 o
2 2 ˆ x W . x/ > k x I .x/ se 0 < x < 1 I ˆ 1 0 .0; / 2 2 ˆ 1 0 k 2 0 x I.0;0 / .x/ D ; se 1 x 0 I ˆ n o 0 ˆ ˆ : xW0>0 D; se x > 0 : Consideriamo l’unico caso non banale, ovvero x 2 .0; 1 /. Allora: .1 x/ 2 RD xW > k 12 D kQ : .0 x/ 0 1 x/ . Questa è una funzione omografica che ha come Definiamo g.x/ D . .0 x/ asintoto verticale x D 1 e come asintoto orizzontale y D 1 (vedi Fig. 6.1a). In Fig. 6.1b viene invece rappresentata g.x/ nel suo reale dominio, cioè x 2 Q .0; 1 /, mentre la linea tratteggiata corrisponde ad un possibile valore di k. Possiamo quindi concludere che la regione di rifiuto è della forma fX < cg, dove c 2 .0; 1 /. Imponiamo quindi che il test sia di livello ˛:
˛ D P0 fX 2 Rg D P0 fX < cg D ˇc Zc
2 2 x 2 ˇˇ D 0 x dx D x 2 ˇ D 0 02 0 ˇ 0 0 p c c D 2 ) c D 0 .1 1 ˛/: 0 0
88
(b)
6 Test uniformemente più potente
ˇ.1 / D P1 fX < 0 .1
p 1 ˛/g D
p 0 .1 Z 1˛/
ˇ .1p1˛/ 2ˇ 0
2 2 x ˇ 1 x dx D x 2 ˇ 1 12 1 ˇ 0 0 ! p p 0 .1 1 ˛/ 0 .1 1 ˛/ 2 : D 1 1 D
D
6.2 In questo caso possiamo applicare N-P (Teorema 6.2). R D fx W f1 .x/ > k f0 .x/g
k 0:
Calcoliamo R: (
) 1 1 x 2 =2 R D fx W f1 .x/ > k f0 .x/g D x W > p ke D .1 C x 2 / 2 ) ( 2 ex =2 > p k D kQ : D xW .1 C x 2 / 2 Osserviamo che g.x/ D
2
ex =2 .1Cx 2 /
è una funzione pari, non negativa, definita su
tutto R. Dato che la g.x/ è pari, è sufficiente studiare g.t/ D g 0 .t/ D
et =2 .1Ct /
con t D x 2 0.
et =2 t 1 : .1 C t/ 2
Allora g.t/ è crescente per t 1, mentre è decrescente per t < 1. max.g.x 2 // D 1, raggiunto in x D 0 (n.b. massimo locale); min.g.x 2 // D expf1=2g=2, raggiunto in x D ˙1 (n.b. minimi globali). Rappresentiamo la funzione g.x 2 / in Fig. 6.2, evidenziando tre diversi possibili Q k con linee diverse. Per definire la regione di rifiuto dobbiamo distinguere in base Q a k: ( ) 2 ex =2 RD xW > p k D kQ D .1 C x 2 / 2 8 ˆ se kQ < expf1=2g=2I ˆ c2 g se expf1=2g=2 < kQ < 1I ˆ ˆ :fx < c g [ fx > c g se kQ > 1: 2 2 Impostiamo quindi il livello di sificatività del test.
6.3 Soluzioni
89
Fig. 6.2 Rappresentazione di g.x/ D
2
ex =2 .1Cx 2 /
Il primo caso è banale. Concentriamoci sul secondo e terzo caso. Caso 2: expf1=2g=2 < kQ < 1. ˛ D PH0 fc1 < X < c1 g C PH0 fX < c2 g C PH0 fX > c2 g D D .c1 / .c1 / C .c2 / C 1 .c2 / D D 2.c1 / 1 C 2.1 .c2 // D D 2.c1 / 1 C 2 2.c2 / D D 1 C 2.c1 / 2.c2 /: Possiamo trovare c1 e c2 , risolvendo numericamente il seguente sistema: (
˛ D 1 C 2.c1 / 2.c2 /I g.c1 / D g.c2 /:
(6.3)
Caso 3: kQ > 1. ˛ D PH0 fX < c2 g C PH0 fX > c2 g D 2.1 .c2 //: H) c2 D z1˛=2 :
90
6 Test uniformemente più potente
6.3 (a) Applichiamo N-P (Teorema 6.2) : 1n 0
( ) n 1 X B 1 C 2 .xi / D f .xI / D @ q A exp 2 20 i D1 202 1n 0 ( ) n nx n n2 1 X 2 B 1 C xi exp : D @q A exp 2 20 i D1 02 02 202 ƒ‚ … „ „ ƒ‚ … g.t I/ h.x/
Applichiamo N-P (Teorema 6.2) per le statistiche sufficienti. Osservazione
nt1 n21 > log k C g.tI 1 / > kg.tI 0 / ” 02 202
nt0 n20 02 202
n 2 . 20 / 2 1 1 >0 2 log k 0 C n.21 20 / ” t> : n.1 0 / ” nt.1 0 / > log k 0 C
Allora R D fx W X > cg. Imponiamo quindi che il test sia di livello ˛: ( ) X n 0 c 0 c 0 ˛ D PH0 fX 2 Rg D P p > p ” p D z1˛ : 0 = n 0 = n 0 = n Possiamo quindi scrivere la regione di rifiuto del test UMP di livello ˛ come: 0 R˛ D X n > 0 C p z1˛ : n (b) Visto che il likelihood ratio n è monotono e X èostatistica sufficiente, allora il test caratterizzato da R˛ D X n > 0 C p0n z1˛ è ancora UMP di livello ˛. 6.4 (a) Applichiamo N-P (Teorema 6.2). Ricaviamo la regione di rifiuto: R D fx W f .xI 1 / > k f .xI 1/g D fx W 1 x 1 1 I.0;1/ .x/ > k I.0;1/ .x/g D k 1=.1 1/ Q D fx W x > kg: Q D kg D fx W x > 1
6.3 Soluzioni
91
Fig. 6.3 Rappresentazione della funzione potenza ˇ./ associata al test ( 1)
Impostiamo il livello del test pari ad ˛. Q D ˛ D P1 fX 2 Rg D P1 fX > kg
Z1
dx D 1 kQ H) kQ D 1 ˛:
kQ
Allora: R˛ D fX > 1 ˛g. (b) Per rispondere alla domanda calcoliamo la funzione potenza: Z1 ˇ./ D P fX > 1 ˛g D
ˇ1 ˇ x 1 dx D x ˇ
1
D 1 .1 ˛/ :
1˛
Notiamo subito che la funzione potenza è monotona crescente quindi soddisfa il requisito per essere un test non distorto: ˇ. 0 / ˇ. 00 /
8 0 > 1; 00 D 1:
Si veda la Fig. 6.3. (c) Dato che N-P (Teorema 6.2) ci garantisce di aver trovato un test UMP, per definizione di UMP, possiamo affermare che: ˇ 0 ./ 1 .1 ˛/1 : ˇ 0 è funzione potenza associata ad un generico test della stessa classe del test considerato (test di livello ˛). (d) Dato che la R˛ non dipende da 1 , possiamo affermare che: il test di livello ˛, associato al test H0 W D 1 contro H1 W > 1, è UMP di livello ˛.
92
6.5
6 Test uniformemente più potente
8 kf0 g D p > k p 2 2 ) ( p ejxj 2 D p x 2 =2 > k D 2 e ) ( jxj e D x 2 =2 > c D e n 2 o D ex =2jxj > c D ˚ D x 2 =2 jxj > c 0 : (
La funzione g.x/ D x 2 =2jxj è pari, ed esiste su tutto R. In Fig. 6.4 è rappresentata g.x/ e le linee relative a diversi possibili valori di c 0 .
Fig. 6.4 Rappresentazione di g.x/ D x 2 =2 jxj e diversi valori di c 0
6.3 Soluzioni
93
Dobbiamo quindi distinguere 4 casi: CASO 1 c 0 < 0:5 CASO 2 c 0 D 0:5 CASO 3 0:5 < c 0 < 0 CASO 4 c 0 0 CASO 1 ˛ CASO 2 ˛ CASO 3 ˛ CASO 4 ˛
) ) ) )
R D RI R D R n f˙1gI R D fjXj x1 g [ fjXj > x2 g 0 x1 1 < x2 < 2I R D fjXj > x3 g x3 > 2:
D 1I D 1I D 1 2Œ.x2 / .x1 /I D 2.1 .x3 //:
6.6 Sia 1 < 2 . 1 C .x 2 /2 f .xI 1 / : D f .xI 2 / 1 C .x 1 /2 1 C .x 2 /2 D 1: lim x!˙1 1 C .x 1 /2 Quindi non può essere monotono in x. 6.7 n < N;
G.N; M; n/;
X G.N; M; n/
0 M N: M N M
f .xI M / D
x
: Nnx
n
Consideriamo M ed M C 1 e calcoliamo il likelihood ratio: M C1 N M 1
f .xI M C 1/ M C1 N M nCx nx D xM N M I
D f .xI M / N M M C1x x nx che è crescente in x. 6.8 Applichiamo il Teorema di K-R (Teorema 6.4). (a) Ricaviamo statistica sufficiente per . Scriviamo la densità congiunta: fx .xI / D n e
P
xi
:
Notiamo immediatamente che densità E appartiene alla famiglia esponenziale, quindi: X T .X/ D Xi è statistica sufficiente (si può vedere subito che è anche completa perché 2 .0; C1/, che contiene un aperto di R).
94
6 Test uniformemente più potente
(b) Ricaviamo la legge di T : T .X/ g.tI /. d
Xi E . / D Gamma.1; /
H)
T D
X
Xi Gamma.n; /:
(c) Verifichiamo che T abbia MLR (Monotone Likelihood Ratio). Sia 2 > 1 . n g.tI 2 / 1= .n/e 2 t 22 t n1 2 . 1 2 /t D e : D 2 g.tI 1 /
1 1= .n/e 1 t 1 t n1 Il likelihood ratio è monotono decrescente. Valendo le ipotesi per l’applicazione di K-R (Teorema 6.4), possiamo dire che: R D fT > t0 g D fT < t0 D tQ0 g: Impostiamo il livello del test: ˛ D sup P fT < tQ0 g D P 0 fT < tQ0 g
H)
0< 0
˛ tQ0 D n;
: 0
6.9 (a) Calcoliamo la legge di X.n/ : P fX.n/ tg D .P fXi tg/n D
t n
I.0; / .t/ D
t n
I.t;C1/ ./:
Allora calcoliamo ˛: o n ˛ D sup P fX 2 R˛ g D sup P X.n/ > .1 ˛/1=n 0 D 0
0
o D sup 1 P X.n/ .1 ˛/1=n 0 D n
0
n 1 1=n .1 ˛/ 0 D sup 1 D 0 D Œ1 .1 ˛/ D ˛: Il sup è raggiunto per D 0 . Calcoliamo allora la funzione potenza ˇ./: o n ˇ./ D P fX 2 R˛ g D P X.n/ > .1 ˛/1=n 0 D o n D 1 P X.n/ .1 ˛/1=n 0 D D1
Œ.1 ˛/1=n 0 n I.0; / ..1 ˛/1=n 0 /: n
6.3 Soluzioni
95
(b) Notiamo subito che la funzione potenza è monotona crescente quindi soddisfa il requisito per essere un test non distorto: ˇ. 0 / ˇ. 00 /
8 0 > 0 ; 00 0 :
(c) Dal punto (a) ricaviamo subito che: fX.n/ .t/ D n
t .n1/ I.0; / .t/: n
Calcoliamo il MLR, considerando 2 > 1 :
8 n .n1/ < 1 ; n I n t n I.0;2 / .t/ .t/ g.tI 2 / .0;2 / 2 2 D 1n D .n1/ D :C1; g.tI 1 / 2 I.0;1 / .t/ n t n I.0;1 / .t/ 1
se t 1 I se t > 1 :
Notiamo subito che il MLR è monotono crescente. (d) Consideriamo il seguente test: H0 W 0 contro H1 W > 0 . Dato che il test non è semplice, per trovare l’UMP di livello ˛, proviamo ad applicare K-R (Teorema 6.4). Sappiamo che T D X.n/ è statistica sufficiente per e che ha MLR monotono crescente. Valendo le ipotesi per l’applicazione di K-R (Teorema 6.4), possiamo dire che il test UMP ha la seguente regione di rifiuto: R D fX.n/ > t0 g: Inoltre dai punti precedenti possiamo concludere che: o n R˛ D X.n/ > .1 ˛/1=n 0 : 6.10 Per rispondere alla domanda impostiamo il seguente test, in modo da applicare N-P (Teorema 6.2). H0 W D 1 vs H1 W D 1 Definiamo la regione di rifiuto: (
1 > 1:
)
R D x W f .xI 1 / > k f .xI 1/ D ) 2 D x W 2 .1 x/I.0;1 / .x/ > k 2.1 x/I.0;1/ .x/ D 1 8n o 2 x ˆ x W . x/ > k 2.1 x/ D fx W 1x > k 2 g se 0 < x 1I ˆ 1 2 ˆ 1 0 D f1 < x 1 g se 1 < x 1 I ˆ 1 n o ˆ ˆ : xW0>0 D; se x > 1 : (
96
6 Test uniformemente più potente
Ci focalizziamo sull’unico caso non banale e notiamo che g.x/ D crescente ed ha come codominio Œ1 ; C1. Quindi:
x 1x
è monotona
R D fX > cg: Imponiamo che il livello del test sia ˛. ˛ D sup P fX > cg D P1 fX > cg D 2 0
Z1 D c
ˇ1 ˇ 2.1 x/ dx D 2x x ˇ D ˇ 2ˇ
c
D 2 1 .2c c / D .1 c/2 : 2
Possiamo concludere che: c D 1
p
˛.
R˛ D fX > 1
p
˛g:
N-P (Teorema 6.2) ci garantisce che questo test è UMP di livello ˛. Valutiamo la funzione potenza:
ˇ./ D P fX > 1
p
Z ˛g D p 1 ˛
ˇ 2 2 x 2 ˇˇ . x/dx D x 2 ˇ 2 ˇ
p p 1 2 .1 ˛/ C 2 .1 ˛/2 D p p 1 2 D 1 .1 ˛/ C 2 .1 ˛/2 D p !2 .1 ˛/ D 1 :
D21
Questo vale se 1 6.11 (a)
p ˛ < , altrimenti ˇ./ D 0. (
H0 W D 0I H1 W D 1:
p 1 ˛
D
6.3 Soluzioni
97
Applichiamo N-P (Teorema 6.2): ex1 ex R D fx W f .xI 1/ > kf .xI 0/g D > k D .1 C ex1 /2 .1 C ex /2 ex .1 C ex /2 0 > k x1 D k D D xW .1 C ex1 /2 e x 1Ce D xW > kQ D 1 C ex1 o n Q C ex1 / D D x W 1 C ex > k.1 ( ) Q k Q > kQ 1 C D x W ex .1 k/ : c Allora la regione di rifiuto è della forma: fX > g. Imponiamo quindi che il livello del test sia pari ad ˛: ZC1 ˛ D P0 fX > g D
ˇC1 ex 1 ˇˇ 1 dx D D D ˛: ˇ x 2 x .1 C e / 1Ce ˇ 1 C e
Quindi:
1˛ R˛ D X > log ˛
è test UMP di livello ˛. (b) Dato che la R, in caso di ipotesi semplici, non dipende da H1 : 1˛ : R D x W X > log ˛ (c) Siano 2 > 1 : 2 1 C ex1 f .xI 2 / x2 xC1 e : De f .xI 1 / 1 C ex2 d 1 C ex1 ex1 .1 C ex2 / .1 ex1 /ex2 D D dx 1 C ex2 .1 C ex2 /2 ex1 ex2 > 0: D .1 C ex2 /2 Il rapporto di verosimiglianza è monotono crescente in x.
98
6 Test uniformemente più potente
(d) Test UMP di livello ˛ per le seguenti ipotesi: (
H0 W 0I H1 W > 0:
è della forma R D fX > kg, secondo K-R (Teorema 6.4) Imponiamo quindi che P0 fX 2 Rg D ˛. Allora:
1˛ : R˛ D X > log ˛ 0:7 D 0:8473 : ˛ D 0:3 ) X > log 0:3 ZC1 ex1 ˇ1 ./ D P1 fX > 0:8473g D dx D .1 C ex1 /2 0:8473 ˇC1 ˇ 1 1 ˇ D D ' 0:5381: ˇ x1 0:84731 1Ce ˇ 1Ce
(e)
0:8473
6.12 Procedo usando N-P (Teorema 6.2) sul seguente test: H0 W D 0
vs
H1 W D 1
1 > 0 :
Se la regione di rifiuto non dipende da 1 , allora possiamo dire di aver trovato il test UMP di livello ˛. ( ) R D x W f .xI 1 / > k f .xI 0 / D ( D x ( D x ( D x ( D x
) xm xm 1 1 m1 1 m1 0 e I.0;C1/ .x/ > k mx e I.0;C1/ .x/ D W mx 1 0 ) xm xm 1 D W e 0 1 > k 0 ! !) 1 1 m 1 > log k D Wx 0 1 0 ) ! #1=m " 0 1 1 Dc : W x > log k 0 1 0
Quindi la regione di rifiuto è della forma: R D fx W x > cg.
6.3 Soluzioni
99
Imponiamo quindi che sia di livello ˛: ˛ D sup D P fX > cg D 1 P fX cg D D0
Zc D1 0
ˇc ˇ m m xm xm 1 ˇ c c mx m1 e 0 dx D 1 C e 0 ˇ D 1 C e 0 1 D e 0 : ˇ 0 0
Allora: c D .0 log ˛/1=m : Quindi R˛ D fX > .0 log ˛/1=m g. Dato che non dipende da 1 , concludiamo che questa regione di rifiuto è anche la regione di rifiuto di livello ˛ del test UMP: H0 W D 0
vs H1 W > 0 :
N.B. Si può svolgere l’esercizio anche sfruttando T D
P i
Xi statistica sufficiente.
Capitolo 7
Intervalli di confidenza
7.1
Richiami di teoria
Definizione 7.1 (Stima intervallare) La stima intervallare di un parametro reale è costituita da una qualsiasi coppia di statistiche L.X / e U.X / del campione X che soddisfano L.X / U.X /. L’intervallo aleatorio ŒL.X /; U.X / è detto stima intervallare per . Definizione 7.2 (Probabilità di copertura) La probabilità di copertura di una stima intervallare ŒL.X /; U.X / per è definita come: P . 2 ŒL.X /; U.X //: Definizione 7.3 (Livello di confidenza) Il livello di confidenza di una stima intervallare ŒL.X /; U.X / per è definito come: inf P . 2 ŒL.X /; U.X //:
Teorema 7.4 (Intervallo di confidenza e regione di accettazione) Per ciascun 0 2 , sia A.0 / la regione di accettazione di livello ˛ del test H0 W D 0 . Per ciascun x 2 X , si definisca un intervallo IC.x/ come: IC.x/ D f0 W x 2 A.0 /g: Allora l’intervallo aleatorio IC.X / è un intervallo di confidenza di livello 1 ˛. Alternativamente, sia IC.X / un intervallo di confidenza di livello 1 ˛. Per ogni 0 2 , si definisca: A.0 / D fx W 0 2 C.x/g: Allora A.0 / è la regione di accettazione di livello ˛ associata al test H0 W D 0 . Definizione 7.5 (Quantità pivotale) Una variabile aleatoria Q.X I / è una quantità pivotale (o pivot) se la distribuzione di Q.X I / non dipende da . © Springer-Verlag Italia S.r.l., part of Springer Nature 2020 101 F. Gasperoni, F. Ieva, A.M. Paganoni, Eserciziario di Statistica Inferenziale, UNITEXT 120, https://doi.org/10.1007/978-88-470-3995-7_7
102
7 Intervalli di confidenza
Teorema 7.6 (Pivoting della funzione di ripartizione) Sia T una statistica con funzione di ripartizione continua FT .tI /. Siano ˛1 e ˛2 due valori fissati, tali che ˛1 C ˛2 D ˛ e ˛ 2 .0; 1/. Supponiamo che 8t 2 T , le funzioni L .t/ e U .t/ possano essere definite come segue: Se FT .tI / è funzione decrescente di 8t, definiamo L .t/ e U .t/ come: FT .tI U .t// D ˛1 ;
FT .tI L .t// D 1 ˛2 :
Se FT .tI / è funzione crescente di 8t, definiamo L .t/ e U .t/ come: FT .tI U .t// D 1 ˛2 ;
FT .tI L .t// D ˛1 :
Allora l’intervallo aleatorio ŒL .t/; U .t/ è un intervallo di confidenza di livello 1 ˛ per . Teorema 7.7 (Lunghezza minima e unimodalità della densità) Sia fX .x/ una densità di probabilità unimodale. Se l’intervallo Œa; b soddisfa le seguenti caratteristiche: Rb a fX .x/ dx D 1 ˛; f .a/ D f .b/ > 0; a x b, dove x è la moda di fX .x/. Allora Œa; b è l’intervallo a lunghezza minima tra quelli che soddisfano la prima condizione.
7.2
Esercizi
Esercizio 7.1 Si consideri il modello statistico dato dalle leggi esponenziali E ./, > 0, e sia X1 ; : : : ; Xn un campione casuale estratto da una popolazione descritta da tale modello. Trovare gli intervalli di confidenza per di livello D 1 ˛ costruiti sulla base di: (a) LRT per D 0 contro ¤ P0 . (b) Quantità pivotale Q D 2 niD1 Xi . Esercizio 7.2 Per un campione di ampiezza 1 dalla legge: f .xI / D
2 . x/; 2
0 < x < I
si trovino gli intervalli di confidenza per di livello D 1 ˛ costruiti tramite: (a) (b) (c) (d)
LRT per D 0 contro ¤ 0 . Quantità pivotale F .X/.
Quantità pivotale X=, scegliendo quello del tipo x; f .x/ . Quale intervallo scegliereste per una stima di ad un livello D 0:95?
7.3 Soluzioni
103
Esercizio 7.3 Sia X1 ; : : : ; Xn un campione casuale da una popolazione N.; 2 /. Si trovi un intervallo di confidenza per 2 di livello D 1 ˛ nei casi: (a) noto. (b) incognito. Esercizio 7.4 Si considerino i campioni casuali X1 ; : : : ; Xn da una popolazione N.1 ; 2 / e Y1 ; : : : ; Ym da una popolazione N.2 ; 2 /. Si trovi un intervallo di confidenza per 1 2 di livello D 1 ˛ nei casi: (a) 2 noto. (b) 2 incognito. Esercizio 7.5 Sia X una singola osservazione da una beta.; 1/: f .xI / D x 1 I.0;1/ .x/;
> 0:
(a) Si trovi la legge di Y D log1 X e si calcoli il livello di confidenza dell’intervallo Y
2 ; Y per . (b) Si mostri che X è una quantità pivotale e la si usi per costruire un intervallo di confidenza per di livello arbitrario 1 ˛, ˛ 2 .0; 1/, scegliendo quello di ampiezza minima.
(c) Si confronti l’intervallo Y2 ; Y con l’intervallo trovato in (b) di pari livello. Esercizio 7.6 Si consideri il modello statistico: f .xI / D
1 jxj ; e 2
1 < x < C1;
1 < < C1:
Dato X campione di ampiezza 1: (a) Si verifichi che la quantità Q D X è pivotale. (b) Si determini per l’intervallo di confidenza basato su Q di livello 1 ˛ e di lunghezza minima.
7.3
Soluzioni
7.1 (a) Confrontando con il risultato dell’Esercizio 5.3, la regione di rifiuto di livello ˛ del test: H0 W D 0
vs
H1 W ¤ 0 I
104
7 Intervalli di confidenza
risulta essere: ˚ ˚ R D X n < tN1 =0 [ X n > tN2 =0 + tN2 tN2 tN1 tN1 Xn D : Xn Xn Scegliendo tN1 D ˛=2 .n; n/ e tN2 D 1˛=2 .n; n/ si ottiene:
˛=2 .n; n/ 1˛=2 .n; n/ I IC.1 ˛/ D : Xn Xn P (b) Consideriamo la v.a. Q D 2 Xi e si osservi che: X
Xi Gamma.n; /
)
2
X
d
Xi Gamma.n; 1=2/ D 2 .2n/:
Definiamo quindi l’IC basato su Q, con livello di confidenza 1 ˛: 8 i h X < IC D a 2 Xi b I :P fa Q bg D 1 ˛: Scegliendo a D 2˛=2 .2n/ e b D 21˛=2 .2n/, otteniamo: " IC.1˛/ D
# 2˛=2 .2n/ 21˛=2 .2n/ P P : 2 Xi 2 Xi
Osservazione Ricordiamo che ˛ .n; n/ D
2 .2n/ 2n .
Infatti sia X Gamma.n; n/, allora: ˛ D P fX ˛ .n; n/g D P f2nX 2n˛ .n; n/g d
e n2X Gamma.n; 1=2/ D 2 .2n/. 2 .2n/ Quindi ˛ .n; n/ D 2n e # " 2 ˛=2 .2n/ 21˛=2 .2n/ n˛=2 .n; n/ n1˛=2 .n; n/ P P P P I I : IC.1 ˛/ D D Xi Xi 2 Xi 2 Xi
Concludiamo che i due IC ricavati al punto (a) e al punto (b) coincidono.
7.3 Soluzioni
105
7.2 (a) Si osservi che su un campione di ampiezza 1 si ha: 2 . x/IŒxIC1/ ./: 2 @L 4x 2 D 2 C 3 D0 ) @
L.I x/ D
OMLE D 2X:
Da qui il LRT per H0 W D 0 vs H1 W ¤ 0 : 2 . x/IŒ0I0 .x/ 02 0 2 .2x x/ 4x 2
4x .0 x/IŒ0;0 .x/: 02 4x .0 x/ < c D R D f .x/ cg D fx > 0 g [ 02
.x/ D
D
D f4x.0 x/ < k 0 g D f4x0 4x 2 < k 0 g D D fx 2 0 x C h > 0g 0 2
Z
xD
q 02 4h 2
ChQ
˛ D1 0 2
)
0 ˙
hQ
2 .0 x/ dx D 02
0 ChQ 1 .0 x/2 20 Q D 2 0 2 h Q 1 0 Q D 1 2h D 1 2 Œ20 h ) hQ D .1 ˛/: 0 2 0 n o ˛ 1 : R˛ D X < 0 ˛ [ X > 0 1 2 2 D1
Da cui:
IC.1˛/
2X 2X D : 2˛ ˛
(b) Q D FX .xI / UŒ0;1 : 8 ˆ ˆ :
D
0 Q ˙ h: 2
106
7 Intervalli di confidenza
Osserviamo che: x2 2 : g./ D 2 x 2 2 2 x 2.x x 2 =2/ 2x.x / g 0 ./ D D < 0: 4 3 x x2 2 D k ” 2 .2 x/ D k g./ D k ” 2 x 2 p x C x 2 .1 k/ : ” D k Quindi: ˛i D F .x/ 1 "2 ! 2 !# p p 1 C ˛=2 1 C 1 ˛=2 D X IX : 1 ˛=2 ˛=2
IC.1˛/ D
h˛
(c) Consideriamo la quantità pivotale Q D FQ .q/ D P
X .
X 2 2 q 2 q 2 2 D q.2 q/: q D P fX qg D 2
Dato che stiamo cercando un IC del tipo ŒXI f .X/ di livello 1 ˛, imponiamo che: P fc < Q < 1g D 1 ˛: ˇ1 2q q 2 ˇc D 1 ˛ ” 1 2c C c 2 D .c 1/2 D 1 ˛: p c D 1 1 ˛: Quindi concludiamo che:
IC.1˛/
X p D X : 1 1˛
(d) 1 ˛ D 0:95. Sostituendo questo valore negli IC calcolati ai punti precedenti otteniamo: 8 ˆ ˆ 0. (a) Studiare la consistenza di X.n/ , stimatore di massima verosimiglianza di , e di X.n/ .n C 1/=n, stimatore corretto di . (b) Per l’intervallo di confidenza per di livello 1 ˛ di ampiezza minima che si può costruire con la quantità pivotale X.n/ =, si studi il limite di tale ampiezza per n ! 1. Esercizio 8.3 Sia X1 ; : : : ; Xn una famiglia di variabili aleatorie indipendenti e tutte distribuite secondo una legge esponenziale di media . Ciascun Xi rappresenta l’istante di disintegrazione di un nucleo di un certo elemento radioattivo. Per ogni t 0 fissato, sia Yi la v. a. che vale 1 se l’i-esimo nucleo è ancora in vita all’istante t e 0 altrimenti. Si considerino i seguenti stimatori di : Vn , MLE basato sul campione Y1 ; : : : ; Yn . Wn D n minfX1 ; : : : ; Xn g. Tn , UMVUE basato sul campione X1 ; : : : ; Xn .
114
8 Statistica asintotica
Si risponda quindi alle seguenti domande: (a) Determinare le leggi degli stimatori Wn e Tn . (b) Si studi la normalità asintotica e consistenza di Vn , Wn e Tn . (c) Qual è lo stimatore migliore? Esercizio 8.4 Sia .X1 ; : : : ; Xn / un campione casuale estratto da una distribuzione di Poisson di parametro > 0: Sia . / D e .1 C /. Per stimare si considerino lo MLE e lo UMVUE. Stabilire se sono stimatori consistenti. Esercizio 8.5 Sia X1 ; : : : ; Xn un campione di variabili aleatorie indipendenti di densità beta.; 1/, fX .xI / D x 1 I.0;1/ .x/;
> 0I
e siano On e OML rispettivamente gli stimatori UMVUE ed MLE di . (a) Discutere consistenza, asintotica normalità e asintotica efficienza dei due stimatori. (b) Costruire le regioni critiche di livello (approssimativamente) ˛ per sottoporre a test H0 W D 0 contro H1 W > 0 . Esercizio 8.6 Sia X1 ; : : : ; Xn un campione casuale da una Gamma.2; 1=/ con > 0. Si ha quindi fX .xI / D 2 x ex= I.0;C1/ .x/: Sia On lo stimatore di massima verosimiglianza per . (a) (b) (c) (d)
Verificate che On è consistente. Determinate la distribuzione asintotica di On : Determinate lo stimatore O n2 di massima verosimiglianza per la varianza di X1 : Determinate la distribuzione asintotica di O n2 :
Esercizio 8.7 Sia X1 ; : : : ; Xn un campione casuale da 1 1 C x I.1;1/ .x/; 2 Œ1; 1: fX .xI / D 2 (a) Si determini col metodo dei momenti uno stimatore On di . (b) Si determini la distribuzione asintotica di On . (c) Si proponga un intervallo di confidenza asintotico di livello 1 ˛ per . Esercizio 8.8 Dato un campione casuale X1 ; : : : ; Xn da una distribuzione di Bernoulli Be.p/, si consideri Vn .X / D nX n .1 X n /=.n 1/ stimatore UMVUE della varianza 2 della distribuzione. (a) Mostrare che Vn .X / è consistente per 2 . (b) Determinare la legge asintotica di Vn .X /.
8.3 Soluzioni
8.3
115
Soluzioni
8.1
(b)
1X 1 EŒTi D : n i D1 n
(a)
EŒT n D
Quindi T n è stimatore non distorto per 1 . n X
Ti Gamma.n; / H) T n Gamma.n; n/:
i D1
(c) Per il TCL (Teorema 1.25): p 1 L 1 n Tn ! N 0; 2 : L’asintotica normalità implica la consistenza. Calcoliamo il Limite di Cramér-Rao, considerando che ./ D 1 : . 0 .//2 4 D h
2 i D @ I1 ./ E @ log f .xI / 1
D
(d)
4E
h
1 @ @
.log x/2
iD
D
1
2 D 4 EŒ X 1
D
1 1 2 D 2: D 4 4 Var.Ti /
Quindi T n è asintoticamente efficiente.
1 1 n : E D nE P D Ti n1 Tn Quindi uno stimatore non distorto per è: n1 1 n1 On D D P : Ti n Tn
(e) A partire dai risultati del punto (c), applichiamo il metodo delta (Teorema 1.26) con g.t/ D 1=t e g 0 .t/ D 1=t 2 e otteniamo: 0 !2 1
p 1 1 1 L n ! N @0; 2 2 A D N 0; 2 : 1 Tn 2
116
8 Statistica asintotica
Applicando il Teorema di Slutsky (1.24), concludiamo che: n1 1 On D n Tn è asintoticamente normale, cioè: p
L
n.On / ! N.0; 2 /:
Il Limite di Cramér Rao vale: 1 D 2I Var.Ti / quindi On è anche asintoticamente efficiente. (f) Consideriamo il test: H0 W D 0
vs
H1 W ¤ 0 :
Dato che On N.; 2 /, la regione di rifiuto di livello approssimativamente ˛ è: ( ) 0 jOn 0 j R˛ D p > z1 ˛2 D jOn 0 j > z1 ˛2 p : 0 = n n (g) Analogamente al punto precedente, dato che: On p N.0; 1/I = n (
) On 1 ˛ D P z1 ˛2 p z1 ˛2 D = n n p p o D P 1 z1 ˛2 = n On 1 C z1 ˛2 = n I l’IC asintotico risulta essere: " IC1˛ D
On
On
#
p I p : 1 C z1 ˛2 = n 1 z1 ˛2 = n
(h) g.On / ha varianza asintotica 2 g 0 ./2 (secondo il metodo delta 1.26). Imponiamo che la varianza asintotica sia pari ad 1, quindi g 0 ./ D 1 , ovvero g./ D log . Definiamo: Wn D log On I che è tale che: p L n .Wn log / ! N.0; 1/:
8.3 Soluzioni
117
(i) L’IC asintotico basato su Wn si può costruire osservando che asintoticamente: h p p i 1 ˛ D Wn z1 ˛2 = n log Wn C z1 ˛2 = n I quindi: p p i h z ˛ = n Wn z1 ˛ = n IC1˛ D eWn e 1 2 Ie e 2 I :
Sviluppando al I ordine gli estremi di questo IC si ritrova quello ricavato al punto (g). 8.2 (a) Per il calcolo del MLE e della relativa media e varianza si veda l’Esercizio 4.2. n I nC1 n Var.X.n/ / D 2: .n C 1/2 .n C 2/ EŒX.n/ D
La legge del MLE risulta: 8 ˆ ˆ :
L
p
Quindi X.n/ ! e dato che è costante, X.n/ ! . Consideriamo ora Tn D X.n/ .n C 1/=n. Tn è stimatore non distorto per , infatti: EŒTn D . Allora: MSE.Tn / D Var.Tn / D
n .n C 1/2 2 2 D ! 0: n2 .n C 1/2 .n C 2/ n.n C 2/
Quindi, per il Teorema 8.2, Tn è consistente. (b) Q D X.n/ = è quantità pivotale dato che:
FQ .t/ D P fX.n/ = tg D P fX.n/
8 ˆ ˆ 1:
Calcoliamo quindi un IC che abbia livello di confidenza pari ad 1 ˛.
8 < IC D a X = b D X.n/ I X.n/ I .n/ b a : n n 1˛ Db a :
118
8 Statistica asintotica
La lunghezza dell’IC è proporzionale a 1=a 1=b. Individuiamo quindi la coppia .a; b/ che ci permetta di avere l’IC di lunghezza minima. Risolviamo il seguente problema di ottimo vincolato: 8 < min 1 1 I a;b a b : 1 ˛ D b n an : Deriviamo entrambe le espressioni rispetto ad a: 8 8 @L 1 db 1 1 a n1 anC1 b nC1 1 ˆ ˆ ˆ ˆ D 2 C 2 < t g H) Yi Be.et = /:
Dato che Y n è MLE per et = , per il principio di invarianza il seguente stimatore Vn : Vn WD
t log Y n
è MLE per . Consideriamo lo stimatore Wn , così definito: Wn WD n minfX1 ; : : : ; Xn g D nX.1/ : Calcoliamone la legge.
Si sa che: X.1/ E n , quindi: P fWn > tg D P fnX.1/ > tg D P fX.1/ > t=ng D et = :
8.3 Soluzioni
119
Quindi: Wn E
1 :
Consideriamo lo stimatore Tn , UMVUE per : Tn WD X n : Calcoliamone la legge. Si sa che: X1 E X
1
, quindi:
n 1 : H) Tn Gamma n; Xi Gamma n;
(b) Valutiamo l’asintotica normalità di Vn , Wn e Tn . Per il TCL (1.25) sappiamo che:
L p n Y n et = ! N 0; et = .1 et = / : Per valutare l’asintotica normalità di Vn D logtY , sfruttiamo il metodo delta n
(Teorema 1.26), con g.Y n / D logtY . n
g.x/ D
t log x
g 0 .x/ D
1 t ; .log x/2 x
quindi: p
L
n.Vn / ! N
t =
t =
.1 e
/
t2
! 2t =
4 e t
4 t = t = / : D N 0; 2 e .1 e t 0; e
D
Wn non è asintoticamente normale e non è consistente. p
L
n.Tn / ! N.0; 2 /:
(c) Per valutare lo stimatore migliore, calcoliamo l’ARE fra Vn e Tn : ARE.Tn ; Vn / D
2t 2 :
4 et = .1 et = /
L’ARE dipende da , quindi non possiamo identificare uno stimatore migliore.
120
8 Statistica asintotica
8.4
. / D e .1 C /:
Xi P . /;
Per il principio di invarianza, il MLE di . / è .1 C X n /eX n . Per la LFGN 1.19, vale: q:c:
.1 C X n /eX n ! . /I quindi il MLE è consistente. Consideriamo l’ UMVUE: n 1 nX n 1 C Xn ! e .1 C /: 1 n n 1 ƒ‚ … „ ƒ‚ … „ !.1C /
!.e1 /
Quindi l’UMVUE è consistente. Per il calcolo dell’UMVUE si faccia riferimento all’Esercizio 4.11. 8.5 (a)
Xi x 1 I.0;1/ .x/ ;
> 0:
Nell’Esercizio 4.9 si è calcolato l’UMVUE On e il suo valore atteso e varianza. Riportiamo di seguito i risultati ottenuti: n1 On D P : i log Xi EŒOn D : Var.On / D
2 : n2
Sfruttando il Teorema 8.2, concludiamo che On è consistente. Valutiamo ora l’asintotica normalità. T CL p 1 L 1 ! N 0; 2 : Yi D log Xi E ./ H) n Y n Tramite il metodo delta (Teorema 1.26):
p 1 n L H) n : ! N 0; 2 P log Xi Yn Quindi per il Teorema di Slutsky (1.24): L p n On ! N.0; 2 /: On è asintoticamente efficiente
2 n
D
1 . nI. /
8.3 Soluzioni
121
(b) Consideriamo il test: H0 W D 0 La regione critica è:
vs H1 W > 0 :
0 R˛ D On > 0 C z1˛ p : n
8.6 (a)
f .xI / D 2 x ex= I.0;C1/ .x/: P Y i xi L.I x/ D 2n xi e I.0;C1/ .xi /: P xi l.I x/ / 2n log i : P xi Xn @l.I x/ 2n D C i2 > 0 ” < : @ 2 Quindi On D X2n è MLE per . Per la LFGN (1.19) vale: q:c:
X n ! EŒXi D 2: Quindi On è consistente per . (b) Il TCL (1.25) garantisce che: L p 2 2 2 n On ! N 0; D N 0; : 4 2 Var.Xi / D 2 2 I
(c)
quindi per il principio d’invarianza vale: 2
O n2
X D 2On2 D n : 2
(d) Sfruttiamo il metodo delta (Teorema 1.26), considerando g.x/ D g 0 .x/ D x:
L
p 2 n O n 2 2 ! N 0; 2 2 .2/2 D N.0; 8 4 /: 8.7 (a)
1 EŒXi D 2
Z1 1
.1 C x/x dx D 2
Z1 x 2 dx D 1
Quindi lo stimatore ottenuto col metodo dei momenti è: On D 3X n : q:c: Si osservi che On ! .
2 D : 23 3
1 2 x 2
e
122
8 Statistica asintotica
(b) Var.Xi / D
EŒXi2
1 .EŒXi / D 2
Z1 x 2 dx
2
1
2 1 2 3 2 D D : 9 3 9 9
Allora, il TCL (1.25) garantisce che: p L n.On / ! N.0; 3 2 /: (c) Sfruttando il Teorema di Slutsky (1.24), otteniamo: On q
N.0; 1/: 3On2 n
Quindi s
2 IC.1˛/ D 4On ˙ z1 ˛2
s 3 2 3 2 3 On2 5 4 3 9X n 5 D 3X n ˙ z1 ˛2 : n n
8.8 (a) Per la LFGN (1.19): q:c:
Vn .X / D nX n .1 X n /=.n 1/ ! p.1 p/ D 2 : Quindi Vn è stimatore consistente per 2 . (b) Per il TCL (1.25):
L p n X n p ! N.0; p.1 p//: Per provare l’asintotica normalità di Vn sfruttiamo il Teorema di Slutsky (1.24) con g.x/ D x.1 x/, g 0 .x/ D 1 2x e g 00 .x/ D 2. Se p ¤ 1=2:
L p .1 2p/2 p.1 p/ n X n .1 X n / p.1 p/ ! N 0; : n Se p D 1=2: p 1 L 1 2 n X n .1 X n / ! .1/: 4 4 L 1 4
Quindi Vn !
1 2 4n .1/.
Parte II
Modelli di regressione e analisi della varianza
Capitolo 9
Regressione lineare
9.1
Richiami di teoria
Si affronta lo studio statistico del comportamento di una v.a. Y (detta risposta o variabile dipendente) rispetto ad altre grandezze X1 ; X2 ; : : : ; Xr (dette predittori o variabili indipendenti) che in questa trattazione saranno assunte deterministiche. Assumiamo che possa sussistere la seguente relazione: Y D ˇ0 C ˇ1 X1 C C ˇr Xr C "I
(9.1)
dove " è una v.a. a media nulla e varianza 2 . ˇ0 , ˇ1 ,. . . ,ˇr e 2 sono parametri reali ed incogniti. Supponendo di avere un campione di n osservazioni congiunte Yi e delle relative xij , j D 1; : : : ; r e i D 1; : : : ; n, allora per ogni osservazione vale: Yi D ˇ0 C ˇ1 xi1 C C ˇr xi r C "i
i D 1; : : : ; nI
(9.2)
L’Eq. (9.2) può essere scritta in modo compatto come: Y D Xˇ C "I
(9.3)
dove: Y 2 Rn è il vettore delle risposte aleatorie, y sono le relative realizzazioni y D .y1 ; : : : ; yn /T . X 2 Rn .rC1/ è la matrice disegno, in cui la prima colonna è il vettore unitario .1; : : : ; 1/T e le successive colonne sono i vettori xj D .x1j ; : : : ; xnj /T . Materiale Supplementare Online È disponibile online un supplemento a questo capitolo (https://doi.org/10.1007/978-88-470-3995-7_9), contenente dati, altri approfondimenti ed esercizi.
© Springer-Verlag Italia S.r.l., part of Springer Nature 2020 125 F. Gasperoni, F. Ieva, A.M. Paganoni, Eserciziario di Statistica Inferenziale, UNITEXT 120, https://doi.org/10.1007/978-88-470-3995-7_9
126
9 Regressione lineare
ˇ 2 RrC1 è il vettore dei parametri di regressione incogniti. " 2 Rn è il vettore degli errori, aleatorio e non noto, tale che EŒ" D 0 e Var."/ D 2 In . Il modello descritto in Eq. (9.2) è detto lineare, poiché lineare rispetto ai ˇ.
9.1.1
Stimatori dei parametri incogniti della regressione: metodo dei minimi quadrati
Il metodo dei minimi quadrati (Least Square, LS) è un approccio utilizzato per ottenere lo stimatore dei ˇ. Questo metodo si basa sulla minimizzazione del quadrato dell’ errore, ovvero: ˇO D arg min ˇ
n X
"2i D arg min "T " D arg min.y Xˇ/T .y Xˇ/:
i D1
ˇ
ˇ
(9.4)
Differenziando rispetto a ˇ e ponendo il differenziale a 0, ricaviamo lo stimatore ottimo: ˇO D .XT X/1 XT y:
(9.5)
Le stime ottenute con il metodo dei minimi quadrati sono la proiezione delle y sullo spazio colonna della matrice disegno X, C ol.X/ (vedi Fig. 9.1). Inoltre possiamo definire le seguenti quantità: y, O le risposte stimate: yO D XˇO D X.XT X/1 XT y D H y, dove H è la matrice di proiezione sullo spazio C ol.X/. O ", O il vettore di errore stimato: "O D y yO D y Xˇ. Teorema 9.1 (Gauss-Markov) Dato il modello lineare in Eq. (9.3), gli stimatori ottenuti con il metodo dei minimi quadrati sono non distorti e a varianza minima (BLUE, Best Linear Unbiased Estimator). Fig. 9.1 Rappresentazione grafica del metodo ai minimi quadrati
9.1 Richiami di teoria
127
Teorema 9.2 Dato il modello lineare in Eq. (9.3), si assuma che il rango di X sia p D r C 1, cioè la matrice disegno ha rango pieno, allora: O D ˇ. EŒˇ O D 2 .XT X/1 . Cov.ˇ/ EŒ" O D 0. Cov."/ O D 2 .I H /. T EŒ"O " O D 2 .n p/. Teorema 9.3 Dato il modello lineare in Eq. (9.3), si assuma che il rango di X sia p D r C 1, cioè la matrice disegno ha rango pieno, e " N.0; 2 In /, allora: ˇO D .XT X/1 XT y è stimatore di massima verosimiglianza per ˇ.
O 2 D "O n "O è stimatore di massima verosimiglianza per 2 (spesso si calcola "O T "O sfruttando S 2 D np ). 2 T 1 O O ˇ N.ˇ; .X X/ /. "O N.0; 2 .I H //. O "O ˇ. 2 nO D "O T "O 2 2 .n p/. T
Corollario
9.1.2
1 O .ˇ ˇ/T XT X.ˇO ˇ/ p2 : 2 nO 2 2np : 2 .ˇO ˇ/T XT X.ˇO ˇ/ Fp;np : pS 2
(9.6) (9.7) (9.8)
Inferenza
Considerando valide le ipotesi del Teorema 9.3, possiamo effettuare i seguenti tre tipi di test: Significatività di tutti i predittori. Significatività del singolo predittore. Differenza di significatività fra modelli annidati.
9.1.3
Regioni e intervalli di confidenza per i predittori
Partendo dall’Eq. (9.8) definiamo la regione di confidenza di livello .1 ˛/ per ˇ come: R.1˛/ .ˇ/ D fˇ 2 Rp W .ˇO ˇ/T XT X.ˇO ˇ/ pS 2 Fp;np .1 ˛/gI
128
9 Regressione lineare
dove Fp;np .1 ˛/ indica il quantile di ordine .1 ˛/ di una distribuzione di Fisher di parametri p, n p. La regione di confidenza ha forma ellissoidale e non corrisponde al prodotto cartesiano degli intervalli di confidenza marginali, cioè quelli relativi ai singoli ˇi , i 2 f0; : : : ; rg. Sfruttando i risultati del Teorema 9.3, possiamo scrivere l’intervallo di confidenza di livello .1 ˛/ per il singolo ˇi , i 2 f0; : : : ; rg, come: IC.1˛/ .ˇi / D ŒˇOi ˙ tnp .1 ˛=2/S
q .XT X/1 i i I
dove tnp .1 ˛=2/ è il quantile di livello 1 ˛=2 di una t di student a n p gradi di libertà.
9.1.4
Intervalli di confidenza per la previsione
Nel caso si abbia un nuovo dato x0 , la prima quantità che è di interesse calcolare è la previsione puntuale yO0 , come: yO0 D x0T ˇO C "0 ;
"0 N.0; 2 /
^
O "0 ˇ:
(9.9)
Possiamo calcolare anche la variabilità associata a yO0 : Var.yO0 / D Var.x0T ˇO C "0 / D x0T .XT X/1 x0 2 C 2 :
(9.10)
Nota la varianza, possiamo definire l’intervallo di previsione di livello 1 ˛ per il valore puntuale dato x0 : IP.yO0 I x0 / D yO0 ˙ tnp .1 ˛=2/S
q x0T .XT X/1 x0 C 1:
(9.11)
Possiamo definire l’intervallo di confidenza di livello 1 ˛ per la media dei valori predetti dato x0 : IC.yO0 I x0 / D yO0 ˙ tnp .1 ˛=2/S
q x0T .XT X/1 x0 :
(9.12)
Si osserva immediatamente che l’intervallo di previsione in Eq. (9.11) è più ampio dell’intervallo di confidenza Eq. (9.12).
9.1.5
Bontà del modello (Goodness of Fit, GOF)
Un indice di bontà del modello è il coefficiente R2 , detto anche coefficiente di determinazione, e in caso di regressione lineare multipla R2 aggiustato.
9.1 Richiami di teoria
129
Definizione 9.4 (R2 e R2 aggiustato) Pn .yOi yi /2 SSres 2 D1 I R D 1 PinD1 2 SS t ot i D1 .yi yNi / dove: n X i D1
SSTOT D SSreg C SSres I n n X X .yi y/2 D .yOi y/2 C .yi y/ O 2: i D1
i D1
Si può dimostrare che se la matrice disegno ha una colonna costante allora R2 2 Œ0; 1. R2 può anche essere espresso come SSreg =SS t ot e rappresenta la percentuale di variabilità spiegata dai regressori, quindi più è vicino ad 1, più il modello è esplicativo della variabile risposta. S può definire R2adj , un indice di bontà del modello che tenga conto anche della sua complessità: SSres n 1 R2adj D 1 : SS t ot n r 1 R2adj per definizione è sempre minore o uguale ad R2 . Viene utilizzato per valutare la bontà del modello nel caso di regressione lineare multipla, perché permette di tenere conto della complessità del modello.
9.1.6
Librerie
library( car ) ## Loading required package: carData library( ellipse ) ## ## Attaching package: 'ellipse' ## The following object is masked from 'package:car': ## ## ellipse ## The following object is masked from 'package:graphics': ## ## pairs library( faraway ) ## ## Attaching package: 'faraway' ## The following objects are masked from 'package:car': ## ## logit, vif
130
9 Regressione lineare
library( leaps ) library( qpcR ) ## Loading required package: MASS ## Loading required package: minpack.lm ## Loading required package: rgl ## Loading required package: robustbase ## ## Attaching package: 'robustbase' ## The following object is masked from 'package:faraway': ## ## epilepsy ## Loading required package: Matrix
9.2
Esercizi
Esercizio 9.1 Calcolare manualmente la stima dei ˇ nei seguenti casi: (a) Non si considerino predittori. (b) Si consideri un solo predittore. Esercizio 9.2 Ricavare il test che valuta la significatività di tutti i predittori, sotto le ipotesi del Teorema 9.3. Esercizio 9.3 Ricavare il test che valuta la significatività del singolo predittore, sotto le ipotesi del Teorema 9.3. Esercizio 9.4 Descrivere i principali passi dello studio di un modello di regressione, sottolineando i comandi R da utilizzare. Esercizio 9.5 Si consideri il dataset savings presente nel pacchetto faraway. Questo dataset contiene informazioni inerenti a 50 paesi degli Stati Uniti. Le covariate sono:
sr è il risparmio personale diviso per il reddito disponibile. pop15 è la percentuale di popolazione che ha meno di 15 anni. pop75 è la percentuale di popolazione che ha più di 75 anni. dpi è il reddito pro-capite in dollari, al netto delle tasse. ddpi è potere d’acquisto - indice economico aggregato, espresso in percentuale.
Questi dati sono mediati sull’arco di tempo 1960-1970, per rimuovere eventuali ciclicità o fluttuazioni sul breve periodo. Si risponda alle seguenti domande: (a) Si carichi il dataset e si faccia un’esplorazione grafica. (b) Si proponga un modello lineare completo per spiegare il risparmio personale e si commentino tutte le voci del modello.
9.2 Esercizi
131
(c) Si svolga esplicitamente il test F sulla significatività del modello. (d) Si esegua esplicitamente il test sulla significatività di un coefficiente di regressione relativo a pop15. (e) Si calcoli l’intervallo di confidenza al 95% per il coefficiente di regressione relativo a pop75. (f) Si calcoli l’intervallo di confidenza al 95% per il coefficiente di regressione relativo a ddpi. (g) Rappresentare la regione di confidenza al 95% per i coefficienti di regressione associati a pop15 e pop75, aggiungendo il punto .0; 0/. (h) Identificare eventuali punti influenti nel dataset tramite: matrice di proiezione H, residui standardizzati, residui studentizzati e distanza di Cook. (i) Confrontare i punti influenti individuati con le tecniche proposte sopra, sfruttando i comandi influencePlot e influence.measures. (j) Si valuti l’impatto dei diversi punti influenti sul modello. (k) Si valuti l’omoschedasticità dei residui. (l) Si valuti la normalità dei residui. Esercizio 9.6 Si carichi il dataset data_es2.RData, presente nel materiale supplementare online, relativo ad un campione di rocce. Il dataset contiene le seguenti informazioni: altezza: altezza della roccia in metri. ferro: percentuale di ferro in un millimetro cubo di roccia. calcio: percentuale di calcio in un millimetro cubo di roccia. Gli studiosi sono interessati a valutare se la percentuale di questi due elementi possa essere predittiva dell’altezza della roccia. Si risponda alle seguenti domande: (a) (b) (c) (d)
Si carichi il dataset e si faccia un’esplorazione grafica delle variabili. Si proponga un modello per rispondere al quesito degli studiosi. Si verifichino le ipotesi del modello. Si valuti un eventuale trasformazione della variabile risposta e si rieseguano tutte le analisi.
Esercizio 9.7 Si consideri il dataset state, presente in R, in cui sono raccolti dati relativi a 50 stati USA Le variabili sono stimate a luglio 1975:
Income: reddito pro capite (1974). Illiteracy: analfabetismo (1970, % di popolazione). Life Exp: life expectancy in anni (1969-71). Murder: tasso di omicidi per 100,000 abitanti (1976). HS Grad: percentuale di diplomati alla scuola superiore (1970). Frost: numero medio di giorni con temperatura minima pari a 32 gradi (1931-1960). in capital or large city. Area: area (in miglia quadrate).
132
9 Regressione lineare
Si consideri l’aspettativa di vita life expectancy come variabile risposta e si risponda alle seguenti domande: (a) (b) (c) (d)
Analizzare i dati con metodi grafici. Si valuti e si commenti un modello lineare completo. Si valuti la validità delle ipotesi di modello. Si valuti un’opportuna riduzione di modello.
Esercizio 9.8 Si vuole studiare una possibile relazione fra l’altezza delle piante di pomodoro e il peso medio in grammi dei pomodori raccolti. I dati a disposizione sono i seguenti: peso = c( 60, 65, 72, 74, 77, 81, 85, 90 ) altezza = c( 160, 162, 180, 175, 186, 172, 177, 184 )
Si risponda alle seguenti domande: (a) Si rappresentino i dati. (b) Si valuti un modello lineare semplice che preveda come variabile risposta il peso medio dei pomodori. (c) Si calcoli l’intervallo di confidenza per la previsione della media delle risposte, considerando 15 elementi che abbiano altezza compresa nel range dei valori del dataset. (d) Si calcoli l’intervallo di previsione delle risposte, considerando gli elementi del punto precedente. (e) Si confrontino gli intervalli ottenuti ai punti (c) e (d).
9.3
Soluzioni
9.1 (a) Il modello che vogliamo considerare in questo caso è il seguente: y D ˇ0 C "I
(9.13)
in cui la matrice disegno è costituita dal solo vettore unitario (X D I). 1 ˇO0 D .XT X/1 XT y D I T y D n
Pn i
n
yi
D yI N
quindi, in assenza di informazioni, la miglior stima che possiamo fornire è la media campionaria. (b) Il modello che vogliamo considerare in questo caso è il seguente: y D ˇ0 C ˇ1 x C "I
(9.14)
9.3 Soluzioni
133
La matrice disegno è: 2
3 x1 x2 7 7 :: 7 :5
1 61 6 X D 6: 4 ::
(9.15)
1 xn Calcoliamo quindi: " X X D Pn
i D1
1
.X X/ T
# Pn xi i D1 Pn 2 : i D1 xi " Pn
n
T
xi
DP n
(9.16)
2 i D1 xi
1
.
2 i D1 xi
Pn
2 i D1 xi /
n
n
xN
# xN : 1
(9.17)
Risolviamo l’Eq. (9.5). P P Sxy i xi yi i xi yi =n O ˇ1 D P D I (9.18) Pn 2/ . x n Sxx 2 i D1 i i D1 xi n 1 O (9.19) ˇ0 D P P . niD1 xi2 / n 2 i D1 xi n " ! P # P 2 X X . xi X 2 i xi / xi xi yN xN Xi yi D yN C n n i i i !# " X 1 xi yi D xi yi D yS N xx xN Sxx n i 1 N xy D yS N xx xS Sxx D yN xN ˇO1 : D
(9.20)
9.2 Il test che vogliamo effettuare è il seguente: H0 W ˇ0 D ˇ1 D D ˇp D 0 vs
H1 W 9i 2 f1; : : : ; pgjˇi ¤ 0:
La statistica test per rispondere a questo test è basata sulla variabilità totale SSTOT e la variabilità residua SSres : SSTOT D
n X
.yi y/2 I
i D1
SSres D
n X i D1
.yOi yi /2 :
134
9 Regressione lineare
La statistica test è la seguente: F D
SSTOT SSres =.p 1/ I SSres =.n p/
ed è distribuita come una Fisher di parametri p 1 e n p. Se il p-value associato ad F è inferiore al 5%, rifiutiamo l’ipotesi nulla, ovvero esiste almeno un coefficiente di regressione diverso da zero. 9.3 Il test che vogliamo effettuare è il seguente: H0 W ˇi D 0 vs
H1 W ˇi ¤ 0:
Per effettuare il test, costruiamo la seguente statistica test T : T D
jˇOi 0j I se.ˇOi /
dove se.ˇOi / è lo standard error della stima del coefficiente: q se.ˇOi / D O 2 .X T X/1 ii : Considerando le ipotesi del Teorema 9.3, si può mostrare che T t.n p/. Calcoliamo quindi il p-value del test bilatero e se risulta essere minore di 5% possiamo concludere che il coefficiente di regressione è diverso da zero. 9.4 I passi da eseguire sono: (a) Visualizzazione del dataset tramite comando pairs. Per analizzare questo grafico correttamente, bisogna focalizzarsi su tre elementi: osservare l’andamento della variabile risposta rispetto alle altre variabili del dataset e stabilire se questi andamenti ci fanno propendere per un modello di regressione lineare; osservare la relazione fra le variabili del dataset che vorremmo usare come regressori, se la correlazione è elevata probabilmente, una delle due risulterà ridondante e superflua all’interno del modello. La correlazione può essere misurata con il comando cor. Infine, notare l’eventuale presenza di punti influenti nel dataset. Se la variabile risposta è continua e si può supporre un andamento lineare fra questa e i predittori, allora possiamo procedere con un modello di regressione lineare. (b) Valutazione di un modello di regressione lineare tramite comando mod = lm(y x1 C x2 C C xr ). I parametri da analizzare sono: la bontà del mo2 dello tramite R2 ed Radj e la significatività dei regressori tramite test F e test T sui singoli regressori. Questi elementi possono essere ottenuti automaticamente tramite il comando summary(mod).
9.3 Soluzioni
135
(c) Verifica delle ipotesi del modello. Le ipotesi da verificare sono: omoschedasticità dei residui e normalità dei residui. L’omoschedasticità può essere valutata graficamente tramite scatterplot dei residui, che vede i residui in ordinata e le y, O le risposte stimate dal modello in ascissa, comando plot(mod$fit, mod$res). Se i punti sono sparsi intorno allo zero, concludiamo che è valida l’ipotesi di omoschedasticità, se invece osserviamo un andamento particolare a tromba l’ipotesi è violata. L’ipotesi di normalità può essere verificata sia graficamente (tramite qqplot grazie ai comandi qqnorm(mod$res) e qqline(g$res)) sia matematicamente tramite il test di Shapiro-Wilks, shapiro.test(mod$res). Questi sono i passi principali per la costruzione e l’analisi di un modello di regressione. Tuttavia, possiamo riscontrare alcune criticità: Presenza di punti influenti. Violazione dell’ipotesi di normalità. Regressori a cui è associato un parametro ˇ per cui non si ha evidenza statistica che sia diverso da 0. Queste problematiche sono riscontrate tramite: Analisi della matrice di proiezione H , residui standardizzati o distanza di Cook. Shapiro test e qqplot. Analisi dei p-value dei t-test associato al regressore ˇi . Infine, possono essere risolte: Eliminando dal dataset quei punti definiti influenti. Trasformando la variabile risposta (ad esempio tramite Box-Cox). Riducendo il modello. Ogni volta che una di queste tre operazioni è effettuata, è molto importante riconsiderare la validità delle ipotesi di modello. 9.5 (a) Carichiamo il dataset. data( savings ) # Dimensioni dim( savings ) ## [1] 50 5 # Overview delle prime righe head( savings ) ## sr pop15 pop75 dpi ddpi ## Australia 11.43 29.35 2.87 2329.68 2.87 ## Austria 12.07 23.32 4.41 1507.99 3.93
136 ## ## ## ##
9 Regressione lineare Belgium Bolivia Brazil Canada
13.17 5.75 12.88 8.79
23.80 41.89 42.19 31.72
4.43 2108.47 3.82 1.67 189.13 0.22 0.83 728.47 4.56 2.85 2982.88 2.43
In Fig. 9.2, visualizziamo il dataset tramite il comando pairs, che presenta una matrice di r+1 x r+1 plot, dove r rappresenta il numero di regressori (4 in questo caso). pairs(savings[ , c( 'sr', 'pop15', 'pop75', 'dpi', 'ddpi' )])
Focalizziamoci sulla prima riga dell’output di pairs. Nell’asse delle y di tutti e 4 i grafici, sono rappresentati i valori di sr, che è la variabile risposta, contro pop15, pop75, dpi e ddpi, che sono le variabili predittive. È possibile notare un andamento lineare di sr rispetto a pop75 e ddpi, mentre non è presente un evidente trend rispetto a pop15 e dpi. Osservando anche gli altri plot, possiamo dire che pop15 e pop75 hanno una forte correlazione negativa; pop75 e dpi presentano una relazione lineare positiva, mentre pop15 e dpi pare presentino una relazione quadratica. Infine non paiono evidenti relazioni fra la variabile ddpi e le altre variabili considerate. È importante notare che ci sono punti influenti, possibili outlier (si veda l’ultima colonna di plot relativa a ddpi).
Fig. 9.2 Visualizzazione dei dati
9.3 Soluzioni
137
(b) Valutiamo un modello lineare completo. Per fare ciò sfruttiamo il comando lm e poniamo come variabile risposta sr. g = lm( sr ~ pop15 + pop75 + dpi + ddpi, data = savings ) #g = lm( sr ~ ., savings ) summary( g ) ## ## Call: ##lm(formula = sr ~ pop15 + pop75 + dpi + ddpi, data = savings) ## ## Residuals: ## Min 1Q Median 3Q Max ## -8.2422 -2.6857 -0.2488 2.4280 9.7509 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 28.5660865 7.3545161 3.884 0.000334 *** ## pop15 -0.4611931 0.1446422 -3.189 0.002603 ** ## pop75 -1.6914977 1.0835989 -1.561 0.125530 ## dpi -0.0003369 0.0009311 -0.362 0.719173 ## ddpi 0.4096949 0.1961971 2.088 0.042471 * ## --##Signif. codes:0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' '1 ## ## Residual standard error: 3.803 on 45 degrees of freedom ## Multiple R-squared: 0.3385, Adjusted R-squared: 0.2797 ## F-statistic: 5.756 on 4 and 45 DF, p-value: 0.0007904 gs = summary( g ) #names( g )
Dal modello completo evinciamo che ˇ1 ¤ 0 e ˇ4 ¤ 0, quindi pop15 e ddpi risultano predittivi rispetto ad sr. Un’indicazione della bontà del modello (GOF) è data dall’indice R2 (33:85%) 2 e Radj (27:97%). I valori ottenuti in questo modello sono bassi, probabilmente dovremmo valutare una riduzione di modello. Valutiamo ora i coefficienti di regressione stimati, sia dall’output del modello sia calcolandoli esplicitamente. X = model.matrix(g) round( g$coefficients, 3 ) #beta_hat ## (Intercept) pop15 pop75 dpi ddpi ## 28.566 -0.461 -1.691 0.000 0.410 stopifnot(all.equal(solve(t(X)%*%X)%*%t(X)%*% savings$sr, as.matrix( g$coefficients ) ) )
138
9 Regressione lineare
Abbiamo sfruttato il comando stopifnot per verificare che l’esito del calcolo esplicito dei ˇO sia identico (all.equal) all’output del modello lm. Valutiamo le y, O sia manualmente che dall’output del modello. y_hat_man = X %*% g$coefficients stopifnot(all.equal(y_hat_man, as.matrix(g$fitted.values)))
Si possono ricavare i residui del modello tramite g$residuals. Ritroviamo p=r+1, con il comando g$rank. (c) La statistica F e il relativo test sono rappresentati nell’output di modello. Il test eseguito è il seguente: H0 W ˇi D 0 8i
vs
H1 W 9ij
ˇi ¤ 0:
Calcoliamo il test F manualmente: # SStot = Sum ( yi-ybar )^2 SS_tot = sum( ( savings$sr-mean( savings$sr ) )^2 ) # SSres = Sum ( residuals^2 ) SS_res = sum( g$res^2 ) p = g$rank # p = 5 n = dim(savings)[1] # n = 50 f_test = ( ( SS_tot - SS_res )/(p-1) )/( SS_res/(n-p) ) 1 - pf( f_test, p - 1, n - p ) ## [1] 0.0007903779
Osserviamo che il p-value è pari a 0.0007904 (stesso valore che leggiamo nell’ultima riga di summary(g)). Concludiamo quindi che per i valori di confidenza standard rifiutiamo l’ipotesi nulla, quindi esiste almeno un coefficiente di regressione che è non nullo. (d) Valutiamo manualmente la significatività di ˇ1 (il parametro associato a pop_15), ovvero eseguiamo: H0 W ˇ1 D 0
vs
Esistono vari modi per eseguire questo test: t-test X = model.matrix( g ) sigma2 = (summary( g )$sigma)^2
H1 W ˇ1 ¤ 0:
9.3 Soluzioni
139
#a mano sigma2 = sum( ( savings$sr - g$fitted.values )^2 ) / ( n -p ) se_beta_1 = summary( g )$coef[ 2, 2 ] #a mano se_beta_1 = sqrt( sigma2 * diag( solve( t( X ) %*% X ) )[2] ) T.0 = abs( ( g$coefficients[ 2 ] - 0 )/ se_beta_1 ) 2*( 1-pt( T.0, n-p ) ) ## pop15 ## 0.002603019
F-test su modelli annidati Per effettuare questo test, valutiamo il modello annidato che comprende tutte le variabili considerate nel modello g a meno della variabile di cui stiamo valutando l’effetto. Poi effettuiamo un test F sui residui dei due modelli. La statistica test che vogliamo valutare è la seguente: F0 D
S Sres .complete_model/S Sres .nested_model/ df .complete_model/df .nested_model/ S Sres .complete_model/ df .complete_model/
:
F0 F .df .complete_model/ df .nested_model/; df .complete_model//I dove df sono i gradi di libertà (degrees of freedom). g2 = lm( sr ~ pop75 + dpi + ddpi, data = savings ) summary( g2 ) ## ## Call: ## lm(formula = sr ~ pop75 + dpi + ddpi, data = savings) ## ## Residuals: ## Min 1Q Median 3Q Max ## -8.0577 -3.2144 0.1687 2.4260 10.0763 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 5.4874944 1.4276619 3.844 0.00037 *** ## pop75 0.9528574 0.7637455 1.248 0.21849 ## dpi 0.0001972 0.0010030 0.197 0.84499 ## ddpi 0.4737951 0.2137272 2.217 0.03162 * ## --##Signif. codes:0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' '1 ##
140
9 Regressione lineare
## Residual standard error: 4.164 on 46 degrees of freedom ## Multiple R-squared: 0.189, Adjusted R-squared: 0.1361 ## F-statistic: 3.573 on 3 and 46 DF, p-value: 0.02093 SS_res_2 = sum( g2$residuals^2 ) f_test_2 = ( ( SS_res_2 - SS_res ) / 1 )/( SS_res / (n-p) ) 1 - pf( f_test_2, 1, n-p ) ## [1] 0.002603019
NB Non è il test F che è riportato nell’ultima riga del summary(g). ANOVA fra i due modelli annidati anova( g2, g ) ## Analysis of Variance Table ## ## Model 1: sr ~ pop75 + dpi + ddpi ## Model 2: sr ~ pop15 + pop75 + dpi + ddpi ## Res.Df RSS Df Sum of Sq F Pr(>F) ## 1 46 797.72 ## 2 45 650.71 1 147.01 10.167 0.002603 ** ## --##Signif. codes:0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' '1
Osserviamo che i risultati ottenuti in tutti e tre i modi ci portano ad affermare che ˇ1 è significativamente diverso da 0. (e) Calcoliamo l’intervallo di confidenza al 95% per il coefficiente di regressione relativo a pop75. L’intervallo che vogliamo calcolare è: IC.1˛/ .ˇ2 / D ŒˇO2 ˙ t1˛=2 .n p/ se.ˇO2 / ; dove ˛ D 5% e df D n p D 45. alpha = 0.05 t_alpha2 = qt( 1-alpha/2, n-p ) beta_hat_pop75 = g$coefficients[3] se_beta_hat_pop75 = summary( g )[[4]][3,2] IC_pop75 = c( beta_hat_pop75 - t_alpha2 * se_beta_hat_pop75, beta_hat_pop75 + t_alpha2 * se_beta_hat_pop75 ) IC_pop75 ## pop75 pop75 ## -3.8739780 0.4909826
9.3 Soluzioni
141
Osserviamo che IC.1˛/ .ˇ2 / include lo 0, quindi non abbiamo evidenza per rifiutare H0 W ˇ2 D 0, con un livello di confidenza pari al 5%. Questo risultato è in linea con quanto ottenuto nell’output del modello (p-value pari a 12:5%). (f) Calcoliamo l’intervallo di confidenza al 95% per il parametro di regressione associato a ddpi. alpha = 0.05 t_alpha2 = qt( 1-alpha/2, n-p ) beta_hat_ddpi = g$coefficients[5] se_beta_hat_ddpi = summary( g )[[4]][5,2] IC_ddpi = c( beta_hat_ddpi - t_alpha2 * se_beta_hat_ddpi, beta_hat_ddpi + t_alpha2 * se_beta_hat_ddpi ) IC_ddpi ## ddpi ddpi ## 0.01453363 0.80485623
In questo caso osserviamo che IC.1˛/ .ˇ4 / non include lo 0, abbiamo evidenza per rifiutare H0 W ˇ4 D 0, al 5% di confidenza. Comunque, il limite inferiore dell’intervallo IC.1˛/ .ˇ4 / è molto vicino a 0. Possiamo vedere infatti dall’output che il p-value è pari a 4:2%, di poco inferiore a 5%, che conferma quanto scritto sopra. Inoltre, l’intervallo di confidenza è abbastanza ampio, visto che il limite superiore è 80 volte il limite inferiore. Questo testimonia un alto livello di variabilità relativo all’effetto di ddpi sulla variabile risposta. (g) Costruiamo in Fig. 9.3 la regione di confidenza al 95% per i coefficienti di regressione associati a pop15 e pop75. #help( ellipse ) plot( ellipse( g, c( 2, 3 ) ), type = "l", xlim = c( -1, 0 ) ) #vettore che stiamo testando nell'hp nulla points( 0, 0 ) points( g$coef[ 2 ] , g$coef[ 3 ] , pch = 18, col = 1 )
Le coordinate del centro dell’ellisse, rappresentato da un quadrato nero, sono (ˇO1 , ˇO2 ). Il cerchio dal bordo nero rappresenta l’ipotesi nulla testata, ovvero (0,0), e risulta esterno alla regione di confidenza. Siamo interessati a valutare questo test: H0 W .ˇ1 ; ˇ2 / D .0; 0/
vs
H1 W .ˇ1 ; ˇ2 / ¤ .0; 0/:
Dato che il punto .0; 0/ è esterno alla regione di confidenza, rifiutiamo H0 con un livello pari al 5%. Questo significa che almeno uno dei due coefficienti di regressione è diverso da 0.
142
9 Regressione lineare
Fig. 9.3 Regione di confidenza al 95% per i coefficienti di regressione associati a pop15 e pop75. Il rombo nero rappresenta il centro dell’ellisse, mentre il cerchio dal bordo nero l’ipotesi nulla che si vuole testare
Osservazione È importante sottolineare che la regione di confidenza è diversa dal prodotto cartesiano dei due intervalli di confidenza singoli: IC.1˛/ .ˇ1 / X IC.1˛/ .ˇ2 /. Rappresentiamo in Fig. 9.4 il prodotto cartesiano degli intervalli di confidenza marginali. beta_hat_pop15 = g$coefficients[2] se_beta_hat_pop15 = summary( g )[[4]][2,2] IC_pop15 = c( beta_hat_pop15 - t_alpha2 * se_beta_hat_pop15, beta_hat_pop15 + t_alpha2 * se_beta_hat_pop15 ) IC_pop15 ## pop15 pop15 ## -0.7525175 -0.1698688 plot( ellipse( g, c( 2, 3 ) ), type = "l", xlim = c( -1, 0 ) ) points( 0, 0 ) points( g$coef[ 2 ] , g$coef[ 3 ] , pch = 18 ) #new part abline( v = c( IC_pop15[1], IC_pop15[2] ), lty = 2 ) abline( h = c( IC_pop75[1], IC_pop75[2] ), lty = 2 )
9.3 Soluzioni
143
Fig. 9.4 Regione di confidenza al 95% per i coefficienti di regressione associati a pop15 e pop75. Sono evidenziati con linee tratteggiate gli intervalli di confidenza al 95% dei singoli predittori
Osservazione Lo 0 è incluso nell’intervallo IC.1˛/ .ˇ2 / e non è incluso nell’intervallo IC.1˛/ .ˇ1 /, come ci si poteva aspettare dal punto precedente.
Osservazione Può accadere di accettare l’ipotesi nulla che si vuole testare, analizzando il prodotto cartesiano degli IC marginali e di rifiutare, considerando la regione di confidenza congiunta (caso rappresentato dal triangolo grigio in Fig. 9.5). Può accadere di rifiutare l’ipotesi nulla che si vuole testare, analizzando il prodotto cartesiano degli IC marginali e di accettare, considerando la regione di confidenza congiunta (caso rappresentato dal cerchio grigio in Fig. 9.5). In queste situazioni ambigue, dobbiamo sempre fare riferimento alla regione di confidenza congiunta, perché tiene conto della possibile dipendenza presente tra gli stimatori dei due coefficienti testati. plot( ellipse( g, c( 2, 3 ) ), type = "l", xlim = c( -1, 0 ) ) points( 0, 0 ) points( g$coef[ 2 ] , g$coef[ 3 ] , pch = 18 ) abline( v = c( IC_pop15[1], IC_pop15[2] ), lty = 2 ) abline( h = c( IC_pop75[1], IC_pop75[2] ), lty = 2 )
144
9 Regressione lineare
Fig. 9.5 Regione di confidenza al 95% per i coefficienti di regressione associati a pop15 e pop75. Sono evidenziati con linee tratteggiate gli intervalli di confidenza al 95% dei singoli predittori. Il cerchio e il triangolo grigi rappresentano due possibili ipotesi nulle che si vogliono testare
#new part points( -0.22, 0.7, col = "gray60", pch = 16, lwd = 2 ) points( -0.71, 0, col = "gray60", pch = 17, lwd = 2 ) cor( savings$pop15, savings$pop75 ) ## [1] -0.9084787
In questo caso, l’ellisse ha elevata eccentricità, il che ci fa pensare ad una forte correlazione fra le due variabili pop15 e pop75. Questa intuizione è confermata dal coefficiente di correlazione molto vicino a 1.
Osservazione Questa intuizione era stata riportata anche nel commento al grafico pairs.
(h) Valutiamo la presenza di eventuali punti influenti nel dataset tramite le seguenti tecniche:
Matrice H di proiezioni (punti leva). Residui Standardizzati. Residui Studentizzati. Distanza di Cook. I punti leva sono definiti come gli elementi della diagonale della matrice di proiezione H D X.X T X/1 X T .
9.3 Soluzioni
145
X = model.matrix( g ) lev = hat( X ) round( lev, 3 ) # analogamente lev = hatvalues( g ) #a mano H = X %*% solve( t( X ) %*% X ) %*% t( X ) lev = diag( H ) #traccia sum(lev) ## [1] 5
Osservazione P La traccia della matrice H (t r.H / D i hi i ) è uguale al rango della matrice X, che è p D r C 1, assumendo che le covariate siano scorrelate fra loro e p < n. p è la dimensione dello spazio colonna di X (col.X/). Secondo l’interpretazione geometrica della stima ai minimi quadrati dei coefficienti, H è la matrice di proiezione su col.X/. Infatti, le stime yO sono ottenute come H y .
Regola del pollice: Un dato viene definito punto leva se: hi i > 2
p : n
plot( g$fitted.values, lev, xlab = 'Valori fittati', ylab = "Leverages", pch = 16, col = 'black' ) abline( h = 2 * p/n, lty = 2, col = 1 ) watchout_points_lev = lev[ which( lev > 2 * p/n ) ] watchout_ids_lev = seq_along( lev )[ which( lev > 2 * p/n ) ] points( g$fitted.values[ watchout_ids_lev ], watchout_points_lev, col = 'gray60', pch = 16 )
146
9 Regressione lineare
Fig. 9.6 Identificazione dei punti leva in grigio. La linea tratteggiata è y = 2p/n
sum( lev ) ## [1] 5
# verifica: sum_i hat( x )_i = r + 1
lev [ lev > 2 * 5 / 50 ] ## Ireland Japan United States ## 0.2122363 0.2233099 0.3336880 sum( lev [ lev > 2 * 5 / 50 ] ) ## [1] 1.300691
Libya 0.5314568
In Fig. 9.6 identifichiamo quindi come punti leva l’Irlanda, il Giappone, gli USA e la Libia. Visualizziamo tramite pairs in Fig. 9.7 i punti leva e notiamo che effettivamente questi punti risultano alle estremità dei plot. colors = rep( 'black', nrow( savings ) ) colors[ watchout_ids_lev ] = rep('gray60', length( watchout_ids_lev ) ) pairs( savings[ , c( 'sr', 'pop15', 'pop75', 'dpi', 'ddpi' ) ], pch = 16, col = colors, cex = 1 + 0.5 * as.numeric( colors != 'black' ) )
Valutiamo ora i punti influenti tramite i residui standardizzati. Definiamo i residui standardizzati come: rist d D
yi yOi : S
9.3 Soluzioni
147
Fig. 9.7 Visualizzazione dei dati in analisi. In grigio chiaro sono rappresentati i punti influenti
Regola del pollice Definiamo punti influenti, i dati per cui vale la seguente disuguaglianza: jrist d j > 2:
Rappresentiamo i residui standardizzati (in ordinata) e le yO (in ascissa) ed evidenziamo i punti influenti in Fig. 9.8 sulla base dei residui standardizzati e dei leverages. gs = summary(g) res_std = g$res/gs$sigma watchout_ids_rstd = which( abs( res_std ) > 2 ) watchout_rstd = res_std[ watchout_ids_rstd ] watchout_rstd ## Chile Zambia ## -2.167486 2.564229 # Residui standardizzati (non studentizzati) par( xpd = T, mar = par()$mar + c(0,0,1,0)) plot( g$fitted.values, res_std, xlab = 'Valori fittati', ylab = "Residui standardizzati")
148
9 Regressione lineare
Fig. 9.8 Rappresentazione dei residui standardizzati. I cerchi grigi rappresentano i punti influenti identificati secondo il criterio dei residui standardizzati. I triangoli grigi rappresentano i punti influenti identificati secondo i leverages
segments( 5, -2, 16, -2, lty = 2, col = 1 ) segments( 5, 2, 16, 2, lty = 2, col = 1 ) points( g$fitted.values[watchout_ids_rstd], res_std[watchout_ids_rstd], col = 'grey60', pch = 16 ) points( g$fitted.values[watchout_ids_lev], res_std[watchout_ids_lev], col = 'gray60', pch = 17 ) legend("top", inset=c(0,-0.2), horiz = T, col = rep('gray70',3), c('Res. Standardizzati', 'Leverages'), pch = c( 16, 17 ), bty = 'n' ) #sort( g$res/gs$sigma ) sort( g$res/gs$sigma ) [ c( 1, 50 ) ] ## Chile Zambia ## -2.167486 2.564229 #countries = row.names( savings ) #identify( 1:50, g$res/gs$sigma, countries )
Il comando identify permette di identificare i punti del grafico, infatti cliccando due volte su un determinato punto compare il label ad esso annesso. Rappresentando i residui nell’asse delle ordinate semplicemente nell’ordine in cui compaiono nel dataset, ci permette di dire se c’è un particolare andamento rispetto all’ordine di campionamento. Questo grafico è rappresentato in Fig. 9.9.
9.3 Soluzioni
149
Fig. 9.9 Residui Standardizzati in ordine di comparsa nel dataset
plot( g$res/gs$sigma, xlab = "Ordine di comparsa", ylab = "Residui standardizzati" ) summary( g$res/gs$sigma ) ## Min. 1st Qu. Median ## -2.16749 -0.70628 -0.06543
Mean 0.00000
3rd Qu. 0.63850
Max. 2.56423
#countries = row.names( savings ) #identify( 1:50, g$res/gs$sigma, countries )
Non identifichiamo nessun andamento particolare rispetto all’ordine di campionamento. Definiamo i residui studentizzati ri come: ri D
"Oi p : S .1 hi i /
Si può dimostrare che ri sono distribuiti come t.n p/. Dato che è nota la distribuzione dei ri , possiamo calcolare il p-value per testare se l’ iesimo dato è un punto influente. In realtà vorremmo testare contemporaneamente se ci sono più punti influenti, di conseguenza è importante aggiustare il livello di significatività dei test. Esistono vari metodi di correzione del livello di significatività in caso di test multipli, tra cui ricordiamo la correzione di Bonferroni. gs = summary( g ) gs$sigma ## [1] 3.802669
150
9 Regressione lineare
#a mano stud = g$residuals / ( gs$sigma * sqrt( 1 - lev ) ) #automatically stud = rstandard( g ) watchout_ids_stud = which( abs( stud ) > 2 ) watchout_stud = stud[ watchout_ids_stud ] watchout_stud ## Chile Zambia ## -2.209074 2.650915 par( xpd = T, mar = par()$mar + c(0,0,1,0)) plot( g$fitted.values, stud, ylab = "Residui studentizzati", xlab = "Valori fittati", pch = 16 ) points( g$fitted.values[watchout_ids_stud], stud[watchout_ids_stud], col = 'gray70', pch = 16 ) points( g$fitted.values[watchout_ids_rstd], stud[watchout_ids_rstd], col = 'gray70', pch = 17 ) points( g$fitted.values[watchout_ids_lev], stud[watchout_ids_lev], col = 'gray70', pch = 18 ) segments( 5, -2, 16, -2, lty = 2, col = 1 ) segments( 5, 2, 16, 2, lty = 2, col = 1 ) legend( "top", inset=c(0,-0.2), horiz = T, xpd = T, col = rep('gray70',3), c('Res. Studentizzati', 'Res. Standardizzati', 'Leverages'), pch = c( 16, 17,18 ), bty = 'n' )
In Fig. 9.10, vengono individuati Chile e Zambia come punti influenti. Nel grafico non individuiamo punti rosa (punti influenti secondo i residui studentizzati), perché i residui studentizzati e standardizzati identificano gli stessi punti influenti. La distanza di Cook è così definita: Ci D
ri2 h hi i i I p 1 hi i
dove ri sono i residui studentizzati. Osserviamo che questa misura è una combinazione del concetto di punto leva (tramite gli hi i ) e il concetto di punto influente dato dai residui (tramite ri ).
9.3 Soluzioni
151
Fig. 9.10 Rappresentazione dei residui studentizzati. Sono evidenziati quei dati identificati come punti influenti sulla base dei leverages (rombi grigi), residui standardizzati (quadrati grigi) e dei residui studentizzati (cerchi grigi)
Regola del pollice Un punto è definito influente, se vale la seguente disuguaglianza: Ci >
4 : np
Rappresentiamo in Fig. 9.11 la distanza di Cook per ciascun punto ed evidenziamo in grigio chiaro i punti definiti influenti (cioè che superano la soglia y D 4=.n p/). Cdist = cooks.distance( g ) watchout_ids_Cdist = which( Cdist > 4/(n-p) ) watchout_Cdist = Cdist[ watchout_ids_Cdist ] watchout_Cdist ## Japan Zambia Libya ## 0.14281625 0.09663275 0.26807042 plot( g$fitted.values, Cdist, pch=16, xlab='Valori fittati', ylab = 'Distanza di Cook' ) points( g$fitted.values[ watchout_ids_Cdist ], Cdist[ watchout_ids_Cdist ], col = 'gray70', pch = 16 ) abline( h = 4/(n-p), lty = 2, col = 1 )
152
9 Regressione lineare
Fig. 9.11 Rappresentazione della distanza di Cook per ciascuna unità statistica. La linea tratteggiata è y = 4/(n-p). I punti grigi sono punti influenti secondo la distanza di Cook
In Fig. 9.11, identifichiamo come punti influenti secondo la distanza di Cook: Giappone, Zambia e Libia. (i) Un modo per valutare in maniera diretta ed efficace punti influenti nel dataset è dato dal comando influence.Plot. Il grafico raffigura i residui studentizzati in ordinata, i leverages (hi i ) in ascissa e ogni punto del grafico è raffigurato come un cerchio, il cui raggio è proporzionale alla distanza di Cook. influencePlot( g, id=list(method="identify"))
In Fig. 9.12 viene rappresentato l’influence plot del dataset in esame e vengono evidenziati Zambia, Giappone, Usa, Libia e Chile come punti influenti.
Fig. 9.12 Influence Plot
9.3 Soluzioni
153
Un’altra tecnica per avere un’idea immediata dei punti influenti presenti nel grafico consiste nell’applicazione del comando influential.measures, che rappresenta sotto forma di matrice diversi metodi di diagnostica di punti influenti (quali hi i e distanza di Cook). I DFBETAs (prime r colonne della matrice) rappresentano l’impatto della singola unità statistica nella stima dei ˇ. In particolare il DFBETA associato al regressore j è: ˇOj ˇOj.i / q I 1 O .i2 / .X T X/jj in cui il pedice .i/ ci sta ad indicare che stiamo trascurando l’iesima osservazione. I DFFITs (colonna r C 1) rappresentano l’impatto della singola unità statistica nella stima dei y. O In particolare il DFFIT associato all’osservazione i è: yOi yOi.i / p : O .i2 / hi i Maggiori sono i valori di DFBETAs e DFFITs associati all’i-esima osservazione, più siamo propensi a dichiarare l’i-esima osservazione punto influente. I dati che risultano anomali rispetto a tutti i criteri vengono segnalati con un asterisco (Chile, USA, Zambia e Libia in questo caso). infl_point_overview = influence.measures( g ) summary( infl_point_overview ) ## Potentially influential observations of ## lm(formula = sr~pop15 + pop75 + dpi + ddpi,data = savings): ## ## dfb.1_ dfb.pp15 dfb.pp75 dfb.dpi dfb.ddpi ## Chile -0.20 0.13 0.22 -0.02 0.12 ## United States 0.07 -0.07 0.04 -0.23 -0.03 ## Zambia 0.16 -0.08 -0.34 0.09 0.23 ## Libya 0.55 -0.48 -0.38 -0.02 -1.02_* ## dffit cov.r cook.d hat ## Chile -0.46 0.65_* 0.04 0.04 ## United States -0.25 1.66_* 0.01 0.33_* ## Zambia 0.75 0.51_* 0.10 0.06 ## Libya -1.16_* 2.09_* 0.27 0.53_*
(j) Per valutare l’effetto dei punti influenti sull’outcome del modello si possono guardare due quantità: La variazione dei ˇO nel caso si valuti un modello utilizzando tutto il dataset e nel caso si valuti un modello utilizzando tutto il dataset a meno dell’i-esima osservazione: ˇ ˇ ˇ ˇO ˇO ˇ .i / ˇ ˇ ˇ ˇ: ˇ ˇO ˇ
154
9 Regressione lineare
La variazione delle risposte stimate yO nel caso si valuti un modello utilizzando tutto il dataset e nel caso si valuti un modello utilizzando tutto il dataset a meno dell’iesima osservazione: yO yO.i / D X T .ˇO ˇO.i / /: Valutiamo ora come variano i coefficienti del modello, nel caso in cui si eliminino dal dataset i punti influenti secondo i valori di hi i e la distanza di Cook. Punti leva gl = lm( sr ~ pop15 + pop75 + dpi + ddpi, savings, subset = ( lev < 0.2 ) ) summary( gl ) ## ## Call: ## lm(formula = sr ~ pop15 + pop75 + dpi + ddpi, data=savings, ## subset = (lev < 0.2)) ## ## Residuals: ## Min 1Q Median 3Q Max ## -7.9632 -2.6323 0.1466 2.2529 9.6687 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 2.221e+01 9.319e+00 2.384 0.0218 * ## pop15 -3.403e-01 1.798e-01 -1.893 0.0655 . ## pop75 -1.124e+00 1.398e+00 -0.804 0.4258 ## dpi -4.499e-05 1.160e-03 -0.039 0.9692 ## ddpi 5.273e-01 2.775e-01 1.900 0.0644 . ## --##Signif. codes:0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' '1 ## ## Residual standard error: 3.805 on 41 degrees of freedom ## Multiple R-squared: 0.2959, Adjusted R-squared: 0.2272 ## F-statistic: 4.308 on 4 and 41 DF, p-value: 0.005315 abs( ( g$coefficients - gl$coefficients ) / g$coefficients ) ## (Intercept) pop15 pop75 dpi ddpi ## 0.2223914 0.2622274 0.3353998 0.8664714 0.2871002
I punti leva influenzano nettamente le stime, infatti si registra una variazione di almeno il 22% (variazione relativa a ˇO0 ).
9.3 Soluzioni
155
Fig. 9.13 Scatterplot dei residui
Distanza di Cook #id_to_keep = (1:n)[ - watchout_ids_Cdist ] id_to_keep = !( 1:n %in% watchout_ids_Cdist ) gl = lm( sr ~ pop15 + pop75 + dpi + ddpi, savings[ id_to_keep, ] ) abs( ( gl$coef - g$coef )/g$coef ) ## (Intercept) pop15 pop75 dpi ddpi ## 0.305743704 0.339320881 0.820854095 0.642906116 0.009976742
Si registra anche in questo caso una forte variazione dei coefficienti stimati, tranne che per ddpi. (k) Valutiamo l’omoschedasticità dei residui tramite analisi dello scatterplot. Iniziamo valutando l’omoschedasticità tramite scatterplot, Fig. 9.13, dove "O sono riportati in ordinata e yO sono riportati in ascissa. plot( g$fit, g$res, xlab = "Valori fittati", ylab = "Residui", pch = 16 ) abline( h = 0, lwd = 2, lty = 2, col = 1 )
In Fig. 9.13 osserviamo che i residui sono abbastanza sparsi intorno allo 0, ma sono presenti punti estremi nel grafico. Sarebbe opportuno rifare questa analisi dopo aver impostato il modello su un sottoinsieme del dataset che non contenga punti leva.
156
9 Regressione lineare
Fig. 9.14 QQ-plot dei residui
(l) Valutiamo la normalità dei residui tramite: QQ-plot. Test di Shapiro-Wilk. qqnorm( g$res, ylab = "Residui", xlab = "Quantili teorici", main = NULL, pch = 16 ) qqline( g$res ) shapiro.test( g$res ) ## ## Shapiro-Wilk normality test ## ## data: g$res ## W = 0.98698, p-value = 0.8524
Dal QQ-plot in Fig. 9.14 osserviamo che i quantili empirici dei residui (riportati in ordinata) sono ben approssimati dai quantili teorici di una gaussiana standard (riportati in ascissa). Dal test di Shapiro otteniamo un p-value pari a 0.8524, possiamo quindi accettare l’ipotesi nulla, ovvero la normalità dei residui. 9.6 (a) Importiamo il dataset e visualizziamolo in Fig. 9.15. load("data_es2.RData") pairs(data_es2)
9.3 Soluzioni
157
Fig. 9.15 Visualizzazione dei dati
Dal grafico pairs evinciamo una relazione lineare fra altezza e ferro e fra altezza e calcio. Non pare esserci correlazione fra ferro e calcio. (b) Valutiamo un modello di regressione lineare multipla per rispondere agli studiosi: mod = lm(altezza ~ ferro + calcio, data = data_es2) summary(mod) ## ## Call: ## lm(formula = altezza ~ ferro + calcio, data = data_es2) ## ## Residuals: ## Min 1Q Median 3Q Max ## -1.2277 -0.2160 0.0025 0.2415 0.7597 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 1.40856 0.13889 10.14 |t|) ## (Intercept) 7.103e+01 9.529e-01 74.542 < 2e-16 *** ## Population 5.014e-05 2.512e-05 1.996 0.05201 . ## Murder -3.001e-01 3.661e-02 -8.199 1.77e-10 *** ## HS.Grad 4.658e-02 1.483e-02 3.142 0.00297 ** ## Frost -5.943e-03 2.421e-03 -2.455 0.01802 * ## --##Signif. codes:0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' '1 ## ## Residual standard error: 0.7197 on 45 degrees of freedom ## Multiple R-squared: 0.736, Adjusted R-squared: 0.7126 ## F-statistic: 31.37 on 4 and 45 DF, p-value: 1.696e-12
Rimuoviamo Population. # remove Population g4 = update( g3, . ~ . - Population ) summary( g4 ) ## ## Call: ## lm(formula = Life.Exp ~ Murder + HS.Grad + Frost, ## data = statedata) ## ## Residuals: ## Min 1Q Median 3Q Max ## -1.5015 -0.5391 0.1014 0.5921 1.2268 ##
167
168
9 Regressione lineare
## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 71.036379 0.983262 72.246 < 2e-16 *** ## Murder -0.283065 0.036731 -7.706 8.04e-10 *** ## HS.Grad 0.049949 0.015201 3.286 0.00195 ** ## Frost -0.006912 0.002447 -2.824 0.00699 ** ## --##Signif. codes:0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' '1 ## ## Residual standard error: 0.7427 on 46 degrees of freedom ## Multiple R-squared: 0.7127, Adjusted R-squared: 0.6939 ## F-statistic: 38.03 on 3 and 46 DF, p-value: 1.634e-12
La scelta di eliminare o trattenere Population deve essere guidata anche dall’interpretazione e dall’importanza della variabile. Senza informazioni aggiuntive, possiamo eliminarla dato che questo porta ad una leggera diminuzione di R2 (da 0:736 a 0:713). Selezione automatica Per eseguire una selezione automatica del modello si utilizza il comando step. Si possono utilizzare diversi criteri per procedere nella selezione: AIC. BIC. 2 . Radj Inoltre si può utilizzare una selezione: backward (si parte dal modello completo e si riduce); forward (si parte dal modello con sola intercetta e si aggiungono variabili). Il criterio usato di default è l’AIC e il metodo è backward. #help( step ) g = lm( Life.Exp ~ ., data = statedata ) step( g ) ## Start: AIC=-22.18 ## Life.Exp ~ Population + Income + ## + HS.Grad + Frost + Area ## ## Df Sum of Sq RSS ## - Area 1 0.0011 23.298 ## - Income 1 0.0044 23.302 ## - Illiteracy 1 0.0047 23.302 ## 23.297 ## - Population 1 1.7472 25.044 ## - Frost 1 1.8466 25.144 ## - HS.Grad 1 2.4413 25.738 ## - Murder 1 23.1411 46.438
Illiteracy + Murder +
AIC -24.182 -24.175 -24.174 -22.185 -20.569 -20.371 -19.202 10.305
9.3 Soluzioni ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ##
169
Step: AIC=-24.18 Life.Exp ~ Population + Income + Illiteracy + Murder + + HS.Grad + Frost
- Illiteracy - Income
- Population - Frost - HS.Grad - Murder
Df Sum of Sq RSS 1 0.0038 23.302 1 0.0059 23.304 23.298 1 1.7599 25.058 1 2.0488 25.347 1 2.9804 26.279 1 26.2721 49.570
AIC -26.174 -26.170 -24.182 -22.541 -21.968 -20.163 11.569
Step: AIC=-26.17 Life.Exp ~ Population + Income + Murder + HS.Grad + Frost
- Income
- Population - Frost - HS.Grad - Murder
Df Sum of Sq RSS 1 0.006 23.308 23.302 1 1.887 25.189 1 3.037 26.339 1 3.495 26.797 1 34.739 58.041
AIC -28.161 -26.174 -24.280 -22.048 -21.187 17.456
Step: AIC=-28.16 Life.Exp ~ Population + Murder + HS.Grad + Frost Df Sum of Sq
- Population - Frost - HS.Grad - Murder
1 1 1 1
2.064 3.122 5.112 34.816
RSS 23.308 25.372 26.430 28.420 58.124
AIC -28.161 -25.920 -23.877 -20.246 15.528
Call: lm(formula = Life.Exp ~ Population + Murder + HS.Grad + + Frost, data = statedata)
Coefficients: (Intercept) Population Murder HS.Grad Frost 7.103e+01 5.014e-05 -3.001e-01 4.658e-02 -5.943e-03
170
9 Regressione lineare
AIC( g1 ) ## [1] 119.7116 AIC( g2 ) ## [1] 117.7196 AIC( g3 ) ## [1] 115.7326 AIC( g4 ) ## [1] 117.9743
Con il metodo di selezione backward basato sull’ AIC, il miglior modello è g3, che comprende Population + Murder + HS.Grad + Frost. L’algoritmo parte dall’AIC relativo al modello completo e rimuove a ciascuno step la variabile associata al minor incremento di AIC. Applichiamo ora una selezione backward del modello basata su BIC. g = lm( Life.Exp ~ ., data = statedata ) AIC( g ## [1] BIC( g ## [1]
) 121.7092 ) 138.9174
g_AIC_back = step( g, direction = "backward", k = 2 ) ## Start: AIC=-22.18 ## Life.Exp ~ Population + Income + Illiteracy + Murder + ## + HS.Grad + Frost + Area ## ## Df Sum of Sq RSS AIC ## - Area 1 0.0011 23.298 -24.182 ## - Income 1 0.0044 23.302 -24.175 ## - Illiteracy 1 0.0047 23.302 -24.174 ## 23.297 -22.185 ## - Population 1 1.7472 25.044 -20.569 ## - Frost 1 1.8466 25.144 -20.371 ## - HS.Grad 1 2.4413 25.738 -19.202 ## - Murder 1 23.1411 46.438 10.305 ## ## Step: AIC=-24.18 ## Life.Exp ~ Population + Income + Illiteracy + Murder + ## + HS.Grad + Frost ## ## Df Sum of Sq RSS AIC ## - Illiteracy 1 0.0038 23.302 -26.174 ## - Income 1 0.0059 23.304 -26.170 ## 23.298 -24.182 ## - Population 1 1.7599 25.058 -22.541
9.3 Soluzioni ## - Frost 1 2.0488 25.347 -21.968 ## - HS.Grad 1 2.9804 26.279 -20.163 ## - Murder 1 26.2721 49.570 11.569 ## ## Step: AIC=-26.17 ## Life.Exp ~ Population + Income + Murder + HS.Grad + Frost ## ## Df Sum of Sq RSS AIC ## - Income 1 0.006 23.308 -28.161 ## 23.302 -26.174 ## - Population 1 1.887 25.189 -24.280 ## - Frost 1 3.037 26.339 -22.048 ## - HS.Grad 1 3.495 26.797 -21.187 ## - Murder 1 34.739 58.041 17.456 ## ## Step: AIC=-28.16 ## Life.Exp ~ Population + Murder + HS.Grad + Frost ## ## Df Sum of Sq RSS AIC ## 23.308 -28.161 ## - Population 1 2.064 25.372 -25.920 ## - Frost 1 3.122 26.430 -23.877 ## - HS.Grad 1 5.112 28.420 -20.246 ## - Murder 1 34.816 58.124 15.528 g_BIC_back = step( g, direction = "backward", k = log(n) ) ## Start: AIC=-6.89 ## Life.Exp ~ Population + Income + Illiteracy + Murder + ## HS.Grad + Frost + Area ## ## Df Sum of Sq RSS AIC ## - Area 1 0.0011 23.298 -10.7981 ## - Income 1 0.0044 23.302 -10.7910 ## - Illiteracy 1 0.0047 23.302 -10.7903 ## - Population 1 1.7472 25.044 -7.1846 ## - Frost 1 1.8466 25.144 -6.9866 ## 23.297 -6.8884 ## - HS.Grad 1 2.4413 25.738 -5.8178 ## - Murder 1 23.1411 46.438 23.6891 ## ## Step: AIC=-10.8 ## Life.Exp ~ Population + Income + Illiteracy + Murder ## + HS.Grad + Frost ##
171
172 ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ##
9 Regressione lineare
- Illiteracy - Income - Population
- Frost - HS.Grad - Murder
Df Sum of Sq RSS AIC 1 0.0038 23.302 -14.7021 1 0.0059 23.304 -14.6975 1 1.7599 25.058 -11.0691 23.298 -10.7981 1 2.0488 25.347 -10.4960 1 2.9804 26.279 -8.6912 1 26.2721 49.570 23.0406
Step: AIC=-14.7 Life.Exp ~ Population + Income + Murder + HS.Grad + Frost
- Income - Population
- Frost - HS.Grad - Murder
Df Sum of Sq RSS 1 0.006 23.308 1 1.887 25.189 23.302 1 3.037 26.339 1 3.495 26.797 1 34.739 58.041
AIC -18.601 -14.720 -14.702 -12.488 -11.627 27.017
Step: AIC=-18.6 Life.Exp ~ Population + Murder + HS.Grad + Frost Df Sum of Sq
- Population - Frost - HS.Grad - Murder
1 1 1 1
2.064 3.122 5.112 34.816
RSS 23.308 25.372 26.430 28.420 58.124
AIC -18.601 -18.271 -16.228 -12.598 23.176
BIC(g1) ## [1] 135.0077 BIC(g2) ## [1] 131.1038 BIC(g3) ## [1] 127.2048 BIC(g4) ## [1] 127.5344
Anche utilizzando un metodo di selezione basato sul BIC, il miglior modello risulta essere g3.
9.3 Soluzioni
173
2 Infine valutiamo come criterio di selezione R2 ed Radj .
help( leaps ) # solo matrice dei predittori senza colonna di 1 x = model.matrix( g ) [ , -1 ] y = statedata$Life adjr = leaps( x, y, method = "adjr2" ) names( adjr ) ## [1] "which" "label" "size" "adjr2" bestmodel_adjr2_ind = which.max( adjr$adjr2 ) g$coef[ which( adjr$which[ bestmodel_adjr2_ind, ] ) + 1 ] ## Population Murder HS.Grad Frost ## 5.180036e-05 -3.011232e-01 4.892948e-02 -5.735001e-03 help( maxadjr ) maxadjr( adjr, 5 ) ## 1,4,5,6 1,2,4,5,6 ## 0.713 0.706
1,3,4,5,6 0.706
1,4,5,6,7 1,2,3,4,5,6 0.706 0.699
2 Anche considerando Radj come criterio di scelta, g3 risulta essere il modello 2 migliore, con Radj (71:26%) più levato.
R2 = leaps( x, y, method = "r2" ) bestmodel_R2_ind = which.max( R2$r2 ) R2$which[ bestmodel_R2_ind, ] ## 1 2 3 4 5 6 7 ## TRUE TRUE TRUE TRUE TRUE TRUE TRUE
Come atteso, sfruttando come criterio di selezione R2 , il modello migliore risulta essere quello completo.
Osservazione Il procedimento di selezione delle variabili può essere contaminato dalla presenza di punti influenti.
174
9 Regressione lineare
9.8 (a) Rappresentiamo graficamente i dati in Fig. 9.24. Dato che è presente un’unica variabile predittiva, non è necessario usare il comando pairs. plot( altezza, peso )
I dati sono molto pochi, tuttavia si può intuire un andamento lineare del peso rispetto all’altezza. (b) Impostiamo un modello di regressione lineare semplice. mod = lm( peso ~ altezza ) summary( mod ) ## ## Call: ## lm(formula = peso ~ altezza) ## ## Residuals: ## Min 1Q Median 3Q Max ## -7.860 -4.908 -1.244 7.097 7.518 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) -62.8299 49.2149 -1.277 0.2489 ## altezza 0.7927 0.2817 2.814 0.0306 * ## --##Signif. codes:0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' '1 ## ## Residual standard error: 7.081 on 6 degrees of freedom ## Multiple R-squared: 0.569, Adjusted R-squared: 0.4972 ## F-statistic: 7.921 on 1 and 6 DF, p-value: 0.03058
Fig. 9.24 Visualizzazione dei dati
9.3 Soluzioni
175
Fig. 9.25 Intervalli di confidenza per la media della risposta. La linea nera continua rappresenta i valori stimati tramite il modello in esame. Le linee nere tratteggiate rappresentano le bande di confidenza al 95% per la media della risposta
Il modello pare mediocre, dato che R2 è pari a 56:9%. L’altezza pare significativa nel predire il peso medio dei pomodori (p-value del 3%). Mancano ulteriori informazioni per definire meglio il modello. (c) Per rispondere alla domanda definiamo una griglia di valori nel range dei dati a disposizione (in modo da avere stime affidabili). Calcoliamo i valori predetti: O yOnew D xnew ˇI e i relativi standard error: se.EŒynew / D SO
q T .X T X/1 x xnew new :
Costruiamo il grafico riportato in Fig. 9.25. point_grid = 15 grid = seq( min( altezza ), max( altezza ), length.out = point_grid ) #automatically y.pred = predict( mod, data.frame( altezza = grid ), interval = "confidence", se = T ) names( y.pred ) ## [1] "fit" "se.fit"
"df"
"residual.scale"
176
9 Regressione lineare
y.pred$fit[ ,1 ] # valori predetti $\hat{y}_{new}$. y.pred$fit[ ,2 ] # LI intervallo di confidenza per $y_{new}$. y.pred$fit[ ,3 ] # LS intervallo di confidenza per $y_{new}$. # a mano ndata = cbind( rep( 1, length( grid ) ), grid ) y.pred_fit = ndata %*% mod$coefficients y.pred_fit ## [,1] ## [1,] 64.00554 ## [2,] 65.47774 ## [3,] 66.94993 ## [4,] 68.42213 ## [5,] 69.89433 ## [6,] 71.36652 ## [7,] 72.83872 ## [8,] 74.31092 ## [9,] 75.78311 ## [10,] 77.25531 ## [11,] 78.72751 ## [12,] 80.19971 ## [13,] 81.67190 ## [14,] 83.14410 ## [15,] 84.61630 #standard error y.pred$se y.pred_se = rep( 0, point_grid ) X = model.matrix( mod ) for( i in 1:point_grid ) { y.pred_se[ i ] = summary( mod )$sigma * sqrt( t( ndata[i,] ) %*% solve( t(X) %*% X ) %*% ndata[i,] ) } y.pred_se # n - p = 8 - 2 = 6 y.pred$df ## [1] 6 tc
= qt( 0.975, length( altezza ) - 2 )
9.3 Soluzioni
177
y = y.pred$fit[ ,1 ] y.sup = y.pred$fit[ ,1 ] + tc * y.pred$se y.inf = y.pred$fit[ ,1 ] - tc * y.pred$se IC = cbind( y, y.inf, y.sup ) IC ## y ## 1 64.00554 ## 2 65.47774 ## 3 66.94993 ## 4 68.42213 ## 5 69.89433 ## 6 71.36652 ## 7 72.83872 ## 8 74.31092 ## 9 75.78311 ## 10 77.25531 ## 11 78.72751 ## 12 80.19971 ## 13 81.67190 ## 14 83.14410 ## 15 84.61630 y.pred$fit ## fit ## 1 64.00554 ## 2 65.47774 ## 3 66.94993 ## 4 68.42213 ## 5 69.89433 ## 6 71.36652 ## 7 72.83872 ## 8 74.31092 ## 9 75.78311 ## 10 77.25531 ## 11 78.72751 ## 12 80.19971 ## 13 81.67190 ## 14 83.14410 ## 15 84.61630
y.inf 52.28376 54.82621 57.31735 59.73909 62.06616 64.26427 66.29041 68.09839 69.65227 70.94217 71.98949 72.83610 73.52812 74.10549 74.59890
y.sup 75.72731 76.12926 76.58252 77.10517 77.72249 78.46877 79.38703 80.52345 81.91396 83.56845 85.46553 87.56332 89.81569 92.18271 94.63370
lwr 52.28376 54.82621 57.31735 59.73909 62.06616 64.26427 66.29041 68.09839 69.65227 70.94217 71.98949 72.83610 73.52812 74.10549 74.59890
upr 75.72731 76.12926 76.58252 77.10517 77.72249 78.46877 79.38703 80.52345 81.91396 83.56845 85.46553 87.56332 89.81569 92.18271 94.63370
matplot( grid, cbind( y, y.inf, y.sup ), lty = c( 1, 4, 4 ), col = rep( "black", 3 ), type = "l", xlab = "altezza", ylab = "peso") points( altezza, peso, col = "black", pch = 16 )
178
9 Regressione lineare
Fig. 9.26 Intervalli di previsione per le singole osservazioni
Osservazione Il comando predict prevede come input il dato di cui si vuole calcolare la previsione (xnew ) sotto forma di data.frame che ha come nomi delle colonne, gli stessi nomi dei predittori utilizzati nel modello.
(d) Calcoliamol’intervallo di previsione per i valori grid considerati al punto precedente. In questo caso gli standard error sono: se.ynew / D SO
q T .X T X/1 x 1 C xnew new :
Rappresentiamo gli intervalli calcolati in Fig. 9.26. y.pred2 = predict( mod, data.frame( altezza = grid ), interval = "prediction", se = T ) y.pred2$fit[ ,1 ] # valori predetti $\hat{y}_{new}$. y.pred2$fit[ ,2 ] # LI intervallo di previsione per $y_{new}$. y.pred2$fit[ ,3 ] # LS intervallo di previsione per $y_{new}$. #a mano ndata = cbind( rep( 1, length( grid ) ), grid ) y.pred_fit = ndata %*% mod$coefficients y.pred_fit
9.3 Soluzioni ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ##
[1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [10,] [11,] [12,] [13,] [14,] [15,]
179
[,1] 64.00554 65.47774 66.94993 68.42213 69.89433 71.36652 72.83872 74.31092 75.78311 77.25531 78.72751 80.19971 81.67190 83.14410 84.61630
# standard error y.pred2$se.fit #a mano y.pred2_se = rep( 0, point_grid ) for( i in 1:point_grid ) { y.pred2_se[ i ] = summary( mod )$sigma * sqrt( 1 + t( ndata[i,] ) %*% solve( t(X) %*% X ) %*% ndata[i,] ) } y.pred2_se #In questo caso y.pred2_se != y.pred2$se.fit tc y y.sup y.inf
= = = =
qt( 0.975, length( altezza ) - 2 ) y.pred2$fit[,1] y.pred2$fit[,1] + tc * y.pred2_se y.pred2$fit[,1] - tc * y.pred2_se
IP = cbind( y, y.pred2$fit ## fit ## 1 64.00554 ## 2 65.47774 ## 3 66.94993 ## 4 68.42213 ## 5 69.89433
y.inf, y.sup ) lwr 43.08632 45.13889 47.12570 49.04150 50.88134
upr 84.92475 85.81658 86.77417 87.80276 88.90732
180 ## ## ## ## ## ## ## ## ## ##
9 Regressione lineare 6 7 8 9 10 11 12 13 14 15
71.36652 72.83872 74.31092 75.78311 77.25531 78.72751 80.19971 81.67190 83.14410 84.61630
52.64072 90.09232 54.31592 91.36152 55.90415 92.71769 57.40375 94.16248 58.81434 95.69628 60.13680 97.31822 61.37323 99.02619 62.52680 100.81700 63.60158 102.68662 64.60225 104.63034
matplot( grid, y.pred2$fit, lty = c( 1, 2, 2 ), col = rep('black', 3), type = "l", xlab = "altezza", ylab = "peso") points( altezza, peso, col = "black", pch = 16 )
(e) Confrontiamo gli intervalli ottenuti ai punti c) e d) in Fig. 9.27. matplot( grid, y.pred2$fit, lty = c( 1, 2, 2 ), col = rep( "black", 3 ), type = "l", xlab = "altezza", ylab = "peso") lines( grid, y.pred$fit[ , 2 ] , col = "black", lty = 4 ) lines( grid, y.pred$fit[ , 3 ] , col = "black", lty = 4 ) points( altezza, peso, col = "black", pch = 16 )
Come previsto dalla teoria, l’intervallo di previsione è più ampio dell’intervallo di confidenza (si confrontino gli standard error). Inoltre tutti i punti del dataset rientrano all’interno dell’intervallo di previsione, ma solo alcuni rientrano anche nell’intervallo di confidenza.
Fig. 9.27 Intervalli di confidenza al 95% per la media (linea tratteggiata più interna) e intervalli di previsione al 95% per le singole osservazioni (linea tratteggiata più esterna)
Capitolo 10
Modelli lineari generalizzati
10.1
Richiami di teoria
Estendiamo i modelli di regressione al caso in cui la variabile dipendente non abbia legge normale ma appartenga alla famiglia esponenziale. Tali modelli sono caratterizzati da tre componenti: Y : variabile aleatoria di risposta , di cui osserviamo N realizzazioni fy1 ; : : : ; yN g, la cui distribuzione rientra nella famiglia esponenziale: fY .yi I i / D a.i /b.yi / expfyi Q.i /g;
i 2 f1; : : : ; N gI
dove i è il parametro che caratterizza la distribuzione, e Q.i / viene detto parametro P naturale. i D jr D1 ˇj xij : predittore lineare. g: funzione di link che connette la risposta aleatoria con i predittori lineari. Detta i D EŒYi , i D 1; : : : ; N , il modello prevede che: g.i / D i
H)
g.i / D
X
ˇj xij :
j D1
Se g./ D , allora diciamo che la funzione di link g è l’identità e ritroviamo il modello di regressione lineare mostrato al Capitolo 9. Se g D Q, parametro naturale, allora diciamo che g è funzione di link canonica perché trasforma la media della variabile aleatoria nel parametro naturale della sua distribuzione.
Materiale Supplementare Online È disponibile online un supplemento a questo capitolo (https://doi.org/10.1007/978-88-470-3995-7_10), contenente dati, altri approfondimenti ed esercizi. © Springer-Verlag Italia S.r.l., part of Springer Nature 2020 181 F. Gasperoni, F. Ieva, A.M. Paganoni, Eserciziario di Statistica Inferenziale, UNITEXT 120, https://doi.org/10.1007/978-88-470-3995-7_10
182
10.1.1
10 Modelli lineari generalizzati
Modello logistico per outcome binari
Consideriamo il caso in cui la variabile risposta sia binaria, cioè Y Be./. La distribuzione di Bernoulli fa parte della famiglia esponenziale, infatti: n o fY .yI / D y .1 /1y D .1 / exp y log I.0;1/ .y/I 1
D logit./. Il logit è la dove D , a./ D 1 , b.y/ D 1, Q./ D log 1 funzione link canonica.
10.1.2
Modelli per outcome di tipo conteggio
Per modellizzare i dati di tipo conteggio si utilizza generalmente la distribuzione di Poisson, Y Poisson./. La distribuzione di Poisson fa parte della famiglia esponenziale, infatti: fY .yI / D
e y 1 D exp fg exp fy log./g IN .y/I yŠ yŠ
dove D , a./ D e , b.y/ D 1=yŠ, Q./ D log./. Nel caso si osservi una certa dispersione della variabile risposta, si può modellizzare la Y come una Binomiale Negativa: .y C k/ .k/ .y C 1/ EŒY D I
fY .yI k; / D
Var.Y / D C 1 !0 k
k Ck
k 1
k Ck
y I
2 I k H)
d
Var.Y / ! Y ! PoissonI
dove 1=k è un parametro di dispersione.
10.1.3
Altre funzioni di link
Altre funzioni di link comuni sono: .x/ D F .x/ H) F 1 ..x// D ˇx; F generica funzione di ripartizione. .x/ D .x/ H) 1 ..x// D ˇx; probit link function.
10.1
Richiami di teoria
10.1.4
183
Interpretazione dei parametri
Il segno del ˇj determina se .x/ aumenta o decresce al crescere di x. Focalizziamoci su una sola covariata x e definiamo l’odds ratio come: .xC1/ 1.xC1/ .x/ 1.x/
exp fˇ0 C ˇ1 .x C 1/g D expfˇ1 g: exp fˇ0 C ˇ1 xg
D
Se Y Be./, il modello logistico è logit./ D i , da cui: .x/ D
expfˇxg : 1 C expfˇxg
Tipicamente tramite metodi numerici si identificano gli stimatori ˇO di massima verosimiglianza per ˇ. Denoteremo: 0 1 r X ˇOj xij A : O i D g 1 .O i / D g 1 @ j D0
La quantità che viene solitamente studiata è il log-odds ratio, cioè log.expfˇ1 g/ D ˇ1 , che misura l’incremento di rischio relativo (rapporto fra esito positivo ed esito negativo) in corrispondenza di un incremento unitario del regressore.
10.1.5
Inferenza per i parametri di regressione
Consideriamo il seguente test, relativo al parametro ˇj : H0 W ˇj D ˇ0
vs
H1 W ˇj ¤ ˇ0 :
Si può provare che asintoticamente: ZD
ˇOj ˇ0 N.0; 1/I O s:e:.ˇ/
Z è definita statistica di Wald.
10.1.6
Selezione di modello
Esistono diversi metodi per valutare il modello ottimo. I due approcci più noti in letteratura sono basati rispettivamente sulla devianza e sull’AIC (Capitolo 6 [1]).
184
10 Modelli lineari generalizzati
Definizione 10.1 (Devianza) Sia l.I O y/ la log-verosimiglianza del modello stimato. Tra tutti i possibili modelli il massimo della log-verosimiglianza è raggiunto in l.yI y/, dove consideriamo un parametro per ciascun osservazione del modello. Il modello associato a l.yI y/, è detto modello saturato [1]. Definiamo la devianza come: 2 Œl.I O y/ l.yI y/ : La devianza è la statistica derivante dal rapporto di verosimiglianze per valutare che il modello caratterizzato da l.I O y/ sia migliore del modello saturato. La devianza è asintoticamente distribuita come una 2.N p/ , dove N è la numerosità del campione (che coincide con il numero di parametri nel caso di modello saturato) e p è il numero di parametri del modello. La devianza viene utilizzata per fare selezione di modello. In particolare, è possibile confrontare due modelli, caratterizzati rispettivamente da p1 e p2 parametri (p1 > p2 ), eseguendo un test Chi-quadro con p1 p2 gradi di libertà. Un secondo approccio per fare selezione di modello, consiste nella valutazione del modello con AIC minore, in linea con i modelli di regressione lineare, Capitolo 9.
10.1.7
Bontà del modello
Per valutare la bontà del modello (Goodness Of Fit), si valuta un confronto fra valori osservati (yi ) e valori predetti (yOi ) dal modello. Per definire gli yOi si confrontano i valori stimati O i rispetto ad un valore limite 0 (generalmente pari a 0:5). La Tabella 10.1 è definita tabella di misclassificazione. Definiamo sensitività (o sensibilità) come: a : aCb d : P fYO D 0jY D 0g D cCd P fYO D 1jY D 1g D
Sensitività e sensibilità sono generalmente rappresentate congiuntamente nella curva ROC. Per rappresentare la curva ROC riportiamo la sensibilità nell’asse delle y, e la specificità nell’asse delle x. Ad un buon modello è associata una curva ROC ‘spigolosa’, con alti livelli di sensibilità e specificità.
Tabella 10.1 Tabella di misclassificazione
yD1 yD0
yO D 1 a c
yO D 0 b d
10.2
Esercizi
10.1.8
185
Librerie
library( rms ) ## Warning: package 'rms' was built under R version 3.5.2 ## Loading required package: Hmisc ## Warning: package 'Hmisc' was built under R version 3.5.2 ## Loading required package: lattice ## Loading required package: survival ## Loading required package: Formula ## Loading required package: ggplot2 ## Warning: package 'ggplot2' was built under R version 3.5.2 ## ## Attaching package: 'Hmisc' ## The following objects are masked from 'package:base': ## ## format.pval, units ## Loading required package: SparseM ## ## Attaching package: 'SparseM' ## The following object is masked from 'package:base': ## ## backsolve library( ResourceSelection ) ## Warning: package 'ResourceSelection' was built ## under R version 3.5.2 ## ResourceSelection 0.3-4 2019-01-08
10.2
Esercizi
Esercizio 10.1 Si consideri il dataset relativo ad uno studio clinico su pazienti affetti da disturbi coronarici (CHDAGE_data.txt nel materiale supplementare online). In particolare, l’obiettivo dello studio consiste nello spiegare la presenza o l’assenza di significativi disturbi coronarici in funzione dell’età dei pazienti. I dati si riferiscono a 100 pazienti. Le variabili del database sono: CHD variabile binaria: 1 se il disturbo coronarico è presente, 0 se il disturbo è assente. AGE variabile continua. Questi dati sono tratti dal sito: http://www.umass.edu/statdata/statdata/
186
10 Modelli lineari generalizzati
Si risponda alle seguenti domande: (a) Si rappresenti graficamente il dataset e lo si commenti. (b) Al fine di avere una miglior intuizione della relazione che lega CHD ed AGE, si trasformi la variabile AGE in una variabile categorica a 8 livelli. I livelli sono: Œ20; 29/; Œ29; 34/; Œ34; 39/; Œ39; 44/; Œ44; 49/; Œ49; 54/; Œ54; 59/; Œ59; 70. Si calcoli la media di CHD per ciascun livello e si rappresentino le 8 nuove coppie di valori nel grafico costruito al punto a). (c) Si identifichi il modello più opportuno per descrivere i dati e lo si applichi. Si scriva anche il modello stimato. (d) Si estraggano dal modello i linear.predictors e i fitted.values. Che relazione c’è fra queste quantità? (e) Si rappresenti il modello utilizzato, sfruttando il grafico prodotto al punto a). (f) Si dia la definizione di odds ratio nel caso più semplice di regressione logistica semplice con una variabile dipendente di tipo binario. Si calcoli quindi l’odds ratio in corrispondenza di un incremento dell’età pari a 10 anni. (g) Si calcoli l’ intervallo di confidenza al 95% per l’odds ratio per un incremento di 10 anni d’età. (h) Si calcolino e si rappresentino le bande di confidenza al 95% per ciascun valore di età da 29 a 69. (i) Si valuti la bontà del modello. Esercizio 10.2 In questo esercizio analizzeremo un dataset clinico inerente al peso di neonati. Lo scopo dello studio consiste nell’identificare i fattori di rischio associati con il partorire bambini di peso inferiore ai 2,500 grammi (low birth weight). I dati si riferiscono ad un campione di n D 189 donne. Le variabili del database sono descritte nel file LOWBWTdata.txt (si veda il materiale supplementare online): LOW: variabile dipendente binaria (1 se il neonato pesa meno di 2500 grammi, 0 viceversa). AGE: età della madre in anni. LWT: peso della madre in libbre prima dell’inzio della gravidanza. FTV: numero di visite mediche durante l’ultimo trimestre di gravidanza. RACE variabile indipendente discreta a 3 livelli. Questo dataset è stato investigato in [4]. Si risponda quindi alle seguenti domande: (a) Si rappresentino graficamente i dati e si commentino i grafici. (b) Si valuti il modello più appropriato per spiegare la variabile binaria LOW. (c) Si calcolino gli odds ratio relativi ai diversi livelli della variabile RACE e li si commentino. (d) Si valuti la bontà del modello scelto al punto b). (e) Si calcoli la tabella di misclassificazione e si riporti la percentuale di misclassificati, utilizzando per la stima una soglia del 50%. (f) Si calcolino la sensitività e la specificità del modello. (g) Si calcoli la curva ROC per valutare il GOF del modello.
10.2
Esercizi
187
Esercizio 10.3 Un gruppo di ingegneri finanziari vuole investigare i fattori che possono influenzare l’individuazione di frodi bancarie. In un’analisi preliminare vengono considerate le seguenti variabili: update_sito: tempo medio annuo in cui il sito è stato in manutenzione. media_mov_mens media di movimenti mensili del singolo cliente. type_client: tipo di cliente, 0 se cliente standard, 1 se cliente silver e 2 se cliente gold. L’evento di interesse è la frode registrata dal singolo cliente (fraud pari ad 1 se è stata registrata una frode nell’ultimo anno e 0 altrimenti). Rispondete quindi alle seguenti domande dopo aver caricato il file fraud.txt (si veda il materiale supplementare online). (a) Si esplori graficamente la relazione fra media_mov_mens e fraud. Si adatti un opportuno modello per stimare la probabilità che un un generico cliente subisca una frode, utilizzando tutte le informazioni disponibili. Si commenti il modello adattato. (b) Se ritenuto opportuno, proporre un modello ridotto e/o con trasformazione. Si confrontino i due modelli e si giustifichi la scelta eseguita. (c) Si scriva esplicitamente il modello adattato scelto fra i due proposti. (d) Si fornisca un’interpretazione dell’odds ratio relativo ad un incremento della media di movimenti mensili pari ad 1. (e) Si confrontino le previsioni che è possibile ottenere mediante tale modello con i dati reali (tabella di misclassificazione, errore di misclassificazione, sensibilità, specificità). Esercizio 10.4 Il dataset TITANIC.txt (si veda il materiale supplementare online) contiene dati relativi al disastro del Titanic, affondato nella notte tra il 14 e il 15 Aprile 1912. Per 1046 passeggeri sono riportate le informazioni relative a: Sesso (sex, variabile categorica con livelli male e female). Età (age). Classe (pclass, variabile che assume i valori 1,2,3) in cui essi viaggiavano. L’outcome di interesse è il fatto che i passeggeri siano sopravvissuti o meno al disastro, informazione riportata all’interno della variabile binaria survived (D 1 se il passeggero è sopravvissuto, D 0 altrimenti). Si vuole svolgere un’indagine statistica al fine di valutare quanto e come le covariate precedentemente descritte abbiano influito sulla probabilità di sopravvivenza dei passeggeri del Titanic. Si esegua l’analisi dei dati evidenziando i seguenti passaggi: (a) Analisi descrittiva preliminare: si esamini la tabella di contingenza della sopravvivenza rispetto al sesso e si commenti il risultato; si esegua inoltre il boxplot dell’età rispetto alla sopravvivenza e si commenti il risultato. (b) Si adatti un modello di regressione logistica per spiegare la sopravvivenza dei passeggeri in funzione di tutte le covariate a disposizione e si commenti l’output di regressione: i segni dei coefficienti sono coerenti con quanto era ragionevole aspettarsi?
188
10 Modelli lineari generalizzati
(c) Si adatti il modello di regressione logistica precedente senza utilizzare il regressore età e si confrontino i due modelli. (d) Si calcoli l’odds ratio della probabilità di sopravvivenza delle donne rispetto agli uomini. (e) Si calcoli la probabilità di sopravvivenza (con relativo intervallo di previsione) di una donna di 76 anni che viaggiava in prima, seconda e terza classe (si specifichi nel comando type = response). (f) Si calcoli la tabella di misclassificazione relativa al modello e la corrispondente sensibilità.
10.3
Soluzioni
10.1 (a) Importiamo i dati. chd = read.table( "CHDAGE_data.txt", head = TRUE ) str( chd ) ## 'data.frame': 100 obs. of 3 variables: ## $ ID : int 1 2 3 4 5 6 7 8 9 10 \dots ## $ AGE: int 20 23 24 25 25 26 26 28 28 29 \dots ## $ CHD: int 0 0 0 0 1 0 0 0 0 0 \dots head( chd ) ## ID AGE CHD ## 1 1 20 0 ## 2 2 23 0 ## 3 3 24 0 ## 4 4 25 0 ## 5 5 25 1 ## 6 6 26 0 attach( chd )
Visualizziamo i dati in Fig. 10.1. plot( AGE, CHD, pch = ifelse( CHD == 1, 3, 4 ), col = ifelse( CHD == 1, 'gray30', 'gray70' ), xlab = 'Age', ylab = 'CHD', main = 'CHD vs Age', lwd = 2, cex = 1.5 )
Si può osservare già da questo grafico che all’aumentare dell’età pare essere registrato un maggior numero di pazienti affetti da malattie coronariche.
10.3
Soluzioni
189
Fig. 10.1 Visualizzazione dei dati. Per ciascuna unità statistica, rappresentiamo sull’asse x l’età, mentre sull’asse y la presenza o meno di disturbi coronarici
(b) Trasformiamo la variabile AGE in una variabile categorica a 8 livelli. I livelli sono: Œ20; 29/; Œ29; 34/; Œ34; 39/; Œ39; 44/; Œ44; 49/; Œ49; 54/; Œ54; 59/; Œ59; 70. La scelta di queste classi non è casuale, ma è stata proposta in base alla distribuzione della variabile AGE. Inseriamo nel vettore x i limiti delle classi d’età che si vogliono creare (questo passaggio è arbitrario, e va eseguito con buon senso). min( AGE ) ## [1] 20 max( AGE ) ## [1] 69 x
= c( 20, 29, 34, 39, 44, 49, 54, 59, 70 )
# Calcoliamo i punti medi degli intervalli che abbiamo creato mid = c( ( x [ 2:9 ] + x [ 1:8 ] )/2 ) # Suddividiamo i dati nelle classi che abbiamo creato GRAGE = cut( AGE, breaks = x, include.lowest = TRUE, right = FALSE ) #GRAGE
Calcoliamo quindi la media dei disturbi coronarici rispetto a ciascuno strato della variabile AGE e rappresentiamo i valori ottenuti in Fig. 10.2. y = tapply( CHD, GRAGE, mean ) #y plot( AGE, CHD, pch = ifelse( CHD == 1, 3, 4 ), col = ifelse( CHD == 1, 'gray30', 'gray70'), xlab = 'Age', ylab = 'CHD', main = 'CHD vs Age', lwd = 2, cex = 1.5 ) points( mid, y, col = 1, pch = 16 )
190
10 Modelli lineari generalizzati
Fig. 10.2 Visualizzazione del dataset con croci grige chiare e scure. In nero sono rappresentate le percentuali di disturbi coronarici osservate per ciascuno strato della variabile AGE
Suddividere i pazienti in classi d’età e calcolare la media della variabile dipendente in ciascuna classe, ci aiuta a comprendere più chiaramente la natura della relazione fra AGE e CHD. (c) Identifichiamo un modello che descriva adeguatamente i nostri dati. Il modello più opportuno è un modello lineare generalizzato con link function di tipo logit. help( glm ) mod = glm( CHD ~ AGE, family = binomial( link = logit ) ) summary( mod ) ## ## Call: ## glm(formula = CHD ~ AGE, family = binomial(link = logit)) ## ## Deviance Residuals: ## Min 1Q Median 3Q Max ## -1.9718 -0.8456 -0.4576 0.8253 2.2859 ## ## Coefficients: ## Estimate Std. Error z value Pr(>|z|) ## (Intercept) -5.30945 1.13365 -4.683 2.82e-06 *** ## AGE 0.11092 0.02406 4.610 4.02e-06 *** ## --## Signif. codes:0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' '1 ## ## (Dispersion parameter for binomial family taken to be 1) ## ## Null deviance: 136.66 on 99 degrees of freedom ## Residual deviance: 107.35 on 98 degrees of freedom
10.3
Soluzioni
191
## AIC: 111.35 ## ## Number of Fisher Scoring iterations: 4
Il modello stimato è quindi: logit./ D 5:30945 C 0:11092 AGEI in cui è la probabilità che CHD sia pari ad 1. Dalle stime ottenute, evinciamo che l’incremento dell’età porta ad un aumento di rischio di disturbi coronarici, come avevamo intuito per via grafica ai punti precedenti. (d) Investighiamo i linear.predictors e i fitted.values. Innanzitutto, i linear.predictors sono i valori stimati per il logit della probabilità di avere disturbi coronarici, logit(O i ). Questi valori assumono valori in R. mod$linear.predictors
I fitted.values sono i valori stimati per la probabilità di avere disturbi coronarici, O i . Questi valori assumono valori in Œ0; 1. mod$fitted.values
Le due quantità sono legate dalla funzione logit. (e) In Fig. 10.3 rappresentiamo la predizione del modello, a partire dal grafico proposto al punto a). plot( AGE, CHD, pch = ifelse( CHD == 1, 3, 4 ), col = ifelse( CHD == 1, 'gray30', 'gray70'), xlab = 'Age', ylab = 'CHD', main = 'CHD vs Age', lwd = 2, cex = 1.5 ) points( mid, y, col = 1, pch = 16 ) lines( AGE, mod$fitted, col = 'gray10' )
La sigmoide stimata è monotona crescente, come potevamo intuire dalla stima di ˇAGE . Fig. 10.3 Visualizzazione del dataset (con croci grigie chiare e scure) e previsione ottenuta dal modello (linea grigia). I cerchi neri rappresentano le percentuali di CHD osservati rispetto ai diversi strati di AGE, calcolati al punto b)
192
10 Modelli lineari generalizzati
(f) Uno dei motivi per cui la tecnica di regressione logistica è largamente diffusa, specialmente in ambito clinico, è che i coefficienti del modello hanno una naturale interpretazione in termini di odds ratio (nel seguito OR). Si consideri un predittore x dicotomico a livelli 0 e 1. Si definisce odds che y D 1 fra gli individui con x D 0 la quantità: P .y D 1jx D 0/ : 1 P .y D 1jx D 0/ Analogamente per i soggetti con x D 1, l’odds che y D 1 è: P .y D 1jx D 1/ : 1 P .y D 1jx D 1/ L’OR è definito come il rapporto degli odds per x D 1 e x D 0. Dato che: exp.ˇ0 C ˇ1 x/ 1 C exp.ˇ0 C ˇ1 x/ exp.ˇ0 / P .y D 1jx D 0/ D 1 C exp.ˇ0 /
P .y D 1jx D 1/ D
Il che implica: OR D exp.ˇ1 / Si possono costruire intervalli di confidenza e generalizzazioni al caso di variabile x con più categorie in modo immediato. Calcoliamo quindi l’OR relativo a AGE. summary( mod ) ## ## Call: ## glm(formula = CHD ~ AGE, family = binomial(link = logit)) ## ## Deviance Residuals: ## Min 1Q Median 3Q Max ## -1.9718 -0.8456 -0.4576 0.8253 2.2859 ## ## Coefficients: ## Estimate Std. Error z value Pr(>|z|) ## (Intercept) -5.30945 1.13365 -4.683 2.82e-06 *** ## AGE 0.11092 0.02406 4.610 4.02e-06 *** ## --## Signif. codes:0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' '1
10.3 ## ## ## ## ## ## ## ##
Soluzioni
193
(Dispersion parameter for binomial family taken to be 1) Null deviance: 136.66 Residual deviance: 107.35 AIC: 111.35
on 99 on 98
degrees of freedom degrees of freedom
Number of Fisher Scoring iterations: 4
Il coefficiente della variabile AGE vale 0.111. Quindi l’OR per un incremento di 10 anni d’età è: exp( 10 * coef( mod ) [ 2 ] ) ## AGE ## 3.031967
per ogni incremento di 10 anni d’età, il rischio di disturbo coronarico aumenta di 3 volte circa.
Osservazione Il modello sottintende che il logit sia lineare nella variabile età, ossia che l’OR fra persone di 20 contro 30 anni sia lo stesso che fra individui di 40 contro 50 anni.
(g) Calcoliamo un intervallo di confidenza al 95% per l’OR per un incremento di 10 anni d’età. alpha = 0.05 qalpha = qnorm( 1 - alpha/2 ) qalpha ## [1] 1.959964 IC.sup = exp( 10 * coef( summary( IC.inf = exp( 10 * coef( summary( c( IC.inf, IC.sup ) ## AGE AGE ## 1.892025 4.858721
mod mod mod mod
) [ 2 ] + qalpha * 10 * )$coefficients[ 2, 2 ] ) ) [ 2 ] - qalpha * 10 * )$coefficients[ 2, 2 ] )
194
10 Modelli lineari generalizzati
Fig. 10.4 Intervalli di confidenza calcolati per ciascun nuovo punto predetto
(h) Innanzitutto, impostiamo una griglia di punti da 29 a 69. Successivamente, calcoliamo e rappresentiamo in Fig. 10.4 le bande di confidenza al 95% per ciascun valore di età da 29 a 69. # griglia di valori di x in cui valutare la regressione grid = ( 20:69 ) se = predict( mod, data.frame( AGE = grid ), se = TRUE ) # errori standard corrispondenti ai valori della griglia help( binomial ) gl = binomial( link = logit )
# funzione di link utilizzata
plot( mid, y, col = 1, pch = 3, ylim = c( 0, 1 ), ylab = "Probability of CHD", xlab = "AGE", main = "IC per la Regressione Logistica" ) lines( grid, gl$linkinv( se$fit ) ) lines( grid, gl$linkinv( se$fit - qnorm( 1-0.025 ) * se$se ), col = 1, lty = 2 ) lines( grid, gl$linkinv( se$fit + qnorm( 1-0.025 ) * se$se ), col = 1, lty = 2 )
Osservazione La funzione gl$linkinv permette di ottenere il valore delle probabilità a partire dalla link function (logit).
10.3
Soluzioni
195
(i) Al fine di valutare la bontà del modello calcoliamo sensibilità e specificità. soglia = 0.5 valori.reali = CHD valori.stimati = as.numeric( mod$fitted.values > 0.5 ) tab = table( valori.reali, valori.stimati ) tab ## valori.stimati ## valori.reali 0 1 ## 0 45 12 ## 1 14 29 sensibilita = tab[ 2, 2 ] / ( tab [ 2, 1 ] + tab [ 2, 2 ] ) sensibilita ## [1] 0.6744186 specificita = tab [ 1, 1 ] /( tab [ 1, 2 ] + tab [ 1, 1 ] ) specificita ## [1] 0.7894737
Concludiamo che è un buon modello, visti gli elevati valori di sensibilità e specificità. 10.2 (a) Importiamo i dati. lw = read.table( "LOWBWTdata.txt", head = TRUE ) attach( lw ) ## The following objects are masked from chd: ## ## AGE, ID
Visualizziamo i dati in Fig. 10.5. # tratto la variabile RACE come categorica RACE = factor( RACE ) par( mfrow = c( 2, 2 ) ) plot( LWT, LOW, pch = ifelse( LOW == 1, 3, 4 ), col = ifelse( LOW == 1, 'gray30', 'gray70' ), xlab = 'LWT', ylab = 'LOW', main = 'LOW vs LWT', lwd = 2, cex = 1.5 ) counts_race |z|) (Intercept) 0.805753 0.845167 0.953 0.3404 LWT -0.015223 0.006439 -2.364 0.0181 * RACE2 1.081066 0.488052 2.215 0.0268 * RACE3 0.480603 0.356674 1.347 0.1778 --Signif. codes:0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' '1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 234.67 Residual deviance: 223.26 AIC: 231.26
on 188 on 185
degrees of freedom degrees of freedom
Number of Fisher Scoring iterations: 4
Notiamo che AIC diminuisce e anche RACE acquista significatività. Facciamo un confronto fra i due modelli tramite un test Chi quadro. anova( mod.low2, mod.low, test = "Chisq" ) ## Analysis of Deviance Table ## ## Model 1: LOW ~ LWT + RACE ## Model 2: LOW ~ LWT + RACE + AGE + FTV ## Resid. Df Resid. Dev Df Deviance Pr(>Chi) ## 1 185 223.26 ## 2 183 222.57 2 0.68618 0.7096
Concludiamo che possiamo ritenere i due modelli testati parimenti informativi. Quindi il modello migliore è quello più semplice, che contempla LWT e RACE come variabili. (c) Il predittore RACE è discreto a 3 livelli. In questo caso il livello 1 (RACE = White) viene assunto come categoria di riferimento. model.matrix( mod.low2 ) [ 1:15, ] ## (Intercept) LWT RACE2 RACE3 ## 1 1 182 1 0 ## 2 1 155 0 1 ## 3 1 105 0 0 ## 4 1 108 0 0 ## 5 1 107 0 0 ## 6 1 124 0 1 ## 7 1 118 0 0 ## 8 1 103 0 1
10.3 ## ## ## ## ## ## ##
Soluzioni 9 10 11 12 13 14 15
199 1 1 1 1 1 1 1
123 113 95 150 95 107 100
0 0 0 0 0 0 0
0 0 1 1 1 1 0
# OR 2 vs 1 ( Black vs White ) exp( coef( mod.low2 ) [ 3 ] ) ## RACE2 ## 2.947821
Le donne nere sono una categoria con rischio di parto prematuro quasi 3 volte superiore alle donne bianche. # OR 3 vs 1 ( Other vs White ) exp( coef( mod.low2 ) [ 4 ] ) ## RACE3 ## 1.61705
Le donne di altre etnie sono una categoria con rischio di parto prematuro circa 1.5 volte superiore alle donne bianche. (d) Facciamo dei test per valutare la GOF del modello. mod.low2lrm = lrm( LOW ~ LWT + RACE, x = TRUE, y = TRUE ) residuals( mod.low2lrm, "gof" ) ## Sum of squared errors Expected value|H0 SD ## 38.2268160 38.2138614 0.1733477 ## Z P ## 0.0747321 0.9404279 hoslem.test( mod.low2$y, fitted( mod.low2 ), g = 6 ) ## ## Hosmer and Lemeshow goodness of fit (GOF) test ## ## data: mod.low2$y, fitted(mod.low2) ## X-squared = 3.1072, df = 4, p-value = 0.5401 #g > 3
Anche in questo caso, possiamo concludere che il modello dà un buon fit dei dati. Per un ulteriore approfondimento sul test di Hosmer-Lemeshow si faccia riferimento al materiale supplementare online.
200
10 Modelli lineari generalizzati
(e) Un modo frequentemente utilizzato per presentare i risultati di un fit tramite regressione logistica sono le tabelle di classificazione. In queste tabelle i dati vengono classificati secondo due chiavi: Il valore della variabile dipendente dicotoma y. Il valore di una variabile dicotoma ymod , che si deriva dalla stima della probabilità ottenuta dal modello. I valori di questa variabile si ottengono confrontando il valore della probabilità con una soglia (valore usuale 0.5). Calcoliamo ymod (valori.predetti). soglia = 0.5 valori.reali = lw$LOW valori.predetti = as.numeric(mod.low2$fitted.values > soglia) # 1 se > soglia, 0 se < = soglia table( valori.predetti )
Confrontiamo quindi i valori reali con i valori predetti, costruendo una tabella di misclassificazione. tab = table( valori.reali, valori.predetti ) tab ## valori.predetti ## valori.reali 0 1 ## 0 124 6 ## 1 53 6 # % di casi classificati correttamente: round( sum( diag( tab ) ) / sum( tab ), 2 ) ## [1] 0.69 # % di casi misclassificati: round( ( tab [ 1, 2 ] + tab [ 2, 1 ] ) / sum( tab ), 2 ) ## [1] 0.31
Il 31% dei dati viene misclassificato. (f) Calcoliamo la sensitività. sensitivita = tab [ 2, 2 ] /( tab [ 2, 1 ] + tab [ 2, 2 ] ) sensitivita ## [1] 0.1016949
Calcoliamo la specificità: specificita = tab [ 1, 1 ] /( tab [ 1, 2 ] + tab [ 1, 1 ] ) specificita ## [1] 0.9538462
10.3
Soluzioni
201
(g) Costruiamo la curva ROC a partire dai valori predetti per la risposta dal modello mod.low2 dell’analisi della variabile LOW. fit2 = mod.low2$fitted #media campionaria della prob di sopravvivenza nel campione soglia_roc = seq( 0, 1, length.out = 2e2 ) lens = length( soglia_roc )-1 ascissa_roc = rep( NA, lens ) ordinata_roc = rep( NA, lens ) for ( k in 1 : lens ) { soglia = soglia_roc [ k ] classification = as.numeric( sapply( fit2, function( x ) ifelse( x < soglia, 0, 1 ) ) ) # ATTENZIONE, voglio sulle righe il vero # e sulle colonne il predetto # t.misc = table( lw$LOW, classification ) ordinata_roc[ k ] = sum( classification[ which( lw$LOW == 1 ) ] == 1 )/ length( which( lw$LOW == 1 ) ) ascissa_roc[ k ] = sum( classification[ which( lw$LOW == 0 ) ] == 1 )/ length( which( lw$LOW == 0 ) ) #ordinata_roc[k]=t.misc[1, 1]/(t.misc [1, 1] + t.misc[1, 2]) # #ascissa_roc[k]=t.misc[2, 1]/(t.misc [2, 1] + t.misc[2, 2]) }
Visualizziamo la curva ROC in Fig. 10.6. plot(ascissa_roc, ordinata_roc, type = "l", xlab = "1 - Specificity", ylab = "Sensitivity", main = "Curva ROC", lwd = 2, col = 'black', ylim = c( 0, 1 ), xlim = c( 0, 1 ) ) abline(h = c( 0, 1 ), v = c( 0, 1 ), lwd = 1, lty = 2, col = 'gray70') abline(a = 0, b = 1, lty = 2, col = 'gray70' )
202
10 Modelli lineari generalizzati
Fig. 10.6 Rappresentazione dell curva ROC, tramite linea continua nera. Le linee tratteggiate grigie chiare delimitano il dominio e il codominio della Curva: Œ0; 1 Œ0; 1. La croce grigia scura e le linee tratteggiate grigie scure identificano come si posiziona il modello in analisi all’interno della curva
# individuiamo i nostri livelli di # specificità e significatività abline( v = 1 - specificita, h = sensitivita, lty = 3, col = 'gray30' ) points( 1 - specificita, sensitivita, pch = 4, lwd = 3, cex = 1.5, col = 'gray30')
La curva ROC non è ottimale, visto che è abbastanza schiacciata sulla diagonale (l’ottimo è una curva che vicino allo zero ha derivata positiva e molto elevata). 10.3 (a) Esploriamo graficamente la relazione fra media_mov_mens e fraud. data_fraud = read.table('fraud.txt', header = T) boxplot( data_fraud$media_mov_mens ~ data_fraud$fraud, col = c('gray30', 'gray70' ), ylab = 'Media movimenti mensili', xlab = 'Frode')
In Fig. 10.7 pare esserci una relazione fra le due variabili. In particolare, chi effettua più movimenti in media al mese pare avere un maggior rischio di subire una frode. Adattiamo un modello di regressione logistica per spiegare la variabile fraud, includendo tutte le variabili a disposizione. mod_1 = glm( fraud ~ update_sito + media_mov_mens + type_client, data = data_fraud, family="binomial")
10.3
Soluzioni
203
Fig. 10.7 Visualizzazione del dataset tramite boxplot. In grigio scuro sono rappresentati i movimenti che sono esito di frodi, mentre in grigio chiaro quelli che non sono esito di frodi
summary( mod_1 ) ## ## Call: ## glm(formula = fraud ~ update_sito + media_mov_mens + ## type_client, ## family = "binomial", data = data_fraud) ## ## Deviance Residuals: ## Min 1Q Median 3Q Max ## -1.93612 -0.07841 -0.00916 0.00009 1.99906 ## ## Coefficients: ## Estimate Std. Error z value Pr(>|z|) ## (Intercept) 3.2459 5.3508 0.607 0.544104 ## update_sito -0.3729 0.1026 -3.636 0.000277 *** ## media_mov_mens 2.5748 0.6072 4.241 2.23e-05 *** ## type_client -1.2787 0.8463 -1.511 0.130804 ## --## Signif. codes:0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' '1 ## ## (Dispersion parameter for binomial family taken to be 1) ## ## Null deviance: 179.95 on 159 degrees of freedom ## Residual deviance: 43.45 on 156 degrees of freedom ## AIC: 51.45 ## ## Number of Fisher Scoring iterations: 9
Dal modello paiono essere significative sia l’update_sito media_mov_mens (come avevamo intuito dal grafico).
che
204
10 Modelli lineari generalizzati
(b) Proponiamo un modello ridotto che includa sia update_sito che media_mov_mens. mod_2 = glm( fraud ~ update_sito + media_mov_mens, data = data_fraud, family="binomial") summary( mod_2 ) ## ## Call: ## glm(formula = fraud ~ update_sito + media_mov_mens, ## family = "binomial", data = data_fraud) ## ## Deviance Residuals: ## Min 1Q Median 3Q Max ## -1.79424 -0.09903 -0.01291 0.00013 2.02351 ## ## Coefficients: ## Estimate Std. Error z value Pr(>|z|) ## (Intercept) 1.95243 5.28468 0.369 0.711791 ## update_sito -0.33912 0.09313 -3.641 0.000271 *** ## media_mov_mens 2.30649 0.51141 4.510 6.48e-06 *** ## --## Signif. codes:0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' '1 ## ## (Dispersion parameter for binomial family taken to be 1) ## ## Null deviance: 179.947 on 159 degrees of freedom ## Residual deviance: 45.933 on 157 degrees of freedom ## AIC: 51.933 ## ## Number of Fisher Scoring iterations: 8
(c) Confrontiamo i due modelli testati, tramite un test Chi quadro. anova( mod_1, mod_2, test = "Chisq" ) ## Analysis of Deviance Table ## ## Model 1: fraud ~ update_sito + media_mov_mens + type_client ## Model 2: fraud ~ update_sito + media_mov_mens ## Resid. Df Resid. Dev Df Deviance Pr(>Chi) ## 1 156 43.450 ## 2 157 45.933 -1 -2.483 0.1151
Dal test non pare esserci una differenza significativa tra i due modelli, quindi optiamo per il modello ridotto.
10.3
Soluzioni
205
(d) Calcoliamo l’OR relativo ad un incremento di un punto sulla media di movimenti mensili. exp( 1*mod_2$coefficients[3] ) ## media_mov_mens ## 10.03909
Un incremento di un punto, porta ad un rischio 10 volte maggiore di subire una frode. (e) Calcoliamo la tabella di misclassificazione, significatività e specificità. pred_val = ifelse( mod_2$fitted.values >= 0.5, 1, 0 ) tab = table( pred_val, data_fraud$fraud ) tab ## ## pred_val 0 1 ## 0 115 6 ## 1 5 34 sensitiv = tab [ 2, 2 ] /( tab [ 2, 1 ] + tab [ 2, 2 ] ) sensitiv ## [1] 0.8717949 specif = tab [ 1, 1 ] /( tab [ 1, 2 ] + tab [ 1, 1 ] ) specif ## [1] 0.9504132
Considerando il basso numero di misclassificati, e gli alti livelli di specificità e significatività, possiamo concludere che il modello ridotto si adatta bene ai dati analizzati. 10.4 (a) Importiamo i dati. data = read.table( 'TITANIC.txt', header = TRUE ) dim( data ) ## [1] 1046 #str( data )
4
206
10 Modelli lineari generalizzati
Fig. 10.8 Visualizzazione dei dati tramite boxplot. In grigio scuro rappresentiamo l’età di chi è morto, mentre in verde rappresentiamo l’età di chi è sopravvissuto
names( data ) ## [1] "survived" "sex" "age" head( data ) ## survived sex age pclass ## 1 1 female 29.0000 1 ## 2 1 male 0.9167 1 ## 3 0 female 2.0000 1 ## 4 0 male 30.0000 1 ## 5 0 female 25.0000 1 ## 6 1 male 48.0000 1
"pclass"
Impostiamo la variabile sopravvivenza come factor. data$survived = factor( data$survived ) #data$pclass = factor( data$pclass )
Calcoliamo la tabella di contingenza della sopravvivenza rispetto al sesso. table( data$sex, data$survived ) ## ## 0 1 ## female 96 292 ## male 523 135
Dalla tabella di contingenza osserviamo che, in proporzione, sono morti più uomini che donne. Potrebbe esserci una correlazione fra queste due variabili. Rappresentiamo in Fig. 10.8 un boxplot per investigare l’andamento della sopravvivenza rispetto all’età. boxplot( data$age ~ data$survived, xlab = 'sopravvissuti', ylab = 'età', col = c('gray30', 'gray70' ) )
Dal grafico non pare esserci un effetto dell’età sulla sopravvivenza.
10.3
Soluzioni
207
(b) Adattiamo un modello di regressione logistica per spiegare la sopravvivenza, includendo tutte le variabili del dataset. # modello glm con tutte le covariate mod.glm = glm( survived ~ ., data = data, family = binomial( link = logit ) ) summary( mod.glm ) ## ## Call: ## glm(formula = survived ~ ., family = binomial(link = logit), ## data = data) ## ## Deviance Residuals: ## Min 1Q Median 3Q Max ## -2.6159 -0.7162 -0.4321 0.6572 2.4041 ## ## Coefficients: ## Estimate Std. Error z value Pr(>|z|) ## (Intercept) 4.58927 0.40572 11.311 < 2e-16 *** ## sexmale -2.49738 0.16612 -15.034 < 2e-16 *** ## age -0.03388 0.00628 -5.395 6.84e-08 *** ## pclass -1.13324 0.11173 -10.143 < 2e-16 *** ## --## Signif. codes:0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' '1 ## ## (Dispersion parameter for binomial family taken to be 1) ## ## Null deviance: 1414.62 on 1045 degrees of freedom ## Residual deviance: 983.02 on 1042 degrees of freedom ## AIC: 991.02 ## ## Number of Fisher Scoring iterations: 4
Tutte le variabili paiono significative, inoltre essere uomini, più anziani ed essere in 2a, 3a classe diminuisce la probabilità di sopravvivenza. (c) Adattiamo un modello di regressione logistica escludendo la variabile age. mod.glm.red = update( mod.glm, . ~ . - age ) summary( mod.glm.red ) ## ## Call: ## glm(formula = survived ~ sex + pclass, ## family = binomial(link = logit), data = data) ##
208 ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ##
10 Modelli lineari generalizzati Deviance Residuals: Min 1Q Median -2.1248 -0.7134 -0.4816
3Q 0.6976
Max 2.1033
Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 3.00428 0.25591 11.740 F) ## group 11 4.1323 0.0005833 *** ## 36 ## --##Signif. codes:0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' '1 bartlett.test( rats$time, rats$treat:rats$poison ) ## ## Bartlett test of homogeneity of variances ## ## data: rats$time and rats$treat:rats$poison ## Bartlett's K-squared = 45.137, df = 11, p-value = 4.59e-06
L’ipotesi di omogeneità delle varianze è ampiamente violata (si osservi il p-value del test di Levene e del test di Bartlett). Possiamo valutare una trasformazione delle variabili. Optiamo per una trasformazione di tipo Box-Cox, considerando il modello completo. g = lm( time ~ poison * treat, rats ) #"*" gives the full model: linear effect AND interaction #g = lm( time ~ poison + treat + poison : treat , rats ) b = boxcox( g, lambda = seq(-3,3,by=0.01), plotit = F ) best_lambda = b$x[ which.max( b$y ) ] best_lambda ## [1] -0.82
Il comando boxcox restituisce anche il grafico in Fig. 11.13 (per ottenerlo è sufficiente porre plotit = T). plot( b$x, b$y, xlab = expression(lambda), ylab = 'log-likelihood')
242
11
ANOVA: analisi della varianza
Fig. 11.13 Trasformazione di tipo Box-Cox: investigazione del ottimo
Da Fig. 11.13 deduciamo che il ottimo è 0:82, tuttavia, come già detto nel capitolo inerente alla regressione lineare, arrotondiamo in modo da garantire una maggiore interpretabilità. Optiamo quindi per D 1. Ricontrolliamo quindi le ipotesi di modello. tapply( (rats$time)^(-1), rats$treat:rats$poison, function( x ) shapiro.test( x )$p ) ## A:I A:II A:III ## 0.03115001 0.65891022 0.38884991 ## B:I B:II B:III ## 0.95061185 0.79724850 0.17554581 ## C:I C:II C:III ## 0.38264156 0.87818060 0.96578666 ## D:I D:II D:III ## 0.16801940 0.84342484 0.78353223 leveneTest( (rats$time)^(-1), rats$treat:rats$poison ) ## Levene's Test for Homogeneity of Variance (center = median) ## Df F value Pr(>F) ## group 11 1.1272 0.3698 ## 36 bartlett.test( (rats$time)^(-1), rats$treat:rats$poison ) ## ## Bartlett test of homogeneity of variances ## ## data: (rats$time)^(-1) and rats$treat:rats$poison ## Bartlett's K-squared = 9.8997, df = 11, p-value = 0.5394
Le ipotesi del modello sono rispettate, a parte la normalità del gruppo A-I. Possiamo utilizzare un modello two-way ANOVA, tenendo presente che in presenza di interazione le ipotesi non sono rispettate a pieno.
11.3
Soluzioni
243
g1 = lm( 1/time ~ poison * treat, data = rats ) summary( g1 ) ## ## Call: ## lm(formula = 1/time ~ poison * treat, data = rats) ## ## Residuals: ## Min 1Q Median 3Q Max ## -0.76847 -0.29642 -0.06914 0.25458 1.07936 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 2.48688 0.24499 10.151 4.16e-12 *** ## poisonII 0.78159 0.34647 2.256 0.030252 * ## poisonIII 2.31580 0.34647 6.684 8.56e-08 *** ## treatB -1.32342 0.34647 -3.820 0.000508 *** ## treatC -0.62416 0.34647 -1.801 0.080010 . ## treatD -0.79720 0.34647 -2.301 0.027297 * ## poisonII:treatB -0.55166 0.48999 -1.126 0.267669 ## poisonIII:treatB -0.45030 0.48999 -0.919 0.364213 ## poisonII:treatC 0.06961 0.48999 0.142 0.887826 ## poisonIII:treatC 0.08646 0.48999 0.176 0.860928 ## poisonII:treatD -0.76974 0.48999 -1.571 0.124946 ## poisonIII:treatD -0.91368 0.48999 -1.865 0.070391 . ## --##Signif. codes:0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' '1 ## ## Residual standard error: 0.49 on 36 degrees of freedom ## Multiple R-squared: 0.8681, Adjusted R-squared: 0.8277 ## F-statistic: 21.53 on 11 and 36 DF, p-value: 1.289e-12 anova( g1 ) ## Analysis of Variance Table ## ## Response: 1/time ## Df Sum Sq Mean Sq F value Pr(>F) ## poison 2 34.877 17.4386 72.6347 2.310e-13 *** ## treat 3 20.414 6.8048 28.3431 1.376e-09 *** ## poison:treat 6 1.571 0.2618 1.0904 0.3867 ## Residuals 36 8.643 0.2401 ## --##Signif. codes:0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' '1
Dal modello emerge chiaramente che sia il tipo di veleno che il tipo di trattamento influenzano il tempo di sopravvivenza dei topi. Invece l’interazione dei due fattori non è rilevante.
244
11
ANOVA: analisi della varianza
Andiamo quindi ad esaminare il modello ridotto e a valutare nuovamente le ipotesi. g1_red = lm( 1/time ~ poison + treat, data = rats ) summary( g1_red ) ## ## Call: ## lm(formula = 1/time ~ poison + treat, data = rats) ## ## Residuals: ## Min 1Q Median 3Q Max ## -0.82757 -0.37619 0.02116 0.27568 1.18153 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 2.6977 0.1744 15.473 < 2e-16 *** ## poisonII 0.4686 0.1744 2.688 0.01026 * ## poisonIII 1.9964 0.1744 11.451 1.69e-14 *** ## treatB -1.6574 0.2013 -8.233 2.66e-10 *** ## treatC -0.5721 0.2013 -2.842 0.00689 ** ## treatD -1.3583 0.2013 -6.747 3.35e-08 *** ## --##Signif. codes:0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' '1 ## ## Residual standard error: 0.4931 on 42 degrees of freedom ## Multiple R-squared: 0.8441, Adjusted R-squared: 0.8255 ## F-statistic: 45.47 on 5 and 42 DF, p-value: 6.974e-16 anova( g1_red ) ## Analysis of Variance Table ## ## Response: 1/time ## Df Sum Sq Mean Sq F value Pr(>F) ## poison 2 34.877 17.4386 71.708 2.865e-14 *** ## treat 3 20.414 6.8048 27.982 4.192e-10 *** ## Residuals 42 10.214 0.2432 ## --##Signif. codes:0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' '1
Valutiamo la normalità in tre modi: Valutazione grafica dei residui del modello ridotto (si veda Fig. 11.14). Shapiro test sui residui del modello ridotto. Shapiro test sulla variabile risposta. #1) qqnorm( g1_red$res/summary( g1_red )$sigma, pch = 16, main = 'QQ-norm of residuals' ) abline( 0, 1, lwd = 2, lty = 2, col = 1 )
11.3
Soluzioni
245
Fig. 11.14 QQ-norm dei residui standardizzati
#2) shapiro.test( g1_red$res ) ## ## Shapiro-Wilk normality test ## ## data: g1_red$res ## W = 0.97918, p-value = 0.5451 #3) tapply( 1/rats$time, rats$poison, function( x ) shapiro.test( x )$p ) ## I II III ## 0.1672488 0.8944364 0.3944087 tapply( 1/rats$time, rats$treat, function( x ) shapiro.test( x )$p ) ## A B C D ## 0.2221106 0.1021497 0.3632241 0.2712347
In tutti e tre i modi giungiamo alla stessa conclusione. Valutiamo infine l’omogeneità della varianza fra i gruppi. leveneTest( ## Levene's ## Df ## group 2 ## 45 leveneTest( ## Levene's ## Df
1/rats$time, rats$poison ) Test for Homogeneity of Variance (center = median) F value Pr(>F) 1.715 0.1915 1/rats$time, rats$treat ) Test for Homogeneity of Variance (center = median) F value Pr(>F)
246 ## group 3 ## 44
11
ANOVA: analisi della varianza
0.614 0.6096
bartlett.test( 1/rats$time, rats$poison ) ## ## Bartlett test of homogeneity of variances ## ## data: 1/rats$time and rats$poison ## Bartlett's K-squared = 3.1163, df = 2, p-value = 0.2105 bartlett.test( 1/rats$time, rats$treat ) ## ## Bartlett test of homogeneity of variances ## ## data: 1/rats$time and rats$treat ## Bartlett's K-squared = 1.5477, df = 3, p-value = 0.6713
I test di Levene e di Bartlett confermano l’ipotesi. Quindi concludiamo che topi a cui vengono somministrati veleni o trattamenti diversi hanno tempi di sopravvivenza diversi.
Capitolo 12
Esercizi di riepilogo
12.1
Esercizi
Esercizio 12.1 Sia X1 ; : : : ; Xn un campione casuale di ampiezza n di legge gaussiana di media ln e varianza 4, con un parametro incognito positivo. P (a) Posto Un D cn niD1 eXi , determinare la costante cn in modo che Un sia stimatore non distorto di . Suggerimento: usare il fatto che, se Y N.m; 2 / allora, per t 2 R, E et Y D 1 2 2 et mC 2 t . (b) Calcolare Var ŒUn per cn determinato al punto precedente. Stabilire se lo stimatore Un è consistente ed asintoticamente normale. (c) Costruire un altro stimatore non distorto Vn di , partendo da quello ottenuto col metodo dei momenti. Stabilire se Vn è consistente e determinarne la legge asintotica. (d) Stabilire quale tra i due stimatori Un e Vn di è preferibile e motivare la scelta. (e) Costruire sulla base di Vn un intervallo di confidenza asintotico di livello 1 ˛ per . Esercizio 12.2 Sia X1 ; : : : ; Xn un campione casuale da una distribuzione con legge: f .xI / D 4
.x 1/3 I.1; / .x/I . 1/4
dove è un parametro positivo incognito, > 1. (a) (b) (c) (d) (e)
Determinare una statistica T sufficiente per . Utilizzando la definizione di completezza stabilire se T è completa per . Trovare l’UMVUE per . Costruire una quantità pivot Q per . Costruire l’intervallo di confidenza di livello 1 ˛ basato su Q di lunghezza minima.
© Springer-Verlag Italia S.r.l., part of Springer Nature 2020 247 F. Gasperoni, F. Ieva, A.M. Paganoni, Eserciziario di Statistica Inferenziale, UNITEXT 120, https://doi.org/10.1007/978-88-470-3995-7_12
248
12 Esercizi di riepilogo
Esercizio 12.3 Sia X1 ; : : : ; Xn un campione casuale d’ampiezza n 1 in cui ciascuna variabile ha legge: f .xI / D
e x I.0;C1/ .x/I x2
dove è un parametro reale positivo > 0. (a) (b) (c) (d)
Si trovi W statistica sufficiente, minimale e completa per . Si costruisca lo stimatore di massima verosimiglianza O per . Si stabilisca se O è consistente per . Si costruisca l’UMVUE per .
Si consideri ora un campione di ampiezza n D 1. (e) Si costruisca il test UMP di livello ˛ per la verifica delle ipotesi: H0 W D 0
vs
H1 W D 1 I
con 1 > 0 . (f) Si costruisca il test UMP di livello ˛ per la verifica delle ipotesi: H0 W D 0
vs
H1 W > 0 :
Esercizio 12.4 Sia X1 ; : : : ; Xn un campione casuale d’ampiezza n 1 in cui ciascuna variabile ha legge: f .xI / D
x If1;2;:::; g .x/I K
dove è un parametro intero tale che 1. (a) Si calcoli la costante K in funzione di . (b) Si costruisca lo stimatore dei momenti N per e stabilire se è consistente. Fornisce P sempre stime ammissibili? (Suggerimento: può essere utile ricordare che jnD1 j 2 D n.n C 1/.2n C 1/=6). (c) Si costruisca lo stimatore di massima verosimiglianza O per e stabilire se è consistente. Fornisce sempre stime ammissibili? (d) Si costruisca la regione critica basata sul rapporto di verosimiglianza per il test di ipotesi: H0 W 0
vs
H1 W > 0 :
Esercizio 12.5 Sia X1 ; : : : ; Xn un campione casuale d’ampiezza n 1 in cui ciascuna variabile ha legge f .xI / D di parametro > 0.
2x I.0; / .x/I 2
12.1
(a) (b) (c) (d)
Esercizi
249
Si trovi una statistica T sufficiente e minimale per . Si calcoli lo stimatore dei momenti per . Si calcoli l’errore quadratico medio di . Si consideri ora noto il valore del parametro D 0 e si fissi n D 1. Si costruisca il test UMP di livello ˛ 2 .0; 1/ per il test d’ipotesi: H0 W X f .xI 0 /
vs
H1 W X U.0; 0 /:
(e) Si calcoli la potenza del test costruito al punto (d) e si stabilisca se il test è non distorto. Esercizio 12.6 Sia X1 ; : : : ; Xn un campione casuale da una distribuzione con la seguente densità di probabilità: f .xI / D 2
2 I.;1/ .x/; x3
> 0:
(a) Si calcoli lo stimatore di massima verosimiglianza b per . (b) Si calcoli la densità di probabilità di b . (c) Si trovi la regione critica di livello ˛ 2 .0; 1/ basata sul rapporto di verosimiglianza per il test d’ipotesi: H0 W D 0 vs H1 W ¤ 0 , 0 > 0: (d) Utilizzando la regione critica costruita al punto (c), trovare un intervallo di confidenza per di livello .1 ˛/. (e) Utilizzando la quantità pivotale Q D b =, trovare la costante c > 0 affinché l’intervallo di confidenza .0; b c/ per sia di livello .1 ˛/. Esercizio 12.7 Sia X1 ; : : : ; Xn un campione casuale da una distribuzione con legge: f .xI ; b/ D
x 1 I.0;b/ .x/I b
dove e b sono due parametri positivi incogniti, > 0; b > 0. (a) Trovare una statistica sufficiente e minimale per .; b/. (b) Si assuma che sia noto. Determinare lo stimatore bOML di massima verosimiglianza per b. (c) Determinare la legge di bOML e studiarne la consistenza. (d) Determinare una quantità pivotale Q per b. (e) Determinare l’intervallo di confidenza di livello 1 ˛ per b basato su Q di lunghezza minima. Esercizio 12.8 Sia X una variabile aleatoria con densità k ekx e e I.1;C1/ .x/I .k/ x
f .xI / D
dove k è un parametro positivo noto e è un parametro positivo incognito, > 0 .
250
12 Esercizi di riepilogo
P (a) Si dimostri che W D niD1 eXi è una statistica sufficiente, minimale e completa per . (b) Si calcoli la legge di eX . (c) Si calcoli e si riconosca la legge di W . (d) Si costruisca un test UMP di livello ˛ per H0 : 0 vs H1 : > 0 . (e) Si costruisca una quantità pivotale per basandosi su W , e si ricavi un Intervallo di Confidenza di livello 1 ˛ per . Esercizio 12.9 Sia X1 ; : : : ; Xn un campione casuale da una distribuzione con legge: ˚ f .xI / D 2x exp x 2 IŒ0;C1/ .x/I dove è un parametro positivo incognito, > 0. Calcolare la media di Xi . Determinare, mediante il metodo dei momenti, lo stimatore OMOM per . Determinare una statistica T sufficiente minimale e completa per . Determinare la legge di T . Determinare lo stimatore OML di massima verosimiglianza per . Stabilire se OMOM e OML sono consistenti per . Determinare la legge asintotica di OML . Sapendo che Var.Xi / D 0:21 determinare, utilizzando il metodo delta 1.26, la O legge asintotica di MOM . (i) Calcolare l’efficienza asintotica relativa di OML rispetto a OMOM , i.e. ARE.OML I OMOM /. (a) (b) (c) (d) (e) (f) (g) (h)
Esercizio 12.10 Si consideri la seguente famiglia di funzioni definita per ogni 2R
f .xI / D c 1 .x /2 IŒ; C1 .x/: (a) Si determini la costante c affinché la funzione f .x/ sia una densità di probabilità per ogni 2 R. Si consideri un campione X di ampiezza unitaria con distribuzione di probabilità f .xI / con c determinata al punto (a). (b) Calcolare lo stimatore di OML di massima verosimiglianza per . (c) Dimostrare che Q D 1 .OML /2 è una quantità pivotale. (d) Calcolare un intervallo di confidenza per basato sulla quantità pivotale Q, utilizzando i quantili di Q a D 0:5 e b D 0:9. (e) Determinare il livello di confidenza 1 ˛, dell’intervallo costruito al punto (d). (f) Determinare la regione critica, di livello ˛ calcolato al punto (e), del test H0 : D 0 vs H1 : ¤ 0 .
12.2
Soluzioni
251
Esercizio 12.11 Sia X1 ; : : : ; Xn un campione casuale da una Gamma(2,1/) con > 0. Si ha quindi f .xI / D 2 x ex= I.0;C1/ .x/: (a) (b) (c) (d) (e) (f) (g)
Determinate una statistica sufficiente e completa per : Determinate lo stimatore On di massima verosimiglianza per . Mostrate che On coincide con lo stimatore Nn ottenuto col metodo dei momenti. Qual è la legge di On ? On è distorto? On è UMVUE? Proponete un intervallo di confidenza per di livello 0.99.
12.2
Soluzioni
12.1 (a) Sia Un D cn
n X
eXi :
i D1
Calcoliamo la media di Un : EŒUn D cn
n X i D1
EŒeXi D cn
n X
elog. /C2 D cn ne2 I
i D1
dove abbiamo sfruttato la seguente relazione: 1 2 2 E et Y D et mC 2 t I
(b)
scegliendo t D 1, m D log./ e 2 D 4. Questa relazione vale perché Y è v.a. gaussiana. Imponendo EŒUn D , si ricava: cn D ne12 . Var ŒUn D
n
1 X 2Xi EŒe .e2 /2 D 2 4 n e i D1
D
n 1 X 2 log C 1 44 4 2 2 e D e n2 e4 i D1
D
2 8
1 2 4 4 n .e e / D .e 1/: n2 e4 n
252
12 Esercizi di riepilogo
Quindi, dato che Un è non distorto e Var.Un / ! 0, possiamo concludere che Un è stimatore consistente (vedi Teorema 8.2). Inoltre, per il TCL:
p n .Un / ! N 0; 2 .e4 1/ : Quindi Un è asintoticamente normale. (c)
EŒX D log./ H) OMOM D eX n : Dato che:
4 X n N log./; I n
allora: EŒOMOM D EŒeXn D elog C 2 n D e n : 1 4
2
Quindi: 2
Vn D e n eX n : q:c:
q:c:
Dato che X n ! log./ si ha che Vn ! e quindi è consistente. Inoltre, dato che:
L p n X n log./ ! N.0; 4/I utilizzando il metodo delta 1.26 con g.x/ D ex si ha che: L p Xn n e ! N.0; 4 2 /: Ora:
p p p n .Vn / D n Vn eX n C n eX n : ƒ‚ … „ ƒ‚ … „ 2 p D n eX n e n 1
„
ƒ‚
…
L
!N.0;4 2 /
q:c:
!
Quindi: p L n .Vn / ! N.; 4 2 /: (d) Dobbiamo confrontare 2 .e4 1/ con 4 2 . Dato che 4 < .e4 1/, preferiamo Vn . (e) Utilizzando il Teorema di Slutsky 1.24, possiamo affermare che:
2Vn IC1˛ D Vn ˙ p z1 ˛2 : n
12.2
Soluzioni
253
12.2 (a) Consideriamo la densità: f .xI / D 4
.x 1/3 IŒ1; .x/; . 1/4
> 1:
Dato che la legge congiunta è: f .xI / D
4n
Qn
i D1 .xi
1/3
. 1/4n
I.0; / .X.n/ /I
si può concludere, grazie al Teorema 2.3, che la statistica T D X.n/ è sufficiente per . (b)
2 FX.n/ .t/ D .P fXi tg/n D 4 D
t 1 1
Zt
3n .x 1/3 4 dx 5 D . 1/4
1
4n
t 2 Œ1; I
da cui fX.n/ .t/ D
4n.t 1/4n1 IŒ1; .t/: . 1/4n
Sfruttando la definizione di completezza, otteniamo: Z 0 D EŒg.T / D
4n
.t 1/4n1 g.t/ dt: . 1/4n
1
Questo vale 8 se e solo se g.t/ D 0. Quindi T è statistica completa. (c) Calcoliamo EŒT : Z EŒT D
ˇ Z 4n.t 1/4n1 t.t 1/4n ˇˇ 1 t D .t 1/4n dt D ˇ . 1/4n . 1/4n ˇ . 1/4n 1
1
4n C 1 1 D I D 4n C 1 4n C 1 quindi UMVUE sarà: X.n/ .4n C 1/ 1 : 4n
1
254
12 Esercizi di riepilogo
(d) Considerando: QD
X.n/ 1 : 1
FQ .t/ D P fX.n/ 1 C t. 1/g D
1 C t. 1/ 1 . 1/
4n D t 4n t 2 Œ0; 1:
Concludiamo che Q è una quantità pivot. (e)
P fa Q bg D b 4n a4n D 1 ˛: Ora: a
X.n/ 1 X.n/ 1 X.n/ 1 b ” 1C 1C : 1 b a
Quindi la lunghezza, l, dell’IC è proporzionale a
1 a
b1 .
@l b 0 .a/ 1 D 2 2 D 0: @a a b Inoltre, derivando il vincolo, si ha: 4nb 4n1 b 0 .a/ 4nan1 D 0: Quindi b 0 .a/ D
a 4n1 b
, da cui:
@l 1 a 4n1 a4nC1 b 4nC1 1 D < 0: D 2 C 2 @a a b b a2 b 4nC1 4n La lunghezza minima p si ha per a massimo cioè b D 1. Per cui: 1 a D 4n 1 ˛ H) a D ˛.
X.n/ 1 p IC D X.n/ I 1 C 4n : ˛
12.3 (a) Dato che: f .xI / D
e x IŒ0;C1/ .x/ x2
appartiene alla famiglia esponenziale, T .X / D
n X 1 X i i D1
12.2
Soluzioni
255
è statistica sufficiente per . Inoltre, dato che: w./ D W RC ! R e R contiene un aperto di R, possiamo concludere che T .X / è statistica sufficiente e completa per . Di conseguenza anche minimale. (b)
n L.I x/ D Qn
i D1
P
e 2
xi
1 xi
n Y
IŒ0;C1/ .xi /:
i D1
X 1 : xi @l.I x/ n n X 1 ” P 1: 0 ” @ xi x l.I x/ / n log./
i
Per cui: n OMLE D P 1 : Xi
(c) Sia Y D
1 , X
fY .y/ D
y 2 ey y12 P
1 xi q:c:
!
n
E ./. Quindi: q:c: 1 H) OMLE ! :
OMLE è stimatore consistente. n (d) EŒOMLE risulta essere pari a n1 (si sfruttino le proprietà della distribuzione n1 O gamma). Allora n MLE è UMVUE, in quanto stimatore non distorto di , funzione di statistica sufficiente e minimale. (e) Consideriamo il test: H0 W D 0
vs
H1 W D 1 I
con 1 > 0 . Per costruire la regione di rifiuto del test, applichiamo il Teorema N-P 6.2. x1 1 x0 1 R D 1 e > k0 e D x2 x2 1 0 D e x .1 0 / > k D 1 D fx > hg: 1
L’ultima uguaglianza è giustificata dal fatto che e x .1 0 / è crescente in x. Quindi, imponendo: ˇC1 ZC1 ˇ 0 ˇ 0 0 0 x dx D e x ˇ ˛ D P0 fX > hg D e D 1 e h I ˇ x2 h
h
256
12 Esercizi di riepilogo
si ha che: hD
0 : log .1 ˛/
Quindi la regione di rifiuto risulta: RD x>
0 : log .1 ˛/
(f) Dal punto precedente possiamo osservare che la regione di rifiuto non dipende da 1 , quindi la regione di rifiuto per il test al punto .f /, coincide con quella calcolata al punto .e/. 12.4 (a) Imponiamo che: 1D
X x xD1
Quindi k D
k
D
1 . C 1/ 1X xD : k xD1 k 2
. C1/ . 2
(b) X 2 . C 1/.2 C 1/ 2 C 1 2 x2 D D : . C 1/ xD1 . C 1/ 6 3
EŒX D Quindi:
Xn D
2OMOM C 1 3X n 1 H) OMOM D : 3 2
Inoltre: q:c:
Xn !
2 C 1 : 3
Quindi OMOM è stimatore consistente e le stime sono sempre attendibili dato che 2 N. (c) L.I x/ D D
n n Y Y 2n x If1;:::; g .xi / D i n . C 1/n i D1 i D1 n Y 2n xi IfX.n/ ;C1g ./: n . C 1/n i D1
12.2
Soluzioni
257
La likelihood è decrescente in , quindi: OMLE D X.n/ : Valutiamo ora la consistenza dello stimatore. FX.n/ .t/ D .FXi .t// D n
n X i D1
2i . C 1/
!n
t.t C 1/ . C 1/
n :
Quindi FX.n/ è costante a tratti e: q:c:
FX.n/ .t/ ! ı .t/ H) X.n/ ! : I valori di X.n/ sono sempre ammissibili. (d) Consideriamo il seguente test: H0 W 0
vs
H1 W > 0 :
Individuiamo la regione di rifiuto del test tramite LRT:
.x/ D ˇ ˇ ˇ sup L.I x/ˇ ˇ 0
D 0
sup 0 L.I x/ : L.OMLE I x/ ( X.n/ se X.n/ 0 I 0
se X.n/ > 0 :
Quindi: (
.x/ D
1 se X.n/ 0 I 0 se X.n/ > 0 :
Allora la regione di rifiuto risulta: ˚ R D X.n/ > 0 : 12.5 (a)
n 2n Y xi I.0; / .x.n/ /: f .xI / D 2n i D1
Quindi X.n/ è statistica sufficiente e, utilizzando il Teorema di L-S 2.6, concludiamo che X.n/ è statistica sufficiente minimale.
258
12 Esercizi di riepilogo
(b)
Z EŒX D
ˇ 2x 2 2 x 3 ˇˇ 2 dx D 2 ˇ D : 2 3ˇ 3 0
0
(c)
Quindi OMOM D 32 X n . 9 9 Var.X n / D Var.Xi / D 4 4n 1 0 2 Z 2 9 @ 2x 3 dx D AD 4n 2 3 0 2 4 4 2 9 9 2 4 2 D D D 4n 2 4 9 4n 2 9 2 9 9 2 8 2 D : D 4n 18 8n
Var.OMOM / D
Quindi: MSE.OMOM / D
2 : 8n
(d) Consideriamo il test: H0 W X f .xI 0 /
H1 W X U.0; 0 /:
vs
Applicando il Teorema N-P 6.2: RD
n o 1 2x I.0;0 / .x/ > k 2 I.0;0 / .x/ ” x < kQ : 0 0
Imponendo: ZkQ ˛ D PH0 .X 2 R/ D 0
kQ 2 2x dx D 2 ; 2 0 0
p otteniamo kQ D ˛. (e) La potenza del test è data da: ˚ p p PH1 X < ˛0 D ˛: Dato che:
p ˛ > ˛, concludiamo che il test è non distorto.
12.2
Soluzioni
259
12.6 2n 2n L.I x/ D Qn I ./: 3 .0;x.1/ / i D1 xi
(a)
Per cui:
(b)
OMLE D X.1/ : ˚ ˚ FX.1/ .t/ D P X.1/ t D 1 P X.1/ > t D 1 .P fXi > tg/n : ( ZC1 2 2 1; t I dx D 2 P fXi > tg D 3 x ; t > : t t
Da cui: FX.1/ .t/ D fX.1/ .t/ D
( 0; 1
2n t
t I ;
t > :
2n
2n I.;C1/ .t/: t 2nC1
(c) Consideriamo il test: H0 W D 0
H1 W ¤ 0 ;
vs
0 > 0:
Costruiamo il LRT: Q 3 xi 2n 02n D
.x/ D Q 3 I.0;x.1/ / .0 / n 2n xi 2 x.1/ I.0;x.1/ / .x.1/ / 0 2n I.0 ;C1/ .x.1/ /I D x.1/ da cui: R D f .x/ cg ”
˚
˚ X.1/ 0 [ X.1/ k :
Imponiamo: ˛ D P0 fX 2 Rg D P fX.1/ 0 g C P0 fX.1/ kg D da cui k D 2np0˛ . La regione di rifiuto risulta quindi: 0 p : R D X.1/ 2n ˛
0 k
2n I
260
12 Esercizi di riepilogo
(d) Osserviamo che: 0 RC D 0 X.1/ 2n p I ˛ da cui: ˚ p IC.1˛/ ./ D X.1/ 2n ˛ X.1/ è IC di livello 1 ˛. X (e) Sia Q D .1/ : ( FQ .t/ D P fX.1/ tg D
0 1
1 2n t
t 1I t > 1:
Sia:
1 D c 2n : IC D Œ0I cX.1/ H) .1 ˛/ D inf P . cX.1/ / D inf Q 0 0 c
Imponiamo il livello di confidenza pari ad 1 ˛, cioè c 2n D 1 ˛ H) c D p 2n 1 ˛. Concludiamo che: i h p 2n IC1˛ ./ D 0I 1 ˛X.1/ : 12.7 (a)
f .xI ; b/ D
n Y 1 I.0;b/ .X.n/ /I xi b n
Q
per cui, sfruttando il Teorema di L-S 2.6, concludiamo che X.n/ I Xi è statistica sufficiente e minimale per .b; /. (b) Sia sia noto. L.bI x; / D
n Y 1 I.X.b/ ;C1/ .b/ xi b n
è decrescente in b, per cui: bOMLE D X.n/ : 8 ˆ ˆ 1 : 2nk y nk1 e2 y D 1nk y nk1 e1 y che è decrescente in y. Quindi RD
nX
exi < t0
P
2 1
nk
e.2 1 /y I
eXi ha MLR crescente in y. Allora:
o con
t0 D ˛ .nk; 0 /:
(e) Sappiamo che: W Gamma.nk; 1/: 2nk 1 d 2 D .2nk/: 2W Gamma ; 2 2 Per cui: " IC.1˛/ ./ D
# 2˛ .2nk/ 21 ˛ .2nk/ 2 2 I : 2W 2W
12.9 (a)
ZC1 x 2 expfx 2 g dx D EŒX D 2 0
ZC1 1 2 2 x exp 2x dx D D 2 1
p
ZC1 2 2 1 1 2 2 x exp 2x dx D legge N 0; Dp p 2 2 2 2 1 r p 1 1 D D p : 2 2 p 1 X n D p ” OMOM D : 2 4 2 Xn p
(b)
12.2
Soluzioni
263
(c) Sfruttando le proprietà della famiglia esponenziale si ha che: T .X / D statistica sufficiente, minimale e completa per . (d) 1 p fX 2 .y/ D 2 y expfyg p D exp fyg I i 2 y
P
Xi2 è
vale a dire che Xi2 E ./ e quindi T Gamma.n; /. (e) n X o Y xi2 : L.I x/ D 2n n xi exp X l.I x/ / n log xi2 : @l.I x/ n X 2 D xi : @ Allora: n OMLE D P 2 : Xi (f) La LFGN ci garantisce che: q:c: OMOM !
(g)
e
q:c: OMLE ! :
Quindi entrambi gli stimatori sono consistenti. " 2 # @ n 2 In ./ D nI1 ./ D nE .log X / D n Var.X 2 / D 2 : @ Quindi: L p n OMLE ! N.0; 2 /:
(h) Var.Xi / D
0:21 ,
quindi: p
p 0:21 L n Xn p ! N 0; : 2
Si consideri il metodo delta 1.26 con: 1 : 4 t2 1 g 0 .t/ D 2 3 : 4t p g p D : 2 g.t/ D
264
12 Esercizi di riepilogo
Per cui vale: L p n OMOM ! N dove:
0:21 0 0; g
r
1 2
2 ! I
p 2 4 p 2 16 3 D p D : g p 2 0
Quindi concludiamo che: L p 0:21 n OMOM ! N 0; 16 2 : ARE.OML I OMOM / D
(i)
0:21 16 D 1:07
Quindi concludo che è meglio OMLE . 12.10 (a) Imponiamo che l’integrale della densità sia pari ad 1: Z C1 Z C1 Z C1 2 c .1 .x / / dx D c dx c .x /2 dx D
cc
ˇ C1 3ˇ
.x / ˇ ˇ ˇ 3
(b)
Dc
2 D 1: 3
Concludiamo quindi che c D 3=2. 3 3 1 .x /2 I.; C1/ .x/ D 1 .x /2 I.x1;x/ ./: L.I x/ D 2 2 che è funzione crescente in , quindi: OMLE D X:
(c) Sia Q D 1 .X /2 . Osserviamo che: Q D 1 .X /2 ” .1 Q/ D .X /2 ” X D C La densità di Q è:
p 1 Q:
2 1 p 3 1 p fQ .q/ D I.0;1/ .q/ D 1 C 1q 2 2 1q q 3 D p I.0;1/ .q/: 4 1q
Quindi Q è una quantità pivotale per .
12.2
Soluzioni
265
(d) IC.1˛/ ./ D Œa Q b D D a 1 .X /2 b D D 1 b .X /2 1 a D hp i p D 1b X 1a D i h p p D X 1a X 1b : (e) Per determinare il livello di confidenza dell’intervallo costruito al punto (d), devo calcolare: P f0:5 Q 0:9g D FQ .0:9/ FQ .0:5/: Nello specifico: ˚ FQ .t/ D P .1 .X //2 t D ˚ D P .X /2 1 t D n o p DP X C 1t D o n p D1P X