136 29 10MB
Spanish Pages 400 [382] Year 2020
![Inferencia Estadística Para Estudiantes De Ciencias [1 ed.]
9786073024778](https://ebin.pub/img/200x200/inferencia-estadistica-para-estudiantes-de-ciencias-1nbsped-9786073024778.jpg)
Jaime V´azquez Alamilla Lizbeth Naranjo Albarr´an Ruth Fuentes Garc´ıa Margarita Ch´avez Cano
inferencia estad´ıstica para estudiantes de ciencias
Facultad de Ciencias, UNAM
519.5 Vázquez Alamilla, Jaime, autor. Inferencia estadística para estudiantes de ciencias / Jaime Vázquez Alamilla, Lizbeth Naranjo Albarrán, Ruth Fuentes García, Margarita Chávez Cano. -- Ciudad de México : Universidad Nacional Autónoma de México, Facultad de Ciencias, 2019. xv, 384 páginas: ilustraciones ; 22 cm Incluye índice Bibliografía: paginas 375-378 ISBN: 978-607-30-2477-8 1. Estadística matemática. 2. Probabilidades. I. Naranjo Albarrán, Lizbeth, autor. II. Fuentes García, Ruth, autor. III. Chávez Cano, Margarita, autor. IV. Universidad Nacional Autónoma de México, Facultad de Ciencias, editor. V. Título. Biblioteca Nacional de México
scdd 22
Esta obra contó con el apoyo del proyecto PAPIME PE-107117 Inferencia estadística para estudiantes de ciencias 1a edición, 29 de septiembre de 2019
© D.R. 2019. Universidad Nacional Autónoma de México. Facultad de Ciencias. Ciudad Universitaria. Delegación Coyoacán, C. P. 04510, Ciudad de México Coordinación de servicios editoriales: [email protected] Plaza Prometeo: tienda.fciencias.unam.mx
ISBN: 978-607-30-2477-8 Diseño de portada: Laura Uribe Hernández y Celia Ayala Escorza Prohibida la reproducción parcial o total de la obra por cualquier medio, sin la autorización por escrito del titular de los derechos patrimoniales. Impreso y hecho en México.
Agradecimientos A la Direcci´ on General de Asuntos del Personal Acad´emico por el apoyo para la realizaci´ on de esta obra a trav´es del Proyecto Papime PE107117. A nuestro maestro de Inferencia Estad´ıstica, el Dr. Federico O’Reilly Togno, por sus sugerencias y por haber accedido a escribir el pr´ologo de este libro, pero sobre todo por habernos transmitido el gusto por esta materia. Es un honor, siendo ´el uno de los pilares de la estad´ıstica en M´exico. A los colegas profesores e investigadores que nos hicieron comentarios acerca de las notas que antecedieron a este texto. En particular al Dr. Eduardo Guti´errez Pe˜ na por sus valiosas observaciones. A Rafael Reyes S´ anchez por su extraordinario apoyo en la edici´on y formato de este libro. A los ayudantes (profesores adjuntos), quienes con su labor han sido parte fundamental del ´exito de los cursos de Inferencia Estad´ıstica que hemos impartido. Gracias tambi´en por sus aportaciones para la realizaci´on de este documento. A nuestros estudiantes de la Facultad de Ciencias de la Universidad Nacional Aut´ onoma de M´exico, porque ellos son la raz´on de nuestro trabajo y quienes nos motivaron a escribir el libro.
´Indice general Pr´ ologo
XV
Introducci´ on
XVII
1. ¿Qu´ e es la estad´ıstica? 1.1. La probabilidad y la estad´ıstica . . . . . 1.2. Enfoques de la estad´ıstica . . . . . . . . 1.2.1. El concepto de muestra aleatoria 1.3. Familia de localizaci´ on y escala . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
1 2 3 6 8
2. Estad´ıstica descriptiva 11 2.1. Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2. Datos y variables . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.2.1. Tipos de variables . . . . . . . . . . . . . . . . . . . . 12 2.2.2. Escalas de medici´ on . . . . . . . . . . . . . . . . . . . 13 2.2.3. Formas de recolecci´ on . . . . . . . . . . . . . . . . . . 14 2.3. Los datos y R . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.3.1. Cargando los datos . . . . . . . . . . . . . . . . . . . . 15 2.4. Representaci´ on gr´ afica de los datos . . . . . . . . . . . . . . . 16 2.4.1. Frecuencia, frecuencia relativa y frecuencia acumulada 17 2.4.2. Tablas de frecuencias . . . . . . . . . . . . . . . . . . . 17 2.4.3. Gr´ aficas de barras . . . . . . . . . . . . . . . . . . . . 18 2.4.4. Gr´ aficas de pay o pastel . . . . . . . . . . . . . . . . . 18 2.4.5. Diagrama de tallo y hojas . . . . . . . . . . . . . . . . 21 2.4.6. Histograma . . . . . . . . . . . . . . . . . . . . . . . . 21 2.4.7. Boxplot o diagrama de caja y brazos . . . . . . . . . . 24 2.5. Medidas muestrales de tendencia central . . . . . . . . . . . 27 2.5.1. La media muestral . . . . . . . . . . . . . . . . . . . . 27 2.5.2. La mediana muestral . . . . . . . . . . . . . . . . . . . 27 2.5.3. Porcentiles o percentiles . . . . . . . . . . . . . . . . . 28 v
´Indice general
vi
2.6. Medidas de dispersi´ on . . . . . . . . . . . . . . . 2.6.1. Varianza y desviaci´ on est´ andar muestrales 2.6.2. Rango muestral . . . . . . . . . . . . . . . 2.6.3. Rango intercuartil . . . . . . . . . . . . . 2.7. Otras medidas de resumen . . . . . . . . . . . . . 2.8. Relaciones lineales entre variables . . . . . . . . . 2.9. Anexo . . . . . . . . . . . . . . . . . . . . . . . . 2.10. Ejercicio . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
29 29 31 31 32 33 35 38
3. Estad´ısticas y distribuciones muestrales 39 3.1. Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.2. Distribuci´ on de las estad´ısticas . . . . . . . . . . . . . . . . . 44 3.2.1. Distribuci´ on de la media muestral . . . . . . . . . . . 44 3.2.2. La distribuci´ on de la varianza muestral . . . . . . . . 45 3.2.3. La distribuci´ on F de Fisher y el cociente de varianzas muestrales . . . . . . . . . . . . . . . . . . . . . . . . . 54 3.2.4. La distribuci´ on t de Student y algunas estad´ısticas relacionadas . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.3. Estad´ısticas de orden . . . . . . . . . . . . . . . . . . . . . . . 59 3.3.1. r-´esima estad´ıstica de orden (Yr ) . . . . . . . . . . . . 60 3.3.2. Distribuci´ on conjunta de las estad´ısticas de orden m´ınima y m´ axima . . . . . . . . . . . . . . . . . . . . . . . 61 3.4. Estad´ısticas suficientes . . . . . . . . . . . . . . . . . . . . . . 63 3.4.1. El concepto de suficiencia . . . . . . . . . . . . . . . . 65 3.4.2. El teorema de factorizaci´ on . . . . . . . . . . . . . . . 70 3.4.3. La familia exponencial . . . . . . . . . . . . . . . . . . 76 3.4.4. Suficiencia minimal . . . . . . . . . . . . . . . . . . . . 78 3.5. 3.6. 3.7. 3.8.
Completez . . . . . . . . Algunas generalizaciones Estad´ısticas auxiliares . Ejercicios . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
84 88 90 93
4. Estimaci´ on puntual 4.1. Introducci´ on . . . . . . . . . . . . . . . . . . . 4.2. M´etodos de estimaci´ on . . . . . . . . . . . . . 4.2.1. M´etodo de momentos . . . . . . . . . 4.2.2. Estimadores basados en verosimilitud 4.2.3. Verosimilitud en el enfoque Bayesiano 4.2.4. Otros m´etodos de estimaci´ on . . . . . 4.3. Evaluaci´ on de estimadores . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
105 105 106 108 112 125 133 138
´Indice general 4.3.1. Error cuadr´ atico medio y estimadores insesgados 4.3.2. Consistencia . . . . . . . . . . . . . . . . . . . . 4.3.3. Funciones de p´erdida y estimaci´on . . . . . . . . 4.4. Estimaci´ on insesgada . . . . . . . . . . . . . . . . . . . . 4.4.1. La propuesta de Cram`er y Rao . . . . . . . . . . 4.4.2. El teorema de Rao-Blackwell . . . . . . . . . . . 4.4.3. El teorema de Lehmann-Scheff´e . . . . . . . . . . 4.5. Propiedades asint´ oticas de los estimadores . . . . . . . . 4.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . .
vii . . . . . . . . .
. . . . . . . . .
. . . . . . . . .
139 144 146 148 149 159 160 167 172
5. Estimaci´ on por intervalos 5.1. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . 5.1.1. M´etodo pivotal para encontrar intervalos de confianza 5.1.2. El m´etodo de la cantidad pivotal para funciones de distribuci´ on continuas . . . . . . . . . . . . . . . . . . 5.1.3. M´etodo basado en estad´ısticas suficientes . . . . . . . 5.2. Intervalos para muestras de la distribuci´on normal . . . . . . 5.2.1. Intervalos para la media . . . . . . . . . . . . . . . . . 5.2.2. Intervalo para la varianza . . . . . . . . . . . . . . . . 5.2.3. Regi´ on de confianza para (µ, σ 2 ) . . . . . . . . . . . . 5.2.4. Intervalo para la diferencia de medias de poblaciones normales independientes . . . . . . . . . . . . . . . . . 5.2.5. Intervalo para el cociente de varianzas de poblaciones normales independientes . . . . . . . . . . . . . . . . . 5.3. Intervalos de confianza para muestras grandes . . . . . . . . . 5.3.1. Intervalo de confianza para el par´ametro p de una distribuci´ on binomial . . . . . . . . . . . . . . . . . . . . 5.4. Enfoque Bayesiano en la estimaci´ on por intervalos . . . . . . 5.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
183 183 189
6. Pruebas de hip´ otesis 6.1. Conceptos fundamentales en pruebas de hip´otesis . . . . . . . 6.1.1. Hip´ otesis estad´ısticas . . . . . . . . . . . . . . . . . . . 6.1.2. Tipos y tama˜ nos de los errores . . . . . . . . . . . . . 6.1.3. La funci´ on potencia . . . . . . . . . . . . . . . . . . . 6.2. Hip´ otesis simples . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.1. Pruebas m´ as potentes y el lema de Neyman-Pearson . 6.3. Pruebas uniformemente m´ as potentes . . . . . . . . . . . . . 6.3.1. Hip´ otesis simple contra compuesta . . . . . . . . . . . 6.3.2. La raz´ on mon´ otona de verosimilitudes y el teorema de Karlin-Rubin . . . . . . . . . . . . . . . . . . . . . . .
227 227 229 232 234 238 240 248 248
193 196 200 201 203 204 204 209 211 214 216 218
251
viii
´Indice general
6.4. La raz´ on de verosimilitudes generalizadas . . . . . . . . . . . 256 6.4.1. La prueba de la raz´ on de verosimilitudes generalizadas 257 6.4.2. La distribuci´ on asint´ otica de la raz´on de verosimilitudes264 6.5. El valor p (p-value) . . . . . . . . . . . . . . . . . . . . . . . . 268 6.6. Algunas pruebas basadas en raz´ on de verosimilitudes . . . . . 275 6.6.1. Prueba Ji-cuadrada para bondad de ajuste . . . . . . 276 6.6.2. La prueba de independencia en tablas de contingencia 286 6.7. Pruebas de hip´ otesis en el contexto Bayesiano . . . . . . . . . 296 6.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302 A. Algunos conceptos y resultados de probabilidad 319 A.1. Espacios de probabilidad . . . . . . . . . . . . . . . . . . . . . 319 A.2. Probabilidad condicional e independencia . . . . . . . . . . . 320 A.3. Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . 321 A.4. Distribuciones conjuntas y condicionales . . . . . . . . . . . . 322 A.4.1. Variables aleatorias discretas . . . . . . . . . . . . . . 324 A.4.2. Variables aleatorias continuas . . . . . . . . . . . . . . 325 A.4.3. Distribuci´ on condicional e independencia estoc´astica . 327 A.5. Momentos de variables aleatorias . . . . . . . . . . . . . . . . 328 A.5.1. Esperanza y varianza . . . . . . . . . . . . . . . . . . . 328 A.5.2. Momentos . . . . . . . . . . . . . . . . . . . . . . . . . 329 A.5.3. Funci´ on generadora de momentos . . . . . . . . . . . . 330 A.5.4. Esperanza de g (X1 , . . . , Xn ) . . . . . . . . . . . . . . 331 A.5.5. Coeficiente de correlaci´ on ρxy . . . . . . . . . . . . . . 332 A.5.6. Esperanza condicional . . . . . . . . . . . . . . . . . . 333 A.5.7. Funci´ on generadora de momentos conjunta y momentos 334 A.5.8. Independencia y esperanza . . . . . . . . . . . . . . . 334 A.6. Resumen de familias param´etricas . . . . . . . . . . . . . . . 336 A.6.1. Uniforme Discreta . . . . . . . . . . . . . . . . . . . . 336 A.6.2. Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . 336 A.6.3. Binomial . . . . . . . . . . . . . . . . . . . . . . . . . 337 A.6.4. Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 337 A.6.5. Geom´etrica . . . . . . . . . . . . . . . . . . . . . . . . 338 A.6.6. Binomial negativa . . . . . . . . . . . . . . . . . . . . 338 A.6.7. Hipergeom´etrica . . . . . . . . . . . . . . . . . . . . . 339 A.6.8. Logar´ıtmica . . . . . . . . . . . . . . . . . . . . . . . . 339 A.6.9. Uniforme continua . . . . . . . . . . . . . . . . . . . . 340 A.6.10. Exponencial . . . . . . . . . . . . . . . . . . . . . . . . 340 A.6.11. Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . 340 A.6.12. Ji-cuadrada . . . . . . . . . . . . . . . . . . . . . . . . 342 A.6.13. Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342
´Indice general
ix
A.6.14. Normal . . . . . . . . . . . . . . . . . . . . A.6.15. t de Student . . . . . . . . . . . . . . . . . A.6.16. F de Fisher . . . . . . . . . . . . . . . . . . A.6.17. Log-Normal . . . . . . . . . . . . . . . . . . A.6.18. Log´ıstica . . . . . . . . . . . . . . . . . . . A.6.19. Log-log´ıstica . . . . . . . . . . . . . . . . . A.6.20. Pareto . . . . . . . . . . . . . . . . . . . . . A.6.21. Gaussiana inversa . . . . . . . . . . . . . . A.6.22. Gompertz . . . . . . . . . . . . . . . . . . . A.6.23. Makeham . . . . . . . . . . . . . . . . . . . A.6.24. Benktander . . . . . . . . . . . . . . . . . . A.6.25. Gumbel . . . . . . . . . . . . . . . . . . . . A.6.26. Weibull . . . . . . . . . . . . . . . . . . . . A.6.27. Fr´echet . . . . . . . . . . . . . . . . . . . . A.7. Convergencia . . . . . . . . . . . . . . . . . . . . . A.7.1. Convergencia puntual . . . . . . . . . . . . A.7.2. Convergencia casi segura . . . . . . . . . . . A.7.3. Convergencia! en probabilidad . . . . . . . A.7.4. Convergencia en r-media (o r-´esima media) A.7.5. Convergencia en distribuci´ on . . . . . . . . B. Tablas de distribuciones de probabilidad B.1. Cuantiles para la distribuci´ on normal est´andar B.2. Cuantiles para la distribuci´ on Ji-cuadrada . . . B.3. Cuantiles para la distribuci´ on t de Student . . B.4. Cuantiles para la distribuci´ on F de Fisher . . .
. . . .
. . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
343 343 343 343 344 344 345 346 346 346 347 347 348 348 348 348 349 350 350 350
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
351 351 353 354 355
Bibliograf´ıa
357
´ Indice anal´ıtico
361
´Indice de figuras 2.1. Gr´ afica de barras correspondiente a las especies B (blue) u O (orange) de los cangrejos. . . . . . . . . . . . . . . . . . . . .
19
2.2. Gr´ afica de pay para las especies de cangrejos. . . . . . . . . .
19
2.3. Diagrama de pay para las 5 respuestas de una encuesta. . . .
20
2.4. Histogramas para la caracter´ıstica ancho del caparaz´ on de los cangrejos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
2.5. Diagrama de caja y brazos para la caracter´ıstica ancho del caparaz´ on de la base de datos de los cangrejos crabs. . . . . .
24
2.6. Diagramas de caja y brazos para la caracter´ıstica ancho del caparaz´ on por especie y por sexo para los datos de los cangrejos. 25 2.7. Gr´ afica de caja y brazos para la caracter´ıstica ancho del caparaz´ on para las diferentes variables asociadas a especie y sexo. 26 2.8. Gr´ afica de dispersi´ on para la base crabs y que ilustra la relaci´ on entre las diferentes medidas morfol´ogicas para los cangrejos. 33 2.9. Gr´ afica de correlaci´ on para las medidas morfol´ogicas de los cangrejos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
3.1. Karl Pearson (1857-1936). Desarroll´ o la estad´ıstica Ji-cuadrada y estudi´ o su distribuci´ on asint´ ontica. Se le considera el padre de la estad´ıstica. Imagen tomada de commons.wikipedia.org (public domain). . . . . . . . . . . . . . . . . . . . . . . . . .
48
xi
xii
´Indice de figuras 3.2. Ronald A. Fisher (1890-1962). “Incluso los cient´ıficos necesitan sus h´eroes y Fisher fue sin duda el h´eroe de la estad´ıstica del siglo XX. Sus ideas transformaron nuestra disciplina de tal forma que hasta un C´esar o un Alejandro hubieran envidiado”: Efron (1998). “Lo que es y fue importante para m´ı, es c´ omo Fisher, en los 1920..., hizo que los estad´ısticos reflexion´ aramos acerca de las ideas fundamentales”: Egon Pearson (1974). Dos citas que hacen alusi´on a la importancia de las contribuciones de Fisher en la estad´ıstica. La distribuci´on que lleva su nombre fue producto del trabajo que realiz´o con George Snedecor (1881-1974) de la Universidad de Iowa. Imagen tomada de commons.wikipedia.org (public domain). . 3.3. William Sealy Gosset (1876-1937), quien us´o el pseud´onimo de Student para publicar su trabajo, desarroll´o la distribuci´on t como respuesta a problemas pr´ acticos de variedades de cebada, trabajando en la cervecer´ıa Guiness. Imagen tomada de commons.wikimedia.org (public domain). . . . . . . . . . . .
55
58
4.1. Karl Pearson con Francis Galton. Ambos fundaron la revista Biometrika en 1901. Imagen tomada de commons.wikipedia.org (public domain). . . . . . . . . . . . . . . . . . . . . . . . . . 107 4.2. Placa English Heritage dedicada a Fisher en la casa Inverforth.108 4.3. Gr´ afica de la funci´ on de verosimilitud para una muestra de tama˜ no n de la distribuci´ on Uniforme continua en el intervalo [0, θ]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 4.4. Estimaci´ on m´ aximo veros´ımil para la familia Gama. . . . . . 125 4.5. Dulces smarties. Tomada de pixabay.com (im´agenes gratuitas de alta calidad). . . . . . . . . . . . . . . . . . . . . . . . . . 128 4.6. Comportamiento de las funciones a priori, a posteriori y de verosimilitud para la proporci´ on de marcas defectuosas y distintos valores de la muestra en el ejemplo 4.22. . . . . . . . . 133 4.7. El estimador T1 = X es insesgado para µ en el ejemplo 4.26. . 142 4.8. El estimador T2 = S 2 es insesgado para σ 2 . T3 no es insesgado para σ 2 , pero tiene un error cuadr´ atico medio menor que T2 (ejemplo 4.26). . . . . . . . . . . . . . . . . . . . . . . . . . . 142 4.9. Ilustraci´ on de la consistencia de X en el contexto del ejemplo 4.28. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 4.10. Ilustraci´ on de la consistencia de S 2 en el contexto del ejemplo 4.28. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
´Indice de figuras
xiii
5.1. Intervalos correspondientes a 100 muestras para tama˜ nos de muestra 10, 30 y 50, respectivamente y desviaci´on est´andar de 10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 5.2. Intervalos del 99 % de credibilidad para el ejemplo 5.10. . . . 217 5.3. Intervalos obtenidos por simulaci´ on para diferentes valores de σ y distintos tama˜ nos de muestra. . . . . . . . . . . . . . . . 219 6.1. Funci´ on potencia del ejemplo 6.1. . . . . . . . . . . . . . . . . 6.2. Funciones potencia del ejemplo 6.2. . . . . . . . . . . . . . . . 6.3. Funciones de densidad de la estad´ıstica de prueba S = X bajo ambas hip´ otesis y tama˜ nos de los errores. . . . . . . . . . . . 6.4. Probabilidad posterior del modelo por tama˜ no de muestra. .
236 238 246 300
Pr´ ologo Es para m´ı un honor el que los autores me hayan pedido escribir el pr´ologo a este libro. Lo es porque tengo un respeto muy grande por su trayectoria acad´emica y porque todos ellos fueron destacados estudiantes de la Maestr´ıa en Estad´ıstica en la que tuve la suerte de participar desde su inicio; de hecho, todos fueron mis alumnos del curso de Inferencia Estad´ıstica que durante muchos a˜ nos he impartido. Es importante hacer notar que algunos de estos autores obtuvieron posteriormente su doctorado mientras que otros atendieron tareas acad´emico-administrativas y de superaci´on. Su participaci´on en el Departamento de Matem´ aticas de la Facultad de Ciencias es y ha sido de enorme valor. Me toc´ o estar en el inicio de la Maestr´ıa en Estad´ıstica e Investigaci´on de Operaciones, que se ubic´ o dentro del CCH con la participaci´on muy destacada de la Facultad de Ciencias y del ahora IIMAS. Esto, a principios de los a˜ nos 70, en que se inici´ o formalmente un posgrado en estad´ıstica. Esa maestr´ıa, junto con otros posgrados, en los 90’s se integraron en el ahora Posgrado en Ciencias Matem´ aticas de la UNAM, siendo una de sus ´ areas la estad´ıstica y teniendo ya la posibilidad de ofrecer el nivel de doctorado en ese campo particular. En el posgrado, una materia central dentro de la estad´ıstica sigue siendo la inferencia. Pues bien, los autores de este libro cursaron la materia de Inferencia Estad´ıstica conmigo. Una de ellas la curs´o en los inicios, durante los 70’s, otros dos durante los 90’s, y la m´ as reciente, curs´o esa materia ya entrado el 2000. Sus experiencias compartidas y el inter´es por hacer un libro en estad´ıstica los llevaron a escribir este tomo que yo califico como excelente. Este libro, adem´ as de satisfacer sobradamente necesidades de los alumnos de la Facultad de Ciencias que quieran aprender estad´ıstica, contiene material de nivel de maestr´ıa. El libro resulta una fuente de consulta y un s´ olido texto para cursos serios introductorios y para cursos intermedios, incluido, repito, el nivel de maestr´ıa. Algunas discusiones hechas en el libro rememoran discusiones en clase cuando he impartido el curso. xv
xvi
´ logo Pro
Mis felicitaciones por un libro muy necesitado; y me enorgullece como universitario que un libro hecho por universitarios comprometidos tenga una calidad que yo califico de internacional. Me siento muy afortunado tambi´en por poder decir que con los autores he mantenido lazos acad´emicos y de amistad por muchos a˜ nos. Dr. Federico O’Reylli Togno Instituto de Investigaciones en Matem´aticas Aplicadas y en Sistemas Universidad Nacional Aut´onoma de M´exico
Introducci´ on Se puede decir que la estad´ıstica es una disciplina reciente con relaci´on a otras ramas de las matem´ aticas, no obstante que desde la antig¨ uedad existieron actividades relacionadas con el manejo de cifras, tales como las cuentas y datos vinculados con las poblaciones de las ciudades o, m´as generalmente, de los estados; situaci´ on que posiblemente es la g´enesis del t´ermino “estad´ıstica”. En Rao (1997), el estad´ıstico hind´ u Radhakrishna Rao menciona que “la estad´ıstica tiene gran antig¨ uedad pero escasa historia”, frase que refleja el hecho de que la estad´ıstica es joven como ´area formal, pero que pr´ acticamente ha estado presente a lo largo de la historia de la humanidad. Entre los cient´ıficos que m´ as han aportado a la estad´ıstica para convertirla en la disciplina con el car´ acter matem´ atico y de importante aplicaci´on para ayudar a explicar fen´ omenos del mundo real, sobresalen Francis Galton (1822-1911), Karl Pearson (1857-1936), Charles Spearman (1863-1945), Ronald Fisher (1890-1962) y Jerzy Neyman (1894-1981), s´olo por mencionar algunos. La inferencia estad´ıstica es una disciplina que se basa en gran medida en la probabilidad y que ayuda a resolver problemas haciendo conclusiones de alguna caracter´ıstica de la poblaci´ on, usando para ello datos muestrales de la misma. Por ejemplo, los estad´ısticos pueden realizar estudios de opini´on, en donde a trav´es del punto de vista de algunos ciudadanos que componen una muestra suficientemente representativa, se puede medir el pulso de temas de inter´es para el pa´ıs. La estad´ıstica involucra conceptos y resultados que pueden resumirse en grandes temas: an´ alisis exploratorio de datos, distribuciones muestrales, estimaci´ on puntual, estimaci´ on por intervalo y pruebas de hip´otesis, los cuales son fundamentales en el estudio y la aplicaci´on de esta disciplina. Para la lectura de este documento es importante contar con conocimientos de teor´ıa de la probabilidad, as´ı como de c´alculo diferencial e integral en una y varias variables.
xvii
Cap´ıtulo 1
¿Qu´ e es la estad´ıstica? El progreso de la ciencia con frecuencia se adscribe a la experimentaci´on. El investigador lleva a cabo un experimento, una encuesta o un conjunto de mediciones; obtiene datos y con base en ellos se busca sustentar una hip´ otesis o responder a una pregunta de investigaci´on. Es decir, a partir de un experimento particular, es deseable generalizar hacia la clase de todos los experimentos similares. La estad´ıstica no se refiere u ´nicamente a la recolecci´on de datos y a la presentaci´ on de cuadros y tablas resumen. Actualmente se comprende como la ciencia que basa la inferencia en datos observados y toma decisiones en t´erminos de incertidumbre. Aunque en su estado actual no puede manejar todas las situaciones que se presentan alrededor de la incertidumbre, constantemente se desarrollan nuevas t´ecnicas de an´alisis. La estad´ıstica est´ a presente en muchos ´ ambitos: el cient´ıfico, el social y el empresarial, s´ olo por mencionar algunos. Por ejemplo, tanto en la iniciativa privada como en el ´ ambito gubernamental, es vital contar con un manejo adecuado de la informaci´ on y el an´ alisis de grandes bases de datos que sirva a los diferentes agentes de la econom´ıa y la pol´ıtica al momento de tomar decisiones. Actualmente existen profesionales de la estad´ıstica que utilizan diversas t´ecnicas de este campo en empresas privadas, tales como casas encuestadoras que se dedican a hacer estudios de mercado, o bien en industrias relacionadas con diversos campos de la actividad econ´omica. Ejemplos de instituciones en donde el uso de la estad´ıstica es fundamental son: el INEGI, las secretar´ıas de estado, el IMP, PEMEX, el Banco de M´exico y las aseguradoras, s´ olo por mencionar algunas, pues el an´alisis y modelado de datos puede hacerse pr´ acticamente en cualquier entidad en donde se cuente con informaci´ on de cierto fen´ omeno o proceso. Adicionalmente, la 1
2
´ es la estad´ıstica? 1. ¿Que
estad´ıstica juega un papel importante en los estudios de mercado y otros procesos en donde es necesario obtener datos para posteriormente analizarlos y llegar a conclusiones mediante un modelo que depender´a de la naturaleza de dicha informaci´ on. Algunos estad´ısticos participan en el dise˜ no y validaci´on de encuestas y conteos r´ apidos relacionados con procesos electorales. Se puede decir entonces que la estad´ıstica se ocupa de los m´etodos cient´ıficos para recolectar, organizar, resumir, presentar y analizar datos usando modelos, as´ı como de obtener conclusiones v´alidas y tomar decisiones con base en ese an´ alisis. Es la rama de la matem´atica que utiliza conjuntos de datos para obtener inferencias basadas en el c´ alculo de probabilidades. En los siguientes p´ arrafos se pretende explicar la relaci´on entre la probabilidad y la estad´ıstica, as´ı como establecer la diferencias entre los enfoques para analizar un conjunto de datos.
1.1.
La probabilidad y la estad´ıstica
La teor´ıa de probabilidad permite modelar ciertos fen´omenos que ocurren en la naturaleza, siendo el modelo b´ asico un espacio de probabilidad (Ω, F, P) y una variable aleatoria X definida en ese espacio. En el contexto param´etrico, dada una variable aleatoria X, se tiene asociada una funci´on de densidad f (x; θ), la cual act´ ua en funci´ on de caracter´ısticas desconocidas llamadas par´ ametros. Gracias al conocimiento de la funci´ on de densidad de probabilidad, y por lo tanto de la funci´ on de distribuci´ on de una variable aleatoria X, se facilita la construcci´ on de espacios de probabilidad adaptados a fen´omenos aleatorios concretos. Es decir, gracias a la teor´ıa de la probabilidad se puede construir un modelo para describir una determinada variable aleatoria real a trav´es de su funci´ on de distribuci´ on. Por ejemplo, gracias a la teor´ıa de la probabilidad se pueden hacer aseveraciones como “el n´ umero de accidentes que ocurren en una importante intersecci´on vial de la Ciudad de M´exico durante un determinado periodo de tiempo se puede modelar como una variable aleatoria X que tiene una distribuci´on Poisson(λ)” o “la vida (tiempo de supervivencia) de un cierto tipo de foco tiene una distribuci´on Exponencial (λ)”. Asimismo, se pueden contestar preguntas probabil´ısticas relacionadas con la variable aleatoria como: ¿cu´al es la probabilidad de que no haya accidentes en ese cruce importante de avenidas en un d´ıa determinado? o ¿cu´ al es la probabilidad de que el foco dure m´as de un determinado periodo de tiempo? Sin embargo, las respuestas a estas preguntas quedan en t´erminos de par´ ametros; por ejemplo, si X tiene distribuci´on Poisson(λ), P(X = 0) = e−λ , est´ a en funci´ on de λ, donde λ > 0. Si se conociera el
1.2. Enfoques de la estad´ıstica
3
valor de λ, ser´ıa posible obtener un valor num´erico para las probabilidades de inter´es asociadas a la variable aleatoria. De esta manera, si se desea profundizar en la forma de adaptar un modelo probabil´ıstico a cada fen´ omeno concreto, ser´ıa necesario llevar a cabo observaciones del fen´ omeno en cuesti´ on con la finalidad de poder hacer conclusiones acerca de los par´ ametros de una poblaci´on y llegar a resultados num´ericos en el c´ alculo de probabilidades. Es aqu´ı donde la estad´ıstica juega un papel importante al analizar e interpretar la informaci´ on obtenida de una cierta poblaci´on con la finalidad de poder concluir sobre la ley de probabilidad que rige un fen´omeno aleatorio. Este procedimiento se conoce como inferencia estad´ıstica o estad´ıstica matem´ atica. Cuando se tiene un conjunto de observaciones acerca del fen´omeno considerado, se entra al terreno de la estad´ıstica con la finalidad de obtener informaci´ on acerca de la poblaci´ on en estudio con base en un conocimiento parcial o no exhaustivo de dicha poblaci´ on, ya que en la mayor´ıa de los casos, una observaci´ on exhaustiva es imposible o muy costosa. Por ejemplo, si se desea saber la intenci´ on del voto para una elecci´on presidencial, no se encuestar´ a a todos los ciudadanos en edad de votar, sino a una muestra representativa de la poblaci´ on (c´ omo elegir una muestra representativa, el tama˜ no adecuado de la misma y la forma de hacer la encuesta es objeto de estudio de otra materia), y con las observaciones obtenidas y los m´etodos de inferencia estad´ıstica se puede decir con cierta precisi´on el porcentaje de la poblaci´ on que en ese momento votar´ıa por cada uno de los candidatos de la contienda electoral. Con frecuencia el t´ermino estad´ıstica se entiende como el proceso de recolecci´ on de datos u observaciones, as´ı como el tratamiento num´erico que se le da a estos datos a trav´es de gr´ aficas y medidas que resumen la informaci´on, pero es necesario recalcar que el objetivo de la inferencia estad´ıstica es obtener conclusiones acerca de alguna caracter´ıstica de la poblaci´on en estudio a trav´es del an´ alisis e interpretaci´ on de las observaciones. Sin embargo, el tratamiento num´erico de los datos no es menos importante e idealmente un procedimiento de inferencia va antecedido por un tratamiento descriptivo.
1.2.
Enfoques de la estad´ıstica
La estad´ıstica se puede analizar desde dos enfoques: el descriptivo y el de inferencia o inferencial. Enfoque descriptivo: resumen y descripci´on de un conjunto de datos mediante gr´ aficas y medidas descriptivas.
4
´ es la estad´ıstica? 1. ¿Que Enfoque de inferencia: an´ alisis e interpretaci´on de la informaci´on obtenida de una muestra de la poblaci´on para hacer conclusiones generales acerca de las caracter´ısticas desconocidas de dicha poblaci´on.
De acuerdo a lo que se desea conocer del par´ametro, la inferencia estad´ıstica puede abordarse de la siguiente manera: 1. Estimaci´ on puntual: consiste en obtener un valor num´erico u ´nico para el par´ ametro, que represente de la mejor manera el proceso que gener´ o las observaciones. 2. Estimaci´ on por intervalos: consiste en obtener un rango de valores que el par´ ametro puede tomar, que represente de la mejor manera el proceso que gener´ o las observaciones. 3. Pruebas de hip´ otesis: consiste en contrastar dos aseveraciones acerca de la distribuci´ on de una variable aleatoria (usualmente representadas en t´erminos de valores que el par´ ametro puede tomar). Asimismo, la inferencia estad´ıstica se puede realizar desde una perspectiva diferente (no cl´ asica) conocida como m´etodo Bayesiano o estad´ıstica Bayesiana, el cual es un paradigma en el que se asocia una distribuci´on inicial al par´ ametro y, junto con las observaciones, se obtiene una distribuci´on final para dicho par´ ametro. Con base en este planteamiento, se hacen inferencias desde la ´ optica de estimaci´ on puntual o por intervalos y de pruebas Bayesianas. Tambi´en puede hablarse de inferencia estad´ıstica param´ etrica y no param´ etrica. En el primer caso se conoce la forma de la distribuci´on pero se desconocen los par´ ametros y es sobre ´estos que se realizar´a la inferencia. En el segundo caso se desconocen la forma de la distribuci´on y los par´ametros y las inferencias se hacen sobre ciertas caracter´ısticas que no tienen por qu´e corresponder a par´ ametros de una distribuci´ on. Definici´ on 1.1 Al conjunto de valores que el par´ ametro θ puede tomar se le llama espacio param´ etrico (o parametral) y se le denota por Θ. Ejemplos: En el caso de la distribuci´ on Bernoulli Θ = [0, 1]. En el caso de la distribuci´ on Poisson Θ = (0, ∞). La inferencia estad´ıstica tambi´en suele denominarse estad´ıstica inductiva o inferencia inductiva, pues va de lo particular a lo general al hacer conclusiones de una poblaci´ on a partir de una muestra representativa de la misma.
1.2. Enfoques de la estad´ıstica
5
La necesidad de trabajar con un conjunto reducido de la poblaci´on est´a asociada a varios factores, siendo uno de los m´ as importantes el econ´omico. Se puede decir que la poblaci´ on es el conjunto de observaciones o individuos sobre los que se desea informaci´ on y de ella se extrae un subconjunto al que se denomina muestra. El procedimiento para obtener las observaciones con las cuales se intenta disminuir el grado de desconocimiento de θ debe ser tal que la recolecci´ on de datos se realice siempre bajo las mismas condiciones y sin importar los resultados anteriores. En un contexto experimental, la definici´ on de la muestra puede depender de cu´ ales son los tratamientos que se desea comparar, bajo qu´e condiciones y si las comparaciones se har´ an con tama˜ nos de muestra y repeticiones iguales. En la literatura sobre dise˜ no de experimentos se aborda este tipo de planteamiento. Si se hace referencia al estudio de poblaciones, hay diferentes formas de obtener una muestra representativa. Aunque la teor´ıa del muestreo requiere una asignatura aparte, a continuaci´on se resumen las principales caracter´ısticas de los muestreos probabil´ısticos m´as usuales. Muestreo aleatorio simple: se trata de un procedimiento de muestreo (sin remplazo), en el que se seleccionan n unidades de las N en la poblaci´on, de forma que cualquier posible muestra del mismo tama˜ no tenga la misma probabilidad de ser elegida. Muestreo por conglomerados: se divide la poblaci´on en grupos de acuerdo con su proximidad geogr´ afica o de otro tipo (conglomerados). Se busca que cada grupo sea heterog´eneo y que tenga representadas todas las caracter´ısticas de la poblaci´ on. Se selecciona una muestra de conglomerados al azar y se toma el conglomerado completo o una muestra del mismo. Muestreo estratificado: se divide la poblaci´on en grupos homog´eneos (estratos) de acuerdo con las caracter´ısticas a estudiar. Por ejemplo, en un estudio de las caracter´ısticas socioecon´ omicas de una ciudad los estratos pueden ser las colonias de la misma, ya que las colonias suelen presentar caracter´ısticas diferenciales. Se selecciona una muestra aleatoria de cada estrato tratando de que todos los estratos de la poblaci´on queden representados. En un muestreo estratificado se consideran todos los estratos y en cada uno se considera una muestra de individuos. En el muestreo por conglomerados se seleccionan al azar los conglomerados que ser´an considerados y una vez elegidos se estudian todos los individuos de cada conglomerado. Existen otros tipos de muestreo, pero todo lo que se ver´a en los siguientes cap´ıtulos est´ a pensado para observaciones obtenidas con muestreo aleatorio simple.
6
´ es la estad´ıstica? 1. ¿Que
1.2.1.
El concepto de muestra aleatoria
El muestreo aleatorio simple garantiza una muestra representativa de la poblaci´ on y la obtenci´ on de observaciones independientes. Esta terminolog´ıa de muestreo puede entenderse si se considera una de las siguientes situaciones que aparecen frecuentemente en la estad´ıstica: (1) Se extraen los objetos, uno cada vez, de una colecci´on finita llamada poblaci´ on y se determina una caracter´ıstica particular de inter´es de cada objeto extra´ıdo. Despu´es de cada observaci´on y antes de la siguiente extracci´ on, se devuelve el objeto extra´ıdo y se mezcla la poblaci´on de objetos. (2) Se extraen los objetos de una poblaci´ on finita como en (1), excepto que los objetos no se remplazan. La poblaci´ on de objetos puede ser una colecci´on de personas y la caracter´ıstica observada puede ser el peso, color de ojos, preferencia pol´ıtica o alguna otra. Si se supone que cada selecci´ on es aleatoria, el muestreo en (1) recibe el nombre de muestreo aleatorio con remplazo y en (2) muestreo aleatorio sin remplazo o muestreo aleatorio simple. En cierto sentido, el muestreo aleatorio sin remplazo es mejor que el muestreo aleatorio con remplazo, ya que algunas veces la mezcla que se requiere con el remplazo de los objetos no siempre es f´acil de conseguir. Considerando los casos extremos, suponga que hay solamente 2 objetos en la poblaci´ on; cuando se extrae uno de ellos, la selecci´on de un segundo objeto proporciona la informaci´ on completa acerca de la poblaci´on original si el primero no fue remplazado. Por otro lado, si una poblaci´on es muy grande con respecto al tama˜ no de la muestra que va a ser extra´ıda, es pr´acticamente lo mismo si los objetos extra´ıdos son o no son remplazados; el muestreo sin remplazo se convierte en muestreo con remplazo cuando el tama˜ no de la poblaci´ on es infinito. La diferencia b´ asica entre los tipos de muestreo (1) y (2) no est´a en las distribuciones marginales de las observaciones individuales, porque en ambos casos estas observaciones son id´enticamente distribuidas. Sin embargo, en el caso (1) el resultado de cualquier observaci´ on no est´a afectado por los resultados de cualesquiera otras observaciones; las observaciones son fen´omenos aleatorios independientes. En el caso (2) las observaciones no son independientes. Hay otro tipo de situaci´ on que ocurre continuamente, diferente de (1) y (2), en la cual los resultados son matem´ aticamente del mismo tipo que (1):
7
1.2. Enfoques de la estad´ıstica
(3) Las observaciones se obtienen como resultado de realizaciones independientes repetidas de un experimento, bajo condiciones que son id´enticas con respecto a los factores que pueden ser controlados. Esta descripci´ on incluye a (1) como un caso especial, aunque no necesariamente se refiere a una “poblaci´ on” tangible de la cual se va a seleccionar un objeto. Sin embargo, es posible imaginar una poblaci´on muy grande de posibles resultados, en donde en cada repetici´on del experimento se cuenta con la misma colecci´ on que estaba disponible en el primer ensayo. Esto es, repetir el experimento bajo condiciones id´enticas significar´ıa que el primer resultado es “remplazado” y es nuevamente uno de los candidatos a ser “extra´ıdos” la siguiente vez. En ambos tipos de muestreo (1) y (3), las observaciones son independientes e id´enticamente distribuidas. El t´ermino muestreo aleatorio sin m´ as especificaci´ on se referir´a a tal proceso. Suponga que cuando se extrae un objeto la caracter´ıstica a medir se denota por X. A la distribuci´ on de X se le llama la distribuci´ on poblacional. Ejemplo 1.1 Una urna contiene cuatro bolas numeradas del 1 al 4. Se extraen 2 aleatoriamente, una cada vez. Sea X1 el n´ umero de la primera bola extra´ıda y X2 el n´ umero de la segunda bola extra´ıda. Hay 12 posibles resultados del experimento: (1, 2) (1, 3) (1, 4) (2, 3) (2, 4) (3, 4) (2, 1) (3, 1) (4, 1) (3, 2) (4, 2) (4, 3) Cada uno de estos 12 resultados tiene probabilidad 1/12. A partir de esto, se pueden calcular las distribuciones de X1 y X2 . Por ejemplo, P(X1 = 1) = P[(1, 2), (1, 3) o (1, 4)] = P[(1, 2)] + P[(1, 3)] + P[(1, 4)] =
1 1 1 1 + + = . 12 12 12 4
Similarmente: P(X2 = 1) = P[(2, 1), (3, 1) o (4, 1)] = P[(2, 1)] + P[(3, 1)] + P[(4, 1)] =
1 1 1 1 + + = . 12 12 12 4
De la misma forma se encuentra que para X1 cada uno de los valores posibles 1, 2, 3 y 4 tiene probabilidad 1/4 y que X2 tiene exactamente la misma distribuci´ on, la distribuci´ on poblacional.
8
´ es la estad´ıstica? 1. ¿Que
De esta manera, se dise˜ na un experimento y se lleva a cabo para proporcionar la observaci´ on X1 de la caracter´ıstica observable X. El experimento se repite bajo las mismas condiciones proporcionando el X2 . El proceso contin´ ua hasta tener n observaciones X1 , X2 , . . . , Xn de la caracter´ıstica X; a estas observaciones se les llaman los valores muestrales de X y se dice que constituyen una muestra aleatoria. Note que cuando se ha obtenido una muestra se tienen n observaciones num´ericas (x1 , x2 , . . . , xn ), pero cuando se est´ a planificando el procedimiento de muestreo y dise˜ nando el m´etodo para obtener inferencias a´ un no se sabe qu´e valores num´ericos se obtendr´an y deben considerarse n variables aleatorias; estas variables aleatorias ser´an, en el contexto que se discute, independientes e id´enticamente distribuidas. Definici´ on 1.2 Si X1 , . . . , Xn es un conjunto de variables aleatorias, independientes e id´enticamente distribuidas, entonces se dice que X1 , . . . , Xn es una muestra aleatoria (m.a.). Observaci´ on 1.1 Si X1 , . . . , Xn es una muestra aleatoria, entonces su funci´ on de densidad conjunta est´ a dada por fX1 ,...,Xn (x1 , . . . , xn ; θ) =
n Y
f (xi ; θ).
i=1
Observaci´ on 1.2 La distribuci´ on de la muestra aleatoria (o simplemente distribuci´ on de la muestra) ser´ a la funci´on de densidad conjunta de las variables aleatorias que componen la muestra aleatoria y, por la observaci´ on anterior, se calcular´ a como el producto de las densidades marginales de dichas variables. En el siguiente cap´ıtulo se estudiar´ a el an´alisis exploratorio de datos y en el cap´ıtulo 3 se analizar´ an funciones de la muestra aleatoria y sus caracter´ısticas con la finalidad de usarlas posteriormente en el proceso de estimaci´ on de par´ ametros. Para cerrar este cap´ıtulo, se abordan brevemente los conceptos de par´ametros de localizaci´ on y escala.
1.3.
Familia de localizaci´ on y escala
Una familia de localizaci´ on y escala es una familia de distribuciones con elementos obtenidos por traslaci´ on y cambio de escala de una familia de elementos est´ andar.
´ n y escala 1.3. Familia de localizacio
9
Sea Z una variable aleatoria con distribuci´on conocida. A las distribuciones de probabilidad de la variable aleatoria X que se pueden definir de la forma: X = a + bZ, a, b ∈ R, b > 0 se le denomina familia de localizaci´ on y escala construida a partir de la distribuci´ on de Z. En particular, si Z es una variable aleatoria continua con funci´on de densidad de probabilidad f (·), la familia de funciones de densidad: x−a 1 , a ∈ R, b > 0 f (x; a, b) = f b b forman la familia de localizaci´ on y escala de f (x). El par´ ametro de escala expande a la distribuci´on si b > 1 y la contrae si b < 1. El par´ ametro de localizaci´ on a traslada a la densidad por |a| unidades a la derecha si a > 0 o a la izquierda si a < 0. • Si b = 1 se tiene una familia de localizaci´on: f (x; a) = f (x − a) . • Si a = 0 se tiene una familia de escala: f (x; b) = 1b f xb . Ejemplo 1.2 La familia de distribuciones normales:
f (x; a, b) =
1/2
f (x) =
1 2π
1/2
1 2πb2
1 exp − x2 2
1 2 exp − 2 (x − a) , con a = µ y b = σ 2b
Ejemplo 1.3 La familia de distribuciones exponenciales: f (x) = e−x , x > 0 f (x; a, b) =
1 −(x−a)/b e ,x>a b
f (x; a) = e−(x−a) , x > a Ejemplo 1.4 La familia de distribuciones Cauchy: f (x) = f (x; a, b) =
1 1 , x∈R π 1 + x2 1 1 , x∈R πb 1 + x−a 2 b
Cap´ıtulo 2
Estad´ıstica descriptiva Se ha planteado ya que la recolecci´ on de datos es un proceso que requiere planeaci´ on. Una vez que los datos est´ an disponibles, su complejidad puede variar tanto en el n´ umero, como en el tipo de variables que se miden o registran. Un procedimiento de an´ alisis comienza con la extracci´on de res´ umenes u ´tiles; as´ı, cualquier procedimiento inductivo acerca de una poblaci´on en estudio debe confirmar las hip´ otesis planteadas mediante el an´alisis exploratorio. Es por ello que la estad´ıstica descriptiva es el inicio de cualquier procedimiento de an´ alisis estad´ıstico. En este cap´ıtulo se proporcionan los elementos b´ asicos para llevar a cabo un an´ alisis exploratorio de datos.
2.1.
Introducci´ on
La estad´ıstica descriptiva se distingue de la inferencia estad´ıstica en que la primera tiene como objetivo resumir un conjunto de datos en lugar de utilizarlos para hacer inferencias de la poblaci´on que se cree que dichos datos representan. Esto generalmente significa que la estad´ıstica descriptiva, a diferencia de la inferencia estad´ıstica, no se desarrolla sobre la base de la teor´ıa de la probabilidad. Su objetivo primario es entonces analizar un grupo determinado, resumiendo los datos de manera que se pueda enfatizar la informaci´ on relevante que sea u ´til para el planteamiento de preguntas y modelos. Este tema se puede abordar desde diferentes ´angulos, pero considerando el objetivo del presente texto, que est´ a m´ as enfocado a la inferencia estad´ıstica, s´ olo se hace una breve revisi´ on de los conceptos m´as importantes de la estad´ıstica descriptiva. Se utilizan para ello datos que est´an disponibles en el paquete estad´ıstico R, con el fin de ilustrar tambi´en el uso y resultados de 11
12
2. Estad´ıstica descriptiva
este software. La raz´ on principal para usar R es que este paquete es asequible por ser de uso libre y que, adem´ as de la popularidad que ha adquirido en los u ´ltimos a˜ nos en el ´ ambito educativo, se utiliza ampliamente en otros sectores. Tambi´en se exhiben los t´erminos m´ as importantes del an´alisis exploratorio de datos.
2.2.
Datos y variables
Una premisa b´ asica en el an´ alisis estad´ıstico es que el origen del conocimiento estad´ıstico est´ a en los datos. Cualquier procedimiento inductivo acerca de una poblaci´ on en estudio debe confirmar la fuerza de las diferencias encontradas mediante un procedimiento exploratorio. Es por ello que la estad´ıstica descriptiva debe anteceder a cualquier procedimiento de inferencia. Una muestra es una parte de la poblaci´on obtenida y se entiende por datos a las mediciones u observaciones recolectadas de una muestra. Los individuos son las personas, animales o cosas descritos en un conjunto de datos; a veces se les llaman unidades experimentales. Una variable es cualquier caracter´ıstica de un individuo. Las variables pueden tomar distintos valores para distintos individuos. Por ejemplo, los datos para un estudio del nivel socioecon´omico y cultural de los estudiantes de la Facultad de Ciencias tienen que hacer referencia a todos los alumnos. Estos son los individuos descritos por el conjunto de datos. Para cada individuo, los datos contienen los valores de variables como la edad en a˜ nos, el sexo (hombre o mujer), situaci´on laboral (trabaja o no), tipo de horario (matutino, vespertino, mixto), ingreso mensual del principal sost´en econ´ omico de su familia, tipo de entretenimientos (cine, TV, teatro, otro), pr´ actica de deportes (s´ı, no), deporte preferido, entre otros. No existe una u ´nica clasificaci´ on con respecto a la naturaleza de los datos. A continuaci´ on se dar´ an dos clasificaciones de los datos considerando dos criterios: el tipo de escala en la que se miden los datos y la manera en la que se recolect´ o la informaci´ on.
2.2.1.
Tipos de variables
De acuerdo a su tipo, se puede clasificar a las variables en cualitativas y cuantitativas. Los datos cuantitativos son aquellos en los que las observaciones se miden en una escala num´erica. Los datos no-num´ericos que s´olo se pueden clasificar por categor´ıas se conocen como datos cualitativos o datos categ´oricos.
2.2. Datos y variables
13
El n´ umero de hijos que tienen las familias en cierto poblado, el sueldo que perciben los trabajadores de cierta empresa, son datos cuantitativos. Sin embargo, el tipo de sangre (O, A, B, AB) de los pacientes de cierto hospital y el estado civil de las personas (soltero, casado, divorciado) son datos categ´ oricos.
2.2.2.
Escalas de medici´ on
Para considerar la precisi´ on con la que se eval´ uan los diferentes valores, existen cuatro niveles de medici´ on, los cuales se usar´an de acuerdo al tipo de variable que se est´e usando. Dato categ´ orico en escala nominal. Como su nombre lo dice, este tipo de variables hace referencia a “nombres”. B´asicamente es una clasificaci´ on de los datos con respecto a cierto criterio. En esta escala no hay ning´ un tipo de orden entre los datos. Son simples identificadores y son completamente arbitrarios. La u ´nica operaci´on que se puede realizar con este tipo de escala es el de conteo de los datos con el mismo identificador. Ejemplos de datos en esta escala son el tipo de sangre de los pacientes de cierto hospital y el estado civil de las personas. Dato categ´ orico en escala ordinal. Desde un punto de vista formal no tienen un orden; sin embargo, se le puede asignar uno que tenga sentido ya sea “creciente” o “decreciente”. Por ejemplo, peque˜ no, mediano o grande; o mucho, poco o nada. Los valores de esta escala representan categor´ıas con cierto orden asociado pero no en una cantidad espec´ıfica, es decir, no se puede determinar la distancia entre las categor´ıas, s´olo es interpretable el orden entre sus valores. Se pueden hacer operaciones de igualdad y “orden de magnitud”. Generalmente representan una cualidad que se est´ a “midiendo” y establecen si una observaci´on tiene m´ as de una cualidad que otra. Un ejemplo de datos en esta escala es el nivel socio-econ´ omico de las personas en una ciudad. Dato cuantitativo en escala de intervalo. Mediante esta escala se puede medir exactamente la intensidad con la que se posee una caracter´ıstica. Para ello se usa una unidad de medici´on cuyo origen se denomina “cero flotante” para enfatizar que cuando dicho origen se alcanza no implica la ausencia del atributo. Esta escala representa magnitudes, con la propiedad de igualdad de la distancia entre puntos de escala de la misma amplitud. Aqu´ı se puede determinar el orden (formal) entre sus valores, hacerse comparaciones de igualdad, y medir la distancia existente entre cada valor de la escala. La distancia igual entre puntos de la escala significa que puede saberse cu´antas unidades
14
2. Estad´ıstica descriptiva de m´ as tiene una observaci´ on comparada con otra, con respecto a cierta caracter´ıstica analizada. El ejemplo por excelencia de este tipo de escala es cualquier escala de temperatura, ya que el cero en ellas no significa que no haya temperatura. Dato cuantitativo en escala de raz´ on. Se dice que esta escala es la m´as completa. Tiene las mismas propiedades que la escala de intervalo, pero s´ı existe la noci´ on de cero “absoluto”, ya que se sit´ ua un punto cero fijo que al ser alcanzado implica ausencia de un atributo. En este caso, es posible realizar operaciones aritm´eticas de producto y cociente, y as´ı comparar mediante proporciones o razones. A iguales diferencias entre los n´ umeros asignados corresponden iguales diferencias en el grado de atributo estudiado. Ejemplos de datos en esta escala son longitud, peso, distancia, ingresos, precios, etc.
Ahora, suponga que se va a realizar un estudio m´edico y para ello se dispone de un conjunto de variables referentes a un grupo de pacientes. Las variables son: (a) G´enero (hombre o mujer). (b) Edad (en a˜ nos). (c) Raza (asi´ atica, blanca, negra u otras). (d) Fumador (s´ı o no). (e) Presi´ on sangu´ınea sist´ olica (mil´ımetros de mercurio). (f) Nivel de calcio en la sangre (microgramos por mililitro). (g) Practica alg´ un deporte o actividad deportiva (1 a 4 d´ıas de la semana; 5 a 7 d´ıas de la semana; ning´ un d´ıa de la semana). Como variables categ´ oricas se distinguen a g´enero (en escala nominal), raza (en escala nominal), fumador (en escala nominal) y actividad deportiva (en escala ordinal). Como variables cuantitativas se tienen a edad (en escala de raz´ on), presi´ on sangu´ınea (en escala de intervalo) y nivel de calcio (en escala de raz´ on).
2.2.3.
Formas de recolecci´ on
Tambi´en se puede clasificar a los datos con respecto a la manera en la que se recolectaron.
15
2.3. Los datos y R
Los datos en secci´ on cruzada son datos que se recolectan de diferentes elementos o variables en el mismo punto del tiempo (o en el mismo intervalo de tiempo). Los datos en serie de tiempo o longitudes son datos que se recolectan de un mismo elemento o variable en diferentes puntos en el tiempo (o para diferentes periodos de tiempo).
2.3.
Los datos y R
R es un lenguaje y entorno de programaci´ on para an´alisis estad´ıstico y gr´afico. Se trata de un proyecto de software libre, resultado de la implementaci´on GNU del lenguaje S. R y S-Plus -versi´ on comercial de S- son, probablemente, los dos lenguajes m´ as utilizados en investigaci´on por la comunidad estad´ıstica, siendo adem´ as muy populares en el campo de la investigaci´on biom´edica, la bioinform´ atica y las matem´ aticas financieras. R se puede descargar gratuitamente en la p´ agina oficial del proyecto http://www.r-project.org/. Para ilustrar los conceptos fundamentales de la estad´ıstica descriptiva, se considerar´ a un conjunto de datos, crabs que se encuentra en la biblioteca de R MASS. Los datos corresponden a un marco de datos (data frame) de 200 renglones y 8 columnas, describiendo 5 medidas morfol´ogicas de 50 cangrejos cada uno de dos colores y de ambos sexos, de la especie Leptograpsus recolectada en Fremantle, W. Australia1 .
2.3.1.
Cargando los datos
Se cargar´ an los datos desde R de la siguiente manera: > > > >
library(MASS) data(crabs) help(crabs) attach(crabs)
Los datos cargados est´ an en el formato data.frame que es un formato que est´ a compuesto de varios campos. La ventaja de este tipo de formato es que se pueden agrupar variables de varios formatos en una sola. Para saber los campos que contiene el data.frame se puede utilizar la instrucci´on ls() de la siguiente manera: > ls(crabs) [1] "BD" "CL"
"CW"
"FL"
"index" "RW"
"sex"
"sp"
1 Campbell, N.A. and Mahon, R.J. (1974). A multivariate study of variation in two species of rock crab of genus Leptograpsus. Australian Journal of Zoology 22, 417-425.
16
2. Estad´ıstica descriptiva Este conjunto de datos contiene las siguientes columnas: sp especie - “B” o “O” para blue u orange. sex sexo del cangrejo. index ´ındice 1 a 50, dentro de cada unos de los cuatro grupos. FL tama˜ no del l´ obulo frontal (mm). RW ancho trasero (mm). CL longitud del caparaz´ on (mm). CW ancho del caparaz´ on (mm). BD profundidad del cuerpo (mm).
En este punto se tienen las variables listas para realizar el an´alisis descriptivo.
2.4.
Representaci´ on gr´ afica de los datos
Una vez que se obtiene una muestra, para entender con m´as claridad el tipo de informaci´ on que se est´ a analizando, es muy com´ un representar dicha informaci´ on a trav´es de tablas o gr´ aficas. Estas representaciones gr´aficas son muy u ´tiles ya que dan un recurso visual que muchas veces facilita el an´alisis de la informaci´ on al mostrar algunos patrones con respecto al comportamiento de las variables que se est´ an estudiando. En un primer curso de estad´ıstica se estudian datos asociados a una sola variable. Las representaciones gr´aficas m´ as comunes son: Tabla de frecuencias. Gr´ afica de pastel. Gr´ afica de barras. Histograma. La informaci´ on categ´ orica generalmente se resume en tablas o gr´aficamente con gr´ aficas de barras, diagramas de puntos y gr´aficas de pastel.
´ n gra ´ fica de los datos 2.4. Representacio
2.4.1.
17
Frecuencia, frecuencia relativa y frecuencia acumulada
Suponga que se tienen los n elementos de una muestra de tama˜ no n, obtenida de una poblaci´ on, con k valores asociados a los eventos observados al realizar el experimento aleatorio que define la muestra, x1 , x2 , x3 , . . . , xk , y que de ´esta hay fi resultados id´enticos a xi (i ∈ {1, . . . , k}). Los n´ umeros f1 , f2 , f3 , . . . , fk se conocen como freciencias de ocurrencia de los valores x1 , x2 , x3 , . . . , xk , respectivamente; y satisfacen f1 + · · · + fk = n. Al cociente de una frecuencia fi entre el total de observaciones n (el tama˜ no de la muestra), se le conoce como frecuencia relativa de ocurrencia del valor xi correspondiente. Representando la frecuencia relativa de xi con fi∗ , se tiene que fi fi∗ = , i ∈ {1, . . . , k}. n A partir de la definici´ on de frecuencia relativa se obtienen de inmediato las condiciones para que un conjunto de n´ umeros sean frecuencias relativas ´ de los valores de una muestra. Estas son 0 ≤ f1∗ ≤ · · · ≤ fk∗ ≤ 1 y f1∗ + · · · + fk∗ = 1. Se conoce como frecuencia relativa acumulada de un valor xi , a la suma de frecuencias relativas de todos los valores anteriores o iguales al valor xi . Si Fi representa la frecuencia relativa acumulada de xi entonces Fi = f1∗ + · · · + fi∗ .
2.4.2.
Tablas de frecuencias
Las tablas son muy usadas para resumir informaci´on. En R la funci´on para crear tablas es la funci´ on table(). En su uso m´as simple, table(x) encuentra todos los valores u ´nicos en el vector x y tabula las frecuencias y su ocurrencia. La variable sexo (sex) puede ser tabulada como > table(sex) sex F M 100 100
18
2. Estad´ıstica descriptiva
Si se quisieran tabular conjuntamente las variables sexo (sex) y la especie del cangrejo (sp), se har´ıa de la siguiente manera: > table(sex,sp) sp sex B O F 50 50 M 50 50
2.4.3.
Gr´ aficas de barras
Los datos categ´ oricos tambi´en se pueden resumir de manera gr´afica. La representaci´ on m´ as com´ un quiz´ a sea la gr´ afica de barras. Una gr´afica de barras es un arreglo simple que acomoda los niveles de la variable en alg´ un orden y representa su frecuencia con una barra. Una gr´ afica de barras es una gr´ afica en la que las “barras” representan las frecuencias (o frecuencias relativas) de las diferentes categor´ıas. ´ En R, las gr´ aficas de barras se hacen con la funci´on barplot(). Esta usa un resumen de la informaci´ on, frecuentemente el que hace la funci´on table(). Los datos resumidos pueden estar en frecuencias o en proporciones. El resultado gr´ aficamente ser´ a el mismo, sin embargo, la escala del eje Y ser´a distinto. > barplot(table(sp),xlab="Especie",ylab="Frecuencia") En la figura 2.1 se presenta una gr´ afica de barras para la base de datos de los cangrejos.
2.4.4.
Gr´ aficas de pay o pastel
La gr´ afica de pay o pastel se utiliza para representar las frecuencias relativas o proporciones de las distintas posibles respuestas de una variable categ´orica. Esta grafica, as´ı como la gr´ afica de barras es ampliamente utilizada en los medios de difusi´ on de informaci´ on. Para hacer una gr´ afica de pay en R se utiliza la funci´on pie(), que utiliza argumentos similares al histograma para cambiar colores y agregar nombres: > pie(table(sp),radius = 0.68, cex=1.1, col = c("cornflowerblue","coral4"), labels=NA, main="Especies") > text(0.1,-0.3,"50%", cex=1.2) > text(0.1,0.3,"50%", cex=1.2) > legend(-1.1,-0.56,c("Orange", "Blue"), fill=c("cornflowerblue","coral4"),cex=0.8)
19
´ n gra ´ fica de los datos 2.4. Representacio
100
Frecuencia
75
Especie Blue
50
Orange
25
0 B
O
Figura 2.1: Gr´ afica de barras correspondiente a las especies B (blue) u O (orange) de los cangrejos.
En la figura 2.2 se muestra una gr´ afica de pay correspondiente a la base de los cangrejos.
Especie Orange Blue
Figura 2.2: Gr´ afica de pay para las especies de cangrejos.
20
2. Estad´ıstica descriptiva
Para ejemplificar el caso de m´ as categor´ıas, considere una encuesta con 5 posibles respuestas A, B, C, D y E, codificadas, respectivamente como 1, 2, 3, 4 y 5. Las respuestas obtenidas fueron 4, 2, 3, 2, 1, 2, 3, 3, 3, 3, 4, 3, 5, 3, 3, 2, 2, 4, 3, 2 Para generar el diagrama de pay se realiza lo siguiente: > respuesta (Tabla=table(respuesta)) respuesta 1 2 3 4 5 1 6 9 3 1 > names(Tabla) = c("A","B","C","D","E") > pie(Tabla, main="Encuesta") Una gr´ afica para los datos de la encuesta descritos arriba, puede observarse en la figura 2.3.
Respuesta A B C D E
Figura 2.3: Diagrama de pay para las 5 respuestas de una encuesta.
21
´ n gra ´ fica de los datos 2.4. Representacio
2.4.5.
Diagrama de tallo y hojas
El diagrama de tallo y hojas es una variante del histograma para desplegar la informaci´ on muestral, especialmente cuando las observaciones tienen dos d´ıgitos y no son conjuntos muy grandes de datos. Algo conveniente de este diagrama es el hecho de que se conserva la informaci´on de las observaciones en lugar de s´ olo agruparlas en intervalos. Esta manera de desplegar los datos se obtiene al ordenar las observaciones de acuerdo a su d´ıgito principal. Para ilustrar mejor este diagrama, antes de hacerlo en R se construir´a el siguiente ejemplo. Sup´ ongase que se tienen las siguientes observaciones: 75 68 93
98 57 85
42 95 70
75 55 62
84 79 80
87 88 74
65 76 69
59 60 90
63 77 62
86 49 84
78 92 64
37 83 73
99 71 48
66 78 72
90 53
79 81
80 77
89 58
62 78 95
63 79 98
64 79 99
65 80
66 80
68 81
69 83
Ordenando los datos se tiene lo siguiente: 37 70 84
42 71 84
48 72 85
49 73 86
53 74 87
55 75 88
57 75 89
58 76 90
59 77 90
60 77 92
62 78 93
Primero se listan los d´ıgitos principales a la izquierda de la l´ınea vertical. Despu´es, para cada observaci´ on se anota el segundo d´ıgito a la derecha de la l´ınea vertical en el rengl´ on de su d´ıgito principal. Por u ´ltimo, se ordenan los d´ıgitos de cada rengl´ on y a la derecha de la l´ınea para que est´en en orden ascendente. As´ı, el diagrama queda de la siguiente manera: > stem(x) 3 4 5 6 7 8 9
2.4.6.
7 289 35789 022345689 01234556778899 00134456789 0023589
Histograma
Un histograma es la representaci´ on visual de la distribuci´on de un conjunto de datos. Es decir, se intenta tener una idea acerca de c´omo se comportan pensando en una funci´ on de densidad emp´ırica. El histograma tiene algunas similitudes con la gr´ afica de barras (ver la funci´on barplot()), en el sentido
22
2. Estad´ıstica descriptiva
que tambi´en utiliza barras para indicar una frecuencia, pero a diferencia del diagrama de barras, cada barra en el histograma representa la frecuencia de un intervalo sobre el rango de las observaciones que se tienen. Cuando se elabora un histograma, se toma una decisi´on acerca de c´omo se va a dividir el rango de la muestra en intervalos y cu´an altas se dibujar´an las barras, dado que u ´nicamente tienen que estar en la proporci´on correcta. R tiene varios m´etodos para la selecci´ on de estos intervalos (Sturges, Scott y Freedman–Diaconis). Las dos maneras de establecer la altura de las barras son la frecuencia absoluta del intervalo y aquella que hace al ´area de la barra igual a la frecuencia relativa del intervalo. Bajo este u ´ltimo m´etodo, el ´area total de las barras sumar´ a 1, lo cual es conveniente cuando se est´a pensando en ajustar el modelo de una distribuci´ on de probabilidad. En la funci´ on hist(), la longitud de los intervalos est´a controlada por el par´ ametro breaks. Este puede ser especificado por el nombre de un algoritmo que los genere, el n´ umero de intervalos deseados o la localizaci´on exacta de los extremos de los intervalos deseados (breaks). La siguiente instrucci´ on imprime gr´ aficas: 2 renglones, 2 columnas: > par(mfrow=c(2,2)) O, un rengl´ on y 2 columnas: > par(mfrow=c(1,2)) Para graficar los histogramas la instrucci´ on de R es: > hist(CW,breaks="Sturges",freq=TRUE,col="lightgray",main= "Ancho del caparazon", ylab="Frecuencia absoluta") > hist(CW,breaks=30,probability=TRUE,col="gray",main="Ancho del caparazon", ylab="Frecuencia relativa") Los histogramas aparecen en la figura 2.4. Puede notarse que los histogramas anteriores se graficaron de tal modo que muestran la frecuencia absoluta (freq=TRUE o probability=FALSE) y la frecuencia relativa (freq=FALSE o probability=TRUE) de los intervalos dados, respectivamente. Procedimiento y consideraciones para la construcci´ on de una tabla de frecuencias y un histograma 1. Determinar los valores m´ınimo y m´ aximo de las observaciones y calcular la diferencia entre estos valores. A este n´ umero se le conoce como rango.
23
´ n gra ´ fica de los datos 2.4. Representacio Ancho del caparazón
Ancho del caparazón
0.06
Frecuencia relativa
Frecuencia absoluta
40
30
20
0.04
0.02
10
0
0.00 20
30
40
CW
50
20
30
40
50
CW
Figura 2.4: Histogramas para la caracter´ıstica ancho del caparaz´ on de los cangrejos. 2. Seleccionar el n´ umero de clases M de tal forma que estas clases abarquen toda la informaci´ on. Usualmente, una forma aproximada para √ elegir el n´ umero de clases es M = n ´o M = log(n) + 1, donde n es el n´ umero total de observaciones. La idea es utilizar suficientes clases para mostrar la variaci´ on de los datos pero no tantas como para que haya pocos datos en algunas de las clases. Una regla es que la longitud de las clases debe ser ligeramente mayor que el cociente max−min M donde M es el n´ umero de clases. 3. El primer intervalo debe tener extremo inferior ligeramente menor que el m´ınimo de los datos y el u ´ltimo intervalo debe tener extremo superior ligeramente mayor que el m´ aximo de los datos. Los l´ımites de la clase son los valores m´ınimo y m´ aximo en cada clase. La marca de clase es el punto medio del intervalo de clase. 4. Ninguno de los datos debe estar en las fronteras de las clases. 5. Para una tabla de frecuencias se deben enlistar los intervalos de clase y escribir el n´ umero de datos en cada clase, fi , y tambi´en la frecuencia relativa fi∗ = fni .
24
2. Estad´ıstica descriptiva 6. La base de cada barra ser´ a la longitud de la clase y la altura ser´a la correspondiente frecuencia de dicha clase (es decir, el n´ umero de datos que pertenecen a dicha clase).
2.4.7.
Boxplot o diagrama de caja y brazos
El boxplot o diagrama de caja y brazos es una manera de representar los datos de una muestra a trav´es de la informaci´on de sus cuartiles (ver secci´on 2.5). Estos diagramas tienen unas l´ıneas que indican la variabilidad presente fuera del intervalo intercuatil. Es una gr´ afica que suministra informaci´on sobre los valores m´ınimo y m´ aximo, los cuartiles Q1 , Q2 (mediana) y Q3 , y sobre la existencia de valores at´ıpicos y la simetr´ıa de la distribuci´on. Los diagramas de caja muestran la variaci´on de una muestra sin hacer suposiciones de la distribuci´ on probabil´ıstica de la cual provienen, es decir, tienen un enfoque no-param´etrico. En R existe la instrucci´ on boxplot() para dibujar este diagrama. En el caso de los datos que se han estado utilizando (crabs): > boxplot(CW,ylab="Ancho del caparazon")
Ancho del caparazón
La gr´ afica de caja y brazos para “ancho del caparaz´on” se muestra en la figura 2.5.
50
40
30
20
Cangrejos
Figura 2.5: Diagrama de caja y brazos para la caracter´ıstica ancho del caparaz´ on de la base de datos de los cangrejos crabs. Tambi´en se usan los diagramas de cajas y brazos cuando se busca comparar una variable cuantitativa con una variable cualitativa:
25
´ n gra ´ fica de los datos 2.4. Representacio > par(mfrow=c(1,2)) > boxplot(CW~sp, xlab="Especie",ylab="Ancho del caparazon") > boxplot(CW~sex, xlab="Sexo",ylab="Ancho del caparazon")
Para una gr´ afica de caja y brazos con estas caracter´ısticas, v´ease la figura 2.6.
50
40
Especie Blue Orange
30
20
Ancho de caparazón
Ancho del caparazón
50
40
Sexo Femenino Masculino
30
20
B
O
Especie
F
M
Sexo
Figura 2.6: Diagramas de caja y brazos para la caracter´ıstica ancho del caparaz´ on por especie y por sexo para los datos de los cangrejos. Inclusive se puede comparar una variable cuantitativa con m´as de una variable cualitativa de manera simult´ anea: > boxplot(CW~sp+sex, xlab="Especie y Sexo",ylab="Ancho del caparazon") Ver la figura 2.7. Procedimiento para construir un diagrama de caja y brazos 1. Dibujar un eje de medida vertical y marcar Q1 , Q2 (la mediana) y Q3 en este eje. 2. Construir una caja rectangular cuya base inferior es el cuantil Q1 (primer cuartil) y su base superior es el cuantil Q3 (tercer cuartil).
26
2. Estad´ıstica descriptiva
B
O
Ancho del caparazón
50
40
Sexo Femenino Masculino
30
20
F
M
F
M
Figura 2.7: Gr´ afica de caja y brazos para la caracter´ıstica ancho del caparaz´ on para las diferentes variables asociadas a especie y sexo.
3. Dibujar una l´ınea horizontal dentro de la caja a la altura de la mediana Q2 . 4. Sea RI el rango intercuartil, es decir, RI = Q3 − Q1 . Dibujar un segmento de recta del punto medio de la base inferior de la caja hacia abajo de longitud 1.5 · RI . 5. Dibujar un segmento de recta del punto medio de la base superior de la caja hacia arriba de longitud 1.5 · RI . A estos dos u ´ltimos segmentos se les conoce como “brazos”. 6. Marcar en el diagrama con puntos aquellas observaciones que est´en por encima y por debajo en una distancia de a lo m´as 1.5 · RI . A estas observaciones se les conoce como observaciones at´ıpicas moderadas. 7. Marcar en el diagrama con asteriscos aquellas observaciones que est´en por encima y por debajo en una distancia de al menos 1.5 · RI . A estas observaciones se les conoce como observaciones at´ıpicas extremas.
2.5. Medidas muestrales de tendencia central
2.5.
27
Medidas muestrales de tendencia central
Los m´etodos gr´ aficos vistos en la secci´ on anterior ayudan a visualizar los patrones de un conjunto de observaciones. Para obtener un resumen m´as objetivo, el siguiente paso ser´ a obtener valores num´ericos para saber d´onde est´ an centrados los datos y la variabilidad presente en ellos. Las dos medidas de tendencia central m´ as com´ unmente utilizadas son la media y la mediana.
2.5.1.
La media muestral
La media muestral de un conjunto de n observaciones x1 , x2 , . . . , xn es la suma de estas observaciones divididas entre n. La media muestral se denota como x. Es decir, Pn xi x = i=1 . n Para calcular la media muestral del ancho del caparaz´on en R, se puede hacer de la siguiente manera > (sumaCW=sum(CW)) [1] 7282.9 > nCW (mediaCW mean(CW) [1] 36.4145
2.5.2.
La mediana muestral
Otra medida de tendencia central muestral utilizada es la mediana definida de la siguiente manera. La mediana muestral de un conjunto de n observaciones x1 , x2 , . . . , xn , es el valor mc definido en los siguiente dos casos: Si n es impar, mc es el valor que ocupa la posici´on n+1 una vez que 2 los datos han sido ordenados, es decir, mc = x(n+1)/2 . Si n es par, la mediana es la media aritm´etica de los dos valores centrales. Cuando n es par, los datos que est´an en el centro de la muestra x +x ocupan las posiciones n2 y n2 + 1; as´ı, mc = (n/2) 2((n/2)+1) .
28
2. Estad´ıstica descriptiva
Para calcular la mediana muestral en R, se puede construir una funci´on, de acuerdo a la definici´ on anterior, como se especifica a continuaci´on: mediana difs.CW=CW-mediaCW # Diferencias respecto a la media > difs.cuad.CW=difs.CW^2 # Diferencias cuadradas > sum.difs.cuad.CW=sum(difs.cuad.CW) # Suma > var.CW=(sum.difs.cuad.CW)/(nCW-1) # Varianza muestral > var.CW # Imprime el resultado [1] 61.96768 Haciendo el c´ alculo de la varianza muestral para CM con menos variables auxiliares > x=CW # Para hacer la notacion menos pesada > var.CW=sum((x-mean(x))^2)/(length(x)-1) # Varianza muestral > var.CW # Imprimir el resultado [1] 61.96768 Ahora, utilizando la funci´ on var(), la cual calcula autom´aticamente la varianza muestral > var(CW) [1] 61.96768 Desviaci´ on est´ andar muestral La varianza a veces no se interpreta claramente, ya que se mide en unidades cuadr´ aticas. Para evitar ese problema se define otra medida de dispersi´on, que es la desviaci´ on t´ıpica, o desviaci´ on est´ andar, que se halla como la ra´ız cuadrada positiva de la varianza. La desviaci´on t´ıpica informa sobre la dispersi´ on de los datos respecto al valor de la media en las mismas unidades que los datos; cuanto mayor sea su valor, m´as dispersos estar´an los datos. As´ı, la desviaci´ on est´ andar muestral estar´ a dada por v u n √ u 1 X 2 s = s2 = t (xi − x) . n − 1 i=1 Haciendo el c´ alculo en R. La funci´ on sqrt() calcula la ra´ız cuadrada del valor dado > (desv.est.CW=sqrt(var.CW)) [1] 7.871955 Tambi´en se puede utilizar la funci´ on sd(): > sd(CW) [1] 7.871955
´n 2.6. Medidas de dispersio
2.6.2.
31
Rango muestral
Se denomina rango estad´ıstico o recorrido estad´ıstico al intervalo entre el valor m´ aximo y el valor m´ınimo, por ello tiene las mismas unidades que los datos. El rango muestral es el tama˜ no del intervalo m´as peque˜ no que contiene a todas las observaciones. Permite obtener una idea de la dispersi´on de los datos: cuanto mayor es el rango, m´ as dispersos est´an los datos de un conjunto. Para un conjunto de observaciones {x1 , x2 , . . . , xn }, el rango est´a definido por: Rango = m´ ax {x1 , x2 , . . . , xn } − m´ın {x1 , x2 , . . . , xn } . Haciendo el c´ alculo en R, > (rango.CW CW.Q1.Q3 (CW.R.I pairs(crabs[,4:8]) El resultado de esta instrucci´ on se presenta en la gr´afica de dispersi´on de la figura 2.8. 18
● ●● ● ● ● ●● ● ●● ● ● ●● ● ●● ●●●● ● ● ● ●● ●● ●●● ● ● ●●● ● ● ● ●●●● ● ● ● ●● ●● ●● ●● ● ● ●● ● ● ● ● ● ●● ● ● ● ●● ● ● ●●● ● ●● ●● ● ● ● ● ●● ● ● ●● ●● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ●●●●●● ● ●● ● ● ●● ●● ●● ● ●● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ●● ● ●● ● ● ● ●● ●● ● ● ● ● ●●●● ● ● ●●●● ● ●● ● ● ● ●
FL
20 ●
● ● ●●●● ●●● ●● ● ●● ● ● ● ●● ● ● ●●● ● ● ● ● ● ●● ●● ●● ●●●● ● ●● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ●● ● ● ●● ● ●● ●● ● ● ● ●● ● ●● ● ●●● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ●●● ● ● ●● ● ● ● ● ● ●● ● ●● ● ● ● ● ●● ● ●●● ● ●● ●● ● ● ●●● ● ● ● ●● ●●● ●● ●● ● ●● ● ●● ● ● ● ●● ● ● ● ●
6
10
16
●
20
40
●
●
●
● ● ● ● ● ●● ●● ●●● ● ● ●● ● ●● ●●●● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●● ● ● ●● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●●● ● ● ● ●● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ●●● ● ● ●● ●● ● ● ● ● ● ● ●● ● ● ●●● ● ● ● ● ● ●● ● ●● ●● ● ●● ●●
● ● ● ● ●● ● ●●● ● ● ● ●●● ● ● ● ● ● ● ●● ●● ●● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ●● ●● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ●● ●●● ● ●● ● ●● ●● ● ●●● ● ● ●● ●●●
10
15
20
40
●● ● ●● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ●●● ● ●● ●● ●● ● ●●● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●●●● ● ● ●●● ● ●● ●● ● ● ● ● ●●●● ●●● ● ● ●● ● ● ● ● ●● ● ● ● ● ●●● ● ● ● ● ● ● ●●● ● ●●● ● ● ● ● ● ●● ●● ● ●● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●●●
RW
● ● ●
● ● ●
● ● ● ● ● ● ● ● ● ● ●● ● ●●● ● ●●● ●● ● ● ● ●●● ● ●● ● ●● ● ● ● ●● ● ● ● ●●●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ●●● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●● ● ●● ●● ●● ●● ● ● ●● ● ● ● ● ● ●●● ● ●● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ●●●● ●●● ● ●● ● ● ●● ● ● ●● ●●● ● ● ●●● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ●● ●●● ● ● ●●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ●● ● ● ●● ●● ● ●● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ●● ● ● ●● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ●●●● ● ●● ●●
● ● ● ● ● ●●● ● ● ●● ● ● ●● ● ● ●● ● ● ● ●● ●● ● ●● ● ● ● ● ● ● ● ●●●●●●●● ●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ●●● ●●● ● ● ● ● ● ● ●●● ● ●● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●●●●●●●●● ● ●●● ●● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●●● ●● ● ● ● ●●●● ●● ●●●●● ●● ● ● ● ● ●● ● ●● ● ●
● ●●
CL ● ● ●
●
● ● ●● ●●●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ●● ● ● ●● ● ●● ●●● ● ● ●● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ●● ● ● ● ● ●● ●● ●● ● ●● ● ● ● ● ● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ●● ● ● ● ●●● ● ● ● ● ● ●● ●● ● ●● ● ● ● ●● ● ● ● ● ● ●● ●● ● ● ●● ● ● ● ● ●●●● ● ● ● ● ●●● ●
15
25
35
45
●
● ● ●●● ● ● ●● ●●● ● ●●●● ● ● ● ●● ● ● ● ● ●●●● ● ● ● ● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ●● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ●● ●● ●● ● ●
●
●
●
50
● ● ●● ● ●● ●●● ● ●●● ●● ● ● ●● ● ●● ● ● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ●● ●● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ●●● ● ●● ● ● ● ● ●●●● ●● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ●● ●● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ● ●● ● ● ●● ●● ●● ● ● ●● ●● ● ● ●●● ●● ●● ●●● ● ● ●● ● ● ●● ● ● ● ●
●
● ● ●● ●● ● ●●● ● ● ● ● ● ●● ● ● ●●●● ●●●● ●● ● ● ● ●● ●● ●●●● ● ●● ● ●● ● ● ●●● ● ● ● ● ● ●● ● ● ● ●● ●●● ● ●● ● ●● ● ●●●● ● ● ● ● ● ● ● ● ●● ●● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ● ● ● ●● ● ●● ● ● ● ●● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ●●● ● ● ● ●● ● ● ● ●● ●● ● ●●● ●● ●● ●● ●● ● ● ● ● ● ●● ● ● ● ●●●● ●● ●● ●● ● ● ● ● ● ● ● ●●● ●● ● ● ● ● ● ●● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ●● ● ● ●●●● ● ●● ● ●● ● ● ● ● ●● ● ●●●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ●● ● ● ● ● ●● ● ● ●●
30
●
● ●● ● ● ● ●● ● ● ● ●● ● ● ●●● ●● ●● ●● ●● ● ● ●● ● ● ●● ● ●●● ●●● ● ● ● ● ●● ● ● ●●●●● ● ● ● ●●●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ●● ●● ● ● ● ● ● ● ● ● ● ● ●●●● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ●●● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ●● ● ●●
● ●● ● ● ● ● ● ●● ● ●● ● ● ● ●●●●●●● ● ●●●● ●● ● ●●●●● ● ●● ●● ●●● ●● ●●● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ●● ●● ●● ● ●● ●●● ● ● ●●● ●● ●● ● ● ●● ● ●● ● ●● ●● ● ● ● ● ●● ● ● ● ●● ●●● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ●●● ●● ●●●●● ● ● ●● ● ● ●● ● ●●
●● ● ●●● ●●● ● ●● ●● ● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ●● ● ● ●● ● ● ●● ● ● ● ●●
● ● ●● ●● ● ● ●● ● ● ● ● ●● ●● ●●● ● ● ● ● ● ●●● ● ● ● ●● ● ● ● ●●● ● ● ●● ●● ● ●● ● ● ● ●●● ● ●●● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ●● ● ● ● ●● ● ●●● ● ●● ●● ● ●●● ● ●● ●●
●
CW ●
● ● ●
10 15 20
14
15 25 35 45
10
● ● ●● ● ●● ●● ● ● ● ●● ● ● ● ● ● ●● ● ● ●● ● ● ● ●●● ●● ● ● ● ●● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ●● ●● ● ● ●●● ● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ●● ● ●● ● ● ● ● ●● ●● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ●● ● ● ●● ●●● ● ●●● ● ● ●● ●● ●● ●● ●● ● ● ●● ●●
●● ●●● ● ● ● ●●● ●● ● ●●●● ● ● ● ● ● ● ●●●● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ●●● ●● ● ● ●● ●●● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ●●●● ● ● ●● ● ●●● ●● ● ●● ● ● ● ● ● ●●● ● ● ●● ● ●● ● ● ●●● ● ●● ● ●●●● ● ●●● ● ● ● ●●
10 15 20
6
BD 10
15
20
Figura 2.8: Gr´ afica de dispersi´ on para la base crabs y que ilustra la relaci´on entre las diferentes medidas morfol´ ogicas para los cangrejos.
34
2. Estad´ıstica descriptiva
Coeficiente de correlaci´ on de Pearson Para dos variables aleatorias continuas X y Y , se define el coeficiente de correlaci´ on como: Cov(X, Y ) ρXY = p 2 2 . (σX σY ) Note que −1 ≤ ρXY ≤ 1, as´ı valores cercanos a −1 y 1 indican una fuerte relaci´ on lineal con pendiente negativa y positiva, respectivamente. Para una muestra aleatoria de variables (xi , yi ), i = 1, 2, . . . , n; se define el coeficiente de correlaci´ on muestral (conocido como coeficiente de correlaci´ on de Pearson) de la siguiente manera: Pn (xi − x ¯)(yi − y¯) r = p Pn i=1 . Pn [ i=1 (xi − x ¯)2 ] [ i=1 (yi − y¯)2 ] La informaci´ on muestral para las variables continuas en los datos crabs, puede resumirse en la gr´ afica de la figura 2.9, obtenida con la instrucci´on: 1
FL
0.8
0.6
0.91
RW
0.4
0.2
0.98
0.89
CL
0
−0.2
0.96
0.9
1
CW
−0.4
−0.6
0.99
0.89
0.98
0.97
BD
−0.8
−1
Figura 2.9: Gr´ afica de correlaci´ on para las medidas morfol´ogicas de los cangrejos.
2.9. Anexo
35
>library(corplot) >corrplot.mixed(cor(crabs[,4:8]),lower="number",upper="color") Note que, como se ha observado en el diagrama o gr´afica de dispersi´on, la asociaci´ on lineal es fuerte entre las variables.
2.9.
Anexo
A continuaci´ on se dan las instrucciones para elaborar algunas de las gr´aficas de este cap´ıtulo a trav´es de la biblioteca ggplot2 de R. En la siguiente liga se puede encontrar una gu´ıa r´apida para visualizaci´on de datos usando ggplot2. https://rstudio.com/wp-content/uploads/2016/12/ ggplot2-cheatsheet-2.1-Spanish.pdf ######## Estadistica descriptiva con ggplot2 para los ######## ######## ejemplos del cap´ ıtulo 2 ######## >library(MASS) >library(ggplot2) >data("crabs") >help("crabs") >ls(crabs) >summary(crabs) >crabplot = ggplot(data=crabs) # GRAFICA DE BARRAS # fill se utiliza para que los ponga de distinto colores de # acuerdo a sp scale_fill_discrete es para modificar # las leyendas >barplot = crabplot + geom_bar(aes(x=sp, fill=sp), alpha=0.4) + labs(x=" ", y="Frecuencia") + scale_fill_brewer(labels=c("Blue","Orange"), guide=guide_legend("Especie"), type = "seq", palette="Set1", direction=-1) >barplot #Las escalas de colores se pueden ver en #RColorBrewer::display.brewer.all() # GRAFICA DE PAY para el ejemplo de los cangrejos >pieplot = crabplot + geom_bar(aes(x=as.factor(1),
36
2. Estad´ıstica descriptiva
fill=as.factor(sp)), width=1) >pieplot = pieplot + coord_polar(theta ="y") + labs(x="",y="")+ scale_fill_brewer(labels=c("Orange", "Blue"), guide=guide_legend("Especie"), type = "seq", palette="Set1", direction=1) + theme_void() >pieplot # Alternativa: scale_fill_discrete(labels=c("Orange", "Blue"), guide=guide_legend("Especie")) # theme_void() para quitar las coordenadas #Para el ejemplo de la encuesta >respuesta = c(4,2,3,2,1,2,3,3,3,3,4,3,5,3,3,2,2,4,3,2) >t_respuesta = as.data.frame(prop.table(table(respuesta))) >t_respuesta$respuesta = c("A","B","C","D","E") >pieplot_encuesta = ggplot(data=t_respuesta, aes(x=factor(1), y=Freq, fill=as.factor(respuesta))) + geom_bar(width=1, stat="identity") >pieplot_encuesta = pieplot_encuesta + coord_polar(theta="y") + guides(fill=guide_legend("Respuesta")) + labs(x="", y="") + theme_void() >pieplot_encuesta # otra opci´ on para el ejemplo de la encuesta >pieplot_encuesta = ggplot(data=t_respuesta, aes(x=factor(1),y=Freq, fill=as.factor(respuesta))) + geom_bar(width=1, stat="identity") pieplot_encuesta = pieplot_encuesta + coord_polar(theta="y") + scale_fill_brewer(labels=c("A", "B","C","D","E"), guide=guide_legend("Respuesta"), type = "seq", palette="Accent", direction=1) + labs(x="", y="") + theme_void() >pieplot_encuesta #+ guides(fill=guide_legend("Respuesta")) se #sustituyo por scale_fill_brewer # HISTOGRAMA #Frecuencia absoluta >histogram_abs = crabplot + geom_histogram(aes(x=CW), binwidth = 4.755) + labs(title="Ancho del caparaz´ on",
2.9. Anexo
37
y="Frecuencia absoluta") >histogram_abs #Frecuencia relativa >histogram_rel = crabplot + geom_histogram(aes(x=CW, y=..density..),bins=30) + labs(title="Ancho del caparaz´ on", y="Frecuencia relativa") >histogram_rel #Para que aparezcan juntas (ver nota al final de este anexo) >ggplot2.multiplot(histogram_abs, histogram_rel, cols=2) # BOXPLOT >boxplot_cangrejos = crabplot + geom_boxplot(aes(x="", y=CW),fill="blue", alpha=0.3) + labs(x="Cangrejos", y="Ancho del caparaz´ on") + scale_fill_brewer(type = "seq", palette="Set1", direction=-1) >boxplot_cangrejos # Especie >boxplot_especie = crabplot + geom_boxplot(aes(x=as.factor(sp), y=CW, fill=as.factor(sp)), alpha=0.3) + labs(x="Especie", y="Ancho del caparaz´ on") + scale_fill_brewer(labels=c("Blue", "Orange"), guide=guide_legend("Especie"), type = "seq", palette="Set1", direction=-1) >boxplot_especie #Sexo >boxplot_sexo = crabplot + geom_boxplot(aes(x=as.factor(sex), y=CW, fill=as.factor(sex)), alpha=0.3) + labs(x="Sexo", y="Ancho de caparaz´ on")+ scale_fill_brewer(labels=c("Femenino", "Masculino"), guide=guide_legend("Sexo"), type = "seq", palette="Set1", direction=1) >boxplot_sexo >ggplot2.multiplot(boxplot_especie,boxplot_sexo, cols=2) #Sexo/Especie >boxplot_espsex = crabplot + geom_boxplot(aes(x=as.factor(sex), y=CW, fill=as.factor(sex)), alpha=0.3) +
38
2. Estad´ıstica descriptiva
facet_grid(.~as.factor(sp)) + labs(x="", y="Ancho del caparaz´ on") + scale_fill_brewer(labels=c("Femenino", "Masculino"), guide=guide_legend("Sexo"), type = "seq", palette="Set1", direction=1) >boxplot_espsex # guides(fill=guide_legend("Sexo")) # Nota: para gr´ aficas m´ ultiples usar easyGgplot2 >install.packages("devtools") >library(devtools) >install_github("easyGgplot2","kassambara") >library(easyGgplot2) # Usar este comando para gr´ aficas m´ ultiples en una # figura ggplot2.multiplot(plot1,plot2,plot3,plot4,cols=2)
2.10.
Ejercicio
Realice un an´ alisis exploratorio para las variables de la base Cars93, incluida en la biblioteca MASS de R. La base considera autos seleccionados aleatoriamente de entre los autos de pasajeros disponibles en el mercado en 19932 , listados por el Consumer Reports issue y el PACE Buying Guide.
2 Lock,
R. H. (1993). 1993 New Car Data. Journal of Statistics Education (1).
Cap´ıtulo 3
Estad´ısticas y distribuciones muestrales 3.1.
Introducci´ on
De acuerdo a la definici´ on 1.2, una muestra aleatoria representa un conjunto de variables aleatorias X1 , . . . , Xn , las cuales son independientes e id´enticamente distribuidas. En este cap´ıtulo se estudiar´an las propiedades de funciones de la muestra aleatoria que ser´ an fundamentales en el proceso de inferencia. Definici´ on 3.1 El espacio de las muestras o espacio muestral es el conjunto de valores que puede tomar la muestra aleatoria X1 , . . . , Xn y se denotar´ a por X. Definici´ on 3.2 Una estad´ıstica es cualquier funci´ on T (X1 , . . . , Xn ) de la muestra aleatoria que no depende de par´ ametros desconocidos. Se denotar´ a una estad´ıstica por T (X1 , . . . , Xn ) o simplemente T (X), donde X = X1 , . . . , Xn . Observaci´ on 3.1 Note que una estad´ıstica, al ser funci´on de variables aleatorias, es a su vez una variable aleatoria. De manera formal, se est´a pidiendo impl´ıcitamente que la funci´ on T : Rn → Rk sea Borel medible (men dible en la σ-´ algebra B ), donde k es la dimensi´on de la estad´ıstica; no obstante, la condici´ on de medibilidad suele omitirse debido a que las funciones de la muestra aleatoria que de manera habitual se utilizan, son claramente
39
40
3. Estad´ısticas y distribuciones muestrales
medibles. Pero la importancia de se˜ nalar la medibilidad en este momento es enfatizar el hecho de que las estad´ısticas son variables aleatorias, puesto que no es posible anticipar el valor que tomar´an al obtener observaciones concretas. Lo anterior tiene la implicaci´ on de que ser´a necesario considerar la funci´ on de densidad (o de distribuci´ on) de las estad´ısticas, lo que a su vez permitir´ a calcular sus caracter´ısticas tales como la esperanza o la varianza. En este contexto, es com´ un hablar de la distribuci´on muestral de una on de la variable aleatoria T (X). estad´ıstica T (X) al referirse a la distribuci´ Entre las estad´ısticas m´ as comunes que se utilizar´an en procedimientos de inferencia destacan la media muestral, la varianza muestral y las estad´ısticas de orden, las cuales se estudiar´ an con mayor detalle en este cap´ıtulo. A continuaci´ on se enlistan algunas de estas funciones de la muestra aleatoria con su respectiva notaci´ on. T (X) = T (X) =
Pn
i=1
Xi
¯ := X
n
¯ 2 i=1 (Xi −X)
Pn
n−1
media muestral. := S 2
varianza muestral.
T (X) = m´ın {X1 , X2 , . . . , Xn } := X(1) m´ınima estad´ıstica de orden. T (X) = m´ ax {X1 , X2 , . . . , Xn } := X(n) m´ axima estad´ıstica de orden. T (X) =
1 n
n P i=1
Xir := Mr
r-´esimo momento muestral.
A continuaci´ on se probar´ a que, en general, la esperanza de la media muestral es igual a la media poblacional, mientras que la varianza de la media muestral es la varianza poblacional dividida entre el tama˜ no de la muestra. Asimismo, la esperanza de la varianza muestral es igual a la varianza poblacional. Proposici´ on 3.1 Si X1 , . . . , Xn es una muestra aleatoria de f (x; θ), tal que E (Xi ) = µ y Var (Xi ) = σ 2 , para toda i, entonces ¯ = µ y Var(X) ¯ = E(X)
σ2 . n
Demostraci´ on. ¯ =E E(X)
Pn
i=1
n
Xi
n
=
1X 1 E(Xi ) = · nµ = µ. n i=1 n
41
´n 3.1. Introduccio Ahora, ¯ = Var Var(X)
Pn
i=1
Xi
n
=
n 1 X σ2 nσ 2 . Var(Xi ) = 2 = 2 n i=1 n n
A continuaci´ on se da una identidad que ser´a de utilidad m´as adelante.
Observaci´ on 3.2 Si X1 , . . . , Xn es una muestra aleatoria de f (x; θ), entonces n n X X ¯ 2 + n(X ¯ − µ)2 . (Xi − µ)2 = (Xi − X) i=1
(3.1)
i=1
Demostraci´ on. Ahora se comprobar´ a (3.1): n n X X ¯ +X ¯ − µ)2 (Xi − µ)2 = (Xi − X i=1
i=1 n X ¯ 2 + 2(Xi − X)( ¯ X ¯ − µ) + (X ¯ − µ)2 (Xi − X) = i=1
=
n X
¯ 2 + 2(X ¯ − µ) (Xi − X)
i=1
=
n X
n X
¯ + n(X ¯ − µ)2 (Xi − X)
i=1
¯ 2 + n(X ¯ − µ)2 . (Xi − X)
i=1
En el siguiente resultado se probar´ a que, en general, E(S 2 ) = σ 2 .
Proposici´ on 3.2 Si X1 , . . . , Xn es una muestra aleatoria de f (x; θ), tal que E (Xi ) = µ y Var (Xi ) = σ 2 , para toda i, entonces E(S 2 ) = σ 2 .
42
3. Estad´ısticas y distribuciones muestrales
Demostraci´ on. " n # X 1 2 ¯ E(S ) = E (Xi − X) n−1 i=1 " n # X 1 2 2 ¯ E (Xi − µ) − n(X − µ) = n−1 i=1 ( n ) X 1 2 2 ¯ − µ) = E (Xi − µ) − nE (X n − 1 i=1 " n # X 1 ¯ Var(Xi ) − n · Var(X) = n − 1 i=1 1 nσ 2 2 = nσ − n−1 n 2
= σ2 .
Ejemplo 3.1 Se quiere conocer la probabilidad θ de obtener sol con una moneda, es decir, se est´ a estudiando la variable aleatoria que toma valores X = 1 si se obtiene sol y X = 0 si se obtiene ´aguila, donde θ = P(X = 1), y para ello se realizar´ an tres lanzamientos de la moneda. En este caso, f (x; θ) = θx (1 − θ)1−x con x = 0, 1; por lo tanto se est´a considerando una muestra aleatoria de tama˜ no tres de la distribuci´on Bernoulli(θ). En la tabla siguiente se muestran los posibles resultados, la distribuci´on de la muestra especificada a trav´es de su funci´ on de densidad, as´ı como los valores que pueden tomar las estad´ısticas X y S 2 bajo los diferentes escenarios. Resultados s,s,s s,s,a s,a,s a,s,s a,a,s a,s,a s,a,a a,a,a
x1 , x2 , x3 1,1,1 1,1,0 1,0,1 0,1,1 0,0,1 0,1,0 1,0,0 0,0,0
Distribuci´on θ3 2 θ (1 − θ) θ2 (1 − θ) θ2 (1 − θ) θ(1 − θ)2 θ(1 − θ)2 θ(1 − θ)2 (1 − θ)3
x ¯ 1 2/3 2/3 2/3 1/3 1/3 1/3 0
s2 0 1/3 1/3 1/3 1/3 1/3 1/3 0
43
´n 3.1. Introduccio Entonces, la funci´ on de densidad conjunta est´a dada por fX1 ,X2 ,X3 (x1 , x2 , x3 )
=
3 Y
f (xi ; θ) =
i=1 3 P
3 Y
θxi (1 − θ)1−xi
i=1 xi
3−
= θi=1 (1 − θ)
3 P
i=1
xi
,
y las funciones de densidad de la media y la varianza muestrales son: (1 − θ)3 si x ¯ = 0; 3θ(1 − θ)2 si x ¯ = 1/3; x) = fX¯ (¯ 3θ2 (1 − θ) si x ¯ = 2/3; θ3 si x ¯ = 1. ( θ3 + (1 − θ)3 si s2 = 0; fS 2 (s2 ) = 2 2 3θ(1 − θ) + 3θ (1 − θ) si s2 = 1/3. Se obtendr´ an ahora las caracter´ısticas num´ericas de X y S 2 para ilustrar las propiedades que se presentaron previamente. 2 1 E X + 3θ2 (1 − θ) + (1 − θ)3 (0) = θ3 (1) + 3θ(1 − θ)2 3 3 = θ3 + θ 1 − 2θ + θ2 + 2θ2 (1 − θ) =
θ3 + θ − 2θ2 + θ3 + 2θ2 − 2θ3
=
θ.
Por otro lado, 2 2 2 2 1 3 2 2 E X + 3θ (1 − θ) + (1 − θ)3 (0) = θ (1) + 3θ(1 − θ) 3 3 4 2 1 = θ3 + θ 1 − 2θ + θ2 + θ − θ3 3 3 2 2 1 3 4 2 4 3 1 3 = θ + θ− θ + θ + θ − θ 3 3 3 3 3 2 2 1 = θ + θ. 3 3 Y 2 2 1 Var X = θ + θ − θ2 3 3 1 2 1 = − θ + θ 3 3 1 = θ (1 − θ) , 3
44
3. Estad´ısticas y distribuciones muestrales
es decir, la varianza poblacional dividida entre el tama˜ no de muestra. Finalmente, 1 2 3θ(1 − θ)2 + 3θ2 (1 − θ) E S = 3 = θ − 2θ2 + θ3 + θ2 − θ3 = θ − θ2 = θ (1 − θ) .
3.2.
Distribuci´ on de las estad´ısticas muestrales bajo normalidad
Suponiendo ahora que las variables de la muestra aleatoria tienen una distribuci´ a la distribuci´ on y las propiedades de la media on normal, se analizar´ ¯ y la varianza S 2 muestrales. X
3.2.1.
Distribuci´ on de la media muestral
Proposici´ on 3.3 Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´ on con distribuci´ on N (µ, σ 2 ), entonces ¯ ∼ N (µ, σ 2 /n). X ¯ Demostraci´ on. Se obtendr´ a la funci´ on generadora de momentos de X. Para ello, se usar´ a el hecho de que si Xi ∼ N (µ, σ 2 ), la funci´on generadora de momentos de Xi est´ a dada por: 1 2 2 mXi (t) = exp tµ + t σ . 2 As´ı, mX¯ (t) =E(e
¯ tX
! Pn n Y Xi t t· i=1 X n )=E e =E en i i=1
n t Y = E e n Xi pues X1 , . . . , Xn son independientes
=
i=1 n Y i=1
mXi (t/n)
45
´ n de las estad´ısticas 3.2. Distribucio
=
n Y
t
t2
1
e n µ+ 2 · n2 σ
2
pues X1 , . . . , Xn son id´enticamente distribuidas
i=1 1 2 σ2 n
=etµ+ 2 t
, 1 2 σ2 n
∴ mX¯ (t) = etµ+ 2 t ¯ ∼ N µ, σ2 . de donde se concluye que X n
3.2.2.
,
La distribuci´ on de la varianza muestral
Enseguida se revisar´ an las distribuciones Gama y Ji-cuadrada, las cuales ser´ an de utilidad en los resultados que se analizar´an m´as adelante. La distribuci´ on Gama Se dice que la variable aleatoria continua X tiene distribuci´on Gama con par´ ametros de forma r > 0 y de escala λ > 0, si su funci´on de densidad de probabilidad est´ a dada por f (x; r, λ) = donde Γ(r) = satisface:
R∞ 0
λr r−1 −λx x e , x > 0, Γ(r)
xr−1 e−x dx es conocida como la funci´ on Gama, la cual
Γ(r + 1) = rΓ(r)
y si r ∈ N entonces Γ(r + 1) = r!.
La notaci´ on X ∼ Gama(r, λ), significa que X tiene esta distribuci´on. Las expresiones para su media, varianza y funci´on generadora de momentos se resumen a continuaci´ on: E(X) = λr , V ar(X) =
r λ2 ,
λ λ−t
mX (t) =
r
.
46
3. Estad´ısticas y distribuciones muestrales
La distribuci´ on Ji-cuadrada es un caso particular de la distribuci´on Gama, de tal manera que las propiedades de la segunda pueden utilizarse para deducir las de la primera, la cual se presenta a continuaci´on. Distribuci´ on Ji-cuadrada Se dice que la variable aleatoria continua X tiene distribuci´on Ji-cuadrada con k grados de libertad si su funci´ on de densidad de probabilidad est´a dada por
f (x; k) =
1 k/2 k 1 2 x 2 −1 e− 2 x , k Γ 2
x > 0.
Se denota como X ∼ χ2(k) . Adem´ as: E(X) =
k/2 1/2
Var(X) =
= k,
k/2 1/4
= 2k, k
1/2 1 mx (t) = ( 1/2−t ) 2 = ( 1−2t )k/2 .
Estas propiedades pueden deducirse de las expresiones correspondientes para la distribuci´ on Gama, notando que la distribuci´on Ji-cuadrada es un caso particular con r = k2 y λ = 12 . El siguiente resultado establece una relaci´on entre la distribuci´on normal y la distribuci´ on Ji-cuadrada. Teorema 3.1 Sean X1 , . . . , Xn variables aleatorias independientes tales que i ∀i ∈ {1, . . . , n}, Xi ∼ N (µi , σi2 ). Sea Zi = Xiσ−µ , entonces: i 1. Zi2 ∼ χ2(1) . 2.
n P i=1
Zi2 ∼ χ2(n) .
Demostraci´ on. 1. Como Zi ∼ N (0, 1), entonces
47
´ n de las estad´ısticas 3.2. Distribucio
mZi2 (t) = E e
tZi2
Z
∞
2 2 1 etzi √ e−zi /2 dzi 2π −∞ Z ∞ 1 − 1 zi2 (1−2t) √ e 2 dzi = 2π −∞ r Z ∞ 1 2 1 1 q = e− 2 zi (1−2t) dzi 1 − 2t −∞ 2π( 1 ) 1−2t r Z ∞ 2 1 1 1 1 q e− 2 · 1/(1−2t) zi dzi = 1 − 2t −∞ 2π( 1 ) 1−2t {z } |
=
1
=
1 1 − 2t
1/2 ,
la cual corresponde a la funci´ on generadora de momentos de una distribuci´ on χ2(1) . 2. Para la segunda parte se utilizar´ a el hecho de que la suma de variables aleatorias independientes con distribuci´on Gama tiene tambi´en distribuci´ on Gama con par´ ametro de forma igual a la suma de los par´ametros de forma de las variables que componen la suma, cuando el par´ametro de escala es el mismo para todas las variables aleatorias; adem´as de que la distribuci´ on Ji-cuadrada es un caso particular de la distribuci´ on Gama. OP bien, calculando directamente la funci´on generadora de n momentos de i=1 Zi2 : mPn
i=1
Zi2 (t)
=
n Y i=1
mZi2 (t) =
n Y i=1
1 1 − 2t
1/2
=
1 1 − 2t
n/2 .
En el siguiente resultado se analizar´ a la distribuci´on de S 2 . La primera parte se refiere a la independencia entre X y el vector de desviaciones ¯ . . . , Xn − X), ¯ la cual se justificar´ (X1 − X, a de dos formas: usando la funci´ on generadora de momentos y mediante una transformaci´on. Otra manera de abordar este resultado es a trav´es de la independencia entre una forma lineal y una forma cuadr´ atica y las propiedades de la distribuci´on normal multivariada (ver Rencher y Schaalje (2008)); sin embargo, en este texto no se estudiar´ a ese enfoque.
48
3. Estad´ısticas y distribuciones muestrales
Teorema 3.2 Considere a X1 , . . . , Xn una muestra aleatoria de la distribuci´ on N (µ, σ 2 ). Entonces ¯ y el vector (X1 − X, ¯ . . . , Xn − X) ¯ son independientes. 1. X ¯ y S 2 son independientes. 2. X 3.
(n−1)S 2 σ2
∼ χ2(n−1) .
4. E(S 2 ) = σ 2 y Var(S 2 ) =
2σ 4 n−1 .
Figura 3.1: Karl Pearson (1857-1936). Desarroll´o la estad´ıstica Ji-cuadrada y estudi´ o su distribuci´ on asint´ ontica. Se le considera el padre de la estad´ıstica. Imagen tomada de commons.wikipedia.org (public domain).
49
´ n de las estad´ısticas 3.2. Distribucio Demostraci´ on. 1. Se considera la distribuci´ on conjunta de Y1 , Y2 , . . . , Yn , donde: ¯ Y2 = X2 − X, ¯ Y3 = X3 − X, ¯ . . . , Yn = Xn − X. ¯ Y1 = X, Con este cambio de variable, ¯ − X2 − X ¯ − · · · − Xn − X ¯ = X ¯ − X2 − · · · − Xn = nX
Y1 − Y2 − Y3 − · · · − Yn
= X1 + X2 + · · · + Xn − X2 − · · · − Xn = X1 . Expresando las Xi ’s en t´erminos de las Yi ’s se obtiene: X1
= Y1 − Y2 − Y3 − · · · − Yn ,
X2
= Y1 + Y2 ,
X3
= Y1 + Y3 ,
.. .
.. .
Xn
= Y1 + Yn .
El Jacobiano de esta transformaci´ on es igual a n, pues la matriz tiene la forma:
1 1 1 1 .. .
−1 1 0 0 .. .
−1 0 1 0 .. .
−1 0 0 1 .. .
··· ··· ··· ··· .. .
−1 0 0 0 .. .
1
0
0
0
···
1
∂Xi ∂Yj
,
la cual se puede transformar mediante operaciones elementales de renglones: para cada i, 2 ≤ i ≤ n, se suma el rengl´on i-´esimo al primer
50
3. Estad´ısticas y distribuciones muestrales rengl´ on, obteniendo la matriz: n 0 1 1 1 0 1 0 .. .. . . 1
0 0 0 0 1 0 0 1 .. .. . . 0 0 0
··· ··· ··· ··· .. .
0 0 0 0 .. .
···
1
,
cuyo determinante es: n
1 0 .. .
0 1
0 0
··· ··· .. .
0
0
0
···
= n. 1 0 0 .. .
Por otro lado, de acuerdo a (3.1): n X
2
(xi − µ)
=
i=1
n X
2
(xi − x ¯+x ¯ − µ)
i=1
=
n X
2
2
(xi − x ¯) + n (¯ x − µ) ,
i=1
la funci´ on de densidad conjunta de X1 , X2 , . . . , Xn (la muestra aleatoria de la distribuci´ on N µ, σ 2 ) se puede escribir como: n Pni=1 (xi −¯x)2 n(¯x−µ)2 − − 2σ2 1 2σ 2 2 fX1 ,...,Xn x1 , . . . , xn ; µ, σ = √ e , 2πσ con −∞ < xi < ∞, i = 1, 2, . . . , n. Como y1 = x y, por lo tanto, x1 − x = −y2 − y3 − · · · − yn , la funci´on de densidad conjunta de Y1 , Y2 , . . . , Yn es: n X 2 yi n (−y2 − y3 − · · · − yn )2 1 n(y1 − µ)2 i=2 , (n) √ exp − − − 2σ 2 2σ 2 2σ 2 2πσ −∞ < yi < ∞, i = 1, 2, . . . , n. El resultado obtenido es producto de la funci´ on de densidad de Y1 , es decir, de 1 (y1 − µ)2 p exp − , −∞ < y1 < ∞, 2σ 2 /n 2πσ 2 /n
51
´ n de las estad´ısticas 3.2. Distribucio
y una funci´ on de y2 , . . . , yn . De esta manera, Y1 es independiente de las n − 1 variables aleatorias Y2 , Y3 , . . . , Yn y la funci´on de y2 , . . . , yn es la funci´ on de densidad de Y2 , Y3 , . . . , Yn . En conclusi´on, Y1 = X es independiente de −Y2 −Y3 −· · ·−Yn = X1 −X, Y2 = X2 −X, . . . , Yn = Xn − X. ¯ ¯ y S 2 son independientes porque S 2 = i=1 (Xi −X) 2. X es funci´on de n−1 ¯ . . . , Xn − X). ¯ O bien, puede verificarse notando que la variable (X1 − X, Pn
W1 =
2
n(Y1 − µ)2 n(X − µ)2 = 2 σ σ2
es independiente de: n X (Xi − X)2
W2 =
i=1
(−Y2 − · · · − Yn )2 +
Yi2
i=2
=
σ2
n X
σ2
.
3. Observe que (n − 1)S 2 = σ2
Pn
i=1 (Xi σ2
¯ 2 − X)
Usando nuevamente la identidad n n X X ¯ 2 + n(X ¯ − µ)2 (Xi − µ)2 = (Xi − X) i=1
i=1
se tiene que Pn
i=1 (Xi σ2 n P
− µ)2
Pn =
i=1 (Xi σ2
¯ 2 − X)
+
¯ − µ)2 n(X σ2
(3.2)
(Xi −µ)2
2 2 Pn ¯ Pero note que = i=1 Xiσ−µ ∼ χ2(n) y tambi´en n(X−µ) = σ2 σ2 ¯ 2 X−µ ¯ es independiente de X1 − X, ¯ . . . , Xn − X, ¯ √ ∼ χ2(1) ; y como X σ/ n entonces Pn ¯ 2 i=1 (Xi − X) ∼ χ2(n−1) , 2 σ i=1
debido a que bajo el supuesto de independencia y por (3.2), la funci´on P generadora de momentos de
n 2 i=1 (Xi −µ) σ2
se puede escribir como el
52
3. Estad´ısticas y distribuciones muestrales producto de las funciones generadoras de W = es decir: −n/2
(1 − 2t)
= mW (t) × (1 − 2t)
¯ 2 i=1 (Xi −X) σ2
Pn
−1/2
,
y
2 ¯ n(X−µ) , σ2
t < 1/2
de donde, −n/2+1/2
mW (t) = (1 − 2t)
= (1 − 2t)
−(n−1)/2
.
2
∴
(n − 1)S ∼ χ2(n−1) . σ2
4. Anteriormente se prob´ o que E(S 2 ) = σ 2 , sin embargo conociendo ya 2 , se puede obtener de la siguiente manera, la distribuci´ on de (n−1)S σ2 adem´ as de deducir la varianza correspondiente. 2
Como (n−1)S ∼ χ2(n−1) , entonces σ2 (n − 1)S 2 (n − 1) E E S 2 = n − 1 ⇒ E S 2 = σ2 . =n−1⇒ 2 2 σ σ 2
Tambi´en, como (n−1)S ∼ χ2(n−1) , se tiene que σ2 (n − 1)S 2 (n − 1)2 Var(S 2 ) = 2(n − 1) Var = 2(n − 1) ⇒ 2 σ σ4 2(n − 1)σ 4 2σ 4 ⇒ Var(S 2 ) = . = 2 (n − 1) n−1 2σ 4 ∴ Var S 2 = . n−1 Demostraci´ on. Demostraci´ on alternativa para las partes 1, 2 y 3: Se define la siguiente transformaci´ on: Y1 Y2 Y3
Yn
1 √ (X1 + · · · + Xn ), n 1 = √ (X1 − X2 ), 2 1 = √ (X1 + X2 − 2X3 ), 6 .. . 1 = p (X1 + X2 + · · · + Xn−1 − (n − 1)Xn ). n(n − 1) =
53
´ n de las estad´ısticas 3.2. Distribucio Para la cual, la matriz Jacobiana correspondiente es: √1 √1 √1 √1 ... n n n n −1 √1 √ 0 . . . 0 2 2 −2 √1 √1 √ ··· 0 6 6 6 J = .. .. .. . . . √ 1 √ 1 √ 1 · · · √−(n−1) n(n−1)
n(n−1)
n(n−1)
.
n(n−1)
Esta matriz es una matriz ortogonal, esto significa que JJ t = J t J = I, por lo tanto es posible escribir: | det(J)| = | det(J t )| = | det(JJ t )1/2 | = 1. Ahora, la funci´ on de densidad conjunta de X1 , X2 , . . . , Xn es: n Y 1 1 2 √ fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) = exp − 2 (xi − µ) 2σ 2πσ i=1 ( ) n n 1 1 X 2 = √ exp − 2 (xi − µ) 2σ i=1 2πσ ) ( n n 1 1 X 2 (x − 2µxi + µ2 ) , = √ exp − 2 2σ i=1 i 2πσ para −∞ < x1 , x2 , . . . , xn < ∞. Entonces la funci´on de densidad conjunta de Y1 , . . . , Yn es: ( !) n n X √ 1 1 2 2 √ yi − 2µ ny1 + nµ g(y1 , y2 , . . . , yn ) = exp − 2 2σ 2πσ i=1 ( " n #) n √ 1 1 X 2 2 √ = exp − 2 , y + (y1 − nµ) 2σ i=2 i 2πσ Pn 2 donde −∞ < y1 , y2 , . . . , yn < ∞. Adem´ as puede verse que i=1 xi = Pn 2 i=1 yi , esto puede verificarse desarrollando para diferentes valores de n; por ejemplo, para n = 2 : Y12 + Y22
1 1 (X1 + X2 )2 + (X1 − X2 )2 2 2 1 2 1 1 1 = X1 + X1 X2 + X22 + X12 − X1 X2 + X22 2 2 2 2 = X12 + X22 . =
54
3. Estad´ısticas y distribuciones muestrales
Note que la funci´ on de densidad conjunta de Y1 , . . . , Yn puede reescribirse como: ( ) n−1 n X √ 1 1 1 1 √ √ exp − 2 y2 , exp − 2 (y1 − nµ)2 2σ 2σ i=2 i 2πσ 2πσ √ donde se observa que Y1 se distribuye como una N ( nµ, σ 2 ) y que Y1 , . . . , Yn son variables aleatorias independientes con una distribuci´on N (0, σ 2 ) para ¯ = n−1/2 Y1 y Y2 , . . . , Yn . De la transformaci´ on definida, se puede escribir: X n n n n X X X X ¯ 2= ¯2 = (Xi − X) Xi2 − nX Yi2 − Y12 = Yi2 , i=1
i=1
i=1
i=2
Pn ¯ es funci´ ¯ 2 depenconcluyendo que X on de Y1 u ´nicamente y que i=1 (Xi − X) de funcionalmente de Y2 , . . . , Yn . Pero Y1 y Y2 , . . . , Yn son independientes, ¯ y Pn (Xi − X) ¯ 2 son independientes. por lo que X i=1 √ −1/2 ¯ Como X = n Y1 donde Y1 ∼ N ( nµ, σ 2 ) entonces la distribuci´on 2 P Pn Y 2 2 ¯ ¯ es N (µ, σ ). Ahora, n (Xi −2X) de X = i=2 σi2 , que es una suma de i=1 n σ (n − 1) variables Ji-cuadradas independientes, por lo tanto tiene distribuci´on χ2n−1 . Ahora se presentar´ an dos distribuciones de probabilidad importantes en la inferencia estad´ıstica: la F de Fisher y la t de Student, as´ı como las propiedades que ser´ an de utilidad m´ as adelante.
3.2.3.
La distribuci´ on F de Fisher y el cociente de varianzas muestrales
Distribuci´ on F de Fisher Se dice que una variable aleatoria X tiene la distribuci´on F de Fisher con par´ ametros m y n (m y n grados de libertad), si su funci´on de densidad est´a dada por: m−2 m m/2 Γ( m+n x 2 2 ) f (x; m, n) = x > 0, m, n ∈ N+ . m+n n m )Γ( ) Γ( m n 2 [1 + ( n )x] 2 2 Se denota como X ∼ F (m, n). Teorema 3.3 Si U y V son variables aleatorias independientes tales que U ∼ χ2(m) y V ∼ χ2(n) , entonces U/m ∼ F (m, n). V /n
´ n de las estad´ısticas 3.2. Distribucio
55
Figura 3.2: Ronald A. Fisher (1890-1962). “Incluso los cient´ıficos necesitan sus h´eroes y Fisher fue sin duda el h´eroe de la estad´ıstica del siglo XX. Sus ideas transformaron nuestra disciplina de tal forma que hasta un C´esar o un Alejandro hubieran envidiado”: Efron (1998). “Lo que es y fue importante para m´ı, es c´ omo Fisher, en los 1920..., hizo que los estad´ısticos reflexion´ aramos acerca de las ideas fundamentales”: Egon Pearson (1974). Dos citas que hacen alusi´ on a la importancia de las contribuciones de Fisher en la estad´ıstica. La distribuci´ on que lleva su nombre fue producto del trabajo que realiz´ o con George Snedecor (1881-1974) de la Universidad de Iowa. Imagen tomada de commons.wikipedia.org (public domain). Demostraci´ on. Para probar este resultado se utilizar´a el teorema de cambio de variable. Sean X=
U/m nU = V /n mV
y Y = V.
La funci´ on de densidad conjunta de U y V est´a dada por fU,V (u, v) = fU (u)fV (v)
= =
1 m/2 1 n/2 1 1 m n −1 − u 2 2 2 −1 e− 2 v u2 e 2 n v Γ( m ) Γ( ) 2 2 1 (m+n)/2 n − 21 (u+v) m 2 u 2 −1 v 2 −1 . n e Γ( m )Γ( ) 2 2
56
3. Estad´ısticas y distribuciones muestrales
as V = Y , entonces el Jacobiano de la transComo U = m n XY y adem´ formaci´ on est´ a dado por m y mx m n n = y. J = 0 1 n La funci´ on de densidad conjunta de (X, Y ) est´a determinada por fX,Y (x, y)
= =
m+n m m2 −1 n (1) 2 m − 12 ( m n x+1)y y 2 −1 y · 2m e xy n Γ( 2 )Γ( n2 ) n m+n m m2 m+n ( 12 ) 2 m 1 m y 2 −1 x 2 −1 e− 2 ( n x+1)y . m n Γ( 2 )Γ( 2 ) n
Y como la densidad marginal de X est´ a dada por Z ∞ fX (x) = fX,Y (x, y)dy, −∞
se tiene que: fX (x)
= =
m+n m m2 m Z ∞ m+n ( 12 ) 2 1 m x 2 −1 y 2 −1 e− 2 ( n x+1)y dy n Γ( m )Γ( ) n 0 2 2 m 1 m+n 2 (2) Γ( m+n m 2 m −1 2 ) x2 m+n m n 1 m Γ( 2 )Γ( 2 ) n [ ( x + 1)] 2
2
=
Γ( m+n 2 ) n )Γ( Γ( m 2 2)
·
m−2 m 2 2 (m n) x m+n m ( n x + 1) 2
n
,
que corresponde a la funci´ on de densidad de una variable aleatoria con distribuci´ on F , es decir, X = U/m V /n ∼ F (m, n).
La distribuci´ on F en el marco del muestreo de la distribuci´ on normal Sean X1 , X2 , . . . , Xm+1 una muestra aleatoria de la distribuci´on N (µx , σx2 ) y Y1 , Y2 , . . . , Yn+1 una muestra aleatoria de la distribuci´on N (µy , σy2 ), de tal manera que ambas muestras son independientes entre s´ı. ¯ = 1 Pm+1 Xi , Y¯ = En este caso X i=1 m+1 ¯ 2 y Sy2 = 1 Pn+1 (Yj − Y¯ )2 . X) j=1 n
1 n+1
Pn+1 j=1
Yj , Sx2 =
1 m
Pm+1 i=1
(Xi −
´ n de las estad´ısticas 3.2. Distribucio
57
Entonces, nSy2 mSx2 2 ∼ χ y ∼ χ2(n) . (m) σx2 σy2 Por el teorema anterior, se concluye que: Sx2 /σx2 ∼ F (m, n). Sy2 /σy2
3.2.4.
La distribuci´ on t de Student y algunas estad´ısticas relacionadas
Distribuci´ on t de Student Se dice que una variable aleatoria continua X tiene distribuci´on t de Student con k grados de libertad, si su funci´ on de densidad est´a dada por f (x; k) =
Γ( k+1 1 2 ) 1 √ , con k = 1, 2, . . . 2 k+1 Γ( k2 ) kπ (1 + xk ) 2
Se denota como X ∼ t(k) . Teorema 3.4 Si Z y U son variables aleatorias independientes tales que Z ∼ N (0, 1) y U ∼ χ2(k) , entonces √Z ∼ t(k) . U/k
Demostraci´ on. La prueba de este resultado es similar a la del teorema 3.3, definiendo las variables Z X=p y Y = U. U/k La distribuci´ on t a partir de una muestra con distribuci´ on normal Si X1 , . . . , Xn es una muestra aleatoria de la distribuci´on normal N µ, σ 2 , se sabe que σ2 X ∼ N µ, , n de donde: Z=
X −µ √ ∼ N (0, 1) . σ/ n
58
3. Estad´ısticas y distribuciones muestrales
Figura 3.3: William Sealy Gosset (1876-1937), quien us´o el pseud´onimo de Student para publicar su trabajo, desarroll´ o la distribuci´on t como respuesta a problemas pr´ acticos de variedades de cebada, trabajando en la cervecer´ıa Guiness. Imagen tomada de commons.wikimedia.org (public domain). Por otra parte: (n − 1) S 2 ∼ χ2(n−1) . σ2 Por el teorema 3.4, X−µ √ σ/ n
q
(n−1)S 2 σ 2 (n−1)
=
X −µ √ ∼ t(n−1) . S/ n
Ahora considere a X1 , . . . , Xm una muestra aleatoria de la distribuci´on N µX , σ 2 y a Y1 , . . . , Yn una muestra aleatoria de la distribuci´on N µY , σ 2 , tales que Xi es independiente de Yj , i {1, . . . , m} y j {1, . . . , n} . Por los resultados vistos previamente, se puede concluir que σ2 σ2 X ∼ N µX , y Y ∼ N µY , , (3.3) m n
59
3.3. Estad´ısticas de orden mientras que 2 (m − 1) SX ∼ χ2(m−1) σ2
y
(n − 1) SY2 ∼ χ2(n−1) σ2
(3.4)
De (3.3) se tiene que X −Y ∼N
µX − µY ,
σ2 σ2 + m n
,
y por lo tanto, X − Y − (µX − µY ) q ∼ N (0, 1) . 1 σ2 m + n1 De (3.4) y las propiedades de la distribuci´ on Ji-cuadrada se sabe que: 2 + (n − 1) SY2 (m − 1) SX ∼ χ2(m+n−2) . σ2
As´ı que por el teorema 3.4 se concluye que X−Y −(µX −µY ) q 1 1 σ2 ( m +n )
q
2 +(n−1)S 2 (m−1)SX Y σ 2 (m+n−2)
=q
X − Y − (µX − µY ) 2 +(n−1)S 2 (m−1)SX Y (m+n−2)
1 m
+
1 n
,
tiene distribuci´ on t de Student con m + n − 2 grados de libertad.
3.3.
Estad´ısticas de orden
Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´on con funci´on de densidad f (x; θ). Consid´erese la muestra ordenada en forma ascendente X(1) ≤ X(2) ≤ . . . ≤ X(n) , sus elementos son llamados estad´ısticas de orden. Para facilitar la notaci´ on, sea X(i) := Yi . Las Yi0 s no son independientes, pues si Yj ≥ y entonces Yj+1 ≥ y, y en general Yi no tiene por qu´e coincidir con Xi . As´ı, por ejemplo, Yn = m´ ax {X1 , . . . , Xn } puede ser cualquiera de las Xi0 s : X1 si X1 ≥ X2 , . . . , Xn . X2 si X2 ≥ X1 , X3 , . . . , Xn . Yn = .. .. . . Xn si Xn ≥ X1 , . . . , Xn−1 . En los siguientes p´ arrafos se deducir´ an las funciones de distribuci´on y densidad para las estad´ısticas de orden, u ´nicamente para el caso continuo.
60
3. Estad´ısticas y distribuciones muestrales
3.3.1.
r-´ esima estad´ıstica de orden (Yr )
Sea X1 , . . . , Xn una muestra aleatoria de una distribuci´on continua con funci´ on de densidad f (x; θ) y funci´ on de distribuci´on F (x; θ). Para obtener FYr (y) = P(Yr ≤ y), observe que el evento {Yr ≤ y} ocurre si olo si al menos r de las Xi ’s son menores o iguales a y, es decir si Pny s´ i=1 Zi ≥ r, donde ( 1 si Xi ≤ y, Zi = 0 si Xi > y. Note que Zi ∼ Bernoulli[P(Xi ≤ y)], entonces | {z }
Pn
i=1
Zi ∼ Bin(n, F (y)).
F (y)
Por lo tanto, n X
FYr (y) = P(Yr ≤ y) = P
! Zi ≥ r
j=r
i=1
∴ FYr (y) =
n X n j=r
=
n X n
j
j
[F (y)]j [1 − F (y)]n−j .
[F (y)]j [1 − F (y)]n−j .
Usando este resultado se obtiene la distribuci´on de Y1 , la m´ınima estad´ıstica de orden, de la siguiente manera: FY1 (y) =
n X n [F (y)]j [1 − F (y)]n−j j j=1
=[F (y) + 1 − F (y)]n − [1 − F (y)]n =1 − [1 − F (y)]n . Y diferenciando se deduce la funci´ on de densidad correspondiente: fY1 (y) = n[1 − F (y)]n−1 f (y). De la misma forma, se obtiene la distribuci´on de la m´axima estad´ıstica de orden Yn : FYn (y) = [F (y)]n . (3.5) De donde: fYn (y) = n[F (y)]n−1 f (y).
61
3.3. Estad´ısticas de orden
3.3.2.
Distribuci´ on conjunta de las estad´ısticas de orden m´ınima y m´ axima
En teor´ıa de la probabilidad se estudia que una propiedad de la funci´on de distribuci´ on de dos variables FX,Y (x, y) es la siguiente: P[a < X ≤ b, c < Y ≤ d] = FX,Y (a, c) + FX,Y (b, d) − FX,Y (a, d) − FX,Y (b, c). Lo que, junto con las otras propiedades: l´ım FX,Y (x, y) = l´ım FX,Y (x, y) = 0
x→−∞
y→−∞
y l´ım FX,Y (x, y) = FX (x)
y→∞
conduce a: P[y1 < Y1 , Yn ≤ yn ] = FYn (yn ) − FY1 ,Yn (y1 , yn ).
(3.6)
Por otro lado, se tiene que, por ser Y1 y Yn la m´ınima y la m´axima estad´ısticas de orden, se satisface: P(y1 < Y1 , Yn ≤ yn ) =P(y1 < X1 ≤ yn , y1 < X2 ≤ yn , . . . , y1 < Xn ≤ yn ) n n Y Y (F (yn ) − F (y1 )) P[y1 < Xi ≤ yn ] = = i=1
i=1 n
=(F (yn ) − F (y1 )) . Por lo tanto, P(y1 < Y1 , Yn ≤ yn ) = (F (yn ) − F (y1 ))n .
(3.7)
Igualando (3.6) y (3.7) se obtiene que: FYn (yn ) − FY1 ,Yn (y1 , yn ) = (F (yn ) − F (y1 ))n . De esta manera, FY1 ,Yn (y1 , yn ) = FYn (yn )−(F (yn )−F (y1 ))n . Y por (3.5) se llega a que: FY1 ,Yn (y1 , yn ) = [F (yn )]n − (F (yn ) − F (y1 ))n . Para obtener fY1 ,Yn (y1 , yn ) se usar´ a la propiedad que relaciona a las funciones de densidad y de distribuci´ on para el caso de dos variables, a saber, ∂2 FX,Y (x, y) = fX,Y (x, y) , ∂y∂x
62
3. Estad´ısticas y distribuciones muestrales
as´ı:
∂ FY ,Y (y1 , yn ) = n(F (yn ) − F (y1 ))n−1 f (y1 ), ∂y1 1 n
y ∂2 FY ,Y (y1 , yn ) = nf (y1 )(n − 1)(F (yn ) − F (y1 ))n−2 f (yn ). ∂yn ∂y1 1 n De esta forma se concluye que: fY1 ,Yn (y1 , yn ) = n(n − 1)(F (yn ) − F (y1 ))n−2 f (y1 )f (yn ).
(3.8)
Ejemplo 3.2 Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´on con distribuci´ on U (0, 1). Obtener: fY1 (y1 ), fYn (yn ) y fY1 ,Yn (y1 , yn ). Ry (x) En este caso, f (x) = I(0,1) y F (y) = 0 dx = y. Entonces FY1 (y) = 1 − [1 − F (y)]n = 1 − [1 − y]n y por tanto fY1 (y) = n(1 − y)n−1 . FYn (y) = y n y por tanto fYn (y) = ny n−1 . (y1 ) (yn ) fY1 ,Yn (y1 , yn ) = n(n − 1)(yn − y1 )n−2 I(0,1) I(0,1) . Algunas aplicaciones que tienen las expresiones obtenidas previamente en esta secci´ on, incluyen el c´ alculo de densidades correspondientes a funciones de las estad´ısticas de orden, por ejemplo, el rango R := Yn − Y1 y el 1 . promedio T := Yn +Y 2 Para obtener fR,T (r, t) se utilizar´ a la siguiente igualdad: fR,T (r, t) = |J| fY1 Yn (y1−1 (r, t), yn−1 (r, t)). Para encontrar la distribuci´ on conjunta del rango y el promedio, note lo siguiente: Yn = R + Y1 y sustituyendo en la expresi´on para T, se tiene que 1 T = Y1 +R+Y = Y1 + R2 . Por lo tanto Y1 = T − R2 , entonces Yn = 2 R R + Y1 = T + 2 . (R, T ) 7→ (T − R2 , T + R2 ) = (Y1 , Yn ) es la transformaci´on involucrada. −1/2 1 = − 1 − 1 = −1. J = 2 2 1/2 1 Entonces al sustituir se obtiene fR,T (r, t) = h r r in−2 r r n(n − 1) F t + −F t− f t− f t+ . (3.9) 2 2 2 2
63
3.4. Estad´ısticas suficientes
Otra expresi´ on relacionada con las estad´ısticas de orden que puede ser de inter´es es la densidad conjunta de Y1 , . . . , Yn , suponiendo nuevamente que estas variables corresponden a las estad´ısticas de orden de una muestra aleatoria X1 , . . . , Xn . As´ı, fX1 ,...,Xn (x1 , . . . , xn ; θ) =
n Y
f (xi ; θ) ,
i=1
en cualquier punto (x1 , . . . , xn ) de Rn . Pero la densidad de Y1 , . . . , Yn estar´ıa dada por n Y fY1 ,...,Yn (y1 , . . . , yn ; θ) = n! f (yi ; θ) , i=1
debido a que, al ordenar la muestra, cada punto (y1 , . . . , yn ) acumula la densidad fX1 ,...,Xn (x1 , . . . , xn ; θ) (3.10) de cada punto (x1 , . . . , xn ) obtenido al permutar de forma arbitraria las coordenadas de (y1 , . . . , yn ) . Lo anterior se hace porque fY1 ,...,Yn (y1 , . . . , yn ; θ), a diferencia de (3.10), est´ a concentrada en la regi´on de Rn en donde y1 ≤ y2 ≤ · · · ≤ yn y vale cero fuera de esa regi´ on; es decir, (y1 , . . . , yn ) se obtiene de permutar la muestra, as´ı que n! considera las posibles permutaciones.
3.4.
Estad´ısticas suficientes
Una muestra aleatoria contiene informaci´ on del par´ametro desconocido θ en f (x; θ) , por lo que para lograr el objetivo de disminuir el grado de desconocimiento de dicho par´ ametro, se usar´ a la muestra aleatoria. Como ya se ha se˜ nalado, una estad´ıstica es una funci´ on de la muestra aleatoria y, como se ver´ a utilizando m´etodos de estimaci´ on, las estad´ısticas resultan ser los estimadores de los par´ ametros. Usualmente las estad´ısticas representan una reducci´ on de dimensi´ on con respecto a la muestra original X1 , . . . , Xn ; el caso m´ as com´ un es una funci´ on T que va de Rn a R. Una pregunta que puede plantearse en este momento, es si estas estad´ısticas contienen la misma informaci´ on (con respecto a θ) que la muestra original o, si en el proceso de transformaci´ on de la muestra aleatoria, se pierde informaci´on acerca del par´ ametro desconocido. Es claro que no se desea perder la informaci´on original que contiene la muestra aleatoria, por lo que si se tuviera que elegir entre una estad´ıstica que contiene la misma informaci´on que la muestra contra otra que no, la decisi´ on ser´ıa quedarse con la primera. Este razonamiento lleva a un concepto muy importante en estad´ıstica, el de suficiencia.
64
3. Estad´ısticas y distribuciones muestrales
Se puede decir que una estad´ıstica S (X1 , X2 , . . . , Xn ) es suficiente si conserva toda la informaci´ on que contiene la muestra aleatoria X1 , . . . , Xn acerca de θ. En otras palabras, es suficiente conocer la estad´ıstica S (X1 , X2 , . . . , Xn ) para saber del par´ ametro lo mismo que con X1 , . . . , Xn ; de ah´ı el nombre de estad´ıstica suficiente. Una forma alternativa de parafrasearlo es la siguiente: una estad´ıstica suficiente para un par´ ametro θ es aquella que usa toda la informaci´ on contenida en la muestra con respecto a θ; no obstante, no es claro c´ omo se podr´ıa saber si una estad´ıstica es suficiente o no utilizando esta descripci´ on del concepto, al menos de que se tratara de un caso en donde sea posible “recuperar” los datos a trav´es de la estad´ıstica que se est´e analizando. Como ilustraci´ on de estas ideas, suponga que se tiene el caso descrito en el ejemplo 3.1, en donde se quiere estudiar la probabilidad θ de obtener sol con una cierta moneda. En este ejemplo, se considera una muestra aleatoria de tama˜ no 3: X1 , X2 , X3 , de una distribuci´on Bernoulli(θ) y es un ejercicio en donde se pueden escribir de manera sencilla los ocho posibles valores de la muestra aleatoria. A continuaci´ on se reproduce parcialmente el cuadro obtenido en el ejemplo 3.1, incluyendo los valores para la estad´ıstica S (X1 , X2 , X3 ) = X. Resultados s,s,s s,s,a s,a,s a,s,s a,a,s a,s,a s,a,a a,a,a
x1 , x2 , x3 1, 1, 1 1, 1, 0 1, 0, 1 0, 1, 1 0, 0, 1 0, 1, 0 1, 0, 0 0, 0, 0
Distribuci´on θ3 2 θ (1 − θ) θ2 (1 − θ) θ2 (1 − θ) θ(1 − θ)2 θ(1 − θ)2 θ(1 − θ)2 (1 − θ)3
x ¯ 1 2/3 2/3 2/3 1/3 1/3 1/3 0
Si se propone ahora otra estad´ıstica definida como T (X1 , X2 , X3 ) = X1 X2 + X3 , los posibles valores que puede tomar son (en el orden de la tabla anterior): 2, 1, 0, 0, 1, 1, 1, 0. Regresando a la discusi´ on sobre la suficiencia, es claro que con T (X1 , X2 , X3 ) = X1 X2 + X3 no se puede obtener o “recuperar” la informaci´on original, pues el primer sumando siempre dar´ a cero cuando al menos uno de X1 o X2 sean cero, mientras que X s´ı permite reconstruir la informaci´on original en el sentido
65
3.4. Estad´ısticas suficientes
de que si se sabe que, por ejemplo, x = 31 , se puede concluir que se obtuvieron dos ´ aguilas y un sol (o dos ceros y un uno). En otras palabras, S (X1 , X2 , X3 ) es suficiente y T (X1 , X2 , X3 ) no. Observe tambi´en que una estad´ıstica, en general, condensa la informaci´on muestral en el sentido de que para cada valor t(x) de T (X) se obtiene un subconjunto del conjunto de las posibles muestras. Sean {At } los elementos de la partici´ on generada por la estad´ıstica T (asociada a T o inducida por T ), definida como el conjunto de clases de equivalencia formadas por At = {(x1 , x2 , . . . , xn ) ∈ X : T (x1 , x2 , . . . , xn ) = t} . As´ı, la estad´ıstica X = X1 +Xn2 +X3 genera la siguiente partici´on de las posibles muestras, especificada por los valores que toma la estad´ıstica: A1
= {(1, 1, 1)} ,
A 13 = {(0, 0, 1) , (0, 1, 0) , (1, 0, 0)} ,
A 23
= {(1, 1, 0) , (0, 1, 1) , (1, 0, 1)}
y
(3.11)
A0 = {(0, 0, 0)} ,
mientras que la estad´ıstica T (X1 , X2 , X3 ) = X1 X2 + X3 genera la siguiente partici´ on: A0
= {(0, 1, 0) , (1, 0, 0) , (0, 0, 0)} ,
A1
= {(0, 0, 1) , (1, 1, 0) , (0, 1, 1) , (1, 0, 1)} , y
A2
= {(1, 1, 1)} .
(3.12)
Puede decirse entonces que una estad´ıstica suficiente condensa la informaci´ on muestral (en clases de equivalencia) sin perder informaci´on relevante. Note que otras estad´ısticas que sean funciones uno a uno de estad´ısticas suficientes, tambi´ en son suficientes. En este ejemplo puede verse f´acilmente que P 3 la estad´ıstica i=1 Xi es suficiente y, de hecho, genera la misma partici´on del conjunto de posibles muestras que gener´ o S (X1 , X2 , X3 ) = X, s´olo que en este caso, los valores de X1 + X2 + X3 (en el orden de la tabla) son: 3, 1, 2, 0. As´ı, lo que resulta de inter´es para hacer inferencia sobre el par´ametro es saber la clase de equivalencia en la que est´ a x. A continuaci´ on se da una definici´ on formal de suficiencia.
3.4.1.
El concepto de suficiencia
Definici´ on 3.3 Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´ on con funci´ on de densidad f (x; θ). La estad´ıstica S(X) es suficiente si y s´ olo si la funci´ on de densidad condicional de X1 , . . . , Xn dada S(X) = s no depende de θ para cualquier valor s.
66
3. Estad´ısticas y distribuciones muestrales
Note que esta definici´ on concuerda con la idea intuitiva discutida antes, pues lo que dice es que, dado el conocimiento de S(X), la muestra aleatoria no proporciona informaci´ on adicional acerca de θ, es decir, toda la informaci´ on est´ a contenida en S(X). Usando la definici´ on de estad´ıstica suficiente, se analizar´a la suficiencia de S(X) y T (X) del ejemplo descrito en los p´arrafos anteriores. As´ı, P(X1 = 0, X2 = 0, X3 = 0, T = 0) P(T = 0) (1 − θ)3 = 2θ(1 − θ)2 + (1 − θ)3 1−θ 1−θ = . = 2θ + 1 − θ 1+θ
P(X1 = 0, X2 = 0, X3 = 0|T (X) = 0) =
Es decir P(X1 = 0, X2 = 0, X3 = 0|T (X) = 0) depende de θ, por lo tanto, la estad´ıstica T no es suficiente. Esto puede verificarse para otros valores. Por otro lado, P(X1 = 0, X2 = 0, X3 = 0, S = 0) P(S = 0) 3 (1 − θ) = = 1, (1 − θ)3
P(X1 = 0, X2 = 0, X3 = 0|S(X) = 0) =
que no depende de θ. En este u ´ltimo caso, debe verificarse para todos los posibles valores y llegar a la conclusi´ on de que esta probabilidad condicional no depende de θ, para cualquier valor s (lo cual efectivamente ocurre). El concepto de estad´ıstica suficiente enfatiza el hecho de que cualquier conocimiento adicional al valor de la estad´ıstica, no da mayor informaci´on acerca de θ. En el ejemplo, si S(X) = 23 , se puede decir que se obtuvieron dos soles y un ´ aguila, pero no s´ olo eso: es posible concluir que cualquier X = (X1 , . . . , Xn ) que satisfaga que S(X) = s, tiene la misma distribuci´on de probabilidad. Para verificarlo, suponga que s´olo se tiene conocimiento de que S(X) = s, pero no se conoce espec´ıficamente el valor muestral que gener´ o este resultado (en el ejemplo hay tres posibles valores muestrales que hacen que S(X) = 23 , a saber (0, 1, 1) , (1, 0, 1) y (1, 1, 0)). Conociendo la densidad condicional P (X = x | S(X) = s) , donde x ∈ As = {(x1 , x2 , . . . , xn ) ∈ X | S(x1 , x2 , . . . , xn ) = s} , se puede usar un proceso de simulaci´ on para generar un vector X 0 tal que P X 0 = x | S(X) = s = P (X = x | S(X) = s) .
67
3.4. Estad´ısticas suficientes As´ı P (X = x)
=
P (X = x, S(X) = s)
=
P (X = x | S(X) = s) P (S(X) = s) P X 0 = x | S(X) = s P (S(X) = s) P X 0 = x, S(X) = s P X0 = x ,
= = =
de tal manera que X y X 0 tienen la misma distribuci´on. En conclusi´on, toda la informaci´ on acerca de θ est´ a contenida en el conocimiento de que S(X) = s. Los siguientes ejemplos ilustran la definici´on de suficiencia.
Ejemplo 3.3 Sea X1 , X2 , . . . , Xn una Pn muestra aleatoria de una poblaci´on con distribuci´ on Bernoulli (θ). ¿Es i=1 Xi una estad´ıstica suficiente?. En este caso, f (xi ; θ) = θxi (1 − θ) nici´ on de suficiencia: P X1 = x1 , . . . , Xn = xn |
n X
1−xi
, por lo que, de acuerdo a la defi-
! Xi = s
=
θ
Pn
i=1
Xi
n−
(1 − θ)
Pn
i=1
Xi
n s n−s θ (1 − θ) s
i=1
n−s
=
=
θs (1 − θ) n s n−s θ (1 − θ) s 1 n , s
Pn ıstica suficiente para que no depende de θ, por lo que P i=1 Xi es una estad´ n θ. Note que se us´ o el hechoPde que i=1 Xi tiene distribuci´on Bin(n, θ), as´ı n como la condici´ on de que i=1 Xi = s. Ejemplo 3.4 Sea X1 , X2 , . . . , XP on n una muestra aleatoria de una poblaci´ n con distribuci´ on Poisson(θ). ¿Es i=1 Xi una estad´ıstica suficiente?. Recordando que si X ∼ P oisson(θ) entonces f (xi ; θ) = que:
e−θ θ x x! ,
se tiene
68
3. Estad´ısticas y distribuciones muestrales
P [X1 = x1 , . . . , Xn = xn |
Pn
i=1 Xi = s]
e−nθ Qθ n
Pn
=
Xi
i=1
i=1
xi ! s
e−nθ (nθ)
=
e
= n
s
s! e−nθ θs Q n x i=1 i ! s −nθ
;y
n X
Xi = s
i=1
(nθ)
s! n Y
s!
, xi !
i=1
Pn que no depende de θ; por lo tanto, i=1PXi es una estad´ıstica suficiente para n θ. En este caso se us´ o el hecho de que i=1 Xi ∼ P oisson (nθ) . Observe que en los ejemplos anteriores, a no ser que la suma de los enteros x1 , x2 , . . . , xn sea igual a s, la probabilidad condicional es igual a cero. Observaci´ on 3.3 En general, sea k (s; θ) la funci´on de densidad de la estad´ıstica S (X1 , X2 , . . . , Xn ) := S (X) , donde X1 , X2 , . . . , Xn es una muestra aleatoria de una poblaci´on con funci´on de densidad f (x; θ), θ ∈ Θ. La probabilidad condicional de X1 = x1 , X2 = x2 , . . . , Xn = xn , dado que S (X) = s, es igual a P [X1 = x1 , . . . , Xn = xn | S (X) = s] =
f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ) , k (s; θ)
siempre que x1 , . . . , xn , sean tales que S (x1 , x2 , . . . , xn ) = s, y esta probabilidad condicional vale cero en otro caso. Se dice que S (X1 , X2 , . . . , Xn ) es una estad´ıstica suficiente para θ si y s´ olo si esta raz´on no depende de θ. Con las distribuciones del tipo continuo, no se puede hablar de la probabilidad de que X1 = x1 , X2 = x2 , . . . , Xn = xn . En este caso, se establece que si la raz´ on f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ) fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ; θ) = , k (s; θ) k (s; θ) no depende de θ, entonces la distribuci´ on condicional de X1 , X2 , . . . , Xn dado S (X) = s, no depende de θ. En general, las matem´aticas para probar que una estad´ıstica es suficiente en una distribuci´ on continua, pueden representar una dificultad mayor que para el caso discreto.
3.4. Estad´ısticas suficientes
69
Ejemplo 3.5 Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´on con distribuci´ on normal N (µ, σ 2 ), donde σ 2 es conocida. La media muestral, ¯ S(X) = X = (X1 + · · · + Xn )/n, es una estad´ıstica suficiente para µ. Para comprobarlo, se verificar´ a que el cociente fX1 ,X2 ,...,Xn x1 , x2 , . . . , xn ; µ, σ 2 (3.13) k (s; µ, σ 2 ) no depende de µ (σ 2 es conocida), donde k s; µ, σ 2 es la funci´on de densidad ¯ La funci´ de X. on de densidad conjunta de la muestra es n Y −(xi − µ)2 (2πσ 2 )−1/2 exp fX1 ,...,Xn x1 , . . . , xn ; µ, σ 2 = 2σ 2 i=1 Pn − i=1 (xi − µ)2 = (2πσ 2 )−n/2 exp 2σ 2 Pn − i=1 (xi − x ¯+x ¯ − µ)2 , = (2πσ 2 )−n/2 exp 2σ 2 al desarrollar el cuadrado en el exponente, esta expresi´on es equivalente a " Pn # Pn − ¯)2 + 2(¯ x − µ) i=1 (xi − x ¯) + n(¯ x − µ)2 i=1 (xi − x 2 −n/2 (2πσ ) exp , 2σ 2 Pn y como i=1 (xi − x ¯) = 0, se tiene que fX1 ,...,Xn x1 , . . . , xn ; µ, σ 2 = " # Pn x − µ)2 − ¯)2 + n(¯ i=1 (xi − x 2 −n/2 (2πσ ) exp . 2σ 2 ¯ tiene distribuci´on N (µ, σ 2 /n), entonces Recordando que la media muestral X el cociente (3.13) est´ a dado por fX1 ,X2 ,...,Xn x1 , x2 , . . . , xn ; µ, σ 2 k (s; µ, σ 2 ) Pn −( i=1 (xi −¯ x)2 +n(¯ x−µ)2 ) 2 −n/2 (2πσ ) exp 2σ 2 h i = x−µ)2 (2πσ 2 /n)−1/2 exp −n(¯ 2 2σ Pn (n−1) − i=1 (xi − x ¯)2 = n−1/2 (2πσ 2 )− 2 exp , 2σ 2 que no depende de µ. Por lo tanto, la media muestral es una estad´ıstica suficiente para µ.
70
3. Estad´ısticas y distribuciones muestrales
3.4.2.
El teorema de factorizaci´ on
El siguiente resultado conocido como el teorema de factorizaci´ on de Neyman o simplemente teorema de factorizaci´ on, permite encontrar una estad´ıstica suficiente sin hallar la funci´ on de densidad de la estad´ıstica de inter´es y, m´as a´ un, sin tener que proponer dicha estad´ıstica. Teorema 3.5 Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´ on con olo si, la funci´ on de funci´ on de densidad f (x; θ); S(X) es suficiente si y s´ densidad conjunta de X1 , . . . , Xn puede factorizarse como: fX1 ,...,Xn (x1 , . . . , xn ; θ) = g (S(x); θ) · h (x1 , . . . , xn ) , donde g y h son funciones no negativas tales que g (S(x); θ) depende de la muestra s´ olo a trav´es de S(x) y tambi´en depende de θ; y h (x1 , . . . , xn ) no depende de θ. Es decir, el teorema de factorizaci´ on establece que fX1 ,...,Xn (x1 , . . . , xn ; θ) =
g (S(x); θ) | {z }
depende de θ y de la muestra s´ olo a trav´ es de S
·
h (x1 , . . . , xn ) | {z }
depende s´ olo de la muestra
Demostraci´ on. (Caso discreto): ⇒ S(X) es suficiente. Si x1 , x2 , . . . , xn , son tales que S (x1 , x2 , . . . , xn ) = s, la densidad conjunta de X1 , . . . , Xn puede escribirse como P (X1 = x1 , . . . , Xn = xn ) = P (X1 = x1 , . . . , Xn = xn ; S(X) = s) . Usando la definici´ on de probabilidad condicional, la expresi´on anterior es equivalente a P (X1 = x1 , . . . , Xn = xn ) = P ( X1 = x1 , . . . , Xn = xn | S(X) = s) · P [S(X) = s] . (3.14) Por la suficiencia de S(X), la probabilidad condicional en (3.14) no depende de θ, por lo que la densidad conjunta de X1 , . . . , Xn se puede expresar como: P (X1 = x1 , . . . , Xn = xn ) = h(x1 , . . . , xn ) · g(S(x); θ), donde h(x1 , . . . , xn ) = P ( X1 = x1 , . . . , Xn = xn | S(X) = s)
71
3.4. Estad´ısticas suficientes y g(S(x); θ) = P [S(X) = s] .
⇐ Por demostrar que S(X) es suficiente, es decir, se debe probar que P [ X1 = x1 , . . . , Xn = xn | S(X)] no depende de θ, bajo el supuesto de que la factorizaci´on es v´alida. Se tiene que P [ X1 = x1 , . . . , Xn = xn | S(X) = s] =
P [X1 = x1 , . . . , Xn = xn , S(X) = s] P[S(X) = s]
pero P[S(X) = s] =
X
P[X1 = x1 , . . . , Xn = xn ],
(3.15)
As
donde: As = {(x1 , x2 , . . . , xn ) ∈ X : S(x1 , x2 , . . . , xn ) = s} y X representa el conjunto de todos los posibles valores de (X1 , . . . , Xn ) . Es decir, As consta de todos aquellos (x1 , x2 , . . . , xn ) tales que S(x) = s (ver, por ejemplo, (3.11) y (3.12)). Por la hip´ otesis, P[X1 = x1 , . . . , Xn = xn ] se puede factorizar como el producto g(S(x); θ)h(x), de tal manera que (3.15) se puede escribir como: X X P[S(X) = s] = g(S(x); θ)h(x) = g(s; θ) h(x) As
As
y P [ X1 = x1 , . . . , Xn = xn | S(X) = s]
=
g(S(x); θ)h(x) P g(s; θ) As h(x)
=
g(s; θ)h(x) P g(s; θ) As h(x)
=
P
h(x) , As h(x)
si (x1 , x2 , . . . , xn ) es tal que S(x) = s y vale cero en otro caso. Es decir, P [ X1 = x1 , . . . , Xn = xn | S(X) = s] no depende de θ, por lo que S(X) es una estad´ıstica suficiente. Demostraci´ on. (Caso continuo):
72
3. Estad´ısticas y distribuciones muestrales Se supone primero la factorizaci´ on, es decir, fX1 ,...,Xn (x1 , x2 , . . . , xn ; θ)
=
Πni=1 f (xi , θ)
=
g (S (x) ; θ) h (x1 , x2 , . . . , xn ) .
Sea V1 = S (X1 , . . . , Xn ) y considere la transformaci´on uno a uno definida de la siguiente manera v1 = S (x1 , x2 , . . . , xn ) , vi = ui (x1 , x2 , . . . , xn ) , para i = 2, . . . , n; con funciones inversas xi = wi (v1 , v2 , . . . , vn ) para i = 1, 2, . . . , n y Jacobiano J = [∂wi /∂vj ], que denota la entrada (i, j) de la matriz. Entonces la densidad conjunta de las variables V1 , V2 , . . . , Vn est´a dada por: kV1 ,...,Vn (v1 , . . . , vn ; θ) = |J| g (v1 ; θ) h (w1 (v1 , v2 , . . . , vn ) , . . . , wn (v1 , v2 , . . . , vn )) . As´ı, la densidad de V1 puede obtenerse como kV1 (v1 ; θ) Z ∞ Z ∞ = ··· kV1 ,...,Vn (v1 , . . . , vn ; θ) dv2 · · · dvn −∞ −∞ Z ∞ Z ∞ = g (v1 ; θ) ··· |J| h (w1 (v1 , . . . , vn ) , . . . , wn (v1 , . . . , vn )) dv2 · · · dvn . −∞
−∞
Observe que θ no est´ a involucrada ni en el Jacobiano, ni en los l´ımites de integraci´ on, adem´ as de que la funci´ on h no depende de θ. Por lo tanto, la integral m´ ultiple es una funci´ on exclusivamente de v1 . Sea m (v1 ) Z ∞ Z = ··· −∞
∞
|J| h (w1 (v1 , v2 , . . . , vn ) , . . . , wn (v1 , v2 , . . . , vn )) dv2 · · · dvn ,
−∞
con lo que kV1 (v1 ; θ) = g (v1 ; θ) m (v1 ) .
73
3.4. Estad´ısticas suficientes Note que si m (v1 ) > 0, es posible escribir: g (v1 ; θ) =
kV1 (v1 ; θ) , m (v1 )
o g (S (x) ; θ) =
kV1 (S (x) ; θ) , m [S (x)]
con lo que la factorizaci´ on que se ha supuesto como hip´otesis, se puede reescribir como: fX1 ,...,Xn (x1 , x2 , . . . , xn ; θ)
= g (S (x) ; θ) h (x1 , x2 , . . . , xn ) kV1 (S (x) ; θ) = h (x1 , x2 , . . . , xn ) m [S (x)] h (x1 , x2 , . . . , xn ) , = kV1 (S (x) ; θ) m [S (x)]
de donde: fX1 ,...,Xn (x1 , x2 , . . . , xn ; θ) h (x1 , x2 , . . . , xn ) = kV1 (S (x) ; θ) m [S (x)] no depende de θ, lo cual implica que V1 = S (X) es una estad´ıstica suficiente (ver observaci´ on 3.3). Inversamente, si V1 = S (X) es suficiente, la factorizaci´on se puede hacer tomando la funci´ on g como la densidad de S (X) , es decir, como kV1 (S (x) ; θ) .
Ejemplo 3.6 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una poblaci´on con distribuci´ on Poisson(θ). Hallar una estad´ıstica suficiente para θ. Usando el teorema de factorizaci´ on: fX1 ,...,Xn (x1 , . . . , xn ; θ)
=
Pn i=1 Xi n i=1 xi !
e−nθ Qθ
(xi ) i=1 I{0,1,... }
Qn
n Y Pn 1 (xi ) = e|−nθ θ{z i=1 X}i Qn I{0,1,... } x ! i i=1 i=1 g(S(x);θ) | {z } h(x1 ,...,xn )
∴ S(X) =
Pn
i=1
Xi es una estad´ıstica suficiente para θ.
74
3. Estad´ısticas y distribuciones muestrales
Ejemplo 3.7 Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´on con distribuci´ on Uniforme (0, θ). Para encontrar una estad´ıstica suficiente para θ, se tiene que: fX1 ,...,Xn (x1 , . . . , xn ; θ) =
n Y
f (xi ; θ) =
i=1
n 1 Y (xi ) I . θn i=1 (0,θ)
Como todas las observaciones son positivas, es decir xi > 0, para i = 1, 2, . . . , n, se tiene que n Y
(x )
i I(0,θ) =1
i=1
siempre y cuando yn = m´ ax {x1 , . . . , xn } < θ. Por lo tanto, la densidad conjunta puede escribirse como fX1 ,...,Xn (x1 , . . . , xn ; θ) =
1 (yn ) I , θn (0,θ)
concluyendo que, por el teorema de factorizaci´on, Yn = m´ax {X1 , . . . , Xn } (yn ) es suficiente, con g (s (x1 , x2 , . . . , xn ) ; θ) = θ1n I(0,θ) y h (x1 , x2 , . . . , xn ) = 1. Observe que esta factorizaci´ on no es u ´nica, pueden proponerse otras; pero Yn ser´ a la estad´ıstica suficiente. Ejemplo 3.8 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una poblaci´on con funci´ on de densidad: θxθ−1 , 0 < x < 1, 0 < θ f (x; θ) = 0, en otro caso. Se usar´ a el teorema de factorizaci´ on para probar que el producto S (X1 , X2 , . . . , Xn ) = X1 X2 · · · Xn es una estad´ıstica suficiente para θ. La funci´on de densidad conjunta de X1 , X2 , . . . , Xn es: fX1 ,...,Xn (x1 , . . . , xn ; θ)
= f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ) = Πni=1 θxθ−1 i = θn Πni=1 xθ−1 i θ n n = θ (Πi=1 xi )
1
Πni=1 xi
donde 0 < xi < 1, i = 1, 2, . . . , n. En el teorema de factorizaci´on, sean: θ
g (s (x1 , x2 , . . . , xn ) ; θ) = θn (Πni=1 xi )
75
3.4. Estad´ısticas suficientes y h (x1 , x2 , . . . , xn ) =
1 . Πni=1 xi
Ya que h (x1 , x2 , . . . , xn ) no depende de θ, el producto X1 X2 · · · Xn = Πni=1 Xi es una estad´ıstica suficiente para θ. Observe que si se hubiera querido usar la definici´ on para este ejercicio, era necesario obtener la densidad de la estad´ıstica dada por el producto S(X) = X1 X2 · · · Xn = Πni=1 Xi ; de ah´ı lo valioso del teorema de factorizaci´ on. Observaci´ on 3.4 La muestra ordenada (Y1 , . . . , Yn ) siempre es una estad´ıstica suficiente, pues en el esquema de muestreo aleatorio que se est´a considerando, la funci´ on de densidad conjunta no depende del orden de las variables. A pesar de que la muestra ordenada tiene la misma dimensi´on que la muestra original, al ordenar se elimina la informaci´on irrelevante con relaci´on a la posici´ on con la que se produce cada observaci´on. Una forma de comprobarlo es usando el teorema de factorizaci´ on. La funci´on de densidad conjunta de X1 , . . . , Xn es: fX1 ,...,Xn (x1 , . . . , xn ; θ)
= f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ) = n!f (y1 ; θ) f (y2 ; θ) · · · f (yn ; θ) .
En el teorema de factorizaci´ on, sean: g (s (x1 , x2 , . . . , xn ) ; θ) = f (y1 ; θ) f (y2 ; θ) · · · f (yn ; θ) y h (x1 , x2 , . . . , xn ) = n!. Ya que h (x1 , x2 , . . . , xn ) no depende de θ, la muestra ordenada (Y1 , . . . , Yn ) es una estad´ıstica suficiente. Ejemplo 3.9 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una poblaci´on con distribuci´ on Log´ıstica(µ,σ): f (x; µ, σ) =
e−(x−µ)/σ , − ∞ < x < ∞, −∞ < µ < ∞, σ > 0. σ[1 + e−(x−µ)/σ ]2
La funci´ on de densidad conjunta de X1 , X2 , . . . , Xn es: fX1 ,...,Xn (x1 , . . . , xn ; θ)
= f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ) n Y e−(xi −µ)/σ = σ[1 + e−(xi −µ)/σ ]2 i=1 = n!
n Y
e−(yi −µ)/σ , σ[1 + e−(yi −µ)/σ ]2 i=1
76
3. Estad´ısticas y distribuciones muestrales
donde y1 , . . . , yn es la muestra ordenada. Debido a que no es posible factorizar la funci´ on de densidad conjunta de otra manera tal que se pueda aplicar el teorema de factorizaci´ on, entonces la muestra ordenada (Y1 , . . . , Yn ) es una estad´ıstica suficiente. Cabe aclarar que la muestra ordenada se usar´a como la estad´ıstica suficiente s´ olo cuando no sea posible obtener otra estad´ıstica suficiente.
3.4.3.
La familia exponencial
Hay un conjunto de familias param´etricas de distribuciones que, por sus propiedades, tiene gran relevancia dentro de la inferencia estad´ıstica. Este conjunto se conoce como la clase exponencial o la familia exponencial y su importancia en este momento es que las densidades de esta clase tienen una relaci´ on con el concepto de suficiencia, en el sentido de que si se sabe que una densidad pertenece a la familia exponencial, es posible encontrar una estad´ıstica suficiente de una forma sencilla. En esta parte se revisar´a el caso de densidades con un s´ olo par´ ametro, mientras que en la secci´on 3.6 se ver´a el caso de dos o m´ as par´ ametros. Algunas de las distribuciones m´as conocidas como la Binomial, la Geom´etrica, la Binomial negativa, la Poisson, la Gama, la Normal y la Beta, pertenecen a la familia exponencial. Definici´ on 3.4 Se dice que f (x; θ) pertenece a la familia exponencial (o clase exponencial) si puede factorizarse como: f (x; θ) = a(θ)b(x)ec(θ)d(x) ,
θ ∈ Θ, − ∞ < x < ∞,
donde a(θ) y c(θ) son funciones de θ, y b(x) y d(x) son funciones de x. Ejemplo 3.10 Las siguientes distribuciones pertenecen a la familia exponencial: 1. Si X tiene distribuci´ on Exponencial con par´ametro θ, es decir, X ∼ exp (θ), su funci´ on de densidad est´ a dada por (x)
f (x; θ) = θ · e−θ·x · I(0,∞) . (x)
En este caso, a(θ) = θ, b(x) = I(0,∞) , c(θ) = −θ y d(x) = x.
77
3.4. Estad´ısticas suficientes 2. Si X tiene distribuci´ on Poisson con par´ametro θ, es decir X ∼ Poisson (θ), su funci´ on de densidad es f (x; θ) =
e−θ θx (x) 1 (x) I{0,1,...} = e−θ · I{0,1,...} · ex·ln(θ) , x! x!
de donde puede verse que pertenece a la familia exponencial. 3. Si X tiene distribuci´ on Bernoulli con par´ametro θ, es decir X ∼ Bernoulli (θ), con f (x; θ) = θx (1 − θ)
1−x
= (1 − θ) · I{0,1} · ex·ln( 1−θ ) , (x)
θ
se tiene que pertenece a la familia exponencial. 4. Si X tiene distribuci´ on Geom´etrica con par´ametro θ, es decir X ∼ Geom´ etrica(θ), su funci´ on de densidad se puede escribir como x (x)
(x)
f (x; θ) = θ (1 − θ) I{0,1,...} = θ · I{0,1,...} ex·ln(1−θ) , con lo que se concluye que la distribuci´on Geom´etrica pertenece a la familia exponencial. Note que la distribuci´ on Uniforme en el intervalo (0, θ) no pertenece a la familia exponencial. El resultado que se enuncia a continuaci´ on proporciona la relaci´on entre los miembros de la familia exponencial y la suficiencia. Proposici´ on 3.4 Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´ on con funci´ on de densidad de la forma f (x; θ) = a(θ)b(x)ec(θ)d(x) , es decir, f (x; θ) pertenece a la familia exponencial. Entonces una estad´ıstica suficiente.
Pn
i=1
d(xi ) es
78
3. Estad´ısticas y distribuciones muestrales
Demostraci´ on. Usando el teorema de factorizaci´on, se tiene que: fX1 ,...,Xn (x1 , . . . , xn ; θ)
=
Qn
a(θ)b(xi )ec(θ)d(xi )
=
h
n
i=1
Pn
a (θ) ec(θ) | {z
i=1
d(xi )
i
·
}
g(S(X);θ)
n Y
b(xi )
i=1
| {z }
h(X1 ,...,Xn )
∴ S(X) =
n P
d(Xi ) es una estad´ıstica suficiente para θ.
i=1
En la siguiente tabla se muestran algunas de las distribuciones m´as conocidas que pertenecen a la familia o clase exponencial, aunque en la secci´on 3.6 se ampliar´ a esta lista. Algunos miembros de la familia exponencial f (x; θ) = a (θ) b (x) exp [c (θ) d (x)] Distribuci´ on f (x; θ) a (θ) b (x) c(θ) 1−x θ x Bernoulli (θ) θ (1 − θ) 1−θ 1 ln 1−θ n−x n n x n θ Binomial (n, θ) (1 − θ) ln 1−θ x θ (1 − θ) x x Geom´etrica (θ) θ (1 − θ) θ 1 ln (1 − θ) −θ x 1 e θ −θ e ln θ Poisson (θ) x! x! Exponencial (θ) θe−θx θ 1 −θ 2
Rayleigh (θ)
3.4.4.
x x − 2θ 2 θ2 e
1 θ2
x
− 2θ12
d (x) x x x x x x2
Suficiencia minimal
La idea de la suficiencia es no perder informaci´on relevante del par´ametro (contenida en la muestra) al usar una estad´ıstica. Pero puede haber diferentes estad´ısticas que satisfagan esa condici´ on y lo ideal ser´ıa encontrar la que condense m´ as la informaci´ on. A tales estad´ısticas se les llama suficientes minimales. Intuitivamente, una estad´ıstica es suficiente minimal si cualquier reducci´ on de la misma da lugar a estad´ısticas que ya no son suficientes; es decir, ya no se puede “resumir” m´ as la estad´ıstica, puesto que se perder´ıa informaci´ on contenida en la muestra acerca del par´ametro. Lo anterior tambi´en est´ a asociado con la noci´ on de clases de equivalencia o partici´on del espacio
79
3.4. Estad´ısticas suficientes
muestral inducida por cada estad´ıstica. Ambos enfoques se analizan en los siguientes p´ arrafos. Para ilustrar la idea de suficiencia minimal, considere una muestra aleatoria X1 , X2 , . . . , Xn de la distribuci´ on Bernoulli con par´ametro θ, as´ı como las siguientes estad´ısticas S1 (X) = (X(1) , . . . , X(n) ) = (Y1 , ..., Yn ) , [ n2 ] n X X S2 (X) = Xi , Xi , i=1 i=[ n 2 +1] donde [v] indica la parte entera de v, y S3 (X) =
n X
Xi .
i=1
Considerando que fX1 ,...,Xn (x1 , . . . , xn ; θ)
=
=
θ
Pn
i=1
xi
n
(1 − θ)
n−
(1 − θ)
θ 1−θ
Pn
i=1
xi
n Y
i=1 Pni=1 xi Y n
I{0,1} (xi ) I{0,1} (xi ) ,
i=1
por el teorema de factorizaci´ on, las tres estad´ısticas son suficientes en la distribuci´ on Bernoulli, pues la densidad conjunta tambi´en puede escribirse como x(1) x(2) x(n) Y n θ θ θ n (1 − θ) ··· I{0,1} (xi ) 1−θ 1−θ 1−θ i=1 =
(1 − θ)
n
θ 1−θ
n 2] P[i=1 xi
θ 1−θ
Pn
[
]
i= n +1 2
n xi Y
I{0,1} (xi ) .
i=1
La diferencia entre las tres estad´ısticas radica en el distinto grado de simplificaci´ on obtenido por eliminaci´ on de informaci´on que es irrelevante para el conocimiento de θ. S1 (X) tiene dimensi´ on n, S2 (X) tienen dimensi´on 2 y on 1. S3 es m´ as resumida que S1 y S2 , mientras que S2 S3 (X) tiene dimensi´ es m´ as resumida que S1 . Observe entonces que conociendo S1 o S2 se puede conocer S3 , pero no al rev´es, y conociendo S1 se puede conocer S2 , pero no al rev´es. Si una estad´ıstica suficiente es m´ as resumida que cualquier otra, se
80
3. Estad´ısticas y distribuciones muestrales
le llama suficiente minimal. En el ejemplo, note que S3 puede escribirse como funci´ on de S1 o de S2 , y el hecho de que S3 sea m´as resumida que S1 significa que existe una funci´ on (medible) ϕ tal que S3 puede escribirse como S3 = ϕ (S1 ) . Lo anterior se formaliza en la definici´on 3.5. Siguiendo la idea del p´ arrafo anterior, suponga que S 0 (X) es m´as resumida que S (X) . En t´erminos de la partici´ on inducida por una estad´ıstica, si {As0 } son los elementos de la partici´ on asociados con S 0 (X) y {As } son los elementos de la partici´ on asociados con S(X), se tendr´ıa que cada As es un subconjunto de alg´ un As0 . Si en el ejemplo (de la distribuci´on Bernoulli), se toma n = 3, se tienen los siguientes valores de S1 , S2 y S3 , de donde se pueden revisar las particiones asociadas: (X1 , X2 , X3 ) (0, 0, 0) (0, 0, 1) (0, 1, 0) (1, 0, 0) (1, 1, 0) (1, 0, 1) (0, 1, 1) (1, 1, 1)
S1 (X) (0, 0, 0) (0, 0, 1) (0, 0, 1) (0, 0, 1) (0, 1, 1) (0, 1, 1) (0, 1, 1) (1, 1, 1)
S2 (X) (0, 0) (0, 1) (0, 1) (1, 0) (1, 1) (1, 1) (0, 2) (1, 2)
S3 (X) 0 1 1 1 2 2 2 3
Note que S1 y S3 inducen la misma partici´ on (de 4 elementos), a´ un cuando en S3 hay una reducci´ on en la dimensi´ on; mientras que S2 induce una partici´on de 6 elementos, a saber: A1
= {(0, 0, 0)} ,
A2
= {(0, 0, 1) , (0, 1, 0)} ,
A3
= {(1, 0, 0)} ,
A4
= {(1, 1, 0) , (1, 0, 1)} ,
A5
= {(0, 1, 1)} y
A6
= {(1, 1, 1)} ,
siendo cada uno de ´estos un subconjunto de alguno de los elementos de la partici´ on inducida por S3 . Por ejemplo, A2 es un subconjunto de {(0, 0, 1) , (0, 1, 0) , (1, 0, 0)} , que corresponde al subconjunto del espacio muestral tal que S3 = 1. Una forma de referirse a una partici´ on inducida por S(X), tal que As ⊆ As0 para alguna estad´ıstica S 0 (X), es como una partici´ on m´ as fina (es
3.4. Estad´ısticas suficientes
81
decir, S(X) induce una partici´ on m´ as fina que S 0 (X) o S 0 (X) induce una partici´ on menos fina que S(X)). En estos t´erminos, si S 0 (X) es m´as resumida que S(X), entonces S(X) genera una partici´on m´as fina que S 0 (X). En el ejemplo, S2 (X) induce una partici´ on m´ as fina que S3 (X) . En este contexto, la suficiencia minimal est´a asociada con la partici´ on menos fina que conserva la suficiencia. Definici´ on 3.5 Se dice que una estad´ıstica es suficiente minimal si y s´ olo si (i) es suficiente y (ii) es funci´ on de cualquier otra estad´ıstica suficiente; es decir, S 0 (X) es suficiente minimal si y s´ olo si existe ϕ tal que S 0 (X) = ϕ [S(X)] , donde S(X) es cualquier otra estad´ıstica suficiente. Observaci´ on 3.5 Note que por la discusi´ on previa, la definici´on 3.5 se puede reescribir de una forma alternativa. Sean {As0 } los elementos de la partici´ on asociados con S 0 (X) y {As } los elementos de la partici´on asociados con S(X), se tiene que: un As0 , 1. S 0 (X) es suficiente minimal si cada As es un subconjunto de alg´ donde S (X) es suficiente, o 2. S 0 (X) es suficiente minimal si cualquier otra estad´ıstica suficiente S (X) induce una partici´ on m´ as fina que S 0 (X). Tambi´en se puede decir que 0 S (X) induce una partici´ on menos fina –o m´as gruesa– que S (X). En t´erminos de las clases de equivalencia, cualquier estad´ıstica con una partici´ on m´ as fina que la minimal, ser´ a suficiente. Observaci´ on 3.6 Las estad´ısticas suficientes minimales no son u ´nicas, pues al igual que las estad´ısticas suficientes, cualquier funci´on biyectiva resulta ser tambi´en una estad´ıstica suficiente minimal. Se proporcionar´ a un m´etodo para encontrar estad´ısticas suficientes minimales. Para ello, ser´ a necesario introducir algunos conceptos. Note que el que S 0 (X) sea funci´ on de S(X) (en la definici´on 3.5) significa que si S (x) = S (x0 ) , entonces S 0 (x) = S 0 (x0 ) . Lo anterior puede verificarse de la siguiente manera: si x = (x1 , x2 , ..., xn ) y x0 = (x01 , x02 , ..., x0n ) y se cumple que S (x) = S (x0 ) , se tiene que x y x0 ∈ As y como As ⊆ As0 (por ser S 0 (X) minimal) entonces x y x0 ∈ As0 , lo cual implica que S 0 (x) = S 0 (x0 ) . Se tiene entonces la siguiente definici´ on.
82
3. Estad´ısticas y distribuciones muestrales
Definici´ on 3.6 Sean S (X) y S 0 (X) dos estad´ısticas. Se dice que S 0 (X) es funci´ on de S(X) si para cualesquiera x = (x1 , x2 , ..., xn ) y x0 = (x01 , x02 , ..., x0n ) en el espacio muestral X, que satisfacen que S (x) = S (x0 ) , se cumple que S 0 (x) = S 0 (x0 ). Para lo que sigue, tambi´en es necesario recordar que el soporte de una funci´ on de densidad f (x; θ) , θ ∈ Θ, es el conjunto Sopf = {x : f (x; θ) > 0 para alguna θ ∈ Θ} . A continuaci´ on se define una relaci´ on de equivalencia en Sopf , relaci´on que ser´ a de utilidad para caracterizar a la suficiencia minimal. Definici´ on 3.7 Para dos valores x = (x1 , x2 , ..., xn ) y x0 = (x01 , x02 , ..., x0n ) en Sopf , se dice que x y x0 son equivalentes en verosimilitud si existe H (x, x0 ) > 0, tal que para todo θ ∈ Θ, fX1 ,...,Xn (x; θ) = H (x, x0 ) fX1 ,...,Xn (x0 ; θ), es decir, L(θ | x) = H (x, x0 ) L(θ | x0 ). Esta relaci´ on se denota como
v
x ∼ x0 . El siguiente resultado relaciona la equivalencia en verosimilitud con la suficiencia. Lema 3.1 Sea S (X) una estad´ıstica suficiente y sean x y x0 dos valores en v Sopf . Si S (x) = S (x0 ) = s, entonces x ∼ x0 . Demostraci´ on. Si x, x0 ∈ Sopf , existe θ para el cual fX1 ,...,Xn (x0 ; θ) > 0 y como S (X) es una estad´ıstica suficiente, el teorema de factorizaci´on implica que fX1 ,...,Xn (x; θ) g (s; θ) h (x) h (x) = = = H (x, x0 ) , fX1 ,...,Xn (x0 ; θ) g (s; θ) h (x0 ) h (x0 ) por lo que fX1 ,...,Xn (x; θ) se puede escribir como H (x, x0 ) fX1 ,...,Xn (x0 ; θ). En el lema anterior, el hecho de que S (x) = S (x0 ) = s, implica que el cociente fX1 ,...,Xn (x; θ) fX1 ,...,Xn (x0 ; θ) no depende de θ.
83
3.4. Estad´ısticas suficientes
Teorema 3.6 Sea X1 , ..., Xn una muestra aleatoria de una poblaci´ on con funci´ on de densidad f (x; θ) y sea S 0 (X) una estad´ıstica suficiente para θ. Suponga que para dos valores muestrales x = (x1 , ..., xn ) y x0 = (x01 , ..., x0n ) v en Sopf que son equivalentes en verosimilitud, es decir x ∼ x0 , se tiene que 0 0 0 0 S (x) = S (x ) . Entonces S (X) es suficiente minimal. Demostraci´ on. Sea S (x) cualquier estad´ıstica que sea suficiente para θ y v x, x0 ∈ Sopf , tal que S (x) = S (x0 ) = s, entonces por el lema 3.1, x ∼ x0 , lo 0 0 0 cual a su vez implica (por la hip´ otesis) que S (x) = S (x ) . Por la definici´on 3.6 S 0 (X) es funci´ on de S (X), lo cual, junto con el hecho de que S 0 (X) es suficiente, lleva a la conclusi´ on de que S 0 (X) es suficiente minimal. Este resultado es muy importante debido a que proporciona un m´etodo sistem´ atico para encontrar una estad´ıstica suficiente minimal. En resumen, lo que debe hacerse es lo siguiente: para dos valores muestrales x = (x1 , ..., xn ) y x0 = (x01 , ..., x0n ) en Sopf , verificar la implicaci´on que tiene la equivalencia en verosimilitud sobre la o las estad´ısticas implicadas en la funci´on de densidad conjunta. Lo anterior equivale a calcular el cociente fX1 ,...,Xn (x; θ) fX1 ,...,Xn (x0 ; θ) y ver bajo qu´e condici´ on (sobre las estad´ısticas involucradas) este cociente no depende de θ. Si se cumple la hip´ otesis del teorema 3.6, es decir, “
fX1 ,...,Xn (x; θ) no depende de θ ⇒ S 0 (x) = S 0 (x0 ) ”, fX1 ,...,Xn (x0 ; θ)
entonces S 0 es suficiente minimal. Ejemplo 3.11 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una poblaci´on con distribuci´ on Bernoulli(θ), entonces: P Pn Qn 1−xi n− n xi i=1 xi fX1 ,...,Xn (x; θ) θ i=1 xi (1 − θ) i=1 θ (1 − θ) P = = P Qn 0 n 0 1−x0i n− n x0i i=1 xi fX1 ,...,Xn (x0 ; θ) θ i=1 xi (1 − θ) i=1 θ (1 − θ)
=
θ 1−θ
Pni=1 xi −Pni=1 x0i
el cual no depende de θ si y s´ olo si estad´ıstica suficiente minimal.
, Pn
i=1
xi =
Pn
i=1
x0i . As´ı,
Pn
i=1
Xi es una
84
3. Estad´ısticas y distribuciones muestrales
Ejemplo 3.12 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una poblaci´on con distribuci´ on Uniforme en el intervalo (0, θ) . En este caso, fX1 ,...,Xn (x; θ) fX1 ,...,Xn (x0 ; θ)
=
(xi ) i=1 I(0,θ) Qn (x0i ) 1 i=1 I(0,θ) θn 1 θn
Qn
(y )
=
n I(0,θ)
(y 0 )
(θ)
=
I(yn ,∞) (θ)
,
I(y0 ,∞)
n I(0,θ)
n
cociente que no depende de θ si y s´ olo si yn = yn0 , concluyendo que Yn es una estad´ıstica suficiente minimal. Suficiencia minimal y la familia exponencial Se sabe que f (x; θ) pertenece a la familia exponencial si se cumple que: f (x; θ) = a(θ)b(x)ec(θ)d(x) Tomando X = (X1 , . . . , Xn ) y X 0 = (X10 , . . . , Xn0 ) y usando el teorema 3.6, se tiene que: f (x;θ) f (x0 ;θ)
=
Qn i=1 a(θ)b(xi ) exp{c(θ)d(xi )} Qn 0 0 i=1 a(θ)b(xi ) exp{c(θ)d(xi )}
=
Qn Pn i=1 b(xi ) exp{c(θ) i=1 d(xi )} Q P n 0 0 (a(θ))n n i=1 b(xi ) exp{c(θ) i=1 d(xi )}
=
Qn b(xi ) Qi=1 n 0 i=1 b(xi )
(a(θ))n
Pn Pn exp {c(θ) [ i=1 d(xi ) − i=1 d(x0i )]} .
Este cociente no depende de θ si s´ olo si
Pn
i=1
∴
Pn
d(xi ) =
i=1
Pn
d(x0i ).
d(Xi ) es suficiente minimal.
Es decir, si f (x; θ) pertenece a la familia exponencial, estad´ıstica suficiente minimal.
3.5.
i=1
Pn
i=1
d(Xi ) es una
Completez
El concepto de estad´ıstica completa se utilizar´a en uno de los resultados m´as importantes que servir´ an para encontrar estimadores insesgados de varianza m´ınima.
85
3.5. Completez
Definici´ on 3.8 Sea X1 , . . . , Xn una muestra aleatoria de f (x; θ) , θ ∈ Θ. Se olo si, para cualquier funci´ on dice que la estad´ıstica T (X) es completa si y s´ g de T, se tiene que si E(g(T )) = 0 ∀θ ∈ Θ, entonces P(g(T ) = 0) = 1, ∀θ ∈ Θ. Tambi´en se dice que la familia de densidades de T es completa. Se puede pensar entonces que T es completa si una estad´ıstica, funci´on de T, cuya esperanza es 0, vale 0 con probabilidad 1. Ejemplo 3.13 Sea X1 , X2 , . . . , Xn una muestra aleatoria Pn de una poblaci´on con distribuci´ on Bernoulli (θ) , 0 < θ < 1, y T (X) = i=1 Xi . Para ver si T es completa, se considera E(g(T )) = 0, que es equivalente a: n X
n t n−t E(g(T )) = g(t) θ (1 − θ) = 0, t t=0 de donde
o ´
n X
t n θ g(t) (1 − θ) = 0, t 1−θ t=0 n
n X
t n θ = 0, g(t) 1−θ t t=0 θ el cual es un polinomio en 1−θ , que vale cero si cada uno de los coeficientes t θ vale cero, es decir, si de 1−θ n g(t) = 0, t
para toda t = 0, 1, 2, . . . , n,
pero nt 6= 0, as´ı queP g(t) = 0, ∀t ∈ {0, 1, 2, . . . , n}, lo que lleva a la conclun si´ on de que T (X) = t=1 Xi es una estad´ıstica completa. Observe que si en esta distribuci´ on se toma T (X) = X1 −X2 y g (T ) = T, se tiene que E(X1 − X2 ) = E (X1 ) − E (X2 ) = 0, pero X1 − X2 no vale cero con probabilidad 1, as´ı que X1 − X2 no es completa. Ejemplo 3.14 Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´on con distribuci´ on Uniforme continua en el intervalo (0, θ) . Para ver si T (X) = Yn = m´ ax {X1 , . . . , Xn }
86
3. Estad´ısticas y distribuciones muestrales
es completa, se hace Z E(g(T )) =
g(t)fT (t)dt = 0.
En el caso de la m´ axima estad´ıstica de orden, fT (t) = n
tn−1 (t) I , θn (0,θ)
t = yn .
As´ı θ
Z E(g(T ))
=
g(t) 0
n θn
= entonces
Z
n n−1 t dt θn
θ
g(t)tn−1 dt = 0,
∀θ > 0,
0
θ
Z
g(t)tn−1 dt = 0,
∀θ > 0.
0
Lo cual implica que g(θ)θn−1 = 0
∀θ > 0,
y por lo tanto, g(θ) = 0, ∀θ > 0, lo que lleva a concluir que la m´axima estad´ıstica de orden es una estad´ıstica completa. Observaci´ on 3.7 En general, puede decirse que una familia param´etrica de distribuciones f (x; θ) es completa si E [g (X)] = 0 implica que g (x) = 0 casi seguramente (c.s.). En este contexto, si f (x; θ) pertenece a la familia exponencial, entonces f (x; θ) es completa. Para verificarlo, se considerar´a el caso particular en el que c (θ) = θ y d (x) = x, es decir: f (x; θ) = a (θ) b (x) eθx . Ahora, si para toda θ, se cumple que: Z ∞ g (x) f (x; θ) dx = 0, −∞
se tiene que Z
∞
g (x) a (θ) b (x) eθx dx = 0,
−∞
o
Z
∞
[g (x) b (x)] eθx dx = 0,
−∞
la cual corresponde a la transformada de Laplace de la funci´on g (x) b (x) . Por la propiedad de unicidad de la transformada, la u ´nica funci´on que tiene
87
3.5. Completez
una transformada igual a cero es la funci´ on que vale cero c.s., es decir, g (x) b (x) = 0 c.s., de donde se obtiene que g (x) = 0 c.s., considerando b (x) 6= 0. As´ı que f (x; θ) es completa. Observaci´ on 3.8 Si f (x; θ) pertenece a la familia exponencial, entonces n P d (Xi ) es completa. i=1
En s´ıntesis, una de las ventajas que se tiene al identificar a un miembro de la familia exponencial est´ a explicada en el siguiente resultado. Teorema 3.7 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una poblaci´ on con funci´ on de densidad f (x; θ) con θ ∈ Θ ⊆ R, donde f (x; θ) pertenece a la familia exponencial, es decir, f (x; θ) = a(θ)b(x) exp{c(θ)d(x)}. Entonces, n P la estad´ıstica d(Xi ) es suficiente minimal y completa. i=1
Aunque este resultado es un resumen de lo que ya se justific´o en la secci´on 3.4.4 (suficiencia minimal y la familia exponencial) y de las observaciones anteriores, la parte correspondiente a la completez puede consultarse con mayor detalle en Zacks (1971), p´ agina 69, o Schervish (1995), p´aginas 108110. De esta manera, es posible encontrar estad´ısticas suficientes y completas f´ acilmente cuando la muestra proviene de un miembro de la familia exponencial. Por ejemplo, sea X1 , X2 , . . . , Xn una muestra aleatoria de una poblaci´ on con distribuci´ on Geom´ etrica (θ), con θ ∈ [0, 1]; para encontrar una estad´ıstica suficiente y completa, observe que f (x; θ) pertenece a la familia exponencial, ya que como se vio antes, f (x; θ)
= θ(1 − θ)x I{0,1,...} (x) = θ exp{x ln(1 − θ)}I{0,1,...} (x),
con a(θ)
=
θ,
b(x)
=
I{0,1,...} (x),
c(θ)
=
ln(1 − θ),
d(x)
=
x.
De donde, puede concluirse que S (X) =
n P i=1i
(minimal) y completa.
Xi es una estad´ıstica suficiente
88
3.6.
3. Estad´ısticas y distribuciones muestrales
Algunas generalizaciones
La primera generalizaci´ on de los resultados vistos previamente se refiere al teorema de factorizaci´ on para un conjunto de estad´ısticas suficientes. Teorema 3.8 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una poblaci´ on ametros. Las escon funci´ on de densidad f (x; θ) , donde θ es un vector de par´ tad´ısticas S1 (X) , S2 (X) , . . . , Sr (X) , r ≥ k, son conjuntamente suficientes si y s´ olo si existen dos funciones: g(S1 , . . . , Sr ; θ) que depende de X1 , X2 , . . . , Xn s´ olo a trav´es de S1 , . . . , Sr y de θ; y h(X) cualquier funci´ on no negativa que s´ olo depende de la muestra, para las cuales la densidad conjunta fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ; θ1 , θ2 , . . . , θk ) puede factorizarse como: fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ,θ) = g(S1 , . . . , Sr ; θ) h(x). Ejemplo 3.15 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una poblaci´on con distribuci´ on N (µ, σ 2 ). Encontrar estad´ısticas suficientes para θ =(µ, σ 2 ). La densidad conjunta de X1 , X2 , . . . , Xn puede escribirse como fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ,µ, σ 2 ) =
n Y i=1
1 2πσ 2
2
1
e− 2σ2 (xi −µ)
1 2πσ 2
n/2
1 2πσ 2
n2
= =
√
1
e− 2σ2
2 i=1 (xi −µ)
Pn
e− 2σ2 ( 1
Pn
i=1
x2i −2µ
Pn
i=1
xi +nµ2 )
n n P P la densidad conjunta depende de x1 , x2 , . . . , xn s´olo a trav´es de x2i y xi , i=1 i=1 n n P P por lo que las estad´ısticas Xi , Xi2 son conjuntamente suficientes. i=1 i=1 n n P P 2 2 Note que (X, S ) es una funci´ on uno a uno de Xi , Xi , por lo que i=1
i=1
tambi´en son suficientes para la distribuci´ on Normal. Familias exponenciales k-param´ etricas Cuando la familia param´etrica tiene m´ as de un par´ametro, es decir, su funci´ on de densidad es de la forma f (x; θ) con θ∈ Θ ⊆ Rk , se dice que pertenece
,
89
3.6. Algunas generalizaciones
a la familia exponencial k-param´etrica si y s´olo si puede expresarse de la forma k X cj (θ)dj (x) f (x; θ) = a(θ)b(x) exp j=1
Ejemplo 3.16 Sea X ∼ Gama(r, λ), ¿pertenece a la familia exponencial k-param´etrica?. En este caso, f (x; r, λ)
λr r−1 −λx x e I(0,∞) (x) Γ(r) λr −λx+(r−1) ln(x) e I(0,∞) (x), Γ(r)
= =
por lo que:
r
λ a(θ) = Γ(r) , b(x) = I(0,∞) (x), c1 (θ) = −λ, d1 (x) = x, c2 (θ) = r − 1, d2 (x) = ln x,
por lo tanto, se concluye que la densidad Gama pertenece a la familia exponencial. Ejemplo 3.17 La distribuci´ on Normal µ, σ 2 pertenece a la familia exponencial. Para comprobarlo, la densidad puede escribirse como: f x; µ, σ 2
de donde: a µ, σ 2 = d2 = x.
=
√
=
√
=
√ µ2
√ 1 e− 2σ2 2πσ 2
1 2πσ 2 1 2πσ 2 1 2πσ 2
1
e− 2σ2 (x−µ) e− 2σ2 (x 1
µ2
2
2
−2xµ+µ2 )
1
e− 2σ2 e− 2σ2 x
2
+ σµ2 x
,
, b (x) = 1, c1 = − 2σ1 2 , d1 = x2 , c2 =
µ σ2
y
Ejemplo 3.18 La distribuci´ on Beta (θ1 , θ2 ) pertenece a la familia exponencial, pues la densidad se puede escribir como: f (x; θ1 , θ2 )
= =
1 θ −1 xθ1 −1 (1 − x) 2 I(0,1) (x) B (θ1 , θ2 ) 1 I(0,1) (x) e(θ1 −1) ln x+(θ2 −1) ln(1−x) . B (θ1 , θ2 )
90
3. Estad´ısticas y distribuciones muestrales
Por u ´ltimo, se enuncia una extensi´ on del resultado que relaciona a la familia exponencial con la suficiencia. Teorema 3.9 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una poblaci´ on con funci´ on de densidad f (x; θ) , con θ ∈ Θ ⊆ Rk , que pertenece a la familia exponencial k-param´etrica, es decir: k X cj (θ)dj (x) . f (x; θ) = a(θ)b(x) exp j=1
Entonces, el conjunto de estad´ısticas n X
d1 (Xi ),
i=1
n X
d2 (Xi ), . . . ,
i=1
n X
! dk (Xi )
i=1
son suficientes y completas. Con este resultado y considerando 3.16, n el ejemplo se puede afirmar que n P P si X ∼ Gama(r, λ), entonces Xi , ln(Xi ) son suficientes y comi=1 i=1 Pn Pn 2 pletas. Tambi´en puede concluirse en la i=1 Xi , i=1 Xi Pn lo mismo Pn para distribuci´ on Normal y para ( i=1 ln Xi , i=1 ln (1 − Xi )) en la distribuci´on Beta.
3.7.
Estad´ısticas auxiliares
En esta secci´ on se estudiar´ a un tipo especial de estad´ısticas llamadas auxiliares. Como se ver´ a, una estad´ıstica auxiliar no contiene informaci´on acerca de θ, es una variable aleatoria cuya distribuci´ on es fija y conocida, sin relaci´on con θ. Sin embargo, cuando se usa en conjunto con otras estad´ısticas, puede contener informaci´ on valiosa para hacer inferencias acerca del par´ametro. on no depende del Definici´ on 3.9 A una estad´ıstica T (X) cuya distribuci´ par´ ametro θ, se le llama estad´ıstica auxiliar. Ejemplo 3.19 Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´ on Uniforme continua sobre el intervalo (θ, θ + 1), −∞ < θ < ∞. Sean Y1 = X(1) , . . . , Yn = X(n) las estad´ısticas de orden de la muestra. La estad´ıstica Rango R = Yn − Y1 , es una estad´ıstica auxiliar. Para verificarlo, se mostrar´ a que la densidad de R no depende de θ.
91
3.7. Estad´ısticas auxiliares La funci´ on de distribuci´ on de cada 0, F (x; θ) = x − θ, 1,
Xi es si x ≤ θ, si θ < x < θ + 1, si x ≥ θ + 1,
mientras que la funci´ on de densidad est´ a dada por (x)
f (x; θ) = I(θ,θ+1) . Por lo tanto, usando la expresi´ on (3.8) deducida en la secci´on 3.3.2 la funci´on de densidad conjunta de Y1 y Yn es fY1 ,Yn (y1 , yn )
n(n − 1)(F (yn ) − F (y1 ))n−2 f (y1 )f (yn ) ( n(n − 1)(yn − y1 )n−2 si θ < y1 < yn < θ + 1, = 0 en otro caso.
=
Haciendo la transformaci´ on R = Yn − Y1 y T = (Y1 + Yn ) /2, la cual tiene la transformaci´ on inversa Y1 = (2T − R)/2 y Yn = (2T + R)/2 con Jacobiano igual a −1 (ver secci´ on 3.3.2), y usando la expresi´on (3.9), la funci´on de densidad conjunta de R y T est´ a dada por ( n(n − 1)rn−2 si 0 < r < 1; θ + (r/2) < t < θ + 1 − (r/2), fR,T (r, t) = 0 en otro caso. Por lo tanto, la funci´ on de densidad de probabilidad para R es Z θ+1−(r/2) fR (r) = n(n − 1)rn−2 dt θ+(r/2)
= n(n − 1)rn−2 (1 − r),
0 < r < 1.
Esta es la funci´ on de densidad de una variable aleatoria con distribuci´on Beta con α = n − 1 y β = 2. Y as´ı, la funci´ on de densidad es la misma para toda θ; por lo tanto, la distribuci´ on de R no depende de θ, concluy´endose que R = Yn − Y1 es una estad´ıstica auxiliar. El siguiente resultado, conocido como el teorema de Basu, permite verificar la independencia de dos estad´ısticas sin necesidad de encontrar su distribuci´ on conjunta. Teorema 3.10 (teorema de Basu). Si S(X) es una estad´ıstica suficiente y completa y T (X) es una estad´ıstica auxiliar, entonces S(X) y T (X) son independientes.
92
3. Estad´ısticas y distribuciones muestrales
Demostraci´ on. Se har´ a para el caso discreto. Como T (X) es una estad´ıstica auxiliar, entonces P(T (X) = t) no depende de θ. Tambi´en la probabilidad condicional P(T (X) = t|S(X) = s) = P(X ∈ {x : T (x) = t}|S(X) = s), no depende de θ porque S(X) es una estad´ıstica suficiente. Por lo tanto, para demostrar que S(X) y T (X) son independientes, basta comprobar que P(T (X) = t|S(X) = s) = P(T (X) = t), para todos los posibles valores de s ∈ S. Observe que X P(T (X) = t) = P(T (X) = t|S(X) = s)P(S(X) = s).
(3.16)
s∈S
Por otro lado, dado que
X
P(S(X) = s) = 1, se puede escribir
s∈S
P(T (X) = t)
= P(T (X) = t)
X
P(S(X) = s)
s∈S
=
X
P(T (X) = t)P(S(X) = s).
(3.17)
s∈S
Sea g (S) definida como g(s) = P(T (X) = t|S(X) = s) − P(T (X) = t), la cual no depende de θ, pues como se hab´ıa se˜ nalado, ni P(T (X) = t|S(X) = s) (por la suficiencia de S), ni P(T (X) = t) (por ser T una estad´ıstica auxiliar) dependen de θ; as´ı que g (S) es una estad´ıstica. Por (3.16) y (3.17), se deduce que X E [g(S)] = g(s)P(S(X) = s) s∈S
=
X
[P(T (X) = t|S(X) = s) − P(T (X) = t)] P(S(X) = s)
s∈S
=
X
P(T (X) = t|S(X) = s)P(S(X) = s)
s∈S
−
X
P(T (X) = t)P(S(X) = s)
s∈S
= P(T (X) = t) − P(T (X) = t) =
0, para toda θ,
3.8. Ejercicios
93
y como S(X) es una estad´ıstica completa, se tiene que g(s) = 0, para s ∈ S; por lo que P(T (X) = t|S(X) = s) = P(T (X) = t), concluy´endose que S(X) y T (X) son independientes.
En el teorema de Basu se hace el supuesto de que S (X) es suficiente y completa, esto implica que S (X) tambi´en es suficiente minimal (ver Schervish (1995), secci´ on 2.1). Ejemplo 3.20 Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´on con distribuci´ on Uniforme en el intervalo (0, θ) y sean Y1 y Yn las estad´ısticas de orden m´ınima y m´ axima, respectivamente. Entonces las estad´ısticas T (X) = Y1 y S (X) = Y , son variables aleatorias independientes. Para verificarlo, n Yn recuerde que Yn es una estad´ıstica suficiente y completa para θ (ver ejemplos 3.7 y 3.14). De acuerdo con el teorema de Basu basta mostrar que T (X) es una estad´ıstica auxiliar, por lo que se calcular´a la funci´on de distribuci´on de T (X) usando la expresi´ on general para la funci´on de densidad conjunta de Y1 y Yn dada por (3.8) e integrando sobre la regi´on adecuada: Y1 FT (t) = P ≤t , 0 0. (a) Obtenga la distribuci´ on de T =
Pn
i=1
Xi2 .
(b) Obtenga E(T ) y Var(T ). (c) Demuestre que T es una estad´ıstica suficiente para θ. 8. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on N (µ, σ 2 ). Encuentre la media y la varianza de sP S=
n i=1 (Xi
¯ 2 − X) . n−1
9. Sea X una variable aleatoria con distribuci´on χ2(1) . Defina Z1 = √ y Z2 = − X. Obtenga las distribuciones de Z1 y Z2 .
√ +
X
10. Sea X una variable aleatoria con distibuci´on F (m, n). Demuestre que (a) Z =
1 X
(b) Z =
mX/n 1+mX/n
∼ F (n, m). ∼ Beta(m/2, n/2).
11. Sea X una variable aleatoria con distibuci´on t(k) . Demuestre que (a) La distribuci´ on de X se aproxima a una distribuci´on N (0, 1) cuando k crece. (b) Y = X 2 ∼ F (1, k). 12. Demuestre el teorema 3.4. Es decir, si Z y U son variables aleatorias independientes con distribuci´ on N (0, 1) y χ2(k) , respectivamente, demuestre que Z p ∼ t(k) . U/k
96
3. Estad´ısticas y distribuciones muestrales
13. Sea Xi , i = 1, 2, 3, una muestra aleatoria de la poblaci´on con distribuci´ on N (i, i2 ), respectivamente. En cada una de las siguientes situaciones utilice las Xi ’s para construir una estad´ıstica con la distribuci´on indicada. (a) χ2 con 3 grados de libertad. (b) t de Student con 2 grados de libertad. (c) F con 1 y 2 grados de libertad. 14. Sea X1 , X2 una muestra aleatoria de la poblaci´on con distribuci´on N (0, 1). Para cada uno de los siguientes incisos obtenga las distribuciones de las estad´ısticas T (X). √ (a) T (X) = (X2 − X1 )/ 2. (b) T (X) = (X1 + X2 )2 /(X2 − X1 )2 . (c) T (X) = X12 /X22 . (d) T (X) = (X2 + X1 )/
p (X1 − X2 )2 .
15. Sea Z1 , Z2 una muestra aleatoria de la poblaci´on con distribuci´on N (0, 1), y sea X1 , X2 una muestra aleatoria de la poblaci´on con distribuci´ on N (1, 1). Suponga que las Z’s son independientes de las X’s. Para cada uno de los siguientes incisos obtenga las distribuciones de las estad´ısticas T = T (X, Z). ¯ + Z. ¯ (a) T = X p (b) T = (Z1 + Z2 )/ [(X2 − X1 )2 + (Z2 − Z1 )2 ]/2. (c) T = (X1 − X2 )2 + (Z1 − Z2 )2 + (Z1 + Z2 )2 /2. (d) T = (X2 + X1 − 2)2 /(X2 − X1 )2 . 16. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on N (0, 1). Sean Xk =
k 1X Xi , k i=1
X n−k =
n X 1 Xi . n−k i=k+1
Para cada uno de los siguientes incisos obtenga las distribuciones de las estad´ısticas T (X). (a) T (X) = 21 (X k + X n−k ). 2
2
(b) T (X) = kX k + (n − k)X n−k .
97
3.8. Ejercicios (d) T (X) = X1 /Xn .
17. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on N (µ, σ 2 ). Sean Xk = X n−k =
k 1X Xi , k i=1
n X 1 Xi , n−k
X=
i=k+1 n X
1 n
Xi ,
k
1 X (Xi − X k )2 , k − 1 i=1
Sk2 =
2 Sn−k =
n X 1 (Xi − X n−k )2 , n−k−1 i=k+1
1 n−1
S2 =
i=1
n X
(Xi − X)2 .
i=1
Para cada uno de los siguientes incisos obtenga las distribuciones de las estad´ısticas T (X). 2 2 (a) T (X) = (k − 1)Sk2 + (n − k − 1)Sn−k /σ . (b) T (X) = 21 (X k + X n−k ). ¯ − µ)/(S/√n). (c) T (X) = (X 2 (d) T (X) = Sk2 /Sn−k .
18. Sean X1 , . . . , Xn y Z1 , . . . , Zn muestras aleatorias independientes entre s´ı de la distribuci´ on Normal tales que E(Xi ) = E(Zi ) = µ, Var(Xi ) = σ 2 y Var(Zi ) = 2σ 2 para cualquier i ∈ {1, 2, . . . , n}. Defina U=
n X
¯ 2, (Xi − X)
V =
i=1
Determine la distribuci´ on de
n X ¯ 2. (Zi − Z) i=1
2U +V 2σ 2
.
19. Un inversionista burs´ atil compra o vende acciones de CEMEX, S. A. mediante el siguiente procedimiento: selecciona al azar una muestra de d´ıas para los que determina el ´ındice medio, X de la empresa Edificaciones, S. A.; selecciona tambi´en al azar otra muestra de d´ıas, para los que determina el ´ındice medio, Z, de CEMEX, S. A. Compra acciones de CEMEX, S. A. cuando Z ≤ X, vendiendo en caso contrario. El inversionista supone que ambos ´ındices burs´atiles se distribuyen normal e independientemente con una diferencia de medias de 1.432 unidades en favor de la primera y que los ´ındices burs´atiles de ambas empresas se comportan de forma independiente todos los d´ıas.
98
3. Estad´ısticas y distribuciones muestrales Calcular la probabilidad de que el inversionista compre bajo el supuesto de que seleccion´ o 60 d´ıas para calcular el primer ´ındice y obtuvo una varianza muestral de 23 y 50 d´ıas para el segundo con una varianza de 7.
20. Sea X1 , X2 una muestra aleatoria de la poblaci´on con distribuci´on N (0, 1). Defina Y = m´ın(X1 , X2 ). Demuestre que Y 2 ∼ χ2(1) . 21. Sea X1 , X2 una muestra aleatoria de la poblaci´on con distribuci´on Pareto, cuya funci´ on de densidad es f (x; α) =
α I[1,∞] (x), α > 0. xα+1
Sean Y1 y Y2 las correspondiente estad´ısticas de orden. ¿Qu´e puede decir de la distribuci´ on de las variables aleatorias presentadas en los siguientes incisos? (a) Y2 . (b) Y2 − Y1 . (c) Y2 /Y1 . 22. Sea X1 , X2 , X3 una muestra aleatoria de la poblaci´on con distribuci´on U (0, 1). (a) Obtenga la distribuci´ on conjunta de Y1 , Y2 , Y3 (las correspondientes estad´ısticas de orden). (b) Obtenga la funci´ on de densidad de la mediana, es decir, de Y2 . (c) Obtenga la funci´ on de densidad del rango R = Y3 − Y1 . 23. Sean Y1 , Y2 , Y3 , Y4 las estad´ısticas de orden de una muestra aleatoria de tama˜ no 4 de la poblaci´ on con funci´ on de densidad fX (x) = exp (−x) I(0,∞) (x) . Obtenga lo siguiente: (a) P (3 ≤ Y4 ). (b) E (Y1 ). (c) La funci´ on de densidad conjunta de Y1 y Y4 . 24. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´ on Exponencial de par´ ametro θ = 1, es decir Xi ∼ exp(1). Y sean Y1 , . . . , Yn las correspondientes estad´ısticas de orden. Demuestre que nYn y n(Y2 − Y1 ) son independientes.
99
3.8. Ejercicios
25. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on Uniforme U (θ − 1/2, θ + 1/2). (a) Obtenga la distribuci´ on de la m´ınima estad´ıstica de orden Y1 , as´ı como de la m´ axima Yn . (b) Obtenga las esperanzas de Y1 y Yn . 26. Sea X1 , X2 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´ on Uniforme U (0, θ). Demuestre que Y1 /Yn y Yn son variables aleatorias independientes, donde Y1 y Yn son las estad´ısticas de orden m´ınima y m´ axima respectivamente. 27. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con funci´on de densidad a fX (x; a, θ) = a xa−1 , si 0 < x < θ. θ Sean Y1 , . . . , Yn las correspondientes estad´ısticas de orden. Demuestre que Y1 /Y2 , Y2 /Y3 , . . . , Yn−1 /Yn son variables aleatorias mutuamente independientes y obtenga la distribuci´ on de cada una de ellas. 28. Sea Ui , i = 1, 2, . . . , una muestra aleatoria de la poblaci´on con distribuci´ on U (0, 1), y sea X una variable aleatoria con funci´on de densidad P(X = x) =
c , x!
x = 1, 2, 3, . . . ,
donde c = 1/(e − 1). Obtenga la distribuci´on de Y = m´ın(U1 , . . . , UX ). [Nota: La distribuci´ on condicional de Y dada X = x, Y |X = x, es la distribuci´ on de la m´ınima estad´ıstica de orden de una muestra de tama˜ no x]. 29. Sea X1 , X2 una muestra aleatoria de la poblaci´on con distribuci´on N (0, 1). Obtenga la distribuci´ on del rango, R = Y2 − Y1 . 30. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on U (0, 1). Sean Y1 , . . . , Yn las correspondientes estad´ısticas de orden. (a) Obtenga la media y varianza de Yn − Y1 . (b) Obtenga la media y varianza de (Y1 + Yn )/2. (c) Obtenga la media y varianza de Yk+1 (mediana) considerando que n = 2k + 1, con k = 0, 1, . . . . (d) Compare las medias y las varianzas de X, Yk+1 , (Y1 + Yn )/2.
100
3. Estad´ısticas y distribuciones muestrales
31. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on N (µ, σ 2 ). Demuestre que: Pn 2 ıstica suficiente para σ 2 cuando (a) S(X) = i=1 Xi es una estad´ µ = 0. 2 Pn (b) S(X) = i=1 (xi −µ) es una estad´ıstica suficiente para σ 2 cuando n µ es conocida. Pn (xi −¯x)2 (c) S(X) = no es una estad´ıstica suficiente para σ 2 i=1 n cuando µ es desconocida. 32. Sea X una variable aleatoria con distribuci´on N (0, θ) . (a) ¿Es S(X) = X una estad´ıstica suficiente para θ?. (b) ¿Es S(X) =| X | una estad´ıstica suficiente para θ?. 33. *Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on Gama(α, β) cuya funci´ on de densidad es f (x; α, θ) =
1 xα−1 e−x/β , Γ(α)β α
con α > 0, β > 0 y 0 < x < ∞. (a) Demuestre que si α = 1, S(X) = suficiente para β.
Pn
i=1
(b) Demuestre que si β es conocido, S(X) = ca suficiente para α.
Xi es una estad´ıstica
Qn
i=1
Xi es una estad´ısti-
(c) Si α y β son desconocidos, obtenga una estad´ıstica suficiente (bidimensional) para los par´ ametros (α, β). 34. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on Beta (α, 2) , α > 0, β = 2, cuya funci´ on de densidad es f (x; α) =
Γ (α + 2) α−1 1 x (1 − x) , 0 < x < ∞, Γ (α) Γ (2)
cero en cualquier otro caso. Demuestre que S(X) = X1 X2 · · · Xn = Πni=1 Xi (el producto) es una estad´ıstica suficiente para α. 35. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on W eibull(α, β), cuya funci´ on de densidad es β 1 β−1 x fX (x; α) = βx exp − I(0,∞) (x), α α
101
3.8. Ejercicios
donde α > 0 es un par´ ametro desconocido, pero β > 0 es un par´ametro conocido. Encuentre una estad´ıstica suficiente para θ. 36. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on Cauchy(θ) cuya funci´ on de densidad es f (x; θ) =
1
2
π 1 + (x − θ)
, -∞ < x < ∞, − ∞ < θ < ∞.
(a) ¿Puede escribirse la funci´ on de densidad conjunta de X1 , X2 , . . . , Xn como en el teorema de factorizaci´on? (b) ¿Existe una estad´ıstica suficiente para el par´ametro θ? Sugerencia: al hacer la integral (para calcular la esperanza) considere el cambio de variable x − θ = tan η. 37. Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´on con distribuci´ on W eibull(α, β), donde α > 0 es desconocida, pero β > 0 se supone conocido, con funci´ on de densidad β 1 β−1 x f (x; α) = βx exp − I(0,∞) (x). α α Esta funci´ on de densidad se usa frecuentemente como un modelo para las longitudes de vida de sistemas f´ısicos. Demuestra que S(X) = Pn β ıstica suficiente para α. i=1 Xi es una estad´ 38. *Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´on cuya funci´on de densidad es 1 (x − µ) fX (x; µ, σ) = exp − I(µ,∞) (x), σ σ con µ ∈ R y σ ∈ R+ . Pn (a) Demuestre que S(X) = Y1 , n1 i=1 (Xi − Y1 ) es una estad´ıstica suficiente para (µ, σ) si ambos par´ametros son desconocidos. Pn (b) Demuestre que si µ es conocido entonces S(X) = n1 i=1 (Xi − µ) es una estad´ıstica suficiente para σ. (c) Demuestre que si σ es conocido entonces S(X) = Y1 es una estad´ıstica suficiente para µ.
102
3. Estad´ısticas y distribuciones muestrales
39. *Considere la siguiente funci´ on de densidad dependiente de tres par´ametros α, p y σ, p−1 x−α x−α 1 exp − , f (x; α, p, σ) = σΓ(p) σ σ con p > 0, σ > 0 y α ≤ x < ∞. Demuestre que: (a) Existe una estad´ıstica suficiente para p cuando α y σ son conocidos. (b) Existe una estad´ıstica suficiente para σ cuando α y p son conocidos. (c) De forma conjunta existe un par de estad´ısticas suficientes para (p, σ) cuando α es conocida. (d) Si σ es conocida y p = 1, existe una estad´ıstica suficiente para α. 40. Sea X1 , . . . , Xn una muestra aleatoria de las distribuciones f (x; θ) especificadas a continuaci´ on. Encuentre una estad´ıstica suficiente minimal y completa para θ. (a) f (x; θ) = θxθ−1 I(0,1) (x), θ > 0. (b) f (x; θ) =
1 3 6θ 4 x
exp(−x/θ)I(0,∞) (x), θ > 0.
(c) Binomial(k, θ) (k fijo). (d) Binomialnegativa(k, θ) (k fijo). 41. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on cuya funci´on de densidad es f (x; θ) =
θ2 (x + 1)e−θx I(0,∞) (x), θ > 0. θ+1
(a) Demuestre que la funci´ on de densidad de X pertenece a la familia exponencial. (b) Obtenga una estad´ıstica suficiente minimal y completa. 42. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on Pareto, con funci´ on de densidad f (x; x0 , θ) = θxθ0 x−θ−1 ,
x0 ≤ x, θ > 1.
donde x0 > 0. Obtenga una estad´ıstica suficiente para θ: (a) Usando el teorema de factorizaci´ on.
103
3.8. Ejercicios (b) Usando la propiedad de la familia exponencial. ¿Las estad´ısticas suficientes son las mismas?
43. *Sea X1 , . . . , Xn una muestra de aleatoria de la poblaci´on con distribuci´ on Gaussiana Inversa, IG(µ, λ), cuya funci´on de densidad es 1/2 λ λ(x − µ)2 I(0,∞) (x). exp − 2πx3 2µ2 x ¯ Pn n1 ¯ −1 es una estad´ıstica suficienDemuestre que S(X) = X, −X
f (x; µ, λ) =
i=1 Xi
te y completa. 44. Sea X1 , X2 , X3 una muestra de la poblaci´on con distribuci´on Paleatoria 3 Bernoulli(θ). Defina T = i=1 Xi , T1 = X1 y T2 = (T, T1 ). (a) Obtenga las particiones inducidas sobre el espacio muestral a partir de T , T1 y T2 , respectivamente. (b) Muestre que T es una estad´ıstica suficiente minimal para θ, pero T2 no lo es. [Nota: primero muestre que T conduce a la partici´on suficiente minimal sobre el espacio muestral, pero que T2 no conduce a tal partici´ on]. 45. Sea X una variable aleatoria con distribuci´on Uniforme U (−θ, θ). (a) ¿S(X) = X es una estad´ıstica suficiente minimal para θ? (b) ¿S(X) = X es una estad´ıstica completa? 46. *Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on Uniforme U (θ, θ+1). Demuestre que S(X) = (Y1 , Yn ) es una estad´ıstica suficiente minimal y que no es completa. 47. *Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on Uniforme U (θ1 , θ2 ), con θ1 < θ2 . (a) Demuestra que si θ1 es conocido, entonces S(X) = Yn es una estad´ıstica suficiente minimal y completa para θ2 . (b) Demuestra que si θ2 es conocido, entonces S(X) = Y1 es una estad´ıstica suficiente minimal y completa para θ1 . (c) Si θ1 y θ2 son desconocidos, obtenga una estad´ıstica suficiente (bidimensional) minimal y completa para los par´ametros (θ1 , θ2 ).
104
3. Estad´ısticas y distribuciones muestrales
48. Para cada una de las siguientes distribuciones, sea X1 , . . . , Xn una muestra aleatoria. Obtenga una estad´ıstica suficiente y completa para θ, o en su caso muestre que no existe alguna. (a) f (x; θ) = (b) f (x; θ) =
2x θ 2 , 0 < x < θ, θ > 0. ln(θ)θ x θ−1 , 0 < x < 1, θ >
1.
θ , (1+x)1+θ
0 < x < ∞, θ > 0. (d) f (x; θ) = e−(x−θ) exp −e−(x−θ) , −∞ < x, θ < ∞. (c) f (x; θ) =
49. Sea T una estad´ıstica auxiliar para θ con funci´on de densidad fT (t). Sea g(·) una funci´ on diferenciable uno-a-uno que no depende de θ. Demuestre que T ∗ = g(T ) tambi´en es una estad´ıstica auxiliar para θ. 50. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on N (µ, σ 2 ), donde σ 2 es conocido. (a) Demuestre que S(X) = X es una estad´ıstica suficiente y completa para µ, y que T (X) = S 2 es una estad´ıstica auxiliar. (b) Demuestre que X y S 2 son estad´ısticas independientes.
Cap´ıtulo 4
Estimaci´ on puntual En este cap´ıtulo se abordar´ an los t´ opicos relacionados con estimaci´on puntual. Se inicia con la exposici´ on de los m´etodos de estimaci´on m´as importantes, tales como el de m´ axima verosimilitud, el de momentos y otros como el de medianas y percentiles. As´ımismo, se da una introducci´on al m´etodo Bayesiano y m´ as adelante al de m´ınimos cuadrados. Posteriormente se revisan las propiedades deseables de un estimador puntual como una forma de analizar su bondad. Se habla del error cuadr´atico medio, estimadores insesgados y la propiedad de consistencia, para dar lugar al ulterior desarrollo de la teor´ıa para encontrar a los mejores estimadores insesgados.
4.1.
Introducci´ on
Suponga que se dispone de una poblaci´ on en la que se estudia una variable aleatoria X con distribuci´ on conocida y par´ ametro (o par´ametros) desconocido(s) y se tiene inter´es en disminuir el grado de desconocimiento de θ en f (x; θ) . De la poblaci´ on se extrae una muestra aleatoria simple de tama˜ no n: X1 , X2 , ..., Xn y se trata de calcular, a partir de los valores muestrales, una funci´ on de los mismos que proporcione una estad´ıstica θb = T (X1 , X2 , ..., Xn ) que le asigne un valor al par´ ametro desconocido de la poblaci´on, de forma que sean lo m´ as cercanos en alg´ un sentido. A θb se le llama estimador. El objetivo de la estimaci´ on puntual es entonces encontrar un valor para b que sea funci´ θ, denotado como θ, on de la muestra aleatoria y que permita modelar o describir de manera adecuada el fen´omeno aleatorio.
105
106
´ n puntual 4. Estimacio
Definici´ on 4.1 Sea X1 , . . . , Xn una muestra aleatoria de una distribuci´ on con funci´ on de densidad f (x; θ). Un estimador es una estad´ıstica T (X) cuyos valores t(x) sirven para aproximar o estimar los valores de θ. La notaci´ on θˆ = T (X) expresa que el estimador de θ es la estad´ıstica T (X). Los valores del estimador, o sea t(x), son realizaciones de la variable aleatoria T (X). Si por ejemplo, se tiene una poblaci´ on N (µ, σ 2 ), un posible estimador ¯ para µ es µ ˆ = X, es decir, en este caso el estimador de µ ser´ıa la estad´ıstica X (la media muestral). En los siguientes p´ arrafos se presentar´an los m´etodos m´ as conocidos para encontrar estimadores. En ocasiones, en lugar del par´ ametro θ, se desea estimar una funci´on de dicho par´ ametro. En general, se denotar´a como τ (θ) a cualquier funci´ on de θ.
4.2.
M´ etodos de estimaci´ on
El primero de los m´etodos que se abordar´ a fue aportaci´on de Karl Pearson (1857-1936) y se conoce como el m´etodo de momentos para la estimaci´on de par´ ametros. Karl Pearson “fue historiador, escribi´ o sobre folklore, fue socialista convencido, abogado, matem´ atico aplicado, bi´ ometra, estad´ıstico, maestro y bi´ ografo. Sin duda, su contribuci´ on m´ as importante es el nacimiento de la estad´ıstica aplicada. Es por lo que se le debe mayor cr´edito, en frase de ´el mismo: Hasta que los fen´ omenos de cualquier rama del conocimiento no hayan sido sometidos a medida y n´ umero, no se puede decir que se trate de una ciencia. Adem´ as del m´etodo de momentos para la obtenci´on de estimadores, introdujo el sistema de curvas de frecuencias para disponer de distribuciones que pudieran aplicarse a los distintos fen´ omenos aleatorios, desarroll´o la correlaci´ on lineal para aplicarla a la teor´ıa de la herencia y de la evoluci´on. Introdujo el m´etodo de la Ji-cuadrada para dar una medida del ajuste entre datos y distribuciones, para contrastar la homogeneidad entre varias muestras y la independencia entre variables. Fund´o los Anales de la Eugenesia y en 1900, junto con Galton y Weldon, fund´ o la revista Biometrika de la que fue editor hasta su muerte. En una descripci´on autobiogr´afica dec´ıa: una explicaci´ on para mi vida, se debe a una combinaci´ on de dos caracter´ısticas que he heredado: capacidad para trabajar mucho y capacidad para relacionar las observaciones de los dem´ as”1 . 1 G´ omez
Villegas, M.A. (2009). Karl Pearson, el creador de la estad´ıstica matem´ atica. Historia de la probabilidad y la estad´ıstica IV, J. Basulto y J.J. Garc´ıa (eds.). Congreso internacional de historia de la estad´ıstica y la probabilidad, 351-356.
´todos de estimacio ´n 4.2. Me
107
Tambi´en se introducir´ a el {indexm´etodo! de m´axima verosimilitud propuesto por Ronald A. Fisher en 1922, y que intuitivamente pretende obtener el estimador de un par´ ametro seleccionando el que maximiza la probabilidad de obtener los datos que realmente fueron observados. Hablar de Fisher2 equivale a referirse al desarrollo de la estad´ıstica durante el siglo XX. Basta decir que la mayor parte de los t´erminos que se usan en Inferencia estad´ıstica los introdujo ´el, por ejemplo, par´ametro, estad´ıstica (funci´ on de la muestra aleatoria), verosimilitud, score o puntaje, estad´ıstica auxiliar, informaci´ on, hip´ otesis nula y errores tipo I y II, s´olo por mencionar algunos.
Figura 4.1: Karl Pearson con Francis Galton. Ambos fundaron la revista Biometrika en 1901. Imagen tomada de commons.wikipedia.org (public domain). 2 La
imagen anterior fue tomada de commons.wikipedia.org (public domain). By AnemoneProjectors (talk) (Flickr) (Sir Ronald Aylmer Fisher plaque) [CC BY-SA 2.0 (https://creativecommons.org/licenses/by-sa/2.0)], via Wikimedia Commons.
108
´ n puntual 4. Estimacio
Sin duda que el trabajo de Fisher es la piedra angular sobre la que se sustenta la estad´ıstica como ciencia. Egon Pearson (1974), hijo de Karl Pearson, habla de las diferencias conceptuales entre su padre y Fisher3 : Galton y K. Pearson trabajaron con muestras grandes por su inter´es en la reproducci´on libre de las especies en su medio natural, esto ocurre con humanos, animales y plantas. Por su parte, Fisher trabaj´ o con muestras peque˜ nas relacionadas con datos experimentales, por lo que era necesario analizar con cuidado las bases de la inferencia estad´ıstica para una adecuada interpretaci´on. Fisher estudi´ o resultados exactos en muestras peque˜ nas, pero tambi´en obtuvo propiedades asint´ onticas ´ optimas de los estimadores m´aximo veros´ımiles.
Figura 4.2: Placa English Heritage dedicada a Fisher en la casa Inverforth. En esta parte se hablar´ a adem´ as del enfoque Bayesiano en la teor´ıa de la estimaci´ on puntual, el cual se basa en el teorema de Bayes.
4.2.1.
M´ etodo de momentos
Sea X1 , . . . , Xn una muestra aleatoria de una distribuci´on con funci´on de densidad f (x; θ). A E(Xir ) se le conoce como el r-´esimo momento poblacional Pn r i=1 Xi y se denota por µr , mientras que es el r-´esimo momento muestral n y se denota por Mr . 3 Pearson, E. S. (1974). “Memories on the impact of Fisher’s work in the 1920’s”. Int. Stat. Rev. 42 (1).
109
´todos de estimacio ´n 4.2. Me
El m´etodo de estimaci´ on por momentos consiste en igualar los momentos muestrales con los momentos poblacionales y resolver para θ (o θ1 , ..., θk , si la distribuci´ on tiene k par´ ametros). Esto es, µr = Mr , donde r = 1, ..., k y k representa el n´ umero de par´ ametros a estimar. De manera general, si X1 , X2 , . . . , Xn es una muestra aleatoria de una poblaci´ on con funci´ on de densidad f (x; θ1 , θ2 , ..., θk ), en la estimaci´on por momentos se resuelve el siguiente sistema de ecuaciones µ = M 1 , µ 2 = M2 , . . . , µ k = Mk {z } |1 k ecuaciones con k inc´ognitas La soluci´ on a este sistema ˆθ = (θˆ1 , . . . , θˆk ) se conoce como el estimador por el m´etodo de momentos. Ejemplo 4.1 Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´on con distribuci´ on P oisson(θ). Como E(X) = θ, entonces θˆ =
Pn
i=1
n
Xi
.
Ejemplo 4.2 Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´on con distribuci´ on exp(θ). Como 1 E(X) = , θ entonces ¯ = 1. X θ Por lo tanto, ¯ θˆ = 1/X. Ejemplo 4.3 Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´on con distribuci´ on N (µ, σ 2 ). Como E(X) = µ y V ar(X) = σ 2 , entonces E(X 2 ) = µ2 + σ 2 . Por lo tanto, n
1X 2 ¯ =µ ¯2 + σ X ˆyX ˆ2 = X . n i=1 i
110
´ n puntual 4. Estimacio
Es decir, n
1X 2 ¯ 2. σ ˆ = X −X n i=1 i 2
Pero note que n X
¯ 2 (Xi − X)
n X
=
i=1
¯ i+X ¯ 2) (Xi2 − 2XX
i=1 n X
=
¯ Xi2 − 2X
i=1 n X
=
n X
¯2 Xi + nX
i=1
Xi2
¯ 2 + nX ¯2 = − 2nX
i=1
¯ 2. Xi2 − nX
i=1
n
∴
n X
n
X 1X ¯ 2= 1 ¯ 2. (Xi − X) X2 − X n i=1 n i=1 i
Entonces los estimadores por momentos para µ y σ 2 son n
¯ µ ˆ=X
y
σ ˆ2 =
1X ¯ 2. (Xi − X) n i=1
Ejemplo 4.4 Suponga que se tiene la siguiente muestra de tama˜ no 10 : 1, 1, 1, 2, 2, 3, 5, 7, 8, 10. Estimar los par´ ametros µ y σ 2 usando el m´etodo de momentos si la distribuci´ on normal se ajusta a trav´es de los datos de la muestra. En este caso, las estad´ısticas muestrales est´an dadas por 10 X
xi = 40 y
i=1
10 X
x2i = 258.
i=1
Usando el m´etodo de momentos y el ejemplo anterior: µ b=
40 =4 10
y 258 2 + 42 = σc . 10 De donde 2 = 9.8. σc
111
´todos de estimacio ´n 4.2. Me
Ejemplo 4.5 Hallar los estimadores por el m´etodo de momentos de la distribuci´ on Gama y usar los datos del ejemplo anterior para dar valores num´ericos b Igualando los primeros momentos muestrales y poblacionales, se de rb y λ. obtiene: 40 r = 4. (4.1) E (X) = = λ 10 y r (r + 1) 258 = = 25.8. E X2 = λ2 10 Se tiene un sistema de dos ecuaciones. Para encontrar la soluci´on, se considera el cociente: E X2 rb + 1 25.8 = 2 = 1.6125. 2 = rb 4 [E (X)] y resolviendo para r : rb = 1.6327. Sustituyendo este valor en (4.1) y despejando λ, se obtiene: b = 1.6327 = 0.408 2. λ 4 El rango del estimador no necesariamente coincide con el espacio del par´ ametro a estimar. Considere en el siguiente ejemplo una distribuci´on Binomial con k y p desconocidos. Ejemplo 4.6 Suponga que X ∼Binomial(k, p). Una posible aplicaci´on con esta distribuci´ on es que se busque estimar las tasas de ocurrencia de un crimen, conociendo que existe un n´ umero importante de casos que no se denuncian o reportan, es decir, no se sabe cu´ al es exactamente el valor de k. Utilizando el m´etodo de momentos, se consideran los dos primeros momentos poblacionales de la distribuci´ on binomial, as´ı como los correspondientes momentos muestrales: X¯n = kp (4.2) y n
1X 2 X = kp(1 − p) + k 2 p2 . n i=1 i
(4.3)
De (4.2) se obtiene pˆ =
X¯n , k
(4.4)
112
´ n puntual 4. Estimacio
sustituyendo este resultado en lugar de p en (4.3): n 1X 2 X¯n 2 Xi = X¯n (1 − ) + X¯n n i=1 k
(4.5)
y como n
n
2 1X 2 1X 2 Xi − X¯n = X + X¯n , n i=1 n i=1 i (4.5) es equivalente a n
X¯n = X¯n (1 − ) k
1X (Xi − X¯n )2 n i=1
2 X¯n ¯ , = Xn − k
as´ı que despejando el valor de k, se obtiene 2 X¯n k
n
1X = X¯n − (Xi − X¯n )2 , n i=1 1
k 2 ¯ Xn
=
X¯n −
kˆ
=
X¯n −
Pn
1 n
i=1 (Xi 2 X¯n P n 1 i=1 (Xi n
, − X¯n )2 . − X¯n )2
Por lo tanto, el valor estimado de p es pˆ =
X¯n . b k
Observe que no se puede garantizar que k ser´a un n´ umero entero positivo y que p ∈ [0, 1]. Sin embargo, en general el m´etodo permite obtener una propuesta para estimar r´ apidamente los par´ ametros desconocidos.
4.2.2.
Estimadores basados en verosimilitud
Para introducir este m´etodo se presenta primero el siguiente ejemplo (Mood, Graybill y Boes, 1973), el cual considera que se tiene una urna en donde se sabe que hay bolas negras y blancas, de las cuales se desconoce el n´ umero de cada una de ellas, pero se tiene el dato de que la raz´on es de 3 a 1, aunque tambi´en se ignora si hay m´ as bolas blancas que negras o viceversa. Se desea
113
´todos de estimacio ´n 4.2. Me
estimar la proporci´ on de bolas negras en la urna y para ello, se toma una muestra de tama˜ no 3 con reemplazo de esta poblaci´on, X1 , X2 , X3 . Note que Xi tiene distribuci´ on Bernoulli(θ), i = 1, 2, 3. Observe que: θ es la probabilidad de obtener bola negra, es decir, θ = P(Xi = 1). θ s´ olo puede tomar los valores 14 y 34 , debido a que la raz´on establecida es de 3 a 1. P3 X := i=1 Xi es el n´ umero de bolas negras en la muestra. Y por lo tanto, X puede tomar los valores x = 0, 1, 2, 3. X ∼ Bin(n = 3, θ). En el cuadro 4.1 se presentan las probabilidades de obtener 0, 1, 2 y 3 bolas negras, con ambos valores del par´ ametro. Si en la muestra se obtienen Valor de θ θ = 1/4 θ = 3/4
P (X = 0) 27/64 1/64
P (X = 1) 27/64 9/64
P (X = 2) 9/64 27/64
P (X = 3) 1/64 27/64
Cuadro 4.1: Probabilidad de obtener 0, 1, 2 y 3 bolas negras cuando θ = θ = 43 .
1 4
y
0 bolas negras, es decir (x1 = 0, x2 = 0, x3 = 0) , entonces θˆ = 1/4 porque es m´ as probable obtener (con este valor de θ) 0 bolas negras que con θˆ = 3/4. Ahora, si en la muestra se obtienen 2 bolas negras entonces θˆ = 3/4, ya que es m´ as probable obtener 2 bolas negras con θˆ = 3/4 que con θˆ = 1/4. Es decir, se escoge el valor de θ que maximiza la probabilidad de obtener una muestra espec´ıfica (x1 , x2 , x3 ). Esta es la idea subyacente en el m´etodo de m´axima verosimilitud para estimar par´ ametros. De manera general, es necesario definir una funci´on que represente la ”probabilidad” de obtener una cierta muestra de entre todas las posibles en X (el espacio muestral o de las muestras). Dicha funci´on, para un valor muestral fijo, depende u ´nicamente de los par´ametros de la distribuci´ on en cuesti´ on y el problema es encontrar aquel valor del par´ametro o de los par´ ametros que maximicen esta funci´on para una realizaci´on fija de la muestra. En el ejemplo anterior, el par´ametro s´olo puede tomar dos valores, pero en general se estar´ a resolviendo un problema de optimizaci´on
114
´ n puntual 4. Estimacio
sobre el espacio param´etrico correspondiente a la distribuci´on con la que se est´e trabajando (una vez que se ha observado una muestra). Para abordar este tema, se iniciar´ a con la definici´on de la funci´on de verosimilitud. Definici´ on 4.2 Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´ on con funci´ on de densidad f (x; θ). Se define la funci´ on de verosimilitud como la funci´ on de densidad conjunta de la muestra y se denota como L(θ) o L(θ | x). Es decir: L(θ) = fX1 ,...,Xn (x1 , ..., xn ; θ) =
n Y
fXi (xi ; θ).
i=1
Definici´ on 4.3 Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´ on con funci´ on de densidad f (x; θ) y L(θ) la correspondiente funci´ on de verosimilitud. A θˆ = T (X) se le llama el estimador m´ aximo veros´ımil de θ, si satisface ˆ ≥ L(θ). que para cualquier θ ∈ Θ, se tiene que L(θ) M´ etodo general Sea f (x; θ1 , θ2 , . . . , θk ) una funci´ on de densidad con k par´ametros. Si (θˆ1 , ...θˆk ) satisface el sistema ∂L(θ1 , θ2 , ..., θk ) = 0 i = 1, 2, ..., k; ∂θi entonces (θˆ1 , ..., θˆk ) es el estimador m´ aximo veros´ımil de θ. Note que 1 ∂ ∂ ln(L(θ1 , θ2 , . . . , θk )) = · L(θ1 , θ2 , . . . , θk ). ∂θi L(θ1 , θ2 , . . . , θk ) ∂θi Por lo tanto, ∂ ∂ ln(L(θ1 , θ2 , . . . , θk )) = 0 ⇔ L(θ1 , θ2 , . . . , θk ) = 0. ∂θi ∂θi Es decir, ln(L(θ1 , θ2 , . . . , θk )) alcanza su m´aximo en el mismo punto que L(θ1 , θ2 , . . . , θk ). En virtud de la observaci´ on anterior se define la log-verosimilitud de f (x; θ1 , θ2 , . . . , θk ) como l (θ1 , θ2 , . . . , θk ) = ln(L(θ1 , θ2 , . . . , θk )). Frecuentemente, por practicidad, se calcula el m´aximo de l (θ) en vez del de L(θ).
115
´todos de estimacio ´n 4.2. Me
Ejemplo 4.7 [Distribuci´ on Bernoulli]. Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´ on con distribuci´ on Bernoulli(θ). Obtener el estimador m´ aximo veros´ımil de θ. n n Y Y Pn Pn θxi (1 − θ)1−xi = θ i=1 xi (1 − θ)n− i=1 xi . f (xi , θ) = L(θ) = i=1
i=1
Entonces, l (θ)
Pn Pn ln(L(θ)) = ln θ i=1 xi (1 − θ)n− i=1 xi ! n n X X ln(θ) xi + ln(1 − θ) n − xi .
= =
i=1
Luego, ∂ l (θ) = ∂θ
i=1
Pn
i=1
xi
θ
Pn n − i=1 xi − . 1−θ
Por lo tanto, ∂ l (θ) = 0 ⇔ ∂θ
Pn
i=1
θb
xi
=
n−
Pn
i=1
xi
1 − θb
⇔
1 n 1 1 − 1 = Pn −1⇔ = , ¯ θb θb x i=1 xi
de donde se concluye que θb = X. Ahora se verificar´ a que es un m´ aximo P P n n n − i=1 xi ∂ 2 l(θ) i=1 xi − | = − =− b b2 ∂θ2 θ θb2 (1 − θ)
Pn
i=1 θb2
xi
+
n− (1
Pn
i=1 xi b2 − θ)
! < 0.
¯ ∴ El estimador m´ aximo veros´ımil de θ es θˆM V = X. Ejemplo 4.8 [Distribuci´ on Exp(θ)]. Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´ on con distribuci´ on Exp(θ). Obtener el estimador m´aximo veros´ımil de θ. n n n Y Y Y Pn L(θ) = f (xi , θ) = θe−θxi I(0,∞) (xi ) = θn e−θ i=1 xi I(0,∞) (xi ). i=1
i=1
i=1
Entonces, l (θ)
=
ln(L(θ)) = ln θn e−θ
Pn
i=1
xi
n Y
! I(0,∞) (xi )
i=1
= n ln(θ) − θ
n X i=1
xi +
n X i=1
ln(I(0,∞) (xi )).
116
´ n puntual 4. Estimacio
Luego, n
∂ n X l (θ) = − xi . ∂θ θ i=1 Por lo tanto, n
Pn
n X 1 ∂ l (θ) = 0 ⇔ = xi ⇔ = b ∂θ θ θb i=1
i=1
xi
n
⇔
1 =x ¯, θb
y as´ı 1 θb = ¯ . X Ahora se verificar´ a que es un m´ aximo ∂ 2 l(θ) n | b= − < 0. ∂θ2 θ θb2 1 ∴ El estimador m´ aximo veros´ımil de θ es θˆM V = ¯ . X Ejemplo 4.9 [Distribuci´ on P oisson(θ)]. Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´ on con distribuci´ on P oisson(θ). Obtener el estimador m´ aximo veros´ımil de θ. L(θ) =
n Y
f (xi , θ) =
n Y e−θ θxi i=1
i=1
xi !
I{0,1,2,...} (xi ) = e
−nθ
n P
θ
xi
i=1
n Y I{0,1,2,...} (xi )
xi !
i=1
Entonces, l (θ)
=
ln(L(θ)) = ln e
−nθ
θ
Pn
i=1 xi
n Y I{0,1,2,...} (xi )
xi !
i=1
= −nθ + ln(θ)
n X
xi +
n X
i=1
ln
i=1
Luego, ∂ l (θ) = −n + ∂θ
Pn
i=1
θ
I{0,1,2,...} (xi ) xi !
xi
.
Por lo tanto, ∂ l (θ) = 0 ⇔ n = ∂θ
Pn
i=1
θb
xi
Pn ⇔ θb =
i=1
n
xi
.
.
!
.
117
´todos de estimacio ´n 4.2. Me De esta manera, θb = X. Ahora se verificar´ a que es un m´ aximo ∂ 2 l(θ) | b= − ∂θ2 θ
Pn
i=1 θb2
xi
< 0.
¯ ∴ El estimador m´ aximo veros´ımil de θ es θˆM V = X. Ejemplo 4.10 [Distribuci´ on Normal]. Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´ on con distribuci´ on N (µ, σ 2 ). Obtener los estimadores 2 m´ aximo-veros´ımiles de µ y σ . Primero se obtiene la funci´ on de verosimilitud: L µ, σ 2
=
n Y
√
1
e−
(xi −µ)2
2πσ 2 n2 1 1 e− 2σ2 2πσ 2
2σ 2
i=1
=
Pn
2 i=1 (xi −µ)
.
La log-verosimilitud est´ a dada por n n 1 X 2 l µ, σ 2 = − ln 2πσ 2 − 2 (xi − µ) . 2 2σ i=1
Obteniendo las derivadas con respecto a los par´ametros ∂l ∂µ ∂l ∂σ 2
=
n 1 X (xi − µ) , σ 2 i=1
= −
n n 1 X 2 + (xi − µ) . 2σ 2 2σ 4 i=1
Igualando a cero se obtiene n X
xi − nb µ=0
i=1
y −
n 1 X n 2 + (xi − µ b) = 0, 2b σ2 2b σ 4 i=1
de donde µ b=X
(4.6)
118
´ n puntual 4. Estimacio
y Pn
Xi − X σ b = n Las segundas derivadas est´ an dadas por 2
∂2l ∂µ2 ∂2l 2
∂ (σ 2 ) ∂2l ∂µ∂σ 2
= − = =
Sea H=
2
i=1
.
(4.7)
n , σ2 Pn
2
(xi − µ) , σ6 Pn ∂2l i=1 (xi − µ) = − . ∂σ 2 ∂µ σ4 n − 2σ 4
∂2l ∂µ2 ∂2l ∂µ∂σ 2
i=1
∂2l ∂σ 2 ∂µ ∂2l ∂(σ 2 )2
!
la matriz de segundas derivadas. Observe que ∂ 2 l n = − < 0, ∂µ2 (bµ,bσ2 ) σ 2 σb2
(4.8)
mientras que det H|(bµ,bσ2 )
=
=
det
det
−
− bn2 P σ
−
n i=1 (xi −x) σ b4
− σbn2
n 2b σ4
−
!
!
0 2 i=1 (xi −x) σ b6
2
− x) n2 + 6 2b σ n2 n2 σ b2 = − 6+ 8 2b σ σ b n2 n2 n2 = − 6+ 6 = > 0. 2b σ σ b 2b σ6 = −
i=1 (xi −x) b4 Pnσ 2 i=1 (xi −x) σ b6
Pn
n 2b σ4 − P n 2 n i=1 (xi nb σ8
0
Pn
(4.9)
Por (4.8) y (4.9), se ve que H es definida negativa y por lo tanto, el ´optimo aximo, concluy´endose que (4.6) y (4.7) son los estimadores µ b, σ b2 es un m´ m´ aximo veros´ımiles de µ y σ 2 . Ejemplo 4.11 [Distribuci´ on Uniforme]. Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´ on con distribuci´ on Uniforme en el intervalo [θ− 12 , θ+ 12 ], es decir, f (x; θ) = I[θ− 12 ,θ+ 21 ] (x).
´todos de estimacio ´n 4.2. Me
119
Obtener el estimador m´ aximo veros´ımil de θ. La funci´ on de verosimilitud est´ a dada por n Y 1 si para toda i, xi ∈ [θ − 21 , θ + 12 ] L (θ) = I[θ− 12 ,θ+ 12 ] (xi ) = 0 si para alguna i, xi ∈ / [θ − 12 , θ + 21 ]. i=1
Es decir, el m´ aximo valor de L (θ) es 1 cuando xi ∈ [θ − 12 , θ + 12 ] para toda i, lo cual ocurre si 1 1 y1 ≥ θ − y yn ≤ θ + , 2 2 es decir, si 1 1 yn − ≤ θ ≤ y1 + . 2 2 Por lo tanto, 1 si θ ∈ yn − 12 , y1 + 21 L (θ) = 0 en otro caso. Cualquier valor θb de θ en Yn − 12 , Y1 + 12 es un estimador m´aximo veros´ımil, n por ejemplo, T (X) = Y1 +Y . 2 Ejemplo 4.12 [Distribuci´ on Uniforme]. Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´ on con distribuci´ on Uniforme en el intervalo [0, θ]. Hallar el estimador m´ aximo veros´ımil de θ. La funci´ on de densidad est´ a dada por 1 0 ≤ x ≤ θ, θ, f (x; θ) = 0 en otro caso. La funci´ on de verosimilitud es L (θ)
=
n Y
f (xi ; θ)
i=1
=
0
=
1 θn
0
=
1 θn
1 θn
0
si xi ≤ θ, para toda i si al menos una de las xi > θ si m´ ax {x1 , x2 , ..., xn } ≤ θ en otro caso si θ ≥ yn si θ < yn ,
donde yn = m´ ax {x1 , x2 , ..., xn } . Note que dL (θ) n = − n+1 < 0. dθ θ
120
´ n puntual 4. Estimacio
As´ı, la funci´ on de verosimilitud vale cero si θ < yn y θ1n si θ ≥ yn , siendo en este caso una funci´ on decreciente, como se muestra en la figura 4.3.
L(θ)
Yn
θ
Figura 4.3: Gr´ afica de la funci´ on de verosimilitud para una muestra de tama˜ no n de la distribuci´ on Uniforme continua en el intervalo [0, θ]. As´ı, el estimador m´ aximo veros´ımil de θ es θb = Yn = m´ ax {X1 , . . . , Xn } . Propiedad de invarianza de los estimadores m´ aximo-verosimiles En algunas ocasiones, el objetivo no es estimar un par´ametro de la distribuci´ on sino una funci´ on de ´este, τ (θ). Por ejemplo, el inter´es podr´ıa ser estimar la desviaci´ on est´ andar de una distribuci´ on normal, σ, en lugar de la varianza σ 2 ; o estimar la trasformaci´ on del momio en una distribuci´on Bernoulli, θ/(1 − θ), en lugar de la probabilidad de ´exito θ. Por lo tanto, se busca un estimador de la funci´ on τ (θ), es decir, τd (θ). Una propiedad de los estimadores m´ aximo veros´ımiles es la propiedad de invarianza. Esto significa que si buscamos un estimador m´aximo veros´ımil para una funci´ on de θ, denotada por τ (θ), y si sabemos que el estimador ˆ entonces el estimador m´aximo veros´ımil de τ (θ), m´ aximo veros´ımil de θ es θ, ˆ denotado por τd (θ), es τ (θ). Por lo tanto, la propiedad de invarianza de los estimadores m´aximo veros´ımiles enuncia que b τd (θ) = τ (θ), es decir, que para encontrar el estimador m´ aximo veros´ımil de una funci´on
121
´todos de estimacio ´n 4.2. Me
del par´ ametro basta simplemente evaluar la funci´on en el estimador m´aximo veros´ımil. Para esto es necesario tomar en cuenta las caracter´ısticas de la funci´on τ (θ), por ejemplo, si la funci´ on de τ (θ) es biyectiva, entonces la propiedad de invarianza se cumple y existe un s´ olo m´ aximo, dado que podemos invertir la funci´ on. Esto se puede ver f´ acilmente considerando que si η = τ (θ), entonces la funci´ on inversa de τ (θ) es τ −1 (η) = θ, la cual est´a bien definida por ser una funci´ on biyectiva, y la funci´ on de verosimilitud de τ (θ), escrita como una funci´ on de η, est´ a dada por L∗ (η) =
n Y
f (xi ; τ −1 (η)) = L(τ −1 (η)),
i=1
y para encontrar el estimador m´ aximo veros´ımil, basta obtener lo siguiente sup L∗ (η) = sup L(τ −1 (η)) = sup L(θ). η
η
θ
ˆ mostrando as´ı Por tanto, el m´ aximo de L∗ (η) se alcanza en η = τ (θ) = τ (θ), ˆ que el estimador m´ aximo veros´ımil de τ (θ) es τ (θ). En algunos casos, no es posible usar la propiedad de invarianza de los estimadores m´ aximo veros´ımiles debido a que muchas funciones de inter´es no son funciones biyectivas. Por ejemplo, para estimar µ2 , donde µ es la media de una distribuci´ on normal, la funci´ on τ (µ) = µ2 no es una funci´on biyectiva. Si τ (θ) no es una funci´ on biyectiva, entonces para alg´ un valor η puede haber m´ as de un valor de θ que satisfaga que τ (θ) = η. En estos casos, la correspondencia entre la maximizaci´on sobre η y la correspondiente maximizaci´ on sobre θ deben analizarse. Por ejemplo, si θˆ es el estimador m´ aximo veros´ımil de θ, podr´ıa existir otro valor de θ, digamos θ0 , para el ˆ = τ (θ0 ). As´ı, en el caso de que τ (θ) no cual tambi´en se cumple que τ (θ) sea una funci´ on biyectiva, no necesariamente existir´a una u ´nica soluci´on. En estos casos ser´ a necesario usar una definici´on m´as general de la funci´on m´ aximo veros´ımil de τ (θ). Una definici´ on de verosimilitud m´as general para τ (θ) es la siguiente. Definici´ on 4.4 La funci´ on de verosimilitud inducida por τ (θ), denotada por L∗ , est´ a dada por L∗ (η) = sup L(θ). {θ:τ (θ)=η}
En este caso, el valor ηˆ que maximiza a la funci´ on L∗ (η) es el estimador m´ aximo veros´ımil de η = τ (θ). Adem´ as, puede verse a partir de las igualdades anteriores que el m´ aximo de L∗ y el m´ aximo de L coinciden.
122
´ n puntual 4. Estimacio
Teorema 4.1 Si θˆ es el estimador m´ aximo veros´ımil de θ, entonces para ˆ 4. cualquier funci´ on τ (θ), el estimador m´ aximo veros´ımil de τ (θ) es τ (θ) Demostraci´ on. Sea ηˆ el valor que maximiza L∗ (η). Es necesario mostrar ∗ ˆ Adem´ que L (ˆ η ) = L∗ (τ (θ)). as, como se mencion´o anteriormente, el m´aximo de L y el m´ aximo de L∗ coinciden, as´ı que se tiene lo siguiente, L∗ (ˆ η)
= =
sup
sup
η
{θ:τ (θ)=η}
L(θ)
sup L(θ) θ
ˆ = L(θ), donde la primera igualdad se cumple por definici´on de L∗ (η) ya que L∗ (η) = sup{θ:τ (θ)=η} L(θ), la segunda igualdad se obtiene debido a que la maximizaci´ on iterada es igual a la maximizaci´ on no condicional sobre θ, y la u ´ltima ˆ ya que θˆ es el estimador m´aximo igualdad se cumple por definici´ on de θ, veros´ımil de L(θ). Adem´ as, ˆ L(θ)
=
sup
L(θ)
ˆ {θ:τ (θ)=τ (θ)}
ˆ = L∗ (τ (θ)), donde la primera igualdad se obtiene debido a que θˆ es el estimador m´aximo veros´ımil de θ, y la segunda igualdad se obtiene por la definici´on de L∗ (η). ˆ y que τ (θ) ˆ es el estimador Por lo tanto, se muestra que L∗ (ˆ η ) = L∗ (τ (θ)) m´ aximo veros´ımil de τ (θ). Con este teorema es posible encontrar estimadores m´aximo veros´ımiles de funciones de par´ ametros que no son biyectivas, por ejemplo, se puede ver que el estimador m´ aximo veros´ımil de µ2 , donde µ es la media de una ¯ 2. distribuci´ on normal, es X Observaci´ on 4.1 La propiedad de invarianza de los estimadores m´aximo veros´ımiles tambi´en se cumple en el caso multivariado. La demostraci´on del teorema anterior es v´ alida aun si θ es un vector de par´ametros. Si el estimador m´ aximo veros´ımil de θ = (θ1 , . . . , θk ) es θˆ = (θˆ1 , . . . , θˆk ), y si τ (θ) = τ (θ1 , . . . , θk ) es alguna funci´ on de los par´ametros, entonces el estimador m´ aximo veros´ımil de τ (θ1 , . . . , θk ) es τ (θˆ1 , . . . , θˆk ). 4 Esta propiedad fue demostrada por Zehna (1966) en el art´ ıculo Invariance of Maximum Likelihood Estimators en la revista Annals of Mathematical Statistics.
123
´todos de estimacio ´n 4.2. Me
Ejemplo 4.13 Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´on con distribuci´ on N (µ, 1), con µ desconocido. Se busca el estimador m´aximo ve¯ es el estimador m´aximo veros´ımil de ros´ımil de τ (µ) = log(µ). Como µ ˆ=X ¯ es el estimador m´aximo µ, entonces por la propiedad de invarianza log(X) veros´ımil de log(µ). Ejemplo 4.14 Sea X1 , . . . , Xn una muestra aleatoria de la distribuci´on nor¯ Para mal N (µ, σ 2 ). Se sabe que el estimador m´ aximo veros´ımil de µ es X. encontrar el estimador m´ aximo veros´ımil de τ (µ) = sen (µ) ¯ τd (µ) = τ (ˆ µ) = sen(ˆ µ) = sen(X). Ejemplo 4.15 Sea X1 , . . . , Xn una muestra aleatoria de la distribuci´on Bernoulli(θ). Se desea encontrar el estimador m´aximo veros´ımil de τ (θ) = ¯ θ(1 − θ). Se sabe que el estimador m´ aximo veros´ımil de θ es θˆM V = X. Entonces ¯ = X(1 ¯ − X). ¯ τd (θ) = τ (θˆM V ) = τ (X) MV
Ejemplo 4.16 Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´on con distribuci´ on Bernoulli(θ), con θ desconocido. Se busca el estimador m´aximo θ ¯ es el estimador m´aximo . Como θˆ = X veros´ımil del momio τ (θ) = (1−θ) veros´ımil de θ, entonces por la propiedad de invarianza m´ aximo veros´ımil de
¯ X ¯ (1−X)
es el estimador
θ (1−θ) .
Estimaci´ on m´ aximo veros´ımil usando m´ etodos num´ ericos En la pr´ actica lo m´ as com´ un es que las derivadas de la funci´on de logverosimilitud con respecto a los par´ ametros involucrados, no se puedan resolver de forma anal´ıtica, por lo que es necesario recurrir a m´etodos num´ericos como el de Newton Raphson. En R existen diferentes funciones que sirven para abordar este tipo de problemas. Lo anterior se ilustrar´a con un ejemplo. Para ahondar en este tema, se recomienda consultar Dixit (2016). Ejemplo 4.17 Considere a la familia de distribuciones Gama, con su espacio param´etrico multidimensional Θ = {(α, λ) : α > 0, λ > 0}. Para obtener el estimador m´ aximo veros´ımil para el vector de par´ ametros θ = (α, λ) a partir de una muestra aleatoria de tama˜ no n, X1 , X2 , . . . , Xn , la funci´ on de verosimilitud es:
124
´ n puntual 4. Estimacio
L(θ)
= L(α, λ) =
n Y
f (xi ; α, λ)
i=1 n Y λα α−1 −λxi x e Γ(α) i i=1 α n n Y Pn λ = xiα−1 . e−λ i=1 xi Γ(α) i=1
=
La funci´ on de log-verosimilitud es entonces: ln L(θ)
= l(α, λ) = n (α ln λ − ln Γ(α)) − λ
n X
xi + (α − 1)
i=1
n X
ln xi .
i=1
Para encontrar los estimadores que maximizan esta funci´ on, se debe encontrar el punto cr´ıtico, lo que implica resolver el sistema de ecuaciones: X n ∂ d l(α, λ) = n ln λ − ln Γ(α) + ln xi = 0, ∂α dα i=1 ∂ l(α, λ) ∂λ
n
=
n
α X − xi = 0. λ i=1
ˆ = αˆ , De la segunda ecuaci´ on se obtiene que αλˆˆ = x ¯, o equivalentemente λ x ¯ y sustituyendo esta relaci´ on en la primera: X n d n ln(ˆ α) − ln(¯ x) − ln Γ(ˆ α) + ln xi = 0. (4.10) dα i=1 Esta u ´ltima no tiene soluci´ on exacta anal´ıticamente, pero se puede resolver num´ericamente. La derivada del logaritmo de la funci´ on Gama se conoce como la funci´ on digama, y en R se obtiene con la funci´ on digamma: ψ(α) =
d ln Γ(ˆ α). dα
Se utilizan datos simulados para mostrar esta aproximaci´ on num´erica. Se gener´ o una muestra de tama˜ n o 250, con α = 0.2 y λ = 5, tal que x ¯= Pn 0.051762 y log x = −1555.084. En la figura 4.4 se puede observar i i=1 que para el valor α ˆ = 0.2221 la derivada (4.10) cruza el cero, y se obtiene ˆ = 4.2908. λ
125
40 0
20
derivada
60
80
´todos de estimacio ´n 4.2. Me
0.00
0.10
0.20
0.30
alpha
Figura 4.4: Estimaci´ on m´ aximo veros´ımil para la familia Gama.
4.2.3.
Verosimilitud en el enfoque Bayesiano
Considere una muestra aleatoria X1 , . . . , Xn de una poblaci´on con distribuci´ on Gama(µ, s), con media µ. En esta secci´on se denotar´a a la funci´on de densidad como fX (x|θ) y a la verosimilitud como L (θ|x1 , . . . , xn ) , la raz´ on de este cambio se comprender´ a m´ as adelante. As´ı, para el caso de la distribuci´ on Gama(µ, s), su funci´ on de densidad est´a dada por fX (x|µ, s) =
ss xs−1 exp{−sx/µ}, Γ(s)µs
mientras que la correspondiente funci´ on de verosimilitud es L(µ, s|x1 , . . . , xn )
n Y
=
ss xs−1 exp{−sxi /µ} s i Γ(s)µ i=1
=
sns T s−1 exp{−sT2 /µ}, Γn (s)µns 1
126
´ n puntual 4. Estimacio
Qn Pn donde T1 = i=1 xi y T2 = i=1 xi . Observe que la verosimilitud depende de la muestra s´ olo a trav´es de estas estad´ısticas suficientes T1 y T2 . Suponga que se desea estimar el par´ ametro µ. Al otro par´ametro que no es el que se est´ a estimando, en este caso s, se le suele llamar un par´ametro de ruido. Utilizando exclusivamente la verosimilitud para proponer un estimador para el par´ ametro de inter´es µ y teniendo en cuenta la posibilidad de un muestreo repetido, el estimador m´ aximo veros´ımil para µ es el valor del par´ ametro µ b ∈ Θ que maximiza la funci´ on de verosimilitud; es decir, el valor del par´ ametro para el cual la muestra observada es m´as probable. Por construcci´ on, el rango del estimador coincide con el espacio param´etrico, aunque hereda las dificultades de cualquier problema de optimizaci´ on, a saber: Encontrar el m´ aximo global y verificar que lo sea. Que sea sensible a cambios num´ericos. Ahora, si se consideran dos valores de µ, el cociente de verosimilitudes para el caso de la distribuci´ on Gama, estar´ıa dado por: L(µ1 , s|x1 , . . . , xn ) L(µ2 , s|x1 , . . . , xn )
= =
sns T1s−1 Γn (s)µns 1 sns T1s−1 Γn (s)µns 2 ns µ1
µ2
exp{−sT2 /µ1 } exp{−sT2 /µ2 }
,
exp{−sT2 [1/µ1 − 1/µ2 ]},
el cual depende del valor del par´ ametro s. En general no es claro c´omo tratar el par´ ametro de ruido, pero desde el enfoque cl´asico de maximizar la funci´on de verosimilitud como se vio en la secci´ on 4.2.2, simplemente se toma el valor del estimador sb. Existe otro enfoque conocido como Inferencia Bayesiana, en el cual se condiciona completamente en los datos observados y se concluye sobre la poblaci´ on en estudio bas´ andose en: 1. La verosimilitud L(θ|x), que representa la informaci´on que hay en los datos x= (x1 , . . . , xn ); y 2. π(µ) una distribuci´ on de probabilidad que se conoce como distribuci´ on inicial o a priori y que describe las ideas subjetivas que se tienen sobre el valor de µ. Estas ideas se conciben como externas a los datos y pueden ser deducidas de experiencias previas o bien de conocimiento experto.
127
´todos de estimacio ´n 4.2. Me
La inferencia se expresa a trav´es de una distribuci´ on posterior, final o a posteriori de los p´ arametros que se denotar´ a como π(θ|x) y que se obtiene a trav´es del teorema de Bayes: π(θ|x) = R
L(θ|x)π(θ) . L(θ|x)π(θ)dθ
(4.11)
La estad´ıstica Bayesiana (por Thomas Bayes (1702-1761), matem´atico del siglo XVIII), representa un enfoque diferente a la inferencia estad´ıstica cl´ asica o frecuentista. En el enfoque Bayesiano tambi´en se supone que los datos se obtienen de una distribuci´ on perteneciente a una familia param´etrica conocida; sin embargo, a diferencia de la estad´ıstica cl´asica, que considera que los par´ ametros son fijos pero desconocidos, aqu´ı se hace el supuesto de que son variables aleatorias. En resumen, el enfoque denominado frecuentista no supone que hay conocimiento previo de θ. El enfoque Bayesiano, por el contrario, se basa en el supuesto de que se tiene alguna informaci´ on previa acerca de θ. Esta informaci´ on se expresa por medio de una distribuci´ on sobre θ, llamada distribuci´on inicial o a priori. Aqu´ı se supondr´ a que esta distribuci´on a priori tiene una densidad π(θ) y puede tener distintas interpretaciones seg´ un el problema que se est´e abordando, por ejemplo, que dicha distribuci´on est´a sustentada en experiencias previas similares o que expresa una creencia subjetiva. En ambos casos, la verosimilitud provee la informaci´on que hay en las observaciones y que permite evaluar y elegir un valor del par´ametro sobre otros, pues en el proceso de inferencia se busca obtener estimadores que concilien de la mejor manera el modelo con los datos observados. Ser´a entonces de inter´es examinar la incertidumbre que hay en este proceso para elegir un buen estimador. En el contexto Bayesiano se debe considerar la evaluaci´on de la dependencia de las conclusiones con respecto a las distribuciones iniciales, las cuales se han dado de manera subjetiva. En muchos casos, la selecci´on de la distribuci´ on inicial tambi´en contempla la posibilidad de calcular de forma cerrada el denominador en (4.11). Un caso particular de esta selecci´on se da con las familias conjugadas. Definici´ on 4.5 Una distribuci´ on inicial π(θ) es conjugada si para π(θ) ∈ P y L(θ|x) ∈ F, se tiene que π(θ|x) ∈ P, donde P y F son familias de distribuciones. A continuaci´ on se da un primer ejemplo para ilustrar algunas de las funciones que se han mencionado en el enfoque Bayesiano.
128
´ n puntual 4. Estimacio
Figura 4.5: Dulces smarties. Tomada de pixabay.com (im´agenes gratuitas de alta calidad). Ejemplo 4.18 Los paquetes de los llamados dulces Smarties vienen con k colores diferentes, los cuales se repiten con la misma frecuencia. Suponga que no se conoce k y secuencialmente se examinan 3 dulces, resultando un rojo, un verde y un rojo. La densidad para X = el segundo dulce es de diferente color que el primero, pero el tercero es del mismo color que el primero, est´ a dada por: f (x | k)
= P (el segundo es de diferente color que el primero) × ×P (el tercero es del mismo color que el primero) k−1 1 k−1 = . = k k k2
A la luz de los datos x = rojo, verde, rojo, se tiene entonces que f (x|k) = (k − 1)/k 2 . Si en lugar de 3 se examinan 4 y resulta que ese cuarto es de color naranja (con los tres primeros rojo, verde, rojo), se tiene que f (x | k) =
(k − 1) (k − 2) . k3
Ahora suponga que se tiene informaci´ on a priori o se cree que el n´ umero 3 3 3 1 , 10 , 10 y 10 , respectide colores es 5,6,7 u 8, con probabilidades iniciales 10 vamente. Para el caso de tres dulces, si k = 5, entonces f (x|k) = (5 − 1)/52 =
4 = 0.16, 25
129
´todos de estimacio ´n 4.2. Me f (x|k)π (k) = (0.16)
1 10
= 0.016
y 1 (0.16) 10 = 0.13. π (k | x) = 8 P f (x|k)π (k) k=5
A continuaci´ on se resumen los valores de estas funciones para los distintos valores de k y para ambos escenarios, es decir, cuando se tiene rojo, verde y rojo (cuadro 4.2) k 5 6 7 8
π(k) .1 .3 .3 .3
f (x|k) .160 .139 .122 .109
π(k)f (x|k) .016 .042 .037 .033
π(k|x) .13 .33 .29 .26
Cuadro 4.2: C´ alculo de la distribuci´ on a posteriori cuando los dulces examinados son rojo, verde y rojo. Y para cuando el cuarto dulce es naranja (cuadro 4.3). k 5 6 7 8
π(k) .1 .3 .3 .3
f (x|k) .096 .093 .087 .082
π(k)f (x|k) .010 .028 .026 .025
π(k|x) .11 .31 .30 .28
Cuadro 4.3: C´ alculo de la distribuci´ on a posteriori cuando los dulces examinados son rojo, verde, rojo y naranja. Observe que la distribuci´ on a posteriori para k es una peque˜ na modificaci´ on de la a priori. La estad´ıstica Bayesiana se basa en el c´ alculo de distribuciones condicionales. Los siguientes ejemplos ilustran el uso de la definici´on de densidades condicionales en t´erminos de las densidades conjuntas y marginales. Ejemplo 4.19 Una moneda cargada se lanza n veces. Suponga que xi vale 1 si se obtiene sol y 0 si no, en el i-´esimo lanzamiento. No se tiene idea de qu´e tan cargada est´ a la moneda, entonces se considera una distribuci´on a priori Uniforme para θ, de tal manera que la densidad a priori est´a dada por: π(θ) = 1,
0 ≤ θ ≤ 1.
130
´ n puntual 4. Estimacio
Sea t el n´ umero de soles. Entonces la distribuci´on a posteriori de θ es: π(θ|x1 , . . . , xn ) = R 1 0
θt (1 − θ)n−t × 1 φt (1 − φ)n−t × 1dφ
π(θ|x) ∝ θt (1 − θ)n−t , de donde se puede ver que si se inserta una constante de proporcionalidad apropiada, entonces se tiene una densidad Beta(t + 1, n − t + 1), que ser´ıa la distribuci´ on a posteriori de θ dada x. En el ejemplo anterior se utiliza ∝ para denotar que π(θ|x) es proporcional a θt (1 − θ)n−t . En general, ∝ se lee como “es proporcional a”. Ejemplo 4.20 Suponga que X1 , X2 , . . . , Xn es una muestra aleatoria de una poblaci´ on con distribuci´ on N (µ, 1) y que π(µ) ∼ N (0, τ −2 ) para τ −2 conocida. Entonces ( !) n 1 X 2 2 2 π(µ|x1 , . . . , xn ) ∝ exp − (xi − µ) + µ τ 2 i=1 (
Pn 2 ) 1 2 i=1 xi ∝ exp − (n + τ ) µ − . 2 n + τ2 As´ı,
Pn
xi 1 , 2 n+τ n + τ2 i=1
µ|x1 , . . . , xn ∼ N
.
Ejemplo 4.21 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una poblaci´on con distribuci´ on Exponencial(λ) y la distribuci´on a priori para el par´ametro λ es una Exponencial(µ), donde µ es fija y conocida. Entonces: π(λ|x1 , . . . , xn ) ∝ µe−λµ
n Y
Pn
λe−λxi = λn e−λ(µ+
i=1
xi )
,
i=1
es decir, λ ∼ Gama(n + 1, µ +
Pn
i=1
xi ).
Ejemplo 4.22 Suponga que se examina una m´aquina que hace partes de autom´ oviles y se denota a θ como la proporci´on de marcas defectuosas. Un d´ıa se examinan 10 piezas denotadas por X1 , . . . , X10 , donde Xi = 1 indica que la pieza i es defectuosa y Xi = 0 que no tiene defecto. Esto puede verse como una muestra aleatoria con distribuci´ on Bernoulli de par´ametro θ, cuya funci´ on de densidad es fX (x; θ) = θx (1 − θ)1−x I{0,1} (x) para 0 ≤ θ ≤ 1, que
131
´todos de estimacio ´n 4.2. Me
indica que la probabilidad de que una parte sea defectuosa es θ. As´ı que la densidad conjunta de las 10 observaciones es
fX (x; θ)
=
θ
P10
i=1
xi
(1 − θ)10−
P10
i=1
10 Y
xi
I{0,1} (xi )
i=1
=
L (θ | x) .
¯ Suponga Con el m´etodo de m´ axima verosimilitud el estimador de θ es θˆ = X. que el experto tiene informaci´ on adicional acerca de θ y que ´el ha observado que a lo largo de los d´ıas la proporci´ on de partes defectuosas cambia, es decir, el valor de θ cambia y que este cambio puede representarse como una variable aleatoria con funci´ on de densidad π(θ) = 6θ(1−θ)I[0,1] (θ), esto es, θ tiene una distribuci´ on Beta con par´ ametros 2 y 2, denotada como Beta(2, 2). ¿C´ omo se puede usar esta informaci´ on adicional para estimar θ? Como ya se ha se˜ nalado, en el m´etodo Bayesiano se considera que θ es una cantidad cuya variaci´ on puede describirse por medio de una distribuci´on de probabilidad (llamada distribuci´ on a priori). La distribuci´on a priori es una distribuci´ on subjetiva, basada en las creencias del experto y se formula antes de obtener los datos. Se selecciona una muestra a partir de una poblaci´ on sujeta al par´ ametro θ, entonces la distribuci´on a priori se actualiza utilizando la informaci´ on de la muestra y se obtiene la disribuci´ on a posteriori. Esta actualizaci´ on se hace usando la regla de Bayes. La distribuci´ on a posteriori es una distribuci´ on condicional, y es condicional dada la muestra. La distribuci´ on a posteriori se usa para hacer inferencia acerca de θ (obtener el estimador puntual, intervalos de credibilidad y pruebas de hip´ otesis). La distribuci´ on conjunta de X1 , . . . , X10 y θ es
g(x, θ)
=
×
fX (x; θ) | {z }
distribuci´ on a priori
distribuci´ on conjunta
= θ
P10
i=1
y
xi
(1 − θ)10−
= θ (1 − θ) =
6θ
y+1
10−y
P10
i=1
xi
× 6θ(1 − θ)
× 6θ(1 − θ)
10−y+1
(1 − θ)
π(θ) |{z}
,
132 donde y =
´ n puntual 4. Estimacio P10
xi . Calculando la distribuci´ on marginal de la muestra, m(x), Z Z fX (x; θ)π(θ)dθ = g(x, θ)dθ m(x) = Z = 6θy+1 (1 − θ)10−y+1 dθ
i=1
= =
Γ(y + 2)Γ(10 − y + 2) Γ(10 + 2 + 2) Γ(y + 2)Γ(12 − y) 6 . Γ(14)
6
As´ı, la distribuci´ on a posteriori de θ dada la muestra x es π(θ|x)
= = =
g(x, θ) m(x) 6θy+1 (1 − θ)10−y+1 6 Γ(y+2)Γ(12−y) Γ(14) Γ(14) θy+1 (1 − θ)11−y , Γ(y + 2)Γ(12 − y)
que es una distribuci´ on Beta(y + 2, 12 − y). Un estimador para θ es la media de la distribuci´on a posteriori (ver Secci´ on 4.3.3), la cual dar´ıa el estimador de Bayes de θ, y+2 θˆ = . 14 En el cuadro 4.4 se resumen los valores de los estimadores m´aximo veros´ımil y de Bayes para distintos valores de la muestra. Muestra y θˆ EMV θˆ Bayes
0 1 2 3 4 5 6 7 8 9 10 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.14 0.21 0.29 0.36 0.43 0.5 0.57 0.64 0.71 0.79 0.86
Cuadro 4.4: Valores de los estimadores m´ aximo veros´ımil y de Bayes para distintos valores de la muestra. Las gr´ aficas de la figura 4.6 muestran el comportamiento de la distribuci´ on a posteriori ante la evidencia de los datos y el conocimiento previo del par´ ametro. En el caso de no utilizar familias conjugadas, la obtenci´on de la constante de normalizaci´ on para las distribuciones posteriores no se puede hacer de manera anal´ıtica y es necesario recurrir a m´etodos de simulaci´on.
133
´todos de estimacio ´n 4.2. Me
5
Y=2
5
Y=0
4 3 1 0
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
θ
θ
Y=5
Y=10
0.8
1.0
0.8
1.0
5
0.2
5
0.0
3
4
Prior Verosimilitud Posterior
0
0
1
2
Densidad
2
3
4
Prior Verosimilitud Posterior
1
Densidad
Prior Verosimilitud Posterior
2
Densidad
3 2 0
1
Densidad
4
Prior Verosimilitud Posterior
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
θ
0.6 θ
Figura 4.6: Comportamiento de las funciones a priori, a posteriori y de verosimilitud para la proporci´ on de marcas defectuosas y distintos valores de la muestra en el ejemplo 4.22.
4.2.4.
Otros m´ etodos de estimaci´ on
Adem´ as de los m´etodos de momentos y los basados en verosimilitud, existen alternativas para encontrar el estimador de un par´ametro, por ejemplo, el m´ etodo de medianas, su extensi´ on, el m´ etodo de percentiles, y el m´ etodo de m´ınimos cuadrados. Los primeros dos se revisan en esta secci´ on, mientras que el u ´ltimo se abordar´ a en la secci´on 4.3.1. El m´etodo de medianas u ´nicamente se puede aplicar a modelos dependientes de un s´ olo par´ ametro y consiste en lo siguiente: suponga que x e0.5 representa a la mediana de la muestra mientras que x0.5 denota a la mediana de la distribuci´ on. Recuerde que x0.5 es el valor de x para el cual on de distribuci´on de la variable FX (x0.5 ) = 21 , donde FX (x) es la funci´ aleatoria continua X, o alternativamente, Z
x0.5
Z
−∞
f (x; θ) dx = −∞
f (x; θ) dx = x0.5
1 . 2
134
´ n puntual 4. Estimacio
El m´etodo consiste en igualar las medianas y resolver para el par´ametro desconocido, el cual est´ a involucrado en la expresi´on resultante para x0.5 . La extensi´ on de este m´etodo para el caso de dos o m´as par´ametros puede hacerse a trav´es del m´etodo de percentiles que se describe a continuaci´on. M´ etodo de porcentiles o percentiles Si xp es el valor de x tal que FX (xp ) = p, entonces xp es el p-´esimo(×100) percentil de la distribuci´ on. Para usar este m´etodo se calculan los correspondientes percentiles de la muestra y se igualan con los de la distribuci´on (los cuales se encuentran en t´erminos de los par´ ametros desconocidos) y se resuelve para cada par´ ametro. Observe que si p = 21 , entonces xp es la mediana, as´ı que el m´etodo de las medianas se puede ver como un caso particular. Ejemplo 4.23 Suponiendo que se tiene una muestra aleatoria de tama˜ no n de una poblaci´ on con distribuci´ on Exponencial, se desea estimar el par´ametro θ en f (x; θ) = θ exp (−θx) . Primero se resuelve FX (x0.5 ) = 21 o x0.5
Z
θe−θx dx =
0
de donde 1 − e−θx0.5 = o e−θx0.5 =
1 , 2
1 2
1 , 2
resultando: x0.5 = −
ln 12 . θ
(4.12)
Igualando (4.12) con x e0.5 , es decir con la mediana muestral, se obtiene que 1
ln θb = − 2 . x e0.5 Ejemplo 4.24 Usando el m´etodo de percentiles, estimar los par´ametros en una distribuci´ on Weibull con funci´ on de densidad f (x; θ) = γλxγ−1 exp {−λxγ } . Dados los percentiles muestrales x e0.5 = 10000 y x e0.9 = 100000, ¿cu´al es el estimador para el par´ ametro γ?
135
´todos de estimacio ´n 4.2. Me La funci´ on de distribuci´ on correspondiente es Z x γλuγ−1 exp {−λuγ } du FX (x) = 0 Z ∞ = 1− γλuγ−1 exp {−λuγ } du x
y Z
∞ −γλuγ−1 −λuγ e −γλuγ−1 x
∞ γ−1
γλu
γ
exp {−λu } du =
x
γ
= e−λx . Por lo tanto: FX (x) = 1 − exp {−λxγ } , la cual tiene dos par´ ametros. Si xp es el valor de x tal que FX (xp ) = p, entonces xp es el 100p-´esimo percentil de la distribuci´on, que para este caso dar´ıa las ecuaciones: FX (x0.5 ) = 1 − exp {−λxγ0.5 } = 0.50 y FX (x0.9 ) = 1 − exp {−λxγ0.9 } = 0.90, de donde: exp {−λxγ0.5 } = 0.50 y exp {−λxγ0.9 } = 0.10, que es equivalente a λxγ0.5 = − ln (0.50) = 0.69315 y λxγ0.9 = − ln (0.10) = 2.30259. Es decir: x0.5 =
0.69315 λ
γ1
y x0.9 =
2.30259 λ
γ1 .
136
´ n puntual 4. Estimacio
Igualando con los respectivos percentiles muestrales, se obtiene:
0.69315 λ
γ1 = 10000
(4.13)
= 100000.
(4.14)
y
2.30259 λ
γ1
Dividiendo (4.14) entre (4.13):
2.30259 0.69315
γ1 = 10
o sea, 10γ =
2.30259 = 3.32192. 0.69315
De donde se obtiene que γ b=
ln 3.32192 = 0.521. ln 10
Usando (4.13), se puede obtener el estimador de λ : 0.69315 0.521 = (10000) = 121.34. λ As´ı, b = 0.69315 = 457 . λ 121.34 80 000 Si los percentiles muestrales no est´ an dados expl´ıcitamente, se puede usar el siguiente m´etodo para calcularlos: para una muestra de tama˜ no n, sean x1 , x2 , ..., xn los valores muestrales en orden ascendente. Sea k = (n + 1) p, donde p es el orden del percentil que se busca. Sea l la parte entera de k (l = 1, 2, ..., n − 1) y sea m la parte fraccional de k, 0 ≤ m < 1. Se define x ep = (1 − m) xl + mxl+1
(4.15)
como el p-´esimo percentil (×100) de la muestra. Observe que xl y xl+1 representan los elementos l-´esimo y (l + 1)-´esimo de la muestra, respectivamente. Ejemplo 4.25 En una muestra de ratas de laboratorio se obtienen los tiempos de muerte dados a continuaci´ on: x = 3, 4, 5.7, 7, 8, 10, 10 y 12, donde el tiempo se mide en d´ıas. Usando el m´etodo de percentiles, estimar los
´todos de estimacio ´n 4.2. Me
137
par´ ametros B y c del modelo de supervivencia Gompertz, cuya funci´on de distribuci´ on est´ a dada por: B (1 − cx ) , FX (x) = 1 − exp ln c con los percentiles 0.25 y 0.65. Los percentiles 0.25 y 0.65 son tales que B 1 − exp (1 − cx0.25 ) = 0.25 ln c y 1 − exp ⇔
B (1 − cx0.65 ) = 0.65 ln c
B (1 − cx0.25 ) = ln 0.75 ln c B (1 − cx0.65 ) = ln 0.35 ln c
⇔
ln c B ln c . = 1 − ln 0.35 B
cx0.25 = 1 − ln 0.75 cx0.65 As´ı,
ln 1 − ln 0.75 lnBc x0.25 = (4.16) ln c y ln 1 − ln 0.35 lnBc . (4.17) x0.65 = ln c Usando (4.15), se tiene que para el percentil 0.25, k = (9+1)(0.25) = 2.5, de donde se obtiene x e0.25 = (0.5) (x2 ) + (0.5)(x3 ) = (0.5) (4) + (0.5)(5) = 4.5. Para el cuantil 0.65, k = (9 + 1)(0.65) = 6. 5, por lo tanto x e0.65 = (0.5)x6 + (0.5)x7 = (0.5)8 + (0.5)10 = 9. Igualando los percentiles obtenidos en (4.16) y (4.17) con los percentiles muestrales, resultan las siguientes ecuaciones: ln 1 − ln 0.75 lnBc = 4.5 (4.18) ln c y ln 1 − ln 0.35 lnBc = 9. ln c
138
´ n puntual 4. Estimacio
Dividiendo la segunda entre la primera, resulta ln 1 − ln 0.35 lnBc =2 ln 1 − ln 0.75 lnBc ⇒ 1 − ln 0.35 ⇒
2 ln c ln c = 1 − ln 0.75 B B
2 ln c ln c = 1 − 1 − ln 0.75 ln 0.35 B B 2 ln 0.35z = 1 − 1 − 2z ln 0.75 + (ln 0.75) z 2 ,
⇒ donde z =
ln c B .
Simplificando la u ´ltima expresi´on se obtiene: 2
(ln 0.75) z 2 − z [2 ln 0.75 − ln 0.35] = 0, o 0.83z 2 − (0.4744) z = 0, de donde z=
0.4744 = 5.7163. 0.083
Es decir, lnBc = 5.7163, lo que a su vez implica que ln c = 5.7163B. Sustituyendo este u ´ltimo valor en (4.18), se tiene: ln 1 − ln 0.75 5.7163B B = 4.5 5.7163B b = 0.03780. Finalmente, b y despejando B, se llega al resultado B c = 1.2412. Existen diferentes propuestas para obtener estimadores, entonces es necesario establecer criterios para evaluarlos y compararlos. En las siguiente secciones se abordar´ a este tema.
4.3.
Evaluaci´ on de estimadores
Dado que hay varios m´etodos para encontrar estimadores, una pregunta natural es, si se pueden tener estimadores distintos para una par´ametro, ¿cu´ al es mejor o cu´ al se debe elegir? Es necesario contar con criterios para responder a esta pregunta y poder decidir cu´al estimador es mejor en alg´ un sentido.
´ n de estimadores 4.3. Evaluacio
4.3.1.
139
Error cuadr´ atico medio y estimadores insesgados
El primer criterio que se analizar´ a es el del error cuadr´atico medio, concepto que se introduce a continuaci´ on. Definici´ on 4.6 Sea T (X1 , . . . , Xn ) un estimador de τ (θ). Se define el error cuadr´ atico medio (ECM) de T como ECMT (θ) = E[(T (X) − τ (θ))2 ]. Es decir, el error cuadr´ atico medio mide el error cometido al estimar τ (θ) con T (X). Esta medida es un error promedio al considerar los valores que puede tomar la variable aleatoria T (X) y se calcula como la esperanza de los errores al cuadrado, tomando los errores como la diferencia entre los valores de la variable aleatoria y el valor del par´ ametro. La idea es que si se tienen dos estimadores T1 (X) y T2 (X) para τ (θ) y ECMT1 (θ) < ECMT2 (θ), entonces se elige a T1 como estimador para τ (θ). Si se desarrolla la expresi´ on E[(T (X) − τ (θ))2 ], se obtiene que ECMT (θ)
= E[T 2 − 2τ (θ)T + (τ (θ))2 ] = E(T 2 ) − 2τ (θ)E(T ) + τ 2 (θ) = E(T 2 ) − E2 (T ) + E2 (T ) − 2τ (θ)E(T ) + τ 2 (θ) = V ar(T ) + [E(T ) − τ (θ)]2 {z } | sesgo de T
A E(T ) − τ (θ) se le conoce como sesgo de T . Es importante hacer notar que si el sesgo de T es cero, entonces ECMT (θ) = V ar(T ). Definici´ on 4.7 Un estimador T (X) de τ (θ) es insesgado si E [T (X)] = τ (θ) (es decir, en promedio, el estimador es igual al par´ ametro). Nota: si T es insesgado, entonces ECMT (θ) = V ar(T ). Observaci´ on 4.2 1. En el caso continuo, el error cuadr´atico medio E[(T − τ (θ))2 ] puede calcularse como Z Z ... (t(x1 , x2 , . . . , xn ) − τ (θ))2 fX1 (x1 ; θ) . . . fXn (xn ; θ)dx1 . . . dxn . 2. El ECM puede pensarse tambi´en como una medida de la dispersi´on de T alrededor de τ (θ).
140
´ n puntual 4. Estimacio
3. ECMT1 (θ) y ECMT2 (θ) pueden cruzarse, es decir, en general no se cumple que para todo θ ∈ Θ, ECMT1 (θ) < ECMT2 (θ) (´o ECMT1 (θ) > ECMT2 (θ) ). Ejemplo 4.26 Sea X1 , . . . , Xn una muestra aleatoria de la distribuci´on N (µ, σ 2 ). Considere ¯ T1 (X) = X un estimador para µ. Sean n
T2 (X) = S 2 =
1 X ¯ 2 (Xi − X) n − 1 i=1
y n
2 T3 (X) = σ ˆM V =
1X ¯ 2 = n − 1 S2, (Xi − X) n i=1 n
estimadores para σ 2 . Para revisar si son insesgados: Note que ¯ = µ. E(T1 (X)) = E(X) Por lo tanto, T1 s´ı es insesgado. Tambi´en note que E [T2 (X)] = E(S 2 ) = σ 2 . Por lo tanto, T2 s´ı es insesgado. Sin embargo,
n−1 2 n − 1 2 n − 1 2 E(T3 (x)) = E S = E S = σ . n n n Por lo tanto, T3 no es insesgado. Para encontrar el error cuadr´ atico medio de T1 , T2 y T3 : Como T1 es insesgado, entonces 2 ¯ =σ . ECMT1 (µ, σ 2 ) = V ar(X) n
Como T2 es insesgado, entonces ECMT2 (µ, σ 2 ) = V ar(S 2 ) =
2σ 4 . n−1
141
´ n de estimadores 4.3. Evaluacio Sin embargo, como T3 no es insesgado, entonces ECMT3 (µ, σ 2 ) = V ar(T3 ) + (sesgo2 ). Pero V ar(T3 ) = V ar
n−1 2 S n
=
(n − 1)2 2σ 4 2(n − 1) 4 = σ . 2 n n−1 n2
Y (sesgo)
2
=
2 2
(E(T3 ) − σ ) =
=
n−1−n n
2
n−1 2 σ − σ2 n
σ4 =
2
σ4 . n2
Por lo tanto, ECMT3 (µ, σ 2 ) =
2n − 1 4 2(n − 1) 4 σ 4 σ + 2 = σ . 2 n n n2
Pero note que 2 n
< ⇒
2 2 1 2 2n − 1 2 ⇒ − 2 < ⇒ < n−1 n n n−1 n2 n−1 (2n − 1)σ 4 2σ 4 < ⇒ ECMT3 < ECMT2 . 2 n n−1
Con esto se puede observar que aunque T2 es insesgado, T3 tiene un menor ECM, lo cual exhibe que no siempre un estimador insesgado tiene el menor ECM. Ilustraci´ on mediante simulaci´ on Se simula un conjunto de M = 1000 muestras de tama˜ no n = 3 cada una. Los estimadores T1 (X), T2 (X) y T3 (X) del ejemplo 4.26, se grafican en las figuras 4.7 y 4.8.
142
´ n puntual 4. Estimacio
2
T1 insesgado ●
●
● ●
1
●● ●●
● ●
● ●
●
●
●
●
●
●
● ● ●
●
●
●
● ●
●
●
● ●
●
● ●
●
●
●
●
●
●
●
●
●
● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● ● ● ●● ●●● ● ●● ● ● ● ●● ● ● ●● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ●● ●● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● ● ● ● ●●●● ● ●● ●● ●● ● ● ● ●● ● ● ● ● ●● ● ●● ● ●● ●● ● ● ●● ● ● ● ● ● ● ●● ● ●● ● ● ● ●●●● ● ● ● ● ●● ● ●● ●● ● ●●● ●● ● ●● ● ●● ●● ● ●● ● ●● ● ● ● ● ● ● ●● ●● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ●● ● ●● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ● ●● ● ●● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ●● ● ● ● ● ●● ● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ●● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ●● ● ●● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ●●● ● ● ●● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ●● ● ●
●
● ● ● ● ●●● ● ●
●●
●● ●
●
µ
−1
0
●
●
●
●
●
●
● ● ●
●
Estimación
●
●
● ●●
●
●
●
●
●
●
●
●
● ●
● ● ●
0
200
400
600
800
1000
Muestras
Figura 4.7: El estimador T1 = X es insesgado para µ en el ejemplo 4.26.
8
T3 sesgado
8
T2 insesgado ●
6
6
●
●
●
●
● ●● ●
● ●
●
●
●
●
2
●
● ● ● ● ● ● ●
● ●
● ● ●
● ● ●
●
● ●
● ●
● ●
●
●
●
●
● ●●
●● ●
● ● ● ● ● ● ● ● ● ● ● ●●● ●● ● ● ● ● ●● ●● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ●● ● ● ● ●● ● ●● ●● ● ● ● ●● ● ● ●● ● ●● ● ● ● ● ●● ●●●● ●● ● ●● ● ● ● ● ●●● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ●●● ● ● ● ●● ● ● ● ● ● ● ●● ● ●● ● ● ● ●● ●● ● ●● ● ● ● ● ●● ●● ●● ● ●● ● ● ●● ●● ●● ● ● ● ● ●● ● ● ● ● ● ● ●● ●● ● ● ●● ● ● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●● ●● ●● ● ● ● ●● ● ● ● ●● ●● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ●● ●● ● ●● ● ● ●● ●●● ●● ● ●● ● ● ● ● ● ● ●●●● ●● ● ●● ●● ● ● ●● ● ●● ●● ● ●● ● ● ● ● ●● ●● ●●● ● ●●● ●● ● ● ● ●● ● ● ● ●● ● ●●● ● ●● ● ● ● ● ●● ● ● ●● ●● ● ● ● ● ● ●●● ●● ● ●● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ●●● ● ● ● ● ●● ● ●● ● ● ●●● ●● ●● ● ● ● ●● ●●●●●●●● ● ●● ● ● ● ● ● ● ● ●● ● ● ●●● ● ●● ● ● ●● ●● ● ● ● ●● ●● ●● ● ● ●●●● ● ● ● ●●●●● ●●● ● ●● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●● ●● ● ●● ● ● ● ● ●●● ● ● ● ● ● ●● ●● ● ●● ● ●● ●● ●●●● ● ●● ● ● ●● ● ●● ●●● ● ●● ●● ●● ● ● ●● ●● ●● ● ●●● ● ● ●●● ●● ● ● ●●●● ●● ●● ● ● ● ● ●●● ● ●●●●● ●●●● ●● ● ●●● ●● ● ●●● ● ● ●●● ● ● ●● ●● ● ● ●● ● ●●● ●● ● ●●● ●●● ●●●●●●● ●●● ●● ● ● ●● ●● ●● ● ● ● ●● ● ● ●● ● ●● ●● ●● ● ●● ●●● ● ● ●● ●● ●●●● ●● ● ● ● ●●●●● ● ●● ●● ●● ●● ●●● ● ●● ●●● ● ●●● ● ● ●● ● ● ●● ●● ●●●●● ● ● ●● ● ●● ●● ●● ●●● ● ●●● ● ● ●● ●● ●●● ● ● ● ● ●●● ● ●● ● ● ● ●●●● ● ●● ●● ●●● ● ●● ● ● ●● ● ●● ●● ●● ● ●● ● ●● ● ● ● ●● ●●● ●● ●●● ● ●●● ●● ● ● ● ●● ●● ● ● ●● ● ●● ●●●● ● ●● ● ● ●●● ● ●●● ●● ● ●● ● ● ● ● ● ● ●● ● ● ●● ● ● ●● ●● ● ●● ●●● ● ● ● ● ●● ● ● ● ● ● ● ●● ●●● ● ●● ● ●● ●● ●
●
4
●
Estimación
● ●
●
●
●
200 400 600 800
●
●
●
●
●
● ●● ● ● ●
●
● ●
●
●
●
●
●
● ●
●
● ● ● ●
●
●
● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●●● ●● ● ● ●● ●● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ●● ●● ● ● ● ●● ● ●● ● ● ● ● ●● ● ●● ● ● ●●●● ●●●● ● ●● ● ●● ● ● ●●● ●● ● ● ● ●●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ●●● ● ● ● ● ●●●●● ● ● ●● ●● ● ●● ●●● ● ● ● ● ●● ● ●● ● ●●● ●● ● ● ● ●● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ●●● ●● ● ● ● ●● ●● ●● ● ● ● ● ● ● ●● ●● ●● ● ● ● ● ● ● ● ●● ● ● ●●● ●●●● ● ●● ● ●● ●● ● ● ●● ● ●●●● ● ●● ● ● ● ●● ●●● ● ●● ●● ● ● ● ● ●●● ● ●● ●● ● ●● ● ●● ● ● ● ● ●●● ● ● ● ●● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ●● ● ● ●● ● ●●●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ●● ● ●● ●●● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ●● ● ●●●●● ●● ● ● ●● ● ●● ●●● ● ●● ● ● ● ●●● ● ● ●● ●●● ●● ● ●● ●● ● ● ●●● ●● ● ● ● ● ●● ● ● ● ●●●●●● ● ●● ● ● ●● ● ● ●● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ●● ●●●●● ●● ● ● ●●● ● ● ●● ● ●● ● ●●● ●● ● ● ● ●●● ● ●● ● ●● ●●● ● ●● ●●● ●● ●● ●● ●● ● ● ●●● ● ●●● ●● ●● ●● ● ● ●●● ●●● ●● ●● ● ●●● ● ●● ● ●●● ●●● ●● ●●●●● ● ●● ● ●● ●● ●●● ● ● ● ●● ●● ● ● ●●● ● ●●●●● ●● ● ●● ● ●● ● ● ●●● ●●●● ● ● ● ●●● ●● ● ● ● ●● ● ● ● ●●●● ● ●● ● ●● ● ●●● ● ● ●● ●● ● ● ●●● ● ●●● ● ●● ● ● ●● ● ● ●●●●● ●●● ●● ●●● ● ●● ● ● ●● ●● ● ●●● ●●● ●● ● ● ●●●● ● ● ● ●●● ● ●●●●●● ● ●● ●● ● ● ●● ● ●● ●●● ●● ● ● ● ● ●●● ●● ● ●●● ● ● ●● ●● ● ●● ● ● ●●● ●● ●●● ●● ● ●● ● ●● ● ● ●●●● ● ● ● ● ●●● ●● ●● ● ● ●●● ●● ●● ● ●● ● ●● ● ●● ●● ● ●● ● ●● ●● ●● ● ●● ●● ●●
σ 0
0
Muestras
●
●
●
σ 0
●
●
2
● ●
4
Estimación
●
●
● ●
0
200 400 600 800 Muestras
Figura 4.8: El estimador T2 = S 2 es insesgado para σ 2 . T3 no es insesgado para σ 2 , pero tiene un error cuadr´ atico medio menor que T2 (ejemplo 4.26).
143
´ n de estimadores 4.3. Evaluacio M´ etodo de m´ınimos cuadrados para estimaci´ on de par´ ametros
Existe otro procedimiento de estimaci´ on conocido como el m´etodo de m´ınimos cuadrados, el cual se usa en distintas aplicaciones para encontrar los estimadores de los par´ ametros relacionados con modelos de diversa ´ındole. Se ilustrar´ a con un ejemplo en el marco del criterio del error cuadr´atico medio. Ejemplo 4.27 Considere un conjunto de n puntos en el plano (x1 , y1 ), . . . , (xn , yn ) y el siguiente experimento: se escoge X con P {X = xi } = 1/n, para i = 1, . . . , n; si X = xi se asigna Y = yi . Suponga que Y tiene la forma aX + b y se desea encontrar un estimador para Y , de tal manera que se minimice el error cuadr´ atico medio, el cual es: n
E[(Y − (aX + b))2 ] = Para la funci´ on S(a, b) = la expresi´ on satisfacen:
1X [yi − (axi + b)]2 . n i=1
Pn
2 i=1 [yi − (axi + b)] ,
los valores que minimizan
n n n X X X ∂S(a, b) = −2 yi xi + 2 ax2i + 2b xi = 0, ∂a i=1 i=1 i=1 n n X X ∂S(a, b) = −2 yi + 2 axi + 2nb = 0, ∂b i=1 i=1
de donde, las soluciones que minimizan el ECM est´an dadas por n
n
X 1X bb = 1 yi − b a xi n i=1 n i=1 y b a
n X
n n 1X X x2i − xi xi n i=1 i=1 i=1
! =
n X i=1
yi xi −
n n 1X X yi xi . n i=1 i=1
A estos estimadores se les conoce como el estimador de m´ınimos cuadrados para a y b. A Yb = b aX + bb se le llama el estimador de m´ınimos cuadrados de Y .
144
4.3.2.
´ n puntual 4. Estimacio
Consistencia
La consistencia es otra propiedad deseable en un estimador y tiene que ver con tama˜ nos de muestra grandes, es decir, es una propiedad asint´otica. Esencialmente, un estimador es consistente, si para n (el tama˜ no de muestra) no (tiende a grande, el error cometido al estimar τ (θ) con Tn (X) , es peque˜ cero). Definici´ on 4.8 (consistencia en ECM). Sea T1 , T2 , ..., Tn una sucesi´ on de estimadores de τ (θ), donde Tn est´ a basado en una muestra de tama˜ no n. Esta sucesi´ on de estimadores de τ (θ) es consistente en error cuadr´ atico medio (ECM) si: l´ım E[(Tn (X) − τ (θ))2 ] = 0. (4.19) n→∞
Note que (4.19) es una convergencia en media cuadr´atica, de la sucesi´on {Tn } a τ (θ). Ejemplo 4.28 Sea X1 , . . . , Xn una muestra aleatoria de la distribuci´on Pn N (µ,P σ 2 ). Considere los estimadores X¯n = n1 i=1 Xi para µ y Sn2 = n 1 2 ¯ 2 i=1 (Xi − X) para σ . Note que n−1 E[(X¯n − µ)2 ] = V ar(X¯n ) =
σ 2 n→∞ −→ 0. n
Por lo tanto X¯n es consistente para µ. Tambi´en note que E[(Sn2 − σ 2 )2 ] = V ar(Sn2 ) =
2σ 4 n→∞ −→ 0. n−1
Por lo tanto Sn2 es consistente para σ 2 . El error cuadr´ atico medio, ECM, es el criterio para medir la bondad de un estimador. Una propiedad desable de un estimador es que proporcione, para muestras grandes, un error (ECM) peque˜ no en la estimaci´on, es decir, que sea consistente. Ilustraci´ on del concepto de consistencia mediante simulaci´ on Se simula un conjunto de n = 1000 muestras de tama˜ no i, para i = 2, . . . , n. Los estimadores X n y Sn2 son consistentes, y se pueden observar las gr´aficas correspondientes en las figuras 4.9 y 4.10. Definici´ on 4.9 Se dice que una sucesi´ on de estimadores {Tn }n∈N es consistente simple si y s´ olo si ∀ > 0
l´ım P(|Tn − τ (θ)| < ) = 1.
n→∞
(4.20)
145
´ n de estimadores 4.3. Evaluacio
La consistencia en ECM implica la consistencia simple. Esto se puede analizar desde dos perspectivas: la primera, notando que (4.20) es una convergencia en probabilidad y usando el hecho de que la convergencia en r-´esima media implica la convergencia en probabilidad; la segunda, utilizando la desigualdad de Chebyshev: 2
P(|Tn − τ (θ)| ≥ ) = P([Tn − τ (θ)] ≥ 2 ) ≤
E[(Tn − τ (θ))2 ] 2
y la definici´ on de consistencia en ECM.
0.6
Xbar consistente ●
0.2
µ
● ●
● ●
●●
●
● ●
●●
● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ●● ● ●●● ●● ● ● ●● ● ●● ● ● ● ● ●●●● ● ●● ● ●● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ●● ●●● ●● ● ●●● ● ● ● ● ● ●● ● ● ● ●●● ●● ●● ● ● ●● ● ●● ● ● ● ● ●● ●● ● ●● ● ● ● ● ● ●● ● ● ●● ● ● ●● ●●●● ●● ● ●●●● ● ● ● ●● ● ●● ● ●● ● ● ●● ● ●●● ● ● ● ●● ● ● ● ● ●●● ● ● ● ●● ● ● ●●● ●●● ●● ●● ● ●●● ● ● ● ● ● ● ● ●●● ● ● ● ●● ●●●●● ● ● ● ● ●●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●● ●● ●●●● ●● ●● ● ● ● ● ●● ●● ●● ●●● ● ● ●●●● ● ● ● ●●● ●●●● ●● ●● ● ● ●● ● ● ● ● ●● ●● ● ●● ● ● ●● ● ● ● ●●●●●●● ● ● ●● ●●● ●●● ●● ●● ● ●● ● ●● ●●●●● ● ● ●● ●● ● ● ●● ● ●●●● ● ●● ● ●● ●● ● ● ● ●●●● ● ●●● ● ● ● ● ●● ● ● ● ● ●● ● ●●● ●● ●●● ● ● ●● ● ● ●● ● ●●● ●● ●● ● ● ●●● ● ●●● ● ● ● ●●● ● ● ●●● ● ● ● ● ● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ●●●● ● ●●●●● ●●●● ● ● ●● ● ● ● ●●● ● ● ● ●● ● ● ●● ● ● ●●● ●●● ●●● ● ● ● ●● ● ● ● ●● ● ●●●●●●●●● ● ● ● ● ●● ● ●●● ● ●● ● ● ● ●● ● ● ●●●● ● ● ● ● ● ●●●●● ●● ● ●● ● ●● ● ●● ●●●● ● ● ● ●●●● ●●● ● ● ● ●●●● ● ● ●● ●● ● ●● ● ● ●● ●●●●● ● ●● ● ●● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ●● ● ●● ●●● ● ● ●● ● ● ● ●● ● ●● ●● ● ●●● ● ●●● ● ● ●●●●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ●●●● ●● ●● ●● ●● ●● ●●● ●● ● ●● ●● ● ● ● ● ● ●●● ● ● ● ● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ●● ● ● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ●● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ●
0.0
●
−0.2
Estimación
0.4
●
● ● ●
● ●● ●
−0.4
● ● ●
● ● ●
0
200
400
600
800
1000
Tamaño de muestra
Figura 4.9: Ilustraci´ on de la consistencia de X en el contexto del ejemplo 4.28.
146
´ n puntual 4. Estimacio
2.0
S2 consistente ●
●●
● ●
● ● ● ● ●
σ ●
1.0
Estimación
1.5
●
●
● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ●●● ● ● ●● ●● ●● ● ● ● ● ● ● ● ●● ●●● ● ● ● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ●●●●● ● ●●● ● ● ● ● ● ● ●● ●●● ● ● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ●● ● ●● ● ●● ● ● ●●● ●● ●● ●●● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ●● ● ● ● ● ●● ●● ● ● ● ●● ● ● ●● ● ●●●● ●●● ●●●● ●●●● ● ● ●● ● ● ● ●● ● ●● ●●●● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ● ● ●●● ● ● ● ● ● ● ● ●● ●● ● ● ● ●●● ● ● ● ● ● ● ● ● ●● ●●● ● ● ● ● ●●●●● ●●● ● ●● ● ● ● ●● ● ●● ● ● ● ● ●● ● ●● ● ●● ●● ●● ●●●● ● ● ● ●● ●● ● ● ●● ● ● ● ●●●● ●● ●●● ●●● ● ● ●●● ● ●● ● ● ●● ● ●● ● ●● ● ●● ●● ●● ● ●● ●●●● ●● ● ●●● ● ● ● ●●●●● ●● ●● ● ●● ● ●●●●●● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● ●● ●● ● ● ● ● ● ●●● ● ●● ● ●●● ●● ● ● ● ● ●● ●● ●● ● ● ●●●● ● ●● ●● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ●● ● ● ●● ● ●●●●● ● ● ●● ●● ● ● ●●● ● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ●● ● ●●●● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ● ●●● ● ●●●● ● ●● ● ● ● ● ● ●● ● ●● ● ●●●●● ●● ● ●● ● ●● ●● ● ● ● ●● ● ●●● ●● ● ●● ●● ● ●● ● ● ● ●●●● ● ● ● ● ● ● ● ●●● ● ● ● ● ●●●● ● ●●● ● ● ● ● ●●● ● ● ● ● ●●● ●●● ● ● ● ● ● ●● ●● ● ●●● ●● ●● ● ●● ● ● ● ● ●● ● ●● ●● ● ●● ● ● ● ●● ●●● ● ● ● ● ●● ● ● ●● ● ●● ●●● ●●●● ● ●● ●●● ● ● ●●● ●●● ● ● ● ● ● ●● ● ●● ●● ●● ● ● ●● ● ●● ●● ● ● ● ●● ● ●● ● ● ● ● ● ●● ● ●●● ●● ● ● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ●● ● ● ●● ● ● ● ● ● ● ●● ● ●● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●●●● ● ●● ● ● ● ● ● ● ●● ● ● ●
●● ● ●
0.5
● ●●
● ●
● ● ●●
● ● ● ●
● ● ● ● ●
0
200
400
600
800
1000
Tamaño de muestra
Figura 4.10: Ilustraci´ on de la consistencia de S 2 en el contexto del ejemplo 4.28.
4.3.3.
Funciones de p´ erdida y estimaci´ on
El enfoque Bayesiano al problema de estimaci´on de par´ametros es a trav´es de una funci´ on de p´erdida L(θ, a), la cual mide la p´erdida en que se incurre cuando se estima el valor de un par´ ametro mediante a, siendo que el verdadeˆ ro valor es θ. Entonces θˆ se selecciona de tal manera que minimice E[L(θ, θ)], donde esta esperanza se toma con respecto a θ usando la distribuci´on a posteriori π(θ|x). Definici´ on 4.10 A L(θ, a) = (a − θ)2 se le llama la funci´ on de p´ erdida del error cuadr´ atico. Observe que: Z Z E[L(θ, a)] = L(θ, a)π(θ|x1 , . . . , xn )dθ = (a − θ)2 π(θ|x1 , . . . , xn )dθ. Diferenciando esta expresi´ on con respecto a a, se obtiene:
147
´ n de estimadores 4.3. Evaluacio
Z
Z (a − θ)π(θ|x1 , . . . , xn )dθ = 0 =⇒ a =
2
θπ(θ|x1 , . . . , xn )dθ
ˆ la media o Por lo tanto, la p´erdida del error cuadr´ atico se minimiza en θ, esperanza a posteriori de θ. Definici´ on 4.11 A L(θ, a) = |a − θ| se le llama la funci´ on de p´ erdida del error absoluto. En este caso, Z E[L(θ, a)] = Z
L(θ, a)π(θ|x1 , . . . , xn )dθ
a
Z
∞
(a − θ)π(θ|x1 , . . . , xn )dθ +
= −∞
(θ − a)π(θ|x1 , . . . , xn )dθ. a
Diferenciando con respecto a a, se llega a que el m´ınimo debe cumplir que: Z a Z ∞ π(θ|x1 , . . . , xn )dθ − π(θ|x1 , . . . , xn )dθ = 0 θ=−∞
a
As´ı, ambas integrales deber´ıan ser iguales a riori.
1 2
y θˆ es la mediana a poste-
Ejemplo 4.29 Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´on con distribuci´ on P oisson(λ), Suponga que λ ∼ Exponencial(1), de modo que π(λ) = e−λ , λ > 0. La distribuci´ on a posteriori es π(λ|x1 , . . . , xn ) = e−λ
n Y e−λ λxi i=1
xi !
Pn
∝ e−λ(n+1) λ
i=1
xi
,
Pn es decir, Gama( i=1 xi + 1, n + 1). Entonces, usando la funci´on de p´erdida del error cuadr´ atico medio: Pn xi + 1 ˆ θ = media a posteriori = i=1 . n+1 Y bajo la funci´ on de p´erdida del error absoluto, θˆ es la soluci´on a: Z 0
θˆ
e−λ(n+1) λ
Pn
xi
(n + 1) Pn ( i=1 xi )! i=1
Pn
i=1
xi +1
dλ =
1 . 2
148
4.4.
´ n puntual 4. Estimacio
Estimaci´ on insesgada
En esta secci´ on se har´ a una restricci´ on considerando u ´nicamente a los estimadores insesgados, es decir, a los estimadores T (X) que pertenecen a la clase: Cτ (θ) = {T (X) | E [T (X)] = τ (θ)} , la clase de estimadores insesgados para τ (θ) . El siguiente ejemplo muestra la idea subyacente en esta secci´on en cuanto a la estimaci´ on basada en minimizar la varianza de estimadores insesgados. Ejemplo 4.30 Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´on con distribuci´ on P oisson(λ). Primero note que E(Xi ) = λ, V ar(Xi ) = λ y E(Xi2 ) = V ar(Xi ) + E2 (Xi ) = λ + λ2 . Pn Considerando ahora la estad´ıstica G(X1 , . . . , Xn ) = i=1 Xi , note que G(X) tiene distribuci´ on P oisson(nλ); por lo que E(G) = nλ y V ar(G) = nλ. Sean a ∈ (0, 1) una constante y ¯ + (1 − a)S 2 . Ta (X1 , . . . , Xn ) = aX Entonces, 1 E(G) = λ; n λ 1 V ar(G) = ; n2 n
¯ E(X)
=
¯ V ar(X)
=
¯ 2) E(X
=
¯ + E2 (X) ¯ = V ar(X)
E(S 2 )
=
n X 1 ¯ 2) E( X 2 − nX n − 1 i=1 i
λ + λ2 ; n
λ 1 (n(λ + λ2 ) − n( + λ2 )) n−1 n 1 = (nλ − λ) = λ, y n−1 ¯ + (1 − a)S 2 ) = aE(X) ¯ + (1 − a)E(S 2 ) = λ. E(Ta (X1 , . . . , Xn )) = E(aX =
As´ı, se tiene una familia infinita de estimadores insesgados para λ; entonces se puede optar por utilizar el estimador que tenga el menor ECM. Definici´ on 4.12 Un estimador T ∗ (X) insesgado de varianza m´ınima uniformemente (UMVUE5 ) para τ (θ) satisface: 5 Por
Uniformly Minimum Variance Unbiased Estimator.
´ n insesgada 4.4. Estimacio
149
(a) T ∗ (X) ∈ Cτ (θ) , es decir, E [T ∗ (X)] = τ (θ) . (b) Para todo θ ∈ Θ, V ar (T ∗ (X)) ≤ V ar (T (X)) , donde T (X) es cualquier otro estimador en Cτ (θ) . El UMVUE se refiere entonces al mejor estimador insesgado para τ (θ) en el sentido de que tiene el menor error cuadr´atico medio para toda θ ∈ Θ. El objetivo de esta secci´ on es encontrar el UMVUE para τ (θ) , para ello se discutir´ an tres resultados en donde se utilizan los conceptos analizados previamente. En primer lugar se analizar´ a el planteamiento que Cram`er y Rao hicieron con base en el c´ alculo de una cota inferior para la varianza de un estimador insesgado. Esta propuesta tiene ciertas restricciones, como el hecho de que requiere el cumplimiento de ciertas condiciones de regularidad para la densidad, entre otras. Posteriormente se enunciar´a el teorema de Rao-Blackwell, el cual utiliza la suficiencia de una estad´ıstica para la construcci´ on de UMVUEs bajo la idea de que un estimador que se basa en una estad´ıstica suficiente ser´ a mejor que otro que no lo hace. Finalmente se enuncia el teorema de Lehmann-Scheff´e, el cual, adem´as de la suficiencia, utiliza el concepto de completez y permite encontrar un UMVUE construyendo un estimador insesgado a partir de una estad´ıstica suficiente y completa, la que a su vez puede hallarse usando los resultados antes vistos o, en su caso, identificando a un miembro de la familia exponencial.
4.4.1.
La propuesta de Cram` er y Rao
En esta secci´ on se estudia un resultado propuesto por Cram`er y Rao, el cual se basa en el hecho de que, para ver qu´e tan bueno es un estimador insesgado con respecto a otro, es necesario analizar la varianza de dicho estimador. As´ı, si la varianza o el error est´ andar de un estimador es una cantidad de inter´es para hablar de su bondad, ser´ıa deseable contar con una expresi´on con la cual pueda compararse esta varianza. Esta expresi´on ser´a una cota inferior para la varianza, de tal manera que si la varianza de un estimador insesgado es igual a esa cota, se puede afirmar que el estimador es el UMVUE. Antes de presentar el teorema de Cram`er y Rao, en donde se da la cota mencionada, es necesario enunciar algunas definiciones y resultados que servir´an para la demostraci´ on de dicho teorema. Definici´ on 4.13 Sea X1 , . . . , Xn una muestra aleatoria de f (x; θ) y sea T(X) un estimador insesgado de τ (θ). Las siguientes se conocen como condiciones de regularidad: El soporte de f (x; θ) se define como sop(f ) = {x : f (x) > 0} y este es el mismo para toda θ.
150
´ n puntual 4. Estimacio ∂ ln f (x; θ) existe. Para todo x ∈ sop(f ), ∂θ R R R RR R ∂ ∂ ... T (x)f (x; θ)dx1 ...dxn = ... ∂θ T (x)f (x; θ)dx1 ...dxn . ∂θ R R R R R R ∂ ∂ ... ∂θ ... f (x; θ)dx1 ...dxn = f (x; θ)dx1 ...dxn . ∂θ 2 f (x;θ) 0 < E ∂ ln∂θ < ∞.
Observe que esta definici´ on establece principalmente la condici´on que debe cumplir una funci´ on para que se puedan intercambiar derivadas e integrales, lo cual no siempre se cumple. En general, los miembros de la familia exponencial cumplen las condiciones de regularidad, pero densidades como la Uniforme Continua no. Para ver este caso espec´ıfico de la Uniforme considere su funci´ on de densidad f (x; θ) =
1 I(0,θ) (x) . θ
A continuaci´ on se obtiene la derivada con respecto a θ de la integral, de la siguiente manera: Z θ Z θ ∂ ∂ 1 t (x) f (x; θ)dx = t (x) dx. ∂θ 0 ∂θ 0 θ Utilizando la regla de Leibnitz, la cual es una aplicaci´on del teorema Fundamental del C´ alculo y de la regla de la cadena, y que establece que si h(x; θ), a (θ) y b (θ) son diferenciables con respecto a θ, entonces Z b(θ) ∂ ∂ ∂ h(x; θ)dx = h (b (θ) , θ) b (θ) − h (a (θ) , θ) a (θ) ∂θ a(θ) ∂θ ∂θ Z b(θ) ∂ h(x; θ)dx. + a(θ) ∂θ En el caso que se est´ a analizando, a (θ) = 0, b (θ) = θ y h (x; θ) = t (x) θ1 . Z θ Z θ ∂ 1 t (θ) ∂ 1 t (x) dx = + t (x) dx ∂θ 0 θ θ ∂θ θ 0 Z θ ∂ 1 6= t (x) dx, ∂θ θ 0 al menos que t(θ) θ = 0. Ahora se definir´ an algunas funciones que est´an involucradas en la cota inferior para la varianza propuesta por Cram`er y Rao.
151
´ n insesgada 4.4. Estimacio
Definici´ on 4.14 La funci´ on score o funci´ on de puntaje se define como: ∂ ln f (x; θ). ∂θ Definici´ on 4.15 La informaci´ on esperada de Fisher se define como: " 2 # ∂ = E (Sc)2 . ln f (X; θ) IX (θ) = E ∂θ Sc(x; θ) =
Observaci´ on 4.3 La funci´ on score tambi´en puede escribirse como: Sc(x; θ) =
∂ f 0 (x; θ) ln f (x; θ) = ∂θ f (x; θ) n n X Y ∂ ∂ f (xi ; θ) = = ln ln f (xi ; θ). ∂θ i=1 ∂θ i=1
(4.21)
Lema 4.1 Si se satisfacen las condiciones de regularidad, entonces: (a) E(Sc) = 0. (b) V ar(Sc) = IX (θ). Demostraci´ on. (a) Z
∂ ln f (x; θ) f (x; θ)dx1 ...dxn dθ Z Z Z 0 f (x; θ) = ... f (x; θ)dx1 ...dxn f (x; θ) Z Z Z ∂ f (x; θ)dx1 ...dxn = ... ∂θ Z Z Z ∂ = ... f (x; θ)dx1 ...dxn ∂θ ∂ = (1) = 0 ∂θ Z Z
E [Sc(x; θ)] =
···
∴ E(Sc) = 0. (b) V ar(Sc) = E(Sc2 ) − E2 (Sc) = IX (θ) − 0 = IX (θ). ∴ V ar(Sc) = IX (θ).
152
´ n puntual 4. Estimacio
Definici´ on 4.16 Si X es una variable aleatoria, entonces a " 2 # ∂ IX (θ) = E ln f (X; θ) ∂θ se le conoce como informaci´ on esperada de Fisher por unidad muestral. Es m´ as sencillo calcular la informaci´ on esperada de Fisher por unidad muestral y el siguiente resultado la relaciona con la informaci´on esperada de Fisher para la muestra, as´ı como con otras expresiones. Lema 4.2 Si se cumplen las condiciones de regularidad, entonces: (a) IX (θ) = nIX (θ). h 2 i ∂ (b) IX (θ) = −E ∂θ ln f (X; θ) . 2 (c) IX (θ) = −nE
h
∂2 ∂θ 2 ln
i f (X; θ) .
Demostraci´ on. P 2 (θ) = E(Sc2 ) y usando (4.21), as´ı como el hecho de que ( ai ) = (a) Como P 2 IX P ai + i6=j ai aj , !2 n X ∂ IX (θ) = E ln f (Xi ; θ) ∂θ i=1 " 2 # n X ∂ = E ln f (Xi ; θ) ∂θ i=1 X ∂ ∂ + E ln f (Xi ; θ) ln f (Xj ; θ) . ∂θ ∂θ
i6=j
Como las variables X1 , ..., Xn son independientes, se tiene que ∂ ln f (Xi ; θ) ∂θ y
∂ ln f (Xj ; θ) , ∂θ
153
´ n insesgada 4.4. Estimacio tambi´en lo son y E
∂ ∂ ln f (Xi ; θ) ln f (Xj ; θ) ∂θ ∂θ
es igual a E
∂ ∂ ln f (Xi ; θ) E ln f (Xj ; θ) , ∂θ ∂θ
donde, para el caso continuo, y bajo el supuesto de que se cumplen las condiciones de regularidad: Z ∞ ∂ ∂ ∂θ f (xi ; θ) E ln f (Xi ; θ) = f (xi ; θ)dxi ∂θ −∞ f (xi ; θ) Z ∞ ∂ f (xi ; θ)dx = ∂θ −∞ Z ∞ ∂ ∂ = f (xi ; θ)dx = (1) = 0. ∂θ −∞ ∂θ As´ı, "
2 # ∂ IX (θ) = E ln f (Xi ; θ) ∂θ i=1 " 2 # ∂ ln f (X; θ) , = nE ∂θ n X
debido a que las Xi ’s son id´enticamente distribuidas. (b) Observe que ∂2 ln f (x; θ) ∂θ2
= = =
∂ f 0 (x; θ) ∂θ f (x; θ) f (x; θ) f 00 (x; θ) − f 0 (x; θ) f 0 (x; θ) 2
[f (x; θ)] 0 2 00 f (x; θ) f (x; θ) − . f (x; θ) f (x; θ)
As´ı, ( 0 2 ) ∂2 f 00 (X; θ) f (X; θ) −E ln f (X; θ) = −E − , ∂θ2 f (X; θ) f (X; θ)
154
´ n puntual 4. Estimacio y como E
f 00 (X; θ) f (X; θ)
Z = =
Z ··· 2 Z
∂ ∂θ2
∂2 ln f (X; θ) −E ∂θ2
f 00 (x; θ) f (x; θ) dx1 · · · dxn f (x; θ) Z · · · f (x; θ) dx1 · · · dxn = 0,
"
f 0 (X; θ) f (X; θ)
"
2 # ∂ ln f (X; θ) ∂θ
= E
= E
2 #
= IX (θ). (c) Se deduce de los dos resultados anteriores. Teorema 4.2 (de Cram` er y Rao). Sean X1 , . . . , Xn una muestra aleatoria de f (x; θ) y T (X) un estimador insesgado de τ (θ). Si se satisfacen las condiciones de regularidad, entonces V ar(T ) ≥
(τ 0 (θ))2 . IX (θ) | {z }
(4.22)
CICR(τ (θ))
Esta desigualdad se conoce como la desigualdad de Cram` er-Rao o de2 [τ 0 (θ)] sigualdad de la informaci´ on y a la cantidad IX(θ) como la cota inferior de Cram` er y Rao (CICR). En (4.22) la igualdad se da si y s´ olo si: n X ∂ ln f (xi ; θ) = k(θ; n)[T (x) − τ (θ)], ∂θ i=1
donde k puede depender de θ y de n. Demostraci´ on. Este resultado se deduce de la conocida desigualdad de Cauchy-Schwarz, la cual establece que si X y Y son variables aleatorias, entonces: 2 {Cov (X, Y )} ≤ V ar (X) V ar (Y ) ,
155
´ n insesgada 4.4. Estimacio d´ andose la igualdad si y s´ olo si Y − E (Y ) = k [X − E (X)]
(4.23)
Aplicando esta desigualdad a las variables T (X) y Sc(X; θ), se obtiene: 2
{Cov (T, SC )} ≤ V ar (T ) V ar (SC ) .
(4.24)
Usando el lema 4.1, se tiene que V ar(Sc) = IX (θ), por lo que (4.24) se puede escribir como: 2 {Cov (T, SC )} V ar(T ) ≥ . IX (θ) Por otro lado, Cov (T, SC ) = E (T SC ) − E (T ) E (SC ) y nuevamente por el lema 4.1, E (SC ) = 0, mientras que: Z E (T SC )
= = =
∂ f (x; θ) t (x) ∂θ f (x; θ) dx1 · · · dxn f (x; θ) Z · · · t (x) f (x; θ) dx1 · · · dxn
Z ··· Z
∂ ∂θ ∂ ∂ E (T (X)) = τ (θ) = τ 0 (θ) , ∂θ ∂θ
los pasos anteriores se justifican por la definici´on de SC , las condiciones de regularidad y el hecho de que T es insesgado para τ (θ) . As´ı, 2
V ar(T ) ≥
{τ 0 (θ)} . IX (θ)
Para ver la condici´ on en la que se alcanza la cota, es decir, en la que se da la igualdad, se usa (4.23), obteniendo: SC − E (SC ) = k [T − E (T )] Pn y como E (SC ) = 0, SC = i=1 la segunda parte del teorema.
∂ ∂θ
ln f (xi ; θ) y E (T ) = τ (θ) , se comprueba
Ejemplo 4.31 Sea X1 , . . . , Xn una muestra aleatoria de la distribuci´on N (0, σ 2 ). Para encontrar IX (σ 2 ):
156
´ n puntual 4. Estimacio
ln f (x; θ)
=
ln
√
1 2πσ 2
e
− 2σ12 x2
1 1 1 = − ln(2π) − ln(σ 2 ) − 2 x2 , 2 2 2σ ∂ 1 x2 2 ln f (x; σ ) = − + , ∂σ 2 2σ 2 2(σ 2 )2 ∂2 1 x2 2 ln f (x; σ ) = − . ∂(σ 2 )2 2(σ 2 )2 (σ 2 )3 Entonces, IX (σ 2 )
= =
∂2 E(X 2 ) 1 2 ln f (X; σ ) = n − −nE ∂(σ 2 )2 σ6 2σ 4 2 σ 1 1 1 n n 6 − 4 =n 4 − 4 = . σ 2σ σ 2σ 2σ 4
Entonces, la CICR para estimadores insesgados de σ 2 es
2σ 4 n .
Ejemplo 4.32 Sea X1 , . . . , Xn una muestra aleatoria de la distribuci´on exp(θ). Para encontrar IX (θ): ln f (x; θ) = ln θe−θx = ln(θ) − θx, de donde
∂ 1 ln f (x; θ) = − x. ∂θ θ
Entonces, " IX (θ) = nE
" 2 # 2 # 1 n ∂ ln f (X; θ) = nE −X = n V ar(X) = 2 . ∂θ θ θ
Para encontrar la CICR para estimadores insesgados de θ: τ1 (θ) = θ ⇒ τ10 (θ) = 1. Entonces, CICR(θ) =
θ2 1 = . IX (θ) n
Para encontrar la CICR para estimadores insesgados de τ2 (θ) = θ1 : τ2 (θ) =
1 1 ⇒ τ20 (θ) = − 2 . θ θ
157
´ n insesgada 4.4. Estimacio Entonces, CICR(τ2 (θ)) =
1 1/θ4 1/θ4 = 2. = IX (θ) n/θ2 nθ
Observaci´ on 4.4 Para responder a la pregunta: ¿existe alguna funci´on de θ, τ (θ) , para la cual hay un estimador insesgado cuya varianza coincide con la CICR?, se usa la segunda parte del teorema, es decir, la condici´on para la alcanzabilidad de la cota. Ejemplo 4.33 Para la distribuci´ on Exponencial, ¿existe alguna funci´on de θ, τ (θ) , para la cual hay un estimador cuya varianza coincide con la CICR? Usando la segunda parte del teorema de Cram`er y Rao, se tiene que n X ∂ ln f (xi ; θ) ∂θ i=1
= = =
n n X X ∂ ∂ ln θe−θxi = [ln θ − θxi ] ∂θ ∂θ i=1 i=1 n n X 1 n X xi − xi = − θ θ i=1 i=1 Pn 1 1 i=1 xi −n − = −n x − . n θ θ
As´ı, se puede afirmar que τ (θ) = θ1 es una funci´on de θ para la cual existe un estimador insesgado T (X) = X, cuya varianza coincide con la CICR. En otras palabras, X es el UMVUE de τ (θ) = θ1 . Aunque en general no es ne cesario probarlo, es claro que en este caso: V ar X = θ21n = CICR (τ (θ)) . Observaci´ on 4.5 1. Si la varianza de un estimador insesgado coincide con la CICR, entonces el estimador es un UMVUE. Pero el UMVUE puede existir sin que su varianza coincida con la CICR. 2. Si la muestra aleatoria es de alg´ un miembro de la familia exponencial, siempre existe una funci´ on de θ para la cual hay un estimador insesgado cuya varianza coincide con la CICR (basta factorizar n X ∂ ln a(θ)b(x) exp{c(θ)d(xi )} ∂θ i=1
en la forma indicada en la segunda parte del teorema de Cram`er y Rao).
158
´ n puntual 4. Estimacio
3. Aun cuando la varianza de un estimador insesgado alcance la CICR, esta situaci´ on se da para una funci´ on espec´ıfica de θ, que puede no ser la que se est´e analizando. En el caso de la distribuci´on Exponencial, en el ejemplo 4.33 se obtuvo que X es el UMVUE de θ1 usando la segunda parte del teorema de Cram`er y Rao; sin embargo, si el objetivo es encontrar el UMVUE de θ, este resultado no da informaci´on adicional (salvo la expresi´ on correspondiente para la CICR que sirve para compararla con la varianza de alg´ un estimador que se proponga). 4. La teor´ıa desarrollada por Cram`er y Rao s´olo es para densidades que satisfacen las condiciones de regularidad. 5. Cuando la varianza de un estimador alcanza la CICR tambi´en se dice que es eficiente y la eficiencia de un estimador insesgado se mide como CICR V ar(T ) , cantidad que es menor o igual a 1. Por lo que un estimador es eficiente si y s´ olo si el cociente anterior es 1. Dadas estas restricciones se analizar´ an otros resultados que incorporan los conceptos de suficiencia y completez, lo cual se har´a en las secciones 4.4.2 y 4.4.3. Generalizaci´ on Aqu´ı se considerar´ an brevemente la generalizaci´on de la teor´ıa de Cram`er y Rao para cuando se tienen distribuciones de dos o m´as par´ametros. En el caso de dos par´ ametros, la informaci´ on esperada de Fisher (para una muestra de tama˜ no n), llamada la matriz de informaci´ on de Fisher, se define como: h 2 i h 2 i ∂ ∂ E ∂θ ln f (X; ln f (X; θ) θ) E ∂θ 2 i h 1 ∂θ i , IX (θ) = − h 21 ∂2 E ∂θ ln f (X; θ) E ∂θ∂2 ∂θ1 ln f (X; θ) 2 y para el caso de k par´ ametros IX (θ) toma la forma: h 2 i h 2 i h 2 i ∂ E ∂θ E ∂θ∂1 ∂θ2 ln f (X; θ) · · · E ∂θ∂1 ∂θk ln f (X; θ) 2 ln f (X; θ) h 21 i h 2 i h 2 i ∂ E ∂θ · · · E ∂θ∂2 ∂θk ln f (X; θ) E ∂θ∂2 ∂θ1 ln f (X; θ) 2 ln f (X; θ) 2 .. .. .. .. . h 2 . i h 2 . i h 2 . i ∂ E ∂θ E ∂θ∂k ∂θ1 ln f (X; θ) E ∂θ∂k ∂θ2 ln f (X; θ) · · · 2 ln f (X; θ)
k
Y la cota inferior de Cram`er y Rao es la inversa de la matriz de informaci´on, −1 (θ). es decir, IX
159
´ n insesgada 4.4. Estimacio
4.4.2.
El teorema de Rao-Blackwell
Como se ha visto, una estad´ıstica suficiente conserva toda la informaci´on relevante contenida en la muestra acerca del par´ametro de inter´es. As´ı, los estimadores basados en estad´ısticas suficientes son mejores (que los que no est´ an basados en estad´ısticas suficientes) como establece el siguiente resultado. Teorema 4.3 (Rao-Blackwell). Sean T (X) un estimador insesgado para τ (θ) y S una estad´ıstica suficiente. Sea T ∗ (X) := E(T |S). Entonces, (a) T ∗ es una estadistica funci´ on de S. (b) T ∗ es insesgado para τ (θ), es decir, E (T ∗ ) = τ (θ). (c) V ar(T ∗ ) ≤ V ar(T ) para toda θ ∈ Θ. Demostraci´ on. (a) Usando la definici´ on de la esperanza condicional en el caso continuo, T∗ =
Z
∞
tfT /S (t/s) dt −∞
es una funci´ on de S, adem´ as fT /S no depende de θ por ser S una estad´ıstica suficiente, por lo que T ∗ es una estad´ıstica. (b) Por las propiedades de la esperanza condicional, E (T ∗ ) = E (E (T /S)) = E (T ) = τ (θ). (c) Usando las propiedades de la varianza condicional, V ar(T ) = V ar (E (T /S)) + E (V ar (T /S)) , lo cual implica que V ar(T ) = V ar (T ∗ ) + E (V ar (T /S)) , y como V ar (T /S) ≥ 0, se obtiene el resultado.
160
´ n puntual 4. Estimacio
Ejemplo 4.34 Sea X1P , . . . , Xn una muestra aleatoria de la distribuci´on n Bernoulli(θ). S(X) = i=1 Xi es una estad´ıstica suficiente para θ, lo cual se ha verificado (basta ver que la distribuci´ on Bernoulli pertenece a la familia exponencial). T (X) = X1 es un estimador insesgado de θ (pues E(X1 ) = θ). Entonces ! n X ∗ Xi = s T (X) = E(T |S = s) =E X1 | i=1
=0 · P X1 = 0|
n X
! Xi = s
i=1
+ 1 · P X1 = 1|
n X
! Xi = s
i=1
=P X1 = 1 |
n X
!
Xi = s i=1 Pn P (X1 = 1, i=1 Xi = s) Pn = . P ( i=1 Xi = s)
Donde
Pn
Xi ∼ Bin(n, θ). Pero Pn Pn P(X1 = 1)P ( i=2 Xi = s − 1) P(X1 = 1; i=1 Xi = s) Pn = n s n−s P( i=1 Xi = s) s θ (1 − θ) i=1
=
θ
n−1 s−1
θs−1 (1 − θ)n−1−s+1 = n s n−s s θ (1 − θ)
Por lo tanto, T ∗ (X) =
Pn
i=1
n−1 s−1 n s
=
(n−1)! (s−1)!(n−s)! n! s!(n−s)!
=
s . n
Xi
= X. n ¯ = θ y tiene varianza menor El estimador resultante es insesgado, pues E(X) que X1 , ya que ¯ = θ(1 − θ) ≤ θ(1 − θ) = V ar(X1 ), V ar(X) n las cuales son iguales s´ olo en el caso n = 1.
4.4.3.
El teorema de Lehmann-Scheff´ e
El siguiente resultado muestra que un estimador insesgado funci´on de la estad´ıstica suficiente y completa ser´ a el UMVUE.
161
´ n insesgada 4.4. Estimacio
Teorema 4.4 (Lehmann-Scheff´ e). Sea X1 , . . . , Xn una muestra aleatoria de f (x; θ) y sea S una estad´ıstica suficiente y completa. Sea T ∗ (X) una funci´ on de S tal que E(T ∗ ) = τ (θ) (T ∗ es insesgado para τ (θ)), entonces T ∗ es el UMVUE de τ (θ). Demostraci´ on. Sea T 0 (X) , funci´ on de S, tal que E(T 0 ) = τ (θ). Sea g(S) = ∗ 0 T − T . Note que E[g(S)] = E(T ∗ − T 0 ) = E[T ∗ ] − E[T 0 ] = τ (θ) − τ (θ) = 0
∴ E[g(S)] = 0 Entonces, por la completez de S se tiene que P[g(S) = 0] = 1, para toda θ ∈ Θ. De esta manera, P[T ∗ = T 0 ] = 1 para toda θ ∈ Θ y, por lo tanto, T ∗ es u ´nico (c.s.). Es decir, T ∗ es el u ´nico estimador insesgado de τ (θ) que es funci´ on de S. Por otro lado, sea T tal que E[T ] = τ (θ). Por el teorema de Rao-Blackwell, E[T |S] es estimador insesgado de τ (θ) y es funci´on de S, lo que implica que T ∗ = E[T |S]. As´ı, por el teorema de Rao-Blackwell, V ar(T ∗ ) ≤ V ar(T ), para toda θ ∈ Θ.
Ejemplo 4.35 Sea X1 , . . . , Xn una muestra aleatoria de la distribuci´on Exp(θ), donde θ > 0. Como f (x; θ) = θe−θx , entonces Pn f (x; θ) es de la familia exponencial con d(x) = x. Entonces, S(X) = i=1 Xi es suficiente y completa. Para encontrar el UMVUE de θ y de τ (θ) = θ1 , se obtiene
E(S) = E
n X i=1
! Xi
= nE(Xi ) = n
1 n = θ θ
¯ = 1 , entonces X es el UMVUE de 1 , pues es funci´on de la y como E[X] θ θ estad´ıstica suficiente y completa y adem´ as es insesgado para θ (note que este resultado coincide con el obtenido mediante la teor´ıa Cram`er y Rao, ejemplo 4.33). Para encontrar el UMVUE de θ, ´este ser´a de la forma Pn k Xi , donde i=1 Pn S = i=1 Xi tiene distribuci´ on Gama (n, θ) . Entonces, observe que:
162
´ n puntual 4. Estimacio
k E Pn
i=1
Xi
k 1 = kE S S Z ∞ 1 θn n−1 −θs s e ds =k s Γ(n) 0 Z ∞ n θ =k sn−2 e−θs ds Γ(n) 0 Z θn Γ(n − 1) ∞ θn−1 (n−1)−1 −θs =k s e ds Γ(n) θn−1 Γ(n − 1) 0 | {z } =E
1
θn Γ(n − 1) Γ(n − 1) kθ =k n−1 =k = . θ Γ(n) (n − 1)Γ(n − 1)θ−1 n−1 Por lo que, para que k/Y sea insesgado, k debe ser igual a n − 1. Por lo tanto, n−1 T ∗ (X) = Pn i=1 Xi es el UMVUE de θ. Para encontrar la CICR para estimadores insesgados de θ (ver ejemplo 4.32): "
2 # ∂ IX (θ) =nE ln f (X; θ) ∂θ " 2 # ∂ −θX =nE ln θe ∂θ " 2 # ∂ =nE (ln θ − θX) ∂θ " 2 # 1 =nE −X θ n =nV ar(X) = 2 . θ Entonces, la CICR para estimadores insesgados de θ es: CICR(θ) =
1 θ2 = . IX (θ) n
163
´ n insesgada 4.4. Estimacio El segundo momento de T ∗ (X) = (n − 1)2 E S2
Pn−1 n i=1 Xi
est´a dado por:
1 = (n − 1) E 2 S Z ∞ 1 θn n−1 −θs s e ds = (n − 1)2 s2 Γ(n) 0 Z ∞ θn = (n − 1)2 sn−3 e−θs ds Γ(n) 0 Z θn Γ(n − 2) ∞ θn−2 (n−2)−1 −θs = (n − 1)2 s e ds Γ(n) θn−2 Γ(n − 2) 0 {z } | 2
1
θn Γ(n − 2) = (n − 1)2 n−2 θ Γ(n) Γ(n − 2) = (n − 1)2 (n − 1)(n − 2)Γ(n − 2)θ−2 (n − 1)θ2 = . n−2 Entonces, V ar(T ∗ (X)) =
(n − 1)θ2 θ2 − θ2 = n−2 n−2
es la varianza del UMVUE de θ. Note que V ar(T ∗ (X)) =
θ2 θ2 > = CICR(θ). n−2 n
Ejemplo 4.36 Sea X1 , . . . , Xn una muestra aleatoria de la distribuci´on P oisson(θ). Sea τ (θ) = P(X = 0) = e−θ . (a) Encontrar el estimador m´ aximo veros´ımil de θ y τ (θ). (b) Encontrar el estimador por momentos de θ. (c) ¿Pertenece f (x; θ) a la familia exponencial? (d) Encontrar una estad´ıstica suficiente minimal y completa. (e) Encontrar la CICR para estimadores insesgados de θ y τ (θ). (f) ¿Existir´ a una funci´ on de θ, para la cual hay un estimador insesgado cuya varianza coincide con la CICR? Si es as´ı, encontrarlo.
164
´ n puntual 4. Estimacio
(g) Encontrar un estimador insesgado de τ (θ) y usar el teorema de RaoBlackwell para hallar un estimador insesgado funci´on de la estad´ıstica suficiente. (h) Decir cu´ ales son los UMVUEs de θ y τ (θ), respectivamente. Soluci´ on: (a) L(θ) =
n Y i=1
f (xi ; θ) =
n Y e−θ θxi i=1
xi !
(x )
i I{0,1,...} = e−nθ θ
Pn
i=1
xi
n I(xi ) Y {0,1,...} i=1
xi !
y el logaritmo de la verosimilitud es l(θ) = −nθ + (
n X
xi ) ln θ + ln
i=1
n I(xi ) Y {0,1,...} i=1
xi !
,
de donde,
Pn xi ∂ l(θ) = −n + i=1 . ∂θ θ ∂ Entonces, ∂θ l(θ) = 0 si y s´ olo si Pn Pn Pn xi xi xi −n + i=1 = 0 ⇔ n = i=1 ⇔ θb = i=1 . n θb θb Pn ¯ Para τ (θ), aplicando la proPor lo tanto θˆM.V. = n1 i=1 Xi = X. piedad de invarianza de los estimadores m´aximo veros´ımiles τ (θˆM.V. ) ¯ es estimador m´ aximo vers´ımil de τ (θ). Por lo tanto e−X es estimador m´ aximo veros´ımil de τ (θ) = e−θ . (b) Recuerde que E(X) = θ, entonces el estimador por momentos est´a dado por n 1X ¯ Xi = X. θˆ = n i=1 (c) Como f (x; θ) =
e−θ θx (x) I x! {0,1,...}
si a(θ) = e−θ ,
b(x) =
1 (x) I , x! {0,1,...}
c(θ) = ln(θ),
d(x) = x.
165
´ n insesgada 4.4. Estimacio Entonces, f (x; θ) = a(θ)b(x)ec(θ)d(x) . Por lo tanto pertenece a la familia exponencial.
(d) P Como f (x; θ) pertenece a la familia exponencial entonces T (x) = Pn n d(X ) = X es una estad´ıstica suficiente minimal y comi i=1 i=1 i pleta.
(e) La informaci´ on esperada de Fisher est´ a dada por "
2 # ∂ ln f (X; θ) IX (θ) =nE ∂θ " −θ X 2 # ∂ e θ =nE ln ∂θ X! " 2 # ∂ =nE (−θ + X ln θ − ln X!) ∂θ " 2 # X =nE −1 + θ " 2 # 1 (X − θ) =nE θ i n h n nθ n 2 = 2 E (X − θ) = 2 V ar(X) = 2 = . θ θ θ θ Para θ se tiene que CICR(θ) =
θ . n
Para τ (θ) = e−θ se tiene que
CICR(τ (θ)) =
(τ 0 (θ))2 n θ
=
θe−2θ . n
166
´ n puntual 4. Estimacio
(f) Utilizando la segunda parte del teorema de Cram`er-Rao n n X X e−θ θxi ∂ ∂ ln f (xi ; θ) = ln ∂θ ∂θ xi ! i=1 i=1
= =
n X ∂ (−θ + xi ln(θ) − ln(xi !)) ∂θ i=1 n X
−1 +
i=1
xi θ
n
=−n+
1X n n xi = −n + x ¯ = (¯ x − θ). θ i=1 θ θ
¯ cuya Por lo tanto, para θ hay un estimador insesgado, T ∗ (X) = X, ¯ varianza coincide con la Cota de Cram`er-Rao, es decir, X es el UMVUE de θ. (g) Considere T (X) = I{0} (X1 ). Note que E(T (X)) = E(I{0} (X1 )) = P(X1 = 0) = e−θ . Por lo tanto,PT (X) es un estimador insesgado de n τ (θ) y ya se vio que S(X) = ıstica suficiente i=1 Xi es una estad´ minimal y completa. Entonces, E(T |S
= =
s) = E(I{0} (X1 )|S = s) ! n X P X1 = 0| Xi = s i=1
=
Pn P(X1 = 0)P( i=2 Xi = s) Pn P( i=1 Xi = s) −(n−1)θ
= =
((n−1)θ)s s! e−nθ (nθ)s s! −θ −(n−1)θ
e−θ e e
e−nθ (nθ)s
=
((n − 1)θ)s
e
n−1 n
=
e−θ e−nθ eθ (n − 1)s θs e−nθ ns θs
s .
Entonces, por el teorema de Rao-Blackwell T ∗ (X) =
n−1 n
Pni=1 Xi
.
¯ es el UMVUE de θ, lo cual se justifica utilizando el inciso (f) o bien, (h) X ¯ es insesgado para θ y funci´on de la estad´ıstica suficiente notando queP X n y completa, i=1 Xi , por lo que usando el teorema de Lehmann-Scheff´e
´ ticas de los estimadores 4.5. Propiedades asinto
167
Pni=1 Xi se llega a la misma conclusi´ on. Adem´ as, n−1 es el UMVUE de n τ (θ) por el inciso (g) y el teorema de Lehmann-Scheff´e.
4.5.
Propiedades asint´ oticas de los estimadores
Hasta ahora se han estudiado distintas propiedades de los estimadores, pero la mayor´ıa, a excepci´ on de la consistencia vista en el apartado 4.3.2, se refiere a tama˜ nos de muestra peque˜ nos. En esta secci´on se abordar´an propiedades que describen el comportamiento de un estimador cuando el tama˜ no de muestra es grande, es decir, las propiedades asint´oticas de los estimadores. Como ya se se˜ nal´ o, la consistencia tiene que ver con la precisi´on asint´otica de un estimador, esto es, que el error cometido al estimar τ (θ) con Tn (X) es peque˜ no cuando el tama˜ no de muestra es grande. Existe otra propiedad que tiene que ver con la varianza asint´ ontica de un estimador, la cual se conoce como eficiencia. Ya se ha reiterado que la varianza (de los estimadores) juega un papel importante en la elecci´ on del mejor estimador. De hecho en las observaciones 4.5, se menciona la propiedad de eficiencia. A continuaci´on se da una definici´ on formal de eficiencia asint´ otica. Definici´ on 4.17 Una sucesi´ on de estimadores {Tn } es asint´ oticamente eficiente para un par´ ametro τ (θ) si √
n[Tn − τ (θ)] −→ N [0, CICR(θ)]
en distribuci´ on, donde CICR(θ) =
[τ 0(θ)]2 ∂ ; E ( ∂θ ln f (X; θ))2
esto es, la varianza asint´ otica de Tn alcanza la cota inferior de Cram´er-Rao. Bajo las condiciones de regularidad (definici´on 4.13), se puede demostrar que los estimadores m´ aximo veros´ımiles cumplen las propiedades de consistencia y eficiencia. Es decir, si la muestra aleatoria proviene de una poblaci´on con funci´ on de densidad que satisface las condiciones de regularidad, entonces el estimador m´ aximo veros´ımil del par´ ametro θ (o de una funci´on τ (θ)) tiene estas propiedades asint´ oticas. Para el caso de la consistencia simple, puede consultarse Stuart, Ord y Arnold (1999). En cuanto a la eficiencia, se utilizar´a el siguiente resultado conocido como el m´etodo delta:
168
´ n puntual 4. Estimacio
Lema on de variables aleatorias que satisfacen √ 4.3 Si {Xn } es una sucesi´ on, entonces para una funci´ on τ que n (Xn − θ) → N 0, σ 2 en distribuci´ y un valor espec´ıfico de θ, se tiene que √ 2 n [τ (Xn ) − τ (θ)] → N 0, σ 2 τ 0 (θ) en distribuci´ on. Demostraci´ on. El resultado es consecuencia del teorema de Slutsky, el cual establece que para dos sucesiones de variables aleatorias {Xn }n≥1 y {Yn }n≥1 , tales que Xn → X en distribuci´ on y Yn → c en probabilidad , donde X es una variable aleatoria y c es una constante, se tiene que: (i) Xn + Yn → X + c, en distribuci´ on, (ii) Xn Yn → cX, en distribuci´ on, (iii) Si c 6= 0 entonces, Xn X → , Yn c en distribuci´ on. El siguiente resultado se refiere a la eficiencia asint´otica de los estimadores m´ aximo veros´ımiles. Teorema 4.5 Sea X1 , X2 , .., Xn una muestra aleatoria de una poblaci´ on con funci´ on de densidad f (x; θ), sea θb el estimador m´ aximo veros´ımil de θ, y sea τ (θ) una funci´ on continua y diferenciable de θ. Bajo las condiciones de regularidad sobre f (x; θ) y, por lo tanto de la funci´ on de verosimilitud L(θ), se tiene que √ b − τ (θ)] −→ N [0, CICR(τ (θ))], n[τ (θ) donde CICR(τ (θ)) es la cota inferior de Cram´er-Rao para estimadores inb es sesgados de τ (θ). Esto es, el estimador m´ aximo veros´ımil de τ (θ) , τ (θ), un estimador eficiente de τ (θ). Demostraci´ on. Se demostrar´ a el caso τ (θ) = θ, es decir, que θb es asint´oticamente eficiente. Para ello, recuerde que l(θ) =
n X i=1
ln f (xi ; θ)
´ ticas de los estimadores 4.5. Propiedades asinto
169
es la funci´ on de log-verosimilitud. Sean l0 , l00 , .. las derivadas (con respecto a θ) . Expandiendo la primera derivada de la log-verosimilitud alrededor del valor verdadero del par´ ametro, el cual se denotar´a por θ0 , l0 (θ) = l0 (θ0 ) + (θ − θ0 )l00 (θ0 ) + . . . , donde se ignoran los t´erminos de orden superior. Sustituyendo el estimador m´ aximo veros´ımil θb en lugar de θ, se tiene que b = l0 (θ0 ) + (θb − θ0 )l00 (θ0 ) + . . . , l0 (θ) pero el estimador m´ aximo veros´ımil es el cero de la funci´on de verosimilitud, por lo que l0 (θ0 ) + (θb − θ0 )l00 (θ0 ) + · · · = 0. √ As´ı que reacomodando los t´erminos y multiplicando por n, se obtiene que: √
n(θb − θ0 )
= =
√ −l0 (θ0 ) n 00 l (θ0 ) 1 0 √ − n l (θ0 ) 1 00 n l (θ0 )
.
En 4.4.1 , se vio que " IX (θ) = E Como
2 # ∂ . ln f (X; θ) ∂θ
n X ∂ ln f (xi ; θ), l (θ) = ∂θ i=1 0
por (4.21) IX (θ0 ) = E [l0 (θ0 )]2 =
1 CICR(θ)
denota la informaci´ on esperada de Fisher. Ahora observe que " # ∂ √ f (xi ; θ) 1 0 1 X ∂θ √ l (θ0 ) = n , n i f (xi ; θ) n 0
(x;θ) donde Sc(x; θ) = ff (x;θ) es tal que E [Sc(X; θ)] = 0 y V ar [Sc(X; θ)] = IX (θ), lo cual se prob´ o en el lema 4.1. As´ı, por el teorema del l´ımite central,
1 √ l0 (θ0 ) −→ N [0, I(θ0 )] n
170
´ n puntual 4. Estimacio
en distribuci´ on y 1 − √ l0 (θ0 ) −→ N [0, I(θ0 )] n en distribuci´ on. Por otro lado, " #2 ∂ f (xi ; θ) 1 00 1 X ∂θ 1X l (θ0 ) = − n n i f (xi ; θ) n i
∂2 ∂θ 2 f (xi ; θ)
f (xi ; θ)
.
Note que la esperanza del primer sumando es IX (θ0 ), mientras que la del segundo es cero (ver la demostraci´ on del lema 4.2). Entonces por la Ley D´ebil de los Grandes N´ umeros: 1 00 l (θ0 ) −→ I(θ0 ), n en probabilidad. En consecuencia, si W es una variable aleatoria tal que W ∼ N [0, I(θ0 )], entonces √
n(θb − θ0 ) =
− √1n l0 (θ0 ) 1 00 n l (θ0 )
converge en distribuci´ on a W/I(θ0 ) ∼ N [0, 1/IX (θ0 )], es decir, a una variable aleatoria normal con media cero y varianza igual a la cota Inferior de Cram`er y Rao, lo que demuestra el resultado. El caso general es consecuencia del m´ etodo delta, el cual se describe brevemente a continuaci´ on. Una forma alternativa para calcular la varianza del estimador m´ aximo veros´ımil de τ (θ) es considerando que, debido a la propiedad de invarianza que tiene el m´etodo de m´axima verosimilitud, τd (θ) = τ θb . Si se aproxima τ θb mediante una expansi´ on en series de Taylor alrededor de θ, considerando solamente la primera derivada, se obtiene: τ θb ≈ τ (θ) + θb − θ τ 0 (θ) . Tomando la varianza de ambos lados, se llega a h i 2 V ar τ θb ≈ (τ 0 (θ)) V ar θb , debido a que θ es una constante. Como ya se hab´ıa visto, V ar θb est´a dada −1 por IX (θ), as´ı que
h i (τ 0 (θ))2 V ar τ θb ≈ , IX (θ)
´ ticas de los estimadores 4.5. Propiedades asinto
171
expresi´ on que corresponde a la cota inferior de Cram`er-Rao para estimadores insesgados de τ (θ) , con lo que puede observarse que la varianza del estimador m´ aximo veros´ımil alcanza dicha cota (al igual que en el caso τ (θ) = θ). En conclusi´ on: √ b − τ (θ)] −→ N [0, CICR(τ (θ))]. n[τ (θ) Ejemplo 4.37 Considere una muestra aleatoria, X1 , . . . , Xn , de la poblaci´ on con distribuci´ on Bernoulli(p); se desea obtener un estimador puntual p para el momio, τ (p) = (1−p) , as´ı como la varianza de dicho estimador. ¯ Por la propiedad de inEl estimador m´ aximo veros´ımil para pˆ es X. varianza de los estimadores m´ aximo veros´ımiles, se tiene que el estimador ¯n X m´ aximo veros´ımil para τ (p) es (1− ¯ n ) . La varianza de este estimador puede X aproximarse de la siguiente manera: h i2 p d pˆ dp ( (1−p) ) Vˆ = (1 − pˆ) IX (p) p=pˆ
i2 1 (1−p)2 ) = n h
p(1−p)
p=pˆ
=
¯n pˆ X = 3 ¯ n )3 . n(1 − pˆ) n(1 − X
Ejemplo 4.38 Considere una sucesi´ on de variables aleatorias, X1 , . . . , Xn , independientes e id´enticamente distribuidas de una poblaci´on con distribuci´ on F (·) que es diferenciable. Suponga que se satisface que P (Xi ≤ ψ) = 1/2, es decir, ψ es la mediana poblacional. Sea Mn la mediana muestral y tambi´en suponga que n es impar para simplificar el argumento. Se desea obtener la distribuci´ on asint´ otica de la mediana muestral. Se calcular´ a p l´ım P ( (n)(Mn − ψ) ≤ a), n→∞
para alguna a. Sean las variables aleatorias Yi0 s definidas como ( p 1 si Xi ≤ ψ + a/ (n) Yi = 0 en otro caso,
172
´ n puntual 4. Estimacio
se tiene que las Yi0 s son variables aleatorias Bernoulli con probabilidad de ´exito p pn = F (ψ + a/ (n)). p P Note que el evento {Mn ≤ ψ + a/ (n)} es equivalente al evento { i Yi ≥ (n + 1)/2}. Dado que pn → p = F (ψ) = 1/2, P
se puede utilizar el teorema del l´ımite central, de donde √
i
Yi −npn
(npn (1−pn ))
con-
verge a una variable aleatoria Z con distribuci´on normal est´andar. Ahora, √ (n + 1)/2 − npn (n + 1)F (ψ) − nF (ψ + a/ n) p l´ım p = l´ım n→∞ n→∞ (npn (1 − pn ) npn (1 − pn ) √ n(F (ψ) − F (ψ + a/ n)) p = l´ım n→∞ npn (1 − pn ) √ 1 n(F (ψ) − F (ψ + a/ n) √ = l´ım a n→∞ pn (1 − pn ) a/ n = −2af (ψ). Por lo que p P ( (n)(Mn − ψ) ≤ a) → P (Z ≥ −2af ψ). p on normal con media 0 y varianza As´ı (n)(Mn − ψ) tiene una distribuci´ 1/[2f (ψ)]2 .
4.6.
Ejercicios
1. Sea X una variable aleatoria con distribuci´on Gama(α + 1, β), cuya funci´ on de densidad es f (x; α, β) =
β α+1 xα e−βx , Γ(α + 1)
con x > 0, α > −1 y β > 0. Obtenga los estimadores de los par´ametros α y β por el m´etodo de momentos, para una muestra aleatoria de tama˜ no n. 2. Una urna contiene bolas negras y blancas. Se toma una muestra aleatoria de tama˜ no n con reemplazo. ¿Cu´ al es el estimador m´aximo veros´ımil de la raz´ on, R, de blancas a negras en la urna? Para esto suponga que la bola se obtiene una por una con reemplazo hasta que la bola negra aparezca. Sea X el n´ umero de bolas requeridas no contando la u ´ltima obtenida; este procedimiento se repite n veces para una muestra aleatoria X1 , . . . , Xn .
173
4.6. Ejercicios
3. Se toma una observaci´ on de una variable aleatoria discreta X con funci´ on de densidad f (x; θ) dada en la siguiente tabla, donde θ ∈ {1, 2, 3}. x 0 1 2 3 4
f (x; 1) 1/3 1/3 0 1/6 1/6
f (x; 2) 1/4 1/4 1/4 1/4 0
f (x; 3) 0 0 1/4 1/2 1/4
Encuentre el estimador m´ aximo veros´ımil de θ. 4. Sea X una variable aleatoria discreta con funci´on de densidad f (x; θ) dada en la siguiente tabla, donde θ ∈ {1, 2, 3} y X ∈ {0, 1, 2, 3, 4}. Se toma una muestra aleatoria de tama˜ no dos, (X1 , X2 ). Determine el estimador m´ aximo veros´ımil de θ. x f (x; 1) f (x; 2) f (x; 3) 0 1/3 1/4 0 1 1/3 1/4 0 2 0 1/4 1/4 3 1/6 1/4 1/2 4 1/6 0 1/4 5. Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´on con funci´on de densidad f (x; θ) = θx−2 I[θ,∞) (x). Encuentre el estimador m´ aximo veros´ımil de θ. Tambi´en encuentre el estimador por momentos para θ. 6. Sea X1 , X2 , X3 una muestra aleatoria de la poblaci´on con distribuci´on U (θ, 2θ), con θ > 0. (a) Encuentre el estimador de θ por el m´etodo de momentos. (b) Encuentre el estimador m´ aximo veros´ımil de θ, θˆM V , y encuentre una constante k tal que E(k θˆM V ) = θ. 7. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con funci´on de densidad 1 (x − µ) f (x; µ, σ) = exp − I(µ,∞) (x), σ σ donde µ ∈ R y σ ∈ R+ son desconocidos.
174
´ n puntual 4. Estimacio (a) Demuestre que el estimador m´ aximo veros´ımil de µ es X(1) (la m´ınimaPestad´ıstica de orden) y el estimador m´aximo veros´ımil de n σ es n1 i=1 (Xi − X(1) ). (b) ¿Cu´ ales son los estimadores m´ aximo veros´ımiles de µ + σ?
µ µ σ , σ2
y de
8. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con funci´on de densidad f (x; θ) =
θ2 (x + 1)e−θx I(0,∞) (x), θ > 0. θ+1
(a) Demuestre que la densidad de X pertenece a la familia exponencial. (b) Encuentre una estad´ıstica suficiente minimal y completa. (c) Encuentre el estimador por momentos. (d) Encuentre el estimador m´ aximo veros´ımil. 9. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con funci´on de densidad f (x; θ) = θxθ−1 I[0,1] (x), θ > 0. (a) Encuentre el estimador por momentos de θ. (b) Encuentre el estimador m´ aximo veros´ımil de θ. (c) Suponga que el verdadero valor de θ es 2. Utilice simulaci´on en R para comparar el error cuadr´ atico medio (num´ericamente) de los estimadores en los apartados anteriores en muestras de tama˜ no n = 30. ¿Qu´e conclusiones puede extraer? 10. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con funci´on de densidad 1 f (x; θ) = e−|x−θ| , −∞ < θ < ∞. 2 (a) Analice la suficiencia en esta densidad. (b) ¿Pertenece f (x; θ) a la familia exponencial? (c) Halle el estimador por el m´etodo de momentos para θ. (d) Halle el estimador m´ aximo veros´ımil para θ. 11. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on P oisson(λ), con funci´ on de densidad f (x|λ). Considere que la funci´ on de distribuci´ on a priori de λ es una distribuci´on Gama(α, β), con funci´ on de densidad π(λ).
4.6. Ejercicios
175
(a) Encuentre la distribuci´ on a posteriori de λ. (b) Encuentre el estimador Bayesiano de λ usando la funci´on de p´erdida del error cuadr´ atico. 12. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on Geom´etrica(θ). Considere que la funci´ on de distribuci´on a priori de θ es una distribuci´ on Beta(α, β). (a) Encuentre la distribuci´ on a posteriori de θ. (b) Encuentre el estimador Bayesiano de θ usando la funci´on de p´erdida del error cuadr´ atico. 13. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on N ormal(µ, σ 2 ), donde σ 2 es conocida. Considere que la funci´on de distribuci´ on a priori de µ es una distribuci´on N ormal(η, λ2 ). (a) Encuentre la distribuci´ on a posteriori de µ. (b) Encuentre el estimador Bayesiano de µ usando la funci´on de p´erdida del error cuadr´ atico. 14. Suponga que ciertas p´erdidas siguen una distribuci´on W eibull con par´ ametros θ y τ . Se tiene la siguiente muestra de 16 p´erdidas: 54, 70, 75, 81, 84, 88, 97, 105, 109, 114, 122, 125, 128, 139, 146, 153. Estime los par´ ametros utilizando el m´etodo de percentiles, usando los percentiles 20th y 70th . 15. Se practican n mediciones del radio de un c´ırculo. Si las mediciones son independientes entre s´ı y los errores se distribuyen N (0, σ 2 ) con σ 2 desconocida, proponer un estimador insesgado para el per´ımetro del c´ırculo y otro para el ´ area. 16. Sea X1 , X2 , X3 , X4 una muestra aleatoria de tama˜ no cuatro de una poblaci´ on con distribuci´ on N (0, σ 2 ), donde σ es desconocida. Considere los siguientes estimadores T1 = X12 − X2 + X4 , T2 = 31 (X12 + X22 + X42 ), P4 P4 ¯ 2 y T5 = 1 |X1 − X2 |. T3 = 41 i=1 Xi2 , T4 = 13 i=1 (Xi − X) 2 (a) ¿T1 , T2 , T3 , T4 son insesgados? (b) De entre T1 , T2 , T3 , T4 , ¿cu´ al tiene el menor error cuadr´atico medio? (c) ¿T5 es un estimador insesgado para σ? Si no lo es, encuentre un m´ ultiplo de T5 que lo sea. Calcule el error cuadr´atico medio de T5 .
176
´ n puntual 4. Estimacio
17. Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´on con funci´on de densidad con media µ y varianza σ 2 . Pn (a) Pruebe que i=1 ai Xi es un estimador insesgado para µ para cualquier valor de las constantes a1 , a2 , . . . , an que satisfagan que Pn a = 1. i=1 i Pn Pn (b) Si i=1 ai = 1, prueba que V ar [ i=1 ai Xi ] se minimiza cuando ai = 1/n, para i = 1, . . . , n. 18. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con funci´on de densidad 2x f (x; θ) = 2 I(0,θ) (x), θ > 0. θ (a) Estime θ por el m´etodo de momentos. Llame a este estimador T1 . Encuentre su media y su ECM. (b) Encuentre el estimador m´ aximo veros´ımil de θ. Llame a este estimador T2 . Encuentre su media y su ECM. (c) De entre todos los estimadores de la forma aYn , donde a es un valor constante que depende de n y Yn = m´ax{X1 , . . . , Xn }, encuentre un estimador para θ con error cuadr´atico medio uniformemente m´ as peque˜ no. Llame a este estimador T3 . Encuentre su media y su ECM de T3 . (d) Encuentre un UMVUE de θ. Nombre a este estimador T4 . Encuentre su media y su ECM. (e) Define T5 = (Y1 + Yn )/2, donde Y1 = m´ın{X1 , . . . , Xn } y Yn = m´ ax{X1 , . . . , Xn }. Encuentre su media y su ECM. ¿Qu´e estimador de θ preferir´ıa y por qu´e? 19. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on W eibull(α, β), cuya funci´ on de densidad es β 1 −x fX (x; α) = βxβ−1 exp I(0,∞) (x), α α donde α > 0 es un par´ ametro desconocido, pero β > 0 se supone conocido. Encuentre los estimadores m´ aximo veros´ımiles de α, α2 y α1 y demuestre que son consistentes en ECM. 20. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on tal que E (Xi ) = θ + b, V ar (Xi ) = σ 2 ,
177
4.6. Ejercicios
donde b 6= 0, es una constante conocida. Pruebe que X no es un estimador consistente en error cuadr´ atico medio para θ. Construya un estimador insesgado para θ que sea consistente. 21. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on P areto(α, θ), cuya funci´ on de densidad es f (x; θ) =
αθα , x > θ, θ > 0, xα+1
con α conocida. (a) Encuentre el estimador m´ aximo veros´ımil para θ. ¿Es este un estimador insesgado para θ? Si la respuesta es negativa, encontrar el estimador insesgado. (b) Encuentre el estimador por el m´etodo de momentos para θ. Nuevamente verifique si el estimador es insesgado; en caso contrario, obtenga el estimador insesgado. (c) ¿Son consistentes los estimadores obtenidos en los incisos anteriores? 22. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on Bernoulli(θ), donde x ∈ {0, 1} y 0 ≤ θ ≤ 21 . Note que el espacio param´etrico es Θ = {θ : 0 ≤ θ ≤ 12 }. (a) Encuentre el estimador de θ por medio del m´etodo de momentos. Calcule su media y su ECM. (b) Encuentre el estimador m´ aximo veros´ımil de θ. Calcule su media y su ECM. (c) ¿Los estimadores son consistentes en ECM? (d) ¿Qu´e estimador es m´ as eficiente en ECM? 23. Sea X1 , . . . , Xn una muestra aleatoria discreta de la poblaci´on con distribuci´ on P oisson(λ), donde x ∈ {0, 1, 2, . . .} y 0 < λ ≤ 2. Note que el espacio param´etrico es Θ = {λ : 0 < λ ≤ 2}. (a) Encuentre el estimador de λ por el m´etodo de momentos. Calcule su media y su ECM. (b) Encuentre el estimador m´ aximo veros´ımil de λ. Calcule su media y su ECM. (c) ¿Los estimadores son consistentes en ECM?
178
´ n puntual 4. Estimacio
24. Considere las siguientes funciones de densidad: f1 (x; p) = px (1 − p)1−x I{0,1} (x) donde 0 < p < 1, log(θ) I(0,1) (x) donde θ > 1. θ−1 En cada caso, para una muestra aleatoria de tama˜ no n, ¿existir´an estad´ısticas T1 (X) y T2 (X) para ciertas funciones τ1 (p) y τ2 (θ), para las cuales la varianza de Ti (X), i = 1, 2, coincidan con la CICR? f2 (x; θ) = θx
25. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on N (θ, 1). (a) Encuentre la CICR para la varianza de los estimadores insesgados de τ1 (θ) = θ, τ2 (θ) = θ2 y τ3 (θ) = P(X > 0). (b) ¿Existe un estimador insesgado para τ2 (θ) = θ2 ?. Si es as´ı, encu´entrelo. (c) ¿Existe un estimador insesgado para τ3 (θ) = P(X > 0)? Si es as´ı, encu´entrelo. (d) Encuentre el UMVUE para τ2 (θ) = θ2 . 26. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on Beta(θ, 1), donde θ > 0, es decir, con funci´on de densidad f (x; θ) = θxθ−1 I(0,1) (x). (a) Encuentre el estimador m´ aximo veros´ımil de τ (θ) = θ/(1 + θ). (b) Encuentre una estad´ıstica suficiente, y compruebe si es completa. Pn Pn (c) ¿Es S = i=1 Xi una estad´ıstica suficiente?. ¿Es S = i=1 Xi una estad´ıstica completa? (d) ¿Existe una funci´ on de θ, τ (θ), para el cual exista una estimador insesgado cuya varianza coincida con la CICR? Justifique. (e) Encuentre un UMVUE para las siguientes funciones de θ: (i) τ (θ) = θ (ii) τ (θ) = 1/θ (iii) τ (θ) = θ/(1 + θ) 27. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on Bernoulli(p), con p ∈ (0, 1) con n ≥ 3. Pn (a) Sea U = i=1 Xi . Calcule E(X1 |U = u) y obtenga E(X1 |U ).
179
4.6. Ejercicios
(b) Use el teorema de Rao-Blackwell para mejorar el estimador T1 (X) de τ1 (p) = p2 , dado por T1 (X) = X1 X2 . (c) Use el teorema de Rao-Blackwell para mejorar el estimador T2 (X) de τ2 (p) = p2 (1 − p) , dado por T2 (X) = X1 X2 (1 − X3 ). 28. Sea X1 , . . . , Xn una muestra aleatoria de distribuci´on P oisson(λ), con λ > 0 y n ≥ 2. (a) Use el teorema de Rao-Blackwell para mejorar el estimador T1 (X) de τ1 (λ) = λ, dado por T1 (X) =
1 (X1 + X2 ). 2
(b) Use el teorema de Rao-Blackwell para mejorar el estimador T2 (X) de τ2 (λ) = e−λ , dado por T2 (X) = I{0} (X1 ), (llegar´ a a 1−
1 n
Pn
i=1
Xi
).
(c) Use el teorema de Rao-Blackwell para mejorar el estimador T3 (X) de τ3 (λ) = λe−λ , dado por T3 (X) = I{1} (X1 ). 29. Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´on con funci´on de densidad 1 f (x; θ) = I(−θ,θ) (x), θ > 0. 2θ Encuentre, si existe, el UMVUE para θ. 30. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´ on U (0, θ). Sean Y1 y Yn la m´ınima y m´axima estad´ısticas de orden, respectivamente. (a) Encuentre el estimador por momentos para θ. Llame T1 a dicho estimador y encuentre su media y error cuadr´atico medio. (b) Encuentre el estimador m´ aximo veros´ımil de θ. Llame T2 a dicho estimador y encuentre su media y error cuadr´atico medio.
180
´ n puntual 4. Estimacio (c) De entre todos los estimadores de la forma aYn , donde a es una constante que podr´ıa depender de n. Encuentre un estimador para θ que tenga el error cuadr´ atico medio uniformente m´as peque˜ no. Llame T3 a dicho estimador y encuentre su media y error cuadr´atico medio. (d) Encuentre el UMVUE de θ. Llame T4 a dicho estimador y encuentre su media y error cuadr´ atico medio. (e) Sea T5 = Y1 + Yn . Encuentre su media y error cuadr´atico medio. (f) Diga ventajas y desventajas de los estimadores T1 , . . . , T5 .
31. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con funci´on de densidad θ I(0,∞) (x), θ > 0 f (x; θ) = (1 + x)1+θ (a) Encuentre el estimador por momentos para θ suponiendo que θ > 1. (b) Encuentre el estimador m´ aximo veros´ımil de τ (θ) = 1/θ. (c) Encuentre una estad´ıstica suficiente y completa (si es que existe). (d) Encuentre la CICR para los estimadores insesgado de τ (θ) = 1/θ. (e) ¿Existe el UMVUE de τ (θ)? Si es as´ı, encu´entrelo. (f) ¿Existe el UMVUE de θ? Si es as´ı, encu´entrelo. 32. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con funci´on de densidad f (x; µ) = e−(x−µ) I(µ,∞) (x), µ ∈ R. (a) Demuestre que T (X) = X(1) = m´ın {X1 , . . . , Xn } es una estad´ıstica suficiente y completa. (b) Encuentre la u ´nica funci´ on de X(1) que sea el UMVUE de µ. 33. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on P oisson(λ). Sea τ (λ) = (1 + λ)e−λ . (a) Obtenga el estimador m´ aximo veros´ımil para τ (λ). (b) Obtenga un estimador insesgado para τ (λ). (c) Obtenga un UMVUE para τ (λ). Sugerencia: encuentre un estimador insesgado de τ (λ) y utilice el teorema de Rao-Blackwell para mejorarlo.
4.6. Ejercicios
181
34. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on Geom´etrica(θ) con funci´ on de densidad P(X = x) = θ(1 − θ)x , x = 0, 1, 2, . . . , 0 < θ < 1. (a) Obtenga el estimador por el m´etodo de momentos para θ. (b) Obtenga el estimador m´ aximo veros´ımil para θ. (c) Calcule la CICR para la varianza de los estimadores insesgados de θ. (d) Encuentre un UMVUE para θ. 35. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on N (θ, θ2 ), θ ∈ R. (a) ¿Existe una estad´ıstica suficiente unidimensional para θ? (b) Encuentra una estad´ıstica suficiente bidimensional para θ. ¯ un UMVUE para θ? (c) ¿Es X (d) ¿θ es un par´ ametro de localizaci´ on o escala? 36. Sea T una variable aleatoria que toma valores en {0, 1, 2, ..., 6} y sean g1 (t) y g2 (t) dos densidades que corresponden a: La primera, g1 (t) es la probabilidad de que, de 5 monedas lanzadas al aire, el n´ umero de ´ aguilas observadas, T sea igual a t. La segunda, g2 (t) es la probabilidad de que al lanzar un dado numerado del 1 al 6, T, la cara que qued´ o hacia arriba, sea igual a t. Como una convenci´ on se denotar´ a por f (t; θ1 ) = g1 (t) y de manera similar f (t; θ2 ) = g2 (t), as´ı, sin ni siquiera especificar la naturaleza de θ1 y de θ2 . El espacio param´etrico ser´a Θ = {θ1 , θ2 } con s´olo dos elementos. a) Se observ´ o t = 1. Exhiba la estimaci´ on m´aximo veros´ımil de θ ∈ Θ. b) Repita el inciso anterior si lo que se observ´o fue t = 2. c) Observe que sucede algo que es muy raro en planteamientos estad´ısticos: hay dos valores de t para los cuales al hacer la estimaci´ on m´ aximo veros´ımil de θ, parece que se puede tener la certeza de que en esos dos casos, ahora s´ı, la estimaci´on se convierte en identificaci´ on (del verdadero valor de θ). Diga cu´ales son esos dos valores y explique porqu´e hay identificaci´on.
Cap´ıtulo 5
Estimaci´ on por intervalos Es usual iniciar el estudio de la inferencia estad´ıstica con el planteamiento de estimaci´ on puntual para el par´ ametro (o los par´ametros) de una distribuci´ on. La perspectiva que se analiz´ o en el cap´ıtulo anterior no precisa qu´e tan cerca del par´ ametro se encuentra la estimaci´on, sin embargo, es posible medir el error en t´erminos de la variaci´ on muestral o error est´andar de dicho estimador; en este caso se habla de un margen de variaci´on para el valor que el par´ ametro puede tomar. En esta parte se abordar´ a otro enfoque: el planteamiento de estimaci´ on por intervalos. Para inferir respecto a una caracter´ıstica de la poblaci´on, se prefiere ahora proponer un rango de valores que tenga la posibilidad de contener al par´ ametro. Esto se logra generalmente mediante un intervalo que es entendido como un conjunto de valores (calculado a partir de los datos de una muestra) en el cual puede encontrarse el verdadero valor del par´ametro con un determinado nivel de certeza o confianza. Se comenzar´a introduciendo el concepto de intervalo de confianza.
5.1.
Intervalos de confianza
Es com´ un que en los medios de comunicaci´ on como radio, televisi´on, revistas o peri´ odicos, as´ı como en redes sociales, se presenten resultados de estudios estad´ısticos de los temas m´ as diversos. Las conclusiones suelen presentarse con frases como la siguiente: “El estudio muestra que en el 75 % de los casos se experimenta una mejor´ıa (de cierta enfermedad), siendo el margen de error del 6 % y el nivel de confianza del 95 %”. El c´alculo de intervalos de confianza para la estimaci´ on de par´ ametros permite hacer declaraciones 183
184
´ n por intervalos 5. Estimacio
sobre qu´e valores se pueden esperar para una caracter´ıstica que se est´e estudiando; aunque, a diferencia de la estimaci´ on puntual, se habla de un nivel de confianza que tendr´ a una influencia en el intervalo calculado: intuitivamente la confianza se refiere a la certeza con la que el m´etodo dar´a una respuesta correcta, y por lo tanto se pedir´ a que ese nivel de confianza sea alto. Replanteando el problema de encontrar un rango de valores para θ, se tiene lo siguiente: si θ ∈ Θ ⊆ R (el espacio param´etrico) y se quiere disminuir el grado de desconocimiento de θ en f (x; θ), se debe seleccionar un subconjunto Θ1 de Θ en el cual pueda afirmarse, con un margen de error peque˜ no, que se encuentra el valor de θ que caracteriza la distribuci´on de la poblaci´on. Por ejemplo, suponga que se tiene una muestra aleatoria X1 , . . . , Xn de una poblaci´ on con distribuci´ on N (µ, σ 2 ), con σ 2 conocida y µ desconocida y se ¯ tiene distribuci´on desea estimar el par´ ametro µ. La estad´ıstica T (X) = X 2 N (µ, σ /n), entonces, Z :=
¯ −µ X √ ∼ N (0, 1). σ/ n
Note que P[−1.96 < =
Z < 1.96] = φ(1.96) − φ(−1.96) = φ(1.96) − (1 − φ(1.96)) 2φ(1.96) − 1 = 2(0.9725) − 1 = 0.95.
A partir de que se sabe que P[−1.96 < Z < 1.96] = 0.95, se obtiene lo siguiente: ¯ −µ X √ < 1.96, −1.96 < σ/ n si y s´ olo si
si y s´ olo si
σ ¯ − µ < 1.96 √σ , −1.96 √ < X n n ¯ − 1.96 √σ < µ < X ¯ + 1.96 √σ , X n n
de donde σ σ ¯ ¯ √ √ P X − 1.96 < µ < X + 1.96 = 0.95. n n Lo que indica la expresi´ on σ σ ¯ ¯ P X − 1.96 √ < µ < X + 1.96 √ = 0.95, n n
5.1. Intervalos de confianza
185
es que hay una probabilidad de 0.95 de obtener una muestra tal que el intervalo σ σ ¯ ¯ √ √ , X + 1.96 , X − 1.96 n n incluya al valor de µ. Esto motiva la definici´ on 5.1 de intervalo aleatorio que se ver´ a posteriormente, aunque en este momento, y haciendo referencia al ejemplo anterior, se puede adelantar que un intervalo en el que al menos uno de los extremos es una variable aleatoria se llama intervalo aleatorio. ¯ para establecer la conclusi´on anterior, Una vez usada la distribuci´ on de X se obtiene un valor particular de x ¯, con base en una muestra, y se determina el intervalo num´erico σ σ x ¯ − 1.96 √ , x ¯ + 1.96 √ . (5.1) n n En este caso no tiene sentido hablar de la probabilidad de que el intervalo contenga al par´ ametro, ya que no hay ninguna variable aleatoria. Ahora, el 0.95 expresa el margen de confianza con el que se puede afirmar que el valor desconocido de µ est´ a entre los extremos del intervalo que ya est´ a fijo, en el sentido de que repitiendo el muestreo un gran n´ umero de veces, se obtendr´ıan intervalos distintos, entre los cuales aproximadamente el 95 % de estos intervalos contienen el valor correcto de µ. Por lo tanto, el intervalo num´erico x ¯ − 1.96 √σn , x ¯ + 1.96 √σn se llama intervalo de confianza para µ con un nivel del 95 %. Observaci´ on 5.1 Un ejercicio para analizar el concepto de intervalo de confianza consiste en simular algunas muestras de una determinada poblaci´on normal, calcular los intervalos correspondientes a un cierto nivel de confianza y observar la proporci´ on de estos intervalos que contienen al verdadero valor de la media. El resultado de un ejercicio de simulaci´ on se muestra resumido en las gr´ aficas de la figura 5.1, en donde se ha utilizado la expresi´on (5.1) para el c´ alculo de los intervalos. Cada una de las gr´ aficas representa intervalos correspondientes a 100 muestras para diferentes tama˜ nos de muestra, todas con µ = 100. El ejercicio se hizo utilizando el software estad´ıstico R. Las l´ıneas en negro representan los intervalos que no contienen al verdadero valor de la media µ en cada uno de los casos considerados. Se us´ o un nivel de confianza del 95 %.
186
´ n por intervalos 5. Estimacio
85
90
95 100
110
100 0
20
40
60
80
100 80 60 40 20 0
0
20
40
60
80
100
As´ı, la primera gr´ afica representa los intervalos correspondientes a 100 muestras de tama˜ no 10 de una distribuci´ on normal con media igual a 100 y σ = 10.
85
90
95 100
110
85
90
95 100
110
Figura 5.1: Intervalos correspondientes a 100 muestras para tama˜ nos de muestra 10, 30 y 50, respectivamente y desviaci´on est´andar de 10. Si se desea un intervalo del 99 % de confianza en este caso de la distribuci´ on normal, primero se debe observar que: P[−2.576 < Z < 2.576] = 0.99. Entonces, a partir de la expresi´ on anterior, se obtiene que σ σ ¯ + 2.576 √ x ¯ − 2.576 √ , x n n es un intervalo del 99 % de confianza para µ. Note que a mayor nivel de confianza, mayor es la longitud del intervalo. Usualmente se fija un nivel de confianza y entonces se genera el intervalo.
187
5.1. Intervalos de confianza
¯ + 1.96 √σn no Observe tambi´en que en el primer ejemplo x ¯ − 1.96 √σn , x es el u ´nico intervalo del 95 % de confianza para µ, pues por ejemplo, tambi´en P[−1.74 < Z < 2.37)]
= φ(2.37) − φ(−1.74) = φ(2.37) − 1 + φ(1.74) = 0.95.
Sin embargo, el de longitud m´ınima es el originado por P[−1.96 < Z < 1.96] = 0.95. En general, si para este caso de la distribuci´on N µ, σ 2 , se tiene que: ¯ −µ X √ < b = γ, P a< σ/ n entonces, a
0 y a0 ≤ x∗ ≤ b0 , donde x∗ es la moda de f (x) as f (x) es sim´etrica, entonces a0 = . Si adem´ F −1 α2 y b0 = F −1 1 − α2 . Demostraci´ on. Se trata de minimizar la longitud b − a sujeta a F (b) − F (a) = 1 − α. Usando multiplicadores de Lagrange, se define: L (a, b, λ) = b − a + λ(1 − α − F (b) + F (a)), de donde:
∂L = 1 − λf (a) = 0, ∂a ∂L = 1 − λf (b) = 0 ∂b
y 1 − α − F (b) + F (a) = 0. De las primeras dos ecuaciones se obtiene que f (a) = f (b) > 0. Si x∗ ∈ / [a, b] y f (a) = f (b), entonces b − a > b0 − a0 , pues f (x) es unimodal y F (b) − F (a) = F (b0 ) − F (a0 ) . As´ı, por ejemplo, si la cantidad pivotal tiene una distribuci´on Ji-cuadrada, los cuantiles de orden α/2 y 1 − α/2 de esta distribuci´on contendr´an a la moda de la distribuci´ on para α peque˜ no. Por facilidad de c´alculos suele usarse α/2 y 1 − α/2, pero si se desea obtener el intervalo m´as corto se tendr´ıan que buscar a y b tales que f (a) = f (b). Algunos ejemplos Ejemplo 5.2 Suponga que se tiene una variable aleatoria con una distribuci´ on Exponencial con par´ ametro λ = θ1 . Obtenga un intervalo del 90 % de confianza para θ. Como X ∼ Exponencial(1/θ), sus funciones de densidad y de distribuci´on son, respectivamente, f (x; θ)
=
FX (x)
=
1 −x/θ e , θ 1 − e−x/θ ,
191
5.1. Intervalos de confianza con x > 0 y θ > 0. Sea Y =
X θ ,
entonces
FY (y)
P [Y ≤ y] X = P ≤y θ = P [X ≤ θy] =
=
FX (θy),
que implica que Y ∼ Exponencial(1). Por lo tanto Y = X θ puede ser una cantidad pivotal ya que es una funci´ on de la muestra X y del par´ametro θ, y su distribuci´ on no depende de θ. As´ı que el intervalo del 90 % de confianza para θ puede determinarse a partir de X < b = 0.90, P a< θ donde P
X b = θ
P [X > bθ]
=
e−b = 0.05
lo que implica que b = − log(0.05) = 2.996, entonces X < 2.996 , 0.051 < θ X X 1−α/2 (n − 1)S 2 χn−1
! = 1 − α,
si y s´ olo si P
(n − 1)S 2 1−α/2
χn−1
2
0, a y b tales que 0 < a < b, y √ √ P [−c ≤ Q1 ≤ c] = 1 − α y P [a ≤ Q2 ≤ b] = 1 − α. Se sigue que √ ¯ (n − 1)S 2 n(X − µ) ≤ c, a ≤ ≤ b Pµ,σ −c ≤ σ σ2 √ ¯ n(X − µ) (n − 1)S 2 = Pµ,σ −c ≤ × Pµ,σ a ≤ ≤ b σ σ2 = 1 − α, de donde la regi´ on del (1 − α) × 100 % de confianza para (µ, σ 2 ) satisface (n − 1)S 2 c2 σ 2 (n − 1)S 2 2 2 ¯ , ≤σ ≤ Pµ,σ (µ − Xn ) ≤ = 1 − α. n b a
5.2.4.
Intervalo para la diferencia de medias de poblaciones normales independientes
Sean X1 , . . . , Xn una muestra aleatoria de la distribuci´on N (µx , σx2 ) y Y1 , . . . , Ym una muestra aleatoria de la distribuci´on N (µy , σy2 ) donde Yj y Xi son independientes. Caso 1: σx2 y σy2 conocidas. ¯ ∼ N (µx , σx2 /n) y Y¯ ∼ N (µy , σy2 /m), entonces Se sabe que X ! 2 σy2 σ x ¯ − Y¯ ∼ N µx − µy , + . X n m Por tanto,
¯ − Y¯ − (µx − µy ) X q ∼ N (0, 1). 2 σy2 σx + n m
´ n normal 5.2. Intervalos para muestras de la distribucio
205
Entonces, la cantidad pivotal est´ a dada por Q=
¯ − Y¯ − (µx − µy ) X q . 2 σy2 σx + n m
De aqu´ı que P −z1−α/2 < Q < z1−α/2 = 1 − α, si y s´ olo si P −z1−α/2
¯ − Y¯ − (µx − µy ) X q < < z1−α/2 = 1 − α, 2 σy2 σx n + m
si y s´ olo si r P −z1−α/2
σy2 σx2 ¯ − Y¯ − (µx − µy ) < z1−α/2 + fm,n Q 1 1−α/2 < fm,n = 1−P Q α α = , = 1− 1− 2 2
(5.8)
se tiene que α/2 fn,m =
1 1−α/2 fm,n
.
(Note que en (5.8) se ha utilizado el hecho de que si Q ∼ F(n,m) , entonces 1 Q ∼ F(m,n) ). Por lo anterior, el intervalo (5.7) puede reescribirse de la siguiente manera: ! Sx2 1 Sx2 1−α/2 , fm−1,n−1 2 . 1−α/2 Sy2 Sy f n−1,m−1
En general, para obtener intervalos para los par´ametros de un poblaci´on Normal, se pueden usar las expresiones que acaban de deducirse, sustituyendo los correspondientes valores de los datos. A manera de ilustraci´on, suponga que el di´ ametro de una cisterna en la mayor´ıa de los casos es cercano a 3 metros. Se tiene un conjunto de mediciones de 12 cisternas salidas de la f´ abrica y se desea obtener un intervalo de confianza para la varianza
5.3. Intervalos de confianza para muestras grandes
211
σ 2 , suponiendo que el di´ ametro es una variable aleatoria normalmente distribuida. Los datos correspondientes a los di´ ametros de las 12 cisternas a las que se hace referencia son: 3.01, 3.05, 2.99, 2.99, 3.0, 3.02, 2.98, 2.99, 2.97, 2.97, 2.02, 3.01. Se dedujo que: (n − 1)S 2 (n − 1)S 2 , 1−α/2 α/2 χn−1 χn−1
!
es un intervalo del 100(1 − α) % de confianza para σ 2 . En este caso n = 12, 1 − α = 0.99, α = 0.01 y Pn
S2 =
2
(xi − x) = 0.0005455. n−1
n=1
Adem´ as, χ0.995 = 26.8, χ0.005 = 2.60, 11 11 de esta manera el intervalo final queda como (0.0002246, 0.00230791) .
5.3.
Intervalos de confianza para muestras grandes
En esta secci´ on se usar´ a la propiedad asint´ otica de los estimadores m´aximo veros´ımiles, la cual establece que si θbM V es el estimador m´aximo veros´ımil de θ, en f (x; θ) que cumple las condiciones de regularidad, entonces cuando n → ∞, 1 b θM V ∼ N θ, IX (θ) y, de manera m´ as general, τd (θ)M V = τ θbM V ∼ N (τ (θ) , CICR) , donde CICR representa la Cota Inferior de Cramer y Rao para estimadores insesgados de τ (θ) . A partir de estos resultados, puede construirse una cantidad pivotal para el par´ ametro de inter´es.
212
´ n por intervalos 5. Estimacio
Ejemplo 5.8 Sea X1 , ..., Xn una muestra aleatoria de la distribuci´on Exponencial (θ) . Encontrar un intervalo del 100(1 − α) % de confianza para θ. 1 , mienEl estimador m´ aximo veros´ımil de θ est´a dado por θbM V = X n tras que la informaci´ on esperada de Fisher es IX (θ) = θ2 . Entonces por la propiedad asint´ otica de los estimadores m´ aximo veros´ımiles, se tiene que θ2 1 ∼ N θ, n X por lo que 1 X
−θ q ∼ N (0, 1) , θ2 n
que puede reescribirse como
Q=
√ 1 n X −θ
As´ı, P −z1− α2 ≤
θ √ 1 n X −θ θ
∼ N (0, 1) .
≤ z1− α2 = 1 − α,
si y s´ olo si "
−z1− α2 √ P ≤ n
1 X
−θ θ
z1− α ≤ √ 2 n
# = 1 − α,
si y s´ olo si P
−z1−α/2 z1−α/2 1 √ +1≤ ≤ √ +1 n n θX
= 1 − α,
o P de donde:
−z1−α/2 z1−α/2 1 √ √ +1 X ≤ ≤ + 1 X = 1 − α, θ n n √
! √ n n , √ , √ x n + z1−α/2 x n − z1−α/2
es un intervalo del (1 − α) % de confianza para θ.
5.3. Intervalos de confianza para muestras grandes
213
Ejemplo 5.9 Sea X la media muestral de una muestra aleatoria de tama˜ no n = 25 de una distribuci´ on Gama(α, λ) con α = 4 y λ = β1 > 0. Use el teorema del l´ımite central para obtener un intervalo de confianza para la media de la distribuci´ on Gama con un coeficiente de confianza de 0.954. Por el teorema del l´ımite central se sabe que X −E X q ∼ N (0, 1), Var X donde E X = Var X
=
1 nE [X] = αβ = 4β, n 1 1 1 nVar (X) = αβ 2 = 4β 2 , n2 n n
entonces se desea encontrar un intervalo del 95.4 % de confianza para 4β. Por el teorema del l´ımite central se sabe que X − 4β q ∼ N (0, 1), 1 2 4β n que implica que X − 4β q = 1 2β n
√
√ nX − 2 n ∼ N (0, 1), 2β
y adem´ as los cuantiles (1 − 0.954)/2 y 1 − (1 − 0.954)/2 de una distribuci´on Normal(0, 1) son −1.995393 y 1.995393, los cuales se aproximar´an a −2 y 2, entonces, √ √ nX −2 n 0 y θ > 0. (a) Sea (X, 2X) un intervalo de confianza para 1/θ. ¿Cu´al es su nivel de confianza? (b) Encuentre otro intervalo de confianza para 1/θ que tenga el mismo nivel de confianza que el intervalo de (a), pero con menor longitud esperada. 6. Considere una sola observaci´ on X de las siguientes distribuciones. Dado α ∈ (0, 1), encuentre un intervalo del 100(1 − α) % de confianza para θ. (a) Laplace-localizaci´ on fX (x; θ) =
1 −|x−θ| e IR (x) , θ ∈ R. 2
(b) Cauchy fX (x; θ) =
1 1 IR (x) , θ ∈ R. π 1 + (x − θ)2
(c) Laplace-escala fX (x; θ) =
1 −|x|/θ e IR (x) , θ ∈ R+ . 2θ
7. Sea X1 , X2 , X3 , X4 una muestra aleatoria de tama˜ no 4 de una poblaci´ on con distribuci´ on U (0, θ). Sea Y(4) la m´axima estad´ıstica de orden. Sean 0 < κ1 < κ2 ≤ 1 constantes tales que P(κ1 θ < Y(4) < κ2 θ) = 0.95. √ Verifique que κ1 = 4 0.05 y κ2 = 1 satisfacen estas condiciones. ¿Cu´al es entonces un intervalo del 95 % de confianza para θ?
221
5.5. Ejercicios
8. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on U (0, θ). Sea Y = m´ axi=1,...,n {Xi }. Pruebe que Y /θ es una cantidad pivotal, y muestre que el intervalo (Y, Y α−1/n ) es el intervalo del (1 − α)100 % de confianza para θ con menor longitud. 9. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con funci´on de densidad 1 f (x; θ, σ) = e−(x−θ)/σ I(θ,∞) (x), σ donde θ ∈ R y σ ∈ R+ . Sea α ∈ (0, 1). (a) Si θ es conocido, encuentre un intervalo Pn del 100(1 − α) % de confianza para σ. [Sugerencia: considere i=1 (Xi −θ), o una peque˜ na modificaci´ on del mismo.] (b) Si θ es desconocido, encuentre un intervalo Pn del 100(1 − α) % de confianza para σ. [Sugerencia: considere i=1 (Xi − X(n) ), o una peque˜ na modificaci´ on del mismo.] 10. Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´on con distribuci´ on Exponencial(θ), cuya funci´ on de densidad es fXi (x) = θe−θx I(0,∞) (x). (a) Encuentre un intervalo del 100(1−α) % de confianza para la media de la poblaci´ on. (b) Encuentre un intervalo del 100(1 − α) % de confianza para la varianza de la poblaci´ on. (c) Encuentre una cantidad pivotal basada u ´nicamente en Y1 , donde Y1 = m´ın{X1 , . . . , Xn }, yu ´sela para encontrar un estimador de intervalo para θ. 11. Sea Y1 , . . . , Yn una muestra aleatoria de tama˜ no n de una poblaci´on con distribuci´ on Uniforme en el intervalo (0, 1/θ). Encuentre un intervalo del 95 % de confianza para θ. 12. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on Gama(α, β). Si α es una constante conocida, obtenga un intervalo de confianza para la media µ = αβ. 13. Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´on con distribuon de densidad es fX (x; θ) = 1 para ci´ on U (θ − 21 , θ + 12 ), cuya funci´ θ− 21 < x < θ+ 12 . Sean Y1 ≤ · · · ≤ Yn sus correspondientes estad´ısticas de orden.
222
´ n por intervalos 5. Estimacio (a) Muestre que [Y1 , Yn ] es un intervalo de confianza para θ. (b) Calcule su longitud esperada, es decir, E[Yn − Y1 ]. (c) Encuentre su nivel de confianza.
14. Sean X1 , X2 , . . . , Xn variables aleatorias independientes de una poblaci´ on con funci´ on de densidad fXi (xi ; θ) = eiθ−xi , donde xi > iθ. (a) Obtenga una estad´ıstica S que sea suficiente para θ. (b) Obtenga una cantidad pivotal Q que sea funci´on de S. (c) Encuentre un intervalo del (1 − α)100 % de confianza para θ de la forma [S + a, S + b] tal que tenga menor longitud. 15. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con funci´on de densidad kxk−1 I(0,θ) (x) fX (x; θ) = θk donde θ > 0 y k es un entero positivo. Encuentre un intervalo del (1 − α)100 % de confianza para θ. 16. ¿Qu´e tan grande debe ser una muestra si se desea construir un intervalo de confianza del 99 % para la desviaci´on est´andar de una poblaci´on normal si se desea que la desviaci´ on est´andar muestral no difiera en m´ as del 2 % de la desviaci´ on poblacional? 17. Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´on con distribuci´ on N (µ, σ 2 ). (a) Si σ 2 es conocida. Encuentre el valor m´ınimo de n que garantice que el intervalo del 95 % de confianza para µ tendr´a longitud no mayor que σ/4. (b) Si σ 2 es desconocida. Encuentre el valor m´ınimo de n que garantice que, con probabilidad 0.90, el intervalo del 95 % de confianza para µ tendr´ a longitud no mayor que σ/4. 18. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on N (µ, σ 2 ). Sean 0 < a < b. Demuestre que la esperanza de la longitud del intervalo Pn Pn 2 2 i=1 (Xi − µ) i=1 (Xi − µ) , b a 2
es (b − a) nσ ab .
223
5.5. Ejercicios
¯ y Y¯ las medias de dos muestras aleatorias independientes entre 19. Sean X s´ı, cada una de tama˜ no n, de las distribuciones N (µx , σ 2 ) y N (µy , σ 2 ), respectivamente, donde la varianza com´ un es conocida. Encuentre n tal que ¯ − Y¯ + σ = 0.9. ¯ − Y¯ − σ < µx − µy < X P X 5 5 20. Considere X una variable aleatoria tal que X ∼ N (0, σ 2 ), donde σ > 0 es un par´ ametro desconocido. Considere el siguiente intervalo de confianza (|X|, 10|X|) para σ. (a) Calcule P(|X| ≤ σ ≤ 10|X|). (b) ¿Cu´ al es la longitud esperada de dicho intervalo? 21. Se desea hacer una comparaci´ on entre dos tratamientos para el SIDA. Se mide el tiempo de supervivencvia (en a˜ nos) de cada uno de estos tratamientos en siete pacientes seleccionados aleatoriamente. La informaci´ on se detalla en la siguiente tabla. Paciente Tratamiento 1 Tratamiento 2
1 3.1 1.8
2 3.3 2.3
3 1.7 2.2
4 1.2 3.5
5 0.7 1.7
6 2.3 1.6
7 2.9 1.4
Construya un intervalo del 80 % de confianza para la diferencia de medias. ¿Se necesita hacer alguna suposici´on adicional? 22. Se realiz´ o un estudio para determinar si la variabilidad en la presi´on arterial de hombres y mujeres es la misma o no. Se seleccion´o aleatoriamente a 13 mujeres y a 16 hombres, se les midi´o la presi´on arterial (en mil´ımetros de mercurio) y los resultados fueron los siguientes: Hombres Mujeres
120 124 122 102
120 125 102 122
118 130 118 120
112 100 126 118
120 120 108 130
114 108 130
130 112 104
114 122 116
¿Se puede concluir con un 95 % de confianza que la variabilidad de la presi´ on arterial de hombres y mujeres es la misma? ¿Se necesitan hacer suposiciones adicionales? ¯ y Y¯ las medias muestrales, y S 2 y S 2 los estimadores insesgados 23. Sean X x y de la varianza, obtenidos de dos muestras independientes cada una de tama˜ no 7 de dos poblaciones normales con varianza com´ un σ 2 y media
224
´ n por intervalos 5. Estimacio desconocida. Encuentre k ∈ R, tal que ( ) ! Sx2 Sy2 P m´ ax , > κ = 0.05. Sy2 Sx2
24. Se miden los tiempos de compra de 61 compradores seleccionados aleatoriamente. Si estos tiempos tienen una distribuci´on normal, encuentre un intervalo del 95 % de confianza para µ si x ¯ = 33 y s2 = 256. 25. Se cuenta con dos grupos similares de pacientes, A y B, que consisten de 50 y 100 individuos, respectivamente. Al grupo A se le administr´o una nueva pastilla para dormir y a la segunda una pastilla para dormir ya existente. En el grupo A, el n´ umero promedio de horas de sue˜ no fue de 7.82 con una desviaci´ on est´ andar de 15 minutos. En el grupo B, el n´ umero promedio de horas de sue˜ no fue de 6.75 con una desviaci´ on est´ andar de 18 minutos. Construya intervalos del 95 % y 99 % de confianza para la diferencia de las horas promedio dormidas. 26. Los siguientes datos representan el tiempo de vida u ´til de un art´ıculo, medido en d´ıas: 29.1, 207.6, 81.8, 0.8, 76.1, 108.9, 48.4, 108.1, 52.2, 272.8, 150.5, 80.3, 97.4, 11.5, 46.2, 144.1, 62.5, 262.9, 247.6, 4.1. Este tiempo se supone distribu´ıdo como una Exponencial con media θ, es decir, Exponencial(1/θ). (a) Encuentre un intervalo de confianza exacto al 95 % para la media de esta distribuci´ on Exponencial. (b) Encuentre un intervalo de confianza aproximado al 95 % para esta media utilizando teor´ıa asint´ otica. (c) Encuentre un intervalo de confianza aproximado al 95 % para esta media utilizando los resultados de distribuci´on asint´otica del estimador m´ aximo veros´ımil. (d) Comente los resultados obtenidos y las diferencias (si las hubo) entre los tres procedimientos. 27. Se lanza una moneda 500 veces, y se obtienen 275 ´aguilas y 225 soles. Obtenga un intervalo de confianza para la probabilidad de obtener aguila. Obtenga tambi´en un intervalo del 99 % de confianza. ¿Est´a ´ bien construida la moneda? 28. Una urna contiene una proporci´ on desconocida de canicas rojas y blancas. De una muestra aleatoria con reemplazo de 60 canicas se obtuvo un 70 % de canicas rojas. Encuentre intervalos del 95 % y 99.73 % de confianza para la proporci´ on de canicas rojas en la urna.
225
5.5. Ejercicios
29. Para estimar la proporci´ on de desempleados en Panam´a, un economista selecciona aleatoriamente a 400 individuos de la poblaci´on (clase trabajadora o econ´ omicamente activa en alg´ un momento). De los entrevistados 25 no tienen empleo. Encuentre un intervalo del 95 % de confianza para la proporci´ on de desempleados. 30. De una lista electoral de opini´ on p´ ublica se invita a 100 personas de entre 10,000 adultos a expresar su preferencia por los candidatos A y B. Treinta personas prefirieron a A. De esto se concluy´o que entre 2100 y 3900 de la poblaci´ on prefieren a A. ¿Qu´e nivel de confianza se us´o en este informe? Note que n = 100 y Y = 30 es el n´ umero de ´exitos (las personas que prefirieron a A) y que el intervalo est´a dado para la media np. 31. Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´on con distribuci´ on P oisson(λ). Suponga que el tama˜ no de la muestra es lo suficientemente grande y por lo tanto se cumplen las propiedades del estimador m´ aximo veros´ımil de λ. Construya un intervalo del (1 − α)100 % de confianza para λ. 32. Encuentra una cantidad pivotal basada en una muestra aleatoria de una distribuci´ on N (θ, θ) con θ > 0. Usa la cantidad pivotal para encontrar un intervalo del (1 − α) % de confianza para θ. 33. Considere una muestra aleatoria X1 , X2 . . . , Xn de un modelo N ormal(µ, τ ) donde τ = 1/σ 2 . Suponiendo que las distribuciones iniciales corresponden al modelo conjugado, obtenga un intervalo de credibilidad de 95 %, de colas iguales para cada par´ametro. Obtenga para µ el intervalo HDP del 90 %. 34. Sea X1 y X2 una muestra aleatoria de tama˜ no n = 2, de una poblaci´on con distribuci´ on Exponencial(θ), cuya media es igual a 1/θ. Considere que la distribuci´ on a priori para θ es una distribuci´on Gama(2, 4). Suponga que dada la muestra x ¯ = 0.125. Encuentre la probabilidad posterior del intervalo de credibilidad [3.49, 15.5]. 35. Sea X1 , . . . , Xn una muestra aleatoria de tama˜ no n de una poblaci´on con distribuci´ on normal con media µ y varianza σ 2 , N (µ, σ 2 ). Obtenga a y b tal que (n − 1)s2 P a≤ ≤b σ2
=
1 − α.
226
´ n por intervalos 5. Estimacio As´ı, el intervalo del 100(1 − α) % de confianza para σ es ! r r n−1 n−1 s, s . b a Encuentre valores de a y b tal que minimicen la longitud del intervalo de confianza. Esto es, minimice √ 1 1 k = s n−1 √ − √ , a b bajo la restricci´ on de que Z G(b) − G(a)
b
g(u)du = 1 − α,
= a
donde G(u) y g(u) son las funciones de distribuci´on y de densidad de una distribuci´ on χ2(n−1) , respectivamente. [Sugerencia: Debido a la restricci´ on, b es una funci´on de a. En particular, tomando las derivadas de la ecuaci´on de restricci´on con respecto db dk dk a a, muestre que da = g(a) g(b) . Determine da . Estableciendo da = 0, muestre que a y b deben satisfacer an/2 e−a/2 − bn/2 e−b/2
=
0.
Esta condici´ on, junto con la restricci´ on, son usadas para calcular los valores de los cuantiles.]
Cap´ıtulo 6
Pruebas de hip´ otesis En los cap´ıtulos anteriores se ha analizado la inferencia estad´ıstica con respecto a la estimaci´ on puntual y por intervalos, ahora se estudiar´an las pruebas o contrastes de hip´ otesis estad´ısticas que, como se ver´a, tienen una fuerte relaci´ on con el concepto de estimaci´ on.
6.1.
Los conceptos fundamentales en las pruebas de hip´ otesis
El lenguaje o argot de una profesi´ on espec´ıfica se caracteriza por marcar una frontera mediante un vocabulario poco comprensible para quienes no pertenecen al gremio, aunque en muchos casos oculte ideas o conceptos sencillos. La estad´ıstica no es la excepci´ on y es precisamente en este tema en donde es m´ as claro el uso de una terminolog´ıa jergal de los estad´ısticos, como se ver´a en los siguientes p´ arrafos. Intuitivamente, una hip´ otesis estad´ıstica tiene que ver con una afirmaci´ on relacionada con un cierto fen´ omeno y debe analizarse si dicha afirmaci´on est´ a sustentada por la evidencia. Por ejemplo, en la nueva ley de justicia penal en M´exico se ha hecho ´enfasis en que un acusado debe ser considerado inocente mientras no se pruebe su culpabilidad, as´ı que la afirmaci´on de que sea culpable debe sustentarse con la evidencia. En este caso pueden suceder varias situaciones, como el hecho de que no haya suficientes pruebas para demostrar que el acusado es culpable, lo cual no significa que sea inocente; o bien, puede suceder que haya un error en la sentencia y se culpe a un inocente
227
228
´ tesis 6. Pruebas de hipo
o se absuelva a un culpable, es decir, cabe la posibilidad de falsos positivos y falsos negativos. Estos aspectos se analizar´an desde la perspectiva de la estad´ıstica matem´ atica. Una hip´ otesis estad´ıstica puede plantearse como una aseveraci´ on relacionada con la distribuci´ on de una variable aleatoria1 , lo cual se traduce en este texto en una afirmaci´ on con respecto a alguna caracter´ıstica desconocida de una poblaci´ on de inter´es, expresada en t´erminos de los par´ametros del modelo de probabilidad propuesto para describir el fen´omeno en estudio o bien, en t´erminos de la comparaci´ on de dos modelos. La esencia de probar una hip´ otesis estad´ıstica es el decidir si la aseveraci´on se encuentra apoyada por la evidencia experimental que se obtiene a trav´es de una muestra aleatoria. La decisi´ on acerca de si los datos muestrales respaldan estad´ısticamente la afirmaci´ on se toma con base en la probabilidad de que esto ocurra y, si ´esta es m´ınima (y por lo tanto el tama˜ no del error es grande), entonces ser´a rechazada la hip´ otesis. Para introducir los principales conceptos en pruebas de hip´otesis, se utilizar´ an dos casos. El primero de ellos lo propuso Fisher (1935) en su obra El dise˜ no de experimentos, descrito tambi´en en Newman (1956) como las matem´ aticas de una catadora de t´e; mientras que el segundo caso es un ejemplo de larga data en la ense˜ nanza de este tema en la Facultad de Ciencias de la UNAM. Caso 1: Fisher y la dama del t´ e El caso conocido como “la dama del t´e” fue expuesto por Fisher en su obra las matem´ aticas de una catadora de t´e, en donde se se˜ nala que una dama inglesa aseguraba que pod´ıa saber si se hab´ıa vertido en primer lugar la infusi´ on de t´e o la leche en una taza, con s´ olo probar la mezcla resultante. Para analizar la afirmaci´ on de la se˜ nora se procede a un experimento. Se le pide probar y clasificar n pares de tazas de t´e, conteniendo cada par una taza preparada por cada uno de los dos procedimientos en cuesti´on, primero el t´e y despu´es la leche, y viceversa. En el experimento se pone especial cuidado en asegurar la semejanza bajo las condiciones en que se clasifican los pares de tazas de t´e y se procura la eliminaci´on de cualquier posible diferencia entre las tazas que resulte irrelevante para el problema. A la dama se le presentan aleatoriamente las tazas de cada par. Finalmente, se deja un tiempo razonable entre intentos sucesivos, a fin de asegurar que la clasificaci´ on de cada par de tazas de t´e es independiente de los pares de tazas precedentes. 1O
simplemente con una variable aleatoria.
´ tesis 6.1. Conceptos fundamentales en pruebas de hipo
229
Se desea probar la hip´ otesis que consiste en afirmar que la dama es una charlatana, que tendr´ıa como contraparte la hip´otesis de que ella tiene poderes de discriminaci´ on. Caso 2: El juego de azar elegido por un chango Suponga que se coloca a un changuito dentro de una caja (suficientemente grande para que quepa en ella) con una peque˜ na ventana y en cuyo interior se tienen 5 monedas y un dado honestos, as´ı como papel y l´apiz. El experimento consiste en lo siguiente: El monito elige un juego al azar, lanzar las cinco monedas o lanzar el dado. Si se decide por el dado, el juego consiste en lanzarlo y observar el n´ umero de la cara que aparece hacia arriba. Si decide usar las monedas, las lanzar´ a una por una y contar´a el n´ umero de ´ aguilas. Anotar´ a en un papel el n´ umero de ´ aguilas o el de la cara del dado que haya salido y lo entregar´ a a trav´es de la ventanita. El problema consiste en averiguar si el changuito us´o el dado o las monedas. Es decir, se desea probar la afirmaci´on de que el changuito us´ o el dado, que tendr´ıa como contraparte la hip´ otesis de que el changuito us´ o las monedas.
6.1.1.
Hip´ otesis estad´ısticas
El experimento asociado con el caso de la dama del t´e se puede ver como la obtenci´ on de una muestra aleatoria de tama˜ no n de una poblaci´on con distribuci´ on Bernoulli, es decir, se tienen n variables aleatorias X1 , X2 , . . . , Xn , tal que Xi tiene distribuci´ on Bernoulli con par´ametro p, para i = 1, 2, . . . , n, con ( 1 si la clasificaci´ on es correcta, Xi = 0 si la clasificaci´ on no es correcta. Se quieren probar las siguientes aseveraciones: La dama es charlatana. vs.
La dama tiene “poderes” de discriminaci´on.
Si la dama es charlatana, entonces har´ a la clasificaci´on adivinando, por lo que p = 12 (p es la probabilidad de ´exito); si tiene poderes de discriminaci´on,
230
´ tesis 6. Pruebas de hipo
otesis de que la dama es charlatana se puede entonces p > 21 , por lo que la hip´ replantear como: Xi ∼ Bernoulli con p =
1 , 2
i = 1, . . . , n.
Definici´ on 6.1 Una hip´ otesis estad´ıstica es una aseveraci´ on acerca de la distribuci´ on de una o m´ as variables aleatorias. A una hip´ otesis que especifica completamente la distribuci´ on se le llama hip´ otesis simple. A una hip´ otesis que no es simple se le llama hip´ otesis compuesta. Note que en el ejemplo de la dama del t´e se tiene un contraste de una hip´ otesis simple contra una hip´ otesis compuesta. En particular a p = 12 se le llama hip´ otesis nula y a p > 12 hip´ otesis alternativa, denotadas por H0 y Ha , respectivamente. De hecho, el t´ermino hip´ otesis nula fue introducido por Fisher para representar la hip´otesis defendida por ´el: la nula posibilidad de que la dama pudiera distinguir el orden en que se vertieron el t´e y la leche. As´ı, H0 : p =
1 2
vs.
Ha : p >
1 . 2
Por otra parte, en el ejemplo del changuito (caso 2) los posibles resultados que se pueden obtener (al recibir el papel con el n´ umero anotado) son: 0, 1, 2, 3, 4, 5, 6; esto es, el espacio muestral est´a dado por: Ω = {0, 1, 2, 3, 4, 5, 6} . Este problema se puede plantear de la siguiente forma: H0 : El changuito us´ o el dado vs. Ha : El changuito us´o las monedas, y de estas dos afirmaciones, el inter´es radica en ver de alguna manera que se confirma una y por lo tanto la otra es falsa. En este caso, las hip´otesis se pueden replantear traduciendo el contenido de cada una de ellas a t´erminos probabil´ısticos, es decir, cada hip´ otesis se puede representar por una aseveraci´ on acerca de la distribuci´ on de una variable aleatoria, por lo que: 1 , i = 1, . . . , 6, 6 vs. k 5−k 1 1 5 Ha : P (X = k) = 1− , k = 0, 1, . . . , 5, k 2 2 H0 : P (X = i) =
donde en H0 , X denota el valor de la cara del dado obtenida y en Ha denota el n´ umero de ´ aguilas obtenidas (´exitos) de entre los cinco lanzamientos. Lo
´ tesis 6.1. Conceptos fundamentales en pruebas de hipo
231
que se afirma en H0 y en Ha es acerca de la distribuci´on de una variable aleatoria, es decir, son hipot´esis estad´ısticas (note adem´as que en este ejemplo las dos hip´ otesis son simples). Tanto en el caso de la dama del t´e como en el del changuito, se desea discriminar entre las dos hip´ otesis planteadas; por lo que el problema es encontrar alguna evidencia que lleve a rechazar alguna y, por lo tanto, a aceptar la otra. Definici´ on 6.2 Una prueba de hip´ otesis es una regla de decisi´ on mediante la cual, y con base en la muestra, se puede determinar si se acepta o se rechaza la hip´ otesis nula bajo consideraci´ on. S´ olo como ilustraci´ on, suponga que en el caso de la dama del t´e, n = 5. 5 P Xi cuenta el n´ umero de ´exitos y T (X) ∼ Bin(5, p). Se Entonces T (X) = i=1
podr´ıa decidir, por ejemplo, rechazar H0 si T = 5 ´o si T = 4 y no rechazarla si T = 0 ´ o T = 1; regla que usualmente se expresa como un enunciado precedido por la letra griega γ, es decir: γ : Rechazar H0 si
5 X i=1
Xi = 4 o
5 X
Xi = 5.
i=1
Esta regla de decisi´ on ser´ıa entonces una prueba de hip´otesis; sin embargo, por el momento no tiene mayor sustento que el intuitivo. Ahora, siguiendo con el caso del changuito, es claro que se rechaza H0 si en el papel aparece el cero (el dado no tiene el n´ umero cero) y no se rechaza H0 si en el papel aparece el 6 (s´ olo hay cinco monedas). De esta manera, el espacio muestral queda dividido en dos partes, una de ellas lleva a rechazar H0 y la otra lleva a no rechazar H0 ; las partes en que queda dividido Ω no pueden traslaparse, ya que un elemento que perteneciera al traslape llevar´ıa a rechazar y a no rechazar al mismo tiempo a la hip´otesis H0 , lo cual ser´ıa una contradicci´ on, por lo que se busca una partici´on del espacio muestral Ω. Una posible partici´ on de Ω es C = {0, 2, 3}, regi´on que llevar´ıa a rechazar a H0 ; por lo que C c = {1, 4, 5, 6} y al obtener un resultado de este subconjunto, no se rechazar´ıa H0 . Una vez m´ as, hasta este momento, la regla de decisi´ on s´ olo tiene un sustento intuitivo y tambi´en puede expresarse como: γ : Rechazar H0 si el n´ umero es 0, 2 o 3. A la regi´ on C se le denomina la regi´ on cr´ıtica o de rechazo de H0 y se define de la siguiente manera. Definici´ on 6.3 A la regi´ on C que lleva a rechazar la hip´ otesis nula se le llama regi´ on de rechazo o regi´ on cr´ıtica.
232
´ tesis 6. Pruebas de hipo
Una vez especificada, basta tomar una muestra y verificar si se encuentra en la regi´ on cr´ıtica o no. Se usar´ a la siguiente notaci´ on relacionada con algunos de los conceptos expuestos hasta el momento: La letra griega γ denota una prueba de hip´otesis. C o Cγ se refiere a la regi´ on cr´ıtica asociada a la prueba γ. Como antes, la letra Θ denota el espacio param´etrico. Θ0 se refiere al espacio param´etrico consistente con la hip´otesis nula H0 . Θ1 se refiere al espacio param´etrico consistente con la hip´otesis alternativa Ha . Observaci´ on 6.1 Note que una prueba de hip´otesis γ y una regi´on cr´ıtica C (o Cγ ) son equivalentes. Considere por ejemplo una muestra aleatoria X1 , X2 , . . . , Xn de una poblaci´ on con distribuci´on N (θ, 100), se desea probar: H0 : θ ≤ 75
vs.
Ha : θ > 75.
En este caso se tienen dos hip´ otesis compuestas, donde Θ0 = {θ : θ ≤ 75}
y
Θ1 = {θ : θ > 75}.
La siguiente es una regi´ on cr´ıtica asociada a este problema: C = (x1 , x2 , x3 ) ∈ X | x21 + x22 + x23 ≥ 1 . De esta manera, la prueba est´ a determinada: se consideran tres variables aleatorias X1 , X2 y X3 , si los valores observados son tales que x21 +x22 +x23 ≥ 1, entonces se rechaza la hip´ otesis nula, en caso contrario, se acepta. Por lo tanto, la prueba asociada ser´ıa: γ : Rechazar H0 si x21 + x22 + x23 ≥ 1.
6.1.2.
Tipos y tama˜ nos de los errores
Como en todos los casos de decisi´ on estad´ıstica, se puede incurrir en errores y la idea ser´ıa efectuar una partici´ on del espacio muestral que sirviera como regla de decisi´ on considerando los posibles errores que se pueden cometer y tratando de que su probabilidad de ocurrencia fuera lo m´as peque˜ na posible. Es necesario entonces analizar los tipos de errores que se pueden cometer al efectuar una prueba estad´ıstica. Esto fue precisamente lo que hizo Fisher en el ejemplo de la dama del t´e, se˜ nalando que pod´ıa hacer conclusiones equ´ıvocas, esto es:
´ tesis 6.1. Conceptos fundamentales en pruebas de hipo
233
1. Decir que la dama ten´ıa poderes cuando en realidad era charlatana, lo cual es equivalente a rechazar H0 cuando H0 es cierta. 2. Decir que la dama era charlatana cuando en realidad ten´ıa poderes, lo cual es equivalente a aceptar (no rechazar) H0 cuando H0 es falsa. Fisher llam´ o a estos errores, error tipo I y error tipo II, respectivamente, quedando este nombre dentro de la literatura estad´ıstica para representar de manera general al yerro de rechazar a la hip´otesis nula cuando es cierta y no rechazarla cuando es falsa, respectivamente. Se acostumbra representar estos errores en forma tabular como:
Rechazar H0 No rechazar H0
H0 cierta Error tipo I Decisi´ on correcta
H0 falsa Decisi´ on correcta Error tipo II
El objetivo en pruebas de hip´ otesis es entonces efectuar el contraste entre H0 y Ha minimizando los errores que se puedan cometer y maximizando los aciertos. Para medir los errores que se cometen, lo que se hace es calcular las probabilidades de dichos errores y a estas probabilidades se les conoce como los tama˜ nos de los errores. Definici´ on 6.4 Se define el tama˜ no de los errores como α = P(error tipo I) = P [rechazar H0 | H0 cierta] y β
=
P(error tipo II) = P [no rechazar H0 | Ha cierta]
=
P(error tipo II) = P [no rechazar H0 | H0 falsa] .
Rechazar H0 es equivalente a haber obtenido una muestra de la regi´on C de rechazo de H0 y, por lo tanto, de una “buena” partici´on de Ω en C y C c depende el tama˜ no de los errores. El objetivo es encontrar un criterio ´ optimo para particionar a Ω en C y C c , de tal manera que dicho criterio tome en cuenta el tama˜ no de los errores en alg´ un sentido. En el ejemplo del changuito la partici´on propuesta: C = {0, 2, 3}
y
C c = {1, 4, 5, 6} ,
da lugar a los tama˜ nos de error siguientes:
234
´ tesis 6. Pruebas de hipo
α
= P [error tipo I] = P [rechazar H0 | H0 cierta] = P [X ∈ C | H0 ] = P [X = 0 o X = 2 o X = 3| H0 ] = P [X = 0| H0 ] + P [X = 2| H0 ] + P [X = 3| H0 ] 1 1 = 0+ + 6 6 1 2 = , = 6 3
β
= P [error tipo II] = P [no rechazar H0 | Ha cierta] = P [X ∈ C c | Ha ] = P [X = 1
oX=4´ ´ o X=5 ´ o X = 6| Ha ]
= P [X = 1| Ha ] + P [X = 4| Ha ] + P [X = 5| Ha ] + P [X = 6| Ha ] 5 1 5 + + +0 = 32 32 32 11 = . 32 Puede verse que estos tama˜ nos de error en realidad son grandes, pero esto es consecuencia de que se cuenta con una muestra de tama˜ no uno. M´as adelante se dar´ a un criterio general para obtener una mejor partici´on de Ω y por lo tanto, una buena prueba. Para ello se introduce ahora el concepto de funci´ on potencia.
6.1.3.
La funci´ on potencia
La funci´ on potencia juega un papel similar al del error cuadr´atico medio en estimaci´ on: ser´ a el est´ andar para medir la bondad de una prueba y se define de la siguiente manera. Definici´ on 6.5 La potencia de una prueba γ est´ a dada por: πγ (θ) = P[Rechazar H0 |θ] = P[(X1 , . . . , Xn ) ∈ C|θ]. La funci´ on potencia ideal vale 0 para θ ∈ Θ0 (hip´otesis nula) y vale 1 para θ ∈ Θ1 (hip´ otesis alternativa). Es decir, 0 si θ ∈ Θ0 , P[Rechazar H0 |θ] = 1 si θ ∈ Θ1 .
´ tesis 6.1. Conceptos fundamentales en pruebas de hipo
235
As´ı, la idea es no rechazar la hip´ otesis nula cuando es cierta y rechazarla cuando es falsa. Definici´ on 6.6 Sea γ una prueba de hip´ otesis de H0 : θ ∈ Θ0 contra Ha : θ ∈ Θ1 . El tama˜ no de la prueba se define como: m´ ax πγ (θ),
θ∈Θ0
es decir, es el m´ aximo valor de la potencia cuando H0 es cierta. Observaci´ on 6.2 El tama˜ no de la prueba tambi´en se conoce como el tama˜ no de la regi´ on cr´ıtica, debido a la equivalencia que ya se ha mencionado entre prueba y regi´ on cr´ıtica. Asimismo, se le puede llamar el nivel de la prueba. Observaci´ on 6.3 Lo que dice la definici´ on anterior es que el tama˜ no de la prueba se entiende como la mayor probabilidad de tomar una decisi´on incorrecta suponiendo verdadero cualquier valor del par´ametro θ asociado con la hip´ otesis nula. Es deseable que se trate de una probabilidad peque˜ na, por lo que es usual que α se fije en los valores 0.05 o 0.01. Ejemplo 6.1 Sea X1 , . . . , Xn una muestra aleatoria de la distribuci´on N (θ, 100) con n = 25. Se considera el contraste H0 : θ ≤ 75 vs. Ha : θ > 75 y se propone la siguiente regi´ on cr´ıtica para esta prueba: C = {(x1 , . . . , x25 ) ∈ X : x > 75} , es decir, la prueba est´ a especificada como: γ : rechazar H0 si x > 75. La funci´ on potencia est´ a dada por: πγ (θ) = P(X ∈ C|θ) = P(X > 75|θ), y como X ∼ N θ, 100 25 , se tiene que: X −θ 75 − θ πγ (θ) = P > 2 2 75 − θ 75 − θ = P Z> =1−Φ , 2 2 donde Z = X−θ tiene una distribuci´ on N (0, 1) y Φ denota la funci´on de 2 distribuci´ on acumulada de Z.
236
´ tesis 6. Pruebas de hipo
A continuaci´ on se calcula la funci´ on potencia para algunos valores espec´ıficos de θ: Si θ = 73, πγ (θ) = P(Z > 1) = 1 − Φ(1) = 0.1587. Si θ = 75, πγ (θ) = P(Z > 0) = 0.5. Si θ = 77, πγ (θ) = P(Z > −1) = 1 − Φ(−1) = 1 − [1 − Φ(1)] = Φ(1) = 0.8413. Si θ = 79, πγ (θ) = P(Z > −2) = Φ(2) = 0.977. El tama˜ no de la prueba est´ a dado por m´ ax πγ (θ) = 0.5.
θ∈Θ0
0.0 0.2 0.4 0.6 0.8 1.0
πγ(θ)
La figura 6.1 muestra la gr´ afica de la funci´on potencia correspondiente a este ejemplo.
60
65
70
75
80
85
90
θ Figura 6.1: Funci´ on potencia del ejemplo 6.1. Ejemplo 6.2 Sea X una variable aleatoria con distribuci´on Binomial(5, θ). El problema consiste en contrastar las hip´ otesis H0 : θ ≤ 1/2 vs. Ha : θ > 1/2.
´ tesis 6.1. Conceptos fundamentales en pruebas de hipo
237
Considere dos regiones cr´ıticas C1 = {x | x = 5} y C2 = {x | x = 3, 4 o 5}. Bajo la regi´ on cr´ıtica C1 = {x | x = 5}, la funci´on potencia es: π1 (θ)
=
P(Rechazar H0 |θ)
=
Pθ (X = 5|θ)
=
θ5 ,
entonces 1 − π1 (θ) = 1 − θ5 , as´ı que el tama˜ no del error tipo I es α, α ≤ (1/2)5 = 0.03125 y el tama˜ no del error tipo II es β < 1 − (1/2)5 = 0.96875. Usando la regi´ on cr´ıtica C2 = {x | x = 3, 4 o 5}, la funci´on potencia es: π2 (θ)
= P(Rechazar H0 |θ) = Pθ (X = 3, 4 ´ o 5|θ) 5 3 5 4 5 5 2 1 = θ (1 − θ) + θ (1 − θ) + θ (1 − θ)0 , 3 4 5
entonces π2 (θ)
=
1 − π2 (θ)
=
5 3 5 4 5 5 2 1 θ (1 − θ) + θ (1 − θ) + θ (1 − θ)0 , 3 4 5 5 0 5 1 5 2 5 4 θ (1 − θ) + θ (1 − θ) + θ (1 − θ)3 , 0 1 2
as´ı que el tama˜ no del error tipo I es α ≤ 0.5 y el tama˜ no del error tipo II es β < 0.5. Las funciones potencia de ambas regiones cr´ıticas se muestran en la figura 6.2. Bajo C1 , el tama˜ no del error tipo I es menor que cuando se considera C2 , mientras que el error tipo II es mayor bajo C1 que bajo C2 . La pregunta ahora ser´ıa cu´ al de las dos regiones deber´ıa elegirse con base en las respectivas funciones potencia. Es entonces conveniente establecer un criterio para determinar cu´al podr´ıa ser la mejor regi´ on cr´ıtica. Para ello es necesario definir lo que se considera una buena prueba y este concepto est´ a relacionado con los tama˜ nos de los errores y, por lo tanto, con la funci´ on potencia. Esto se har´a considerando diferentes tipos de contraste, iniciando con el caso de una hip´otesis nula simple contra una hip´ otesis alternativa tambi´en simple.
238
´ tesis 6. Pruebas de hipo
0.0 0.2 0.4 0.6 0.8 1.0
π(θ)
Funcion potencia C1 C2
0.0
0.2
0.4
0.6
0.8
1.0
θ
Figura 6.2: Funciones potencia del ejemplo 6.2.
6.2.
Hip´ otesis simples
En esta situaci´ on se tienen dos distribuciones completamente especificadas, las cuales se denotar´ an por f0 = f (x; θ0 ) y f1 = f (x; θ1 ), correspondientes a las hip´ otesis nula y alternativa, respectivamente. Considere una muestra aleatoria X1 , X2 , . . . , Xn de una poblaci´on con distribuci´ on f0 ´ o f1 y se desea probar: H0 : Xi ∼ f0 vs. Ha : Xi ∼ f1 . Si se tiene una sola observaci´ on x1 y las funciones f0 y f1 son tales que f0 (x1 ) > f1 (x1 ), entonces se puede decidir que la observaci´on viene de f0 . Bajo este criterio, la observaci´ on vendr´ıa de f1 si f0 (x1 ) ≤ f1 (x1 ) (es m´as probable que la observaci´ on venga de f1 que de f0 y se deber´ıa rechazar H0 ). Este simple razonamiento se puede usar en el ejemplo del juego de azar elegido por un chango, especificando la siguiente regla de decisi´on: rechazar H0 si (6.1) P [X ∈ C | H0 ] ≤ P [X ∈ C | Ha ] o, de manera equivalente, rechazar H0 si P [X ∈ C | H0 ] ≤ 1. P [X ∈ C | Ha ]
(6.2)
239
´ tesis simples 6.2. Hipo
En la subsecci´ on 6.1.2 se calcularon los tama˜ nos de los errores para la partici´ on C = {0, 2, 3} y C c = {1, 4, 5, 6} , obteniendo: α
= P [error tipo I] = P [X ∈ C | H0 ] 1 = 3
y β
=
P [error II]
=
P [X ∈ C c | Ha ] 11 , 32
=
21 por lo que P [X ∈ C | Ha ] = 32 . Siguiendo un desarrollo an´ alogo se pueden encontrar α y β para cada partici´ on de Ω que se proponga, en particular: Si C1 = {0, 2} , C1c = {1, 3, 4, 5, 6} y
α1 = 0 +
1 5 10 5 1 21 1 = y β1 = + + + +0= . 6 6 32 32 32 32 32
Si C2 = {0, 3, 4} , C2c = {1, 2, 5, 6} y α2 = 0 +
1 1 1 5 10 1 16 + = y β2 = + + +0= . 6 6 3 32 32 32 32
Si C3 = {0, 1, 4, 5} , C3c = {2, 3, 6} y α3 = 0 +
1 1 1 3 1 10 10 20 + + = = y β3 = + +0= . 6 6 6 6 2 32 32 32
Como puede observarse, para estas tres particiones, cuando α decrece, β crece mucho y viceversa o ambos son grandes. De la misma manera se pueden obtener α y β para cada una de todas las posibles particiones de Ω y comprobar que la pareja que cumple el criterio (6.1), o equivalentemente (6.2), y que tiene los m´ınimos errores es la primera partici´on propuesta. Esta idea intuitiva se retomar´ a m´ as adelante, es necesario ahora dar una definici´ on de lo que se entender´ a por una buena prueba con base en el tama˜ no de los errores y de la potencia de esa prueba.
240
´ tesis 6. Pruebas de hipo
6.2.1.
Pruebas m´ as potentes y el lema de NeymanPearson
Para considerar el tama˜ no de los errores en la b´ usqueda de una prueba adecuada, usualmente lo que se hace es fijar el tama˜ no del error tipo I y entonces buscar la prueba que tenga tama˜ no de error tipo II m´ınimo (de entre todas las que tengan el mismo tama˜ no de error tipo I). En este caso simple contra simple, Θ = {θ0 , θ1 }. Se quiere probar H0 : θ = θ0 vs. Ha : θ = θ1 . Sea γ una prueba asociada a este contraste de hip´otesis y sea πγ (θ) la funci´ on potencia asociada a dicha prueba. Una buena prueba es tal que πγ (θ0 ) = P(rechazar H0 |H0 ) es peque˜ na (idealmente cero) y πγ (θ1 ) = P(rechazar H0 |Ha ) es grande (idealmente 1). Observaci´ on 6.4 Note que en este caso simple contra simple, la funci´on potencia evaluada en θ0 , es decir, πγ (θ0 ) = P(rechazar H0 |H0 ), coincide con el tama˜ no del error tipo I y tambi´en con el tama˜ no de la prueba γ, pues el u ´nico valor en Θ0 es θ0 : πγ (θ0 ) = tama˜ no del error tipo I = tama˜ no de la prueba, y note tambi´en que: 1 − πγ (θ1 ) = P(no rechazar H0 |Ha ) = tama˜ no del error tipo II, relaci´ on que establece que minimizar el tama˜ no del error tipo II es equivalente a maximizar la potencia evaluada en la hip´ otesis alternativa. El concepto de lo que debe ser una buena prueba queda plasmado en la siguiente definici´ on, la cual se identifica como una prueba m´ as potente y que est´ a vinculada con la observaci´ on anterior en el sentido de que se fija el tama˜ no del error tipo I y se minimiza el tama˜ no del error tipo II o, equivalentemente, se maximiza la funci´ on potencia evaluada en Ha , de ah´ı el nombre que se le da a la prueba resultante. Definici´ on 6.7 Una prueba γ ∗ de H0 : θ = θ0 vs. Ha : θ = θ1 se define como una prueba m´ as potente de tama˜ no α (0 < α < 1) si y s´ olo si: (i) πγ ∗ (θ0 ) = α, (ii) πγ ∗ (θ1 ) ≥ πγ (θ1 ), para cualquier otra prueba γ tal que πγ (θ0 ) = α.
241
´ tesis simples 6.2. Hipo
Observaci´ on 6.5 Como se ha mencionado, una prueba de hip´otesis es equivalente al conocimiento de una regi´ on cr´ıtica, por lo que la definici´on anterior puede darse tambi´en en t´erminos de la regi´ on cr´ıtica C ∗ asociada a γ ∗ . ∗ Una mejor regi´ on cr´ıtica C de tama˜ no α para probar H0 : θ = θ0 vs. Ha : θ = θ1 , satisface: (i) P(X ∈ C ∗ |H0 ) = α, (ii) P(X ∈ C ∗ | Ha ) ≥ P(X ∈ C|Ha ), para cualquier C tal que P(X ∈ C|H0 ) = α. El siguiente resultado, conocido como el lema de Neyman-Pearson2 , proporciona un m´etodo para obtener pruebas m´as potentes (o regiones cr´ıticas optimas). ´ Lema 6.1 (lema de Neyman-Pearson) . Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´ on con funci´ on de densidad f (x; θ), donde θ ∈ Θ = {θ0 , θ1 } y sean 0 < α < 1, k un n´ umero positivo y C ∗ tales que: (a) P(X ∈ C ∗ |H0 ) = α, n Q
(b) λ =
L(θ0 ) L(θ1 )
=
i=1 n Q
f (xi ;θ0 )
≤ k si x ∈ C ∗ ,
f (xi ;θ1 )
i=1
(c) λ > k si x ∈ (C ∗ )c . Entonces la prueba γ ∗ , asociada a C ∗ , es una prueba m´ as potente para probar H0 : θ = θ0 vs. Ha : θ = θ1 (es decir, C ∗ es la mejor regi´ on cr´ıtica). 2 Jerzy Neyman (1894-1981), de nacionalidad polaca, vivi´ o en Estados Unidos desde 1938 (Universidad de California en Berkeley) y Egon Sharpe Pearson (1895-1980), hijo del reconocido estad´ıstico ingl´ es Karl Pearson. Colaboraron durante los a˜ nos 20 y 30 del siglo XX, abordando problemas de inferencia y construyendo herramientas estad´ısticas como el lema que lleva su nombre. Neyman, J. and Pearson, E.S. (1928a, 1928b). On the use and interpretation of certain test criteria for purposes of statistical inference, Part I. Biometrika, 20A, 175-240. Part II. Biometrika, 20A, 263-294. Neyman, J. and Pearson, E.S. (1933a). On the problem of the most efficient tests of statistical hypotheses. Phil. Trans. Roy. Soc., Ser. A, 231, 289-337. Reprinted in Breakthroughs in Statistics Volume I (S. Kotz and N. L. Johnson, eds.), 1992. Springer-Verlag, Inc., New York. Neyman, J. and Pearson, E.S. (1933b). The testing of statistical hypotheses in relation to probabilities a priori. Proc. Camb. Phil. Soc., 24, 492-510
242
´ tesis 6. Pruebas de hipo
Demostraci´ on. Observe primero que la primera hip´otesis (a) coincide con (i) de la definici´ on 6.7 de prueba m´ as potente (o equivalentemente de mejor regi´ on cr´ıtica). Por otro lado, la hip´ otesis (b) se puede reescribir como: 1 L(θ0 ), k y la hip´ otesis (c) es equivalente a:
x ∈ C∗ ∩ Cc ⊆ C∗
L(θ1 ) ≥
1 L(θ0 ), k
L(θ1 )
0, Θ = {θ0 , θ1 }
(θ0 > θ1 )
H0 : θ = θ 0 . L(θ) =
n Y
vs. Ha : θ = θ1 , n Y Pn = θn e−θxi = θn e−θ i=1 xi .
θe−θxi
i=1
i=1
Procediendo de acuerdo al lema de Neyman-Pearson: Pn n Pn Pn L(θ0 ) θ0n e−θ0 i=1 xi θ0 = n −θ Pn x = e−θ0 i=1 xi +θ1 i=1 xi L(θ1 ) θ1 θ1 e 1 i=1 i n Pn θ0 e−(θ0 −θ1 ) i=1 xi ≤ k ⇔ x ∈ C ∗ , = θ1 ⇒ e−(θ0 −θ1 ) ⇒
Pn
−(θ0 − θ1 )
i=1
xi
n X
≤ k1 ,
xi ≤ k2 ⇒ (θ0 − θ1 )
i=1
⇒
n X
n X
xi ≥ −k2 ,
i=1
xi ≥ k3 ≡ c ⇔ se rechaza H0 .
i=1
(se han usado k1 , k2 y k3 para denotar a las constantes que van resultando en cada paso del despeje de la estad´ıstica de prueba, hasta llegar a la forma de la regi´ on cr´ıtica). Entonces, la prueba de hip´ otesis queda establecida de la siguiente manera: γ ∗ : Se rechaza H0 si
n X
Xi ≥ c,
i=1
o
( ∗
C =
(X1 , . . . , Xn ) ∈ X|
n X i=1
) Xi ≥ c ,
244
´ tesis 6. Pruebas de hipo
donde c se determina fijando el tama˜ no de la prueba y con base en la disP n tribuci´ on de la estad´ıstica de prueba i=1 Xi . Si el tama˜ no de la prueba es igual a 0.05, se tiene que: " n # X πγ (θ0 ) = P[rechazar H0 |H0 es cierta] = P Xi ≥ c|θ = θ0 = 0.05. i=1
O equivalentemente: " 1−P
n X
# Xi ≤ c|θ = θ0 = 0.05.
i=1
Es decir, P
n X
! Xi ≤ c|θ = θ0
= 0.95.
i=1
Bajo H0 ,
n P
Xi ∼ Gama(n, θ0 ), entonces c corresponde al cuantil 0.95 de
i=1
una distribuci´ on Gama(n, θ0 ). Ejemplo 6.4 Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´ on Normal, N (µ,σ 2 ), con σ 2 conocida. Se considera el contraste de hip´ otesis H0 : µ = µ0 vs. Ha : µ = µ1 , donde µ0 < µ1 . La funci´ on de verosimilitud es n Y 1 1 √ exp − 2 (xi − µ)2 L(µ) = 2σ 2πσ 2 i=1 ( ) n X 1 = (2πσ 2 )−n/2 exp − 2 (xi − µ)2 . 2σ i=1 Procediendo de acuerdo al lema de Neyman-Pearson, se obtiene el cociente de verosimilitudes n o Pn 2 1 2 −n/2 exp − (x − µ ) 2πσ 2 i 0 i=1 2σ L(µ0 ) n o = Pn −n/2 2 1 L(µ1 ) 2 (2πσ ) exp − 2σ2 i=1 (xi − µ1 ) ( ) n n 1 X 1 X 2 2 = exp − 2 (xi − µ0 ) + 2 (xi − µ1 ) 2σ i=1 2σ i=1 1 1 2 2 = exp nx(µ0 − µ1 ) − 2 n µ0 − µ1 , σ2 2σ
245
´ tesis simples 6.2. Hipo entonces X ∈ C equivale a que exp
L(µ0 ) L(µ1 )
≤ k, esto implica que
1 1 2 2 nx(µ − µ ) − n(µ − µ ) ≤ 0 1 0 1 σ2 2σ 2 1 1 nx(µ0 − µ1 ) − 2 n(µ20 − µ21 ) ≤ 2 σ 2σ 1 nx(µ0 − µ1 ) ≤ σ2
k k1 = ln k k1 +
1 n(µ20 − µ21 ), 2σ 2
como µ0 y µ1 son valores fijos establecidos en las hip´otesis, entonces se puede hacer 1 nx(µ0 − µ1 ) ≤ k2 , σ2 y adem´ as, debido a que se supone que µ0 < µ1 , entonces µ0 − µ1 < 0, por lo tanto, σ2 x ≥ k2 , n(µ0 − µ1 ) o x ≥ k3 ; as´ı, se rechaza la hip´ otesis nula si y s´ olo si x ≥ c. Entonces, la prueba de hip´ otesis queda establecida de la siguiente manera: γ ∗ : se rechaza H0 si X ≥ c, o equivalentemente C ∗ : (X1 , . . . , Xn ) ∈ X | X ≥ c . El valor de c se determina fijando el tama˜ no de la prueba y con base en la distribuci´ on de la estad´ıstica de prueba X. En este caso, dado que Xi ∼ N ormal(µ, σ 2 ) y son variables aleatorias independientes e identica mente distribuidas, entonces X ∼ N ormal µ, σ 2 /n . Bajo la hip´ otesis nula H0 : µ = µ0 , se tiene que X ∼ N ormal µ0 , σ 2 /n . Note que esta distribuci´ on es totalmente conocida ya que los valores de n y σ 2 son conocidos y µ0 es el valor establecido bajo la hip´osteis nula. Si el tama˜ no de la prueba es α, se tiene que πγ (µ0 )
= P[rechazar H0 |H0 es cierta] = P X ≥ c|µ = µ0 = α,
o equivalentemente, 1 − P X < c|µ = µ0 = α,
246
´ tesis 6. Pruebas de hipo
as´ı que c corresponde al cuantil 1−α de una distribuci´on N ormal µ0 , σ 2 /n . Por otro lado, tambi´en se puede calcular la funci´on potencia bajo la hip´ otesis alternativa, es decir, πγ (µ1 )
= P[rechazar H0 |Ha ] = P X ≥ c|µ = µ1 ,
pero como πγ (µ1 )
=
P[rechazar H0 |Ha ]
=
1 − P[no rechazar H0 |Ha ],
entonces 1 − πγ (µ1 )
= P[no rechazar H0 |Ha ] =
tama˜ no del error tipo II
= β. Adem´ as se tiene que bajo la hip´ otesis alternativa Ha : µ = µ1 , se cumple que X ∼ N ormal µ1 , σ 2 /n . La figura 6.3 muestra la relaci´ on que existe entre las pruebas de hip´otesis y los tama˜ nos de los errores tipo I (α) y tipo II (β), determinados a partir de la estad´ıstica de prueba S = X. Note que las ´areas delimitadas en color negro y gris, representan a α y β, respectivamente.
fS (s|µ) H0 : µ = µ0 N (µ0 , σ 2 /n)
Ha : µ = µ1 N (µ1 , σ 2 /n)
β µ0
α x
µ1
s
Figura 6.3: Funciones de densidad de la estad´ıstica de prueba S = X bajo ambas hip´ otesis y tama˜ nos de los errores.
247
´ tesis simples 6.2. Hipo
Ejemplo 6.5 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una poblaci´on con distribuci´ on Bernoulli(θ), donde θ es igual a θ0 o θ1 . Contrastar las hip´ otesis H0 : θ = θ0 vs. Ha : θ = θ1 , con θ0 < θ1 . Se sabe que la verosimilitud bajo H0 es Pn
L (θ0 ) = θ0
i=1
Pn
xi
,
Pn
xi
,
xi
(1 − θ0 )n−
xi
(1 − θ1 )n−
i=1
y la verosimilitud bajo H1 es Pn
L (θ1 ) = θ1
i=1
i=1
as´ı que la regi´ on cr´ıtica determinada por λ ≤ k ∗ equivale a Pn x n θ0 (1 − θ1 ) i=1 i 1 − θ0 ≤ k∗ , (1 − θ0 )θ1 1 − θ1 as´ı, −n ∗ 1−θ0 ln k 1−θ1 n X h i , xi ≥ 0 (1−θ1 ) ln θ(1−θ i=1 0 )θ1 Pn es decir, i=1 xi ≥ k 0 donde k 0 es una constante. As´ı que una prueba m´as potente est´ a determinada por: γ : Rechazar H0 si
n X
Xi ≥ k 0 .
i=1
Suponga que θ0 = 1/4, θ1 = 3/4 y n = 10, entonces k 0 se determina de tal manera que: α
=
P[Rechazar H0 |H0 cierta]
=
P[Rechazar H0 |θ = 1/4] " 10 # X 0 P Xi ≥ k |θ = 1/4
=
i=1
=
10 y 10−y X 3 10 1 , y 4 4 0
y=k
P10
donde Y = on Binomial 10, 41 i=1 Xi tiene una distribuci´ 0 α = 0.0197 entonces k = 6, y si α = 0.0781 entonces k 0 = 5.
bajo H0 . Si
248
6.3.
´ tesis 6. Pruebas de hipo
Pruebas uniformemente m´ as potentes
El lema de Neyman-Pearson a´ un puede usarse en algunos casos en donde la hip´ otesis nula es simple y la alternativa es compuesta, como se exhibe en esta parte. Sin embargo, para casos m´ as generales de hip´otesis compuestas, la construcci´ on de una regi´ on cr´ıtica se har´ a a trav´es del llamado cociente o raz´ on de verosimiltudes generalizadas, lo cual se abordar´a en la secci´on 6.4. El objetivo de este apartado es la obtenci´ on de regiones cr´ıticas o pruebas optimas en un sentido m´ ´ as general que en el caso de hip´otesis simples, a las cuales se les conoce como pruebas uniformemente m´ as potentes.
6.3.1.
Hip´ otesis simple contra compuesta
Para ilustrar el tipo de contrastes que involucra una hip´otesis compuesta, y en donde a´ un se utiliza el cociente simple de verosimilitudes, se inicia con el siguiente ejemplo. Ejemplo 6.6 Sea X1 , X2 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´ on N (0, σ 2 ) y se desea probar H0 : σ 2 = σ02
vs.
Ha : σ 2 > σ02 .
En este caso, Θ0 = {σ02 }
y
Θ1 = {σ 2 : σ 2 > σ02 }.
Sea σ12 ∈ Θ1 , es decir, σ12 > σ02 (σ12 es un valor representativo de la hip´otesis alternativa). Usando el lema de Neyman-Pearson, se probar´a H0 : σ 2 = σ02
vs.
Ha : σ 2 = σ12 ,
tomando como hip´ otesis alternativa simple al valor representativo de la hip´ otesis alternativa original. Se considera entonces el cociente: n/2 Pn 1 exp(− 2σ1 2 i=1 x2i ) 2 L(σ0 ) 2πσ02 0 = ≤k n/2 Pn L(σ12 ) 1 1 2) exp(− x 2 2 i=1 i 2πσ 2σ 1
" # n 1 1 1 X 2 exp − 2 x ≤k 2 σ12 σ0 i=1 i 2 n σ1 n 1 1 1 X 2 ln + − 2 x ≤ k1 = ln(k) 2 σ02 2 σ12 σ0 i=1 i
⇔ ⇔
1
σ12 σ02
n/2
249
´ s potentes 6.3. Pruebas uniformemente ma (σ02 − σ12 )
n X
2 σ1 n (σ12 σ02 )2 = k2 x2i ≤ k1 − ln 2 2 σ 0 i=1
Pero como σ02 − σ12 < 0, se obtiene que: n X
x2i > c,
i=1
y por lo tanto, la regi´ on cr´ıtica es: ( C∗ =
(X1 , X2 , . . . , Xn ) ∈ X |
n X
) Xi2 > c ,
i=1
que equivale a la prueba γ ∗ : Rechazar H0 si
n X
Xi2 > c.
i=1 Pn x2i X2 Como Xi ∼ N 0, σ 2 , Xσi ∼ N (0, 1) y σ2i ∼ χ2(1) , de donde i=1 ∼ χ2(n) . σ2 As´ı, el valor de c se puede obtener de la relaci´on: ! Pn n 2 X c 2 i=1 xi α=P xi > c | H0 = P > 2 , σ02 σ0 i=1
conociendo n, σ02 y fijando el tama˜ no de la prueba α. Note que el procedimiento anterior ser´ıa el mismo para cualquier valor consistente con la hip´ otesis alternativa, as´ı que el resultado γ ∗ es una prueba uniformemente m´ as potente, en el sentido de que se cumple para cualquier σ12 tal que σ12 > σ02 . Esto conduce a la siguiente definici´on. Definici´ on 6.8 Una prueba γ ∗ es una prueba uniformemente m´ as potente para probar H0 : θ ∈ Θ0
vs.
Ha : θ ∈ Θ1
si: (i) m´ ax πγ ∗ (θ) = α, θ∈Θ0
(ii) πγ ∗ (θ) ≥ πγ (θ), para todo θ ∈ Θ1 y para cualquier otra prueba γ tal que m´ ax πγ (θ) = α. θ∈Θ0
250
´ tesis 6. Pruebas de hipo
En palabras, de entre todas las pruebas de tama˜ no α, la prueba uniformemente m´ as potente es aquella que maximiza la potencia para todo θ ∈ Θ1 . Para hip´ otesis alternativas del tipo unilateral, es decir, Ha : θ > θ 0 , Ha : θ ≥ θ0 , Ha : θ < θ 0 o Ha : θ ≤ θ0 , en donde H0 : θ = θ0 , se puede usar el lema de Neyman-Pearson para encontrar una prueba uniformemente m´ as potente tomando un valor representativo de la hip´ otesis alternativa y planteando un contraste de dos hip´otesis simples. Suponga ahora que se desea probar H0 : µ = µ0
vs.
Ha : µ 6= µ0 ,
(observe que la hip´ otesis alternativa no es del tipo unilateral) para una muestra aleatoria de tama˜ no n de la distribuci´ on Normal µ, σ 2 , donde σ 2 = 1. Usando el lema de Neyman-Pearson, se proceder´ıa como en el caso anterior, es decir, replanteando las hip´ otesis a trav´es de un valor representativo para la hip´ otesis alternativa de tal manera que se tengan dos hip´otesis simples: H0 : µ = µ0
vs.
Ha : µ = µ1 ,
donde µ1 6= µ0 . Por el de lema de Neyman-Pearson, se tiene entonces que: Pn 2 1 n/2 − 12 i=1 (xi −µ0 ) e L (µ0 ) 2π = Pn 2 1 n/2 − 12 L (µ1 ) i=1 (xi −µ1 ) e 2π
n 2 n 2 1 = e− 2 [ i=1 (xi −µ0 ) − i=1 (xi −µ1 ) ] Pn Pn Pn 2 2 2 Pn 2 1 = e− 2 [ i=1 xi −2µ0 i=1 xi +nµ0 − i=1 xi +2µ1 i=1 xi −nµ1 ]
P
P
= e− 2 [2 1
Pn
i=1
xi (µ1 −µ0 )+n(µ20 −µ21 )]
≤ k1 ,
si y s´ olo si −
n X
1 xi (µ1 − µ0 ) − n µ20 − µ21 ≤ k2 , 2 i=1
si y s´ olo si −
n X i=1
xi (µ1 − µ0 ) ≤ k3 ,
251
´ s potentes 6.3. Pruebas uniformemente ma o n X
xi (µ1 − µ0 ) ≥ −k3 = c,
i=1
obteni´endose que ( ∗
C =
(X1 , . . . , Xn ) ∈ X |
n X
) Xi ≥ c ,
si µ1 − µ0 > 0,
i=1
y ( ∗
C =
(X1 , . . . , Xn ) ∈ X |
n X
) Xi ≤ c ,
si µ1 − µ0 < 0,
i=1
concluyendo que la regi´ on cr´ıtica no queda determinada de manera u ´nica, por lo que para este tipo de pruebas ya no se usar´a el lema de Neyman-Pearson. El tema de hip´ otesis compuestas se abordar´a desde dos perspectivas: mediante una caracterizaci´ on que permite detectar la existencia de pruebas uniformemente m´ as potentes (Subsecci´ on 6.3.2) y a trav´es del cociente de verosimilitudes generalizadas (Secci´ on 6.4).
6.3.2.
La raz´ on mon´ otona de verosimilitudes y el teorema de Karlin-Rubin
Ahora se analizar´ a una clase de hip´ otesis asociada a una gran variedad de problemas, en la cual se puede obtener una prueba uniformemente m´ as potente (ver definici´ on 6.8) si la familia de la cual se obtiene la muestra cumple una condici´ on conocida como la raz´ on o cociente mon´ otono de verosimilitudes, la cual se define a continuaci´on. Definici´ on 6.9 Una familia de densidades {f (x; θ) : θ ∈ Θ}, donde X es una variable aleatoria univariada, tiene un cociente mon´ otono de verosimilitudes en una estad´ıstica T (X), si para todo {θ∗ , θ} ⊂ Θ y x ∈ X, se tiene que L(θ∗ ; x1 , ..., xn ) L (θ∗ ) = , L(θ; x1 , ..., xn ) L (θ) es una funci´ on mon´ otona no creciente (o no decreciente) de t(x), siempre que θ∗ > θ; con f (x; θ∗ ) > 0 y f (x; θ) > 0. Ejemplo 6.7 La familia de densidades Poisson(θ) , θ > 0, tiene cociente
252
´ tesis 6. Pruebas de hipo
mon´ otono de verosimilitudes en T (X) =
Pn
i=1
∗
e−nθ (θ∗ )
∗
L(θ ; x) L(θ; x)
Xi , pues
Pn
i=1
xi
/
n Q i=1
= e−nθ
Pn
(θ)
i=1
xi
/
n Q i=1
∗
=
e−nθ (θ∗ )
Pn
i=1
Pn
1 xi !
1 xi !
xi
x
e−nθ (θ) i=1 i ∗ Pni=1 xi ∗ θ e−n(θ −θ) , = θ Pn es una funci´ on no decreciente de i=1 xi , con θ∗ > θ. Observaci´ on 6.6 Los miembros de la familia exponencial f (x; θ) = a(θ)b(x)ec(θ)d(x) , con θ ∈ Θ, tienen cociente mon´ otono de verosimilitudes. En otras palabras, si c(θ) es una funci´ on estrictamente mon´ otona de θ, entonces {f (x; θ) : θ ∈ Θ ⊆ R} tiene cociente de verosimilitudes no creciente (o no decreciente) en T (X) = Pn d (X ). i i=1 Lema 6.2 Si la familia de densidades {f (x; θ) : θ ∈ Θ} tiene cociente mon´ otono de verosimilitudes en S (X), donde S (X) es una estad´ıstica suficiente, entonces la funci´ on V (s, θ∗ , θ) =
fS (s; θ∗ ) , fS (s; θ)
es una funci´ on mon´ otona en s, donde fS (s; θ) es la funci´ on de densidad de la estad´ıstica S. Demostraci´ on. Cuando se estudi´ o la suficiencia y el teorema de factorizaci´ on, se analiz´ o la relaci´ on entre la funci´ on de verosimilitud y la densidad de la estad´ıstica suficiente. Para el caso discreto esta relaci´on es X fS (s) = P (S (X) = s) = P (X1 = x1 , X2 = x2 , ..., Xn = xn ) As
=
X
L (θ; x1 , ..., xn )
As
= g (s; θ)
X As
h (x1 , ..., xn ) ,
´ s potentes 6.3. Pruebas uniformemente ma
253
donde As = {(x1 , . . . , xn ) ∈ X | S (X) = s} . Y para el caso continuo, fS (s) = g (s; θ) m (s) , donde m (s) no depende de θ. En ambos casos, se comprueba que: V (s, θ∗ , θ) =
fS (s; θ∗ ) g (s; θ∗ ) = . fS (s; θ) g (s; θ)
Por otro lado, la hip´ otesis establece que se cumple la monoton´ıa del cociente de verosimilitudes en S, la cual es suficiente, es decir: L(θ∗ ; x) g (S (x) ; θ∗ ) h (x1 , ..., xn ) g (S (x) ; θ∗ ) = = , L(θ; x) g (S (x) ; θ) h (x1 , ..., xn ) g (S (x) ; θ) es una funci´ on mon´ otona en S. Lo anterior implica que V (s, θ∗ , θ) es una funci´ on mon´ otona en S. El siguiente resultado, conocido como el teorema de Karlin-Rubin proporciona una forma de encontrar una prueba uniformemente m´as potente para hip´ otesis compuestas unilaterales. Teorema 6.1 (teorema de Karlin-Rubin). Sea X1 , X2 , ..., Xn una muestra aleatoria de una poblaci´ on con funci´ on de densidad f (x; θ) y se desea probar las hip´ otesis H0 : θ ≤ θ0
vs. Ha : θ > θ0 .
(6.6)
Si la familia de densidades {f (x; θ)} tiene la propiedad del cociente mon´ otono de verosimilitudes no decreciente en S = S(X), la cual es una estad´ıstica suficiente para θ ∈ Θ, entonces la prueba: γ : Rechazar H0 si S > k, definida por la funci´ on: Ψ(X) =
1 0
si S(X) > k, si S(X) ≤ k,
donde k es tal que: E[Ψ(X)] = P (S(X) > k) = α, es una prueba uniformemente m´ as potente de tama˜ no α para (6.6).
(6.7)
254
´ tesis 6. Pruebas de hipo
Demostraci´ on. Note que por la suficiencia de S, la verosimilitud puede escribirse como el producto h (x) g (s; θ) , as´ı que el cociente de verosimiltudes puede escribirse como L(θ∗ ; x1 , ..., xn ) g (s; θ∗ ) = , L(θ0 ; x1 , ..., xn ) g (s; θ0 ) el cual es no decreciente (θ∗ > θ0 ) en s. Sea πγ (θ) = P (S > k | θ) la funci´ on potencia para la prueba γ. Fije θ0 > θ0 (es decir, θ0 es un valor consistente con la hip´otesis alternativa) y considere la prueba para las hip´ otesis simples H00 : θ = θ0
vs.
Ha0 : θ = θ0 .
(6.8)
La funci´ on potencia πγ (θ) es no decreciente, esto es, para θ0 < θ0 , se tiene que πγ (θ0 ) ≤ πγ (θ0 ), es decir, FS (k; θ0 ) ≤ FS (k; θ0 ). Para verificarlo, considere d fS (s; θ0 ) [FS (s; θ0 ) − FS (s; θ0 )] = fS (s; θ0 ) − fS (s; θ0 ) = fS (s; θ0 ) −1 , ds fS (s; θ0 ) siendo el cociente que aparece en el u ´ltimo par´entesis una funci´on mon´otona no decreciente (por el lema 6.2), de tal manera que la derivada s´olo puede cambiar de signo de negativo a positivo, con lo que se deduce que cualquier extremo interior es un m´ınimo. Por lo tanto, la funci´on FS (s; θ0 ) − FS (s; θ0 ) se maximiza cuando s tiende a ∞ o a −∞, es decir cuando dicha funci´on vale 0, por lo que FS (s; θ0 ) ≤ FS (s; θ0 ) y, por lo tanto, πγ (θ0 ) ≤ πγ (θ0 ), para θ0 < θ 0 . De esta manera, supθ≤θ0 πγ (θ) = πγ (θ0 ) = α, donde α corresponde al tama˜ no de la prueba. Si ahora se define g(s; θ0 ) k 0 = ´ınf , s∈T g(s; θ0 ) donde T = {s : s > k,
y
g(s; θ0 ) > 0 S>k ⇔
o
g(s; θ0 ) > 0}, entonces
g(s; θ0 ) > k0 g(s; θ0 )
y dado que S es una estad´ıstica suficiente, entonces S > k ⇔ g(s; θ0 )h(x) > g(s; θ0 )h(x)k 0 , lo cual es equivalente a L (θ0 ) 1 ≤ 0 = c, 0 L (θ ) k
´ s potentes 6.3. Pruebas uniformemente ma
255
y por el lema de Neyman-Pearson esta u ´ltima desigualdad proporciona una prueba m´ as potente de tama˜ no α, es decir, se cumple que πγ (θ0 ) ≥ πγ∗ (θ0 ), donde πγ∗ es la funci´ on potencia de cualquier otra prueba de tama˜ no α para (6.8). Finalmente, cualquier prueba de tama˜ no α de H0 satisface que πγ∗ (θ0 ) ≤ m´ ax πγ∗ (θ) ≤ α, θ∈Θ0
no α. Como θ0 en por lo que πγ (θ0 ) ≥ πγ∗ (θ0 ) para cualquier prueba de tama˜ la hip´ otesis nula es arbitrario, la prueba resultante es uniformemente m´ as potente de tama˜ no α para la hip´ otesis planteada. De manera similar, se puede demostrar que para la prueba H0 : θ ≥ θ0
vs.
Ha : θ < θ0 ,
la prueba uniformemente m´ as potente es de la forma: γ : Rechazar H0 si S < k.
(6.9)
Por otro lado, si se supone que la raz´ on de verosimilitudes es mon´ otona no creciente en S, las pruebas (6.7) y (6.9) ser´ıan con las desigualdades invertidas. Ejemplo 6.8 Si X1 , . . . , Xn es una muestra aleatoria de una poblaci´on con distribuci´ on Uniforme(0, θ), para θ > 0. Sea 0 < θ1 < θ2 , el cociente de verosimilitudes es Qn ( θ12 )n i=1 I(0,θ2 ) (xi ) ( 1 )n I(0,θ2 ) (yn ) L(θ2 ; x1 , . . . , xn ) = 1 n Qn = θ12 n , L(θ1 ; x1 , . . . , xn ) ( θ1 ) ( θ1 ) I(0,θ1 ) (yn ) i=1 I(0,θ1 ) (xi ) donde Yn = m´ axi {X1 , . . . , Xn }. Se puede ver que el cociente de verosimilitudes es una funci´ on mon´ otona no decreciente en la n-´esima estad´ıstica de orden, pues ( n θ1 L(θ2 ; x1 , . . . , xn ) si 0 < yn < θ1 θ2 = L(θ1 ; x1 , . . . , xn ) 0 si θ1 < yn < θ2 . Si se desea probar H0 : θ ≤ θ0
vs.
Ha : θ > θ0 ,
usando el teorema de Karlin-Rubin, una prueba uniformemente m´as potente est´ a dada por: γ : Rechazar H0 si Yn > k,
256
´ tesis 6. Pruebas de hipo
donde k se puede obtener de α = P (Yn > k | H0 ) , usando la distribuci´ on de la m´ axima estad´ıstica de orden. Observaci´ on 6.7 Por la observaci´ on 6.6, cuando se tiene una densidad que pertenece a la familia exponencial, basta verificar si c (θ) es funci´on creciente o decreciente de θ para saber si el cociente de verosimilitudes es mon´otono (no Pn decreciente o no creciente, respectivamente) en i=1 d (Xi ) y por el teorema de Karlin-Rubin, se puede dar la forma Pnde la prueba (uniformemente m´as potente), la cual estar´ a en funci´ on de i=1 d (Xi ) , pues esta estad´ıstica es suficiente. Ejemplo 6.9 Sea X1 , X2 , ..., Xn una muestra aleatoria de tama˜ no n = 49 de una poblaci´ on con distribuci´ on Bernoulli de par´ametro θ y suponga que se desea probar: H0 : θ ≤ 0.01 vs.
Ha : θ > 0.01.
La distribuci´ on Bernoulli pertenece a la familia exponencial x θ 1−x f (x; θ) = θx (1 − θ) = (1 − θ) 1−θ θ x ln( 1−θ ) = (1 − θ) e , con
c (θ) = ln
θ 1−θ
,
la cual es una funci´ on creciente, por lo que esta Pn familia de densidades tiene cociente de verosimilitudes no decreciente en i=1 Xi . De acuerdo al teorema de Karlin-Rubin, una prueba uniformemente m´as potente est´a dada por: γ : Rechazar H0 si
49 X
Xi > k.
i=1
6.4.
La raz´ on de verosimilitudes generalizadas
Suponga que se tiene una muestra aleatoria de f (x; θ) con θ ∈ Θ y se desea probar H0 : θ ∈ Θ0 vs. Ha : θ ∈ Θ1 ,
´ n de verosimilitudes generalizadas 6.4. La razo
257
donde Θ0 ⊆ Θ y Θ1 ⊆ Θ; Θ0 y Θ1 son disjuntos. Usualmente Θ1 = Θ − Θ0 . Por ejemplo, si se tiene una muestra aleatoria de una distribuci´on N (µ, 100) y se desea probar H0 : µ ≤ 75 vs. Ha : µ > 75, aqu´ı Θ0 = {µ : µ ≤ 75}, Θ = {µ : −∞ < µ < ∞} y Θ − Θ0 = {µ : µ > 75}. La idea utilizada en el caso simple contra simple y resumida en el lema de Neyman-Pearson, sugiere una generalizaci´on en alg´ un sentido del cociente o raz´ on de verosimilitudes, en virtud de que subyace la idea intuitiva de que una cantidad as´ı tender´ a a ser peque˜ na cuando H0 es falsa, no obstante, la pregunta es ¿c´ omo debe hacerse esa generalizaci´on? La respuesta se encuentra en esta secci´ on.
6.4.1.
La prueba de la raz´ on de verosimilitudes generalizadas
Definici´ on 6.10 (raz´ on de verosimilitudes generalizadas). Sea X1 , ..., Xn una muestra aleatoria de f (x; θ) y sea L(θ; x1 , ..., xn ) la funci´ on de verosimilitud, donde θ ∈ Θ. La raz´ on de verosimilitudes generalizadas se define como m´ ax L(θ; x1 , ..., xn ) θ∈Θ0 . λ= m´ ax L(θ; x1 , ..., xn ) θ∈Θ
Observe que la expresi´ on tomada en el denominador es el valor m´aximo que puede alcanzar la verosimilitud L (θ) dentro de Θ que es el campo de variaci´ on de θ. Es decir, m´ ax L(θ; x1 , ..., xn ) = L θb , donde θb es el estimador θ∈Θ
m´ aximo veros´ımil de θ. Como se est´ a considerando el cociente de dos cantidades no negativas, λ ≥ 0. Como el m´ aximo considerado en el denominador es sobre un conjunto de valores de θ mayor al considerado en el denominador, λ ≤ 1. Por lo tanto, se cumple que 0 ≤ λ ≤ 1. Note tambi´en que λ es una funci´ on de x1 , ..., xn de modo que cuando las observaciones se sustituyen por X1 , X2 , ..., Xn , se puede escribir Λ en vez de λ. As´ı, el denominador de Λ es la funci´ on de verosimilitud evaluada en el estimador m´ aximo veros´ımil, mientras que el numerador depender´a de los valores en Θ0 . En ocasiones Θ0 consiste de un s´olo valor (cuando se tiene una hip´ otesis nula simple H0 : θ = θ0 ) y, en ese caso particular, m´ ax L(θ; x1 , ..., xn ) = L (θ0 ). θ∈Θ0
Prueba de la raz´ on de verosimilitudes generalizadas o principio de la raz´ on de verosimilitudes generalizadas.
258
´ tesis 6. Pruebas de hipo Esta prueba establece la siguiente como regla de decisi´on.
“Rechazar H0 : θ ∈ Θ0 si y s´ olo si λ ≤ k, donde k es alguna constante fija tal que 0 ≤ k ≤ 1”. La constante k se especifica fijando el tama˜ no de la prueba y Λ es la estad´ıstica de prueba. Intuitivamente, la prueba de la raz´ on de verosimilitudes generalizadas tiene sentido, ya que λ tender´ a a ser m´ as peque˜ na cuando H0 es falsa, debido a que el denominador de λ ser´ a mayor que el numerador. En general, se tendr´ an buenas pruebas con este m´etodo. El problema puede ser encontrar el m´ ax L(θ) o la distribuci´ on de Λ, la cual es indispensable para la evaluaci´ on de la potencia de la prueba. Ejemplo 6.10 Sea X1 , ..., Xn una muestra aleatoria de tama˜ no n > 1 de una distribuci´ on N (µ, σ 2 ) con σ 2 > 0. Se quiere probar H0 : µ = 0 vs.
Ha : µ 6= 0.
En este caso Θ = {(µ, σ 2 ) : −∞ < µ < ∞, 0 < σ 2 < ∞} y Θ0 = {(µ, σ 2 ) : µ = 0, 0 < σ 2 < ∞}. Para θ∈ Θ, L(θ) = L(θ; x1 , ..., xn ) =
1 2πσ 2
n/2
n 1 X exp − 2 (Xi − µ)2 2σ i=1
! .
(6.10)
Para θ∈ Θ0 , L(θ) = L(θ; x1 , ..., xn ) =
1 2πσ 2
n/2
n 1 X 2 exp − 2 X 2σ i=1 i
A continuaci´ on se va a obtener el numerador de λ. Tomando logaritmos en (6.11): ln L(θ)
=
∂ ln L(θ) ∂σ 2
=
n n 1 X 2 ln 2πσ 2 − 2 X , 2 2σ i=1 i Pn 2 n 1 i=1 Xi − + , 2 σ2 2(σ 2 )2
−
! .
(6.11)
259
´ n de verosimilitudes generalizadas 6.4. La razo igualando a cero, se obtiene que: n
1X 2 X . σ ˆ = n i=1 i 2
Entonces, n/2
m´ ax L(θ)
θ∈Θ0
1
=
2π
=
2π
Pn
i=1
Xi2
· exp − Pn Xi2 2 i=1 Xi 2 i=1 n
n
n/2
n Pn
i=1
Xi2
n X
1
e−n/2 .
Ahora, se obtendr´ a el denominador de λ. Se sabe que para la distribuci´on 2 ¯ y Normal(µ, σ ) los estimadores m´ aximo veros´ımiles est´an dados por µ ˆ=X Pn 1 2 2 ¯ σ ˆ = n i=1 (Xi − X) . Sustituyendo en (6.10): " L(θ)
= 2π =
#n/2
1 ¯
Pn
i=1 (Xi −X)
2
n
n Pn ¯ 2 2π i=1 (Xi − X)
Pn
n/2
¯
i=1 (Xi − X) P n ¯ 2 i=1 (Xi −X) n
1 exp − 2
2
!
e−n/2 ,
la cual es la verosimilitud evaluada en los estimadores m´aximo veros´ımiles. h in/2 n Pn m´ ax L(θ) Pn e−n/2 ¯ 2 n/2 2 (Xi − X) 2π i=1 Xi θ∈Θ0 i=1 Pn =h ∴λ= = . in/2 2 m´ ax L(θ) i=1 Xi −n/2 Pn n e θ∈Θ 2 ¯ 2π (Xi −X) i=1
Pero, n X ¯ 2 (Xi − X)
=
i=1
n X i=1
=
n X
¯ Xi2 − 2X
n X
¯2 Xi + nX
i=1
¯ X ¯ + nX ¯2 = Xi2 − 2Xn
i=1
Pn
2 i=1 Xi
n X
¯ 2 + nX ¯ 2. Xi2 − 2nX
i=1
Pn
¯ 2 ¯2 i=1 (Xi − X) + nX .
Entonces, = Por lo tanto, Pn n/2 ¯ 2 (Xi − X) λ = Pn i=1 ≤k ⇔ ¯ 2 ¯2 i=1 (Xi − X) + nX
1 1+
¯2 Pn nX ¯ 2 i=1 (Xi −X)
n/2 ≤ k
260
´ tesis 6. Pruebas de hipo
√ ¯ p ¯2 nX n|X| −2/n q ≥ k ≥ ⇔ ⇔ 1 + Pn k −2/n − 1 Pn ¯ 2 2 ¯ i=1 (Xi − X) (Xi − X) i=1
√ ⇔ q Pn
¯ n|X| ¯
i=1 (Xi −X)
2
≥
q
(n − 1)(k −2/n − 1) = k 0 .
n−1
Por lo tanto, la prueba de la raz´ on de verosimilitudes generalizadas establece lo siguiente: √ ¯ n|X| “Rechazar H0 si q Pn ≥ k 0 ”, 2 ¯
i=1 (Xi −X)
n−1
donde k 0 puede obtenerse fijando el tama˜ no de la prueba α y conociendo la distribuci´ on de la estad´ıstica de prueba. En este caso: √ ¯ nX q Pn
¯
i=1 (Xi −X)
2
= r P n
n−1
¯ X √ σ/ n ¯
i=1 (Xi −X) σ2
2
∼ t(n−1) , /(n − 1)
¯ ∼ N (µ, σ2 ) y, bajo H0 , X ¯ ∼ N (0, σ2 ). Entonces, porque X n n y P n ¯ 2 (n − 1)S 2 i=1 (Xi − X) = ∼ χ2(n−1) . σ2 σ2
¯ X √ σ/ n
∼ N (0, 1)
Ejemplo 6.11 (Comparar medias de 2 muestras normales independientes). Sea X1 , . . . , Xm una muestra aleatoria de una poblaci´on con distribuci´on N ormal(µx , σx2 ), y sea Y1 , . . . , Yn una muestra aleatoria de una poblaci´on con distribuci´ on N ormal(µy , σy2 ), donde ambas muestras son independientes y adem´ as se desconocen todos los par´ ametros. Se desea probar H0 : µx = µy
vs.
Ha : µx 6= µy .
El espacio param´etrico general Θ est´ a definido como un espacio de dimensi´ on cuatro, Θ = (µx , µy , σx2 , σy2 ); µx ∈ R, µy ∈ R, σx2 > 0, σy2 > 0 . Bajo la hip´ otesis nula H0 : µx = µy el espacio param´etrico Θ0 est´a definido como un espacio de dimensi´ on tres, Θ0 = (µ, σx2 , σy2 ); µ ∈ R, σx2 > 0, σy2 > 0 , donde µ denota la media com´ un bajo H0 , es decir µx = µy = µ.
´ n de verosimilitudes generalizadas 6.4. La razo
261
La funci´ on de verosimilitud se define como L (θ) = L(µx , µy , σx2 , σy2 ; x, y) "m # Y n 2 Y (xi − µx )2 1 (y − µ ) 1 j y p q exp − exp − = 2 2 2 2σ 2σ 2 2πσ x y 2πσ x j=1 i=1 y ) ( m/2 n/2 m 1 1 1 X 2 = (x − µ ) exp − i x 2πσx2 2σx2 i=1 2πσy2 n 1 X (yj − µy )2 . exp − 2 2σy j=1
Bajo Θ los estimadores P m´ aximo veros´ımiles son µ bx = x, µ by = y, σ bx2 = P m n 1 2 2 2 by = n j=1 (yj − y) , as´ı que el supremo de la funci´on i=1 (xi − x) y σ de verosimilitud L bajo Θ es 1 m
m´ ax L (θ) θ∈Θ
m Pm = 2π i=1 (xi − x)2
m/2
n Pn 2π j=1 (yj − y)2
!n/2
n mo n no exp − exp − . 2 2
Si se define µx y µy igual a µ, que es lo que se supone bajo H0 , ser´ıa dif´ıcil maximizar L respecto a µ, σx2 y σy2 , ya que esto equivaldr´ıa a encontrar el estimador de µ dado como la ra´ız de una ecuaci´on c´ ubica. Por lo tanto, el cociente de verosimilitudes generalizadas λ ser´ıa una funci´on complicada en el sentido de encontrar su distribuci´ on de probabilidad asociada, lo cual complica encontrar la regi´ on cr´ıtica y el tama˜ no del error tipo I. Para muestras grandes podr´ıan usarse las propiedades asint´oticas del cociente de verosimilitudes generalizadas, tal que −2 ln Λ ∼ χ2(1) , y se rechazar´ıa H0 cuando −2 ln L sea lo suficientemente grande. Este resultado se analizar´ a en la siguiente secci´ on. Otra alternativa es suponer que las dos poblaciones tienen la misma varianza, σx2 = σy2 = σ 2 , el problema se simplifica, y resulta que Θ = (µx , µy , σ 2 ); µx ∈ R, µy ∈ R, σ 2 > 0 , y bajo H0 : µx = µy = µ se tiene que Θ0 = (µ, σ 2 ); µ ∈ R, σ 2 > 0 .
262
´ tesis 6. Pruebas de hipo
Adem´ as, los estimadores m´ aximo veros´ımiles bajo Θ son µ bx = x, µ by = y, y m n X 1 X 2 2 σ b = (xi − x) + (yj − y)2 , m + n i=1 j=1 y por lo tanto, m´ ax L (θ)= θ∈Θ
(m+n)/2
2π
m+n i Pn 2+ 2 (x − x) (y − y) i j i=1 j=1
hP m
m+n exp − . 2
Bajo la hip´ otesis nula H0 los estimadores m´aximo veros´ımiles son: n m X mx + ny 1 X yj = xi + µ b= m + n i=1 m+n j=1 y σ b2
m n X X (xi − µ ˆ)2 + (yj − µ ˆ)2
=
1 m+n
=
m n X X 1 mn (xi − x)2 + (yj − y)2 + (x − y)2 , m + n i=1 m + n j=1
i=1
j=1
as´ı que el supremo de la funci´ on de verosimilitud L bajo Θ0 es: m´ ax L (θ) =
θ∈Θ0
2π
hP
m i=1 (xi
−
x)2
m+n Pn + j=1 (yj − y)2 +
mn m+n
(m+n)/2 m+n i ×exp − . 2 (x − y)2
Finalmente, el cociente de verosimilitudes generalizadas es: λ
=
m´ axθ∈Θ0 L (θ) m´ axθ∈Θ L (θ) hP m
i (m+n)/2 Pn 2 2 (x − x) + (y − y) i=1 i j=1 j i = hP Pn m 2+ 2 + mn (x − y)2 (x − x) (y − y) i=1 i j=1 j m+n ! −(m+n)/2 mn 2 m+n (x − y) Pn = 1 + Pm , 2 2 i=1 (xi − x) + j=1 (yj − y)
´ n de verosimilitudes generalizadas 6.4. La razo
263
lo que implica que la regla de decisi´ on es rechazar H0 al nivel α si λ ≤ λ0 . Note que λ puede definirse en t´erminos de T , donde q mn m+n (x − y) r T = h , i Pm Pn 2+ 2 /(m + n − 2) x) y) (x − (y − i j i=1 j=1 as´ı que −(m+n)/2 λ = 1 + T 2 /(m + n − 2) , adem´ as se sabe que T es una variable aleatoria con distribuci´on t de Student con m + n − 2 grados de libertad, es decir, T ∼ t(m+n−2) . Desarrollando la desigualdad se puede llegar a que se rechaza H0 al nivel α si
2
λ −(m+n)/2
≤ λ0
1 + T /(m + n − 2) ≤ λ0 2 2 1 + T /(m + n − 2) > λ− m+n 2 − m+n 2 T > λ0 − 1 × (m + n − 2) T2
>
|T | >
λ1 λ2 .
Por lo tanto, la prueba resulta en: γ : Rechazar H0 al nivel α si |T | > λ2 = q1−α/2 , donde q1−α/2 es el cuantil 1 − α/2 de una distribuci´on t(m+n−2) . Ejemplo 6.12 (Comparar medias de 2 muestras normales apareadas). Sea (X1 , Y1 ), . . . , (Xn , Yn ) una muestra aleatoria bivariada de dos poblaciones con distribuci´ on N ormal(µx , σx2 ) y N ormal(µy , σy2 ), donde ambas muestras son independientes, y adem´ as se desconocen todos los par´ametros. Se desea probar H0 : µx = µy vs. Ha : µx 6= µy . Usualmente esta prueba de hip´ otesis se plantea como H0 : µx − µy = 0 vs.
Ha : µx − µy 6= 0.
Se puede resolver de manera sencilla definiendo una nueva variable Z = X−Y . Entonces el problema se simplifica a una muestra aleatoria Z1 , . . . , Zn ,
264
´ tesis 6. Pruebas de hipo
donde Zi = Xi − Yi para i = 1, . . . , n, tal que la muestra aleatoria tiene una distribuci´ on N ormal(µz , σz2 ), donde µz = µx − µy y σz2 = σx2 + σy2 . Por lo tanto, el problema de prueba de hip´otesis se plantea como H0 : µz = 0 vs.
Ha : µz 6= 0,
para una poblaci´ on normal con varianza σz2 desconocida. Ejemplo 6.13 (Comparar varianzas de 2 muestras normales independientes). Sea X1 , . . . , Xm una muestra aleatoria de una poblaci´on con distribuci´on N ormal(µx , σx2 ), y sea Y1 , . . . , Yn una muestra aleatoria de una poblaci´on con distribuci´ on N ormal(µy , σy2 ), donde ambas muestras son independientes, y adem´ as se desconocen todos los par´ ametros. Se desea probar H0 : σx2 = σy2
vs.
Ha : σx2 6= σy2 .
Si ambas muestras son independientes se sabe que Pm (Xi − X)2 /σx2 (m − 1) F = Pi=1 n 2 2 j=1 (Yj − Y ) /σy (n − 1) tiene una distribuci´ on F de Fisher con m − 1 y n − 1 grados de libertad. En particular, bajo H0 : σx2 = σy2 = σ 2 , entonces la estad´ıstica F resulta en Pm (Xi − X)2 /(m − 1) F = Pi=1 . n 2 j=1 (Yj − Y ) /(n − 1) La estad´ıstica F puede obtenerse tambi´en planteando el cociente de verosimilitudes λ. Note que F tender´ a a ser grande cuando σy2 > σx2 , y viceversa. Bajo esta idea, si se considera H0 : σx2 = σy2 contra Ha : σx2 6= σy2 , la prueba es una prueba bilateral, as´ı que se rechazar´ıa H0 cuando la estad´ıstica de prueba F es muy grande o muy peque˜ na. Por lo tanto, la prueba resulta en: γ : Rechazar H0 al nivel α si F < qα/2 ´o F > q1−α/2 , donde qα/2 y q1−α/2 son los cuantiles α/2 y 1 − α/2 de una distribuci´on F(m−1,n−1) , respectivamente.
6.4.2.
La distribuci´ on asint´ otica de la raz´ on de verosimilitudes
Como se mencion´ o anteriormente, existen muchos casos en los que es muy dif´ıcil encontrar la distribuci´ on de la raz´ on de verosimilitudes generalizadas.
´ n de verosimilitudes generalizadas 6.4. La razo
265
En estas circunstancias ser´ a de utilidad el siguiente resultado, el cual establece la distribuci´ on asint´ otica de −2 ln λ. u ´nicamente se har´a la demostraci´on para el caso m´ as com´ un, el cual se enuncia en el teorema 6.2.
Proposici´ on 6.1 Sea X1 , ..., Xn una muestra aleatoria de f (x; θ) donde θ = (θ1 , ..., θk ). Para la prueba de hip´ otesis H0 : θ1 = θ1◦ , . . . , θr = θr◦ , θr+1 , . . . , θk , donde θ1◦ , θ2◦ , ..., θr◦ son valores fijos conocidos y θr+1 , ..., θk no est´ an especid
ficados, se cumple que −2 ln λ → χ2(r) (converge en distribuci´ on) cuando H0 es cierta.
Demostraci´ on. Ver Stuart, A., Ord, J. K., y Arnold, S. (1999).
Note que 1 ≤ r ≤ k; por ejemplo, si r = k, todos los par´ametros estar´ıan especificados. Como θ = (θ1 , ..., θk ), el espacio param´etrico Θ es kdimensional y como H0 especifica a r de las componentes de θ, la dimensi´on de Θ0 es k − r. As´ı, los grados de libertad de la distribuci´on asint´otica de λ pueden interpretarse de dos formas: como el n´ umero de par´ametros especificados por H0 , o como la diferencia entre las dimensiones de Θ y Θ0 , la cual es k − (k − r).
Teorema 6.2 Para probar las hip´ otesis H0 : θ = θ0 vs. Ha : θ 6= θ0 , donde θ es un par´ ametro, suponga que X1 , . . . , Xn es una muestra aleatoria de una poblaci´ on con funci´ on de densidad f (x; θ), la cual satisface las condiciones de regularidad, y sea θˆ el estimador m´ aximo veros´ımil de θ. Entonces bajo H0 , d cuando n → ∞, se cumple que −2 ln λ → χ2(1) (converge en distribuci´ on).
Demostraci´ on. Primero se usan las series de Taylor para la expansi´on de ˆ ln L(θ; x) alrededor de θ,
ˆ x) + (θ − θ)(ln ˆ ˆ x))0 + ln L(θ; x) = ln L(θ; L(θ;
ˆ2 (θ − θ) ˆ x))00 + · · · , (ln L(θ; 2!
266
´ tesis 6. Pruebas de hipo
donde
00 ˆ x) ln L(θ;
= = = =
ˆ x) L0 (θ; ˆ x) L(θ;
!0
ˆ x))2 ˆ x) (L0 (θ; L00 (θ; − ˆ x) ˆ x))2 L(θ; (L(θ; 0 2 00 ˆ L (θ; x) ˆ x) − ln L(θ; ˆ x) L(θ; 00 ˆ L (θ; x) , ˆ x) L(θ;
0 ˆ pues (ln L(θ;x)) = 0. Sustituyendo la expansi´ on de Taylor para ln L(θ0 ; x) en
−2 ln λ(x)
= − − 2 ln
L(θ0 ; x) ˆ x) L(θ;
ˆ x) = −2 ln L(θ0 ; x) + 2 ln L(θ; h i ˆ x) , = −2 ln L(θ0 ; x) − ln L(θ; se obtiene que: "
−2 ln λ(x) ≈
=
ˆ2 ˆ x))00 ˆ ˆ x))0 + (θ0 − θ) (ln L(θ; −2 (θ0 − θ)(ln L(θ; 2! " # ˆ2 (θ0 − θ) 00 ˆ −2 (ln L(θ; x)) 2!
#
0 ˆ = 0. Por lo tanto, ya que (ln L(θ;x))
−2 ln λ(x) ≈ =
ˆ 2 (ln L(θ; ˆ x))00 −(θ0 − θ) (θˆ − θ0 )2 . 1 00 ˆ −(ln L(θ;x))
ˆ y se ˆ x))00 es la informaci´ Como −(ln L(θ; on observada de Fisher, Iˆn (θ), 1 ˆ ˆ p tiene que n In (θ) → I(θ0 ) (en probabilidad), se concluye por la propiedad de eficiencia asint´ otica de los estimadores m´ aximo veros´ımiles y el teorema de d 3 2 Slutsky que −2 ln λ(x) → χ(1) (en distribuci´on). 3 Si {X } y {Y } son sucesiones de variables aleatorias, tales que X converge a X en n n n distribuci´ on y Yn converge a a en probabilidad, entonces Xn Yn → aX en distribuci´ on.
´ n de verosimilitudes generalizadas 6.4. La razo
267
Ejemplo 6.14 (Comparar proporciones de dos poblaciones independientes). Sea X1 , . . . , Xm una muestra aleatoria de una poblaci´on con distribuci´ on Bernoulli(θx ), y sea Y1 , . . . , Yn una muestra aleatoria de una poblaci´on con distribuci´ on Bernoulli(θy ), donde ambas muestras son independientes, y adem´ as se desconocen todos los par´ ametros. Se desea probar H0 : θx = θy vs. Ha : θx 6= θy . Esta prueba usualmente se conoce como prueba de comparaci´ on de proporciones, y tambi´en se puede plantear como H0 :
θx = 1 vs. θy
Ha :
θx 6= 1, θy
o como H0 : θx − θy = 0 vs.
Ha : θx − θy 6= 0.
Para realizar esta prueba se usan las propiedades asint´oticas de los estimadores m´ aximo veros´ımiles. Se tiene que 1 X ∼ N ormal θx , θx (1 − θx ) m y 1 Y ∼ N ormal θy , θy (1 − θy ) . n Adem´ as, como las muestras con independientes 1 1 X − Y ∼ N ormal θx − θy , θx (1 − θx ) + θy (1 − θy ) . m n Bajo H0 : θx = θy = θ, X −Y
∼ ⇒
1 1 N ormal 0, + θ(1 − θ) m n q
1 m
X −Y ∼ N ormal (0, 1) . + n1 θ(1 − θ)
El estimador m´ aximo veros´ımil de θ es: Pm Pn xi + j=1 yj mx + ny i=1 θb = = , m+n m+n lo que implica que por propiedades asint´ oticas de los estimadores m´aximo veros´ımiles, X −Y d q → N ormal (0, 1) . 1 1 b b m + n θ(1 − θ)
268
´ tesis 6. Pruebas de hipo
Finalmente, para probar H0 : θx = θy vs. Ha : θx 6= θy , se utiliza como estad´ıstica de prueba Z=q
1 m
x−y b − θ) b + 1 θ(1 n
y la prueba es: γ : Rechazar H0 al nivel α si |Z| > q1−α/2 , donde q1−α/2 es el cuantil 1 − α/2 de una distribuci´on normal est´andar. Ejemplo 6.15 (Distribuci´ on asint´ otica del cociente de verosimilitudes). Contrastar las hip´ otesis H0 : µ1 = µ2 , σ12 > 0, σ22 > 0 vs. Ha : µ1 6= µ2 , σ12 > 0, σ22 > 0, donde µ1 y σ12 son la media y varianza de una poblaci´on normal, y µ2 y σ22 son la media y la varianza de otra poblaci´on normal. El espacio param´etrico es de k = 4 dimensiones, y en la hip´otesis nula se especifica r = 1 par´ ametros (µ1 = µ2 y −∞ < µ2 < ∞). As´ı que bajo H0 la distribuci´ on asint´ ontica de −2 ln λ es χ2(1) .
6.5.
El valor p (p-value) y las pruebas estad´ısticamente significativas
Un enfoque complementario para pruebas de hip´otesis es el c´alculo de una cantidad llamada p-value, en espa˜ nol es frecuentemente llamado nivel de significancia descriptivo o valor p. Un p-value est´a definido como la probabilidad, cuando se supone que la hip´ otesis nula H0 es cierta, de obtener un resultado muestral tan extremo como, ´ o m´as extremo que (en direcci´on an´ aloga a la hip´ otesis alternativa dentro de la regi´on cr´ıtica), el resultado muestral observado. Esta probabilidad se puede calcular para los valores de la estad´ıstica, o de alguna funci´ on de ´esta, como el estimador muestral del par´ ametro en la hip´ otesis nula. Por ejemplo, suponga que se est´ a probando H0 : µ = 50 vs.
Ha : µ > 50,
y se observa el resultado muestral para X de 52. El p-value se calcula como P(X ≥ 52|µ = 50). La direcci´ on apropiada aqu´ı es de acuerdo a los valores de X que son mayores o iguales que 52, ya que la alternativa es µ mayor que 50.
6.5. El valor p (p-value)
269
Definici´ on 6.11 Sea T (X) una estad´ıstica de prueba tal que valores grandes de T dan evidencia a favor de la hip´ otesis alternativa. Para cada posible valor de X, x = (x1 , x2 , ..., xn ) ∈ X, se define el p-value como ax P [T (X) ≥ t (x)] , p (x) = m´ θ∈Θ0
donde t (x) es el valor de la estad´ıstica T (X) en x. La desigualdad dentro de la probabilidad ser´ıa invertida si valores peque˜ nos de T dan evidencia a favor de la hip´ otesis alternativa. Un p-value o valor p, p(x), cumple que 0 ≤ p(x) ≤ 1 para cada valor de la muestra x. Valores peque˜ nos de p(x) dan evidencia de que la hip´otesis alternativa Ha es verdadera. Es f´ acil construir una prueba de nivel α basada en p(X). La prueba rechaza la hip´ otesis nula H0 si y s´ olo si p(x) ≤ α. Una ventaja de reportar el resultado de una prueba de hip´ otesis usando el p-value es que cada persona puede elegir el nivel α, llamado el nivel de significancia de la prueba, que considere apropiado, entonces puede comparar el p(x) reportado con α y saber si los datos llevan a aceptar o rechazar H0 . Adem´as, entre m´as peque˜ no sea el p-value, mayor evidencia habr´ a para rechazar H0 . Por consiguiente, un p-value reporta el resultado de una prueba sobre una escala m´as continua, en lugar de s´ olo tomar la decisi´ on dicot´ omica de “aceptar H0 ” o “rechazar H0 ”. Si un p-value es peque˜ no, se dice que la muestra produjo un resultado que no es usual bajo el supuesto de la hip´ otesis nula. Como el resultado es un hecho, esto quiere decir que la afirmaci´ on de la hip´otesis nula es inconsistente con el resultado muestral. En otras palabras, se deber´ıa rechazar la hip´ otesis nula. Por otro lado, si un p-value es grande, el resultado muestral es consistente con la hip´ otesis nula, y por tanto la hip´otesis nula no se rechaza. Si se desea utilizar el p-value para tomar una decisi´on acerca de si H0 ser´a rechazada, se tiene que seleccionar un valor para α, el nivel de significancia. Si el p-value es menor o igual que α, la decisi´on es rechazar H0 (la prueba es estad´ısticamente significativa); de otra forma, la decisi´on es no rechazar H0 . El p-value es por lo tanto el m´ as peque˜ no nivel de significancia para el cual la hip´ otesis nula ser´ıa rechazada. El p-value proporciona no solamente un medio de tomar una decisi´ on acerca de la hip´otesis nula, sino tambi´en alguna idea acerca de qu´e tan fuerte es la evidencia en contra de la hip´otesis nula. Por ejemplo, suponga que un conjunto de datos A, con una estad´ıstica de prueba T1 tiene un p-value de 0.012, mientras el conjunto de datos B con
270
´ tesis 6. Pruebas de hipo
una estad´ıstica de prueba T2 (´ o T1 ) tiene un p-value de 0.045. La evidencia en contra de la hip´ otesis nula es mucho m´ as fuerte para el conjunto de datos A que para el conjunto de datos B porque el resultado muestral observado es mucho menos probable en el conjunto de datos A. Si se utiliza la distribuci´ on asint´ otica de una estad´ıstica de prueba para encontrar un p-value, a ´este se le puede llamar un p-value aproximado o p-value asint´ otico. Si una prueba tiene una regi´ on de rechazo bilateral (de dos colas), no hay una direcci´ on espec´ıfica para calcular el p-value. Un enfoque es simplemente reportar el m´ as peque˜ no de los dos p-values de las colas, indicando que es el de una cola. Si la distribuci´ on es sim´etrica, tiene sentido tomar el doble del p-value para una cola y este criterio es el m´ as utilizado en la pr´actica. Este procedimiento se usa a´ un si la distribuci´ on no es sim´etrica. Observaci´ on 6.8 Los conceptos y resultados desarrollados en el presente cap´ıtulo proporcionan una prueba o regi´ on cr´ıtica basada en una estad´ıstica, de la cual debe conocerse su distribuci´ on para el c´alculo de un cuantil asociado con dicha distribuci´ on y con el tama˜ no de la prueba α. Sin embargo, la mayor´ıa de los programas de c´omputo estad´ıstico reportan, en lugar de esta forma tradicional de las pruebas, el denominado p-value reci´en definido. Tratando al valor particular de la estad´ıstica (obtenido con los datos) como un cuantil asociado a la distribuci´ on de dicha estad´ıstica, se puede hacer un an´ alisis desde otra perspectiva, comparando probabilidades. Esto es, la probabilidad asociada al valor particular de la estad´ıstica (basado en los datos) tratado como un cuantil y la probabilidad que representa el valor α. As´ı, una prueba de tama˜ no α: rechazar H0 bas´andose en la estad´ıstica T (X) , puede expresarse de una manera an´ aloga como “Rechazar H0 si el p-value es menor que α”. Esta probabilidad asociada al valor particular de la estad´ıstica corresponde a una funci´ on de la probabilidad de que la variable aleatoria que sustenta la prueba sea menor que el valor espec´ıfico obtenido de la informaci´ on de la muestra particular. En este contexto, α recibe el nombre de nivel de significancia y se debe comparar con el p-value obtenido, de tal manera que se rechaza H0 si es p-value ≤ α, diciendo en este caso que la prueba es estad´ısticamente significativa. Ejemplo 6.16 Suponga que se desea obtener una prueba uniformemente m´ as potente de tama˜ no α para una muestra aleatoria de tama˜ no n de una poblaci´ on con distribuci´ on Exponencial con par´ametro θ, donde: H0 : θ = θ0
vs.
Ha : θ > θ0 .
6.5. El valor p (p-value)
271
De acuerdo al lema de Neyman-Pearson, con θ1 > θ0 , se considera Ha : θ = θ1 , obteniendo: Pn
θ0n e−θ0 i=1 xi Pn θ1n e−θ1 i=1 xi n Pn θ0 = e−(θ0 −θ1 ) i=1 xi < k, θ1
λ
=
de donde se obtiene la regi´ on cr´ıtica ( C∗ =
(x1 , x2 , ..., xn ) ∈ X |
n X
) xi < c
i=1
o, equivalentemente, la prueba es γ : Rechazar H0 si
n X
xi < c,
i=1
donde c corresponde al cuantil de una distribuci´on Gama(n, θ0 ) . La prueba resultante es uniformemente m´ as potente debido a que su forma es la misma para cada posible valor consistente con la hip´otesis alternativa. Pn Sea T (X) = 2θ0 i=1 Xi , note que, bajo H0 , T (X) tiene distribuci´on χ2(2n) . As´ı que la prueba tambi´en puede expresarse como γ : Rechazar H0 si t (x) < χ (α) , donde χ (α) corresponde al cuantil α de una variable aleatoria con distribuci´ on χ2(2n) . El p-value se calcula como n Z t 1 1 1 xn−1 e− 2 x dx. p = P (T < t) = Γ (n) 2 0 As´ı, la prueba puede reexpresarse como: γ : Rechazar H0 si p < α. Observe que si t (x) < χ (α) , entonces p < α. Ejemplo 6.17 Sea X1 , X2 , ..., Xn una muestra aleatoria de tama˜ no n = 49 de una poblaci´ on con distribuci´ on Bernoulli de par´ametro θ y suponga que se desea probar: H0 : θ ≤ 0.01
vs.
Ha : θ > 0.01.
272
´ tesis 6. Pruebas de hipo
Suponga que la prueba est´ a dada de la siguiente manera: γ : Rechazar H0 si
49 X
Xi > c,
i=1
prueba que se justifica mediante el teorema de Karlin-Rubin que se aborda en la Secci´ on 6.3.2. P49 Bajo H0 , T (X) = i=1 Xi tiene distribuci´on Binomial con n = 49 y θ = 0.01. Si se desea obtener una prueba de tama˜ no α = 0.05 o inferior, se puede proceder a buscar c como: ! 49 X P Xi > c | H0 = 0.05 (6.12) i=1
o
49 X 49 t 49−t (0.01) (0.99) = 0.05, t t=c+1
(6.13)
P49 donde t = i=1 xi y se desea encontrar c tal que la suma anterior sea de 0.05 (o inferior). Una forma alternativa de pensar el problema es, para diferentes valores de t (x) , encontrar el valor p o p-value correspondiente, como se muestra en la siguiente tabla: P 49 t (x1 , x2 , ..., xn ) P | H X > t (x) 0 i i=1 0 1 2 3 4
0.388883 0.086411 0.013084 0.001480 0.000132
P49 As´ı, si la muestra es tal que t (x) = i=1 xi = 1, el p-value correspondiente P49 es 0.086411, pero si t (x) = i=1 xi = 2, el p-value es de 0.013084. Como se ha establecido que el tama˜ no de la prueba sea de al menos α = 0.05, es claro que la prueba es estad´ısticamente significativa si T (X) es mayor o igual que 2, ya que con t = 1 el p-value es mayor que α. Por lo tanto, la prueba se puede establecer como γ : Rechazar H0 si
49 X
Xi ≥ 2,
i=1
o γ : Rechazar H0 si p ≤ 0.013084.
6.5. El valor p (p-value)
273
Observe que en el ejemplo anterior, de haber usado (6.12), que es equivalente a (6.13), se tendr´ıa que encontrar el valor de c (de hecho, 1 < c < 2, para el valor exacto α = 0.05), mientras que con el enfoque del p-value se pudo deducir el nivel de significancia m´ınimo para el que se rechaza la hip´otesis nula, el cual P49corresponde a cuando el valor de la estad´ıstica toma el valor 2 o mayor ( i=1 Xi s´ olo toma valores enteros). Ejemplo 6.18 (De nuevo la dama del t´e). Ahora se har´a una variante del caso 1 expuesto al inicio de este cap´ıtulo. Suponga que se consideran 20 personas en el experimento, una de ellas la dama que asegura discriminar entre las dos posibles mezclas -t´e, leche; leche, t´e-. A cada participante se le da a probar el contenido de dos tazas con las composiciones en cuesti´on y resulta que 12 de ellas las identificaron correctamente, pero la dama del t´e hizo la clasificaci´ on de manera incorrecta. Bajo las condiciones adecuadas de aleatoriedad, es decir, cada taza tiene la misma probabilidad de contener cualquiera de las mezclas, no hay comunicaci´ on entre los participantes, entre otras; se puede suponer que cada individuo tiene probabilidad 0.5 de identificar correctamente las mezclas adivinando, as´ı que el n´ umero esperado de personas que podr´ıan acertar sin tener habilidades de discriminaci´on ser´ıa de 10. Ante la evidencia de los datos, es decir, que 12 personas hayan clasificado correctamente las tasas, se puede pensar que este resultado no es inconsistente con el valor esperado de 10, sin embargo, se calcular´a a continuaci´on el p-value para analizar mejor este resultado. Suponiendo que la hip´otesis nula es que la probabilidad de ´exito sea de 21 , la probabilidad de que se obtengan 12 ´exitos o m´ as en 20 ensayos Bernoulli es: 20 t 20−t X 20 1 1 t 2 2 t=12
=
20 20 20 20 1 + + ... + 12 13 20 2
=
0.34,
de acuerdo a la cual, no hay evidencia basada en los datos de que el n´ umero correcto de respuestas haya sido consecuencia de alg´ un poder de discriminaci´ on, es decir, el resultado es consistente con la hip´otesis de que las personas est´ an adivinando. Dicho de otra manera, los datos son congruentes con la hip´ otesis nula o la prueba es no significativa. Pero, ¿qu´e pasa con la dama del t´e?. Ella asegura que sus habilidades de discriminaci´ on no se pueden descartar con un s´olo error. A continuaci´ on se llevan a cabo algunos c´alculos para obtener el p-value, para diferentes valores de n, correspondiente a la probabilidad de cometer uno o ning´ un error. As´ı, si n = 5, esta probabilidad es de:
274
´ tesis 6. Pruebas de hipo
5 0 4 1 1 5 1 1 5 1 + 2 2 4 2 2 5
5 5 5 1 + 5 4 2 = 0.1875,
=
que es equivalente a 5 o 4 ´exitos de un total de n = 5 ensayos. En la siguiente tabla se muestran las probabilidades de cometer uno o ning´ un error para diferentes valores de n: n p-value 5 0.1875 6 0.1094 7 0.0625 8 0.0352 9 0.0195 10 0.0107 11 0.0059 12 0.0032 13 0.0017 14 0.0009 15 0.0002 Note la diferencia entre los distintos valores. Por ejemplo, si n = 5, uno o ning´ un error ser´ıa consistente con la hip´ otesis nula, pero si n = 11, no. Observaci´ on 6.9 En el ejemplo anterior, y de manera general, el p-value es una funci´ on decreciente del tama˜ no de la muestra, de tal manera que cuando se tiene un tama˜ no de muestra grande, es m´ as plausible que una prueba sea estad´ısticamente significativa que cuando se cuenta con un tama˜ no peque˜ no de muestra. Esto lleva a la conclusi´ on de que hay que tener cuidado con la interpretaci´ on que se le da al p-value, de tal manera que lo recomendable es considerarlo de manera conjunta con otros aspectos del estudio que se est´e llevando a cabo o en el contexto cient´ıfico del fen´omeno analizado. Para una mayor discusi´ on al respecto, se recomienda consultar Berger y Sellke (1987) y Schervish (1996). Observaci´ on 6.10 Para calcular el p-value correspondiente a una regi´on de rechazo bilateral, se obtiene como: p(x) = 2 m´ın {P[T (X) ≥ t(x)] , P[T (X) ≤ t(x)]} .
´ n de verosimilitudes 6.6. Algunas pruebas basadas en razo
6.6.
275
Algunas pruebas basadas en la raz´ on de verosimilitudes generalizadas
Las pruebas basadas en el cociente o raz´ on de verosimilitudes generalizadas, as´ı como aqu´ellas que usan su distribuci´ on asint´otica Ji-cuadrada, se utilizan ampliamente en las diferentes ramas de la estad´ıstica. Por ejemplo, hay una conexi´ on interesante entre estas pruebas y el llamado criterio de informaci´ on de Akaike o AIC para comparar modelos con diferente n´ umero de par´ ametros. Esto puede plantearse de manera general como un modelo cuyo vector de par´ ametros pertenece al espacio param´etrico Θ y otro tal que pertenece a Θ0 ⊂ Θ y donde la diferencia entre las dimensiones de ambos es r. Bajo H0 , m´ ax L(θ; x1 , ..., xn )
−2 ln
θ∈Θ0
m´ ax L(θ; x1 , ..., xn ) θ∈Θ
m´ax L(θ; x1 , ..., xn ) = 2 ln
θ∈Θ
m´ax L(θ; x1 , ..., xn )
(6.14)
θ∈Θ0
tiene una distribuci´ on asint´ otica χ2(r) . A partir de (6.14) y, usando el hecho de que la esperanza de una variable aleatoria con distribuci´on Ji-cuadrada es igual a sus grados de libertad, se obtiene que r E ln m´ ax L(θ; x1 , ..., xn ) − ln m´ ax L(θ; x1 , ..., xn ) = , θ∈Θ θ∈Θ0 2 lo que sugiere que a´ un cuando H0 es cierta, la verosimilitud del modelo alternativo ser´ a en promedio 2r unidades mayor, donde r es la diferencia de dimensi´ on entre ambos espacios param´etricos. La idea es rectificar o penalizar el incremento de verosimilitud que se produce por el hecho de ajustar un mayor n´ umero de par´ ametros. La expresi´ on 2 ln L(θbM V ; x1 , ..., xn ) − 2r, se conoce como el criterio de Akaike y discrimina m´as a favor de modelos simples al restar 2r a la verosimilitud con m´ as par´ametros. Otra aplicaci´ on de relevancia de las pruebas basadas en la raz´on de verosimilitudes generalizadas es en las llamadas pruebas de bondad de ajuste, las cuales pueden entenderse como los m´etodos que examinan qu´e tan de acuerdo est´ a una muestra de datos con una distribuci´on dada como su poblaci´on. Como ilustraci´ on, suponga que se tiene informaci´on estad´ıstica de 200 p´ olizas de autom´ oviles registradas en el 2017 en el estado de Puebla y se requiere determinar la distribuci´ on asociada a la frecuencia de la siniestralidad. Dado que la frecuencia est´ a relacionada a conteos, un actuario planea
276
´ tesis 6. Pruebas de hipo
probar si la frecuencia de la siniestralidad tiene una distribuci´on Poisson contra la hip´ otesis de que no tiene dicha distribuci´on. En el caso param´etrico que se ha analizado a lo largo de este texto, la ley de probabilidad usualmente est´ a especificada e involucra solamente un n´ umero finito de par´ ametros. Por el contrario, en el caso no param´etrico, la ley de probabilidad no est´ a especificada y el espacio param´etrico es el espacio de todas las distribuciones (o alg´ un subespacio apropiado de este). De esta forma, en el caso no param´etrico la formulaci´on b´asica del problema frecuentemente requiere un enfoque diferente. Hay diferentes pruebas no param´etricas, pero a manera de ejemplo y para ilustrar la importancia de la prueba de la raz´on de verosimilitudes generalizadas y su distribuci´ on asint´ otica, se presenta a continuaci´on el caso de la Ji-cuadrada para bondad de ajuste y el de la independencia en tablas de contingencia.
6.6.1.
Prueba Ji-cuadrada para bondad de ajuste
Karl Pearson introdujo la familia de distribuciones asim´etricas como una alternativa a la distribuci´ on normal, siendo una de sus principales contribuciones en el contexto de sus estudios relacionados con la teor´ıa de la evoluci´ on 4 . 5 En 1900, Pearson propuso una medida del ajuste entre una distribuci´on de probabilidad y una muestra, obteniendo la prueba de la Ji-cuadrada. Esta prueba sigue siendo uno de los procedimientos estad´ısticos m´as conocidos y utilizados en la pr´ actica y se desarrolla como una aplicaci´on de la prueba de la raz´ on de verosimilitudes generalizadas y su distribuci´on asint´otica que se revisaron en la secci´ on 6.4. En su forma m´ as simple, se tienen k celdas, en cada una de las cuales debe caer el resultado de un experimento. Sea pi , i = 1, 2, ..., k, la probabilidad de que el experimento produzca un resultado que caiga en la i -´esima celda y sea ni , i = 1, 2, ..., k, elP n´ umero de veces que el resultado cae en la i-´esima k celda en un total de n = i=1 ni realizaciones del experimento. En resumen, se tiene el siguiente esquema: Celda i N´ umero de observaciones en la celda i Probabilidad de que el resultado est´e en la celda i
1 n1 p1
2 n2 p2
3 n3 p3
··· ··· ···
k nk pk
4 Contributions to the mathematical theory of evolution (I a IV) en Philosophical Transactions of the Royal Society of London. 5 Pearson, K. (1900). “On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling,” Philosophical Magazine 5 th series, 50, 157-175.
´ n de verosimilitudes 6.6. Algunas pruebas basadas en razo
277
Donde se cumple que: k X
ni = n y
i=1
k X
pi = 1.
i=1
Considerando cada celda por separado, cada vez que el resultado caiga en dicha celda puede pensarse en un ´exito y despu´es de efectuar las n repeticiones del experimento, s´ olo es relevante el total de veces que el resultado cay´o en la celda. Lo anterior, sugiere asociar una distribuci´on binomial para cada celda, siendo pi la probabilidad de ´exito en un s´olo ensayo del experimento y, como se efect´ uan n de tales ensayos, el n´ umero esperado de ´exitos para la i-´esima celda ser´ a la esperanza de la correspondiente variable binomial, es decir npi . As´ı, para cada una de las celdas se tendr´ıa que: oi ei
n1 np1
n2 np2
. .
. .
. .
nk npk ,
donde oi representa las frecuencias observadas y ei representa las frecuencias esperadas en un total de n realizaciones del experimento. En este contexto, es posible plantear el problema de bondad de ajuste mediante la siguiente pregunta: ¿c´ omo se puede determinar si un conjunto de resultados experimentales es compatible con los resultados esperados de acuerdo con las probabilidades que fueron postuladas para las celdas? Formalmente, se desea probar la hip´ otesis: H0 : pi = πi , i = 1, 2, ..., k; donde las πi0 s son los valores postulados de las probabilidades de las celdas. ´ Esta es una hip´ otesis simple; sin embargo, y debido a que ordinariamente no se tiene una hip´ otesis alternativa en mente, se emplea aqu´ı una prueba de raz´ on de verosimilitudes generalizadas. La funci´ on de verosimilitud (o densidad conjunta de la muestra), para una variable aleatoria discreta es la probabilidad de obtener los valores muestrales observados en el orden en el cual fueron obtenidos, es decir: L (θ) ≡ L (θ | n1 , n2 , ..., nk ) = pn1 1 pn2 2 pn3 3 ...pknk , donde θ = (p1 , p2 , . . . , pk ). Pk Como i=1 pi = 1, solamente k−1 de las pi ’s son par´ametros independientes; por lo tanto, para encontrar estimadores m´aximo veros´ımiles de las pi ’s, Plos k−1 se reemplazar´ a pk por 1 − i=1 pi , quedando: L (θ) =
nk−1 pn1 1 pn2 2 pn3 3 ...pk−1
1−
k−1 X i=1
!nk pi
.
278
´ tesis 6. Pruebas de hipo
La log-verosimilitud est´ a dada por: =
ln L (θ)
n1 ln p1 + n2 ln p2 + ... + nk−1 ln pk−1 + nk ln 1 −
k−1 X
! pi
i=1
=
k−1 X
ni ln pi + nk ln 1 −
i=1
k−1 X
! pi
.
i=1
Derivando con respecto a pi e igualando a cero, se obtiene: ni nk ∂ ln L (θ) = − Pk−1 = 0, i = 1, 2, ..., k − 1 ∂pi pi 1 − i=1 pi nk ni = , i = 1, 2, ..., k pi pk ⇒ ni pk = nk pi , i = 1, 2, ..., k ⇒
Sumando las k igualdades se tiene que: pk
k X
ni = nk
i=1
donde
Pk
i=1
ni = n y
Pk
i=1
k X
pi ,
i=1
pi = 1, implicando que: p k n = nk ,
por lo tanto
nk . n Este resultado puede generalizarse a las dem´as pi ’s como: ni pbi = , i = 1, 2, ..., k. n Bajo la hip´ otesis nula: L (θ) = π1n1 π2n2 ...πknk , pbk =
la cual no tiene par´ ametros desconocidos, por lo que el cociente de verosimilitudes generalizadas resulta ser: λ
m´ axθ∈Θ0 L (θ) m´ axθ∈Θ L (θ) π1n1 π2n2 ...πknk n = n1 n1 n2 n2 ... nnk k n n n n n nπ1 1 nπ2 2 nπk k = ... , n1 n2 nk =
´ n de verosimilitudes 6.6. Algunas pruebas basadas en razo
279
donde cada ni tiene distribuci´ on Binomial(n, pi ) . Encontrar la distribuci´on de λ es complicado, as´ı que se puede utilizar la distribuci´on asint´otica de -2 ln λ como una Ji-cuadrada con grados de libertad igual a la diferencia en el n´ umero de par´ ametros independientes no especificados bajo Θ y Θ0 , en este caso, k − 1. Entonces la prueba se reduce a considerar: k X nπi , −2 ln λ = −2 ni ln ni i=1 como una variable aleatoria con distribuci´ on Ji-cuadrada con k − 1 grados de libertad y la regi´ on cr´ıtica queda determinada por: λ ≤ λ0 , si y s´ olo si ln λ ≤ ln λ0 , si y s´ olo si −2 ln λ ≥ −2 ln λ0 = c, donde −2 ln λ
= −2
k X
nπi ni
πi ni /n
ni ln
i=1
= −2
k X
ni ln
i=1
= −2
k X
ni . ni ln πi − ln n i=1
(6.15)
Por lo tanto, la regi´ on cr´ıtica es: C = {−2 ln λ ≥ c} , o
( C = −2
k X
ni
i=1
) ni ln πi − ln ≥c , n
donde c es tal que P [−2 ln λ ≥ c | H0 ] = α. Karl Pearson propuso la siguiente expresi´on como estad´ıstica de prueba para el problema de bondad de ajuste: T =
k 2 X (ni − ei ) i=1
ei
,
(6.16)
280
´ tesis 6. Pruebas de hipo
donde ei representa el valor esperado en la celda i, es decir npi y, bajo Ho, ei = nπi . A continuaci´ on se demostrar´ a que la expresi´on para −2 ln λ dada en (6.15) es asint´ oticamente equivalente a (6.16). La expansi´ on en series de Taylor para ln pi alrededor de pbi = nni es: 2 1 1 (pi − pbi ) ln pi = ln pbi + (pi − pbi ) + − 2 +ε pbi 2! pbi 2 2 n pi − ni ni n n ni + pi − = ln − + ε, n n ni 2 ni o ni ni n n i 2 n 2 ln pi − ln = pi − + ε, (6.17) − pi − n n ni n 2n2i donde ε representa la suma de t´erminos con signo alternante: ∞ X ni j nj j+1 . (−1) pi − n j!nji j=3 Bajo H0 , pi = πi , as´ı que sustituyendo (6.17) en (6.15), se obtiene que: −2 ln λ
=
=
=
k X
ni ni ln πi − ln n i=1 k X ni n n i 2 n 2 ni p i − −2 − pi − + ε n ni n 2n2i i=1
−2
−2
k X
(nπi − ni ) +
i=1
k 2 X (nπi − ni )
ni
i=1
+
k X
ε0 ,
(6.18)
i=1
donde k X
(nπi − ni ) = n
i=1
k X i=1
πi −
k X
ni = n − n = 0,
i=1
por lo que (6.18) se reduce a −2 ln λ =
k 2 X (nπi − ni ) i=1
ni
+ ε00 ,
(6.19)
y ε00 → 0 cuando n → ∞, con probabilidad 1. (6.19) tambi´en puede escribirse como: k 2 X (ni − nπi ) −2 ln λ = , (6.20) ni i=1
´ n de verosimilitudes 6.6. Algunas pruebas basadas en razo
281
expresi´ on que, bajo la hip´ otesis nula pi = πi , es muy similar a (6.16), excepto por el denominador, pues ei = nπi . Por la Ley D´ebil de los Grandes N´ umeros se sabe que la variable aleatoria ni converge en probabilidad a p , es decir: i n h n i i l´ım P − pi > ε = 0, para toda ε > 0, n→∞ n lo cual es equivalente a: 1 l´ım P (|ni − npi | > ε) = 0, para toda ε > 0 n→∞ n o
l´ım
n→∞
1 P (|ni − npi | < ε) = 1, para toda ε > 0, n
concluyendo que cuando n → ∞, es posible sustituir a ni por npi , por lo que bajo la hip´ otesis nula, (6.20) se puede escribir como −2 ln λ =
k 2 X (ni − nπi ) i=1
nπi
,
que es igual a la estad´ıstica T dada por (6.16). Como la distribuci´ on asint´ otica de −2 ln λ es Ji-cuadrada con k−1 grados de libertad, se concluye que la estad´ıstica T tiene esa distribuci´on. Ejemplo 6.19 Se lanza un dado 60 veces, obteni´endose las siguientes frecuencias por cara: oi
1 13 n1
2 19 n2
3 11 n3
4 8 n4
5 5 n5
6 4 n6
n = 60
Se quiere probar si el dado es honesto, esto es, si pi denota la probabilidad de que caiga la cara i (con i puntos), se plantea: H0 : pi =
1 , i = 1, 2, ..., 6. 6
Como la probabilidad asignada a cada cara del dado es la misma, la frecuencia esperada es la misma tambi´en para todas las celdas, esto es: ei = nπi = (60) 61 = 10. Entonces: oi ei
1 13 10
2 19 10
3 11 10
4 8 10
5 5 10
6 4 10
282
´ tesis 6. Pruebas de hipo
Calculando la estad´ıstica de prueba: T
=
k 2 X (oi − ei ) i=1
ei
1 1 1 1 2 2 2 2 (13 − 10) + (19 − 10) + (11 − 10) + (8 − 10) 10 10 10 10 1 1 2 2 + (5 − 10) + (4 − 10) 10 10 = 15.6 =
Como k = 6, los grados de libertad de la distribuci´on de la estad´ıstica de prueba son k − 1 = 5 . Por lo tanto, si la prueba tiene un nivel de significancia de α = 0.05, se obtiene el cuantil 0.95 de una distribuci´on χ2(5) que es ω0.95 = 11.1. Como T = 15.6 > 11.1 = ω0.95 , se rechaza H0 y por lo tanto el dado no se considera honesto. Nota: en este problema el p − value es 0.008084. Lo anterior se confirma en R bajo los siguientes comandos: > x < -c(13,19,11,8,5,4) > chifit < -chisq.test(x) > chifit que da como resultado: Chi-squared test for given probabilities data: x X-squared = 15.6, df = 5, p-value = 0.008084 lo cual confirma los resultados previos. Ejemplo 6.20 La siguiente es una muestra aleatoria de tama˜ no n = 20, despu´es de ser ordenadas de menor a mayor las observaciones: 16.7 17.4 18.1 18.2
18.8 19.3 22.4 22.5
24.0 24.7 25.9 27.0
35.1 35.8 36.5 37.6
39.8 42.1 43.2 46.2
Se desea probar: H0 : La muestra representa observaciones de una variable aleatoria distribu´ıda normalmente con µ = 30 y σ 2 = 100 vs. Ha : La distribuci´ on es otra.
´ n de verosimilitudes 6.6. Algunas pruebas basadas en razo
283
Se formar´ an arbitrariamente cuatro clases con igual probabilidad asignada, por lo que se especificar´ an cuatro clases de la distribuci´on N (30, 100) a partir de los cuantiles de la distribuci´ on N (0, 1) . Sean zp los cuantiles de la distribuci´ on N (0, 1), entonces como se desean cuatro clases con la misma probabilidad, lo que se necesitan son los cuartiles, es decir, z0.25 , z0.50 y z0.75 : z0.25 = −0.6745
,
z0.50 = 0
,
z0.75 = 0.6745.
∼ N (0, 1) y por lo tanto, X = Si X ∼ N (30, 100), entonces Z = X−30 10 10Z + 30. As´ı, los cuartiles de una distribuci´on N (30, 100) son: x0.25
=
10 (−0.6745) + 30 = 23.225,
x0.50
=
10 (0) + 30 = 30,
x0.75
=
10 (0.6745) + 30 = 36.745.
La clase 1 contiene todas las observaciones menores o iguales a 23.26, la clase 2 contiene a todas las observaciones entre 23.26 y 30 inclusive y as´ı sucesivamente. En resumen:
oi ei
clase 1 (−∞, 23.26] 8 5
clase 2 (23.26, 30] 4 5
clase 3 (30, 36.75] 3 5
clase 4 (36.75, ∞) 5 5
Las frecuencias esperadas son iguales ya que la p0i s arbitrariamente se toman iguales: 1 ei = npi = 20 = 5, i = 1, 2, 3, 4. 4 Como k = 4 , los grados de libertad de la Ji-cuadrada son k − 1 = 3 y el cuantil 1 − α = 0.95 de una distribuci´ on χ2(3) es ω0.95 = 7.815. Por su parte, el valor de la estad´ıstica de prueba es: T
=
4 2 X (oi − ei ) i=1
=
ei
=
1 2 2 2 2 (8 − 5) + (4 − 5) + (3 − 5) + (5 − 5) 5
2.8.
Como 2.8 < 7.815 no se rechaza H0 y se confirma que los datos presentados se distribuyen N (30, 100) . Nota: en este caso el p − value es 0.5765. Ejemplo 6.21 Un manufacturador de elevadores fundamenta sus est´andares de seguridad en el principio de que los pesos de los adultos se distribuyen
284
´ tesis 6. Pruebas de hipo
normalmente con una media de 62 kg. y una desviaci´on est´andar de 11 kg., es decir, N (62, 121). Sin embargo, recientemente not´o que esta informaci´on es de hace 45 a˜ nos. Naturalmente su departamento R&D desea saber si esta distribuci´ on de pesos es todav´ıa apropiada; ya que si la distribuci´on ha cambiado, debe hacer una revisi´ on en la recomendaci´on para el m´aximo n´ umero de personas permitidas en sus elevadores. Hip´ otesis: la preocupaci´ on del departamento R&D es si ha habido un cambio en la distribuci´ on de los pesos de la poblaci´on adulta. De esta forma, la hip´ otesis alternativa relevante para ellos es que la distribuci´on de pesos no es normal con µ = 62 kg y σ ≤ 11 kg. H0 : La muestra proviene de una distribuci´on normal con media 62 y desviaci´ on est´ andar 11. vs. Ha : La muestra no proviene de una distribuci´on normal con media 62 y desviaci´ on est´ andar 11. En el muestreo actual, el equipo R&D muestre´o a 500 adultos. Sin embargo, para prop´ osito de ilustrar la prueba de la Ji-cuadrada, se usar´an solamente 50 de estos pesos. Los pesos (en kilogramos) fueron: 72.2 85.1 73.1 62.2 68.8
64.0 66.6 39.3 76.0 65.3
53.4 80.4 52.8 70.5 71.9
76.8 76.0 54.2 48.9 72.2
86.3 68.8 65.3 78.0 63.2
58.1 76.8 74.0 66.6 72.2
63.2 58.9 63.2 58.1 70.5
73.1 58.1 64.7 32.5 80.4
78.0 74.9 68.8 63.2 45.4
44.3 72.2 85.1 64.0 59.6
Primero se agrupan estos datos en intervalos (que se eligen arbitrariamente, en este caso ser´ an de 5 kg de amplitud) para hacer la tabla de frecuencias observadas: Intervalo menor que 40 kg 40-49.9 kg 50-54.9 kg 55-59.9 kg 60-64.9 kg 65-69.9 kg 70-74.9 kg 75-79.9 kg 80-89.9 kg 90 kg o m´ as
Frecuencia 2 3 3 5 8 7 11 6 5 0
Con base en la suposici´ on de que la hip´ otesis nula es cierta, es decir, los datos son de la distribuci´ on N (62, 121), se calcula la frecuencia esperada por
´ n de verosimilitudes 6.6. Algunas pruebas basadas en razo
285
intervalo, para esto primero se obtiene la probabilidad para cada intervalo y luego se multiplica por el tama˜ no de la muestra 50. Usando la relaci´on X−62 = , se calcular´ a n los p0i s de la distribuci´on normal est´andar: Z = X−µ σ 11
Intervalo
Ext. izq. del intervalo x
< 40 40-49.9 50-54.9 55-59.9 60-64.9 65-69.9 70-74.9 75-79.9 80-89.9 ≥ 90
40 50 55 60 65 70 75 80 90
z=
x−62 11
-2.00 -1.09 -0.64 -0.18 0.27 0.73 1.18 1.64 2.55
Φ (x)
Proporci´ on esperada en el interv.
0.0228 0.1379 0.2611 0.4286 0.6064 0.7673 0.8810 0.9495 0.9946
0.0228 0.1151 0.1232 0.1675 0.1778 0.1609 0.1137 0.0685 0.0451 0.0054
Frecuencia esperada en el interv. 50 × 0.0228 = 1.140 5.755 6.160 8.375 8.890 8.045 5.685 3.425 2.255 0.270
Como puede apreciarse, hay que unir los dos u ´ltimos intervalos ya que la frecuencia esperada en el u ´ltimo intervalo es menor que uno: Intervalo menor que 40 kg 40-49.9 kg 50-54.9 kg 55-59.9 kg 60-64.9 kg 65-69.9 kg 70-74.9 kg 75-79.9 kg ≥ 80
Observados 2 3 3 5 8 7 11 6 5
Esperados 1.140 5.755 6.160 8.375 8.890 8.045 5.685 3.425 2.525
Por lo tanto, T = 14.429 es el valor de la estad´ıstica de prueba. Por otro lado, como k = 9 celdas, los grados de libertad de la distribuci´on Ji-cuadrada son k − 1 = 8, de donde el cuantil 0.95 de esta distribuci´on es 15.5. As´ı, el valor de la estad´ıstica de prueba es menor que dicho cuantil, por lo que, al nivel de significancia α = 0.05, no se rechaza la hip´otesis nula. El p− value es 0.07124. Observaci´ on 6.11 Si los valores esperados ei = npi son peque˜ nos, la distribuci´ on Ji-cuadrada asint´ otica puede no ser apropiada. ¿Qu´e tan peque˜ nos pueden ser los valores de ei ? No hay una regla exacta, pero existen varias
286
´ tesis 6. Pruebas de hipo
sugerencias que se han propuesto en la literatura, una de las m´as conocidas y utilizadas es la siguiente: Ninguno de los valores esperados ei debe ser menor que 1. No m´ as del 20 % de los valores esperados ei debe ser menor que 5. En este sentido, en caso de que estas condiciones se cumplan, se deben unir celdas adyacentes y recalcular los valores observados y esperados. Observaci´ on 6.12 Si la distribuci´ on de probabilidad de X est´a completamente especificada, excepto para un n´ umero c de par´ametros desconocidos, primero ser´ a necesario estimar los par´ ametros (usando los m´etodos estudiados en al cap´ıtulo de estimaci´ on puntual, preferentemente m´axima verosimilitud), y despu´es se realizar´ a la prueba de bondad de ajuste. En este caso, la distribuci´ on de la estad´ıstica de prueba T ser´ a χ2k−1−c , es decir, los grados de libertad son k −1−c, restando c grados de libertad debido a los c par´ametros estimados.
6.6.2.
La prueba de independencia en tablas de contingencia
Otra aplicaci´ on de la prueba de la raz´ on (o cociente) de verosimilitudes generalizadas es la siguiente: considere el problema de probar si dos variables, que han sido clasificadas por medio de un arreglo de dos entradas, son independientes. Por ejemplo, los datos para este arreglo se obtuvieron de una muestra aleatoria de 300 estudiantes, quienes se clasificaron con respecto a: (1) El tama˜ no de la escuela preparatoria de la cual se graduaron y (2), a su promedio en el primer a˜ no de estudios profesionales. El problema es probar si existe alguna relaci´ on entre estas dos variables. Preparatoria Promedio
≥5
> > # >
Se crea la tabla de contingencia para este ejemplo tabla_contingencia = rbind(c(18, 51, 46), c(42, 79, 64)) colnames(tabla_contingencia)=c("pequena","mediana","grande") rownames(tabla_contingencia) = c("mayor_igual_5", "menor_5") tabla_contingencia = as.table(tabla_contingencia) Usando la funci´ on chisq.test chisq.test(tabla_contingencia)
El resultado es: Pearson’s Chi-squared test data: tabla_contingencia X-squared = 2.372, df = 2, p-value = 0.3054 Lo que confirma los c´ alculos previos. La extensi´ on de las tablas de contingencia de doble entrada a tablas de contingencia de orden mayor es inmediata. Para una tabla de r1 × r2 × r3 , para la hip´ otesis de independencia completa: H0
:
Pijk = Pi•• P•j• P••k para todo
i
=
1, 2, ..., r1 j = 1, 2, ..., r2 y k = 1, 2, ..., r3
Los estimadores de las frecuencias esperadas son: eijk
= nPbijk = nPbi•• Pb•j• Pb••k n n n = n i•• •j• ••k n n n ni•• n•j• n••k = , n2
´ n de verosimilitudes 6.6. Algunas pruebas basadas en razo
295
y la estad´ıstica de prueba es: T =
r3 r2 X r1 X 2 X (nijk − eijk ) i=1 j=1 k=1
eijk
con r1 r2 r3 − 1 − (r1 − 1 + r2 − 1 + r3 − 1) = r1 r2 r3 − r1 − r2 − r3 + 2 grados de libertad. Otra hip´ otesis de independencia que se usa muy a menudo es: H0 : Pijk = Pi•• P•jk donde, las frecuencias esperadas estimadas son: eijk =
ni•• n•jk n
y la estad´ıstica de prueba tiene: r1 r2 r3 − 1 − (r1 − 1 + r2 r3 − 1) = (r1 − 1) (r2 r3 − 1) grados de libertad. A continuaci´ on se ver´ a c´ omo medir el grado de asociaci´on entre variables. El coeficiente de contingencia Como una medida del grado de asociaci´ on entre variables en una tabla de contingencia en donde se clasifican un total de n unidades experimentales, Karl Pearson propuso el coeficiente de contingencia C, definido como: 1/2 Q , C= Q+n donde Q es la estad´ıstica de prueba apropiada para la hip´otesis de independencia. Si las variables son completamente independientes, los valores de Q y C son ambos peque˜ nos. Adem´ as, valores crecientes de C implican un incremento en el grado de asociaci´ on, ya que valores grandes de Q son un resultado de m´ as alejamiento significativo entre las frecuencias observadas y esperadas de celdas. Pero el valor de C no puede ser mayor de uno para cualquier n, una desventaja de C como una medida de asociaci´on es que no puede alcanzar el valor de 1. Puede demostrarse f´ acilmente que para una tabla de contingencia de doble entrada de r × c, el valor m´ aximo de C es: 1/2 t−1 Cm´ax = , donde t = m´ın (r, c) . t
296
6.7.
´ tesis 6. Pruebas de hipo
Pruebas de hip´ otesis en el contexto Bayesiano
En el contexto Bayesiano tambi´en se realizan contrastes de hip´otesis y en este caso, es posible hacer pruebas de dos o m´as de ellas: H1 : θ ∈ Θ1 ,
H2 : θ ∈ Θ2 ,
···
HJ : θ ∈ ΘJ ,
donde Θ1 , Θ2 , . . . , ΘJ denotan una partici´ on del espacio param´etrico Θ. En esta secci´ on s´ olo se presentar´ a el caso del contraste de dos hip´otesis, sin embargo la extensi´ on a un n´ umero mayor ser´a natural. Suponga que X proviene de un modelo f (x|θ) y que se desea evaluar las hip´ otesis: H0 : θ ∈ Θ0 vs. Ha : θ ∈ Θ1 , donde Θ0 y Θ1 constituyen una partici´ on del espacio param´etrico Θ. Recuerde que para hacer inferencia estad´ıstica desde una perspectiva Bayesiana se requiere una distribuci´ on inicial del par´ ametro θ. Si se asigna una distribuci´ on inicial propia con densidad6 π(θ), entonces es posible evaluar las dos hip´ otesis a priori a trav´es del cociente: R π(θ)dθ P(θ ∈ Θ0 ) τ0 = RΘ0 = . τ1 P(θ ∈ Θ1 ) π(θ)dθ Θ1 Una vez que se han observado los datos, X = x, la apreciaci´on inicial acerca del par´ ametro se actualiza a trav´es de la distribuci´on posterior π(θ|x) ∝ L(θ|x)π(θ), donde L(θ|x) denota la funci´ on de verosimilitud. Las dos hip´otesis planteadas pueden evaluarse ahora considerando la distribuci´on posterior a trav´es del cociente R π(θ|x)dθ P(θ ∈ Θ0 |x) p0 = = RΘ0 . p1 P(θ ∈ Θ1 |x) π(θ|x)dθ Θ1 En el enfoque Bayesiano el contraste de hip´otesis consistir´a en comparar las distribuciones de los par´ ametros y elegir aquella hip´otesis con probabilidad mayor. Por ejemplo, si s´ olo se cuenta con informaci´on inicial entonces 6 Esta notaci´ on para la densidad inicial en esta secci´ on no tiene relaci´ on con la funci´ on potencia, la cual tambi´ en se ha denotado con π a lo largo del presente cap´ıtulo. En el contexto Bayesiano se hace la especificaci´ on de que se trata de las densidades a priori o a posteriori y simplemente es para que haya congruencia con la notaci´ on utilizada en el cap´ıtulo de Estimaci´ on Puntual en donde se aborda la estimaci´ on Bayesiana.
´ tesis en el contexto Bayesiano 6.7. Pruebas de hipo
297
se podr´ıan comparar las probabilidades τ0 y τ1 y elegir H0 o Ha de acuerdo a aquella hip´ otesis con probabilidad mayor; pero si adem´as se observ´o una muestra X = x entonces se podr´ıan comparar las probabilidades p0 y p1 y elegir H0 ´ o Ha de acuerdo a aquella hip´ otesis con probabilidad mayor. Con frecuencia se propone a la estad´ıstica conocida como factor de Bayes, definida como p0 /p1 FB = , τ0 /τ1 como una medida de la evidencia que proporcionan los datos a favor de la hip´ otesis nula. Note que el factor de Bayes compara de manera simult´anea las probabilidades obtenidas a partir de las distribuciones iniciales τ0 y τ1 y las obtenidas de las distribuciones posteriores p0 y p1 . Cuando ambas hip´otesis son igualmente probables de manera inicial, es decir τ0 = τ1 , el factor de Bayes se reduce a s´ olo comparar las distribuciones finales p0 y p1 . La evaluaci´ on de la probabilidad relativa de las hip´otesis o los modelos (asociados a esas hip´ otesis) se puede hacer utilizando la probabilidad posterior del modelo asociado:
π(Hj |x)
π(x|Hj )π(Hj ) π(x) π(x|Hj )π(Hj ) = PJ k=1 π(x|Hk )π(Hk ) ∝ π(x|Hj )π(Hj ), =
donde π(Hj ) es la probabilidad inicial del modelo y j = {0, a}. Es decir, π(H0 ) y π(Ha ) son las probabilidades iniciales bajo las hip´otesis H0 y Ha , respectivamente. Adem´ as: Z π(x|Hj ) = π(x|θ)π(θ|Hj )dθ es la verosimilitud marginal bajo el modelo Hj , y π(θ|Hj ) es la distribuci´on inicial para θ cuando Hj es cierta. Por lo tanto, si se desea contrastar dos hip´otesis H0 y Ha , para evaluar la probabilidad relativa de estas hip´ otesis, se deber´a calcular π(H0 |x) y π(Ha |x), y estas probabilidades se podr´ıan comparar usando el factor de Bayes. Sin embargo, estas evaluaciones deben hacerse tomando en cuenta los contextos particulares de cada modelo. Los siguientes ejemplos buscan hacer algunas observaciones en este sentido.
298
´ tesis 6. Pruebas de hipo
Ejemplo 6.23 Sea X una variable aleatoria de un modelo Normal(µ, 1) , si se plantean las hip´ otesis H0 : µ = 0 contra la alternativa Ha : µ 6= 0; adoptando una distribuci´ on inicial conjugada para µ que sea N ormal(0, S 2 ) con S > 0. Note que en este caso el espacio param´etrico es Θ = {µ; µ ∈ R} = (−∞, ∞), el conjunto de los reales. Bajo la hip´otesis nula H0 el espacio param´etrico es Θ0 = {0} y bajo la hip´ otesis alternativa Ha el espacio param´etrico es Θ1 = {µ; µ 6= 0, µ ∈ R}. Para hacer el contraste de hip´ otesis en el contexto Bayesiano, se requerir´a calcular el factor de Bayes F B = π(H0|x)/π(Ha |x). Note que tambi´en puede obternerse que π(H0 |x) = 1/ 1 + F1B . Suponiendo que no se tiene mayor informaci´on acerca de cu´al de las hip´ otesis tiene mayor probabilidad inicial, se supondr´a que π(H0 ) = π(Ha ). En esto caso el factor de Bayes se reducir´ıa a calcular F B = π(x|H0 )/π(x|Ha ). Bajo la hip´ otesis nula, H0 : µ = 0, π(x|H0 ) = π(x|µ = 0) = N (x|0, 1). Bajo la hip´ otesis alternativa Ha : µ 6= 0, π(x|Ha ) Z = π(x|µ)π(µ|Ha )dµ Z = N (x|µ, 1)N (µ|0, S 2 )dµ Z 1 1 1 1 2 2 √ √ = exp − (x − µ) exp − 2 µ dµ 2 2S 2π 2πS 2 ( ) 1 1 1 x2 exp − x2 + =p 2 2 1 + S12 2π(1 + S 2 ) q ( #) " Z 1 + S12 1 1 x x2 2 + √ × exp − 1 + 2 µ − 2µ dµ 2 2 S 1 + S12 2π 1 + S12
1
1 =p exp − x2 2 2(1 + S 2 ) 2π(1 + S )
= N (x|0, 1 + S 2 ). Por lo tanto, el factor de Bayes resulta en FB =
N (x|0, 1) . N (x|0, 1 + S 2 )
´ tesis en el contexto Bayesiano 6.7. Pruebas de hipo
299
Observe que en este caso el factor de Bayes crece cuando S 2 → ∞ para cualquier x. Ejemplo 6.24 Considere el experimento de lanzar una moneda n veces, donde las variables aleatorias Yi son independientes con distribuci´on Yi ∼ Bernoulli(θ), para i = 1, . . . , n. La hip´ otesis nula se plantea como H0 : θ = 0.5 contra la alternativa Ha : θ 6= 0.5, con una distribuci´on inicial θ ∼ Beta(a, b). Para hacer el contraste de hip´ otesis se calcular´a el factor de Bayes F B = π(H0 |y)/π(Ha |y). Otra vez, no se tiene mayor informaci´on acerca de cu´al de las hip´ otesis tiene mayor probabilidad inicial, as´ı que se supondr´a que π(H0 ) = π(Ha ), y entonces el factor de Bayes se reducir´ıa a calcular F B = π(y|H0 )/π(y|Ha ). Bajo la hip´ otesis nula, H0 : θ = 0.5, π(y|H0 ) = π(y|θ = 0.5) = 0.5n . Bajo la hip´ otesis alternativa, Ha : θ 6= 0.5, se tiene que dadas las observaciones, la verosimilitud es L(θ|y) = θ
Pn
i=1
yi
(1 − θ)n−
Pn
i=1
yi
y distribuci´ on inicial del par´ ametro θ es π(θ|Ha ) =
θa−1 (1 − θ)b−1 , B(a, b)
donde B(a, b) = Γ(a)Γ(b) on beta. Entonces la probabilidad posteΓ(a+b) es la funci´ rior de Y = y dada Ha es π(y|Ha ) Z = π(y|θ)π(θ|Ha )dθ Z = L(θ|y)π(θ|Ha )dθ Z P Pn n θa−1 (1 − θ)b−1 = θ i=1 yi (1 − θ)n− i=1 yi dθ B(a, b) P Pn Pn Pn Z n B ( i=1 yi + a , n − i=1 yi + b) θ i=1 yi +a−1 (1 − θ)n− i=1 yi +b−1 Pn Pn = dθ B(a, b) B ( i=1 yi + a , n − i=1 yi + b) Pn Pn B ( i=1 yi + a , n − i=1 yi + b) = , B(a, b)
300
´ tesis 6. Pruebas de hipo
y el factor de Bayes es: FB
0.5n
=
Pn
B(
=
B(
i=1
P yi +a , n− n i=1 yi +b) B(a,b) n
0.5 B(a, b) Pn . y + a , n − i=1 yi + b) i i=1
Pn
0.8
Ahora considere dos casos particulares con el objetivo de comparar los resultados obtenidos en el contraste de hip´ otesis bajo los contextos de estad´ıstica Bayesiana y del cociente de verosimilitudes generalizadas. Sean n = 10 y n = 50 del modelo bajo H0 , con π(θ|H1 ) ∼ Beta(2, 2), la figura 6.4 muestra las probabilidades posteriores π(H0 |y).
0.4 0.0
0.2
p(H0|y)
0.6
n=50 n=10
0.0
0.2
0.4
0.6
0.8
1.0
y
Figura 6.4: Probabilidad posterior del modelo por tama˜ no de muestra. La verosimilitud es L(θ|y) = π(y|θ) y el cociente de verosimilitudes generalizadas para probar las hip´ otesis planteadas es: λ(y) =
m´ axΘ0 L(θ|y) L(θˆ0 ) = , ˆ m´ axΘ L (θ|y) L(θ)
donde θˆ0 y θˆ son los estimadores m´ aximo veros´ımiles en los espacios param´etricos correspondientes. Para este caso: 0.5n λ(y) = n¯y . y¯ (1 − y¯)n−n¯y
´ tesis en el contexto Bayesiano 6.7. Pruebas de hipo
301
La regi´ on de rechazo es de la forma {y : λ(y) ≤ k}. Se ha visto que, bajo ciertas condiciones, d −2 ln(λ(y)) → χ2(ν) . y si el p-value < α, entonces se rechaza H0 con un nivel de significancia α. Considere ahora que n = 10, 000 y y = 4, 900; el p-valor se aproxima a P(χ21 > (4.000267)) = 0.04549306 y la probabilidad posterior de H0 , π(H0 |y) ≈
1 = 0.8780995. 1 + 1/7.203413
En este caso particular, bajo el cociente de verosimilitudes generalizadas el p-valor conlleva a rechazar la hip´ otesis nula, pero usando la probabilidad posterior se elegir´ıa la hip´ otesis nula y, por lo tanto, las conclusiones ser´ıan opuestas. Estas situaciones que se han ilustrado con los ejemplos pueden observarse ya sea por un efecto del tama˜ no de muestra, por una hip´otesis nula precisa contra una alternativa muy difusa, o por la probabilidad a priori asignada a las hip´ otesis. En este sentido, el enfoque Bayesiano penaliza las probabilidades iniciales difusas. Existen muchas otras propuestas para evaluar hip´otesis o modelos, aqu´ı se plantea una a manera de ilustraci´ on. Para realizar la comparaci´ on de estos modelos es usual que se consideren otras medidas de bondad de ajuste, que como en el caso del factor de Bayes, puedan utilizarse para comparar modelos y que ayuden en la toma de decisiones. Uno de los criterios muy utilizados en estad´ıstica Bayesiana es el Criterio de Informaci´ on Bayesiano (BIC, por su nombre en ingl´es Bayesian Information Criterion). Definici´ on 6.12 Criterio de Informaci´ on Bayesiana (BIC). Sea X una muestra aleatoria de tama˜ no n. Suponga que se tienen dos posibles modelos, f1 (X|θ1 , . . . , θm1 )
y
f2 (X|θ1 , . . . , θm2 ),
cada uno parametrizado por m1 y m2 par´ ametros: θ1 , . . . , θm1 y θ1 , . . . , θm2 , respectivamente, los cuales pueden tener elementos en com´ un. El BIC se define como: L1 (θ1 , . . . , θm1 |X) + (m1 − m2 ) ln(n). BIC = −2 ln L2 (θ1 , . . . , θm2 |X) Ejemplo 6.25 Suponga que, dada una muestra aleatoria de tama˜ no n, se tienen las siguientes hip´ otesis para un fen´ omeno de inter´es: H0 : Xi ∼ Gama(α, β)
vs.
Ha : Xi ∼ Exp(θ).
302
´ tesis 6. Pruebas de hipo Bajo H0 se tienen m1 = 2 par´ ametros, y la verosimilitud es: L(α, β|X)
= =
=
n Y
Gama(xi |α, β)
i=1 n Y
β α α−1 −xi β x e Γ(α) i i=1 !α−1 n Y P β nα − n i=1 xi β . x e i Γ(α)n i=1
Bajo Ha se tiene m2 = 1 par´ ametro, y la verosimilitud es: L(θ|X)
= = =
n Y i=1 n Y
Exp(xi |θ) θe−xi θ
i=1 P n − n i=1 xi θ
θ e
.
Q100 Considere el caso particular n = 100, x ¯ = 0.479, i=1 xi = 2.898146e−44 y las hip´ otesis: H0 : Xi ∼ Gama(2, 4) vs. Ha : Xi ∼ Exp(0.5). El BIC se calcula como: nα Q α−1 − Pn xi β n β i=1 ( x ) e n i i=1 Γ(α) + (m1 − m2 ) ln(n). Pn BIC = −2 ln θn e− i=1 xi θ 200 4 × (2.898146e − 44) × exp(−191.6568) = −2 ln + ln(100) (0.5100 ) exp(−23.95711) = −152.6433. En algunos contextos se sugiere que si el BIC ≤ 2 la evidencia que favorece al primer modelo es muy d´ebil, mientras que si el BIC > 10 la evidencia de ello es contundente.
6.8.
Ejercicios
1. Sea X una variable aleatoria con funci´ on de densidad f (x; θ). Considere H0 : θ = θ0 y Ha : θ = θ1 , tal que la funci´on de densidad es la siguiente:
303
6.8. Ejercicios x f (x; θ0 ) f (x; θ1 )
1 0.01 0.06
2 0.01 0.05
3 0.01 0.04
4 0.01 0.03
5 0.01 0.02
6 0.01 0.01
7 0.94 0.79
Use el lema de Neyman-Pearson para encontrar la prueba estad´ıstica m´ as potente para contrastar las hip´ otesis H0 vs. Ha , con tama˜ no de prueba α = 0.04. Calcule el tama˜ no del error tipo II. 2. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con funci´on de densidad f (x; θ). Considere las hip´ otesis H0 : f (x; θ) = Ha : f (x; θ) =
1 , θ
1 −x/θ e , θ
x ∈ (0, θ) x ∈ (0, ∞)
Uniforme(0, θ) 1 Exponencial( ). θ
(a) Determine la prueba del cociente de verosimilitudes, junto con su regi´ on cr´ıtica C, asociada a las pruebas H0 vs. Ha . (b) Obtenga la potencia de la prueba πγ (θ) y haga su gr´afica. 3. Suponga que X1 , X2 , X3 , X4 es una muestra aleatoria de la poblaci´on con distribuci´ on Normal(µ, 4), donde µ es desconocido. Se desea contrastar las hip´ otesis H0 : µ = 1 vs. µ = 4 y se consideran las siguientes pruebas: Prueba γ1 : Rechazar H0 si y s´ olo si X1 > 3.7. Prueba γ2 : Rechazar H0 si y s´ olo si 31 (X1 + 2X2 ) > 3.5. Prueba γ3 : Rechazar H0 si y s´ olo si 21 (X1 + X3 ) > 3.2. Prueba γ4 : Rechazar H0 si y s´ olo si X > 3.1. Encuentre las probabilidades de los errores tipo I y tipo II para cada una de las pruebas y comp´ arelas. 4. Se lanza 1000 veces una moneda y el resultado es 560 “soles” y 440 “´ aguilas”. Sea θ la probabilidad de que caiga un “sol”. (a) ¿Se puede suponer que la moneda est´a equilibrada o la probabilidad de obtener un “sol” es mayor que la de obtener “´aguila”? Plantee las hip´ otesis. (b) Obtenga la prueba uniformemente m´as potente. (c) Calcule el p-value.
304
´ tesis 6. Pruebas de hipo
5. Suponga que X1 , X2 , X3 , X4 es una muestra aleatoria de la poblaci´on con distribuci´ on Exponencial(θ). Se desea contrastar las hip´otesis H0 : θ = 2 vs. θ = 6 y se consideran las siguientes pruebas: Prueba Prueba Prueba Prueba
γ1 : γ2 : γ3 : γ4 :
Rechazar Rechazar Rechazar Rechazar
H0 H0 H0 H0
si si si si
y y y y
s´ olo s´ olo s´ olo s´ olo
si si si si
X1 > 4. 1 2 (X1 + X2 ) > 3.5. 1 3 (X1 + X2 + X3 ) > 3.4. X > 2.8.
Encuentre las probabilidades de los errores tipo I y tipo II para cada una de las pruebas y comp´ arelas. 6. Suponga que X1 y X2 son variables aleatorias de una poblaci´on con funci´ on de densidad de probabilidad f (x; θ) = θxθ−1 si 0 < x < 1, donde θ > 0 es desconocido. Para contrastar las hip´otesis H0 : θ = 1 vs. Ha : θ = 2 se considera la regi´on cr´ıtica: 3 C = (x1 , x2 ); (x1 , x2 ) ∈ (0, 1) × (0, 1), x1 x2 ≥ . 4 (a) Muestre que el tama˜ no de la prueba es α = 14 + 34 log 34 . 7 + 98 log 34 . (b) Muestre que la potencia de la prueba en θ = 2 es 16 7. Sea X1 , . . . , X10 una muestra aleatoria de tama˜ no n = 10 de la poblaci´ on con distribuci´ on Bernoulli(p). (a) Encuentre una prueba m´ as potente de tama˜ no α = 0.0547 para probar las hip´ otesis H0 : p = 12 vs. Ha : p = 14 . Encuentre la potencia de esta prueba y el tama˜ no del error tipo II. (b) Para constrastar las hip´ otesis H0 : p ≤ 12 vs. Ha : p > 12 , se tiene una regi´ on cr´ıtica 10 X xi ≥ 6}. C = {x; i=1
Encuentre el tama˜ no de la prueba y grafique su funci´on potencia. 8. Suponga que X es una variable aleatoria con funci´on de densidad de probabilidad f (x; θ), donde x ∈ R. Considere las funciones definidas de la siguiente manera: f0 (x) =
−1 1 1 + x2 , π
f1 (x) =
1 exp {−|x|} . 2
305
6.8. Ejercicios Se contrastan las hip´ otesis H0 : f (x; θ) = f0 (x) vs.
Ha : f (x; θ) = f1 (x).
(a) Muestre que la prueba m´ as potente de tama˜ no α es: rechazar la hip´ otesis nula si y s´ olo si |X| < k. (b) Determine k como una funci´ on de α. (c) Calcule la potencia de la prueba. 9. Sea X una observaci´ on con funci´ on de densidad f (x; θ) = (2θx+1−θ), donde x ∈ [0, 1] y θ ∈ [−1, 1]. (a) Encuentre la prueba m´ as potente de tama˜ no α para contrastar las hip´ otesis H0 : θ = 0 vs. Ha : θ = 1. (Sugerencia: la prueba debe estar expresada en t´erminos de α). (b) Para contrastar las hip´ otesis H0 : θ ≤ 0 vs. Ha : θ > 0, la regla de decisi´ on es: Rechazar H0 si x > 21 , es decir, la regi´on cr´ıtica es C = {x : x > 12 }. Encuentre la potencia π(θ) y el tama˜ no de la prueba α. (c) ¿Existe una prueba uniformemente m´as potente (UMP) de tama˜ no α para contrastar las hip´ otesis H0 : θ ≤ 0 vs. Ha : θ > 0?. ¿Cu´ al es? (d) Obtenga la prueba del cociente de verosimilitudes generalizadas para contrastar las hip´ otesis H0 : θ = 0 vs. Ha : θ 6= 0. (e) Entre todas las posibles pruebas para contrastar las hip´otesis H0 : θ = 0 vs. Ha : θ = 1, obtenidas del cociente de verosimilitudes simple (lema de Neyman-Pearson), encuentra la prueba que minimice α + β, donde α y β son los tama˜ nos de los errores tipo I y II, respectivamente. 10. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on P oisson(λ). (a) Encuentre la prueba uniformemente m´as potente para contrastar las hip´ otesis H0 : λ = λ0
vs.
Ha : λ > λ0 .
Grafique la funci´ on potencia considerando que λ0 = 1, n = 25 y α = 0.05.
306
´ tesis 6. Pruebas de hipo (b) Obtenga la regi´ on cr´ıtica usando el cociente de verosimilitudes generalizadas para contrastar las hip´otesis H0 : λ = λ0
Ha : λ 6= λ0 .
vs.
Nota: la regi´ on cr´ıtica deber´ıa estar definida en t´erminos de
n P
Xi .
i=1
(c) Una prueba estad´ıstica razonable para contrastar las hip´otesis H0 : λ = λ0 vs. Ha : λ 6= λ0 podr´ıa ser la siguiente: γ:
Rechazar
H0
si
¯ − λ0 | ≥ k. |X
Encuentre el valor de k tal que el tama˜ no del error tipo I sea α = 0.05. Nota: Suponga que n es suficientemente grande tal que puede usarse el teorema del l´ımite central. 11. Se supone que el n´ umero de accidentes de autom´ovil tiene una distribuci´ on Poisson. En a˜ nos anteriores, el n´ umero promedio de accidentes por a˜ no fue de 15, y este a˜ no fue de 10. ¿Se puede concluir que el n´ umero de accidentes ha disminuido? Calcule el p-value. 12. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on P oisson(λ). (a) Encuentre una prueba uniformemente m´as potente (UMP) de tama˜ no α para contrastar las hip´ otesis H0 : λ ≤ λ0 vs. Ha : λ > λ0 . (b) Considere el caso particular con λ0 = 1, es decir, H0 : λ ≤ 1 vs. Ha : λ > 1. Use el teorema del l´ımite central para determinar el tama˜ no de la muestra n, tal que la prueba UMP cumpla que P(Rechazar H0 |λ = 1) = 0.05 y P(Rechazar H0 |λ = 2) = 0.9. (c) Use la prueba del cociente de verosimilitudes para encontrar una regi´ on cr´ıtica para probar las hip´ otesis H0 : λ = λ0 vs. H1 : λ 6= λ0 . Nota: on cr´ıtica debe quedar expresada en t´erminos de Pn la regi´ X . i=1 i 13. Considere una muestra aleatoria de n observaciones independientes de una misma distribuci´ on. Determine la regi´on de rechazo de la prueba de raz´ on de verosimilitudes para probar H0 vs. Ha en los tres casos siguientes. (a1) Ho : θ = θ0 vs Ha : θ 6= θ0 , cuando la muestra aleatoria proviene de una distribuci´ on P oisson(θ).
307
6.8. Ejercicios
(a2) Si θ0 = 1, n = 4, (x1 , x2 , x3 , x4 ) = (2, 1, 3, 4), α = .05. ¿Qu´e concluir´ıa de la prueba? (b1) Ho : p = p0 vs. Ha : p 6= p0 , cuando la muestra aleatoria proviene de una distribuci´ on Bernoulli(p). (b2) Si Ho : p = 1/2 vs. Ha : p 6= 1/2 y las observaciones reportan P40 e concluir´ıa de la prueba con α = .05? i=1 xi = 10, n = 40. ¿Qu´ 2 2 (c1) Ho : σ = σ0 vs. Ha : σ 2 6= σ02 cuando la muestra aleatoria proviene de una distribuci´ on N (0, σ 2 ). (c2) Si Ho : σ 2 = 1 vs. Ha : σ 2 6= 1 y las observaciones reportan P40 2 e concluir´ıa de la prueba con α = .05? i=1 xi = 80, n = 40. ¿Qu´ 14. Sea X1 y X2 una muestra aleatoria de la poblaci´on con distribuci´on U nif orme(θ, θ + 1). Para constrastar las hip´otesis H0 : θ = 0 vs.
Ha : θ > 0,
se tienen dos posibles pruebas estad´ısticas (reglas de decisi´on): γ1 : Rechazar H0 si
X1 > 0.95,
γ2 : Rechazar H0 si
X1 + X2 > k.
(a) Encuentre el valor de k tal que γ2 tenga el mismo tama˜ no que γ1 . (b) Calcula las funciones potencia de cada prueba, πγ1 (θ) y πγ2 (θ). Graf´ıquelas. (c) ¿Qu´e prueba es m´ as potente? Explique. (d) Muestre c´ omo obtener una prueba estad´ıstica tal que tenga el mismo tama˜ no que γ2 pero que sea m´as potente. 15. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on U nif orme(0, θ), y sean Y1 , . . . , Yn sus estad´ısticas de orden. Para contrastar las hip´ otesis H0 : θ = θ0 vs. Ha : θ 6= θ0 , con θ0 fijo. La prueba estad´ıstica γ (regla de decisi´ on) es: Rechazar H0 si Yn > θ0 ´o Yn < θ0 α1/n . (a) Encuentre la funci´ on potencia πγ (θ) y graf´ıquela. (b) Encuentre otra prueba estad´ıstica γ2 , que tenga el mismo tama˜ no de prueba y muestre que γ es una prueba m´as potente que γ2 . 16. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on U nif orme(θ, θ + 1). Sean Y1 ≤ · · · ≤ Yn las estad´ısticas de orden. Para contrastar las hip´ otesis H0 : θ = 0
vs.
Ha : θ > 0,
308
´ tesis 6. Pruebas de hipo se utiliza la siguiente prueba estad´ıstica γ:
Rechazar
H0
Yn ≥ 1 o si Y1 ≥ k,
si
donde k es una constante. (a) Determine el valor de k para que el tama˜ no de la prueba sea α. (b) Calcule la funci´ on potencia de la prueba y graf´ıquela. (c) Calcule los valores de n y k tal que el tama˜ no de la prueba sea α = 0.1 y la potencia sea al menos de 0.8 para todo θ > 1. 17. Sea X una variable aleatoria con distribuci´on Log´ıstica(θ, 1), con funci´ on de densidad f (x; θ) =
e(x−θ) , [1 + e(x−θ) ]2
x ∈ R, θ ∈ R.
Usando una observaci´ on (muestra de tama˜ no n = 1): (a) Encuentre una prueba m´ as potente γ ∗ de tama˜ no α (con mejor ∗ regi´ on cr´ıtica C ) para contrastar las hip´otesis H0 : θ = 0
vs.
Ha : θ = 1.
(b) Para (a), si α = 0.2, calcule el tama˜ no del error tipo II. (c) Obtenga la prueba uniformemente m´as potente γ ∗ de tama˜ no α para contrastar las hip´ otesis H0 : θ ≤ 0
vs.
Ha : θ > 0.
18. Sean X1 , . . . , Xn y Y1 , . . . , Ym dos muestras aleatorias, mutuamente independientes, con distribuci´ on Exponencial(θ) y Exponencial(η), respectivamente, con funci´ on de densidad f (x; θ) = θe−θx y f (y; η) = ηe−ηy . (a) Use la prueba del cociente de verosimilitudes generalizadas para encontrar la regi´ on cr´ıtica C asociada a las hip´otesis: H0 : θ = η
vs.
Ha : θ 6= η.
(b) Muestre que C se puede simplificar en t´erminos de la siguiente estad´ıstica Pn Xi i=1 P T = Pn . m i=1 Xi + j=1 Yj ¿Cu´ al es la distribuci´ on de T bajo H0 ? [Nota: la distribuci´on de T no depende de θ ni de η cuando H0 es cierta.]
6.8. Ejercicios
309
19. Sea X una observaci´ on con funci´ on de densidad f (x; θ) = (1 + θ)xθ , donde x ∈ [0, 1] y θ > −1. (a) Encuentre la prueba m´ as potente de tama˜ no α para contrastar las hip´ otesis H0 : θ = 0 vs. Ha : θ = 1. (b) ¿Existe una prueba uniformemente m´as potente de tama˜ no α para contrastar las hip´ otesis H0 : θ ≤ 0 vs. Ha : θ > 0? En caso afirmativo, encu´entrela. (c) Dentro de las posibles pruebas del cociente de verosimilitudes para constrastar las hip´ otesis H0 : θ = 0 vs. Ha : θ = 1, encuentre una prueba que minimice 2α + β, donde α y β son los tama˜ nos de los errores tipo I y tipo II. (d) Realice la prueba del cociente de verosimilitudes generalizadas para contrastar las hip´ otesis H0 : θ = 0 vs. Ha : θ 6= 0. 20. Sea X una observaci´ on de una variable aleatoria con distribuci´on Beta(θ, 1). (a) Sea C = {X; X > 1/2} la regi´ on cr´ıtica para probar las hip´otesis H0 : θ ≤ 1 vs. Ha : θ > 1. Encuentre el tama˜ no de la prueba y grafique su funci´ on potencia. (b) Encuentre la prueba m´ as potente de tama˜ no α para contrastar las hip´ otesis H0 : θ = 1 vs. Ha : θ = 2. (c) Encuentre una prueba uniformemente m´as potente (UMP) de tama˜ no α para constrastar las hip´ otesis H0 : θ ≤ 1 vs. Ha : θ > 1. 21. Sea X una variable aleatoria con distribuci´on Beta(θ, 1) con funci´on de densidad f (x; θ) = θxθ−1 , donde x ∈ (0, 1) y θ > 0. (a) Se selecciona una muestra de tama˜ no n = 2. Para contrastar las hip´ otesis H0 : θ ≤ 1 vs. Ha : θ > 1 se usa la regi´on cr´ıtica C = {(x1 , x2 ); 43 x1 ≤ x2 }. Encuentre la funci´on potencia y el tama˜ no de la prueba. Grafique la funci´on potencia. (b) Se selecciona una muestra de tama˜ no n = 2. Encuentre la prueba m´ as potente de tama˜ no α = 12 (1 − log(2)) para contrastar las hip´ otesis H0 : θ = 1 vs. Ha : θ = 2. (c) Para una observaci´ on, n = 1, encuentre una prueba uniformemente m´ as potente (UMP) de tama˜ no α para constrastar las hip´otesis H0 : θ ≤ 1 vs. Ha : θ > 1.
310
´ tesis 6. Pruebas de hipo
22. Sean X1 , . . . , Xn y Y1 , . . . , Ym dos muestras aleatorias, mutuamente independientes, con distribuci´ on Beta(θ, 1) y Beta(η, 1), respectivamente. (a) Use la prueba del cociente de verosimilitudes generalizadas para encontrar la regi´ on cr´ıtica C asociada a las hip´otesis: H0 : θ = η
vs.
Ha : θ 6= η.
(b) Muestre que C se puede simplificar en t´erminos de una funci´on de la siguiente estad´ıstica: Pn ) i=1 log(X Pmi T = Pn . i=1 log(Xi ) + j=1 log(Yj ) (c) ¿Cu´ al es la distribuci´ on de T bajo H0 ? (d) Muestre c´ omo obtener una prueba estad´ıstica de tama˜ no α = 0.1. 23. Suponga que X1 , . . . , Xn es una muestra aleatoria de una poblaci´on con distribuci´ on Rayleigh con funci´ on de densidad de probabilidad 2 x 2x exp − , fX (x) = θ θ con x > 0, donde θ > 0 es desconocido. Sea α ∈ (0, 1). Obtenga una prueba uniformemente m´ as potente de tama˜ no α para contrastar las hip´ otesis H0 : θ ≥ θ0 vs. Ha : θ < θ0 , donde θ0 > 0 es un valor fijo. 24. Suponga que X1 , . . . , Xn es una muestra aleatoria de una poblaci´on con con funci´ on de densidad f (x; θ) = θ−1 x(1−θ)/θ , con x ∈ (0, 1), donde θ > 0 es desconocido. Sea α ∈ (0, 1). Obtenga una prueba uniformemente m´ as potente de tama˜ no α para contrastar las hip´ otesis H0 : θ ≤ θ0 vs. Ha : θ > θ0 donde θ0 > 0 es un valor fijo. 25. Considere una secuencia de n ensayos multinomiales cada uno con k + 1 posibles respuestas O1 , . . . , Ok+1 , sea Yi el n´ umero de ensayos que resultaron con respuesta Oi , i = 1, . . . , k + 1. Entonces la funci´on de densidad conjunta de (Y1 , . . . , Yk+1 ) es la distribuci´on multinomial P(Y1 = y1 , . . . , Yk+1 = yk+1 ) =
n! yk+1 py1 · · · pk+1 , y1 ! · · · yk+1 ! 1
311
6.8. Ejercicios
donde probabilidad de obtener la respuesta Oi en un ensayo, Pk+1 pi es laP k+1 otesis i=1 pi = 1, i=1 yi = n. Considere la prueba de hip´ H0 : (p1 , . . . , pk+1 ) = (p01 , . . . , p0k+1 ) vs Ha : (p1 , . . . , pk+1 ) 6= (p01 , . . . , p0k+1 ). Demuestre que la estad´ıstica −2 log λ esta dada por la expresi´on siguiente k+1 X Yi −2 log λ = 2 Yi log 0 . np i i=1 26. Considere que (X1 , . . . , Xn ) es una muestra aleatoria de n observaciones independientes de una distribuci´ on N (µ, σ 2 ) y la prueba H0 : (µ, σ) = (µ0 , σ0 ) vs. Ha : (µ, σ) 6= (µ0 , σ0 ). Demuestre que la estad´ıstica −2 log λ esta dada por la expresi´on siguiente: −2 log λ =
n nˆ σ2 2 (¯ x − µ ) + − n − n[log σ ˆ 2 − log σ02 ]. 0 σ02 σ02
27. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on Pareto con funci´ on de densidad f (x; θ, ν) =
θν θ , xθ+1
x ∈ [ν, ∞), θ > 0, ν > 0.
(a) Encuentre los estimadores m´ aximo veros´ımiles de θ y ν. (b) Muestre que la prueba del cociente de verosimilitudes para contrastar las hip´ otesis: H0 : θ = 1, (ν desconocido) vs.
Ha : θ 6= 1, (ν desconocido),
tiene regi´ on cr´ıtica de la forma C : {x; T (x) ≤ c1 ´o T (x) ≥ c2 }, donde 0 < c1 < c2 y Qn i=1 Xi T (x) = log . (m´ıni Xi )n (c) Muestre que bajo H0 , 2T tiene una distribuci´on Ji-cuadrada, y encuentre el n´ umero de grados de libertad.
312
´ tesis 6. Pruebas de hipo [Sugerencia: obtenga la distribuci´ on conjunta de los n−1 t´erminos no triviales Xi /(m´ıni Xi ) condicional a (m´ıni Xi ). Junte los n − 1 t´erminos, y note que la distribuci´on de T dada (m´ıni Xi ) no depende de (m´ıni Xi ), as´ı que la distribuci´on de T resulta ser no condicional].
28. Considere una muestra aleatoria Y1 , . . . , Yn de una poblaci´on con distribuci´ on N (µ, σ 2 ), con σ 2 conocida. Se desean probar las hip´otesis: H0 : µ = µ0 vs. Ha : µ = µ1 , µ0 < µ1 . Las probabilidades iniciales est´ an dadas por ( π0 si µ = µ0 p(µ) = π1 si µ = µ1 ¿Bajo qu´e condiciones se rechaza H0 ? 29. Sea X una variable aleatoria con distribuci´on N ormal(µ, 1). Cosidere las hip´ otesis H0 : |µ| ≤ c vs. Ha : |µ| > c cuando la distribuci´on inicial es f (µ) = 1. (a) Grafique la probabilidad de H0 como una funci´on de c. (b) Determine los valores de c para los cuales su m´aximo es 0.95 y el factor de Bayes es 1. 30. Sea (X1 , . . . , Xn ) una muestra aleatoria de n observaciones independientes de una distribuci´ on N (µ, 1), 1 1 (x) f (x; µ) = √ exp − (x − µ)2 I(−∞,∞) . 2 2π I. Considere la prueba de hip´ otesis H0 : µ = µ0 vs. Ha : µ = µ1 , µ1 < µ0 . (a) Usando el lema de Neyman–Pearson encuentre la regi´on cr´ıtica C ∗ , tal que P [(x1 , . . . , xn ] ∈ C ∗ | H0 ] = α. (b) Si las observaciones muestrales reportan x ¯ = −1/2, que concluir´ıa de la prueba con µ0 = 0, µ1 = −1, α = 0.05, n = 25. Reporte la potencia de la prueba: 1−β = 1−P[(x1 , . . . , xn ) ∈ C¯∗ | Ha ]. II. Considere la prueba de hip´ otesis H0 : µ = µ0 vs. Ha : µ = µ1 , µ1 > µ0 .
313
6.8. Ejercicios
(a) Usando el lema de Neyman–Pearson encuentre la regi´on cr´ıtica C ∗ , tal que P[(x1 , . . . , xn ] ∈ C ∗ | H0 ] = α. (b) Si las observaciones muestrales reportan x ¯ = 2/3, que concluir´ıa de la prueba con µ0 = 0, µ1 = 1, α = 0.05, n = 25. Reporte la potencia de la prueba: 1−β = 1−P[(x1 , . . . , xn ) ∈ C¯∗ | Ha ]. 31. Sea (X1 , . . . , Xn ) una muestra aleatoria de n observaciones independientes de una distribuci´ on N (0, σ 2 ), f (x; σ 2 ) =
1 1 √ exp − 2 x2 . 2σ σ 2π
Considere la prueba de hip´ otesis H0 : σ 2 = σ02 vs. Ha : σ 2 = σ12 , σ12 > σ02 (a) Usando el lema de Neyman–Pearson encuentre la regi´on cr´ıtica C ∗ , tal que P [(x1 , . . . , xn ] ∈ C ∗ | H0 ] = α. Pn (b) Si las observaciones muestrales reportan i=1 x2i = 37.5, qu´e concluir´ıa de la prueba con σ02 = 1, σ12 = 2, α = 0.05, n = 25? Reporte la potencia de la prueba 1 − P [(x1 , . . . , xn ) ∈ C¯∗ | Ha ]. 32. Sea X1 , . . . , Xn una muestra aleatoria de una poblaci´on con distribuci´ on N ormal(µ, σ 2 ), donde µ es desconocido pero σ 2 es conocida. Sea α ∈ (0, 1). Para contrastar las hip´ otesis H0 : µ = µ0 vs. Ha : µ > µ0 la prueba uniformemente m´ as potente de tama˜ no α es √ γ : Rechazar H0 si y s´ olo si n(X − µ0 )/σ > z1−α , donde z1−α es el cuantil 1 − α de una distribuci´on normal est´andar. La prueba uniformemente m´ as potente garantiza que el tama˜ no del error tipo II de la prueba γ es el m´ınimo posible en µ = µ1 (> µ0 ) entre todas las pruebas posibles de tama˜ no α, pero no hay garant´ıa que este m´ınimo sea peque˜ no a menos que n sea determinado adecuadamente. Se requiere una prueba uniformemente m´as potente con tama˜ no de error tipo II menor o igual que β, con β ∈ (0, 1) cuando µ = µ1 (> µ0 ). Muestre que el tama˜ no de la muestra n debe ser el menor valor entero tal que se cumpla la desigualdad n≥
(z1−α + z1−β )σ (µ1 − µ0 )
2 .
314
´ tesis 6. Pruebas de hipo
33. Considere dos distribuciones normales independientes N (µ1 , 400) y N (µ2 , 225). Sea θ = µ2 − µ1 y sea x ¯ y y¯ las medias muestrales de dos muestras aleatorias independientes cada una de tama˜ no n de estas dos distribuciones. Se rechaza Ho : θ = 0 si y s´olo si x ¯ − y¯ ≥ c. Si π(θ) es la funci´ on potencia de esta prueba, encuentre c y n tales que π(0) = 0.5 y π(10) = 0.90. 34. Sea X1 , . . . , Xn una muestra aleatoria de la poblaci´on con distribuci´on N (µx , σx2 ), y sea Y1 , . . . , Ym una muestra aleatoria de una poblaci´on con distribuc´ on N (µy , σy2 ), donde las Xi0 s son independientes de las Yj0 s, las varianzas son iguales (σx2 = σy2 = σ 2 ), y los tama˜ nos de muestra pueden ser distintos (n 6= m). Considere las hip´ otesis: H0 : µx = µy
vs.
Ha : µx 6= µy .
(a) Obtenga la regi´ on cr´ıtica usando la prueba de la raz´on de verosimilitudes. Nota: la estad´ıstica de prueba generalmente se expresa como: T =q Sp2
1 = n+m−2
¯ − Y¯ X Sp2 ( n1 +
, 1 m)
m n X X ¯ 2+ (Yi − Y¯ )2 (Xi − X) i=1
! .
i=1
(b) Muestre que bajo H0 , T ∼ tn+m−2 . (c) Se obtuvo una muestra a partir de dos poblaciones (A y B). Determine si la media de los grupos es la misma. Calcula el p-value. Grupo A Grupo B 294 251 279 248 274 284 274 272 240 264 232 263 220 264 256 255 254 218 251 210 254 250 242 35. Sea (X1 , Y1 ), . . . , (Xn , Yn ) una muestra aleatoria de la poblaci´on con distribuci´ on normal bivariada 2 σx ρ Xi µx ∼ N ormal2 , . ρ σy2 Yi µy con σx2 , σy2 y ρ desconocidos. Se desea contrastar las hip´otesis H0 : µx = µy
vs.
H1 : µx 6= µy .
315
6.8. Ejercicios
(a) Obtenga la regi´ on cr´ıtica usando la prueba de la raz´on de verosimilitudes. Nota: la estad´ıstica de prueba puede expresarse como: W , Tw = q 1 2 S n w donde Wi = Xi − Yi , W = W )2 .
1 n
Pn
i=1
Wi ,
2 = Sw
1 n−1
Pn
i=1 (Wi
−
2 = Var(Wi ) y Cov(Wi , Wj ). (b) Calcule µw = E(Wi ), σw Concluya que W1 , . . . , Wn es una muestra aleatoria de una pobla2 ci´ on con distribuci´ on N ormal(µw , σw ). Justifique que bajo H0 , Tw ∼ tn−1 .
(c) Se obtuvo una muestra de tama˜ no n = 10 a partir de dos poblaciones (A y B). Determine si la media de los grupos es la misma (use α = 0.05). Calcule el p-value. Grupo A (Xi ) 13.2 9.9 9.0 10.0 13.0
Grupo B (Yi ) 16.7 11.8 14.4 14.5 9.3
Grupo A (Xi ) 11.6 7.4 14.2 12.6 7.2
Grupo B (Yi ) 10.2 10.6 10.9 11.1 12.2
36. Sean X1 , . . . , Xn y Y1 , . . . , Ym dos muestras aleatorias, mutuamente independientes, con distribuci´ on N ormal(µx , σx2 ) y N ormal(µy , σy2 ), respectivamente, con par´ ametros desconocidos. (a) Use la prueba de la raz´ on de verosimilitudes generalizadas para encontrar la regi´ on cr´ıtica C asociada a las hip´otesis H0 : σx2 = σy2
vs.
Ha : σx2 6= σy2 .
(b) Se obtuvieron muestras de tama˜ no n = 10 y m = 12 a partir de dos poblaciones (A y B). Determine si las varianzas de los grupos es la misma (use α = 0.05). Calcule el p-value.
3.6 5.7
Grupo A (Xi ) 3.0 5.3 4.6 2.9 6.9 4.8
2.9 8.1
2.9 6.7
5.5 4.3
Grupo B (Yi ) 4.3 5.8 4.1 5.9 5.0 4.7
3.4 5.2
316
´ tesis 6. Pruebas de hipo
37. De acuerdo a cierto modelo gen´etico, las proporciones de los individuos con 4 tipos de sangre deber´ an relacionarse de la siguiente manera: Tipo Tipo Tipo Tipo
O A B AB
Probabilidad q2 2 p + 2pq r2 + 2qr 2pr
Frecuencias XO XA XB XAB
Observaciones 40 263 382 315
Donde p + q + r = 1. Dados los tipos de sangre de n individuos: (a) ¿C´ omo probar´ıa si el modelo es adecuado? Realice el procedimiento de manera te´ orica. (b) Realice la prueba con los valores observados (n = 1000), para saber si el modelo es adecuado. 38. Un determinado modelo gen´etico sugiere que las probabilidades para una distribuci´ on trinomial (multinomial con 3 categor´ıas) son: θ1 = p2 , θ2 = 2p(1 − p), y θ3 = (1 − p)2 , con 0 < p < 1. Suponga que X1 , X2 , X3 representan las frecuencias en una muestra de tama˜ no n (fijo) de observaciones independientes. Obtenga la prueba de bondad de ajuste Ji-cuadrada para esta distribuci´on considerando que p es desconocida. 39. Un grupo de 4 monedas se lanz´ o 160 veces, y se obtuvieron los siguientes datos. ¿Las monedas est´ an equilibradas? N´ umero de caras Frecuencia
0 16
1 48
2 55
3 33
4 8
40. Sea Q la estad´ıstica de prueba Ji-cuadrada. (a) Demuestre que la siguiente igualdad se cumple: " k # k X (oi − ei )2 X npi (1 − pi ) (npi − ei )2 E[Q] = E = + , ei ei ei i=1 i=1 donde pi es la probabilidad de la i-´esima categor´ıa, con i = 1, . . . , k, oi son los valores observados, y ei son los valores esperados. (b) Demuestre que si H0 : pi = πi es verdadera, E[Q] = k − 1. 41. En el control de calidad de un producto se seleccionan 100 muestras, cada una de tama˜ no 20, a partir de un proceso de producci´on. Los datos se muestran a continuaci´ on, donde se mide el n´ umero de productos
317
6.8. Ejercicios
defectuosos. Pruebe la hip´ otesis nula de que el n´ umero de defectos tiene una distribuci´ on Binomial. N´ umero de defectos Frecuencia
0 11
1 27
2 38
3 13
4 7
5 2
6 1
7 1
8 ´o m´as 0
42. Una m´ aquina produce art´ıculos de pl´ astico en grupos de tres art´ıculos a la vez. El proceso es poco confiable y se observan algunos art´ıculos defectuosos. En un experimento se produjeron 512 grupos de art´ıculos y en estos el n´ umero de grupos con i defectos, para i = 0, 1, 2, 3, fueron: 213 (i = 0), 228 (i = 1), 57 (i = 2), y 14 (i = 3). Pruebe la hip´otesis de que cada art´ıculo tiene una constante (pero desconocida) probabilidad θ de estar defectuosa, independientemente de los otros art´ıculos.
43. Se seleccionan 6 grupos de 100 semillas para sembrar. En cada uno de los 6 grupos, el n´ umero de semillas que no germinaron fueron: 12, 20, 9, 17, 24 y 16. Pruebe la hip´ otesis de que la proporci´on de semillas no germinadas fue la misma para todos los grupos.
44. Los siguientes datos muestran los resultados de un ensayo m´edico para probar dos tratamientos, un tratamiento viejo y un tratamiento nuevo, para una enfermedad. Se eligieron 1100 pacientes para recibir cada tratamiento. Tratamiento Viejo Nuevo Total
Sobrevivieron 505 195 700
Murieron 595 905 1500
Total 1100 1100 2200
Pruebe la hip´ otesis de que los tratamientos tienen la misma tasa de supervivencia. ¿Qu´e tratamiento preferir´ıa? Considere que el ensayo se llev´ o a cabo en dos hospitales, para los cuales los datos se muestran a continuaci´on. Los m´edicos del hospital A, un famoso hospital de investigaci´ on, dise˜ naron el ensayo m´edico. Sus pacientes tienden a estar severamente m´as enfermos y ellos son a quienes se les aplica con mayor frecuencia el nuevo tratamiento. ¿La efectividad de los dos tratamientos es la misma, considerando los diferentes resultados en ambos hospitales?
318
´ tesis 6. Pruebas de hipo
Tratamiento Viejo Nuevo Total
Hospital A Sobrevivieron Murieron 5 95 100 900 105 995
Total 100 1000 1100
Tratamiento Viejo Nuevo Total
Hospital B Sobrevivieron Murieron 500 500 95 5 595 505
Total 1000 100 1100
Ap´ endice A
Algunos conceptos y resultados de probabilidad En este ap´endice se enumeran algunos de los resultados y conceptos m´as importantes de la teor´ıa de la probabilidad que se utilizan en la inferencia estad´ıstica. El objetivo es que el lector pueda consultarlos en el mismo texto, pero no se profundiza en ellos, por lo que se recomienda consultar libros especializados en el tema para un an´ alisis o estudio m´as formal de la probabilidad.
A.1.
Espacios de probabilidad
Definici´ on A.1 (espacio de probabilidad). Un espacio de probabilidad es una terna (Ω, F, P) donde: Ω es un conjunto arbitrario, aunque en la teor´ıa de la probabilidad se le conoce como espacio muestral, y es el conjunto de posibles resultados de un experimento aleatorio. F es una σ-´ algebra de subconjuntos de Ω que satisface: 1. Ω ∈ F. 2. Si A ∈ F, entonces Ac ∈ F. 3. Si A1 , A2 , . . . , An ∈ F, entonces A1 ∪ A2 ∪ · · · ∪ An ∈ F. 319
320
A. Algunos conceptos y resultados de probabilidad P : F → [0, 1] es una funci´ on conocida como medida de probabilidad que cumple: 1. P(Ω) = 1. 2. P(A) ≥ 0 ∀A ∈ F. 3. Si S A1 , A2 , . . . , P An ∈ F y Ai ∩ Aj = ∅ para i 6= j, entonces n n P ( i=1 Ai ) = i=1 P(Ai ).
Proposici´ on A.1 (algunas propiedades de P). A continuaci´ on se mencionan algunas propiedades de la medida de probabilidad. 1. Sean A, B ∈ F, si A ⊆ B entonces P(A) ≤ P(B). 2. P(∅) = 0. 3. Sean A ∈ F, entonces P(Ac ) = 1 − P(A). 4. Sean A, B ∈ F, entonces P(A ∪ B) = P(A) + P(B) − P(A ∩ B). 5. Desigualdad de Boole: Sean A1 , . . . , An ∈ F, entonces ! n n X [ P(Ai ). P Ai ≤ i=1
i=1
6. F´ ormula de inclusi´ on-exclusi´ on: Sean A1 , . . . , An ∈ F, entonces ! n n [ X X P Ai = P(Ai ) − P(Ai ∩ Aj ) i=1
i=1
+
X
i6=j
P(Ai1 ∩ Ai2 ∩ Ai3 ) + · · ·
i1 0. x!
331
A.5. Momentos de variables aleatorias Calcular E (X) y E X 2 . mX (t) = E etX =
∞ X
etx
x=0
= e
e−λ λx x!
∞ x X (et λ)
−λ
x!
x=0
= e−λ ee = eλ(e ∴ mX (t) = eλ(e
t
t
t
λ
−1)
−1)
.
.
Diferenciando se llega a que m0x (t) = eλ(e
t
−1)
λet ,
t
−1)
λet + eλ(e
m00x (t) = eλ(e
t
−1) 2 2t
λ e .
Evaluando en t = 0, m0X (0) = eλ(e
0
−1)
λe0 = λ = E(X),
m00X (0) = eλ(e
0
−1)
λe0 + eλ(e
0
−1) 2 2(0)
λ e
= λ + λ2 = E(X 2 ).
Usando los resultados anteriores se puede obtener Var(X): Var(X) = E (X − E(X))2 = E X 2 − E2 (X) = λ + λ2 − λ2 = λ. ∴ E(X) = λ = Var(X).
A.5.4.
Esperanza de g (X1 , . . . , Xn )
Aqu´ı, igual que antes se proceder´ a a revisar la definici´on de esperanza matem´ atica de variables aleatorias k-dimensionales y posteriormente se ver´a lo relacionado con respecto a la media y a la varianza para finalizar con el concepto de esperanza matem´ atica de una funci´on de una variable aleatoria k-dimensional. Definici´ on A.21 (esperanza matem´ atica) . Sea (X1 , . . . , Xk ) una variable aleatoria k-dimensional con densidad f(X1 ,...,Xk ) (·, . . . , ·) . El valor esperado de una funci´ on g (·, . . . , ·) de la variable aleatoria k-dimensional, denotada por E [g (X1 , . . . , Xk )] , est´ a definida como X E [g (X1 , . . . , Xk )] = g (x1 , . . . , xk ) fX1 ,...,Xk (x1 , . . . , xk )
332
A. Algunos conceptos y resultados de probabilidad
si la variable aleatoria (X1 , . . . , Xk ) es discreta, donde la suma es sobre todos los posibles valores de (X1 , . . . , Xk ), y Z ∞ Z ∞ E [g (X1 , . . . , Xk )] = ··· g (x1 , . . . , xk ) fX1 ,...,Xk (x1 , . . . , xk ) dx1 · · · dxk −∞
−∞
si la variable aleatoria (X1 , . . . , Xk ) es continua. Por supuesto, lo anterior es cierto si la suma converge o la integral existe. Observaci´ on A.6 En particular, si g (x1 , . . . , xk ) = xi entonces, E [g (X1 , . . . , Xk )] = E [Xi ] . 2
Observaci´ on A.7 Si g (x1 , . . . , xn ) = (xi − E (xi )) entonces E [g (X1 , . . . , Xn )] = Var (Xi ) . A continuaci´ on se define la covarianza entre dos variables aleatorias. Definici´ on A.22 Sean X y Y variables aleatorias. La covarianza entre X y Y se define como Cov (X, Y ) = E {[X − E (X)] [Y − E (Y )]} . Teorema A.7 Sean X y Y variables aleatorias, entonces Cov (X, Y ) = E (XY ) − E (X) E (Y ) . Sea E (X) = µX y E (Y ) = µY , Cov (X, Y )
A.5.5.
= = = =
E [(X − µX ) (Y − µY )] = E [XY − XµY − Y µX + µX µY ] E [XY ] − µY E [X] − µX E [Y ] + µX µY E [XY ] − µY µX − µX µY + µX µY E [XY ] − µY µX .
Coeficiente de correlaci´ on ρxy
Si X y Y son variables aleatorias, entonces se define el coeficiente de correlaci´ on, denotado por ρx,y , de la siguiente manera: ρxy = p
Cov(X, Y ) Var(X)Var(Y )
Se puede probar que −1 ≤ ρxy ≤ 1.
.
A.5. Momentos de variables aleatorias
A.5.6.
333
Esperanza condicional
Definici´ on A.23 (esperanza condicional). Sea (X, Y ) una variable aleatoria bidimensional y g (·, ·) una funci´ on de dos variables. La esperanza condicional de g (X, Y ) dado que X = x, denotada por E [g (X, Y ) |X = x] , est´ a definida como Z ∞ E [g (X, Y ) |X = x] = g (x, y) fY |X (y|x) dy, −∞
si X y Y son continuas, y E [g (X, Y ) |X = x] =
X
g (x, y) fY |X (y|x) ,
y
si X y Y son discretas y la suma se realiza sobre todos los posibles valores de Y . Observaci´ on A.8 Para el caso continuo, Z ∞ E [g (Y ) |X = x] = g (y) fY |X (y|x) dy, −∞
y para el caso discreto, E [g (Y ) |X = x] =
X
g (y) fY |X (y|x) .
y
Teorema A.8 Sea (X, Y ) una variable aleatoria bidimensional entonces E [g (Y )] = E [E [g (Y ) |X]] , y en particular, E [Y ] = E [E [Y |X]] . Definici´ on A.24 (curva de regresi´ on). E [Y |X = x] se llama la curva de regresi´ on de Y sobre x, tambi´en denotada por µY |X=x = µY |x . Definici´ on A.25 (varianza condicional). La varianza condicional de Y dado X = x est´ a definida por 2 Var [Y |X = x] = E Y 2 |X = x − (E [Y |X = x]) . Teorema A.9 Var [Y ] = E [Var (Y |X)] + Var [E (Y |X)]. Teorema A.10 Sea (X, Y )una variable aleatoria bidimensional, y sean g1 (·) y g2 (·) funciones de una variable. Entonces, 1. E [(g1 (Y ) + g2 (Y )) |X = x] = E [g1 (Y ) |X = x] + E [g2 (Y ) |X = x]. 2. E [(g1 (Y ) g2 (X)) |X = x] = g2 (x) E [g1 (Y ) |X = x].
334
A.5.7.
A. Algunos conceptos y resultados de probabilidad
Funci´ on generadora de momentos conjunta y momentos
Definici´ on A.26 (momentos conjuntos) . Los momentos conjuntos de X1 , . . . , Xk est´ an definidos por E [X1r1 X2r2 X3r3 · · · Xkrk ] donde las ri0 s son cero o cualquier entero positivo; los momentos conjuntos alrededor de las medias est´ an definidos como: r
r
r
E [(X1 − µX1 ) 1 (X2 − µX2 ) 2 · · · (Xk − µXk ) k ] . Observaci´ on A.9 Si ri = rj = 1 y todas las dem´as rl = 0, entonces este momento particular conjunto de Xi y Xj alrededor de sus medias es E (Xi − µXi ) Xj − µXj , representa la covarianza entre Xi y Xj . Definici´ on A.27 (funci´ on generadora de momentos conjunta) . La funci´ on generadora de momentos conjunta de (X1 , X2 , . . . , Xk ) est´ a definida por k X mX1 ,X2 ,...,Xk (t1 , t2 , . . . , tk ) = E exp tj Xj , j=1
si la esperanza existe para todos los valores de t1 , t2 , . . . , tk tales que −h < tj < h, para alguna h > 0, j = 1, 2, . . . , k. El r-´esimo momento de Xj podr´ıa obtenerse de la funci´ on mX1 ,X2 ,...,Xk (t1 , t2 , . . . , tk ) diferenci´ andola r veces con respecto a tj y entonces tomando el l´ ımite cuando todas las t0 s se aproxi r s man a cero. Tambi´en E Xi Xj se obtiene al diferenciar r veces con respecto a Xi y s veces con respecto a Xj la funci´ on mX1 ,X2 ,...,Xk (t1 , t2 , . . . , tk ). Observaci´ on A.10 Las funciones generadoras de momentos marginales pueden ser obtenidas a partir de la funci´ on generadora de momentos conjunta:
A.5.8.
mX (t1 )
= mX,Y (t1 , 0) = l´ım mX,Y (t1 , t2 ) ,
mY (t2 )
= mX,Y (0, t2 ) = l´ım mX,Y (t1 , t2 ) .
t2→0
t1→0
Independencia y esperanza
Teorema A.11 Si X y Y son independientes, y g1 (·) y g2 (·) son dos funciones, cada una de un solo argumento, entonces E [g1 (X) g2 (Y )] = E [g1 (X)] E [g2 (Y )] . Corolario A.1 Si X y Y son independientes, entonces Cov (X, Y ) = 0. La afirmaci´ on inversa en general no se cumple.
335
A.5. Momentos de variables aleatorias
Definici´ on A.28 (variables aleatorias no correlacionadas) . Dos variables aleatorias X y Y se definen como no correlacionadas si y solo si Cov (X, Y ) = 0. Teorema A.12 Si X y Y son independientes, entonces 1. Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y ) = Var(X) + Var(Y ). 2. Var(X − Y ) = Var(X) + Var(Y ) − 2Cov(X, Y ) = Var(X) + Var(Y ). Note que Cov(X, X) = Var(X). Teorema A.13 Dos variables aleatorias conjuntamente distribuidas X y Y son independientes si y s´ olo si mX,Y (t1 , t2 ) = mX (t1 ) mY (t2 ) para toda t1 , t2 para las cuales −h < ti < h, i = 1, 2, para alguna h > 0. Suma de variables aleatorias independientes Considere a X1 , . . . , Xn como variables aleatorias independientes con funci´on de densidad de probabilidad respectiva fXi (xi ), i = 1, 2, . . . , n. Se desea n P determinar c´ omo se distribuye Y = X1 + · · · + Xn = Xj . Se utilizar´a la j=1
funci´ on generadora de momentos para esto, mY (t) = E etY =
E exp t
n X
Xj
j=1
E etX1 +···+tXn = E etX1 · · · etXn = E etX1 · · · E etXn =
= mX1 (t) · · · mXn (t) n Y = mXj (t). j=1
∴ mY (t) =
n Y
mXj (t).
j=1
Y si adem´ as X1 , . . . , Xn son identicamente distribuidas, entonces, n
mPnj=1 Xj (t) = (mX1 (t)) .
336
A. Algunos conceptos y resultados de probabilidad
A.6.
Resumen de familias param´ etricas
A.6.1.
Uniforme Discreta
Definici´ on A.29 Se dice que la variable aleatoria discreta X tiene distribuci´ on Uniforme Discreta en el conjunto {1, 2, . . . , N }, se denota X ∼ U nif (N ), si su funci´ on de densidad de probabilidad est´ a dada por: fX (x) = P(X = x) =
1 I{1,2,...,N } (x). N
Proposici´ on A.6 Si X ∼ U nif (N ), entonces: (a) E(X) =
N +1 2 .
(b) E(X 2 ) =
(N +1)(2N +1) . 6
(c) Var(X) =
A.6.2.
N 2 −1 12 .
Bernoulli
Definici´ on A.30 Se dice que la variable aleatoria discreta X tiene distribuci´ on Bernoulli con par´ ametro p ∈ (0, 1), se denota X ∼ Bernoulli(p), si su funci´ on de densidad de probabilidad est´ a dada por: 1 − p fX (x) = P(X = x) = p 0
si x = 0, si x = 1, en otro caso.
De manera equivalente, fX (x) = px (1 − p)1−x I{0,1} (x). Proposici´ on A.7 Si X ∼ Bernoulli(p), entonces: (a) ∀n ∈ N+ , E(X n ) = p. En particular E(X) = E(X 2 ) = p. (b) Var(X) = p(1 − p). (c) mX (t) = et p + (1 − p).
´tricas A.6. Resumen de familias parame
A.6.3.
337
Binomial
Suponga que se tienen n ensayos Bernoulli (toman valores 0 o 1, asociados con fracaso o ´exito) independientes cada uno con la misma probabilidad de ´exito p ∈ (0, 1). Sea X el n´ umero de ´exitos en n ensayos Bernoulli independientes, entonces n x p (1 − p)n−x . P(X = x) = x Definici´ on A.31 Se dice que la variable aleatoria discreta X tiene distribuci´ on Binomial con par´ ametros n ∈ N+ y p ∈ (0, 1), se denota X ∼ Bin(n, p), si su funci´ on de densidad de probabilidad est´ a dada por: n x fX (x) = P(X = x) = p (1 − p)n−x I{0,1,2,...,n} (x). x Proposici´ on A.8 Si X ∼ Bin(n, p), entonces: n
(a) mX (t) = (et p + (1 − p)) . (b) E(X) = np. (c) E(X 2 ) = n2 p2 − np2 + np. (d) Var(X) = np(1 − p). Proposici´ on A.9 fX (x) = nx px (1 − p)n−x es creciente si x < (n + 1)p, y es decreciente si x > (n + 1)p.
A.6.4.
Poisson
Definici´ on A.32 Se dice que la variable aleatoria discreta X tiene distribuci´ on Poisson con par´ ametro λ > 0, se denota X ∼ P oisson(λ), si su funci´ on de densidad de probabilidad est´ a dada por: fX (x) = P(X = x) =
e−λ λx I{0,1,2,...} (x). x!
Proposici´ on A.10 Si X ∼ P oisson(λ), entonces: t
(a) mX (t) = e−λ(1−e ) . (b) E(X) = λ. (c) E(X 2 ) = λ(λ + 1).
338
A. Algunos conceptos y resultados de probabilidad
(d) Var(X) = λ. Proposici´ on A.11 (relaci´ on entre la binomial y la Poisson) . Consid´erese una variable aleatoria X tal que X ∼ Bin(n, p). Sea λ = np. Si n → ∞ y p → 0, entonces X ∼ P oisson(λ).
A.6.5.
Geom´ etrica
Suponga que se tiene una sucesi´ on de ensayos Bernoulli independientes, en donde la probabilidad de ´exito de todos ellos es igual a p ∈ (0, 1). Sea X el n´ umero de fracasos antes del primer ´exito. Entonces P(X = x) = (1 − p)x p. Definici´ on A.33 Se dice que la variable aleatoria discreta X tiene distribuci´ on Geom´etrica con par´ ametro p ∈ (0, 1), se denota X ∼ Geo(p), si su funci´ on de densidad de probabilidad est´ a dada por: fX (x) = P(X = x) = (1 − p)x pI{0,1,2,...} (x). Proposici´ on A.12 Si X ∼ Geo(p), entonces: (a) mX (t) = (b) E(X) =
p 1−(1−p)et .
1−p p .
(c) E(X 2 ) =
1−p p
(d) Var(X) =
A.6.6.
+
2(1−p)2 . p2
1−p p2 .
Binomial negativa
Suponga que se tiene una sucesi´ on de ensayos Bernoulli independientes, en donde la probabilidad de ´exito de todos ellos es igual a p ∈ (0, 1). Sea X el n´ umero de fracasos antes del r-´esimo ´exito. Entonces r+x−1 r P(X = x) = p (1 − p)x , x = 0, 1, 2, . . . x Definici´ on A.34 Se dice que la variable aleatoria discreta X tiene distribuci´ on Binomial Negativa con par´ ametros r ∈ N y p ∈ (0, 1), se denota X ∼ BinN eg(r, p), si su funci´ on de densidad de probabilidad est´ a dada por: r+x−1 r fX (x) = P(X = x) = p (1 − p)x I{0,1,2,...} (x). x
´tricas A.6. Resumen de familias parame
339
Proposici´ on A.13 Si X ∼ BinN eg(r, p), entonces: r p (a) mX (t) = 1−(1−p)e . t (b) E(X) =
r(1−p) . p
(c) Var(X) =
A.6.7.
r(1−p) p2 .
Hipergeom´ etrica
Definici´ on A.35 Se dice que la variable aleatoria discreta X tiene distribuci´ on Hipergeom´etrica con par´ ametros n, N, r ∈ N, se denota X ∼ HiperGeo(n, N, r), si su funci´ on de densidad de probabilidad est´ a dada por: r x
fX (x) = P(X = x) =
N −r n−x N n
I{0,1,...,m´ın{n,r}} (x).
Proposici´ on A.14 Si X ∼ HiperGeo(n, N, r), entonces: (a) E(X) =
rn N .
(b) E(X 2 ) =
rn N
(c) Var(X) =
A.6.8.
h
rn N
(n−1)(r−1) N −1
h
i +1 .
(n−1)(r−1) N −1
+1−
rn N
i
.
Logar´ıtmica
Definici´ on A.36 Se dice que la variable aleatoria discreta X tiene distribuci´ on Logar´ıtmica con par´ ametro p ∈ (0, 1), se denota X ∼ Lg(p), si su funci´ on de densidad de probabilidad est´ a dada por: fX (x) = P(X = x) = −
1 px I{1,2,...} (x). log(1 − p) x
Proposici´ on A.15 Si X ∼ Lg(p), entonces: (a) mX (t) = (b) E(X) =
log(1−pet ) log(1−p) .
ap log(1−p) ,
(c) Var(X) =
1 donde a := − log(1−p) .
ap(1−ap) (1−p)2
=µ
1 1−p
− µ , donde µ = E(X).
340
A.6.9.
A. Algunos conceptos y resultados de probabilidad
Uniforme continua
Definici´ on A.37 Se dice que la variable aleatoria continua X tiene distribuci´ on Uniforme continua en el intervalo (a, b), se denota X ∼ U nif (a, b), si su funci´ on de densidad de probabilidad est´ a dada por: fX (x) =
1 I(a,b) (x). b−a
Proposici´ on A.16 Si X ∼ U nif (a, b), entonces: (a) mX (t) = (b) E(X) =
1 bt t(b−a) (e
a+b 2 .
(c) E2 (X) =
a2 +ab+b2 . 3
(d) Var(X) =
A.6.10.
− eat ).
(b−a)2 12 .
Exponencial
Definici´ on A.38 Se dice que la variable aleatoria continua X tiene distribuci´ on Exponencial con par´ ametro λ ∈ R+ , se denota X ∼ exp(λ), si su funci´ on de densidad de probabilidad est´ a dada por: fX (x) = λe−λx I(0,∞) (x). Proposici´ on A.17 Si X ∼ Exp(λ), entonces: (a) mX (t) =
λ λ−t ,
t < λ.
(b) E(X) = λ1 . (c) E(X 2 ) =
λ+1 λ2 .
(d) Var(X) =
A.6.11.
1 λ2 .
Gama
Se define la funci´ on Gama, Γ(·), de la siguiente manera: Z ∞ Γ(t) = xt−1 e−x dx. 0
La funci´ on Gama satisface algunas propiedades:
341
´tricas A.6. Resumen de familias parame
(i) Γ(n + 1) = nΓ(n) con n ∈ R+ . En particular si n ∈ Z+ , entonces Γ(n + 1) = n!. π con p ∈ (0, 1). En particular con p = (ii) Γ(p)Γ(1 − p) = sen(pπ) √ 1 1 π Γ( 2 )Γ( 2 ) = sen( π ) = π, es decir (Γ( 12 ))2 = π ⇒ Γ( 21 ) = π.
1 2,
2
(iii) Para n impar, Γ( n2 ) = (iv)
R∞ 0
xα−1 e−λx dx =
√ π(n−1) . 2n−1 ( n−1 2 )!
Γ(α) λx . n→∞
(v) Forma asint´ otica de Stirling: Γ(n+1) −→ n→∞ √ n! −→ 2πnnn e−n . (vi) Γ(2) = Γ(1) =
R∞ 0
√
2πnnn e−n . En particular
e−x dx = 1.
Definici´ on A.39 Se dice que la variable aleatoria continua X tiene distribuci´ on Gama con par´ ametros r > 0 y λ > 0, se denota X ∼ Gama(r, λ), si su funci´ on de densidad est´ a dada por: fX (x) =
λr r−1 −λx x e I(0,∞) (x). Γ(r)
Proposici´ on A.18 Si X ∼ Gama(r, λ), entonces: (a) mX (t) =
λ λ−t
r
si t < λ.
(b) E(X) = λr . (c) E(X 2 ) =
r(r+1) λ2 .
(d) Var(X) =
r λ2 .
Definici´ on A.40 Se dice que la variable aleatoria continua X tiene distribuci´ on Gama Generalizada con par´ ametros a > 0, p > 0 y σ > 0, se denota X ∼ GamaG(a, p, σ), si su funci´ on de densidad est´ a dada por: fX (x) =
a σ ap Γ(p)
a
xap−1 e−(x/σ) I(0,∞) (x).
342
A. Algunos conceptos y resultados de probabilidad
A.6.12.
Ji-cuadrada
Definici´ on A.41 Se dice que la variable aleatoria continua X tiene distribuci´ on Ji-cuadrada con k grados de libertad si X ∼ Gama(k/2, 1/2), se denota X ∼ χ2(k) , es decir, si su funci´ on de densidad est´ a dada por: fX (x) =
( 12 )k/2 k −1 −x/2 x2 e I(0,∞) (x). Γ(k/2)
Proposici´ on A.19 Si X ∼ χ2(k) , entonces: k/2 1 (a) mX (t) = 1−2t . (b) E(X) = k. (c) E(X 2 ) = k(k + 2). (d) Var(X) = 2k.
A.6.13.
Beta
Definici´ on A.42 Se dice que la variable aleatoria continua X tiene distribuci´ on Beta con par´ ametros α > 0 y β > 0, se denota X ∼ Beta(α, β), si su funci´ on de densidad est´ a dada por: fX (x) = donde B(u, v) =
R1 0
1 xα−1 (1 − x)β−1 I(0,1) (x), B(α, β)
tu−1 (1 − t)v−1 dt es conocida como la funci´on beta.
Existe una relaci´ on entre las funciones Beta y Gama: B(α, β) =
Γ(α)Γ(β) . Γ(α + β)
Proposici´ on A.20 Si X ∼ Beta(α, β), entonces: (a) E(X) =
α α+β .
(b) E(X 2 ) =
α(α+1) (α+β+1)(α+β) .
(c) Var(X) = (d) E(X r ) =
αβ (α+β)2 (α+β+1) .
Γ(α+r)Γ(α+β) Γ(α)Γ(α+β+r) .
Nota: no existe forma anal´ıtica para la funci´on generadora de momentos para una variable aleatoria con distribuci´ on Beta.
343
´tricas A.6. Resumen de familias parame
A.6.14.
Normal
Definici´ on A.43 Se dice que la variable aleatoria continua X tiene distribuci´ on Normal con par´ ametros µ ∈ R y σ 2 > 0, se denota X ∼ N (µ, σ 2 ), si su funci´ on de densidad est´ a dada por: 1 1 exp − 2 (x − µ)2 IR (x). fX (x) = √ 2σ 2πσ 2 Proposici´ on A.21 Si X ∼ N (µ, σ 2 ), entonces: (a) E(X) = µ. (b) E(X 2 ) = σ 2 + µ2 . (c) Var(X) = σ 2 . (d) mX (t) = exp µt + 12 t2 σ 2 .
A.6.15.
t de Student
Definici´ on A.44 Se dice que la variable aleatoria continua X tiene distribuci´ on t de Student con k grados de libertad, se denota X ∼ N (µ, σ 2 ), si su funci´ on de densidad est´ a dada por: fX (x) =
A.6.16.
Γ( k+1 1 2 ) 1 √ k+1 IR (x). k Γ( 2 ) kπ 1 + x2 2 k
F de Fisher
Definici´ on A.45 Se dice que la variable aleatoria continua X tiene distribuci´ on F de Fisher con par´ ametros m, n > 0, se denota X ∼ F (m, n), si su funci´ on de densidad est´ a dada por: m−2
fX (x) =
A.6.17.
m m/2 Γ( m+n x 2 2 ) I(0,∞) (x). m n m+n Γ( 2 )Γ( 2 ) n 2 1 + (m )x n
Log-Normal
Definici´ on A.46 Se dice que la variable aleatoria continua X tiene distribuci´ on Log-Normal con par´ ametros µ ∈ R y σ 2 ∈ R+ , se denota X ∼ 2 LgN (µ, σ ), si su funci´ on de densidad est´ a dada por: ( 2 ) 1 1 log(x) − µ fX (x) = √ exp − I(0,∞) (x). 2 σ x 2πσ 2
344
A. Algunos conceptos y resultados de probabilidad
Proposici´ on A.22 Si X ∼ LgN (µ, σ 2 ), entonces: (a) E(X) = exp µ +
σ2 2
.
(b) E(X 2 ) = exp 2(µ + σ 2 ) . (c) Var(X) = exp(2µ + σ 2 )[exp(σ 2 ) − 1]. (d) E(X r ) = exp(rµ +
A.6.18.
r2 σ2 2 ).
Log´ıstica
Definici´ on A.47 Se dice que la variable aleatoria continua X tiene distribuci´ on Log´ıstica con par´ ametros µ ∈ R y σ ∈ R+ , se denota X ∼ Logistic(µ, σ), si su funci´ on de densidad est´ a dada por: fX (x) =
e−(x−µ)/σ IR (x). σ(e−(x−µ)/σ )2
Proposici´ on A.23 Si X ∼ Logistic(µ, σ), entonces: (a) E(X) = µ. (b) E(X 2 ) = µ2 + (c) Var(X) =
A.6.19.
πσ 2 3 .
πσ 2 3 .
Log-log´ıstica
Definici´ on A.48 Se dice que la variable aleatoria continua X tiene distribuci´ on Log-Log´ıstica con par´ ametros α, λ ∈ R+ , se denota X ∼ log − Logistic(α, λ), si su funci´ on de densidad est´ a dada por: fX (x) =
λα(λt)α−1 I(0,∞) (x). (1 + (λt)α )2
Proposici´ on A.24 Si X ∼ log − Logistic(α, λ), entonces Ln(X) ∼ Logistic(µ = −Ln(λ), σ = 1/α).
345
´tricas A.6. Resumen de familias parame
A.6.20.
Pareto
Definici´ on A.49 Se dice que la variable aleatoria continua X tiene distribuci´ on cl´ asica de Pareto con par´ ametros α, σ ∈ R+ , se denota X ∼ P aI(α, σ), si su funci´ on de densidad est´ a dada por: ασ α I[σ,∞) (x). xα+1 Proposici´ on A.25 Si X ∼ P aI(α, σ), entonces: fX (x) =
(a) E(X) =
ασ α−1 ,
(b) E(X r ) =
si α > 1.
ασ r α−r ,
(c) Var(X) =
si α > r.
ασ 2 α(α−1)2 (α−2) ,
si α > 2.
Definici´ on A.50 Se dice que la variable aleatoria continua X tiene distribuci´ on Pareto tipo II con par´ ametros α, σ ∈ R+ , se denota X ∼ P aII(α, σ), si su funci´ on de densidad est´ a dada por: fX (x) =
α 1 I(0,∞) (x). σ (1 + σx )α+1
Proposici´ on A.26 Si X ∼ P aII(α, σ), entonces: (a) E(X) =
σ α−1 ,
(b) E(X r ) =
si α > 1.
Γ(α−r)Γ(r+1)σ r , Γ(α)
(c) Var(X) =
ασ 2 α(α−1)2 (α−2) ,
si α > r.
si α > 2.
Proposici´ on A.27 Si X ∼ P aII(α, σ), entonces X − σ ∼ P aII(α, σ). Proposici´ on A.28 Si X ∼ Beta(α, 1), entonces
1 X
∼ P aI(α, 1).
Definici´ on A.51 Se dice que la variable aleatoria continua X tiene distribuci´ on Pareto generalizada con par´ ametros k, σ ∈ R+ , se denota X ∼ GP a(k, σ), si su funci´ on de densidad est´ a dada por: 1 k−1 1 kx fX (x) = 1− I(0,∞) (x). σ σ Proposici´ on A.29 Si X ∼∼ GP a(k, σ), entonces: h r i 1 (a) E 1 − kX = 1+rk . σ (b) E(X) =
σ 1+k .
(c) Var(X) =
σ2 (1+k)2 (1+2k) ,
si α > 2.
346
A.6.21.
A. Algunos conceptos y resultados de probabilidad
Gaussiana inversa
Definici´ on A.52 Se dice que la variable aleatoria continua X tiene distribuci´ on Gaussiana inversa con par´ ametros µ, λ ∈ R+ , se denota X ∼ IG(µ, λ), si su funci´ on de densidad est´ a dada por: r fX (x) =
λ λ 2 exp − 2 (x − µ) I(0,∞) (x). 2πx3 2µ x
Proposici´ on A.30 Si X ∼ IG(µ, λ), entonces: (a) E(X) = µ. (b) E(X 2 ) = µ2 (1 + µλ ). (c) Var(X) =
µ3 λ .
(d) mX (t) = exp
A.6.22.
λ µ
1−
q 1−
2µ2 t λ
.
Gompertz
La siguiente distribuci´ on la propuso Benjamin Gompertz para ajustar tablas de mortalidad. Definici´ on A.53 Se dice que la variable aleatoria continua X tiene distribuci´ on Gompertz con par´ ametros b, c ∈ R+ , se denota X ∼ Gom(b, c), si su funci´ on de densidad est´ a dada por: fX (x) = be
A.6.23.
cx
b cx exp − (e − 1) I(0,∞) (x). c
Makeham
Definici´ on A.54 Se dice que la variable aleatoria continua X tiene distribuci´ on Makeham con par´ ametros a, b, c ∈ R+ , se denota X ∼ M ak(a, b, c), si su funci´ on de densidad est´ a dada por: b cx fX (x) = (a + be ) exp −ax − (e − 1) I(0,∞) (x). c cx
347
´tricas A.6. Resumen de familias parame
A.6.24.
Benktander
Las distribuciones de Benktander (Benktander & Segerdahl (1960), Benktander (1960)) surgen con la idea de encontrar una distribuci´on cuya vida residual media se encuentre entre las vidas residuales medias de las distribuciones exponencial y de Pareto. Definici´ on A.55 Se definen las distribuciones de Benktander. (I) Benktander tipo I (con a > 0, b ∈ (0, 1] y σ > 0): ( 1 − ( σx )−(1−b) exp[− ab (xb − σ b )] F (x) = 0
si x ≥ σ, si x < σ.
(II) Benktander tipo II (con a > 0, b ≥ 0 y σ > 0): ( a+2b log(x) x −a−1 exp[−b(log2 (x) − log2 (σ))] 1 − a+2b log(σ) ( σ ) F (x) = 0
si x ≥ σ, si x < σ.
Proposici´ on A.31 Si X tiene una distribuci´ on Benktander tipo I, entonces, (1 + a + 2b log(σ))σ E(X) = . a + 2b log(σ) Proposici´ on A.32 Si X tiene una distribuci´ on Benktander tipo II, entonces, 1 E(X) = σ 1 + b . aσ
A.6.25.
Gumbel
Definici´ on A.56 Se dice que la variable aleatoria continua X tiene distribuci´ on Gumbel con par´ ametros µ ∈ R y σ > 0, se denota X ∼ Gum(µ, σ), si su funci´ on de densidad est´ a dada por: x−µ x−µ 1 exp − exp − IR (x). fX (x) = exp − σ σ σ Proposici´ on A.33 Si X ∼ Gum(µ, σ), entonces: (a) E(X) = µ − σψ(1). (b) E(X 2 ) = µ2 + (c) Var(X) =
π 6σ 2 .
π 6σ 2
− 2σψ(1) + (ψ(1))2 .
348
A. Algunos conceptos y resultados de probabilidad
A.6.26.
Weibull
Definici´ on A.57 Se dice que la variable aleatoria continua X tiene distribuci´ on Weibull con par´ ametros µ ∈ R, σ > 0 y α > 0, se denota X ∼ W ei(σ, α, µ), si su funci´ on de densidad est´ a dada por: α x−µ α I(µ,∞) (x). fX (x) = α (x − µ)α−1 exp − σ σ Proposici´ on A.34 Si X ∼ W ei(σ, α, µ), entonces: (a) E(X) = µ + σΓ 1 + α1 . (b) E(X 2 ) = µ2 + 2σµΓ(1 + α1 ) + σ 2 Γ 1 + α2 . (c) Var(X) = σ 2 Γ 1 + α2 − Γ2 1 + α1 .
A.6.27.
Fr´ echet
Definici´ on A.58 Se dice que la variable aleatoria continua X tiene distribuci´ on Fr´echet con par´ ametros µ ∈ R, σ > 0 y α > 0, se denota X ∼ F rechet(σ, α, µ), si su funci´ on de densidad est´ a dada por: α σ α −α−1 fX (x) = ασ (x − µ) exp − I(µ,∞) (x). x−µ Proposici´ on A.35 Si X ∼ F rechet(σ, α, µ), entonces: (a) E(X) = µ + σΓ 1 − α1 . (b) E(X 2 ) = µ2 + 2σµΓ 1 − α1 + σ 2 Γ 1 − α2 . (c) Var(X) = σ 2 Γ 1 − α2 − Γ2 1 − α1 .
A.7.
Convergencia
Sean X1, X2 , ... variables aleatorias en (Ω, F, P) y X una variable aleatoria en el mismo espacio. {Xn }n∈N representa la sucesi´on de variables aleatorias X1, X2 , ....
A.7.1.
Convergencia puntual
Definici´ on A.59 La sucesi´ on {Xn }n∈N converge a X ´ o l´ımn→∞ Xn = X en Ω, si para todo ε > 0 y ω ∈ Ω, existe nε,ω ∈ N, tal que: | Xn (ω) − X(ω) |< ε, Notaci´ on: Xn → X.
para todo n ≥ nε,ω .
349
A.7. Convergencia Convergencia uniforme
Definici´ on A.60 La sucesi´ on {Xn }n∈N converge uniformemente a X ´ o l´ımn→∞ Xn = X en Ω, si para todo ε > 0, existe nε , tal que: | Xn (ω) − X(ω) |< ε,
para todo n ≥ nε y ω ∈ Ω.
u
Notaci´ on: Xn − →X . Observaci´ on A.11 La convergencia puntual es una propiedad local en el punto ω de la sucesi´ on. En la convergencia uniforme, dado ε ∈ R+ , a partir de cierto ´ındice N todas las funciones Xn (ω) estar´an comprendidas entre X(ω) ± ε, para todos los valores de ω. As´ı, la convergencia uniforme implica la convergencia puntual. A continuaci´ on se hace una revisi´ on de los modos de convergencia m´as importantes en la teor´ıa de la probabilidad, los cuales adem´as est´an relacionados con teoremas l´ımite importantes que se usan en la estad´ıstica. Se sugiere consultar textos como Karr (1993), en donde se analizan los resultados asociados a este tema.
A.7.2.
Convergencia casi segura
Definici´ on A.61 Sean {Xn }n∈N y X variables aleatorias en (Ω, F, P). Se dice que Xn converge casi seguramente o con probabilidad 1 a X, si existe A ∈ F nulo, es decir P (A) = 0, tal que Xn (ω) → X(ω), para todo ω ∈ Ac . c.s.
Notaci´ on: Xn −−→ X. La definici´ on es equivalente a: n o P ω ∈ Ω : l´ım Xn (ω) = X(ω) = 1. n→∞
Que suele escribirse simplemente como: P l´ım Xn = X = 1. n→∞
Observaci´ on A.12 Este concepto suaviza el de convergencia usual o puntual, el cu´ al exige la convergencia de Xn (ω) → X(ω), para todo ω ∈ Ω. En la convergencia casi segura puede haber puntos en los que Xn (ω) no converja a X(ω), pero estos puntos forman un conjunto de probabilidad nula. Si A =i ∅, h P∞ se tiene convergencia puntual. Resultado: Si n=1 P {| Xn − X |< ε} < c.s.
∞. Entonces Xn → X.
350
A. Algunos conceptos y resultados de probabilidad
A.7.3.
Convergencia! en probabilidad p
Definici´ on A.62 Se dice que {Xn }n∈N converge en probabilidad a X (Xn − → X) si: l´ım P {ω ∈ Ω :| Xn (ω) − X(ω) |> ε} = 0, para todo ε ∈ R+ . n→∞
p
Notaci´ on: Xn − → X.
A.7.4.
Convergencia en r-media (o r-´ esima media)
Definici´ on A.63 Se dice que {Xn }n∈N converge en r-media a X, si para r > 0, se tiene que: l´ım E[| Xn (ω) − X(ω) |r ] = 0.
n→∞ r
Se denota por Xn − → X. Si r = 1, se le llama convergencia en media; si r = 2, se le llama convergencia en media cuadr´atica.
A.7.5.
Convergencia en distribuci´ on
Definici´ on A.64 Sean {Fn }n∈N y F las funciones de distribuci´ on de {Xn }n∈N y de X, respectivamente. Se dice que {Xn }n∈N converge en distribuci´ on a X, si: l´ım Fn (x) = F (x), para todo x punto de continuidad de F.
n→∞
d
Notaci´ on: Xn − → X. Observaci´ on A.13 [relaci´ on entre los modos de convergencia]. La convergencia casi segura implica la convergencia en probabilidad, la cual a su vez, implica la convergencia en distribuci´ on. La convergencia en r-´esima media implica tambi´en la convergencia en probabilidad. En general, las implicaciones restantes entre los modos de convergencia no se cumplen.
Ap´ endice B
Tablas de distribuciones de probabilidad B.1.
Cuantiles para la distribuci´ on normal est´ andar
Sea X una variable aleatoria con distribuci´ on normal est´andar, X ∼ N (0, 1), su funci´ on de distribuci´ on acumulativa es: Z x 2 1 √ e−u /2 du. Φ(x) = P(X ≤ x) = 2π −∞ Note que s´ olo se presentan las tablas para x ≥ 0. Para obtener las probabilidades para x < 0 use la propiedad de simetr´ıa tal que Φ(−x) = 1 − Φ(x).
351
352
x 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5
B. Tablas de distribuciones de probabilidad
0.0000 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.9987 0.9990 0.9993 0.9995 0.9997 0.9998
0.0100 0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982 0.9987 0.9991 0.9993 0.9995 0.9997 0.9998
0.0200 0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.9987 0.9991 0.9994 0.9995 0.9997 0.9998
0.0300 0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.9988 0.9991 0.9994 0.9996 0.9997 0.9998
P(X 0.0400 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.9988 0.9992 0.9994 0.9996 0.9997 0.9998
≤ x) 0.0500 0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.9989 0.9992 0.9994 0.9996 0.9997 0.9998
0.0600 0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.9989 0.9992 0.9994 0.9996 0.9997 0.9998
0.0700 0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.9989 0.9992 0.9995 0.9996 0.9997 0.9998
0.0800 0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 0.9990 0.9993 0.9995 0.9996 0.9997 0.9998
0.0900 0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.9990 0.9993 0.9995 0.9997 0.9998 0.9998
353
´ n Ji-cuadrada B.2. Cuantiles para la distribucio
B.2.
Cuantiles para la distribuci´ on Ji-cuadrada
Sea X una variable aleatoria con distribuci´ on Ji-cuadrada con k grados de libertad, X ∼ χ2(k) , su funci´ on de distribuci´ on acumulativa es: Z FX (x) = P(X ≤ x) = 0
k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
0.005 0.000 0.010 0.072 0.207 0.412 0.676 0.989 1.344 1.735 2.156 2.603 3.074 3.565 4.075 4.601 5.142 5.697 6.265 6.844 7.434 8.034 8.643 9.260 9.886 10.520 11.160 11.808 12.461 13.121 13.787
0.010 0.000 0.020 0.115 0.297 0.554 0.872 1.239 1.646 2.088 2.558 3.053 3.571 4.107 4.660 5.229 5.812 6.408 7.015 7.633 8.260 8.897 9.542 10.196 10.856 11.524 12.198 12.879 13.565 14.256 14.953
0.025 0.001 0.051 0.216 0.484 0.831 1.237 1.690 2.180 2.700 3.247 3.816 4.404 5.009 5.629 6.262 6.908 7.564 8.231 8.907 9.591 10.283 10.982 11.689 12.401 13.120 13.844 14.573 15.308 16.047 16.791
0.050 0.004 0.103 0.352 0.711 1.145 1.635 2.167 2.733 3.325 3.940 4.575 5.226 5.892 6.571 7.261 7.962 8.672 9.390 10.117 10.851 11.591 12.338 13.091 13.848 14.611 15.379 16.151 16.928 17.708 18.493
x
1 uk/2−1 e−u/2 du. Γ(k/2)2k/2
P(X 0.100 0.016 0.211 0.584 1.064 1.610 2.204 2.833 3.490 4.168 4.865 5.578 6.304 7.042 7.790 8.547 9.312 10.085 10.865 11.651 12.443 13.240 14.041 14.848 15.659 16.473 17.292 18.114 18.939 19.768 20.599
≤ x) 0.900 2.706 4.605 6.251 7.779 9.236 10.645 12.017 13.362 14.684 15.987 17.275 18.549 19.812 21.064 22.307 23.542 24.769 25.989 27.204 28.412 29.615 30.813 32.007 33.196 34.382 35.563 36.741 37.916 39.087 40.256
0.950 3.841 5.991 7.815 9.488 11.070 12.592 14.067 15.507 16.919 18.307 19.675 21.026 22.362 23.685 24.996 26.296 27.587 28.869 30.144 31.410 32.671 33.924 35.172 36.415 37.652 38.885 40.113 41.337 42.557 43.773
0.975 5.024 7.378 9.348 11.143 12.833 14.449 16.013 17.535 19.023 20.483 21.920 23.337 24.736 26.119 27.488 28.845 30.191 31.526 32.852 34.170 35.479 36.781 38.076 39.364 40.646 41.923 43.195 44.461 45.722 46.979
0.990 6.635 9.210 11.345 13.277 15.086 16.812 18.475 20.090 21.666 23.209 24.725 26.217 27.688 29.141 30.578 32.000 33.409 34.805 36.191 37.566 38.932 40.289 41.638 42.980 44.314 45.642 46.963 48.278 49.588 50.892
0.995 7.879 10.597 12.838 14.860 16.750 18.548 20.278 21.955 23.589 25.188 26.757 28.300 29.819 31.319 32.801 34.267 35.718 37.156 38.582 39.997 41.401 42.796 44.181 45.559 46.928 48.290 49.645 50.993 52.336 53.672
354
B. Tablas de distribuciones de probabilidad
B.3.
Cuantiles para la distribuci´ on t de Student
Sea X una variable aleatoria con distribuci´ on t de Student con k grados de libertad, X ∼ t(k) , su funci´ on de distribuci´ on acumulativa es: Z
x
FX (x) = P(X ≤ x) = −∞
k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 ∞
0.900 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.282
0.950 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.645
Γ((k + 1)/2) √ (1 + u2 /k)−(k+1)/2 du Γ(k/2) πk
P(X ≤ x) 0.975 0.990 12.706 31.821 4.303 6.965 3.182 4.541 2.776 3.747 2.571 3.365 2.447 3.143 2.365 2.998 2.306 2.896 2.262 2.821 2.228 2.764 2.201 2.718 2.179 2.681 2.160 2.650 2.145 2.624 2.131 2.602 2.120 2.583 2.110 2.567 2.101 2.552 2.093 2.539 2.086 2.528 2.080 2.518 2.074 2.508 2.069 2.500 2.064 2.492 2.060 2.485 2.056 2.479 2.052 2.473 2.048 2.467 2.045 2.462 2.042 2.457 1.960 2.326
0.995 63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.576
0.999 318.309 22.327 10.215 7.173 5.893 5.208 4.785 4.501 4.297 4.144 4.025 3.930 3.852 3.787 3.733 3.686 3.646 3.610 3.579 3.552 3.527 3.505 3.485 3.467 3.450 3.435 3.421 3.408 3.396 3.385 3.090
´ n F de Fisher B.4. Cuantiles para la distribucio
B.4.
355
Cuantiles para la distribuci´ on F de Fisher
Sea X una variable aleatoria con distribuci´ on F de Fisher con m y n grados de libertad, X ∼ F (m, n), su funci´ on de distribuci´on acumulativa es: Z FX (x) = P(X ≤ x) = 0
P(X ≤ x) 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990
n 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 6 6 6 7 7 7 8 8 8 9 9 9 10 10 10 11 11 11 12 12 12 13 13 13 14 14 14 15 15 15 16 16 16
x
m−2
m m/2 Γ( m+n u 2 2 ) du m n m+n Γ( 2 )Γ( 2 ) n 2 1+ m u n
m 1 2 3 4 5 6 7 8 161.448 199.500 215.707 224.583 230.162 233.986 236.768 238.883 647.789 799.500 864.163 899.583 921.848 937.111 948.217 956.656 4052.181 4999.500 5403.352 5624.583 5763.650 5858.986 5928.356 5981.070 18.513 19.000 19.164 19.247 19.296 19.330 19.353 19.371 38.506 39.000 39.165 39.248 39.298 39.331 39.355 39.373 98.503 99.000 99.166 99.249 99.299 99.333 99.356 99.374 10.128 9.552 9.277 9.117 9.013 8.941 8.887 8.845 17.443 16.044 15.439 15.101 14.885 14.735 14.624 14.540 34.116 30.817 29.457 28.710 28.237 27.911 27.672 27.489 7.709 6.944 6.591 6.388 6.256 6.163 6.094 6.041 12.218 10.649 9.979 9.605 9.364 9.197 9.074 8.980 21.198 18.000 16.694 15.977 15.522 15.207 14.976 14.799 6.608 5.786 5.409 5.192 5.050 4.950 4.876 4.818 10.007 8.434 7.764 7.388 7.146 6.978 6.853 6.757 16.258 13.274 12.060 11.392 10.967 10.672 10.456 10.289 5.987 5.143 4.757 4.534 4.387 4.284 4.207 4.147 8.813 7.260 6.599 6.227 5.988 5.820 5.695 5.600 13.745 10.925 9.780 9.148 8.746 8.466 8.260 8.102 5.591 4.737 4.347 4.120 3.972 3.866 3.787 3.726 8.073 6.542 5.890 5.523 5.285 5.119 4.995 4.899 12.246 9.547 8.451 7.847 7.460 7.191 6.993 6.840 5.318 4.459 4.066 3.838 3.687 3.581 3.500 3.438 7.571 6.059 5.416 5.053 4.817 4.652 4.529 4.433 11.259 8.649 7.591 7.006 6.632 6.371 6.178 6.029 5.117 4.256 3.863 3.633 3.482 3.374 3.293 3.230 7.209 5.715 5.078 4.718 4.484 4.320 4.197 4.102 10.561 8.022 6.992 6.422 6.057 5.802 5.613 5.467 4.965 4.103 3.708 3.478 3.326 3.217 3.135 3.072 6.937 5.456 4.826 4.468 4.236 4.072 3.950 3.855 10.044 7.559 6.552 5.994 5.636 5.386 5.200 5.057 4.844 3.982 3.587 3.357 3.204 3.095 3.012 2.948 6.724 5.256 4.630 4.275 4.044 3.881 3.759 3.664 9.646 7.206 6.217 5.668 5.316 5.069 4.886 4.744 4.747 3.885 3.490 3.259 3.106 2.996 2.913 2.849 6.554 5.096 4.474 4.121 3.891 3.728 3.607 3.512 9.330 6.927 5.953 5.412 5.064 4.821 4.640 4.499 4.667 3.806 3.411 3.179 3.025 2.915 2.832 2.767 6.414 4.965 4.347 3.996 3.767 3.604 3.483 3.388 9.074 6.701 5.739 5.205 4.862 4.620 4.441 4.302 4.600 3.739 3.344 3.112 2.958 2.848 2.764 2.699 6.298 4.857 4.242 3.892 3.663 3.501 3.380 3.285 8.862 6.515 5.564 5.035 4.695 4.456 4.278 4.140 4.543 3.682 3.287 3.056 2.901 2.790 2.707 2.641 6.200 4.765 4.153 3.804 3.576 3.415 3.293 3.199 8.683 6.359 5.417 4.893 4.556 4.318 4.142 4.004 4.494 3.634 3.239 3.007 2.852 2.741 2.657 2.591 6.115 4.687 4.077 3.729 3.502 3.341 3.219 3.125 8.531 6.226 5.292 4.773 4.437 4.202 4.026 3.890
356
P(X ≤ x) 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990
B. Tablas de distribuciones de probabilidad n 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 6 6 6 7 7 7 8 8 8 9 9 9 10 10 10 11 11 11 12 12 12 13 13 13 14 14 14 15 15 15 16 16 16
m 9 10 11 12 13 14 15 16 240.543 241.882 242.983 243.906 244.690 245.364 245.950 246.464 963.285 968.627 973.025 976.708 979.837 982.528 984.867 986.919 6022.473 6055.847 6083.317 6106.321 6125.865 6142.674 6157.285 6170.101 19.385 19.396 19.405 19.413 19.419 19.424 19.429 19.433 39.387 39.398 39.407 39.415 39.421 39.427 39.431 39.435 99.388 99.399 99.408 99.416 99.422 99.428 99.433 99.437 8.812 8.786 8.763 8.745 8.729 8.715 8.703 8.692 14.473 14.419 14.374 14.337 14.304 14.277 14.253 14.232 27.345 27.229 27.133 27.052 26.983 26.924 26.872 26.827 5.999 5.964 5.936 5.912 5.891 5.873 5.858 5.844 8.905 8.844 8.794 8.751 8.715 8.684 8.657 8.633 14.659 14.546 14.452 14.374 14.307 14.249 14.198 14.154 4.772 4.735 4.704 4.678 4.655 4.636 4.619 4.604 6.681 6.619 6.568 6.525 6.488 6.456 6.428 6.403 10.158 10.051 9.963 9.888 9.825 9.770 9.722 9.680 4.099 4.060 4.027 4.000 3.976 3.956 3.938 3.922 5.523 5.461 5.410 5.366 5.329 5.297 5.269 5.244 7.976 7.874 7.790 7.718 7.657 7.605 7.559 7.519 3.677 3.637 3.603 3.575 3.550 3.529 3.511 3.494 4.823 4.761 4.709 4.666 4.628 4.596 4.568 4.543 6.719 6.620 6.538 6.469 6.410 6.359 6.314 6.275 3.388 3.347 3.313 3.284 3.259 3.237 3.218 3.202 4.357 4.295 4.243 4.200 4.162 4.130 4.101 4.076 5.911 5.814 5.734 5.667 5.609 5.559 5.515 5.477 3.179 3.137 3.102 3.073 3.048 3.025 3.006 2.989 4.026 3.964 3.912 3.868 3.831 3.798 3.769 3.744 5.351 5.257 5.178 5.111 5.055 5.005 4.962 4.924 3.020 2.978 2.943 2.913 2.887 2.865 2.845 2.828 3.779 3.717 3.665 3.621 3.583 3.550 3.522 3.496 4.942 4.849 4.772 4.706 4.650 4.601 4.558 4.520 2.896 2.854 2.818 2.788 2.761 2.739 2.719 2.701 3.588 3.526 3.474 3.430 3.392 3.359 3.330 3.304 4.632 4.539 4.462 4.397 4.342 4.293 4.251 4.213 2.796 2.753 2.717 2.687 2.660 2.637 2.617 2.599 3.436 3.374 3.321 3.277 3.239 3.206 3.177 3.152 4.388 4.296 4.220 4.155 4.100 4.052 4.010 3.972 2.714 2.671 2.635 2.604 2.577 2.554 2.533 2.515 3.312 3.250 3.197 3.153 3.115 3.082 3.053 3.027 4.191 4.100 4.025 3.960 3.905 3.857 3.815 3.778 2.646 2.602 2.565 2.534 2.507 2.484 2.463 2.445 3.209 3.147 3.095 3.050 3.012 2.979 2.949 2.923 4.030 3.939 3.864 3.800 3.745 3.698 3.656 3.619 2.588 2.544 2.507 2.475 2.448 2.424 2.403 2.385 3.123 3.060 3.008 2.963 2.925 2.891 2.862 2.836 3.895 3.805 3.730 3.666 3.612 3.564 3.522 3.485 2.538 2.494 2.456 2.425 2.397 2.373 2.352 2.333 3.049 2.986 2.934 2.889 2.851 2.817 2.788 2.761 3.780 3.691 3.616 3.553 3.498 3.451 3.409 3.372
Bibliograf´ıa [1] Berger, J. O. and Sellke, T. (1987). Testing a point null hypothesis: The irreconcilability of p values and evidence. Journal of the American Statistical Association, 82(397):112–122. [2] Campbell, N. A. and Mahon, R. J. (1974). A multivariate study of variation in two species of rock crab of genus Leptograpsus. Australian Journal of Zoology, 22:417–425. [3] Canavos, G. C. (2003). Probabilidad y Estad´ıstica. Aplicaciones y M´etodos. Mc Graw Hill, M´exico. [4] Casella, G. and Berger, R. L. (2002). Statistical Inference. Duxbury Advanced Series in Statistics and Decision Sciences. Thomson Learning, 2nd edition. [5] Conover, W. J. (1999). Practical Nonparametric Statistics. John Wiley & Sons, 3rd edition. [6] Contento R., M.R. (2012). Construcci´ on del concepto de intervalo de confianza mediante simulaci´ on en R. Universidad Nacional de Colombia. Tesis para magister en ense˜ nanza de las ciencias exactas y naturales. [7] Dixit, U. J. (2016). Examples in Parametric Inference with R. Springer, Berlin. [8] Efron, B. (1998). R. A. Fisher in the 21st Century. Statistical Science, 13(2):95–114. [9] Everitt, B. S. (1992). The Analysis of Contingency Tables. Chapman and Hall/CRC, New York, 2nd edition. [10] Fisher, R. A. (1935). The Design of Experiments. Oliver & Boyd, Edinburgh. 357
358
Bibliograf´ıa
[11] Fisher, S. R. A. (1956). Mathematics of a lady tasting tea. In Newman, J. R., editor, The World of Mathematics, volume 3, pages 1512–1521. Simon & Schuster, New York. [12] Gibbons, J. D. and Chakraborti, S. (2010). Nonparametric Statistical Inference. CRC Press, New York, 5th edition. [13] G´ omez V., M. A. (2009). Karl Pearson, el Creador de la Estad´ıstica Matem´ atica. In Basulto, J. and Garc´ıa, J. J., editors, Historia de la Probabilidad y la Estad´ıstica IV, pages 351–356, Huelva. Congreso Internacional de Historia de la Estad´ıstica y la Probabilidad, Servicio de Publicaciones de la Universidad de Huelva. [14] Hall, A. R. (2005). Generalized Method of Moments. Advanced Texts in Econometrics. Oxford University Press, Oxford. [15] Hogg, R. V., McKean, J., and Craig, A. T. (2014). Introduction to Mathematical Statistics. Pearson Education International, 7th edition. [16] Johnson, R. A. and Bhattacharyya, G. K. (2010). Statistics: Principles and Methods. John Wiley & Sons, 6th edition. [17] Kapadia, A. S., Chan, W., and Moy´e, L. A. (2005). Mathematical Statistics with Applications. Statistics: A Series of Textbooks and Monographs. Chapman & Hall/CRC Press, 1st edition. [18] Karr, A. F. (2012). Probability. Springer Texts in Statistics. Springer Science & Business Media, LLC. [19] Kellison, S. G. and London, R. L. (2011). Risk Models and Their Estimation. ACTEX Academic Series. ACTEX Publications. [20] Kendall, M. and Stuart, A. (1979). The Advanced Theory of Statistics. Volume II, Inference and relationship. MacMillan, New York. [21] Koop, G., Poirier, D. J., and Tobias, J. L. (2007). Bayesian Econometric Methods. Cambridge University Press. [22] Lindgren, B. W. (1993). Statistical Theory. Chapman & Hall/CRC Press, 4th edition. [23] Lock, R. H. (1993). 1993 new car data. Journal of Statistics Education, 1(1). [24] Marin, J.-M. and Robert, C. (2007). Bayesian Core: A Practical Approach to Computational Bayesian Statistics. Springer.
359 [25] Mayorga, J.H. (2004). Inferencia Estad´ıstica. Universidad Nacional de Colombia. Unibiblos, 1era. edici´ on. [26] Mood, A. M., Graybill, F. A., and Boes, D. C. (1974). Introduction to the Theory of Statistics. Series in Probability and Statistics. Mc Graw Hill Education, 3rd edition. [27] Moore, D. S. (2005). Estad´ıstica Aplicada B´ asica. Antoni Bosch, 2da edition. [28] Mukhopadhyay, N. (2006). Introductory Statistical Inference. Statistics: A Series of Textbooks and Monographs. Chapman & Hall/CRC Press, 1st edition. [29] Newman, J. R. (1956). The World of Mathematics, Vol. III. Simon and Schuster, New York. [30] Paul, S., Wang, Y. and Ullah, I. (2019). A review of the Behrens-Fisher problem and some of its analogs: does the same size fit all? REVSTAT Statistical Journal volume 17, number 4, 563-597. [31] Pearson, E. S. (1974). Memories of the impact of Fisher’s work in the 1920s. International Statistical Review / Revue Internationale de Statistique, 42(1):5–4. [32] Rao, C. R. (1997). Statistics and Truth: Putting Chance to Work. World Scientific, Singapore, 2nd edition. [33] Reid, N. (2015). Tests of significance. In Wright, J. D., editor, International Encyclopedia of the Social & Behavioral Sciences, volume 21, pages 957–962. Elsevier, Oxford, 2nd edition. [34] Rencher, A. C. and Schaalje, G. B. (2008). Linear Models in Statistics. John Wiley & Sons, 2nd edition. [35] Ross, S. (2010). A First Course in Probability. Pearson, 9th edition. [36] Savage, L. J. (1976). On rereading R. A. Fisher. The Annals of Statistics, 4(3):441–500. [37] Schervish, M. J. (1995). Theory of Statistics. Springer Series in Statistics. Springer. [38] Schervish, M. J. (1996). P values: What they are and what they are not. The American Statistician, 50(3):203–206.
360
Bibliograf´ıa
[39] Snedecor, G. W. (1934). Analysis of Variance and Covariance. Collegiate Press, Ames, Iowa. [40] Snedecor, G. W. (1937). Statistical Methods. Iowa State College Press. [41] Stuart, A., Ord, J. K., and Arnold, S. (1999). Vol. 2a: Classical inference and the linear model. In Kendall’s Advanced Theory of Statistics. Wiley, London, 6th edition. [42] Sudhir, P., Wang, Y.-G., and Ullah, I. (2018). A review of the BehrensFisher problem and some of its analogs: Does the same size fit all? Revstat Statistical Journal. [43] Velez I., R. and Garc´ıa P., A. (2012). Principios de Inferencia Estad´ıstica. Universidad Nacional de Educaci´on a Distancia (UNED), 2nd edition. [44] Welch, B. L. (1938). The significance of the difference between two means when the population variances are unequal. Biometrika, 29(3/4):350–362. [45] Ya˜ nez C., S. (2000). La estad´ıstica una ciencia del siglo XX. R. A. Fisher, el genio. Revista Colombiana de Estad´ıstica, 23(2):1–14. [46] Zacks, S. (1971). Theory of Statistical Inference. Probability & Mathematical Statistics Series. John Wiley & Sons. [47] Zehna, P. W. (1966). Invariance of maximum likelihood estimators. The Annals of Mathematical Statistics, 37(3):744. [48] Zsohar, P. (2012). Short introduction to the generalized method of moments. Hungarian Statistical Review, 16 (Special Number):150–170. [49] http://www.dm.uba.ar/materias/estadistica M/. [50] http://www.statslab.cam.ac.uk/˜rrw1/.
´Indice anal´ıtico AIC, 275
Diagrama de tallo y hojas, 21 Distribuci´on F, 54 t, 57 t de Student, 343 Bernoulli, 77, 336 Beta, 342 Binomial, 337 Binomial negativa, 338 cl´asica de Pareto, 345 de Benktander, 347 Exponencial, 340 F de Fisher, 343 Fr´echet, 348 Gama, 45, 341 Gama generalizada, 341 Gaussiana inversa, 346 Geom´etrica, 77, 338 Gompertz, 346 Gumbel, 347 Hipergeom´etrica, 339 inicial, 126 Ji-cuadrada, 46, 342 Log-Log´ıstica, 344 Log-Normal, 343 Logar´ıtmica, 339 Log´ıstica, 344 Makeham, 346 Normal, 343 Pareto generalizada, 345 Pareto tipo II, 345
Behrens-Fisher, 207 Boxplot, 24 Cantidad pivotal, 189 Clase de estimadores insesgados, 148 Cociente de verosimilitud, 248 Coeficiente de contingencia, 295 Coeficiente de correlaci´ on, 34, 332 Condiciones de regularidad, 149 Consistencia, 144 en ECM, 144 Contrastes de hip´ otesis, 227 Convergencia casi segura, 349 en distribuci´ on, 350 en probabilidad, 350 puntual, 348 uniforme, 349 Cota inferior de Cram`er, 154 Covarianza, 332 Criterio de informaci´ on de Akaike, 275 Cuartiles, 28 Curtosis, 32 Desviaci´ on est´ andar, 30 361
362
´Indice anal´ıtico
Poisson, 77, 337 uniforme continua, 340 uniforme discreta, 336 Weibull, 348 Exponencial, 76 final, 127 posterior, 127 Distribuci´ on de la muestra, 8
puntual, 4 Estimaci´on puntual, 105 Estimador m´aximo veros´ımil, 114 por el m´etodo de momentos, 109 Estimadores basados en verosimilitud, 112
Eficiencia asint´ otica, 167 Enfoque Bayesiano, 216 Error tama˜ no de, 233 tipo I, 233 tipo II, 233 cuadr´ atico medio, 139 Escala de intervalo, 13 de raz´ on, 14 nominal, 13 ordinal, 13 Escalas de medici´ on, 13 Espacio de probabilidad, 2, 319 Espacio muestral, 39 Espacio parametral, 4 Espacio param´etrico, 4 Esperanza condicional, 333 esperanza, 328 Estad´ıstica, 1, 39 completa, 84 de prueba, 243 suficiente, 64 Bayesiana, 4 descriptiva, 11 Estad´ısticas auxiliares, 90 Estad´ısticas de orden, 59 Estimaci´ on por intervalos, 183 por intervalos, 4
Factor de Bayes, 297 Familia de localizaci´on y escala, 8 Familia exponencial, 76 Familias conjugadas, 127 Fisher, 55, 107 Frecuencia relativa, 17 relativa acumulada, 17 Frecuencias, 17 Funci´on de densidad continua condicional, 327 de densidad de probabilidad, 322 de densidad de probabilidad conjunta, 325 de densidad de probabilidad marginal, 326 de densidad discreta condicional, 327 de distribuci´on, 322 de distribuci´on acumulativa, 322 de distribuci´on acumulativa conjunta, 322 de p´erdida, 146 generadora de momentos, 330 generadora de momentos conjunta, 334 potencia, 234 de puntaje, 151 Funci´on de verosimilitud, 114
´Indice anal´ıtico Gosset, 58 Grados de libertad, 265 Gr´ afica de barras, 18 de pay, 18 Hip´ otesis compuesta, 230 estad´ıstica, 227 prueba de, 231 simple, 230 Histograma, 21 Independencia, 321 Independencia estoc´ astica, 328 Inferencia Bayesiana, 126 Inferencia estad´ıstica, 4 Informaci´ on esperada de Fisher, 151 por unidad muestral, 152 Intervalo para el cociente de varianzas de poblaciones independientes, 209 para la diferencia de medias de poblaciones independientes, 204 para la varianza, 203 aleatorio, 185 Intervalo intercuatil, 24 Intervalos para la media, 201 Intervalos de confianza, 183 para muestras grandes, 211 Lema Neyman-Pearson, 240 Media muestral, 27 Mediana muestral, 27
363 Medidas de tendencia central, 27 Medidas de dispersi´on, 29 Momentos, 329 Muestra, 5 Muestra aleatoria, 6, 8 Muestreo estratificado, 5 por conglomerados, 5 aleatorio simple, 5 M´etodo de medianas, 133 de momentos, 106 de m´ınimos cuadrados, 133, 143 de percentiles, 133 M´etodo basado en estad´ısticas suficientes, 196 M´etodo pivotal para intervalos de confianza, 189 M´etodos de estimaci´on, 106 Nivel de significancia, 270 p-value, 268 Partici´on, 80 Pearson, 48, 106 Percentil, 28 Probabilidad condicional, 320 total, 321 Propiedad de invarianza, 120 Prueba de independencia, 286 Ji-cuadrada para bondad de ajuste, 276 Prueba m´as potente, 240 Pruebas de hip´otesis, 227 de hip´otesis, 296 Pruebas de bondad de ajuste, 275 Pruebas de hip´otesis, 4
364 Pruebas m´ as potentes, 240 Pruebas uniformemente m´ as potentes, 248 R, 15 Rango, 31 intercuartil, 31 Raz´ on de verosimilitudes, 256 Raz´ on mon´ otona de verosimilitud, 251 Regi´ on cr´ıtica, 231 Regi´ on de rechazo, 231 Series de Taylor, 265 Sesgo, 139 muestral, 32 negativo, 32 positivo, 32 Suficiencia minimal, 78 Tablas de contingencia, 286 Tama˜ no de la prueba, 235 Teorema de Bayes, 321 de factorizaci´ on, 70 de Lehmann-Scheff´e, 160 de Rao-Blackwell, 159 de Karlin-Rubin, 251, 253 UMVUE, 148 Variable aleatoria, 321 Variables aleatorias continuas, 325 aleatorias discretas, 324 Varianza, 329 condicional, 333 Varianza asint´ otica, 167 Varianza muestral, 29
´Indice anal´ıtico