269 6 74MB
Spanish Pages 254 Year 2020
NOTAS DE TÉCNICAS DE MUESTREO Luis Valdivieso Serrano
DEPARTAMENTO ACADÉMICO DE CIENCIAS
Autor Luis Valdivieso Serrano @Ponti�icia Universidad Católica del Perú Departamento Académico de Ciencias Sección Matemáticas Av. Universitaria 1801, San Miguel Teléfono: 6262000 Correo electrónico: [email protected]
Notas de Técnicas de Muestreo
Lima, Departamento Académico de Ciencias Sección Matemática, 2020 Diseño y diagramación: Elit León Calle Santa Francisca Romana 395, Lima Teléfono: 6571260 [email protected] Primera edición digital: diciembre de 2020
Publicación disponible en: https://departamento.pucp.edu.pe/ciencias/ investigaciones-y-publicaciones/publicaciones-del-departamento/ ISBN: 978-612-47757-1-0 Hecho el Depósito Legal en la Biblioteca Nacional del Perú: 2020-09987 Derechos reservados, prohibida la reproducción de este libro por cualquier medio, total o parcialmente, sin permiso expreso de los editores.
I
II
III
3.6. Uso del paquete survey . . . . . . . . . . . . . . . . 3.6.1. MAE con la base de datos api . . . . . . . . 3.6.2. MAE con la evaluaci´on censal de estudiantes 3.6.3. MAE para la poblaci´on penitenciaria 2016 . 3.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . 2019 . . . . . .
. . . . .
. . . . .
4. Muestreo por conglomerados 4.1. Teor´ıa del muestreo por conglomerados . . . . . . . . . . . . 4.2. Muestreo por conglomerados de una etapa . . . . . . . . . . 4.3. El estimador de raz´on . . . . . . . . . . . . . . . . . . . . . 4.4. Estimaci´on de una proporci´on . . . . . . . . . . . . . . . . . 4.5. Muestreo por conglomerado biet´apico . . . . . . . . . . . . . 4.6. La correlaci´on intraclase y el efecto de dise˜ no . . . . . . . . . 4.7. Muestreo sistem´atico . . . . . . . . . . . . . . . . . . . . . . 4.8. Tama˜ nos de muestra para dise˜ nos multiet´apicos . . . . . . . 4.9. El estimador de Horvitz-Thompson . . . . . . . . . . . . . . 4.10. Muestreo ppt . . . . . . . . . . . . . . . . . . . . . . . . . . 4.11. Muestreo secuencial ppt . . . . . . . . . . . . . . . . . . . . 4.12. Muestreo sin reemplazamiento con probabilidades desiguales 4.12.1. El esquema de Poisson . . . . . . . . . . . . . . . . . 4.12.2. El esquema sistem´atico ppt . . . . . . . . . . . . . . 4.12.3. El esquema de Sampford . . . . . . . . . . . . . . . . 4.12.4. Esquemas de divisi´on . . . . . . . . . . . . . . . . . . 4.13. Muestreo por conglomerados para la poblaci´on api . . . . . . 4.14. Dise˜ no por conglomerados ppt para la poblaci´on penal . . . 4.15. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . .
. . . . . . . . . . . . . . . . . . .
. . . . .
. . . . . . . . . . . . . . . . . . .
. . . . .
. . . . . . . . . . . . . . . . . . .
. . . . .
. . . . . . . . . . . . . . . . . . .
. . . . .
. . . . . . . . . . . . . . . . . . .
5. Una introducci´ on al muestreo complejo 5.1. Pesos de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1. Ajuste de pesos por no respuesta . . . . . . . . . . . . . . . . 5.1.2. Ajuste de pesos por elegibilidad desconocida . . . . . . . . . . 5.2. Estimadores no lineales . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3. Efectos de dise˜ no y consideraciones pr´acticas para obtener tama˜ nos de 5.4. Estimaci´on de la varianza . . . . . . . . . . . . . . . . . . . . . . . . 5.4.1. El m´etodo de linealizaci´on . . . . . . . . . . . . . . . . . . . . 5.4.2. El estimador de raz´on y regresi´on . . . . . . . . . . . . . . . . 5.4.3. M´etodos de remuestreo . . . . . . . . . . . . . . . . . . . . . . 5.4.4. El muestreo por mitades balanceado . . . . . . . . . . . . . . 5.4.5. El m´etodo Jackknife . . . . . . . . . . . . . . . . . . . . . . .
IV
. . . . .
. . . . . . . . . . . . . . . . . . .
. . . . .
. . . . . . . . . . . . . . . . . . .
. . . . .
. . . . . . . . . . . . . . . . . . .
. . . . .
75 75 78 80 85
. . . . . . . . . . . . . . . . . . .
93 94 95 98 99 101 103 105 110 112 117 118 123 124 124 125 125 127 130 134
145 . . . . 146 . . . . 148 . . . . 150 . . . . 150 muestra156 . . . . 159 . . . . 160 . . . . 160 . . . . 162 . . . . 163 . . . . 171
V
Cap´ıtulo 1 Introducci´ on 1.1.
Enfoques basados en el dise˜ no y el modelo
Supongamos que un banco busca estimar el ahorro medio que las familias de un distrito planifican para un mes. Sea y la variable (estad´ıstica) que asigna a cada familia del distrito este monto de ahorro en soles. Naturalmente, si aqu´ı se hace un censo en el que se pregunte y averigue (con fortuna) sobre los ahorros de las N familias del distrito, uno obtendr´a N n´ umeros y1 , y2 , . . . , yN y el ahorro medio de inter´es ser´a: µN =
N 1 yi . N i=1
Desafortunadamente, el banco no puede hacer un censo, y por ello planifica realizar un muestreo probabil´ıstico seleccionando al azar, y por simplicidad con reemplazamiento, una por una a las familias del padr´on de la municipalidad hasta un n´ umero n < N . Note que bajo este esquema toda familia tiene la misma probabilidad de ser escogida. Al t´ermino del estudio, el banco obtendr´a la muestra Y1 , Y2 , . . . , Yn ,
(1.1)
donde Yi denota el valor (aleatorio) que podr´ıa tomar la variable estad´ıstica y en la i´esima selecci´on de la muestra. Realizadas las observaciones, el ahorro medio mensual de las familias del distrito podr´a estimarse mediante la media aritm´etica de estos valores. Note aqu´ı que la aleatoriedad es introducida por el esquema de selecci´on en el dise˜ no de la muestra. As´ı, podr´ıamos escribir indistintamente la variable aleatoria correspondiente a la estimaci´on anterior como n N 1 1 Yi o Y¯ = yi δ i , (1.2) Y¯ = n i=1 n i=1 siendo δi una variable aleatoria con distribuci´on binomial de par´ametros n y probabilidad 1 que denota el n´ umero de veces que la i-´esima familia del distrito es seleccionada en la N muestra. 1
20
´ CAP´ITULO 1. INTRODUCCION
62
CAP´ITULO 2. MUESTREO ALEATORIO SIMPLE
Cap´ıtulo 3 Muestreo aleatorio estratificado 3.1.
Introduccci´ on
Cuando la variable de inter´es asume en promedio distintos valores sobre diferentes subconjuntos de la poblaci´on, uno podr´ıa obtener estimaciones mucho m´as precisas de tomar en cuenta esta segmentaci´on. En una muestra estratificada, la poblaci´on se particiona en H subconjuntos o estratos que tienen la propiedad de ser heterog´eneos entre s´ı pero homog´eneos al interior. La idea aqu´ı es extraer una muestra independiente en cada estrato (usualmente mediante un MASs) y, posteriormente, reunir esta informaci´on para obtener estimaciones globales de la poblaci´on. Entre las razones para optar por un muestreo aleatorio estratificado podemos citar las siguientes: Queremos protegernos contra la posibilidad de obtener un mala muestra, en el sentido de que alg´ un estrato no est´e o est´e pobremente representado. Es probable que queramos datos de precisi´on conocida sobre cada estrato. La muestra estratificada podr´ıa administrarse m´as convenientemente, a un costo menor, reduciendo el tama˜ no de muestra en los estratos m´as caros e incrementando este tama˜ no en lo m´as baratos. El muestreo estratificado dar´a, si se hace correctamente, estimaciones m´as precisas para toda la poblaci´on.
3.2.
Teor´ıa del muestreo aleatorio estratificado
Supongamos que una poblaci´on de N unidades est´a particionada en H estratos, donde cada estrato h posee Nh unidades (N1 + N2 + . . . + NH = N ). En el muestreo aleatorio 63
144
CAP´ITULO 4. MUESTREO POR CONGLOMERADOS
Cap´ıtulo 5 Una introducci´ on al muestreo complejo La gran mayor´ıa de encuestas por muestreo sobre poblaciones grandes involucran varias de las ideas analizadas: una encuesta puede estar segmentada en dominios, estratificada con varias etapas de formaci´on de conglomerados, las probabilidades de selecci´on pueden no ser iguales y es factible utilizar un muestreo sistem´atico en cualquiera de las etapas. Generalmente, la estratificaci´on forma la clasificaci´on m´as gruesa, los estratos pudieran ser a´reas del pa´ıs o tipos de habitat. Se extraen de los estratos muestras de conglomerados (a veces con varias etapas) y puede haber una posestratificaci´on o inter´es a posteriori sobre algunos dominios. Todo esto hace, como se comprender´a, que las f´ormulas para los errores de estimaci´on en este tipo de dise˜ nos sean pr´acticamente inmanejables. En este cap´ıtulo, presentaremos una introducci´on a la obtenci´on de estimadores y de sus varianzas en estos tipos de dise˜ nos. Comenzaremos analizando los pesos de muestreo, el c´alculo de estimadores mediante estos pesos y la estimaci´on de las varianzas de estos estimadores. Finalmente, brindaremos una introducci´on al an´alisis estad´ıstico bajo muestras complejas. Para tener una idea de la magnitud de los problemas comentados, consideremos el censo penitenciario 2016 como base de una encuesta futura por muestreo. Dadas las caracter´ısticas y el tama˜ no de la poblaci´on, pueden plantearse aqu´ı varios dise˜ nos, uno de los cuales expusimos al t´ermino del cap´ıtulo anterior. Aun cuando los dise˜ nos cl´asicos estudiados son te´oricamente factibles, en la pr´actica estos son inviables dadas las restricciones de costos y la complejidad de la log´ıstica subyacente. Una propuesta m´as realista para los penales podr´ıa ser, por ejemplo, optar por un dise˜ no estratificado y por conglomerados biet´apico. De manera natural, los estratos pudieran estar definidos, como en el cap´ıtulo 3, por el g´enero y nivel de hacinamiento de las c´arceles, las unidades primarias de muestreo (UPM) en cada estrato podr´ıan tomarse como los establecimientos penitenciarios (EP) y, finalmente, las unidades secundarias de muestreo (USM) podr´ıan ser los internos al interior de cada EP. Se puede tambi´en pensar en tres etapas, si previamente a la selecci´on de los internos se seleccionan 145
208
´ AL MUESTREO COMPLEJO CAP´ITULO 5. UNA INTRODUCCION
Ap´ endice A Sugerencias o respuestas a los problemas pares Este ap´endice incluye algunas sugerencias o soluciones a los problemas pares planteados en el texto. Para efectos de replicaci´on y uniformidad, usaremos en lo posible la semilla aleatoria set.seed(12345).
Cap´ıtulo 1 2. a) Si X denota el n´ umero de vales de 50 soles que Juan obtendr´a y la selecci´on es con reemplazamiento, entonces X ∼ B(4, 15 ). Si no hay reemplazamiento, X ∼ H(5, 1, 4). As´ı P (X ≥ 1) es mayor en el segundo caso, pues en R 1-dbinom(0,4,0.2)= 0.5904 y 1-dhyper(0,1,4,4)= 0.8. b) Sea (X1 , X2 , X3 , X4 , X5 ) ∼ M ul(4; 0,2, 0,2, 0,2, 0,2, 0,2) el vector aleatorio que denota el n´ umero de veces que ganar´an, respectivamente, Juan, Pepe, Rosa, Luis y Mar´ıa un monto de 50 soles. Entonces, marginalizando P (X1 = 1, X3 = 2) = 0.0576. Esta no coincide con la probabilidad P (X1 = 3) = 0.0256 de que Juan gane 300 soles. c) Considerando a Rosa y Luis como una sola categor´ıa, su distribuci´on para el n´ umero de vales ganados entre los dos es binomial y, por tanto, la probabilidad de que ellos ganen los 4 sorteos es ( 25 )4 = 0.0256. d) El monto que Juan obtendr´a es M = 50X1 y su esperado es de 40 soles. 4. a) Sea (X1 , X2 , X3 ) el vector aleatorio cuyas componentes denotan, respectivamente, el n´ umero de art´ıculos con defectos de tipo A, B y sin defecto en la muestra de los 20 art´ıculos de la producci´on. Por construcci´on, (X1 , X2 , X3 ) ∼ HM ul(20; 12, 8, 180) y la utilidad por vender estos art´ıculos es U = 25X3 − 5X1 − 10X2 . Se pide en principio P (U = 400) = P (25(20 − X1 − X2 ) − 5X1 − 10X2 = 400) = P (500 − 30X1 − 35X2 = 400) = P (6X1 + 7X2 = 20) = P (X1 = 1, X2 = 2, X3 = 17). Esto se calcula en R por 209
La gran mayoría de las investigaciones trabajan con datos, los cuales pueden obtenerse a través de la observación de una o más variables en una población o muestra. Si bien una muestra puede ser cualquier conjunto de una población, conclusiones válidas sobre esta última sólo podrán garantizarse de ser la muestra probabilística, es decir, en las que cada unidad seleccionada tenga una probabilidad conocida de ser tomada. Este texto introduce las principales técnicas para seleccionar y analizar este tipo de muestras cuando la población es finita. La finitud es aquí relevante, pues hace que el desarrollo de estas técnicas se oriente más por un enfoque basado en el diseño. En él, la aleatoriedad de los resultados es producto del proceso de selección de la muestra y no de la consideración de que la o las variables de interés provienen de un hipotético modelo poblacional como se acostumbra asumir en la inferencia clásica. Aparte de las técnicas o esquemas de muestreo básicos como el del muestreo aleatorio simple, el muestreo estratificado y el de conglomerados, el texto introduce algunos tópicos de muestreo complejo. Este, que en la práctica es el esquema más utilizado, se origina cuando debido a las restricciones presupuestales y logísticas o la configuración y tamaño de la población se hace necesario el restringir o combinar dos o más esquemas básicos ya sea que las selecciones se hagan con igual probabilidad o no. Parte central y transversal del desarrollo del texto será el uso del software libre R, con principalmente los paquetes survey y sampling. El texto incluye también varios ejercicios propuestos y soluciones o sugerencias a todos los problemas pares. Muchos de los ejemplos desarrollados en el texto y de los ejercicios planteados se basan en datos reales locales o foráneos de dominio público.