315 32 19MB
Spanish Pages [470] Year 1980
CSTADISTICA CPARA LAS CIENCIAS ADMINISTRATIVAS
TERCERA EDICION
LINCOLN L. CHAO
*** ***
V
°*
G
Estadistica para las Ciencias Administrativas Tercera edicion
LINCOLN L. CHAO California State University Long Beach, California
Traduccion |OSE MARIA CASTANO
Exjefe del Departamento de Matematicas Universidad del Valle
Adaptacidn GREGORIO A. CABALLERO SAUMETH MatemStico y estadfstico, M.S.
Universidad Nacional de Colombia Profesor, Universidad Distrital Francisco Jos6 de Caldas Pontificia Universidad javeriana
Revision tecnica
IESUS MARIA SIMBAQUEBA HERNANDEZ Profesor titular de estadistica Universidad Distrital Francisco lose de Caldas
McGRAW-HILL Santafe de Bogota , Buenos Aires, Caracas, Guatemala , Lisboa , Madrid , Mexico , Nueva York , Panama , San |uan , Santiago , Sao Paulo, Auckland, Hamburgo, Londres, Milan, Montreal, Nueva Delhi, Paris, San Francisco, San Luis , Sidney , Singapur , Tokio, Toronto.
Prohibida la reproduccion total o parcial de esta obra, por cualquier medio, sin autorizacion escrita del editor.
.
DERECHOSRESERVADOS. Copyright © 1993, por McGRAW -HILL INTERAMERICANA S.A. respecto a la edicion adaptada. Transversal 42 B No. 19 - 77, Santafe de Bogota, Colombia.
Adaptadode ESTADISTICA PARA LASCIENC1AS ADMINISTRATES. Segunda edicion, Copyright © MCMLXXVIII, por McGRAW- HILL INTERAMERICANA, S.A.
Traducido de la segunda edicion en ingles de STATISTICS: METHODS AND ANALYSIS
Copyright © MCMLXXIV, por McGRAW-HILL, Inc.
Editora: Martha Edna Suarez R. 3124567890
9012456783
ISBN 958-600- 142- 3. Tercera edicion ( ISBN 968- 451 - 192 - 2. Segunda edicion ) Impreso en Colombia
Se imprimieron 7.600 ejemplares en el mes de julio de 1993 . Impresor: Panamericana.
Printed in Colombia
CONTENIDO Prologo Capi'tulo 1
1.1
1.2 1.3 1.4 1.5 1.6
Capitulo 2
Reseria histories Definiciondeestadistica Usoyabusode laestadistica Conceptosbcisicosde la teorfade con juntos Variable ytipode variables Componentes de una investigacion estadistica
Distributiones de frecuencias 2.1 2.2 2.3
Capi'tulo 3
IX I
Introduction
I 3 4 7 It
12 15
Escalasdemedicion - Tablasdefrecuencias
15
Construccion de una tabla de frecuencias para datos cuantitativos Histogramas y poligonos de frecuencias para
17
2.4
datos cuantitativos Distribution de frecuencia para datos cualitativos
2.5
Otrasrepresentacionesgraficas
27 27
Medidas de position y de variabilidad
33
3.1 3.2 3.3
Medidas de posicion Otras medidas de posicion
Medidas de variabilidad V
22
33 44 49
3.4
3.5
Teoria elemental de la probabilidad
Capitulo 4
x
68 69
conjuntos
4.4 4.5
Tecnicasdeconteo Propiedadeselementalesde la probabilidad Probabilidad condicional
74 77 83 88 90 94
5.1 5.2
5.3 5.4 5.5
Variable aleatoria Valoresperadoy varianzadeuna variable aleatoria Algunasdistribucionesdiscretas Distribucion normal Aproximacion de la distribucion normal a la binomial
Introduccion Disenode muestreo
Distributidn muestral 7.1 7.2 7.3 7.4
7.5 7.6 7.7 7.8 7.9
Capitulo 8
Tresteoremasimportantes
Independencia de eventos
Notiones de muestreo 6.1 6.2
Capitulo 7
68
Introduccion Probabilidad clasica Terminologia de eventos y operaciones entre
Distribution de probabilidad
Capitulo 5
59 64
4.1 4.2 4.3
4.6 4.7 4.8
Capitulo 6
Medidasqueincluyenlamediayla desviacion estandar Otras medidas descriptivas
Introduccion Distribucion conjunta. Independencia de variables Muestra aleatoria. Estadisticas Distribucion de la media muestral Distribucion de la varianza muestral. Distribucion ji cuadrado Distribucion fde Student Distribucion de la diferencia de medias en poblaciones normales independientes Distribucion del cociente de varianzas. Distribucion F Muestreo en poblaciones finitas
Estimation 8.1 8.2
97 97 103 108 117
129 134
134 135 147 147
150 154 157 168 174 177
179 181 184
Estimation puntual Propiedades de un estimador VI
185 186
8.3 8.4 8.5
8.6
Estimacion de maxima verosimilitud El error estandar Estimacion porintervalos Tamano de la muestra para estimar medias y
191 196 197
proporciones
210
Pruebas de hipotesis
Capftulo 9
9.1 9.2 9.3 9.4
9.5
9.6 9.7 9.8
Capftulo 10
Introduccion Definiciones Pasos de una prueba de hipdtesis Pruebas de hipotesis respecto de las medias
215 219 226
en poblaciones normales
227
Pruebas de hipdtesis respecto de las varianzas en poblaciones normales Pruebas para proporciones La funcion de potencia de la prueba Factores que afectan la potencia de la prueba
235 236 240 246
Regresion y correlacion simples
248
La recta de regresion de la poblacion El termino error Estimacion deay 3 Estimacion de o2 Inferencia respecto de la pendiente (3 de la recta de regresion 10.6 Estimacion de E[ Y \ x ] 10.7 Prediccion de un valor particular de Y para un valordadodex 10.8 Analisis de correlacion 10.9 Usode paquetesdecomputadoren regresion simple 10.10 Relaciones no lineales entre dos variables
250 252 256 265
Analisis de series de tiempo
286
10.1 10.2 10.3 10.4 10.5
Capitulo 11
11.1 11.2 11.3 11.4 11.5 9
Capitulo 12
215
11.6
Introduccion
266 270 273 274
282 283
286 288
Componentes de una serie de tiempo Descomposicion de una serie de tiempo
294
Promedios mdviles Numeros indices Algunas aplicaciones importantes
314 317 325
Las utilidades y la teorfa bayesiana
328
Concepto de utilidad
328 337 343
12.1 12.2 12.3
Algunos criterios de decision Decision con informacion VII
12.4
Probabilidades con juntas y la estrategia de Bayes
Capitulo 13
Metodos no parametricos 13.1 13.2
13.3 13.4
Capitulo 14
350
Pruebadelamediana Pruebas en las que intervienen signos de diferencia Pruebas porsumaderangos Metodo de correlacion de rangos
Dos importantes pruebas de hipotesis 14.1 14.2 14.3
Analisis de varianza de un factor Analisis de varianza de dos factores Pruebas jicuadrado
Suplementos Suplementol Supiemen to II Suplemento III Sup / emento IV Suplemento V Suplemento VI Suplemento VII Suplemento VIII Suplemento IX
355
357 364 371 378
378 389 398 413
La varianza es minima cuando se la calcula respecto de la media m | lesminimo cuando m' = medianadex E( | x Si Xy Vson independientes, entonces 2 2 2
2/ 50
2 / 50 7/ 50 16/ 50 31 / 50 43 / 50 48 / 50 ' 1
La construccion de la tabla de frecuencias corresponde a lo que podriamos llamar el resumen tabular de los datos, a este le sigue el resumen grafico, el cual puede hacerse de distintas maneras como se vera en la seccion que entramos ahora a estudiar.
HI
HISTOGRAMAS Y POLIGONOS DE FRECUENCIAS PARA DATOS CUANTITATIVOS
El histograma de frecuencias es una representacion visual de los datos en donde se evidencian fundamentalmente tres caracteristicas: 1 . Forma. 2. Acumulacion o tendencia posicional. 3. Dispersion o variabilidad.
Distribuciones de frecuencias 23
El histograma ( de frecuencias ) en si es una sucesion de rectangulos construidos sobre un sistema de coordenadas cartesianas de la manera siguiente: 1 . Las bases de los rectangulos se localizan en el eje horizontal. La longitud de la base es igual al ancho del intervalo. 2 . Las alturas de los rectangulos se registran sobre el eje vertical y corresponden a las frecuencias de las clases. 3 . Las areas de los rectangulos son proporcionales a las frecuencias de las clases. Los histogramas pueden estar referidos a las frecuencias, a las frecuencias acumuladas o a las frecuencias relativas. La figura 2.1 es el histograma de frecuencias ( absolutas ) correspondiente a la distribucion de las estaturas de 50 obreras de Estados Unidos ( vease tabla 2.7 ) . En esta figura observara que no hay uniformidad de escala en las mediciones sobre el eje horizontal, lo cual esta indicado por una porcion de recta en " zigzag al pie del eje vertical. Esta ruptura de escala se hace con el proposito de no dejar demasiado espacio en bianco entre el eje vertical y el histograma, lo que ademas de ser un desperdicio, trae mas confusion que claridad en la representacion grafica. I6T 14 *
Figura 2.1 Histograma de frecuencias
12 *
de los datos de la tabla 2.7.
10 * 8*
1
6*
,4*
r S
58.5 61.5 * Al observar el histograma vemos
HL
64.5 67.5 70.5 73.5
que este se presenta de manera que llamamos simetrica ( monticular ). Esta particularidad del histograma va a tener una posterior importancia en el proceso inferencial. No todos los histogramas son simetricos. Otro recurso grafico para ilustrar el comportamiento de los datos es el polfgono de frecuencias. Este se construye sobre el sistema de coordenadas cartesianas, al colocar sobre cada marca de clase un punto a una altura igual a la frecuencia asociada a esa clase , luego se unen dichos puntos por segmentos de recta. Para que el polfgono quede cerrado se considera un intervalo mas al inicio ( con frecuencia cero ) y otro al final con frecuencia tambien igual a cero. La figura 2.2 es el polfgono de frecuencias de los datos de la tabla 2.7. I 6T 14 *
Figura 2.2
12
Polfgono de frecuencias de los datos de la tabla 2.7.
10 0
4
16
oo
TT
K
o
24 Estadistica para las ciencias administrativas
El poligono de frecuencias al ser construido a partir de los datos muestrales se puede considerar como la imagen deformada del comportamiento poblacional, el cual se asume ( para poblaciones infinitas ) que es determinado por una curva. Como deciamos antes, el histograma tambien puede estar referido a la frecuencia relativa. La forma del histograma de frecuencia relativa es similar al de frecuencia y solo se diferencia respecto de la escala del eje vertical, la cual es sustituida por la escala de frecuencia relativa. Lo acostumbrado es utilizar un mismo histograma para representar las frecuencias ( absolutas ) y las frecuencias relativas con el empleo de dos ejes verticales situados a cada lado del histograma; uno de los ejes se toma para registrar las frecuencias y el otro para representar las frecuencias relativas ( vease figura 2.3 ). 16"
0.32
14"
0.28
.0 24
12 10
-
° 2016 ° o. 2
1
8"
•
i
6"
-
- 0.8
1
4
2 V
r
iTN
trs
IfN
LTV
n
LTN
Figura 2.3 Histograma de frecuencia y frecuencia
relativa de los datos de la tabla 2.7.
0.4
LTN
En cuanto al poligono de frecuencia, se hace una consideracion semejante a la que hemos indicado para el histograma ( vease figure 2.4 ), I 6T
r 0.32
14
- 0.28
12 -
0.24
10-
0.20
-
0.16
6
0.12
8
4 •
2
Figura 2.4
Poligono de frecuencia yde frecuencia relativa para los datos de la tabla 2.7.
- 0.8 - 0.4 •
Los histogramas de frecuencia acumulada se construyen con el mismo procedimiento establecido en la construction del histograma de frecuencia. La figura 2.5 es el histograma de frecuencia acumulada de los datos de la tabla 2.7.
Distribuciones de frecuencias 25 50'
45
Figura 2.5 Histograma
40-
de frecuencia acumulada de los datos de la tabla 2.7.
35 3(>f
25 20f 15 IOf
5
V
-
N l LA A o b
(
vO
IT
IT
T
s©
T
NO
N
O
I" *
m
t
La ojiva es el polfgono que se obtiene al unir por segmentos de recta los puntos situados a una altura igual a la frecuencia acumulada a partir de la marca de clase como se hizo con el polfgono de frecuencia ( vease figura 2.6 ). 50
.. 40-|45
Figura 2.6 Ojiva de
los datos de la tabla 2.7.
35
30
t
25
20' 15
-
-
10
5
+ IA
LA A
LA
OO
IA
LA
sO
\
0
LA
IA
LA
r
o
m
O
f
-
f'
La frecuencia acumulada relativa tambien se ilustra con el empleo del mismo histograma de frecuencia acumulada; igual situacion sucede con la ojiva. En las figuras 2.7 y 2.8 se hacen estas representaciones.
26 Estadistica para las ciencias administrativas 50'
rl 0
45
•0
40
•0.8
35
07
30
+
• 0.6
25
•0
+
20
•
15
+
10 5
9
J: LA
IA
IA
5
0.4
IA
IA
IA
IA
• 0.9
45
40
0.8
35
. .0.7
-
30”
0.6
25”
• 0.5
20”
•0.4
0.3
•
-0.3
15”
-
0.2
10'
-0.1
0.2
5”
•
-v
£
R £ S 3 3 £ R
50T
Figura 2.7 Histograma de frecuencia acumulada y acumulada relativa para los datos de la tabla 2.7.
0.1
>5 *6 R K S 5 S £ £ £
Figura 2.8 Ojiva para la frecuencia acumulada y acumulada relativa para los datos de la tabla 2.7.
Cuando los intervalos no tienen las mismas longitudes, la construccibn del histo¬ grama requiere algunas consideraciones propias de este hecho. En la figura 2.9 se muestra el histograma correspondiente a la tabla 2.6. 16 14
12
-
10 8
-
6 4: -
2
IA
3
IA
IA
»
X
5
S
Figura 2.9 Histograma de frecuencia para los datos de la tabla 2.6. Para obtener las alturas de los dos ultimos rectangulos tendremos en cuenta que al ser el penultimo de longitud 10 y los anteriores de longitud 5, entonces la
longitud del penultimo intervalo sera 2 veces la longitud de los anteriores y asf , la frecuencia 10 del penultimo intervalo la tomaremos como igual a 5 de la de los anteriores. Esto es, una frecuencia 10 en un tramo de 10, equivale a un promedio de 5 por cada tramo de 5. Debido a esto el penultimo rectangulo lo tomaremos de altura 5 y no 10, como aparece en la tabla. Igual analisis nos conduce a que el ultimo rectangulo lo deberemos tomar de altura 1.5 que resulta del cociente 6/ 4.
Distribuciones de frecuencias 27
Hi
DISTRIBUCI6N DE FRECUENCIA PARA DATOS CUALITATIVOS
La construccion de una tabla de frecuencia para datos cualitativos requiere solo del del numero de elementos o individuos que caen dentro de cierta clase o tienen determinada caracteristica. La tabla se construye de la manera siguiente: 1. En la primera columna se registran las cualidades o caracteristicas. 2. En la segunda columna se anotan las frecuencias ( absolutas ). 3. En la tercera columna se registran las frecuencias relativas En una tabla de frecuencias para datos cualitativos no se dan intervalos de clase por carecer estos de sentido. Como tampoco existe la frecuencia acumulada El histograma de frecuencia para datos cualitativos tambien esta formado por rectangulos; estos rectangulos se dibujan separados para enfatizar que entre ellos existe una diferencia cualitativa y no cuantitativa. Los rectangulos pueden trazarse horizontal o verticalmente. Para los datos cualitativos no existe polfgono de frecuencia. A continuacion se muestran una tabla y un histograma para datos cualitativos. Los siguientes datos corresponden al numero de estudiantes de cierta universi dad, de acuerdo con su lugar de origen. Construir el histograma. conteo
.
.
-
Lugar de origen
Numero de estudiantes
Norteamericano Latinoamericano Europeo Asiatico
1,500
sil
500 200 100
1 Norte Latino americano americano
1
Europeo
i
1
Asiatico
Figura 2.10 Histograma de frecuencia para los datos de la tabla anterior .
HH
OTRAS REPRESENTACIONES GRAFICAS
2.5.1 Histogramas dobles En algunos casos es conveniente para propositos comparativos representar mediante un mismo grafico dos caracteristicas que estan relacionadas. Estas graficas se llaman histogramas dobles. A continuacion presentamos un caso al respecto. En la tabla que sigue se da el numero y sexo de los empleados de una empresa en los anos comprendidos entre 1988 y 1991. Construya un histograma para ilustrar la situacion.
28 Estadistica para las ciencias administrativas
Tabla 2.8 Numero y sexo de los empleados de una empresa. Ano Sexo
1988
1989
1990
1991
Masc.
150 50 200
180 70 250
200 100 300
300 100 400
Fern.
Total
En la figura 2.1 I se ilustran graficamente los datos de la tabla 2.8. 400
300
|
| Hombres Mujeres
-
200" I 00- -
150
1988
180
200
300
;70;
MOO:
MOO:
1989
1990
1991
Figura 2.11 Numero y sexo de los empleados de una empresa entre 1988 y 1991.
Del grafico pueden observarse entre otras cosas, las siguientes: En el ano en el que hubo mayor numero de empleados fue en 1991 y en 1988 fue menor. - El numero de mujeres empleadas fue igual en 1990 y 1991. Existe otra forma alterna para ilustrar graficamente los datos de la tabla 2.8 ( vease figura 2.12 ) .
-
400
|
| Hombres Mujeres
300
200"
100"
m 1988
1
1989
1990
1991
Figura 2.12 Numero y sexo de los empleados de una empresa entre 1988 y 1991.
2.5 .2 Diagramas clrculares En otros casos lo que nos interesa no es mostrar el numero de veces que se da una caracteristica o atributo, sino mas bien resaltar la proporcibn ( porcentaje ) en que
Distribuciones de frecuencias 29 aparece esa caracteristica respecto del total. Asi por ejemplo, para ilustrar de manera grafica una situacion como la que se presenta en seguida, utilizamos el diagrama circular. El numero de empleados de una empresa se distribuye porcentualmente de acuerdo con su tiempo de vinculacibn, como se indica en seguida: Tiempo de vinculacibn
Porcentaje
Menos de cinco anos Entre cinco y diez anos Entre diez y quince anos Entre quince y veinte anos Mas de veinte anos
20% 50% 15 % 10% 5%
Para construir el diagrama circular partimos del hecho de que un circulo encierra un total de 360 grados. Luego, mediante una regia de tres simple, repartimos los 360 grados en distintos sectores circulares, de acuerdo con cada porcentaje; tenemos asf que para determinarel sector circular correspondienteal 20% resolvemos la ecuacion
100
Esto es, el 20% corresponde a un sector circular de medida 72 grados. A continuacion, con ayuda de un transportador, senalaremos el sector circular de medida 72 grados. Igualmente para el 50% se tienen 180 grados; para el 15% se tienen 54 grados; para el 10% se tienen 36 grados y finalmente para 5% se tienen 18 grados. La figura 2.13 muestra la representacion grafica.
Figura 2.13 Diagrama circular correspondiente a los datos de la tabla anterior.
Es conveniente tener presente que en algunos casos para mejor explication del problema, ademas de un histograma de barras ( sean datos cuantitativos o cualitativos ) se recurre tambien a un diagrama circular. Asi por ejemplo, para el caso de la tabla 2.8, en 1988 la distribution porcentual de acuerdo con el sexo es como se ilustra en la figura 2.14.
30 Estadistica para las ciencias administrativas
Figura 2.14 Diagrama circular para la distribucion del sexo de los empleados de la empresa en el ano 1988.
Es conveniente tener en cuenta que debemos estar preparados para interpretar las graficas en su real sentido. Un mismo hecho puede ser exagerado o minimizado mediante la grafica que se utilice para ilustrarlo. En las dos figuras que siguen se presenta el mismo hecho por medio de dos graficas distintas. En la figura 2.15 a ) se tiende a exagerar la diferencia entre las frecuencias y en la b) la tendencia es minimizarla. 100 90 80' • 70
-
60
50"
-
40
30"
90
10-
60
20
-
30 /5
B
A
C
B
C
lb )
(a )
Figura 2.15 Histogramas que representan los mismos datos pero que presentan distinta apariencia.
Finalmente, senalemos que cuando se trata de poblaciones infinitas, los poligonos ( de frecuencias relativasl para datos cuantitativos se transforman en curvas, llamadas curvas de frecuencias. Estas curvas de frecuencias pueden presentar distintas formas; las mas comunes son las simetricas y las sesgadas o asimetricas ( a la derecha o a la izquierda ). La forma de estas curvas es como sigue:
Simetrica
Sesgada a la derecha
Sesgada a la izquierda
Distribuciones de frecuencias 31
Ejerdcios
12.11
1. tQue es la amplitud de una sucesion de datos?
2. Explique la importancia que tiene organizar los datos recolectados para fines analiticos.
3.
En la organizacibn de los datos recolectados en una distribucion de frecuencias: a ) cP r que el numero de clases no debe ser muy grande ni muy pequeno? b ) tPor que a veces es necesario tomar intervalos de longitudes diferentes?
°
4. Para los datos
que dieron lugar a la tabla 2.3, tabla similar a la tabla 2.7.
tome
intervalos de longitud 4 y construya una
5 . tPor que a las distribuciones de frecuencias que aparecen en la tabla 2.7 se les llama distribu
¬
ciones empfricas?
.
6 cCuSl es la finalidad que se persigue al representar graficamente los datos tabulados?
7.
Se juegan dos dados regulares 50 veces y se registra la suma de puntos obtenidos en cada jugada. Se dio la siguiente distribucion de frecuencia:
,
t
Suma de puntos en amboslados
2 3 4 5 6 7 8 9 10 11 12
1 1 1 8
5 7 9 5 6 4 3
Total
50
a ) Halle las distribuciones de frecuencias acumuladas, relativas y acumuladas relativas. b ) Construya un histograma de frecuencia, un poligono y una ojiva.
8. Se ensayan veinticinco llantas nuevas para determinar su vida util. Los resultados de la prueba son los siguientes:
Vida util en miles de millas
Numero de llantas
36 37 38 39 40 41 42 43 44
2 1 3 4 5 4 2 3 I
Total
25
al Obtenga las distribuciones de frecuencias acumuladas, relativa y acumulada relativa. bl Construya un histograma , un poligono y una ojiva
32 Estadistica para las ciencias administrativas
9.
10.
Suponga que se administra un test de aptitud a todos los aspirantes a puestos oficiales de un pais. Se elige al azar una muestra de 50 aspirantes y estos son los resultados: 77, 44 , 49, 33 , 38, 33, 76, 55, 68, 39, 29, 41 , 45, 32, 83, 58, 73, 47, 40, 26, 34, 47, 66, 53 , 55, 58, 49, 45 , 61, 41 , 54, 50, 51 , 66, 80, 73 , 57, 61 , 56, 50, 38, 45, 51, 44, 41, 68, 45, 93 , 43, 12. a ) Construya una tabla de frecuencias similar a la tabla 2.7. bl Construya el histograma y el poiigono de frecuencias. cl Construya el histograma de frecuencia acumulada y la ojiva. Los siguientes datos corresponden al tiempo que han necesitado 30 clientes de un banco para llevar a cabo una transaccion bancaria: 4.1 , 3.1, 0.1 , 6.5 , 5.0, 2.5, 7.4, 10.0, 3.3, 8.0, 2.0, 0.4, 6.4, l. 1 , 9.5, 2.8, 1.2, 1.3, 4.1, 9.5, 4.6, 4.3, 3.6, 5.5,
1.4, 2.8, 1.5, 1.6, 7.3, 7.0.
al Construya una tabla de frecuencias similar a la tabla 2.7. bl Construya el histograma y el poiigono de frecuencias. cl Construya el histograma de frecuencia acumulada y la ojiva.
11. En una empresa el personal se distribuye de acuerdo con su activldad desarrollada en la misma, como se indica a continuacion:
Activldad
Porcentaje
Profesional
8% 10% 70% 10% 2%
Tecnica Operario Ayudante Aseo
Construya un diagrama circular para ilustrar la situacion.
12.
Los siguientes son los colores de los automoviles de 36 profesores de la universidad. Construya un histograma para ilustrar esta situacion Negro, azul, rojo, rojo, bianco, amarillo, crema, rojo, azul, oro, negro, plateado, verde, verde, bianco, negro, oro, azul, rojo, gris, gris, verde, bianco, negro, azul, cafe, naranja, crema, rojo, negro, plateado, oro, amarillo, bianco, rojo, cafe.
. Los siguientes datos corresponden al numero de aspirantes por semestre en los ultimos cinco
13
anos para iniciar una camera.
1986
1987
1988
1989
1990
1 sem. II sem.
155 90
201 150
100 120
180 175
90 50
Total
245
351
220
355
140
AAo
Construya un histograma que le permita ilustrar los anteriores datos.
14. Determine la escala de medida que corresponde a la medicion de cada una de las caracteristicas siguientes len caso de que sean posibles varias escalas debe tomar la m£s alta ). al El tiempo que gasta cada estudiante para responder un examen. b ) El puntaje que le asigna un degustador a distintos tipos de cafe. cl El numero asignado a las cuentas bancarias de los clientes. dl El saldo de las cuentas bancarias de los clientes. el El numero asignado a las intensidades de los temblores de tierra. f ) El numero asignado a los zapatos de mujer. g ) La edad de las personas.
Capitulo
3
MEDIDAS DE POSICION Y DE VARIABILIDAD Hemos decidido unir el estudio de estas dos medidas en un solo capitulo para resaltar el hecho de que estas medidas en el analisis estadfstico se consideran siempre con juntamente, ya que como veremos adelante la simple determinacion de una medida de posicion no es suficiente para tener una idea precisa de lo que dicha medida esta expresando. Antes de abordar el tema es conveniente que se hagan algunas precisiones sobre la necesidad de considerar este tipo de medidas. Los metodos graficos tienen como funcion principal hacer que el lector aprecie de manera rapida como estan situados los datos. Sin embargo, estas tecnicas graficas presentan limitaciones en cuanto se refiere a descripcion y analisis de un conjunto de datos. Al respecto, ,como puede usted discutir con un grupo de personas sobre determinados datos de manera verbal? Por otra parte, las tecnicas graficas ( histogra masl no son apropiadas para hacer inferencias ( que generalmente es el fin perseguido al analizar unos datos-muestra ) aunque si pueden serel punto de partida paraalgunos procesos inferenciales, particularmente en lo que tiene que ver con la forma de la distribucion de la poblacion.
EW1
MEDIDAS DE POSICION
La que aqui vamos a denominar medida de posicion , algunos autores la denominan medida de tendencia central; pero este nombre esta entrando en desuso y por ello usamos el primer nombre citado. Las medidas de posicion forman parte de las denominadas medidas descriptivas numericas ( las otras son las de variabilidad, sesgo y curtosis ) las cuales se clasifican en parametros -cuando se calculan a partir de la poblacion total- y en estadisticas -cuando se calculan a partir de los datos de una muestra. Una medida de posicion es un numero que se toma como orientacion para referirnos a un conjunto de datos. Este numero, para que sea util y nos indique lo 33
34 Estadistica para las ciencias administrativas
que nos interesa conocer sobre la caracterfstica estudiada, debe ser escogido de manera tal que se cumpla dicho proposito, porello, suele decirse que es una medida representativa de un conjunto de datos y asi mismo a que existan varias alternatives para una medida de posicion. A las medidas de posicion tambien se les conoce con el nombre general de "promedio"; pero debido al empleo con otras connotaciones que se le da al termino promedio en el lenguaje popular les frecuente escuchar expresiones como: "este programa de television esta dirigido al televidente promedio , algunos estadisticos han sugerido eliminarlo del vocabulario tecnico de la estadistica. 3.1 . 1 La media aritmetica
La media aritmetica o simplemente media es la medida de posicion mas utilizada. A menudo el estudiante calcula el promedio de sus notas al final del semestre. La media aritmetica representa el centra fisico del conjunto de datos y se define como la suma de los valores observados, dividido por el total de observaciones. De una manera formal decimos que si x , x2 xn son n observaciones numericas, entonces la media aritmetica de estas n observaciones se denota y define de la siguiente manera .
,
X,
x
+
X2
2
+ X,- +
+ x„ 2
-
(3 1 )
n
Nota. Para quienes esten familiarizados con el lenguaje "sumatoria ( Si reconoceran que la media aritmetica X puede expresarse simbolicamente como
i
x
=I n
Asi, por ejemplo, los diez datos 44, 59, 36, 55, 47, 61, 53, 32, 65, 51 , tienen media aritmetica
+
44
59
+
36
+
55
+
47
+
61
+
53
+
32
+
65
+
51
503
Importante. Para una mayor efectividad en el calculo de la media y de otras medidas, se recomienda contar con una calculadora que en su funcionamiento incluya el modo "SD". Este tipo de calculadoras es de facil obtencion en el mercado. Si X|, x2, x3 x son n numeros con media x, entonces cada una de las diferencias d = x - x, d2 = x2 - x, . . . dn = xn - x, se llama desviacidn respecto de la
,
media.
,
„
,
Asi, por ejemplo, para los diez datos anteriores se tiene d = 44 - 50.3 = -6.3, = 51 - 50.3 = 0.7. d2 = 59 - 50.3 = 8.7, cf3 = 36 - 50.3 = - 14.3, La formula para la media dada en la ecuacidn ( 3 - 1 ) corresponde al tipo de datos que llamamos discretos ( no se han llevado a una tabla de frecuencias ). Cuando se trata de datos agrupados ( tabla de frecuencias ) la media esta dada por
x
, , + fx
/x
2 2
-
+ .. . + fkxk n
( 3 2)
n
Medidas de position y de variabilidad 35
,
,
en donde / , f2 , . . . fk son las frecuencias de las clases y x , x2 , x3, . . . , xk son las marcas de clase; y n es el niimero de datos. De la tabla 2.3 se tiene que la estatura media de las 50 obreras esta dada por
_ *
=
2 ( 54 )
+
5 ( 57 )
+
9 ( 60 )
+
15 ( 63 ) + 12 ( 66 ) 50
+5
( 69 )
+
2 ( 72 )
=
3 , 159
IT
= 638
Si se calculara la media directamente a partir de los datos que dan origen a la mencionada tabla, se encontraria que dicho valor es 63.2. Esta pequena diferencia no es rara. En la mayoria de los casos es de esperar esta ligera diferencia entre la media aritmetica calculada a partir de los datos no agrupados y la calculada de los datos agrupados ( distribucion de frecuencias ) ya que las partidas de cada clase no suelen estar distribuidas de manera simetrica a lo largo del intervalo.
3.1 .2 Propiedades de la media aritmetica
Antes de analizar las propiedades de la media, y con el proposito de utilizar una escritura que nos permita referirnos de una manera sucinta a tales propiedades,
introducimos el simbolo sigma ( S ). Six , x2 xn son n numeros, la suma de estos numerosx
,
,
se expresa simbolicamente mediante la escritura
+
x2
+
x3
+
+ xn
, esto es, /=i
Xx, = X,
+
+ . .. + X„
X2
,
Asi, por ejemplo, si x = i2 entonces,
Xx, = X= /
2
=1
/
=
l2
+ 22 + 32 + 42 + 52
I
De la definicion de
Xx,
n
I . Si x, = c ( constante ) entonces,
X2
= 2
i =I
+
4
+
9
+
16
+
25 = 55
se derivan las propiedades siguientes:
i= I
Asi, por ejemplo,
= 1
+
n
n
Xx, = Xc Xc + =
'=i
2 3- 2
c
'' =
+
2
+
+ c + c + ... + c =
nc
-
(3 3)
2 = 5( 2 ) = 10
,
2. Si c es una constante que multiplica a cada una de las observaciones x , x2, x3
xn , entonces la suma de los n productos es igual a c multiplicado por la suma de las
observaciones, esto es,
Xcx, = c Xx,
/=1
En efecto,
Xcx,
/= I
=
cx ,
( 3-4 )
i=I
+ cx2 + cx3 + + cx„
=
c( x
,
+
x2 + x3
+ + x„)
= c /
, Xx = I
36 Estadistica para las ciencias administrativas 3. Si
X|,
,
y y , y2 , y3 , . . . , yn son dos sucesiones de numeros entonces,
xn
x2, x3, . . . ,
n
n
n
X ( x, + y,)
=
y, Zx, + 2 / i =I =
i=i
-
( 3 5)
I
La demostracion es como sigue,
2( x, + yf ) = U, + x
= (x
(=i
2
+
,
x3
+
,
y ) 4- ( x2
+
+ . . . + xn ) +
+
y2 )
+
( x3
yy )
+ . . . ( x„+ y„) = n
,
+
(y
+
y2
y3
+ ... +
yj =
/=i
n
,+ /Xy =i
En el caso de que se trate de diferencia, se tiene un resultado analogo, como indicamos en seguida . 4. Si
X| ,
,
x„y y
x2, x3
p
yn son dos sucesiones de numeros entonces,
y2, y3
X ( x, - y,)
Sy,
-
=
/=t
i= I
(3
/=1
-6 )
Conocidas estas reglas de la sumatoria, podemos examinar las propiedades de la media. Una de las mas importantes es que la suma de las desviaciones respecto de la media es igual a cero, esto es, n
n
I=I
I=I
2d, + 2( x,. -
lo que se demuestra ash
-
( 3 7)
= 0
„
n
2( x,
xl
-
?) =
2x, - 2x
por ( 3 - 5 )
2x, -
nx
por ( 3 - 3 )
nx = 0
por ( 3 - 1 )
/=1
1= 1
=
/=1
i= i
= nx
-
Otra propiedad importante de la media es la que establece lo siguiente: Si y, = a + bXj , siendo a y b constantes entonces,
y = a n
En efecto,
Sy,
/=1
n
=
X(a
/=1
2y,
+ bx,) n
n
Entonces,
n
na
+
2x,
=
2a
/=1
+
-
+ bx
( 3 8)
n
n
/= 1
1= 1
2bx, = na + b 2x, por ( 3- 3 ), ( 3- 4 ), ( 3 -5 )
n
2x,
Suponga , por ejemplo, que existe la relacion y = 3 I , 3 , 5, 7, 6 9. Se tiene entonces:
+
2x y que x toma los valores
Medidas de position y de variabilidad 37
x
y = 3
3 5 7 9
5 9 13 17 21
Total 25
65
1
+
2x
El valor y, sin embargo, podemos calcularlo directamente a partir de la relacion y = 3 + 2x. Comoy = 3 + 2x entonces, por ( 3 3 ) y = 3 + 2 x = 3 + 2 ( 5 ) = 3 + 10 = 13 . Se suele interpretar esta relacion al decir que la media no se altera por una transformacidn lineal de escala. De esto se deduce,
-
Si y, = 6x, entonces y = bx
,
+
Si y = a
Xj
+
entonces y = a
x
Por ultimo tenemos que
,+
Si w, = x
y, entonces w = x
+
y
(3
-9 )
Para demostrar esta relacion partimos del hecho de que
Xw, = X ( x, + y, )
/= I
y asf , w
i
x -
=
Xx,
1
/
=1
n
Xx, + Xy,
i= I
=I
i
por ( 3 - 5 )
/=1
Xx,
+ / Xy 1
(
1=
=
X y,
/=1
1
IT +
n
x
n
+y
-
La propiedad ( 3 9 ) se expresa al decir que la media de la suma es igual a la suma de las medias. En algunos casos cada uno de los numeros de la sucesion x , x2, x3 xn tiene una importancia relativa ( peso ) respecto de los demas elementos de la sucesion. Cuando esto sucede, la media esta dada por
,
IV , X ,
xD
,
=
+
,
w
W2X2
+
w2
+
W3 X3
+
w3
,
+
+ +
+ wkxk 'LL
( 3- 10 )
wk
-
en donde x , x2, x3 , xk son los datos; y w , w2, w3 wk son los pesos respecti vos. La media calculada por la formula ( 3 - 10 ) se llama media ponderada y es utiliza, ejemplo, cuando las calificaciones obtenidas por el estudiante son del tipo por da
38 Estadistica para las ciencias administrativas
promedio ponderado que a su vez esta relacionada con la modalidad de asignacion de creditos a cada una de las asignaturas cursadas. Asi por ejemplo, si la asignatura A tiene 2 creditos y la asignatura 8, 3 creditos > Entonces, para un estudiante que haya obtenido una calificacion de 4 en la asignatura A y de 5 en la asignatura 8, la nota promedio ( ponderadal esta dada por
+ 2 +
3 (5)
2 ( 4)
xp
8
+
23
15 ~
5
3
—r
4.6
Observe que si las notas se hubiesen obtenido en el orden 5 para A y 4 para 8, la nota promedio seria 2( 5 ) 2
=
+
3( 4 )
+
3
10
+ 5
12 _
_22 5
En cambio la media aritmetica simple en amboscasoses
4.4
-
= 4.5 .
Ya que una medida de posicion se refiere al "centro" de una sucesion de observaciones, deberia ser la medida que mejor representara los datos. Sin embargo, el sentido al que la media aritmetica se refiera se pierde por la marcada sensibilidad que esta tiene ante los valores extremos, como se vera. Suponga que se hace una encuesta de ingresos familiares en una ciudad de 1 ,000 familias . Entre estas 1 ,000 familias hay tres que tienen ingresos de $ 100,000,000; y hay 997 con ingresos de solo $500,000. El ingreso medio por familia es de $798,000, pero el 99.7% de estas familias tienen un ingreso pordebajo de esta cuantia. Si bien en algunos casos la sensibilidad de la media puede ser deseable, en otros no. Por ello la estadistica nos proporciona otras medidas alternas a la media como son la mediana y la moda, que pueden ser mas adecuadas para describir la circunstancia que la mencionada media. Ejerdcios
ITil
1. Defina la media aritmetica
,A que se debe que haya una ligera diferencia entre la media calculada a partir de los datos discretos y la calculada a partir de los datos agrupados?
W
2. Cual es la principal desventa ja que presenta la media al utilizarla como medida de posicion?
3.
Suponga que se tienen dos sucesiones Ay Y , apareadas de la manera siguiente : 2 4
X. I Y. 2
3 6
4 8
5 10
Halle el valor de cada una de las siguientes expresiones: al (
2
A) (
2
Y)
2 A21 (2 A) ( 2 A) ( 2 cl ( 2 AVI d ) 2 (A V) el 2 ( A + Y ) fl 2 ( 2A + 3 V3 b)
(
-
-
2
Y)
Medidas de position y de variabilidad 39 4 . Utilice el simbolo X
para representar las expresiones siguientes :
,
,
,
a ) x 2 + x 22 + x 2 + x 2 b ) ax | + a2 x2 + aix + a4x4 + a5x cl c ( x + 11 + c lx2 + 21 + c lx + 31 d ) ( x - l | I 2 + ( x 2 - 21 22 + ( x - 31
,
,
,
5 . Halle el valor de cada 8
a)
X
X*
/
-
31 52
4
( 2
c>
+
j=\
X*+ 2 (
k
)2
=l
4
= 14 y
Xv
54; calcular
/ =i
/=i 4
Xu,
4
-
6/
2)
4
4
X xf (
Xu, + 2 !
/=i
/=i
cl
+ . . . + c ( x„ + nl 32 + lx4 - 41 42 + lx,
*>
X/
b)
/
4
a)
,
una de las expresiones siguientes:
i =I
6. Si
, ,
- I )2
d)
=I
S 3 2x, (
2
-
3x,
+
I)
i =I
7. Calcule la media de los datos del problema 7, ejercicio 2.1.
8. Calcule la media de los datos del problema 10, ejercicio 2.1 . 9. Calcule la media de los datos del problema
bl Al considerar datos agrupados
a ) Al considerar datos discretos
10. I 1.
11 , ejercicio 2.1
Si se tienen los datos 2, 4 , 6, 8, 10 y 12 , comprobar que
, Xlx =
f
jf )
0
i
Sea C° la temperatura medida en grados centigrados y F° medida en grados Fahrenheit . Conocida
la formula
F°
32
+ - j C°
responda lo siguiente :
al Si la temperatura es hoy de 20 grados centigrados, cual es la temperatura en grados Fahrenheit? b ) Si la temperatura es de 86 grados Fahrenheit, ccual es la temperatura en centigrados? cl Durante el mes de diciembre, la temperatura media en Los Angeleses de 70 grados Fahrenheit. Exprese dicha temperatura media en grados centigrados.
12.
Sean las dos sucesiones X y Yapareadas asi: X: 2 Y. I
4
2
6 3
8 4
10
5
a ) Halle la media de IV, al ser W = X - Y b ) Halle la media de W, al ser W = 2 X + 2 Y
3.1 .3 La mediana Antes que todo vamos a introducir una escritura apropiada para la definicion del concepto de mediana , Sea x , x2 , . . . , xn una sucesion de numeros ( datos ) . Mediante la escritura x { indicamos
,
,,
40 Estadistica para las ciencias administrativas
el elemento menor de la sucesion ; por x( 2 l el elemento que le sigue al elemento menor y asf sucesivamente hasta llegar a x( nl que representa al elemento mayor . Asi, porejemplo, si x , = 5 , x2 = 3 , x3 = I , x4 = 5 , x5 = 2 , entoncesx( , = , x 1 ( 2 l = 2 , x( 3 l = 3 , xl 4 l = 5 , x( 5 l = 5 . x( n una sucesion de numeros ( datos ) , la mediana de Sea xm, xl 2 l , x( 3 estos datos se denota y define de la manera siguiente:
,
,
xi
n
11 +
si n es un numero impar ( 3 - 11 )
** (
-! + i
si n es un numero par
*
De acuerdo con la definicion podemos decir que la mediana es el valor que divide un conjunto de observaciones ordenadas respecto de la magnitud de los valores , de tal manera que el numero de datos por encima de la mediana sea igual al numero de datos por debajo de la misma. Tal como sucede con la media , el metodo de determinacion de la mediana depende de si los datos son agrupados o no.
Mediana para datos no agrupados fdiscretos ) Suponga que se tienen los datos: 6, 8, 3 , 4 , 4 , 8, 5 , 8, 10; hallar la mediana . En primer lugardebemosordenar estos datos y tenemosasi la sucesion ordenada :
.
3 , 4 , 4 , 5 , 6, 8 , 8, 8 10
Como se trata de un numero impar de datos ( n = 9 ) entonces la mediana esta = x( 5 ) = 6. ( Esto es, el dato que ocupa el quinto lugar ) . dada por x = x{ n +
,
Tomemos ahora los datos , 5 , 15 , 18, 5 , 9, 7, 12 , II . Como se trata de un numero par de datos ( n = 8 ) , la mediana esta dada por -
X(
f ' + *'f , + ' 2
=
* 4 + %> ( )
2
=
9 + 11
2
=
20_ 2
=
1Q
Ahora veamos el comportamiento de la mediana frente a la media aritmetica . Si tomamos los datos: I , 2 , 3 , 6, 8 esclaroque la mediana es 3 y la media 4 . Cambiemos ahora el quinto dato ( 8 ) de la anterior sucesion por el numero 68. En este caso x = 3 ( no sufrio alteracion ) pero x pasa del valor 4 al valor 16; lo cual esta indicando que x ha sido afectado de manera ostensible por la presencia de un valor extremo ( 68 ) . Esto muestra que la media es mas sensible ante la presencia de los valores extremos que la mediana . Cuando se trata de datos agrupados, la mediana se obtiene mediante interpolacion . Esta interpolacion se basa en el supuesto de que los datos en cada intervalo estan igualmente distribuidos. Para ilustrarel metodo , vamos a determinar la mediana para las estaturas de las obreras a partir de la tabla 2.7. El primer paso para calcular la mediana a partir de unos datos agrupados , consiste en determinar la clase mediana, que es aquella en donde esta situada la mediana. Esta
Medidas de position y de variabilidad 41
se halla al efectuar el cociente
( n,
numero de datos ) y luego al ubicar la primera
clase ( clase mediana ) en donde la frecuencia acumulada es igual o superior a - - . Una vez hallada la clase mediana, determinamos el limite ( real) inferior del intervalo de esta clase, lo denotamos L ,. A este valor se le adiciona la fraccion formada por y menos la frecuencia acumulada de la clase que antecede a la clase mediana ( Fm ) dividida por la frecuencia de la clase mediana ( /m ), multiplicada por la longitud del intervalo de la clase mediana ( c). En formula, el metodo da
x =
Lm
n
Fm __ fm
c
|
Fm
Lm +
~
-
( 3 12 )
c
L
= Limite ( real ) inferior de la clase mediana = Numero de datos = Frecuencia acumulada de la clase que antecede a la clase mediana = Frecuencia de la clase mediana =
Longitud del intervalo de la clase mediana
La mediana de los datos de las estaturas de las trabajadoras ( tabla 2.7 ) puede calcularse al utilizar la formula anterior de la manera siguiente: ( Para mayor comprension reproducimos parte de la citada tabla ).
Clase
53 56 59 62 65 68 71
1
2 3 4 5 6 7
-
.
Intervalo - 55
2 5
- 58 -
61 64 67 70 73
Determinamos la clase mediana:
,
f
Fl
54
2 7 16 31 43 48 50
57 60 63 66 69 72
9
15 12 5 2
y=
m
= 25.
Asi que la clase mediana corresponde a la clase cuarta. A partir de esta clase se tiene:
Lm
61.5,
y
25 ,
16,
L
15,
Al reemplazar en ( 3 - 12 ) se tiene x = 61.5
+
25 - l 6 - x 3 = 61.5 63
+ -jy x
3
63.3
c
3
42 Estadistica para las ciencias administrativas
Este valor se interprets de la manera siguiente: "El 50% de las obreras tiene una estatura pordebajo de 62 pulgadas aproximadamente
.
3.1.4 La moda A veces tenemos que clasificar datos en grupos que no son numeros. Por ejemplo, los empleados de una companfa se pueden clasificar por el sexo, estado civil, ocupaciones, etc. En estos casos no tiene sentido hablar de media o de medians del sexo de los empleados, de su estado civil o de sus ocupaciones, por cuanto la asignacion numerica que hagamos sera mas bien con proposito diferencial, pero carente de cualquier sentido cuantitativo. Sin embargo, sf tiene sentido preguntar por ejemplo, cual es la ocupacion de la mayorfa de los empleados. Esta ocupacion se llama entonces la ocupacion modal. Por consiguiente pues, ademas de la media y medians, es necesario introducir otra medida de posicion, que es la moda.
La moda de una sucesion de datos se define como el valor que se da con mayor frecuencia. La moda se denota x. Los datos Los datos Los datos
2, 2, 5, 7, 4, 2 tienen moda x = 2 ( datos unimodales ). 2, 2, 5, 5, 5, 2, 3, 3 tienen moda x = 2 y x = 5 ( datos bimodales ). 2, 3 , 4, 5, 6 no tienen moda.
De lo anterior se deduce que una sucesion de datos puede tener solo una moda, mas de una moda o no tener moda. Cuando se trata de datos agrupados para hallar la moda debemos determinar antes que todo la clase modal en la cual se halla esta. Dicha clase corresponde a aquella que presente mayor frecuencia ( absoluta ). Una vez localizada la clase modal, procedemos por interpolacion para determinarla. Esta interpolacion nos conduce a la siguiente formula para la moda:
**
+
< 3-|3 >
c
Lm
= Lfmite real inferior de la clase modal (la clase de mayor frecuencia ) = Diferencia entre la frecuencia de la clase modal y la de la clase que la antecede = Diferencia entre la frecuencia de la clase modal y la de la clase que le sigue
c
= Longitud del intervalo de la clase modal
,
cf d2
Al aplicar la formula ( 3- 13 ) a los datos de la tabla 2.7, tenemos que la clase modal corresponde a la clase cuarta. Por tanto,
in,
=
,
61.5, d = 15 - 9 = 6, d2 = 15
-
12 = 3,
c = 3
Al reemplazar en ( 3- 13 ) se tiene x = 61.5
+
6
*
X
3 = 61.5
+y
X
3 = 63.5
La moda tiene la siguiente interpretacion: "La mayorfa de las obreras tienen una estatura de 63.5 pulgadas aproximadamente .
Medidas de position y de variabilidad 43
.
3.1 5 Uso de la media, mediana y moda. Relacion entre estas medidas La media, mediana y moda se consideran las medidas de posicion mas importantes por su sencillez y utilidad. No obstante, como ya senalamos antes, no son aplicables
en todos los casos. A continuacion daremos algunas ideas acerca del uso de cada una de estas medidas. La figura 3.1 muestra las posiciones de la media, la mediana y la moda en curvas
simetricas y sesgadas ( asimetricas ). En caso de que la curva sea simetrica ( figura 3.1.a) las tres medidas coinciden. En las curvas sesgadas ( figuras 3.1.by 3.1.c) los tres valores difieren y tenemos asi que: En la figura 3.1 .b se ve que la distribucion es sesgada a la derecha - la cola m s larga de la distribucion queda a la derecha. La mediana tiene una posicion tal que la mitad de la distribucion esta por encima de la mediana y la otra mitad por debajo. Como la cola larga esta situada a la derecha, la moda que sigue situada en el pico de la curva ha de llevarse a la izquierda de la mediana; es decir, hacia los valores inferiores de la distribucion. Como la media aritmetica es la mas sensible a los valores extremos, se ve llevada a la derecha de la mediana o sea hacia los valores altos de la distribucion. Ocurre todo lo contrario cuando la curva es sesgada a la izquierda ( vease figura 3 . I .C ) . En cuantb a cual medida es la mas indicada para referirse a un conjunto de datos, esto solo puede ser resuelto una vez que hayamos observado la forma de la distribucion y del objetivo que se persiga con dicha medida. Si la distribucion es simetrica, o aproximadamente simetrica, no importa que
medida utilicemos. Si la distribucion es sesgada ( asimetrica ) , puede ser mas adecuado utilizar la moda o la mediana, ya que la media no ofrece un buen comportamiento
en estas circunstancias. Si la medida se utiliza para obtener un valor total, debemos emplear la media. Por ejemplo, si un avion de pasajeros esta diseriado para transportar 20,000 libras, es de esperar que lleve 100 personas, si suponemos que el peso promedio, induido el equipaje por persona, sea de 200 libras. Si lo que se desea es averiguar el gasto ti'pico de un hogar en alimentacion, debe utilizarse la moda.
Figura 3.1.a
Figura 3.1.c
Figura 3.l.b
Figura 3.1 La position de la media, mediana y moda en distributiones simetricas y sesgadas.
Desde el punto de vista aritmetico la media, la mediana y moda estan relacionadas como se indica en la siguiente formula de aproximacion ( valida para las curvas moderadamente sesgadas). (x -
x)
= 3 (x -
x)
44 Estadfstica para las ciencias administrativas
Ef|
OTRAS MEDIDAS DE POSICI6N
Ademas de las medidas antes estudiadas ( media, mediana, modal existen otras que pueden ser mas practicas para precisar ciertas situaciones. Estas medidas son los cuartiles, los deciles y los percentiles. 3.2. 1 Cuartiles
Los cuartiles como los deciles y los percentiles son en cierta forma una extension de la mediana. Los cuartiles de una sucesion de datos ordenados son aquellos numeros que dividen la sucesion en cuatro partes porcentualmente iguales. Hay tres cuartiles, denotados usualmente O , 02, Q3. El segundo cuartil Q2 , esprecisamente la mediana. El primer cuartil O , es el valor en el cual o por debajo del cual queda un cuarto ( 25% ) de todos los valores de la sucesidn ( ordenada); el tercer cuartil Q3, es el valor en el cual o por debajo del cual quedan las tres cuartas partes ( 75%| de los datos. Como los cuartiles adquieren su mayor importancia cuando contamos un numero grande de datos y tenemos en cuenta que en estos casos generalmente los datos son resumidos en una tabla de frecuencia, nos limitaremos a presentar la formula para el calculo de los cuartiles cuando se trata de datos agrupados. Esta formula es como sigue:
,
,
4+
Qk
Lk
fc ( T ) -
4
k
4
1,2,3
= Limite ( real ) inferior de la clase delcuartil A:( Se determina de manera similar que en el caso de la mediana )
n
= Numero de datos
Fk
= Frecuencia acumulada de la clase que antecede a la clase del cuartil k
c
= Longitud del intervalo de la clase del cuartil k
4
-
( 3 14 )
= Frecuencia de la clase del cuartil k
,
Calculemos Q y Q3 para los datos de la tabla 2.7.
,
Calculo de Q
Determinamos en primer lugar la clase del cuartil: Para determinar esta clase efectuamos la operadon k (-5- ), tomando k = 1 y n = 50. El resultadoes I ( -55. ) = 12.5. Ahora ubicamos la clase en donde la frecuencia 4 acumulada es igual o sobrepasa este numero. Esto ocurre en la clase tercera. Portanto,
,
L = 58.5, k = I,
,
n = 50, F = 7,
,
/ = 9, c = 3
Al reemplazar en la formula ( 3- 14 ) tenemos:
,
O = 58.5
+
123
~
7
x 3 = 58.5
+ -y- X
3 = 60.33
Este valor se interpreta de la manera siguiente: " Aproximadamente el 25% de las obreras tienen estatura por debajo de 60 pulgadas", tambien puede decirse "apro¬ ximadamente el 75% de las obreras tienen estatura por encima de 60 pulgadas".
Medidas de position y de variabilidad 45
Calculo del tercer cuartil Para determinarla clasedel tercer cuartil realizamos la operacion k (- -|, tomando
k = 3 y n = 50. Esto nos da 37.5 y asi la clase del cuartil tres corresponde a la clase quinta . L3
64.5 ,
=
n
=
50,
F3
f3 = 12 ,
31 ,
=
c
=
3
Al reemplazar en la formula ( 3- 141 se tiene:
03
64.5
=
3? 5
+
31
~
|
x 3
=
64.5
|x
+ -y
3
-
=
66.13
El valor del cuartil tercero se interpreta asi: " Aproximadamente el 75 % de las obreras tienen estatura por debajo de 66 pulgadas , tambien se puede interpretar como "aproximadamente el 25% de las obreras tienen estatura por encima de 66 pulgadas . 3.2 . 2 Deciles Los deciles son cifertos numeros que dividen la sucesion de datos ( ordenados ) en diez partes porcentualmente iguales. Los deciles se denotan D| D2 , , D9 , que se leen primer decil, segundo decil, etc. Para datos agrupados los deciles se calculan mediante la formula P
Dk Lk
n
*
*
( 10
1
c k
4
= 1 , 2 ,3 , . . . ,
9
( 3- 15 )
= Limite ( real ) inferior del intervalode la clase del decil k
Fk
= =
c
=
4
I +
=
Numerode datos Frecuenciaacumuladadelaclasequeantecedea la del decil k
= Frecuencia de la clase del decil k
Longitud del intervalo de la clase del decil k
Calculemos el decil D7 para los datos de la tabla 2.7. Determinamos la clase del septimo decil. Esto ocurre en la clase quinta ( k ( = 35 ) .
L j = 64.5 ,
n = 50,
F7 = 31 ,
f7
=
12,
£
- : )
10
c = 3
Al reemplazar en ( 3- 15 ) obtenemos: D7 = 64.5
+
35
~
31
x 3
=
64.5 +
-
jy- x 3
=
65.5
Este valor tiene la interpretacion siguiente: "El 70% de las obreras tienen estatura por debajo de 66 pulgadas . Los deciles, al igual que los cuartiles, son ampliamente utilizados para fijar el aprovechamiento academico y es asi que se acostumbra senalar que la puntuacion
46 Estadistica para las ciencias administrativas
de un estudiante esti por debajo, por ejemplo, del tercer cuartil o que esti por encima del noveno decil. 3.2.3 Percentiles Los percentiles son, tal vez, las medidas mas utilizadas para propositos de ubicacion o clasificacion de las personas cuando se atienden caracteristicas tales como peso, estatura, etc. Los percentiles son ciertos numeros que dividen la sucesion de datos ordenados en cien partes porcentualmente iguales. Cuando los datos estan agrupados en una tabla de frecuencias, se calculan mediante la formula
Pk
=
Lk +
k{
-*
l00
~
1,2,3
c k
4
99
-
( 3 16 )
Los elementos constitutivos de la formula tienen las interpretaciones analogas que hemos indicado para los cuartiles y los deciles. Es ficil ver que el primer cuartil coincide con el percentil 25; el segundo cuartil con el percentil 50 y el tercer cuartil con el percentil 75. Calcular el percentil 80 para los datos de la tabla 2.7. Determinamos la clase del percentil 80. Esto ocurre en la clase quinta. L80 = 64.5, n = 50,
Pso
= 31,
f$g
—
12,
c = 3
Al reemplazar en ( 3- 16 ) se obtiene que: P80 = 64.5
+
40
- 31 [2
x 3 = 64.5
9
+ -jy- X
3 = 66.75
"Aproximadamente el 80% de lasobreras tienen estatura por debajo de 67 pulgadas".
3.2.4 Proporddn La proporeion , designada por p, se refiere a la fraccion de la muestra que posee determinada caracteristica o propiedad. Asf , por ejemplo, si de los 80 trabajadores de una empresa 15 tienen mas de cinco anos de vinculacion; 20 mis de diez anos; 40 mis de quince anos y 5 mis de veinte anos. Entonces, Proporeion de trabajadores con mas de cinco anos =
15 80
= 0.1875
Proporeion de trabajadores con mis de diez anos =
20 80
= 0.25
( 25%)
Proporeion de trabajadores con mas de quince anos =
40 80
= 0.5
( 50%)
Proporeion de trabajadores con mis de veinte anos =
5 80
= 0.0625
( 18.75%)
( 6.25%)
* Medidas de position y de variabilidad 47 Ejercicios
.
13.21
1 Halle la mediana y la moda para las siguientes sucesiones de datos:
.. ..
a ) 2, 4, 5, 6, 6, 6, 9 10 13, 15 b ) I, 3, 5, 7, 7, 7, 9 9 10, 10, II 12
2.
)!
*
siendo N = numero de elementos disponibles n = numero de elementos indistinguibles que tienen la caracteristica n2 = numero de elementos indistinguibles que tienen la caracteristica n3 = numero de elementos indistinguibles que tiehen la caracteristica nk = numero de elementos indistinguibles que tienen la caracteristica
,
' 1
2 3
k
cCuantas permutaciones dlstintas se pueden hacer a partir de la palabra ABRA¬ CADABRA? En este caso llamamos A la primera caracteristica, n = 5; B la segunda caracte¬ ristica, />2 = 2; R la tercera caracteristica, n3 = 2; C la cuarta caracteristica, n4 = I y D la quinta caracteristica, n5 = 1.
,
Al aplicar la formula ( 4-4) para N = llserecibe 4.4.3
( 5 ) ; ( 2) ;
( 1)
, ( 1) !
= 83,160
Muestras no ordenadas sin repetlcibn
Se obtienen cuando cada observacidn se da sdlo una vez y el orden en que aparecen no es de importancia. Este tipo de muestra se llama comblnaddn. El numero de observaciones no ordenadas sin repeticidn ( muestras ) esti dado por N! (N
-
/>) !
n!
-
( 4 5)
en donde N = numero de elementos distintos disponibles n = numero de elementos escogidos
Suponga que hay 20 personas para formar un comite de tres. De cuantas formas se puede formar este comit6? Es evidente que en este caso el orden en que se escojan las tres personas carece de importancia y que ninguna de 6stas va a ser escogida dos veces para formar el comit6. Portanto es un problema de combinaciones. El numero de tales combinaciones, al aplicar la fbrmula ( 4 5 ), estci dado por
-
20! ( 17! )( 3!)
=
20 X 19 x 18 = 3 X 2 X 1
Suponga que en un departamento hay 10 hombres y cinco mujeres y que se necesita un grupo de cuatro personas para llevar a cabo un proyecto especial. Halle ( 1 ) el numero de formas como se pueden elegir dos hombres y dos mujeres para dicho grupo de trabajo y ( 2 ) el numero de formas para elegir sea cuatro hombres, sea cuatro mujeres.
Teoria elemental de la probabilidad 81
I . En este caso cada forma de election es una combination, ya que no importa el orden y no hay repetition. El numero de combinaciones de 10 hombres tornados de a dos es
C2
'°
45
(80) ! ( 2 ) !
y el numero de combinaciones de cinco mujeres tomadas de a dos es 5C2
5! (3 ) ! ( 2) !
10
Como hay 43 formas de realizar una de las acciones y 10 formas, para la otra , por el principio de multiplication hay un numero de las misrjnas para realizar ambas acciones que es 45 ( 10) = 450. O sea que el numero de formas para elegir dos hombres y dos mujeres para dicho grupo de trabajo es 450. 2. Hay l 0C4 = 2 ) 0 formas para elegir cuatro hombres y 5C4 = 5 de elegir cuatro mujeres. Como s6lo se tomaran hombres o s6lo mujeres, entonces por el principio
de adicion, el numero de formas como pueden seleccionarse los distintos grupos de trabajo estt dado por ,0C4 + 5C4 = 210 + 5 = 215. Suponga que una tienda de T.V. ha recibido un embarque de 12 receptores nuevos, nueve del modelo A y cuatro del modelo 6. Si se venden cuatro receptores, £,cudl es la probabilidad de que los receptores vendidos sean dos del modelo A y dos del modelo 6? i,CvA\ es la probabilidad de que los cuatro sean del mismo modelo?
El numero de formas para elegir cuatro objetos entre 12 es
12 C4 =
=
El numero de formas para elegir dos objetos entre ocho es numero de formas para elegir dos objetos entre cuatro es
(
24
(2 !)
495
=
28, y el
= 6.
Asi que
el numero de formas para elegir dos receptores entre los ocho de modelo A y dos entre los cuatro de modelo B es 28 x 6 = 168, y la probabilidad de vender dos receptores
de cada modelo es 168 495
_
56 165
El numero de formas para elegir cuatro objetos entre ocho es numero de formas para elegir cuatro objetos entre cuatro es
(4
4 !|
-
{ 4 ! )( 0 ! )
=
70, y el
= l.
Por
tanto, la probabilidad de que los cuatro receptores vendidos sean del mismo modelo es
70 + 1 495
71 495
82 Estadfstica para las ciencias administrativas
Ejercicios
| 4.2 |
.
1 Explique la diferenda entre permutacidn y combinacfbn.
2.
Se juegan cinco dados; de cubntas formas pueden caer?
. Se juega cuatro veces una moneda.
3
De cuantas formas poslbles puede caer en las cuatro jugadas? Utilizar un diagrama de Srbol para mostrar todos los resultados posibles.
4. Las placas de matrfcula para vehfculos partlculares tienen tres letras seguidas de tres dfgitos y un mismo color. cCubntas placas distintas pueden formarse?
.
5
,
Los asegurados de una companfa se clasiflcan por edades: menos de treinta afios ( A ); de treinta a cuarenta y dnco ( A2 ); y de m£s de cuarenta y cinco (>4 ); por estado dvil: soltero ( S|, casado ( WO viudo ( L/l, y por sexo: vardn (Ml y mujer (F). De cuantas formas se pueden clasificar las pdlizas de los asegurados? iCubl es el espacio muestral de este experimento? Construir un diagrama de drbol para representar el espacio muestral.
,
.
. La carta, de un restaurante ofrece a eleccibn sopa
6
7.
( SI o ensalada ( A) para empezar, came de res ( B) de cerdo ( PI o de otra dase o mariscos ( O) como plato principal; y torta ( O, pastel ( /), o fruta ( FI a elegir para postre. La comida compieta consta de tres platos elegidos de cada una de las tres clases. iCubl es el espacio muestral de este experimento? Construir un diagrama de brbol para representar el espacio muestral de todas las comidas completas posibles.
Si un conjunto A tiene cinco elementos, cuantas duplas se pueden formar con los elementos
de A?
8.
Si en un concurso se presentan 10 libros, ,de cuantas formas se pueden otorgar los primeros tres premios?
9. En el concurso de belleza de Miss Universo, se suelen escoger primero 15 semifinalistas y luego se eligen cinco finalistas. De cuantas formas se pueden ocupar las cinco primeras posiciones entre
las 15 finalistas?
Se sacan cinco . pueden sacar
..
, 9. 0 como la probabilidad con
¬
dicionai de B dado A. Por lo anterior podemos observar que hay dos formas para calcular una probabi¬ lidad condicionai. Una, hacerlo directamente como se hizo en el ejerdcio introductory. Otra , al aplicar la fdrmula dada por ( 4-6 ). Segun las condiciones particulares del problema se podrd aplicar uno u otro mbtodo. » El 50% de los estudiantes de la universidad tiene dases por la manana; el 30% tiene clases por la tarde y el 20% tiene dases por la manana y por la tarde. Se escoge un estudiante al azar . Calcule la probabilidad de que a ) tenga clases por la tarde , dado que tiene clases por la mariana, b) tenga clases por la manana, dado que tiene clases por la tarde. Como ocurre con todos los problemas de la probabilidad, lo que debemos hacer antes que todo es definir los eventos. En este caso los eventos son: A: el estudiante tiene clases por la manana B: el estudiante tiene clases por la tarde y A n B que corresponde al evento "el estudiante tiene clases por la manana y por la tarde", con probabilidades respectivas P [ A] = 0.5 P[B] = 0.3 y P [ A D B] = 0.2. •
La probabilidad pedidaen la parte a ) corresponde P [ B \ A]
=
=
=
~ ~
0.4
=
5 Para la parte b ) se tiene P[i4 | B] =
=
TT
=
T
=
°
'
7
Otro ejerdcio. En cierto grupo de estudiantes de secundaria formado por 60 mujeres y 40 hombres, se observa que 24 de estos usan lentes, lo mismo que 16 mujeres. Se escoge un estudiante al azar; halle la probabilidad de que a ) sea mujer, dado que usa lentes, b ) use lentes, dado que es hombre. Los eventos a considerar para darle solucion al problema son: A: la persona escogida es mujer B: la persona escogida usa lentes Con los datos del problema podemos formar un cuadro como el que sigue:
90 Estadistica para las ciendas administrativas
Usa lentes
Sexo
Sf
No
Total
Masculino Femenino
24 16
16 44
40 60
Total
40
60
100
A partir de la tabla tenemos P [ A I Bl
= 40 =
5
=
0.4 P [ B \ A' ]
-
=
40
=
10
= 0.3
De la fbrmula ( 4 6 ) , se tiene que P [ A n B] = P[A|B] P[B] otambien P[A n B] = P[B|A] P [ A] ( 4-7) que se conoce con el nombre de regia general de multiplicacidn. La probabilidad de que un ama de casa estb presente en el hogar cuando un representante de ventas llame a la puerta es de 0.5. Si se encuentra que la probabilidad de que realice una compra es de 0.3. Halle la probabilidad de que la senora este presente en casa y de que realice una compra cuando el representante la Name. Definimos los eventos, A: el ama de casa se halla en casa , B: la senora hace compras
cuando se llama . Necesitamos calcular P [ A D B]
= P[B|A] P [ A] =
( 0.3 ) (0.5 )
=
0.15.
TRES TEOREMAS IMPORTANTES
Hay tres resultados relacionados con la probabilidad condicional que adquieren gran importancia en la solucibn de ciertos problemas. Estos se conocen con el nombre de teorema ( regia ) de probabilidad total, teorema ( regia ) de Bayes y teorema ( regia ) de multiplicacidn. Los ejercicios que desarrollaremos despues de la discusion de cada uno de estos teoremas nos daran luces sobre en que tipo de problemas tienen aplicacibn las citadas reglas. Antes de entrar a analizar los dos primeros teoremas es necesario introducir un concepto previo ligado a bstos.
,
,
Sea S un conjunto no vacio, se llama particidn de S a cualquier familia {B }" = de subconjuntos de S que sean mutuamente exduyentes y totalmente exhaustivos. Formal mente una particibn es cuando B D B = 0 / / y B U B2 U . . . U B„ = S.
,
,
,
-
Asf por ejemplo, si S = {a, b, 4 entonces { {a}, {b}, {c}} forma una particibn de S. Otra particibn es {{a, b}, {c} }. Pero { { a, b}, {b, c} } no es una particibn de S puesto que { a, b} y {b, c} no son mutuamente exduyentes. Si se tiene un conjunto universal S y A un subconjunto del mismo entonces {A, A ) siempre es una particibn de S. 4.7. 1 Teorema de la probabilidad total
Este teorema o regia de probabilidad total nos indica cbmo calcular la probabilidad de un evento A cuando conocemos las probabilidades condicionales P[A| B,] en donde los By forman una particibn del espado muestral S.
I Teoria elemental de la probabllidad 91
Teorema 4.5 Supongamos que { B,}" „ , es una particibn de un espacio muestral S. Si A es un evento de S =4 P [ A] = P[A | B , ] P[B,] + P[A| BJ P[ BJ + . . . +
P[/\ | Bn] P[B„] =
[A| B,]P[B,] ZP / I
( 4-8 )
= Para la demostracibn de este teorema partimos de la identidad A = A H S = A n ( B , u B2 u B3 u . . . u B„) = w n 6|| u ( AD B2 ) U . . . U { A n B ) ( Los B, forman una particibn de S). De lo anterior se tiene P[A] = P[( A n B , ) U ( A D Bj) U . . . U ( AD B„)] = P[A | B , ] P[B , ] + P[A| Ba] PM + . . . P [A| B„] P[B„] ( Axioma 3 y fbrmula 4-6 ) .
Suponga que se tienen cinco umas numeradas de 1 a 5 y que cada una de ellas contiene 10 bolas con un numero de bolas blancas igual al numero que tiene la uma . Se selecciona una uma al azar y de ella se extrae una bola; halle la probabilidad de que la bola seleccionada sea blanca . Consideremos los eventos A: la bola seleccionada es blanca , B,: lauma / esescogida . De lo anterior, P[A| B , ] representa la probabilidad de que la bola sea blanca , dado que viene de la uma 1 . Anbloga interpretacion tiene P[A | B, ], P[A | B2], etc. Al ser
estas posibilidades respectivas P[A | B , ] =
jy , P[A | B2] = -p
,
P[A | B3] =
, P[A | B5] = 10 10 Por otra parte , como cualquier uma puede ser escogida con la misma posibilidad
10
,
P[LA |1 B44J] =
entonces P[B , ]. =
j , P[B2] = j , P[B3]
P[B4]
= j . P[B5] = -y
Al aplicar la regia de probabilidad total , P [ A]
= (i =
)( y ) +
+
I HT ) 1I +
1 + 2 + 3 + 4 + 5 15 3 = 50 = To = 50
) (T ) +
)=
°3 '
Otro problema . En una fabrica de tomillos, las maquinas A, B, C fabrican 20, 30 y 50% de la produccibn total , respectivamente . De lo que producen 2, 3 , 5% respec tivamente , son tomillos defectuosos. Con la produccibn total se hace un solo lote y se extrae un tomillo; halle la probabilidad de que sea defectuoso. Los eventos a considerar en este caso son , A: el tomillo escogido es defectuoso; B , : el tomillo proviene de la mbquina A; B el tomillo proviene de la mbquina B , B el tomillo proviene de la mbquina C. De los datos del problema y al hacer la debida interpretacibn , se tiene que , P[A | B , ] = 0.02 , P[A | B2] = 0.03 , P[A | B3] = 0.05. Por otra parte , como la mbquina 1 produce el 20% delos tomillos entonces P[B ,] = 0.2. De igual manera , se tiene P[B2] = 0.3 y P[B3] = 0.5. Asi que al aplicar el teorema o regia de probabilidad total se tiene que , P[A] = ( 0.021( 0.2 ) + (0.031(0.3 ) + (0.05 M 0.5 ) = 0.038, lo que quiere decir que hay una posibilidad del 3.8% de que el artfculo escogido sea defectuoso.
-
4.7 .2 Teorema de Bayes
El teorema o regia de Bayes es una tecnica que nos permite obtener (a probabilidad condicional de un evento cuando mediante el efecto tratamos de determinar la pro'
1
r,
jk. M
92 Estadistica para las ciencias administrativas
babilidad de la causa. Este resultado ha sido muy utllizado para estudiar fendmenos sociales; sin embargo, por el empleo de probabllidades subjetivas, ha sidb muy cuestionado su uso. El teorema de Bayes trata de responder interrogantes tales como: Si el evento B ocurrio, < cuSl es la probabilidad de que haya sido generado por evento A ? < ,cudl por A 2?, etc.
,.-
.
,
,
,
Teorema 4.6 Sea {B }% una particidn del espacio muestral S con P[B ] un evento de S. Entonces,
P [ Bk \ A]
,
P [ A \ Bt ] P[B ]
P [ A \ Bk\ P[Bt] P[Bj + . ..
+ PiAlBj
>
0y A
-9)
(4
+ P[A| B„] P [ Bn ]
La demostracidn de este teorema incluye parte de la demostracidn del teorema de probabilidad total. En efecto, de ( 4 6) se tiene que
-
P [ Bk \ A]
p[A '
n Bk1
,
P [ A]
P [ A \ Bt ] P[B ]
-P[A|Bt] P [ Bk] ...
+ P[A |Bj P[BJ +
+
P [ A \ B„] P \Bn]
-
-7)
( Aplicando 4 6 y 4
A partir del problema de la ttbrica de tomlllos considerado anteriormente, halle la probabilidad de que el tomillo provenga de la mdquina tres, dado que es defectuoso. En este caso debemos calcular la probabilidad P[Bj| A], que por el teorema de Bayes nos da
pro
,,J
i
,
,
P[A|B ] P[B ]
P IBJ P[BB] + P[A |B2] P[BJ + P[A|B,] PtB,]
(0.051( 0.5 )
( 0.02 )( 0.2 )
+ (0.031(0.3 ) + (0.051(0.5)
0.025 0.66. Esto es, hay una posibilidad del 66% de que al ser el tor 0.038 nillo defectuoso provenga de la maquina tres. Es usual describir el proceso de la aplicacion de la fdrmula de Bayes mediante un diagrama de £rbo1, que en el presente problema es como sigue:
-
B,
B,
*
: >-
Teoria elemental de la probabilldad 93
Otro problema. Se tienen dos umas que denotaremos I y 2 respectivamente. La uma 1 contiene una moneda de oro en uno de sus cajones y una de plata en el otro, mientras que la uma 2 contiene una de oro en ambos cajones. Se escoge una uma al azar y de 6sta se escoge un cajbn tambien al azar. La moneda encontrada resulta ser de oro. £Cudl es la probabilidad de que la moneda provenga de la uma 2? Los eventos a tener en cuenta son A. la moneda escogida es de oro, B : la uma escogida es la 1, B2: la uma escogida es la 2. Debemos calcular P[B2 | A], que de actierdo con el teorema o regia de Bayes nos da 1 = 0.67. Esto es, hay una posibilidad del 67% de que P [ B2 \ A] = 1 ( 0.5 ) t* 0.5 ( 0.5 ) se haya escogido la uma 2.
,
•
4.7.3 Teorema de multlpllcacldn
El resultado que reconocemos con este nombre no es otra cosa que una generalizacion de la formula que hemos senalado con el numeral ( 4 7), por ello se le llama regia general de multlplicaddn.
-
,
,
Teorema 4.7 Sean ,4 , A2 , A , .. . A„n eventos del espacio muestral Sy supongamos que P[A n A2 n . . . n A _ ] > 0. Entonces, P&M PfAlA n A2 ] . . . P[A |A n A n P [ A n 2 n > n A] = P [ ( 4 10 ) • • • Ai - |J
,
,
..
*
,
.
*1
-
Para la demostracibn de este teorema partimos del resultado conocidoP[A n P [ At ] P [ A2 \ Ail |A | A n A] Para tres eventos se tiene, P[A n A2 ft A] = P [ At n A2 ] P = P [ At ] P [ A21 >4 ] P[ A | A n A2 ] y asf sucesivamente.
A]
=
,
Una uma contiene tres bolas negras y siete bolas blancas. Se efectua el siguiente juego: Se extrae una bola, se observa su color y luego se devuelve a la uma con dos bolas adicionales del mismo color. Si se realizan tres extracciones una a continuacibn de otra, halle la probabilidad de que en cada una de ellas se extraiga una bola negra. Definimos los eventos >4 : una bola negra que es seleccionada en la escogencia I, i = I , 2, 3. Una vez definidos los eventos queda claro que la probabilidad pedida es P [ A D /42 n A3 ] , que de acuerdo con el teorema de multiplicacibn nos queda:
,
,
,n
n
P[A
,
A3 ] = P [ A ] P [ A2 \ A ] p [ A3 \ At
n
A2 ] =
( ) (- ) (- -) =
Expliquemos c6mo se obtiene cada una de las anteriores probabilidades: p[A ]
puesto que al comienzo se escoge una
bola del total de 10, siendo
tres negras.
P [ A2 \ Ai \ =
porque al haber sido la primera negra, se devolvio con dos negras
adicionales, por lo cual quedanahora 12 bolas con un total de negras igual a cinco. P [ A3 \ Al
n 42] J
=
-pj- porque al ser la segunda negra se retoma a la uma con dos
adicionales para tener un total de 14 con siete bolas negras.
94 Estadfstica para las ciencias administrativas
ill
INDEPENDENCE PE EVENTOS
Cuando se trat6 el concepto de probabilidad condicional, P [ A \ B] se establecid implfcitamente que la posibilidad de la ocurrencia de A estaba determinada por la posibilidad de que B ocurriera o porque B ya habia ocurrido. No obstante , en muchos casos la ocurrencia de un suceso no influye ni esta influenciado por la ocurrencia de otro. Por ejemplo, qu6 tiene que ver la probabilidad de que usted gane la loteria con la eventualidad de que manana sea un dia lluvioso? ' Cuando la ocurrencia de un evento A no est£ influenciada ni influye sobre la ocurrencia de otro, declines que los eventos son Independientes. Formalmente la independence se define de la mariera siguiente:
Dados dos eventos A y B, se dicen independientes si se cumple que P [ A n B] = ( 4- 11 ) P [ A] P [ B\ La fdrmula ( 4- 11 ) se conoce con el nombre de regia especial de multipiicacidn. Observe que, aunque hemos iniciado la discusidn de la independence mediante la probabilidad condicional, no se ha definido en ttnminos de este concepto; la razdn es que para tratar la probabilidad condicional se requlere que el evento condidonante tenga probabilidad positiva y esto limitarfa la consideration del tema de la independencia. Sin embargo, entie los dos conceptos existe cierta equivalence, como se vei«i mSs adelante. Suponga que se lanza una moneda dos veces. Sean los eventos, A: el primer resultado es "cara y B: el segundo resultado es sello". Intuitivamente podemos apreciar que los dos eventos antes definidos son independientes, pero los vamos a analizar en virtud del criterio de independence mani¬ festo en ( 4- 11 ). Para ello partimos del conocido espacio muestral asociado a este experimento, S = { cc, cs, sc, ss}. Los eventos antes citados en t£rminos de conjuntos nos quedan A = {cc, cs } y B = {cs, ss}.
Para A se tiene P[A| =
=
-y ; para Bse tiene P[B] =
Por otra parte, A fl B = {cs} y asf P [ A
que es igual al producto PM] P[B] =
n
B]
=
- |
=
y
y
|yj|yj = y
Otro problema. El 20% de una poblacidn es zuida; el 30% es adicta al alcohol y el 6% es adicta al alcohol y es zuida. Compruebe que los eventos ser persona zurda ' y "ser persona adicta al alcohol" son independientes. Definimos los eventos A: la persona es zurda, B: la persona es adicta al alcohol. De esta manera A n B representa el evento "la persona es zurda y es adicta al alcohol" y por tanto, P [ A n B] = 0.06. Por otra parte, PM] = 0.2 y P[B] = 0.3 yasf PM1 P[B] = ( 0.2 )(0.3 ) = 0.06 = P [ A D B] Ahora veamos c6mo est6n relacionados los conceptos de condicionalidad e independencia. ,
Teoria elemental de la probabllidad 95
Teorema 4.8 Sean Ay B dos eventos tales que P[A| > 0 y P[B] > 0. AyBson eventosindependientessi y s6lo si P[v41 B] = P [ A] y P [ B\ X[ = P[B]. La equivalencia expresada por el anterior teorema es apenas Idgica, puesto que si dos sucesos han de ser independientes, la informacidn correspondiente a uno de ellos no puede estar relacionada con la del otro. En cuanto a su demostracidn partimos del hecho de que si A y B son indepen ( por 4 11 ) dientes, entonces P [ A D B] = P[X| P[B]
--
-
=
4 P[X| P[B] De ( 4 7) se tiene que P[ D B] = P[A|B] P[B] P [ A\ B\. La otra igualdad se demuestra de manera an £ loga:
==4 P[A] =
*
Recfprocamente, si P [ A\ B]
=
P[A]
)
=
=
P [ A\ B] P[B]
P[XJ =4 P [ A D B]
=
P [ A\ P[B], lo cual indica independenda.
Volviendo al problema de los estudiantes de secundaria que se presentd en la seccidn 4.6, determine si las caracterfsticas "usar lentes" y sermujer" son independientes. Recordemos que en ese caso los eventos considerados fueron A: la persona escogida es mujer y B: la persona escogida usa lentes y que de acuerdo con los datos del problema P [ A\B\ = 0.4.
'
= 0.6, que comparado con P[A|B] es distinto. Por tanto, = los dos eventos usar lentes y sermujer , son no independientes ( no se acostumbra decir eventos dependientes ). Por otro lado, P [ A]
La condicidn de independencia cuando se da entre dos eventos Ay B tambi£ n se cumple para sus complementos y tenemos asi que de ser Ay B independientes lo son tambi £n a ) A y B'; b ) A' y B; c) A' y B'. Ejerddos
1.
14.41
Un almac£n recibe pedldos de cierto articulode ties proveedores distlntos P| P2 y P3. El 50% del total se le compra a P mientras que a P2 y a P3 se le compra el 25% a cada uno. El porcentaje de artlculos en malas condidones que propordona P P2 y P es 5, 10 y 12% respectivamente. Si los artlculos se almacenan sin importar quten es el proveedor y se escoge uno al azar:
,
p
„
,
a ) Determine la probabllidad de que sea defectuoso b ) Si es defectuoso, cuiI es la probabllidad de que haya sido despachado por el proveedor P3?
2.
Una agenda automotriz recibe un embarque de 20 automOviles nuevos. Entre 6stos, dos tienen defectos. La agenda decide selecdonar aleatoriamente dos autom6viles de entre los 20 y aceptar el embarque, si ninguno de los automdviles selecdonados dene defectos. cCu£l es la probabllidad de aceptar el embarque?
3. Sea P [ A] =
0.3 y P [ B\ A]
=
0.7, halle P [ A fl B],
4. Suponga que A es el evento el telgfono estS intervenido" y B el evento "el telifono es negro . Si el 50% de los tel fonos estSn intervenidos; el 50% son negros y el 10% de los tel fonos son negros y est5n intervenidos. i.Son Ay B independientes?
5. De acuerdo con las tablas de mortalidad , la probabilidad de que una persona de 65 anos llegue a los 66 afios es 0.96. Un matrimonio ha cumplido 65 anos. tCu l es la probabilidad de que cumplan ambos esposos los 66 anos?
96 Estadfstica para las clenclas admlnlstratlvas
de un medico: tres hombres, dos mujeres y un nino. . Seis personas esperan en el consultorio que el nino fue llamado en persona mu|er, que
6
iCu&l es la probabilidad de
una
sea
dado
primer iugar?
7. El 5% de las personas de cierta pobladOn sufre de tensidn arterial alta. Del total de personas
con tensidn alta el 75% es adicta al alcohol, mientras que s6io el 50% de los que no sufren de la tensidn arterial alta son adictos al alcohol; £Cuai es el pqrcentaje de personas que son adictas a! alcohol que sufren de tensi6n alta?
. SupongaqueP [ A] =
8
- j , P [ B \ A]
=
- j-
, P [ A\ B] =
. Expllque por qu6 son verdaderas
o falsas las siguientes proposidones: a ) A y B son independientes.
b ) AC. B c ) A y B son mutuamente exduyentes.
9.
Un espedalista en alergias afirma que el 50% de los pacientes que examina son alOrgicos a algun tipo de hierbas. iCuM es la probabilidad de que;
a ) exactamente tres de sus siguientes cuatro pacientes sean alergicos? b ) ninguno de sus siguientes cuatro pacientes?
A contiene dos monedas de cobre, la B que hay idOnticas A, . una de cobre y dos de niquel y la C contiene una de plata, dos de nfquel y dos de cobre. Se
10
tres cajas
Suponga
toma al azar una de
By C. La caja
las cajas y luego se saca una moneda de 6sta. Si es de cobre la moneda, De la caja B? D e la caja C?
icuSI es la probabilidad de que haya sido tomada dela caja A?
. vuelve
11
Una caja contiene cinco bolas rojas y tres verdes; se saca una bola X y se anota su color. Se a echar la bola antes de sacar otra bola Y. Halle:
al P[Xesrojay Kes verde] bl PfXesroja] cl P [ oXo yes verde] d ) P[niXni Vsonverdes] dos la . bolastienen negras una verde
12
e ) P[XyKson rojas] fl P[por lo menos una de lasbolas es verde] g ) P[Xesrojao Ves verde] h ) P[Xnoesrojay Vnoesverde]
caja i contiene tres bolas negras y cinco verdes; la caja II contiene dos y dos rojas. Se toma una caja al azar y luego se saca una bola de la caja elegida. Cu l es la probabilidad de que la bola sea negra? cajas;
Se
,
Capftulo
5
DISTRIBUCION DE PROBABILIDAD VARIABLE ALEATORIA Los experimentos aleatorios originan resultados y los resultados nos permiten tomar decisiones. Un mlsmo experimento aleatorio se puede llevar a cabo para tomar distin tas decisiones. Asf por ejemplo, el simple lanzamiento de una moneda puede ser motivado por distintas razones. cCu£ntos partidos de futbol no se han decidido por el resultado de una moneda? Y cudntas veces no se ha vistaobligado o librado usted de I levar a cabo una tarea que no queriarealizar por el simple resultado de la moneda? Ademds de esta circunstancla de la moneda, tal vez usted ha utilizado en alguna ocasidn un par de dados para tomar decisiones distintas en diferentes juegos. Sin embargo, a pesar de que el propdsito sea diStinto cuando se lleva a cabo un experimento aleatorio, 6ste no cambia su comportamiento por el simple hecho de que los propdsitos cambien. Lo anterior nos esta indicando que una cosa son los distintos resultados de un experimento y otra los propdsitos que perseguimos cuando lo realizamos. El medio por el cual expresamos nuestro aspecto de interns al llevar a cabo un experimento aleatorio es el de variable aleatoria. Una primera interpretacidn que se le puede dar al concepto de variable aleatoria es la que dice: una variable aleatoria es aquella que asume valores de acuerdo con los resultados de un experimento aleatorio. Al precisar mas el concepto y acerc£ ndolo mejor a la idea formal como se esta blece en estudios de la probabilidad a otro nivel , podemos dedr que una variable aleatoria es una funcidn de valor real que tiene como domlnio el espacio muestral asociado a un experimento aleatorio. Las variables aleatorias generalmente son desig nadas por las letras X , Y, Z. En el siguiente ejemplo se ilustra c6mo se asocia una variable aleatoria a un experimento. Se lanza una moneda tres veces. Sabemos que el espacio muestral correspon diente a este experimento esta dado por S = {ccc, ccs, esc, see, ssc, scs, css, sss}.
-
-
-
-
97
98 Estadistica para las ciencias administrativas
Si de los resultados del lanzamiento de la moneda nos interesa el numero de "caras que se obtienen en cada lanzamiento, entonces definimos la variable, X = numero de "caras" en los tres lanzamientos. Los valores posibles de esta variable son: X = 0 que se identifica con sss o lo que es lo mismo con el evento, A: se obtienen tres "sellos". X = I que se identifica con css, scs, ssc o lo que es lo mismo con el evento, B: se obtiene una "cara . X = 2 que se identifica con ccs, esc, see o lo que es lo mismo con el evento, C: se
obtienen dos "caras . X = 3 que se identifica con ccc o lo que es lo mismo con el evento, D. se obtienen tres "caras". I
3
Porlo anterior setiene que P [ X = 0] = P[A] = -g- , P [ X = I ] = P[B] = -g- , P [ X = 2] = P[C] = P [ X = 3] = P[D] = j . Estos resultados se pueden resumir en una tabla como la siguiente, liamada distribu¬ cion de probabilidad.
X : 0 P[X
P
,
Xi
'
J_ 8
I
3
2
_ 2_ J_ 8 8
3 8
3] Observe que la suma de valores P [ X = 0] + P [ X = 1] + P [ X = 2] + P [ X 1 3 13 _ = -g- + + g = En general, para cualquier distribucion de probabili + dad discreta debe darse que /a suma de las probabllidades de todos los valores que pueda asumir la variable debe ser igual a I . Consideremos el lanzamiento de dos dados una vez. Sea X = Suma de puntos de las dos caras. Vamos a hallar la distribucion de probabilidad de esta variable. Cuando se lanzan dos dados hay 36 resultados posibles, y las distintas sumas de puntos son: 2, 3, 4, 5, 6, 7, 8, 9, 10, II, 12, loscuales se dan con las posibilidades respectivas 1, 2, 3, 4, 5, 6, 5 , 4, 3, 2, 1. Por tanto, la distribucion de probabilidad de esta variable es: •
"
•
X:
2
3
4
,
1
2
3
-
5 4 36
12 10 11 9 5 4 3 2 1 36 36 36 36 36 36 36 36 36 En la figura 5.1 se muestra graficamente esta distribucion. Una vez que se ha definido la variable, empiezan a tener significado escrituras tales como: [ X *£ 5] que para el caso de la variable definida anteriormente significa que "el resul tado de la suma sea menor o igual a 5". [X > 8] que significa que "el resultado de la suma sea mayor que 8" y asf sucesiva nfv
6 5 36
7
8
6
-
mente.
En cuanto a la probabilidad se tiene: = 0.28 , como puede deducirse a partir de la anterior 18 tabla si tenemos en cuenta que P [ X s 5] = P [ X = 0] + P [ X = 1] + P [ X = 2]
p[ X
5] =
36
=
Distribution de probabilidad 99 P( X = x ) /
\
6/ 36
-
4/36
-
•
2/36
x
0
4
2
6
8
10
12
Figure 5.1 Distribuddn de probabilidad de la variable X, suma de puntos en las caras de dos dados perfectos. P [ X = 3]
+ =
+
P [ X = 4]
4]
'
.
+
P [ X = 5]. De una manera analoga se tiene P [ X = 2]
-
0.08
Para calcular P [ X > 9] debe tener en cuenta que en este caso nos referimos a P [ X = 10]
+ P[X
= 11]
+
P [ X = 12] y asi P [ X
> 9]
£
=- - =
'
- jL = 0.08
Si usted desea obtener P[X < 10] la forma mas aconsejada es que lo haga por el complemento utilizando la identidad P [ X < 10] = I - P [ X s* 10].
10] = P [ X = 11] + P [ X = 12] = £ + =ir = - = 0.08 i * Por tiltimo usted puede comprobar que en caso tambien se cumple que, . 1
ElcalculodePt 2*
este
P [ X = 2] + P[X = 3 ] + . . . + P [ X = 12] = 1. En la anterior discusidn introductoria al tema de la variable aleatoria aun queda la sensacidn de que los problemas relacionados con la probabilidad se pueden resolver o estudiar mediante numeracidn de los distintos resultados a que da lugar el experi mento en cuestidn. Sin embargo, son pocos los problemas practicos que pueden ser resueltos de esta manera. Por ello, se recurre mds bien al estudio de la relacidn existente entre los resultados del experimento y la probabilidad asociada a tales resultados; de este estudio surgen los modelos probabilfsticos como son el binomial, el de Poisson, el normal, etc. Ahora bien, los distintos resultados del experimento se pueden dar de manera discreta ( variable aleatoria discreta ); por ejemplo, el numero de artfculos defectuosos por lote. O de forma continua ( variable aleatoria continual, por ejemplo, el peso de los seres humanos.
-
5.1. 1 Variable aleatoria discreta Una variable aleatoria discreta X es aquella que sdlo puede tomar algunos valores entre dos numeros dados. Asf por ejemplo, son variables aleatorias discretas las siguientes: - X - numero de puntos que muestra la cara superior de un dado despues de su
lanzamiento.
-
Y = numero de clientes que llegan en una hora a un banco en solicitud de servicios.
100 Estadistica para las ciencias administrativas
La distribucion de probabilidad de una variable aleatoria discreta es una tabla, grafica, formula o cualquier otro medio que se usa para especificar todos los valores posibles de la variable, junto con sus respectivas probabilidades. Las dos tablas que hemos mostrado en los dos ejemplos anteriores, como se dijo en aquella oportunidad, corresponden a distribucion de probabilidad de las respectivas variables. En general, para una variable aleatoria discreta su distribucion se puede dar mediante una tabla de valores como,
X: , ,P = P[X = ,] P, X
X :
X2
X3
P2
P3
„
Jf
Pn
o mediante una fbrmula ( que es lo usual en la practical que nos dice que valor p, de probabilidad asignar para cada valor x posible de la variable.
,
,
En cualquiera de los casos debe cumplirse que: ( 1) Todos los p = 0 y ( 2) *
J Pr I
(
=
i
Nota. n eventualmente puede ser igual a infinite. Las variables que se emplean en el estudio de problemas de interes su distri bucl6n se da generalmente mediante una fbrmula y hablamos asi de la distribucion binomial, distribucidn de Poisson, por ejemplo. Finalmente, hagamos notar que cuando se calculb la probabilidad P [ X 5] para el caso de la suma de puntos de las caras de los dos dados, enfatizamos que para
-
obtener este valor se sumaban todas las probabilidades de todos los valores x que fueran menores o iguales a 5. Pues bien, esta idea puede extenderse y tenemos asi un nuevo concepto de suma importancia, especialmente cuando se estudian variables aleatorias continuas. Nos referimos al concepto de funcion de distribucion acumulada 0 acumulativa que se denota y define como
Fx(x )
= P [ X *£ x]
-
(5 1 )
Para el caso de la variable Xque hemos comentado tenemos: P [ X *£ 2] = - -, P[X 3] = - - , P [ X s 4] = -JJ- y asi sucesivamente. En particular P [ X x] = Oparacualquiervalorx < 2 ( un valor x para este caso, menorde doses imposible ) y P [ X =£ x] = 1 para todo x 3= 12, puesto que en este caso entran todos los valores posibles de la
variable.
5.1.2 Variable aleatoria continue Hasta aquf hemos concentrado nuestra atencibn en variables aleatorias cuyo numero de respuestas posibles se hallan en un conjunto finite de valores. Pero existen muchos experimentos de gran interbs cuyos resultados pueden ser numeros cualesquiera dentro de un intervalo dado. Por ejemplo, si se trata de los pesos de los seres humanos, al tomar X como la variable que representa el peso de una persona escogida al azar su peso real puede ser un numero entre 0 y 200 kg. Es decir, la respuesta de la variable X se halla en ese rango y puede ser cualquier numero de estos. Sin embargo, lo mbs seguro es que usted registre 68 kg, por ejemplo. Y si continua con una segunda persona, registrar posiblemente 70 kg, etc.; al hacer el registro de esta manera, puede caer en la falsa creencia de que se trata de una variable discreta. Pero de una vez por
Distribution de probabilidad 101
todas, tenga en cuenta que una cosa es el comportamiento o naturaleza de la caracterfstica que se esta midiendo y otra la incapacidad humana y la de nuestros instrumentos para medirla exactamente; en sus registros s6lo ha anotado un valor aproximado de la medicion verdadera. Si usted se ha pesado en una balanza de reloj , ,;se ha dado cuenta en donde se detiene la aguja exactamente? Si no lo ha hecho, jhagalo! Una variable aleatoria continua es aquella que puede tomar cualquier valor entre dos numeros prefijados. Como ilustracidn sobre la manera como se comporta una variable aleatoria con¬ tinua , consideremos el experimento de tomar un circulo cuya circunferencia mide un metro y en donde hemos hecho I 0 divisiones sucesivas a igual distancia denotadas O. l , 0.2 , 0.3 , . . . 0.9 que giran en igual sentido a como lo hacen las manecillas del reloj y el 0.0 coincidente con el 1 . VGase figura 5.2. i .o
o.o
N o 10
w/ 0.80
0.70
0.50
Figura 5.2 Circulo dividido en diez sectores circulares iguales.
Si se hace girar la aguja ( que se supone equilibradaj esta da vueltas hasta que se detiene en cierta posicion. Sea X la variable aleatoria que representa al numero que corresponde a esa posicion. Es claro que la aguja puede detenerse en cualquier punto de la circunferencia y el valor posible de X es cualquier numero entre 0 y I . Esto es, el intervalo [0, 1 ]. Ahora bien , como cualquier posicion de la aguja se pu de expresar mediante la variable que hemos definido, un suceso o evento puede ser: E = {x
| 0.25 < x < 0.75}
que equivale a decir que la aguja se parara en el segundo o tercer cuadrante ( contado en igual sentido a como giran las manecillas del reloj ). Ahora nos queda por resolver el problema de como asignar probabilidad a los distintos eventos que se pueden formar a partir de este experimento. En situaciones de variables aleatorias continuas y aun para algunas discretas, la probabilidad no se puede obtener por conteo y es necesario recurrir a otros niveles superiores de la matematica para estudiar el comportamiento de la variable, con lo cual se obtienen
los distintos modelos. En el presente caso el modelo es el llamado de la distribution uniforme que definiremos por ahora de la manera siguiente: P[X P[X P [a < X P[X
< < <
I
102 Estadistica para las ciencias administrativas
Asf , por ejemplo, P[0.25 < x < 0.50] = 0.50 - 0.25 = 0.25 En el caso de que se trate de una probabilidad del tipo P [ X = a] a esta probabilidad le asignaremos el valor cero. La razdn de hacerlo la encontramos en los siguientes valoresde probabilidad que perfectamente podrfamosasignaral evento P [ X = 0.2] P [0.I 999 < X < 0.2001] = 0.2001 - 0.I999 = 0.0002 P[0.1999999 < X < 0.2000001] = 0.2000001 - 0.1999999 = 0.0000002 P[0.1999999999 < X < 0.2000000001] = 0.2000000001 - 0.1999999999 =
0.0000000002 Hemos citado antes que los valores de probabilidad asociados a eventos que tienen - que ver con variables aleatorias continuas se determinan con la ayuda de ciertos modelos que se construyen para tal fin. Ahora bien, estos indican que para hacer tales cilculos debemos evaluar la integral definida de una cierta funcibn ( una diferente para cada modelo ) llamada funcldn de densidad contlnua. Esta funcibn de densidad se dice que es la distribucidn de probabilidad de X. Cualquier funcibn de densidad continua debe satisfacer las siguientes propiedades bbsicas: 1. La funcibn no puede tomar valores negativos. Esto es, fx( x ) 5 0 para cualquier * valor x real. 2. El £rea total bajo la curva debe ser igual a 1. 3. P[a < x < b] = brea bajo la curva entre ay b, siemprey cuandoay bqueden dentro
del dominio de la variable. Para ilustrar este punto, volvamos al problems de la aguja que gira alrededor de un drculo; la funcibn de densidad se represents en la figura 5.3 y esta definida como igual a 1 para los valores x entre 0 y I; y 0 para cualquier otro valor x que quede fuera del intervalo.
0
0.2
0.4
0.6
0.8
1.0
Figura 5.3 Funcidn de densidad para la variable X que represents la posicibn de la aguja en la circunferencia. La probabilidad de que X quede entre un subintervalo entre 0 y 1 es la longitud del intervalo. Por ejemplo, P[0.20 < X < 0.40] = 0.40 - 0.20 = 0.20, ya que a = 0.20 y b = 0.40. El area rayada en la figura 5.3 da la probabilidad P[0.20 < X < 0.40]. Observe que P[0.20 < X < 0.40] es igual P[0.2 « X « 0.40] puesto que P [ X = 0.20] = P[X = 0.40] = 0 La funcibn de densidad fx( x) asociada a una variable X como la que hemos venido estudiando y que esta caracterizada porque la probabilidad esta dada por la
longitud del intervalo en donde se encuentra la variable se puede determinar asf : Como el area bajo la curva en este caso (no en todos es asf ) es un area rectangular de altura f { x ) y base ( b a) entonces el area del rectangulo es f( x ) [ b a ] , Por otra parte, la condicion 2 de la funcibn de densidad nos dice que esa area debe
-
-
Distribucidn de probabilidad 103 ser igual a I entonces, f( x )( b-a ) = l y asi f( x ) = !fr
a) ,
lo que podemos resumir de
la manera siguiente: i
ib-a )
f( x ) =
, a *£ x =s b
( 5- 2 )
0, en cualquier otro caso
La funcidn de distribucion acumulativa, de otro lado, queda definida y denotada como
Fx( x )
=
P [ X =£ x ]
( 5- 3 )
Las funciones de densidades tienen un nombre que las identifica y tenemos asi que para la funcidn dada por ( 5- 2 ) se llama distribucidn rectangular en elintervalo (a,b ).
Ejercldos
5.1
la diferenda entre . Exponga )
1
:
a Variable aleatoria discreta y variable aleatoria continua b ) Distribucidn de probabilidad discreta y distribucidn de probabilidad continua \
2. dCudl es el papel que desempena una funcidn de densidad continua? 3.
Si X tiene distribucidn rectangular en el intervalo [a, t>], obtenga la expresidn correspondiente a Ax ) al tomar b) a ) a = 2 ybl = 4 a = - lOyb - 10
4. Obtenga la funcidn de distribucidn acumulativa para cada uno de los casos dados en el problema 3 de estos ejercldos.
5.
Construya la grdfica para cada una de las funciones obtenidas en los problemas 3 y 4 de estos ejertidos.
.
.
6 Al considerar la distribucidn de X en el problema 3 pata el caso a = 2 y 6 = 4, compruebe que P [05 =s X s 1.5] = FX( I.5I - F IO.51, siendo Fx la funcidn de distribucidn acumulativa
7.
Se tiene una moneda no balanceada ( sesgadal de tal manera que la posibilidad de obtener es el doble de la de obtener sello . Se lanza la moneda tres veces; halle la distribucidn de la variable aleatoria definida como X = numero de caras en los tres lanzamientos. Indicacidn. Suponga independencia entre los dos lanzamientos. "cara
8. Halle la funcidn de distribucidn acumulativa para la variable aleatoria definida en el problema
.
7 de los presentes ejercidos
CW
VALOR ESPERADO Y VARLANZA DE UNA VARIABLE ALEATORIA
La distribucidn de probabilidad de una variable aleatoria proporciona un modelo para la distribucidn tedrica de la variable. La distribucidn de probabilidad de una poblacidn es an£ loga a la distribucidn de frecuencia relativa de los datos ( muestra ). Luego, es de esperarse que cada distribucidn de probabilidad tenga asociada medidas similares a las medidas descriptivas que se han senalado para los datos ( muestra ). Ciertamente, esto es asi . Comenzamos con la medida tedrica que desempena o equivale al concepto de promedio entre los datos. Se trata del valor esperado o esperanza matematica de una variable aleatoria X ( discreta ) .
104 Estadistica para las ciencias administrativas
,
Sea X una variable aleatoria discreta que asume los valores x , x2, x3, . .. , xn con probabilidades respectivas p , p 2 , p3, . .. pn el valor esperado de X se denota y define de la manera siguiente: px = E [ X ] = x p + X2P2 + x3p3 + . . . + x„ p„ ( 5 4)
,
,,
,
,
-
-
Si tomamos p = P[X ] entonces ( 5 4) se puede reescribir de la siguiente manera:
,
,
Px = E [ X\ = x P[X = x ]
+
x2 P [ X = x2]
+ ... + x„P [ X
= x„ ] =
Sx,P[X = x,] -
Antes de entrar a explicar e| significado del valor esperado de una variable, conside remos la variable X = numero de puntos que muestra la cara superior de un dado despubs de un lanzamiento. Es sabido que esta variable tiene la siguiente distribucibn:
2
3
4
5
6
1 6
1 6
I
I 6
1
6
6
I 6
P[X
P De acuerdo
X. 1
i ) t # ) + > ({
-
cbn (5 4) E [ X ] = 1 1
+
2
+
3
+
6
cCbmo interpretar este numero 3.5?
4
+
5
+
6
•
+
4|? |
JL 6
+
= 3 5
Si dijbramos que es el puntaje que usted debe esperar que le db cuando lanza el dado muchas veces, con justa razbn podria decir que eso es imposible, puesto que podran verse en el dado tres o cuatro puntos, pero jambs 3.5 puntos. Yo estoy de acuerdo con usted. Pero si le propongo que no cuente los puntos de cada lanzamiento sino que sume el puntaje de dos lanzamientos y los promedie, puede hallar logica al valor 3.5. Ademas se convencerb que lo dicho acerca de 3.5 es cierto, si se llega a comprobar que la suma de puntos mbs factible de obtener cuando se lanza un dado dos veces es siete. Pero esto es un hecho, como se puede constatar al revisar el comportamiento de la variable suma de puntos de las dos caras , al lanzardos dados que se presentb al comienzo del presente capitulo. A pesar de que esta interpretacion que le hemos dado al valor 3.5 es acertada, en la practica el valor esperado se interpreta de una manera un poco distinta, que en el ejemplo presente es: Si lanzamos el dado un numero grande de veces y tomamos la media aritmetica de la suma de los distintos puntajes que se van obteniendo entonces, la media tiende a 3.5". Igual interpretacion seria para cualquier otra situacion. Otro ejemplo. Supongamos que dos jugadores, A y B, se enfrentan en un juego que consiste en el lanzamiento de una moneda al aire. Si sale "cara A gana $ 1; pero si sale sello A pierde $ 1 . La variable que representa la ganancia de A ( ganancia del jugador ) por cada jugada esta dada por
f 1, si sale cara
l -I, si sale sello
Distribucidn de probabilidad 105
Si suponemos que la moneda esta balanceada , esto es, Ia probabilidad de obtener cara ( sello ) es 0.5 entonces la variable X tiene la siguiente distribution: X.
P [X
=
x] :
-
I
l
0.5
0.5
Asi que el valor esperado de X ( ganancia esperada del jugador ) esta dado por £ [X] = ( - 11( 0.5 ) + ( 11(0.5 ) = 0, lo que quiere decir que si estas personas juegan un gran numero de veces, a la larga no hay ganador ni perdedor. Volvamos al problema de la moneda, pero ahora vamos a suponer que la moneda
disenada de tal forma que la posibilidad de obtener "cara es y y la de obtener " sello es de y . En este caso, la distribucidn de X seria
esta
X:
Plx
- xl
:
-I
1
i-
j
-
|yj
|j
Y la ganancia esperada ( por jugada ) para A seria E [ X] = (- 1| + ( 1) j = y , lo que quiere decir que si juegan unas 3,000 veces, se espera que A gane $ 1,000. Esta es la esencia de los juegos de azar como loterias, rifas, etc. Otros nombres con los cuales se conoce el valor esperado, ademas del de esperanza matemdtica, es el de media o promedio de la variable. Ahora vamos a retomar la variable X que represents el numero de puntos que muestra la cara superior del dado despuds de un lanzamiento y definimos la nueva variable Y = 5 X . Los valores de esta variable son: 5, 10, 15, 20, 25 , 30. Pero, c,qud ocurre con los valores de probabilidad asociados? Estos no se alteran, puesto que decir Y = 15, porejemplo, para Y = 5 Xequivale a afirmar X = 3. Por tanto la distribucidn de Yes
Y: P [ Y = y] :
5
10 15 20 25 30
_1_
J_ J_
6
6
J_ J_
_1_
6
6
20
( T ) + ( T ) + 30 ( T )
6 6
El valor esperado de Y estd dado por
EW = 5 =
5
(T ) + ( i ) + 1 5 (1) + 10
+
10
+
15
+
20
+
25
+
30
=
6
Recordar que E[X] = y
> 5 E[ X\
=
-
5
25
J05_
|y J
6
=
=
J 5_ 2
= -y- = E [5 X ] , Esta
igualdad no es
casual , sino que es una propiedad del valor esperado. En la obtencion del valor esperado de Y se hizo uso de una propiedad del valor esperado que establece que si X es una variable aleatoria y g( X ) una funcion de X
106 Estadfstica para las clencias administrates
entonces E[g( X)] = '
XgUj)P[X = *,]
( 5- 5 )
/ x ( 0 . 9)
( 0.1
20-
= 0,1 ,2,3,
,20
0, otro caso
Ahora estamos en condiciones de contestar las propuestas hechas. a ) P [ X = 2] =
|22°| 0.l (
)2( 0.9 ) 18 =
b ) P [ X « 3] = P[X = 0] =
( 20°)
P [ X = I]
+
°
( 0.1 ) ( 0.9 ) 20
|23 |
3
) 17
+
)
= ( 0.9 )
P [ X = 19]
2
d ) P [ 2 « X « 5] = P [ X = 2] =
( 22 ] 0.1 (
) 2( 0.9 ) 18
+
+
( 23°) 0 n (0.9 3
( .
20
) 19
'
+ +
= 190( 0.1 ) 2( 0.9 ) 18 = 0.285
8
P[ X = 3] =
( 22°
'
+
( 0.1 )2( 0.9 ) 18
20( 0.1 ) (0.9)
19
+
+
190( 0.1 ) 2 ( 0.9 )
'
8
= 0.82
[ 19 ] (0.l ), (0.9)' + ( 28 ) (0.1 > o( 0.9 >° = 9
P [ X = 2]
+
( j (0.1 ' (0.9
+
( 0.1 ) ( 0.9 + + 2,280 (0.1 )3(0.9 ) 17
c ) P [ X 2* 18] = P [ X = 18]
( 0.1 )2( 0.9 )
+
190(0.1 ) 18
P [ X = 3]
) 17
+
+
, 20( 0.1 ) ( 0.9 ) 9
P [ X = 4]
+
( 24°| 0.n (
,
( )
P [ X = 20] = 2g (0.1) s( 0.9 )2
4
( 0.9 ) 16
+
+
+ ( 0.1 )
20
+ = 0
P [ X = 5] =
( 25 ] (0.1
) 5( 0.9 ) 15 =
0.781
3] = P [ X = 3] + P [ X = 4] + ... + e ) En este caso debemos calcular P[X P [ X = 20] Si trataramos de hacer este calculo directamente, seria algo dispendioso. Por ello lo aconsejado y acostumbrado para estos casos es proceder mediante el complemento y tenemos asi:
P [ X 2* 3] = I
.
P[X
< 3] =
I - P[X
-
P [ X = 2] = 1 -
-
( 22°) (0.t )
2(
0.9)
'
8
( 200)
2] = I - P [ X = 0] - P[X = 1] (0.1 ) (0.9)20 - 2 0 (0.1) (0.9) 19 °
S
( )
'
= 1 - 0.68 = 0.32
Nota En algunos textos de estadistica se hallan tablas en las que aparecen los valores de la funcibn de distribucibn acumulativa para una variable con distribucion binomial para algunos valores de p. En el problema anterior las probabilidades se han evaluado con una calculadora manual.
Distribution de probabilidad 111 Como ya fue senalado en el capitulo 5, seccion 5.2, las variables aleatorias tienen asociadas dos medidas bbsicas que son la media y la varianza. Las expresiones de dichas medidas para el caso de una variable con distribucibn binomial corresponden = npyo x = npq . La deduccion de estas formulas es posible cuando se utilizan a los resultados conocidos para una variable con distribucion de Bernoulli. En efecto, ya sabido que una variable aleatoria X con distribucibn binomial se puede expresar como una suma de variables con distribucibn de Bernoulli podemos escribir X como:
x
=
Y,
+ y2 + . . . + y„
siendo Y, , Y2, . . . Y„ variables con distribucibn de Bernoulli. n Yasi, E [ Y(] = p, / = I , 2 De ( 5- 4 ) se tiene E [ X ] = E [ Y, + Y2 + . . . + Y„] = E [ Y, ] + E [ Y2] + Asi que, E [ X ] = p
+
p
+
...
+p
= np. Esto
es E [ X ]
=
np. 1
...
+ E [ Y„]. ( 5- 12 )
En cuanto a lo que toca a la varianza, haremos uso del siguiente resultado que sera obtenido en la seccion 7.2 del capitulo 7. " Si V, , Y2 , . . . Yn son variables aleatorias independientes entonces V [ Y, + Y + . . . 2 + yj = V [ Y ] + V [ Y2 ] + . . . + V [ Ynf . Para el caso de que X sea una variable con distribucibn binomial tenemos que, de acuerdo con ( 5- 10 ). ( 5- 13 ) V [ X] = pq + pq + . . . + pq = npq. Por tanto, V [ X ] = npq Respecto del problema anterior, cubntas partes defectuosas se espera encontrar en la muestra? Como lo que se nos pregunta es sobre el valor que asume E \ X\ , entonces de acuerdo con ( 5- 12 ) , esperamos encontrar np = 20( 0.1 ) = 2 partes defectuosas en la muestra de tamano 20. La forma de la distribucibn binomial depende de. los valores de p y de n. Si p = q = 0.5, la distribucibn sera simetrica independientemente del valor n , vease figura 5.4. Si p ¥ q la distribucibn serf sesgada. Dado un valor particular de n cuanto mayor sea la diferencia entre p y q, tanto mas serf acentuado el sesgamiento de la distribucibn. Si pq, serf sesgada a la izquierda. Sin embargo, al aumentar el valor n, la distribucibn se hace menos sesgada, vease figura 5.5 . El modelo binomial ha resultado adecuado para el andlisis inferencial en algunos estudios relacionados con el comportamiento y en general en aquellos aspectos que atanen a la estadistica no parametrica .
,
5.3.2 Distribucibn hlpergeombtrica La distribucibn binomial se basa en el supuesto de que la poblacibn eS infinita y de que la probabilidad de bxito permanece constante, lo cual se consigue en tales poblaciones o cuando se toman muestras con repeticibn ( reemplazo ) en poblaciones finitas. Cuando la poblacibn es finita y el muestreo se hace sin reemplazo, la probabilidad cambiarf para cada nueva observacibn. En tales circunstandas, se tendrf una distribu¬ cibn de probabilidad que se llama distribucion hipergeometrica. Ver en el suplemento V un m£ todo diferente de demostracidn
112 Estadfstica para las ciencias administrativas PM
Plx ) i
i k
k
0.3
n
0.6
n = 5
5
=
0.4
0.2
0.I
0.2
x
0 0
I
2
3
4
o 0
5
PUI
Ax)
A
l k
n = 15
12
3
/1
0.3
= 15
0.2
0.2 0.1
0
2
rrfrTU J .UTbri , », 4
6
10
8
-* x >
0
12
1
2
3
4
5
my
my
A
y
n = 30
0.15
k
n = 30
03
o. io
0.2
Th lilbhi-
. _TTTT
0.05 0 3
7
II
19
15
0J i
>. x
23
0
£
r
0
x
2
4
6
8
10
n
Figura 5.4 Distribution binomial, p = 0.5
Figura 5.5 Distributidn binomial, p=0.1
Para aplicar la distributidn hipergeometrica, ademds de que el muestreo se haga sin repetition y que la poblacibn sea finita, 6sta debe estar formada por dos grupos de individuos u objetos. Un primer grupo constituido por aquellos individuos que
Distribucidn de pmbabilidad 113 poseen la caracteristica objeto de estudio; el numero de sus elementos lo denotaremos N ; y el otro estara conformado por los que no poseen la caracteristica y el numero de sus elementos lo denotamos N2 . La variable con distribucion hipergeomdtrica debe
,
ser de la forma: X = numero de exitos ert los n ensayos ( muestreo sin repeticidn ). Los valores de probabilidad asodados a esta variable con distribucidn hipergeometrica dados por
estan
PIX
-
( N,
X] =
*)
•
,
0, l, . . n si n *£ /V
-
( 5 14 )
0, en otro caso Suponga que una empresa produce 100 unidadesde las cuales 90 son buenasy 10 son defectuosas. Se escogen 20 unidades sin reemplazo; halle la probabilidad de que resulten cinco defectuosas. Como podemos observar, se trata de un conteo de cierto numero de casos dentro de un total y ademds el muestreo se hace sin reemplazo. En cuanto a cuales objetos nos referimos en la cantidad Nt , dsta se asocia siempre con el aspecto en donde centramos nuestra atencidn para darle respuesta a los intenogantes, en nuestro caso JV = 10; y por tanto, N2 = 90. Al aplicar ( 5 14 ) tenemos.
,
-
P [ X = 5]
90 15 ( 100
l
20
90 ! 10 ! 20 ! 80 ! 15 ! 75 ! 5 ! 5 ! 100 !
= 0.0428
5.3.3 Distribucidn de Poisson Otra familia de distribuciones de probabilidad, tambidn de naturaleza discreta, es la llamada distribucidn de Poisson, llamada asi por el nombre de Simeon Denis Poisson ( 1781 1840 ), quien la describio por primera vez en 1837. Esta distribucidn ha resultado aplicable a muchos procesos en los que ocurren determinados sucesos por unidad de tiempo, espacio, volumen, area, etc. Son casos de este tipo los siguientes: - Numero de accidentes por semana en una autopista - Numero de personas que llegan en una hora a un banco en solicitud de servicios. - Numero de errores por pagina que comete una mecandgrafa, etc. La distribucidn de Poisson esta caracterizada porque sus respuestas estan orientadas a darle solucion a problemas que se refieren al numero de exitos esperados por unidad de tiempo o espacio, etc.; tal como la distribucidn binomial se caracteriza por el numero de exitos en n ensayos. La distribucidn de Poisson se puede considerar como el Ifmite de una binomial cuando n es muy grande y p muy pequeno y en realidad la unidad de espacio o tiempo que suele considerarse en una distribucidn de Poisson equivale al numero de ensayos al cual nos referimos en una binomial.2
-
.
2
Vease la deduccion en el suplemento V .
114 Estadfstica para las ciencias administrativas
Una variable con distribucibn de Poisson debe tener la estructura o responder interrogantes mediante el siguiente planteamiento: X = numero deveces que ocurreunsucesoen la unidad de tiempo, espacio, volumen, etc.
Los valores de probabilidad de una variable tal vienen dados por
(
P [ X = x] =
en donde X. o volumen.
=
~
e
xX *
.x
W)
0, l , 2, . . .
( 5- 15 )
0, en cualquierotrocaso
promedio de ocurrencia del suceso en la unidad de tiempo, espacio
fix = X y o x = X , e = 2.71828 ( esto es, el numero de Euler ). Suponga que el numero de llamadas que Megan a un conmutador es de 0.5 por minuto en promedio, halle la probabilidad de que: a ) en un minuto no lleguen llamadas b ) en un minuto lleguen mbs de tres llamadas c ) en tres minutos lleguen menos de cinco llamadas d ) en cinco minutos lleguen mbs de dos llamadas e ) £,cuantas llamadas se espera que lleguen en cinco minutos? Comp se trata de un conteo eri la unidad de tiempo consideramos la distribucibn de Poisson, que en este caso estb dada por la variable aleatoria, X = numero de llamadas en un minuto ( esto es para los literates a y b) con X = 0.5. Asi que ( 5- 15 ) nos queda
~
a) P[X
=
e
0]
° 5( 0.5 )°
0.607
0!
1 - P [ X =s 3] = l- e-
b ) P [ X > 3]
5
[ (0- 5 )°
[
0!
1- 0.998
+
( 0.5 )
I!
'
(0.5 )2
(0.5 )3
2!
3!
]
•
0.002
c ) En este caso el valor de X debe ser modificado acordte con el intervalo de tiempo que se estb tomando en cuenta que es de tres minutos, asf qtie X = 3( 0.5 ) = 1.5 . La variable ahora es, X = numero de llamadas que Megan en tres minutos.
_l 5
e
P [ X = x]
Plx
( l .5 ) x
(x !)
x
0, 1 , 2 , 3 , . . . 2
< 5] ,
0!
+
M
+ U24!i +
« ua +i 3! 4!
0.14
d ) En este: caso se hace una consideracibn consideracibi similar al caso cy tomamos X P[X
> 2]
=
I
-
P[ X
« 2]
iT 2.5! °
l - e-25
(
)
0
}
( 2.5 )
1!
'
+
( 23
f_
2!
]
=
5( 0.5 ) = 2.5 1 - 0.54 = 0.46
Distribution de probabilidad 115
e ) Como ya se comentd, cuando se trata de responder sobre una situacion esperada bsta se evalua mediante el valor esperado que para el caso presente es A = 2.5. Esto es, se espera que lleguen entre dos y tres llamadas en el intervalo de cinco minutos. Otro ejemplo. En una concurrida interseccion de tr&fico la probabilidad de que un automovil tenga accidentes es p = KT4. Si pasan 1,000 autombviles, halle la pro¬ babilidad de que ocurran dos o mbs accidentes. Como puede notarse, este caso presenta todas las caracteristicas para proponer una distribucibn binomial; pero debido a que el valor de p es muy pequeno y el valor de n grande, se utiliza la denominada aproximacidn de Poisson, la cual consiste en 4 tomar en cuenta esta distribucibn con A = np = ( 1,000) ( 10- ) = 0.1 y de esta forma la probabilidad es, 01 P [ X 3= 2] = 1- P [ X < 2] = l ll.OUe- = 1 - 0.995 = 0.005, siendo X = nu mero de accidentes en el intervalo de tiempo considerado. La curva de una distribucibn de Poisson es sesgada a la derecha, pero a medida que A aumenta la curva se va haciendo simetrica, vease figura 5.6
-
-
A fw
0.30
0.20
o. io o
( a)
1 2 3 4 5 6 7 8 9
A
A
=
2
PM
0.12 0.10 0.08
0.06 0.04 0.02 0
i
4
8
12
16
-*
>
20
24
28
*
( 6) A
10
Figura 5.6 Distribucidn de Poisson para valores de A = 2 y A = 10.
Ejerdcios
I
1.
5.3
Suponga que el 80% de las familias de una ciudad tienen casa propia . Sea Via variable aleatoria que toma el valor 1 cuando una familia elegida al azar en la ciudad es propietaria y 0 cuando no lo es. Halle la media y la varianza de V.
2. Si la probabilidad de obtener un fracaso es 0.1, construya un modelo probabilfstico de Bernoulli y calcule luego la media y la desviacion estandar de la variable aleatoria. i
P|.|X -
jxx|
farx]
&
La cual se interpretaal decir "la probabilidad dequeXquededentrode /cdesviaciones
estandares a partir de la media es por lo menos I muestral X nos queda:
*(
|- = j = ddel
al ser k
que aplicado a la media
)) » ' -F
*
que se hablo antes. Sea dun numero positivo pequeno cualquiera .
Si la muestra es suficientemente grande , se puede hacer la probabilidad de que X este menos de d de /x, tan prdximo a I como se desee. Por ejemplo, dado crx = 10 , si se quiere que la media muestral no este a mas de 5 unidades de la media de la poblacion con probabilidad del 99% por lo menos, habria que hacer el tamario de la muestra igual a 400, lo cual se calcula como sigue. Como
I
p- =
0.99 => k
Porotraparted
=
5
=
=
10
| Lj =>
lo
5
Vn =
100
=> VrT =
20
=> n =
400
_
Hasta aquf hemos estudiado las propiedades de la media muestral X sin hacer consideracion alguna de la distribucion de la variable en cuestidn . Ahora nos propo nemos estudiar el comportamiento de X cuando X se distribuye normalmente.
-
7.4 . 1 Distribucidn de X en una poblac!6n normal con media y varianza conocidas
Un resultado que se demuestra en estudios de estadistica matematica es el siguiente: Teorema 7.2 Si
Xt , X 2 , . . . ,Xn es una muestra aleatoria proveniente de una poblacion
normal de media /i y varianza o*x => la variable Y = con media ny =
(
X a,)/x y varianza o
/= i
y
=
( /
Xa,X, tiene distribucion normal
/= i
Xa / ltr2 = i
,
Asi por ejemplo, si se tiene una muestra aleatoria X , X 2 , X 3 proveniente de una poblacion normal de media 10 y varianza 9, la variable Y = X + 2 X 2 - X3 tiene distribucidn normal con media fiy = 2( 10 ) = 20 y varianza o2 = (6 )( 9 ) = 54. Del anterior teorema se tiene que si requerimos el cblculo de P [ Y < 31 ], por ejemplo. Entonces, partiendo del hecho Y ~ N [ 20 , 54 ) y mediante la estandarizacion de Y tenemos con utilizacidn de la tabla II . ( 31 - 20 ) 11 ( y - 20 ) P[ ] P[ Z < P [ Z < 1.5] = 0.9332 < Ji V 57 V 54 V 54 3
En el suplemento IV se da una demostracion de esta desigualdad .
,
160 Estadistica para las ciencias administrativas
0
1.5
Del teorema 7.2, se deduce el teorema que sigue:
,
Teorema 7.3 Si X , X 2 , . . . , Xn es una muestra aleatoria proveniente de una poblacion
con distribucion normal de media p yvarianza o2 ==> X = ( a . Esto es, X ~ N{ p, cion normal con media p y varianza
_
_
% X, ) / n tiene distribu2
y= )
V75
Suponga que una maquina dispensadora de bebidas gaseosas la cantidad que envasa es una variable aleatoria X que tiene distribucibn normal con media p, = 10 onzas y desviacibn estbndar de cr = 1. Y nos proponemos hacer 25 mediciones del liquido dispensado. a ) Exprese el significado de X b ) ,Que distribucion tiene X? c ) c,Cual es la probabilidad de que X sea por lo menos 10.3? En primer lugar tenemos a ) X = cantidad promedio de gaseosa dispensada «n las _ 25 mediciones. = px = 10 b ) Deacuerdo con el teorema 7.3, Xtiene distribucion normal con media
_
y varianza
2
CT
*
c ) P [ X 3* 10.3] =
=
n P[
=
_
25 103
~
1 /5
10 1 = P [ Z s* 1.5] = 1 - P [ Z
« f.5]
= 1 - 0.9332 = 0.0668
0
1.5
Otro problema. El tiempo que un cajero de banco tarda en atender a los dientes que se acercan a su ventanilla para solicitar servicio es una variable aleatoria distribuida normalmente. Se asegura que el tiempo promedio que tarda este cajero en atender
Distribution muestral 161
el publico es de 3.5 minutos con una desviacion estandar de l.2 minutos. Un observador inquieto tomo el tiempo a 36 clientes y obtuvo un promedio x = 4.3. Que puede decirse del promedio fi = 3.5 de acuerdo con este valor muestral? En este problema podemos veralgo del proceso inferencial. En la medida en que debemos tomar una decision acerca de un valor de parametro, la media en este caso, basado en un dato muestral. El procedimiento a desarrollar consiste de los siguientes pasos: l°. Admitimos que lo afirmado acerca del tiempo requerido por el cajero es cierto. Esto se plantea de la siguiente forma: Consideremos la variable, X = tiempo que tarda el cajero en atender cada cliente. Esta, de acuerdo con las condiciones del problema, tiene distribucion normal con media /u, = 3.5 y varianza o2 = ( I .20 ) 2 que graficamente se ilustra como sigue:
Figura 7.2 Distribucion de X. 2°. Localizamos sobre el eje horizontal el valor muestral, 4.3 en este caso
4.3
3.5
Figura 7.3 Distribucion de X . 3°. Calculamos la probabilidad ( area ) de que X sea mayor o igual a 4.3
P[X
*
4.3] =
|y
5
*
43
35
] = P [ Z 5* 0.8/0.2]
= P [ Z 2= 4] = 0
cCorno interpretar este valor de probabilidad?
Esta probabilidad de cero se interpreta diciendo que el valor muestral esta por fuera de la curva que representa X . Como esta curva es el resultado de la consideracion que hemos hecho sobre X, entonces estamos frente a una inconsistency entre lo supuesto y la realidad ( el dato muestral ). Como el dato muestral es incuestionable, el unico camino que nos queda para romper la inconsistencia es admitir que lo supuesto no es correcto. Tal incorreccion puede darse por muchas razones. Pero, como lo que se sometio a discusibn fue la media, suponemos que sobre lo demas no hay duda y asf tenemos como unica salida admitir que el valor de la media de 3.5 minutos no es correcto. Para el mismo problema suponga que el valor muestral fue dex = 3.8. En este caso, el paso 2° queda repre sentado en la figura 7.4 y calculamos el area (probabilidad ) a la derecha de 3.8.
-
162 Estadistica para las ciencias administrativas
3.5
Figura 7.4 Distribucidn de X P [ X 5= 3.8] = P [ ]
2/
3.8
Y
VJg
3
*
38
- 33 ] = P [ Z > 1.5] = 0.068
Q2
Lo que indica una porcion de area del 6.68%. En este caso, si admitimos que el valor muestral forma parte de la regi6n limitada por la curva y decimos que no hay evidencia para rechazar el valor = 3.5. Nota. Para que un valor x se considere dentro de la region debe dejar un area de cola con un mfnimo del 5%. Ahora supongamos que el valor muestral fue de 3 . En estas circunstancias el paso 2° toma la forma que se presenta en la figura 7.5.
Figura 7.5 Distribucidn de X .
El area a analizar ahora es la que queda a la izquierda de 3.5 y asi calculamos P [ X =s 3 ] 3 0.2
33
] = P [ Z *=:
-2.5] =
= 1 - 0.9938
1 - P [ Z =£ 2.5]
= 0.0062
y asi el valor p = 3.5 parece no ser correcto. Finalmente, algunos comentarios acerca del comportamiento de X que en poblaciones normales pueden resultar oportunos. Al tener X tambier distribucidn normal, la forma general de la curva de X y X es la misma. Pero la de X es mds concentrada alrededor de la media de la poblacion. Si n = 1, los valores de_X seran los mismos de X. Si el tamano de la muestra es mayor, el error estandar de X, cr/ VrT sera menor y, en consecuencia la cresta de la funcion de densidad sera mas alta. 7.4.2 Teorema del limite central
En la seccion precedente hemos estudiado 1 comportamiento de X en poblaciones normales y se obtuvo como conclusion que X tiene tambien distribucidn normal. Mas concretamente, la variable Z =
tiene distribucidn normal estandar. Sin
embargo, este resultado es aproximadamente correcto aun en poblaciones no norma les, como se establece en el siguiente teorema, llamado teorema del limite central.
¬
Distribucion muestral 163 Teorema 7.4 Teorema del limite central. Si X es la media de una muestra aleatoria de tamano n que se toma de una poblacion con media
y varianza finita a2 , entonces la variable
Zn
~
=
tiende a la
normal estandar a medida que n tiende a infinito. La importance de este resultado radica en que nos proporciona un medio para trabajar con X aun si desconocemos que distribucion tiene X ( la variable objeto de estudio ), de ahf su gran utilidad practica. El teorema del limite central puede describirse de otra forma que puede resultar mas clara para su interpretacion. X es una variable aleatoria de media fi y varianza a2 , la distribucion muestral de la media X de una muestra aleatoria de tamano n es aproximadamente normal con media fi y varianza a2 In si n es suficientemente grande . Simbolicamente se escribe X ~ Nip, (f / n ) . Cabe preguntarse, ia partir de que vajor n se puede considerar "suficientemente grande? En muchos casos, la tendencia de Xa distribute en forma normal es bastante acentuada, aun cuando las muestras sean de tamano moderado. Si bien se prefiere n 5= 100, en la mayorfa de las aplicaciones se considera suficiente una muestra de tamano 30 o mas para dermitir el ejppleo de la distribucion normal a fin de encontrar las probabilidades asociadas a X. La demostracion del teorema del limite central escapa al alcance de este libro; pero con el sencillo ejemplo que sigue, se mostrara la tendencia de la distribucion de Xde acercarse cada vez mas a la distribucion normal a medida que crece el tamano de la muestra. El ejercicio que desarrollaremos se hara al tomar los datos del problema que se considero al comienzo de este capi'tulo. Se trata de una variable aleatoria Xque toma los valores 2, 4, 6, 8. La distribucion de esta variable es como se indica en la tabla que sigue y su representacion grafica es como se senala en la figura 7.6 . Es la distribucion deXcuando el tamano de la muestra es igual a I. "Si
_
X
Pix )
2
1 4 F
4
4
6
Distribucion de X
T i
8
4
Plx ) 1/4 0
Figura 7.6 Distribucion de X .
2
4
6
8
,
Si se toman de esta poblacion muestras con repeticion de tamano 2, o sea X , X2, la suma de los valores de las dos observaciones para toda muestra posible aparece en las tablas que se dan a continuacion acompanadas de la distribucion muestral de X. La figura de abajo nos muestra la representacion grafica de X; en ella se puede notar como la distribucion se acerca mas a la normal.
164 Estadistica para las ciencias administrativas
+
2
4
6
8
2 4 6
4 6 8 10
6 8 10 12
8 10 12 14
10 12 14
8
Xt +
Media muestraI Probabllldad P( x ) X 3
16
PlJ)
4/ I 6 3 / 16 2/ 16 I / 16 0
16 3
4
X2 i i
i 16 2
2
764
5
76
6
76-
7
2 16 1
3
8
I
2
3 4
5 6 7
-*9 I0
8
7?
Total X
.
1.0
Distribudon de Y
Figura 7.7 Distribudon de X.
Si se aumentara el tamano de la muestra habrfa un mayor ntimero de muestras posibles y de madias muestrales y los puntos del grafico estarian mas cercanos a sus puntos adyacentes de los que estan en la figura 7.7. Por ejemplo, si n = 3, habra 10 diferentes medias muestrales posibles, como se muestra en la tabla 7.6. LadistribucidnygraficadeXparan = 3 es como se indica en la tabla siguiente y en la figura 7.8.
Media muestraI Probabllldad P( x ) x 2
3 |
4 4 _2_
5 _l_
6 6
7
8
Total
A
i 6 l 3 64 6 M I0 64 I2 64 I2 64
.12 64 6 64 3 64 I 64
/33?)
12/64 10/64 8/64 6/64 4/64
2/64 0 I
2
3
4
5
6
7
8
9
7
Figura 7.8 Distrlbuddn de Y.
1.0
Distribuddn de X Consideremos otro ejemplo. Para cierta prueba de aptitud se sabe con base en la experiencia que el numero de aciertos es en promedio 500 con una desviacion estandar de 60. Si se aplica esta prueba a 100 personas seleccionadas al azar, halle
Distribution muestrai 165
Tabla 7.6 Posibles muestras y medias con n = 3 , cuando X tiene el conjunto de valores posibles { 2, 4, 6, 8}. Suma
Muestras posibles
x,
*
2
x,
i x,
Media X
/ =i
Muestras posibles muestras X, x2 X3
Numero de
2
2
2
6
2
1
2 2 4
2 4 2
4 2 2
8
2 j
3
2
4 2 4 2 6 2
4 4 2
4 4
2 2 6 4
2 2 4 4 6
6 2 2 8 2 6 6 2 2 4 4 8
8 4 4 6
4 4 6 2
6
2 4 2 8 2 6
2 6 4
8 2 8
2 4 4 6 4
2 2 6 6 8 8 4 6 6 4 4 8
6 8 2 8 2 6 6 4 6 4 8 4
4
2
6 4 6 2 4 2 8 2 2
8 8 4 4 6 6 8 8 6
8 2 8 6 8
6
10
6 2 2
6 6 2 8 4 8 2 4 2 6 4 4
12
14
4
4
10
j
12
4 8 4 6 6
Suma
Media
i x,
X
de muestras
/ =i
8 6 8 2 6
2 6 6
Ntimero
12
16
4
8 4 4
8 8 2 8 6 8 4 6 4 6
18
6
10
4
8
8 8 6 6 8
4 4 6 8 6
8 8 4 8 6 6
6 8 8
8 6 8
8 8 6
22
7T
3
8
8
8
24
8
1
6
20
la probabilidad de que tengan un promedio de aciertos, a ) mayor de 512; b) menor de 496. En primer lugar precisamos la variable que vamos a analizar. X = Numero de aciertos que tiene la persona. La distribucion de esta variable no es conocida . Pero, como se trata de responder una probabilidad asociada con X, podemos fundamentarnos en el teorema del limite central para dar respuestas a los interrogantes planteados.
166 Estadfstica para las ciencias administrativas
De acuerdo con el teorema del Ii'mite central, JT ~ A/I500, ( 60 ) 2/ 100 ) y asi para la parte a ). ~ 512 ~ 500 s* ] = P \Z 3= 2] = I - P [ Z « 2 ] P [ X 5= 512] = P [ 6 I - 0.9772 = 0.0228
*
6300
2.0
Para el literal b) se tiene, P [ X
< 495]
= P[ = P [Z
6
] 0.17 ] = p[!
= 1 - P [Z
> H M ] = P[Z > 2.33]
«
2.33 ] = 1 - 0.9901 = 0.0099
Distribution muestral 167
lgualmente se tiene P [ p